論文の概要: Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating basic world knowledge in language models
- arxiv url: http://arxiv.org/abs/2405.09605v1
- Date: Wed, 15 May 2024 17:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 16:09:33.681057
- Title: Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating basic world knowledge in language models
- Title(参考訳): 世界知識の要素(EWOK):言語モデルにおける基本的な世界知識を評価するための認知にインスパイアされたフレームワーク
- Authors: Anna A. Ivanova, Aalok Sathe, Benjamin Lipkin, Unnathi Kumar, Setayesh Radkani, Thomas H. Clark, Carina Kauf, Jennifer Hu, R. T. Pramod, Gabriel Grand, Vivian Paulun, Maria Ryskina, Ekin Akyurek, Ethan Wilcox, Nafisa Rashid, Leshem Chosen, Roger Levy, Evelina Fedorenko, Joshua Tenenbaum, Jacob Andreas,
- Abstract要約: 本稿では,言語モデルにおける世界モデリングを評価するためのフレームワークであるElements of World Knowledge(EWOK)について述べる。
EWOKは、人間の世界モデリングに不可欠な複数の知識領域から特定の概念をターゲットにしている。
次に,世界11の知識領域をカバーする4,374項目のデータセットであるEWOK-CORE-1.0を紹介する。
- 参考スコア(独自算出の注目度): 42.48862540545121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to build and leverage world models is essential for a general-purpose AI agent. Testing such capabilities is hard, in part because the building blocks of world models are ill-defined. We present Elements of World Knowledge (EWOK), a framework for evaluating world modeling in language models by testing their ability to use knowledge of a concept to match a target text with a plausible/implausible context. EWOK targets specific concepts from multiple knowledge domains known to be vital for world modeling in humans. Domains range from social interactions (help/hinder) to spatial relations (left/right). Both, contexts and targets are minimal pairs. Objects, agents, and locations in the items can be flexibly filled in enabling easy generation of multiple controlled datasets. We then introduce EWOK-CORE-1.0, a dataset of 4,374 items covering 11 world knowledge domains. We evaluate 20 openweights large language models (1.3B--70B parameters) across a battery of evaluation paradigms along with a human norming study comprising 12,480 measurements. The overall performance of all tested models is worse than human performance, with results varying drastically across domains. These data highlight simple cases where even large models fail and present rich avenues for targeted research on LLM world modeling capabilities.
- Abstract(参考訳): 世界モデルの構築と活用は、汎用AIエージェントにとって不可欠である。
このような機能をテストするのは難しく、その理由のひとつは、世界モデルのビルディングブロックが未定義であるためです。
本稿では,言語モデルにおける世界モデリングを評価するためのフレームワークであるElements of World Knowledge(EWOK)について述べる。
EWOKは、人間の世界モデリングに不可欠な複数の知識領域から特定の概念をターゲットにしている。
領域は社会的相互作用(help/hinder)から空間的関係(左/右)まで様々である。
コンテキストとターゲットはどちらも最小のペアです。
アイテム内のオブジェクト、エージェント、場所は柔軟に満たされ、複数の制御されたデータセットを簡単に生成できる。
次に,世界11の知識領域をカバーする4,374項目のデータセットであるEWOK-CORE-1.0を紹介する。
評価パラダイムのバッテリにまたがる20個のオープンウェイト大言語モデル (1.3B--70Bパラメータ) と12,480個の測定値からなる人間の規範化研究を行った。
すべてのテストされたモデルの全体的なパフォーマンスは、人間のパフォーマンスよりも悪く、その結果はドメインによって大きく異なる。
これらのデータは、たとえ大きなモデルであっても失敗し、LLMの世界モデリング機能を対象とした研究のための豊富な道を示す単純な事例を浮き彫りにしている。
関連論文リスト
- Text2World: Benchmarking Large Language Models for Symbolic World Model Generation [41.02446816970586]
ドメイン定義言語(PDDL)に基づいた新しいベンチマークであるText2Worldを導入する。
大規模強化学習で訓練された推論モデルは、他よりも優れていることがわかった。
これらの知見に基づいて,LLMの世界モデリング能力を高めるためのいくつかの有望な戦略について検討する。
論文 参考訳(メタデータ) (2025-02-18T17:59:48Z) - Evaluating the World Model Implicit in a Generative Model [7.317896355747284]
最近の研究は、大きな言語モデルが暗黙的に世界モデルを学ぶことを示唆している。
これには、単純な論理的推論、地理的ナビゲーション、ゲームプレイング、化学といった問題が含まれる。
我々は,古典的なマイヒル・ネローデ定理に触発された世界モデル回復のための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-06T02:20:31Z) - WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning [49.72868038180909]
マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。
質問の定式化に不可欠な5つの世界知識を同定する。
我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
論文 参考訳(メタデータ) (2024-05-06T08:42:34Z) - Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection [9.788417605537965]
条件付き多レベルデコードと細粒度セマンティックエンハンスメントを備えた新しいエンドツーエンドオープン語彙HOI検出フレームワークを提案する。
提案手法は,開語彙HOI検出の最先端化を実現する。
論文 参考訳(メタデータ) (2024-04-09T10:27:22Z) - Assessment of Multimodal Large Language Models in Alignment with Human Values [43.023052912326314]
提案するCh3Efは,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef。
Ch3Efデータセットには、hhh原則に基づいた12のドメインと46のタスクを含む、1002人の注釈付きデータサンプルが含まれている。
論文 参考訳(メタデータ) (2024-03-26T16:10:21Z) - Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。
本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:56:06Z) - The All-Seeing Project: Towards Panoptic Visual Recognition and
Understanding of the Open World [71.52132776748628]
オープンな世界のすべてを認識、理解するための大規模データとモデルであるAll-Seeing (AS)プロジェクトを紹介します。
我々は10億以上の領域に意味タグ、質問応答ペア、詳細なキャプションを付加した新しいデータセット(AS-1B)を作成します。
視覚認識と理解のための統合フレームワークであるAll-Seeing Model (ASM) を開発した。
論文 参考訳(メタデータ) (2023-08-03T17:59:47Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - CAZSL: Zero-Shot Regression for Pushing Models by Generalizing Through
Context [13.217582954907234]
本研究では、文脈認識モデルを構築することにより、物理世界のモデルを一般化できるディープラーニングエージェントを設計する問題について検討する。
本稿では、文脈対応ゼロショット学習(CAZSL)モデル、シームズネットワークを利用したアプローチ、埋め込み空間、文脈変数に基づく正規化を提案する。
提案した学習アルゴリズムを最近リリースされたOmnipushデータセット上でテストし、メタ学習機能のテストを可能にした。
論文 参考訳(メタデータ) (2020-03-26T01:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。