論文の概要: Elements of World Knowledge (EWoK): A Cognition-Inspired Framework for Evaluating Basic World Knowledge in Language Models
- arxiv url: http://arxiv.org/abs/2405.09605v2
- Date: Thu, 03 Jul 2025 20:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.055467
- Title: Elements of World Knowledge (EWoK): A Cognition-Inspired Framework for Evaluating Basic World Knowledge in Language Models
- Title(参考訳): 世界知識の要素(EWoK):言語モデルにおける基本世界知識の評価のための認知にインスパイアされたフレームワーク
- Authors: Anna A. Ivanova, Aalok Sathe, Benjamin Lipkin, Unnathi Kumar, Setayesh Radkani, Thomas H. Clark, Carina Kauf, Jennifer Hu, R. T. Pramod, Gabriel Grand, Vivian Paulun, Maria Ryskina, Ekin Akyürek, Ethan Wilcox, Nafisa Rashid, Leshem Choshen, Roger Levy, Evelina Fedorenko, Joshua Tenenbaum, Jacob Andreas,
- Abstract要約: 要素・オブ・ワールド・ナレッジ(Elements of World Knowledge, EWoK)は、言語モデルによる世界モデリングの基礎となる概念的知識の理解を評価するためのフレームワークである。
EWoK-core-1.0は世界11の知識領域をカバーする4,374項目のデータセットである。
すべてのテストされたモデルは人間よりもパフォーマンスが悪く、その結果はドメインによって大きく異なる。
- 参考スコア(独自算出の注目度): 51.891804790725686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to build and reason about models of the world is essential for situated language understanding. But evaluating world modeling capabilities in modern AI systems -- especially those based on language models -- has proven challenging, in large part because of the difficulty of disentangling conceptual knowledge about the world from knowledge of surface co-occurrence statistics. This paper presents Elements of World Knowledge (EWoK), a framework for evaluating language models' understanding of the conceptual knowledge underlying world modeling. EWoK targets specific concepts from multiple knowledge domains known to be important for world modeling in humans, from social interactions (help, deceive) to spatial relations (left, right). Objects, agents, and locations in the items can be flexibly filled in, enabling easy generation of multiple controlled datasets. We then introduce EWoK-core-1.0, a dataset of 4,374 items covering 11 world knowledge domains. We evaluate 20 open-weights large language models (1.3B--70B parameters) and compare them with human performance. All tested models perform worse than humans, with results varying drastically across domains. Performance on social interactions and social properties was highest and performance on physical relations and spatial relations was lowest. Overall, this dataset highlights simple cases where even large models struggle and presents rich avenues for targeted research on LLM world modeling capabilities.
- Abstract(参考訳): 世界のモデルを構築し、推論する能力は、位置する言語理解にとって不可欠である。
しかし、現代のAIシステム(特に言語モデルに基づくもの)における世界モデリング能力の評価は、表面的共起統計の知識から世界に関する概念的な知識を遠ざけるのが困難であることから、非常に難しいことが証明されている。
本稿では,世界モデリングの基礎となる概念的知識に対する言語モデルによる理解を評価するためのフレームワークであるElements of World Knowledge (EWoK)について述べる。
EWoKは、社会的相互作用(help、deceive)から空間的関係(left、 right)まで、人間の世界モデリングにおいて重要な複数の知識領域から特定の概念をターゲットにしている。
アイテム内のオブジェクト、エージェント、場所を柔軟に埋め込むことができ、複数の制御されたデータセットを簡単に生成できる。
次に、11の世界の知識ドメインをカバーする4,374項目のデータセットであるEWoK-core-1.0を紹介する。
オープンウェイトな大言語モデル(1.3B--70Bパラメータ)を20種類評価し,人的性能と比較した。
すべてのテストされたモデルは人間よりもパフォーマンスが悪く、その結果はドメインによって大きく異なる。
社会的相互作用や社会的特性のパフォーマンスが最も高く,身体的関係や空間的関係は低かった。
全体として、このデータセットは、大きなモデルでさえも苦労し、LLMの世界モデリング機能を対象とした研究のための豊富な道を示す単純なケースを強調している。
関連論文リスト
- AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。
評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文 参考訳(メタデータ) (2025-04-06T20:35:44Z) - FRIDA to the Rescue! Analyzing Synthetic Data Effectiveness in Object-Based Common Sense Reasoning for Disaster Response [19.744969357182665]
Field Ready Instruction Decoding Agent (FRIDA)モデルを作成するパイプラインを導入する。
我々は、LLaMaとMistralの命令調整モデルをいくつか微調整し、FRIDAモデルがベースモデルよりも様々なサイズで優れていることを発見した。
我々は、FRIDAパイプラインは一般的な常識を具現化することができるが、特定のドメイン知識のための情報検索によって拡張する必要があると結論付けた。
論文 参考訳(メタデータ) (2025-02-25T18:51:06Z) - Text2World: Benchmarking Large Language Models for Symbolic World Model Generation [45.03755994315517]
ドメイン定義言語(PDDL)に基づいた新しいベンチマークであるText2Worldを導入する。
大規模強化学習で訓練された推論モデルは、他よりも優れていることがわかった。
これらの知見に基づいて,LLMの世界モデリング能力を高めるためのいくつかの有望な戦略について検討する。
論文 参考訳(メタデータ) (2025-02-18T17:59:48Z) - Evaluating the World Model Implicit in a Generative Model [7.317896355747284]
最近の研究は、大きな言語モデルが暗黙的に世界モデルを学ぶことを示唆している。
これには、単純な論理的推論、地理的ナビゲーション、ゲームプレイング、化学といった問題が含まれる。
我々は,古典的なマイヒル・ネローデ定理に触発された世界モデル回復のための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-06T02:20:31Z) - WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning [49.72868038180909]
マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。
質問の定式化に不可欠な5つの世界知識を同定する。
我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
論文 参考訳(メタデータ) (2024-05-06T08:42:34Z) - Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection [9.788417605537965]
条件付き多レベルデコードと細粒度セマンティックエンハンスメントを備えた新しいエンドツーエンドオープン語彙HOI検出フレームワークを提案する。
提案手法は,開語彙HOI検出の最先端化を実現する。
論文 参考訳(メタデータ) (2024-04-09T10:27:22Z) - Assessment of Multimodal Large Language Models in Alignment with Human Values [43.023052912326314]
提案するCh3Efは,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef。
Ch3Efデータセットには、hhh原則に基づいた12のドメインと46のタスクを含む、1002人の注釈付きデータサンプルが含まれている。
論文 参考訳(メタデータ) (2024-03-26T16:10:21Z) - Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。
本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:56:06Z) - The All-Seeing Project: Towards Panoptic Visual Recognition and
Understanding of the Open World [71.52132776748628]
オープンな世界のすべてを認識、理解するための大規模データとモデルであるAll-Seeing (AS)プロジェクトを紹介します。
我々は10億以上の領域に意味タグ、質問応答ペア、詳細なキャプションを付加した新しいデータセット(AS-1B)を作成します。
視覚認識と理解のための統合フレームワークであるAll-Seeing Model (ASM) を開発した。
論文 参考訳(メタデータ) (2023-08-03T17:59:47Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - CAZSL: Zero-Shot Regression for Pushing Models by Generalizing Through
Context [13.217582954907234]
本研究では、文脈認識モデルを構築することにより、物理世界のモデルを一般化できるディープラーニングエージェントを設計する問題について検討する。
本稿では、文脈対応ゼロショット学習(CAZSL)モデル、シームズネットワークを利用したアプローチ、埋め込み空間、文脈変数に基づく正規化を提案する。
提案した学習アルゴリズムを最近リリースされたOmnipushデータセット上でテストし、メタ学習機能のテストを可能にした。
論文 参考訳(メタデータ) (2020-03-26T01:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。