論文の概要: Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating basic world knowledge in language models
- arxiv url: http://arxiv.org/abs/2405.09605v1
- Date: Wed, 15 May 2024 17:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-17 16:09:33.681057
- Title: Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating basic world knowledge in language models
- Title(参考訳): 世界知識の要素(EWOK):言語モデルにおける基本的な世界知識を評価するための認知にインスパイアされたフレームワーク
- Authors: Anna A. Ivanova, Aalok Sathe, Benjamin Lipkin, Unnathi Kumar, Setayesh Radkani, Thomas H. Clark, Carina Kauf, Jennifer Hu, R. T. Pramod, Gabriel Grand, Vivian Paulun, Maria Ryskina, Ekin Akyurek, Ethan Wilcox, Nafisa Rashid, Leshem Chosen, Roger Levy, Evelina Fedorenko, Joshua Tenenbaum, Jacob Andreas,
- Abstract要約: 本稿では,言語モデルにおける世界モデリングを評価するためのフレームワークであるElements of World Knowledge(EWOK)について述べる。
EWOKは、人間の世界モデリングに不可欠な複数の知識領域から特定の概念をターゲットにしている。
次に,世界11の知識領域をカバーする4,374項目のデータセットであるEWOK-CORE-1.0を紹介する。
- 参考スコア(独自算出の注目度): 42.48862540545121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to build and leverage world models is essential for a general-purpose AI agent. Testing such capabilities is hard, in part because the building blocks of world models are ill-defined. We present Elements of World Knowledge (EWOK), a framework for evaluating world modeling in language models by testing their ability to use knowledge of a concept to match a target text with a plausible/implausible context. EWOK targets specific concepts from multiple knowledge domains known to be vital for world modeling in humans. Domains range from social interactions (help/hinder) to spatial relations (left/right). Both, contexts and targets are minimal pairs. Objects, agents, and locations in the items can be flexibly filled in enabling easy generation of multiple controlled datasets. We then introduce EWOK-CORE-1.0, a dataset of 4,374 items covering 11 world knowledge domains. We evaluate 20 openweights large language models (1.3B--70B parameters) across a battery of evaluation paradigms along with a human norming study comprising 12,480 measurements. The overall performance of all tested models is worse than human performance, with results varying drastically across domains. These data highlight simple cases where even large models fail and present rich avenues for targeted research on LLM world modeling capabilities.
- Abstract(参考訳): 世界モデルの構築と活用は、汎用AIエージェントにとって不可欠である。
このような機能をテストするのは難しく、その理由のひとつは、世界モデルのビルディングブロックが未定義であるためです。
本稿では,言語モデルにおける世界モデリングを評価するためのフレームワークであるElements of World Knowledge(EWOK)について述べる。
EWOKは、人間の世界モデリングに不可欠な複数の知識領域から特定の概念をターゲットにしている。
領域は社会的相互作用(help/hinder)から空間的関係(左/右)まで様々である。
コンテキストとターゲットはどちらも最小のペアです。
アイテム内のオブジェクト、エージェント、場所は柔軟に満たされ、複数の制御されたデータセットを簡単に生成できる。
次に,世界11の知識領域をカバーする4,374項目のデータセットであるEWOK-CORE-1.0を紹介する。
評価パラダイムのバッテリにまたがる20個のオープンウェイト大言語モデル (1.3B--70Bパラメータ) と12,480個の測定値からなる人間の規範化研究を行った。
すべてのテストされたモデルの全体的なパフォーマンスは、人間のパフォーマンスよりも悪く、その結果はドメインによって大きく異なる。
これらのデータは、たとえ大きなモデルであっても失敗し、LLMの世界モデリング機能を対象とした研究のための豊富な道を示す単純な事例を浮き彫りにしている。
関連論文リスト
- Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models [93.1043186636177]
我々は、人々が分散表現と象徴表現の組み合わせを使って、新しい状況に合わせた見知らぬ精神モデルを構築するという仮説を探求する。
モデル合成アーキテクチャ」という概念の計算的実装を提案する。
我々は、新しい推論データセットに基づく人間の判断のモデルとして、MSAを評価した。
論文 参考訳(メタデータ) (2025-07-16T18:01:03Z) - PoE-World: Compositional World Modeling with Products of Programmatic Experts [41.07916209987106]
世界がどのように機能するかを学ぶことは、複雑な環境に適応できるAIエージェントの構築の中心である。
LLM(Large Language Models)を用いたプログラム合成の最近の進歩は、ソースコードとして表現された世界モデルを学ぶための代替アプローチを提供する。
このアプローチは,数個の観測結果から複雑な世界モデルを学習できることを示し,これらをモデルベース計画エージェントに組み込むことで,AtariのPongとMontezumaのRevengeの未確認レベルに対する効率的な性能と一般化を実証する。
論文 参考訳(メタデータ) (2025-05-16T03:28:42Z) - Learning Local Causal World Models with State Space Models and Attention [1.5498250598583487]
本研究では,SSMが単純な環境のダイナミクスをモデル化し,因果モデルを同時に学習できることを示す。
我々は、SSMの強みに傾倒するさらなる実験の道を開き、因果意識でそれらをさらに強化する。
論文 参考訳(メタデータ) (2025-05-04T11:57:02Z) - AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。
評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文 参考訳(メタデータ) (2025-04-06T20:35:44Z) - FRIDA to the Rescue! Analyzing Synthetic Data Effectiveness in Object-Based Common Sense Reasoning for Disaster Response [19.744969357182665]
Field Ready Instruction Decoding Agent (FRIDA)モデルを作成するパイプラインを導入する。
我々は、LLaMaとMistralの命令調整モデルをいくつか微調整し、FRIDAモデルがベースモデルよりも様々なサイズで優れていることを発見した。
我々は、FRIDAパイプラインは一般的な常識を具現化することができるが、特定のドメイン知識のための情報検索によって拡張する必要があると結論付けた。
論文 参考訳(メタデータ) (2025-02-25T18:51:06Z) - Text2World: Benchmarking Large Language Models for Symbolic World Model Generation [45.03755994315517]
ドメイン定義言語(PDDL)に基づいた新しいベンチマークであるText2Worldを導入する。
大規模強化学習で訓練された推論モデルは、他よりも優れていることがわかった。
これらの知見に基づいて,LLMの世界モデリング能力を高めるためのいくつかの有望な戦略について検討する。
論文 参考訳(メタデータ) (2025-02-18T17:59:48Z) - Large language models for artificial general intelligence (AGI): A survey of foundational principles and approaches [0.0]
MLLM(Multimodal large language model)は、多種多様なデータソースから学習する。
この驚くべき偉業にもかかわらず、大規模なデータセットで訓練された最先端のLLMの認知能力は、まだ表面的で不安定だ。
本稿では, エンボディメント, シンボル接地, 因果性, 記憶の原理を, 有機的手法で人工知能(AGI)の達成に活用する方法について論じる。
論文 参考訳(メタデータ) (2025-01-06T17:18:47Z) - Making Large Language Models into World Models with Precondition and Effect Knowledge [1.8561812622368763]
本研究では,Large Language Models (LLM) を2つの重要な世界モデル関数の実行に利用することができることを示す。
我々は、我々のモデルが生み出す前提条件と効果知識が、世界力学の人間の理解と一致していることを検証する。
論文 参考訳(メタデータ) (2024-09-18T19:28:04Z) - Evaluating the World Model Implicit in a Generative Model [7.317896355747284]
最近の研究は、大きな言語モデルが暗黙的に世界モデルを学ぶことを示唆している。
これには、単純な論理的推論、地理的ナビゲーション、ゲームプレイング、化学といった問題が含まれる。
我々は,古典的なマイヒル・ネローデ定理に触発された世界モデル回復のための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-06T02:20:31Z) - WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning [49.72868038180909]
マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。
質問の定式化に不可欠な5つの世界知識を同定する。
我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
論文 参考訳(メタデータ) (2024-05-06T08:42:34Z) - Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection [9.788417605537965]
条件付き多レベルデコードと細粒度セマンティックエンハンスメントを備えた新しいエンドツーエンドオープン語彙HOI検出フレームワークを提案する。
提案手法は,開語彙HOI検出の最先端化を実現する。
論文 参考訳(メタデータ) (2024-04-09T10:27:22Z) - Assessment of Multimodal Large Language Models in Alignment with Human Values [43.023052912326314]
提案するCh3Efは,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef。
Ch3Efデータセットには、hhh原則に基づいた12のドメインと46のタスクを含む、1002人の注釈付きデータサンプルが含まれている。
論文 参考訳(メタデータ) (2024-03-26T16:10:21Z) - Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。
本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:56:06Z) - Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models [74.81091933317882]
進化するウィキペディアデータベース上でのLMのトレーニングと評価を目的とした,時間的に進化する質問応答ベンチマークであるEvolvingQAを紹介する。
既存の継続的な学習ベースラインが、時代遅れの知識の更新と削除に悩まされていることを明らかにする。
本研究の目的は,実世界の情報の動的性質をモデル化することであり,言語モデルの進化適応性を忠実に評価することである。
論文 参考訳(メタデータ) (2023-11-14T12:12:02Z) - The All-Seeing Project: Towards Panoptic Visual Recognition and
Understanding of the Open World [71.52132776748628]
オープンな世界のすべてを認識、理解するための大規模データとモデルであるAll-Seeing (AS)プロジェクトを紹介します。
我々は10億以上の領域に意味タグ、質問応答ペア、詳細なキャプションを付加した新しいデータセット(AS-1B)を作成します。
視覚認識と理解のための統合フレームワークであるAll-Seeing Model (ASM) を開発した。
論文 参考訳(メタデータ) (2023-08-03T17:59:47Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Language Models Meet World Models: Embodied Experiences Enhance Language
Models [48.70726641605047]
大規模言語モデル(LM)は、物理的環境における単純な推論と計画にしばしば苦労する。
我々は、世界モデルでそれらを微調整することで、LMを強化する新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-18T00:35:38Z) - CAZSL: Zero-Shot Regression for Pushing Models by Generalizing Through
Context [13.217582954907234]
本研究では、文脈認識モデルを構築することにより、物理世界のモデルを一般化できるディープラーニングエージェントを設計する問題について検討する。
本稿では、文脈対応ゼロショット学習(CAZSL)モデル、シームズネットワークを利用したアプローチ、埋め込み空間、文脈変数に基づく正規化を提案する。
提案した学習アルゴリズムを最近リリースされたOmnipushデータセット上でテストし、メタ学習機能のテストを可能にした。
論文 参考訳(メタデータ) (2020-03-26T01:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。