Fugu-MT 論文翻訳(概要): Elements of World Knowledge (EWoK): A Cognition-Inspired Framework for Evaluating Basic World Knowledge in Language Models

論文の概要: Elements of World Knowledge (EWoK): A Cognition-Inspired Framework for Evaluating Basic World Knowledge in Language Models

arxiv url: http://arxiv.org/abs/2405.09605v2
Date: Thu, 03 Jul 2025 20:10:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:34.055467
Title: Elements of World Knowledge (EWoK): A Cognition-Inspired Framework for Evaluating Basic World Knowledge in Language Models
Title（参考訳）: 世界知識の要素(EWoK):言語モデルにおける基本世界知識の評価のための認知にインスパイアされたフレームワーク
Authors: Anna A. Ivanova, Aalok Sathe, Benjamin Lipkin, Unnathi Kumar, Setayesh Radkani, Thomas H. Clark, Carina Kauf, Jennifer Hu, R. T. Pramod, Gabriel Grand, Vivian Paulun, Maria Ryskina, Ekin Akyürek, Ethan Wilcox, Nafisa Rashid, Leshem Choshen, Roger Levy, Evelina Fedorenko, Joshua Tenenbaum, Jacob Andreas,
Abstract要約: 要素・オブ・ワールド・ナレッジ(Elements of World Knowledge, EWoK)は、言語モデルによる世界モデリングの基礎となる概念的知識の理解を評価するためのフレームワークである。 EWoK-core-1.0は世界11の知識領域をカバーする4,374項目のデータセットである。すべてのテストされたモデルは人間よりもパフォーマンスが悪く、その結果はドメインによって大きく異なる。
参考スコア（独自算出の注目度）: 51.891804790725686
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ability to build and reason about models of the world is essential for situated language understanding. But evaluating world modeling capabilities in modern AI systems -- especially those based on language models -- has proven challenging, in large part because of the difficulty of disentangling conceptual knowledge about the world from knowledge of surface co-occurrence statistics. This paper presents Elements of World Knowledge (EWoK), a framework for evaluating language models' understanding of the conceptual knowledge underlying world modeling. EWoK targets specific concepts from multiple knowledge domains known to be important for world modeling in humans, from social interactions (help, deceive) to spatial relations (left, right). Objects, agents, and locations in the items can be flexibly filled in, enabling easy generation of multiple controlled datasets. We then introduce EWoK-core-1.0, a dataset of 4,374 items covering 11 world knowledge domains. We evaluate 20 open-weights large language models (1.3B--70B parameters) and compare them with human performance. All tested models perform worse than humans, with results varying drastically across domains. Performance on social interactions and social properties was highest and performance on physical relations and spatial relations was lowest. Overall, this dataset highlights simple cases where even large models struggle and presents rich avenues for targeted research on LLM world modeling capabilities.
Abstract（参考訳）: 世界のモデルを構築し、推論する能力は、位置する言語理解にとって不可欠である。しかし、現代のAIシステム(特に言語モデルに基づくもの)における世界モデリング能力の評価は、表面的共起統計の知識から世界に関する概念的な知識を遠ざけるのが困難であることから、非常に難しいことが証明されている。本稿では,世界モデリングの基礎となる概念的知識に対する言語モデルによる理解を評価するためのフレームワークであるElements of World Knowledge (EWoK)について述べる。 EWoKは、社会的相互作用(help、deceive)から空間的関係(left、 right)まで、人間の世界モデリングにおいて重要な複数の知識領域から特定の概念をターゲットにしている。アイテム内のオブジェクト、エージェント、場所を柔軟に埋め込むことができ、複数の制御されたデータセットを簡単に生成できる。次に、11の世界の知識ドメインをカバーする4,374項目のデータセットであるEWoK-core-1.0を紹介する。オープンウェイトな大言語モデル(1.3B--70Bパラメータ)を20種類評価し,人的性能と比較した。すべてのテストされたモデルは人間よりもパフォーマンスが悪く、その結果はドメインによって大きく異なる。社会的相互作用や社会的特性のパフォーマンスが最も高く,身体的関係や空間的関係は低かった。全体として、このデータセットは、大きなモデルでさえも苦労し、LLMの世界モデリング機能を対象とした研究のための豊富な道を示す単純なケースを強調している。

関連論文リスト

Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models [93.1043186636177]
我々は、人々が分散表現と象徴表現の組み合わせを使って、新しい状況に合わせた見知らぬ精神モデルを構築するという仮説を探求する。モデル合成アーキテクチャ」という概念の計算的実装を提案する。我々は、新しい推論データセットに基づく人間の判断のモデルとして、MSAを評価した。
論文参考訳（メタデータ） (2025-07-16T18:01:03Z)
PoE-World: Compositional World Modeling with Products of Programmatic Experts [41.07916209987106]
世界がどのように機能するかを学ぶことは、複雑な環境に適応できるAIエージェントの構築の中心である。 LLM(Large Language Models)を用いたプログラム合成の最近の進歩は、ソースコードとして表現された世界モデルを学ぶための代替アプローチを提供する。このアプローチは,数個の観測結果から複雑な世界モデルを学習できることを示し,これらをモデルベース計画エージェントに組み込むことで,AtariのPongとMontezumaのRevengeの未確認レベルに対する効率的な性能と一般化を実証する。
論文参考訳（メタデータ） (2025-05-16T03:28:42Z)
Learning Local Causal World Models with State Space Models and Attention [1.5498250598583487]
本研究では,SSMが単純な環境のダイナミクスをモデル化し,因果モデルを同時に学習できることを示す。我々は、SSMの強みに傾倒するさらなる実験の道を開き、因果意識でそれらをさらに強化する。
論文参考訳（メタデータ） (2025-05-04T11:57:02Z)
AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文参考訳（メタデータ） (2025-04-06T20:35:44Z)
FRIDA to the Rescue! Analyzing Synthetic Data Effectiveness in Object-Based Common Sense Reasoning for Disaster Response [19.744969357182665]
Field Ready Instruction Decoding Agent (FRIDA)モデルを作成するパイプラインを導入する。我々は、LLaMaとMistralの命令調整モデルをいくつか微調整し、FRIDAモデルがベースモデルよりも様々なサイズで優れていることを発見した。我々は、FRIDAパイプラインは一般的な常識を具現化することができるが、特定のドメイン知識のための情報検索によって拡張する必要があると結論付けた。
論文参考訳（メタデータ） (2025-02-25T18:51:06Z)
Text2World: Benchmarking Large Language Models for Symbolic World Model Generation [45.03755994315517]
ドメイン定義言語(PDDL)に基づいた新しいベンチマークであるText2Worldを導入する。大規模強化学習で訓練された推論モデルは、他よりも優れていることがわかった。これらの知見に基づいて,LLMの世界モデリング能力を高めるためのいくつかの有望な戦略について検討する。
論文参考訳（メタデータ） (2025-02-18T17:59:48Z)
Large language models for artificial general intelligence (AGI): A survey of foundational principles and approaches [0.0]
MLLM(Multimodal large language model)は、多種多様なデータソースから学習する。この驚くべき偉業にもかかわらず、大規模なデータセットで訓練された最先端のLLMの認知能力は、まだ表面的で不安定だ。本稿では, エンボディメント, シンボル接地, 因果性, 記憶の原理を, 有機的手法で人工知能(AGI)の達成に活用する方法について論じる。
論文参考訳（メタデータ） (2025-01-06T17:18:47Z)
Making Large Language Models into World Models with Precondition and Effect Knowledge [1.8561812622368763]
本研究では,Large Language Models (LLM) を2つの重要な世界モデル関数の実行に利用することができることを示す。我々は、我々のモデルが生み出す前提条件と効果知識が、世界力学の人間の理解と一致していることを検証する。
論文参考訳（メタデータ） (2024-09-18T19:28:04Z)
Evaluating the World Model Implicit in a Generative Model [7.317896355747284]
最近の研究は、大きな言語モデルが暗黙的に世界モデルを学ぶことを示唆している。これには、単純な論理的推論、地理的ナビゲーション、ゲームプレイング、化学といった問題が含まれる。我々は,古典的なマイヒル・ネローデ定理に触発された世界モデル回復のための新しい評価指標を提案する。
論文参考訳（メタデータ） (2024-06-06T02:20:31Z)
WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning [49.72868038180909]
マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。質問の定式化に不可欠な5つの世界知識を同定する。我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
論文参考訳（メタデータ） (2024-05-06T08:42:34Z)
Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection [9.788417605537965]
条件付き多レベルデコードと細粒度セマンティックエンハンスメントを備えた新しいエンドツーエンドオープン語彙HOI検出フレームワークを提案する。提案手法は,開語彙HOI検出の最先端化を実現する。
論文参考訳（メタデータ） (2024-04-09T10:27:22Z)
Assessment of Multimodal Large Language Models in Alignment with Human Values [43.023052912326314]
提案するCh3Efは,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef。 Ch3Efデータセットには、hhh原則に基づいた12のドメインと46のタスクを含む、1002人の注釈付きデータサンプルが含まれている。
論文参考訳（メタデータ） (2024-03-26T16:10:21Z)
Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文参考訳（メタデータ） (2023-12-10T03:56:06Z)
Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models [74.81091933317882]
進化するウィキペディアデータベース上でのLMのトレーニングと評価を目的とした,時間的に進化する質問応答ベンチマークであるEvolvingQAを紹介する。既存の継続的な学習ベースラインが、時代遅れの知識の更新と削除に悩まされていることを明らかにする。本研究の目的は,実世界の情報の動的性質をモデル化することであり,言語モデルの進化適応性を忠実に評価することである。
論文参考訳（メタデータ） (2023-11-14T12:12:02Z)
The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World [71.52132776748628]
オープンな世界のすべてを認識、理解するための大規模データとモデルであるAll-Seeing (AS)プロジェクトを紹介します。我々は10億以上の領域に意味タグ、質問応答ペア、詳細なキャプションを付加した新しいデータセット(AS-1B)を作成します。視覚認識と理解のための統合フレームワークであるAll-Seeing Model (ASM) を開発した。
論文参考訳（メタデータ） (2023-08-03T17:59:47Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文参考訳（メタデータ） (2023-07-07T13:58:16Z)
Language Models Meet World Models: Embodied Experiences Enhance Language Models [48.70726641605047]
大規模言語モデル(LM)は、物理的環境における単純な推論と計画にしばしば苦労する。我々は、世界モデルでそれらを微調整することで、LMを強化する新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-05-18T00:35:38Z)
CAZSL: Zero-Shot Regression for Pushing Models by Generalizing Through Context [13.217582954907234]
本研究では、文脈認識モデルを構築することにより、物理世界のモデルを一般化できるディープラーニングエージェントを設計する問題について検討する。本稿では、文脈対応ゼロショット学習(CAZSL)モデル、シームズネットワークを利用したアプローチ、埋め込み空間、文脈変数に基づく正規化を提案する。提案した学習アルゴリズムを最近リリースされたOmnipushデータセット上でテストし、メタ学習機能のテストを可能にした。
論文参考訳（メタデータ） (2020-03-26T01:21:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。