Fugu-MT 論文翻訳(概要): Evaluating the World Model Implicit in a Generative Model

論文の概要: Evaluating the World Model Implicit in a Generative Model

arxiv url: http://arxiv.org/abs/2406.03689v3
Date: Sun, 10 Nov 2024 23:47:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.306961
Title: Evaluating the World Model Implicit in a Generative Model
Title（参考訳）: 生成モデルにおける世界モデル含意の評価
Authors: Keyon Vafa, Justin Y. Chen, Ashesh Rambachan, Jon Kleinberg, Sendhil Mullainathan,
Abstract要約: 最近の研究は、大きな言語モデルが暗黙的に世界モデルを学ぶことを示唆している。これには、単純な論理的推論、地理的ナビゲーション、ゲームプレイング、化学といった問題が含まれる。我々は,古典的なマイヒル・ネローデ定理に触発された世界モデル回復のための新しい評価指標を提案する。
参考スコア（独自算出の注目度）: 7.317896355747284
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work suggests that large language models may implicitly learn world models. How should we assess this possibility? We formalize this question for the case where the underlying reality is governed by a deterministic finite automaton. This includes problems as diverse as simple logical reasoning, geographic navigation, game-playing, and chemistry. We propose new evaluation metrics for world model recovery inspired by the classic Myhill-Nerode theorem from language theory. We illustrate their utility in three domains: game playing, logic puzzles, and navigation. In all domains, the generative models we consider do well on existing diagnostics for assessing world models, but our evaluation metrics reveal their world models to be far less coherent than they appear. Such incoherence creates fragility: using a generative model to solve related but subtly different tasks can lead to failures. Building generative models that meaningfully capture the underlying logic of the domains they model would be immensely valuable; our results suggest new ways to assess how close a given model is to that goal.
Abstract（参考訳）: 最近の研究は、大きな言語モデルが暗黙的に世界モデルを学ぶことを示唆している。この可能性をどのように評価するか。この問題は、基礎となる現実が決定論的有限オートマトンによって支配されている場合に公式化する。これには、単純な論理的推論、地理的ナビゲーション、ゲームプレイング、化学といった問題が含まれる。我々は,古典的なマイヒル・ネローデ定理に触発された世界モデル回復のための新しい評価指標を提案する。ゲームプレイ,ロジックパズル,ナビゲーションの3つの領域でそれらの実用性を解説する。すべての領域において、我々が検討する生成モデルは、世界モデルを評価するための既存の診断に優れているが、我々の評価指標は、世界モデルが現れるよりもはるかに一貫性が低いことを示している。生成モデルを使用して、関連するが微妙に異なるタスクを解決することは、失敗につながる。モデルの基礎となるロジックを有意義に捉えた生成モデルを構築することは、非常に価値があるでしょう。

関連論文リスト

What Does it Mean for a Neural Network to Learn a "World Model"? [48.16769678219204]
ニューラルネットワークが学習し,"世界モデル"を使用することを示すための,一連の正確な基準を提案する。目的は、しばしば非公式に使用される用語に運用上の意味を与えることである。この定義に不可欠な追加は、そのような「世界モデル」がニューラルネットのデータやタスクの自明な結果ではないことを確認するための条件のセットである。
論文参考訳（メタデータ） (2025-07-29T05:30:57Z)
Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models [93.1043186636177]
我々は、人々が分散表現と象徴表現の組み合わせを使って、新しい状況に合わせた見知らぬ精神モデルを構築するという仮説を探求する。モデル合成アーキテクチャ」という概念の計算的実装を提案する。我々は、新しい推論データセットに基づく人間の判断のモデルとして、MSAを評価した。
論文参考訳（メタデータ） (2025-07-16T18:01:03Z)
What Has a Foundation Model Found? Using Inductive Bias to Probe for World Models [3.394160022376002]
本研究では,合成データセットへの適応性を評価する基礎モデルの評価手法を開発した。基礎モデルはトレーニングタスクに優れるが、新しいタスクに適応すると、基礎となる世界モデルに対する帰納的バイアスを発生させることができない。
論文参考訳（メタデータ） (2025-07-09T15:36:15Z)
AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文参考訳（メタデータ） (2025-04-06T20:35:44Z)
Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文参考訳（メタデータ） (2024-12-12T21:29:00Z)
Meta-Models: An Architecture for Decoding LLM Behaviors Through Interpreted Embeddings and Natural Language [0.0]
我々は「入力モデル」からアクティベーションを取り、入力モデルの振る舞いに関する自然言語質問に答える「メタモデル」を用いる。選択したタスクタイプをトレーニングし,そのアウト・オブ・ディストリビューション性能を評価することによって,メタモデルの一般化能力を評価する。
論文参考訳（メタデータ） (2024-10-03T13:25:15Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating basic world knowledge in language models [42.48862540545121]
本稿では,言語モデルにおける世界モデリングを評価するためのフレームワークであるElements of World Knowledge(EWOK)について述べる。 EWOKは、人間の世界モデリングに不可欠な複数の知識領域から特定の概念をターゲットにしている。次に,世界11の知識領域をカバーする4,374項目のデータセットであるEWOK-CORE-1.0を紹介する。
論文参考訳（メタデータ） (2024-05-15T17:19:42Z)
Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.15395503285804]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している本調査では,世界モデルの最新動向を包括的に調査する。我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文参考訳（メタデータ） (2024-05-06T14:37:07Z)
Automated Statistical Model Discovery with Language Models [34.03743547761152]
本稿では,言語モデルを用いた自動統計モデル探索手法を提案する。 Boxのループの原則的なフレームワーク内に,自動手順を投入しました。その結果,LM駆動型モデル発見の可能性を浮き彫りにした。
論文参考訳（メタデータ） (2024-02-27T20:33:22Z)
Grounded Decoding: Guiding Text Generation with Grounded Models for Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文参考訳（メタデータ） (2023-03-01T22:58:50Z)
Evaluation of Categorical Generative Models -- Bridging the Gap Between Real and Synthetic Data [18.142397311464343]
生成モデルに対する適切な拡張性の評価手法を提案する。我々は、より困難なモデリングタスクに対応する、ますます大きな確率空間を考える。我々は, 合成生成モデルと最先端のカテゴリー生成モデルの両方について, 合成実験により評価方法を検証する。
論文参考訳（メタデータ） (2022-10-28T21:05:25Z)
Synthetic Model Combination: An Instance-wise Approach to Unsupervised Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文参考訳（メタデータ） (2022-10-11T10:20:31Z)
Abstract Interpretation for Generalized Heuristic Search in Model-Based Planning [50.96320003643406]
ドメイン・ジェネラル・モデル・ベース・プランナーは、しばしば記号的世界モデルの緩和を通じて探索を構築することによって一般性を導出する。抽象解釈がこれらの抽象化の統一フレームワークとして機能し、よりリッチな世界モデルに探索の範囲を広げる方法について説明する。また、これらは学習と統合することができ、エージェントは抽象的な情報を通じて、新しい世界のモデルで計画を開始することができる。
論文参考訳（メタデータ） (2022-08-05T00:22:11Z)
Modeling the Mistakes of Boundedly Rational Agents Within a Bayesian Theory of Mind [32.66203057545608]
我々は、ベイズ的マインド理論フレームワークを拡張し、目標、計画、行動の誤りを犯したかもしれない有理論的エージェントをモデル化する。本研究では,扉の裏に宝石を閉じ込めたグリッドワールドパズル (i) とブロックスタッキングドメイン (ii) の2つの領域において,人間の目標推論を導出する実験を行う。
論文参考訳（メタデータ） (2021-06-24T18:00:03Z)
Plausible Counterfactuals: Auditing Deep Learning Classifiers with Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。 GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文参考訳（メタデータ） (2020-03-25T11:08:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。