論文の概要: Evaluating the World Model Implicit in a Generative Model
- arxiv url: http://arxiv.org/abs/2406.03689v3
- Date: Sun, 10 Nov 2024 23:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:06:04.944368
- Title: Evaluating the World Model Implicit in a Generative Model
- Title(参考訳): 生成モデルにおける世界モデル含意の評価
- Authors: Keyon Vafa, Justin Y. Chen, Ashesh Rambachan, Jon Kleinberg, Sendhil Mullainathan,
- Abstract要約: 最近の研究は、大きな言語モデルが暗黙的に世界モデルを学ぶことを示唆している。
これには、単純な論理的推論、地理的ナビゲーション、ゲームプレイング、化学といった問題が含まれる。
我々は,古典的なマイヒル・ネローデ定理に触発された世界モデル回復のための新しい評価指標を提案する。
- 参考スコア(独自算出の注目度): 7.317896355747284
- License:
- Abstract: Recent work suggests that large language models may implicitly learn world models. How should we assess this possibility? We formalize this question for the case where the underlying reality is governed by a deterministic finite automaton. This includes problems as diverse as simple logical reasoning, geographic navigation, game-playing, and chemistry. We propose new evaluation metrics for world model recovery inspired by the classic Myhill-Nerode theorem from language theory. We illustrate their utility in three domains: game playing, logic puzzles, and navigation. In all domains, the generative models we consider do well on existing diagnostics for assessing world models, but our evaluation metrics reveal their world models to be far less coherent than they appear. Such incoherence creates fragility: using a generative model to solve related but subtly different tasks can lead to failures. Building generative models that meaningfully capture the underlying logic of the domains they model would be immensely valuable; our results suggest new ways to assess how close a given model is to that goal.
- Abstract(参考訳): 最近の研究は、大きな言語モデルが暗黙的に世界モデルを学ぶことを示唆している。
この可能性をどのように評価するか。
この問題は、基礎となる現実が決定論的有限オートマトンによって支配されている場合に公式化する。
これには、単純な論理的推論、地理的ナビゲーション、ゲームプレイング、化学といった問題が含まれる。
我々は,古典的なマイヒル・ネローデ定理に触発された世界モデル回復のための新しい評価指標を提案する。
ゲームプレイ,ロジックパズル,ナビゲーションの3つの領域でそれらの実用性を解説する。
すべての領域において、我々が検討する生成モデルは、世界モデルを評価するための既存の診断に優れているが、我々の評価指標は、世界モデルが現れるよりもはるかに一貫性が低いことを示している。
生成モデルを使用して、関連するが微妙に異なるタスクを解決することは、失敗につながる。
モデルの基礎となるロジックを有意義に捉えた生成モデルを構築することは、非常に価値があるでしょう。
関連論文リスト
- Meta-Models: An Architecture for Decoding LLM Behaviors Through Interpreted Embeddings and Natural Language [0.0]
我々は「入力モデル」からアクティベーションを取り、入力モデルの振る舞いに関する自然言語質問に答える「メタモデル」を用いる。
選択したタスクタイプをトレーニングし,そのアウト・オブ・ディストリビューション性能を評価することによって,メタモデルの一般化能力を評価する。
論文 参考訳(メタデータ) (2024-10-03T13:25:15Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating basic world knowledge in language models [42.48862540545121]
本稿では,言語モデルにおける世界モデリングを評価するためのフレームワークであるElements of World Knowledge(EWOK)について述べる。
EWOKは、人間の世界モデリングに不可欠な複数の知識領域から特定の概念をターゲットにしている。
次に,世界11の知識領域をカバーする4,374項目のデータセットであるEWOK-CORE-1.0を紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:19:42Z) - Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.15395503285804]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している
本調査では,世界モデルの最新動向を包括的に調査する。
我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-05-06T14:37:07Z) - Automated Statistical Model Discovery with Language Models [34.03743547761152]
本稿では,言語モデルを用いた自動統計モデル探索手法を提案する。
Boxのループの原則的なフレームワーク内に,自動手順を投入しました。
その結果,LM駆動型モデル発見の可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-27T20:33:22Z) - Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。
本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:56:06Z) - Advancing State of the Art in Language Modeling [0.0]
一般化は統計言語モデリング研究の最も重要な目標であることは間違いない。
オープンソースコードで公開された公開ベンチマークと論文は、この分野を前進させる上で重要なものだ。
本稿では,一般化の観点から言語モデリングにおける最先端技術を支援するための,シンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-28T12:30:43Z) - Grounded Decoding: Guiding Text Generation with Grounded Models for
Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。
我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。
本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-01T22:58:50Z) - Evaluation of Categorical Generative Models -- Bridging the Gap Between
Real and Synthetic Data [18.142397311464343]
生成モデルに対する適切な拡張性の評価手法を提案する。
我々は、より困難なモデリングタスクに対応する、ますます大きな確率空間を考える。
我々は, 合成生成モデルと最先端のカテゴリー生成モデルの両方について, 合成実験により評価方法を検証する。
論文 参考訳(メタデータ) (2022-10-28T21:05:25Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。