論文の概要: Mind's Eye: Grounded Language Model Reasoning through Simulation
- arxiv url: http://arxiv.org/abs/2210.05359v1
- Date: Tue, 11 Oct 2022 11:39:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:03:03.859789
- Title: Mind's Eye: Grounded Language Model Reasoning through Simulation
- Title(参考訳): Mind's Eye: シミュレーションによる基底言語モデル推論
- Authors: Ruibo Liu, Jason Wei, Shixiang Shane Gu, Te-Yen Wu, Soroush Vosoughi,
Claire Cui, Denny Zhou, Andrew M. Dai
- Abstract要約: 我々は,物理世界における基礎言語モデル推論のパラダイムであるMind's Eyeを提示する。
実験により、マインドズアイは推論能力を大きく向上させることができることが示された。
Mind's Eyeで武装したより小さな言語モデルは、100倍の大きさのモデルと同じようなパフォーマンスを得ることができる。
- 参考スコア(独自算出の注目度): 47.654525013443255
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Successful and effective communication between humans and AI relies on a
shared experience of the world. By training solely on written text, current
language models (LMs) miss the grounded experience of humans in the real-world
-- their failure to relate language to the physical world causes knowledge to
be misrepresented and obvious mistakes in their reasoning. We present Mind's
Eye, a paradigm to ground language model reasoning in the physical world. Given
a physical reasoning question, we use a computational physics engine
(DeepMind's MuJoCo) to simulate the possible outcomes, and then use the
simulation results as part of the input, which enables language models to
perform reasoning. Experiments on 39 tasks in a physics alignment benchmark
demonstrate that Mind's Eye can improve reasoning ability by a large margin
(27.9% zero-shot, and 46.0% few-shot absolute accuracy improvement on average).
Smaller language models armed with Mind's Eye can obtain similar performance to
models that are 100x larger. Finally, we confirm the robustness of Mind's Eye
through ablation studies.
- Abstract(参考訳): 人間とAIの効果的なコミュニケーションは、世界の共有された経験に依存している。
テキストのみに基づいてトレーニングすることで、現在の言語モデル(lms)は、現実世界における人間の基礎的な経験を欠いている。
我々は,物理世界における基礎言語モデル推論のパラダイムであるマインドズアイを提示する。
物理推論問題から,計算物理エンジン(DeepMindのMuJoCo)を用いて計算結果をシミュレートし,そのシミュレーション結果を入力の一部として用いることにより,言語モデルで推論を行うことができる。
物理アライメントベンチマークにおける39のタスクの実験では、マインドアイは大きなマージン(ゼロショット27.9%、絶対精度46.0%)で推論能力を向上できることが示されている。
心の目を搭載した小さな言語モデルは、100倍の大きさのモデルと同様のパフォーマンスを得ることができる。
最後に, アブレーション研究により, 心の眼の頑健性を確認した。
関連論文リスト
- Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。
本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。
私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-05-14T23:24:12Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z) - PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large
Multimodal Models [58.33913881592706]
人間は、自分の直感的な物理学を巧みに把握し、これまで見たことのない物体であっても、効率的に把握を変更できる。
この研究は、そのような物理的常識的推論をロボット操作に注入することに注力している。
自然言語と3次元点雲の2つのモードからの入力を利用するマルチモーダル大モデルであるPhyGraspを紹介する。
論文 参考訳(メタデータ) (2024-02-26T18:57:52Z) - Language Models Don't Learn the Physical Manifestation of Language [0.3529736140137004]
言語のみのモデルは言語の物理的表現を学ばないと主張する。
本稿では,H-Testと呼ばれる一連のタスクを通して,言語の視覚的聴覚特性を実証的に調査する。
論文 参考訳(メタデータ) (2024-02-17T17:52:24Z) - A Sentence is Worth a Thousand Pictures: Can Large Language Models Understand Hum4n L4ngu4ge and the W0rld behind W0rds? [2.7342737448775534]
LLM(Large Language Models)は、人間の言語的パフォーマンスに関する主張と関連付けられている。
対象認知システムの理論的に有意な表現としてLLMの寄与を分析する。
我々は,より高い処理レベルからのトップダウンフィードバックを通じて,モデルが全体像を見る能力を評価する。
論文 参考訳(メタデータ) (2023-07-26T18:58:53Z) - MindGames: Targeting Theory of Mind in Large Language Models with
Dynamic Epistemic Modal Logic [0.6537995248511139]
心の理論(ToM)は知性の重要な構成要素であるが、その評価は熱い議論の対象のままである。
そこで本研究では,動的てんかん論理を利用して,ToMの特定の成分を分離し,制御された問題を生成する。
以上の結果から,いくつかの言語モデルスケーリングでは,ランダムな確率よりも連続的に結果が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-05-05T08:14:48Z) - Imagination-Augmented Natural Language Understanding [71.51687221130925]
自然言語理解タスクを解決するために,Imagination-Augmented Cross-modal (iACE)を導入する。
iACEは、強力な生成的および事前訓練された視覚・言語モデルから変換された外部知識で視覚的な想像を可能にする。
GLUEとSWAGの実験は、iACEが視覚的に教師付き事前訓練されたモデルよりも一貫した改善を達成していることを示している。
論文 参考訳(メタデータ) (2022-04-18T19:39:36Z) - PIGLeT: Language Grounding Through Neuro-Symbolic Interaction in a 3D
World [86.21137454228848]
我々はPIGLeTを物理力学モデルと別言語モデルに分類する。
PIGLeTは文を読み、次に何が起こるか神経的にシミュレートし、その結果を文字通りの記号表現を通して伝達する。
80%以上の英語の文から「次に何が起こるか」を正確に予測することができ、100倍以上のテキスト・テキスト・アプローチを10%以上上回っている。
論文 参考訳(メタデータ) (2021-06-01T02:32:12Z) - ESPRIT: Explaining Solutions to Physical Reasoning Tasks [106.77019206219984]
ESPRITは自然言語における定性的物理学に関する常識推論のためのフレームワークである。
我々のフレームワークは、エージェントや人間が容易に解を推論できるように、物理的シミュレーションがどのように因果的に進化するかを説明することを学ぶ。
人間の評価は、ESPRITが重要な微細な細部を生み出し、人間のアノテーションよりも物理的な概念を高い範囲でカバーしていることを示している。
論文 参考訳(メタデータ) (2020-05-02T07:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。