論文の概要: SituatedThinker: Grounding LLM Reasoning with Real-World through Situated Thinking
- arxiv url: http://arxiv.org/abs/2505.19300v1
- Date: Sun, 25 May 2025 20:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.039651
- Title: SituatedThinker: Grounding LLM Reasoning with Real-World through Situated Thinking
- Title(参考訳): SituatedThinker: SituatedThinkerによる実世界のLLM推論
- Authors: Junnan Liu, Linhao Luo, Thuy-Trang Vu, Gholamreza Haffari,
- Abstract要約: 我々はSituatedThinkerを紹介した。これは大規模な言語モデルが現実世界の文脈で推論を基礎づけることを可能にするフレームワークだ。
強化学習を利用することで、SituatedThinkerは現実世界と意図的に推論して情報とフィードバックを得る。
実験結果から,マルチホップ質問応答と数理推論のベンチマークにおいて,大幅な性能向上が得られた。
- 参考スコア(独自算出の注目度): 39.73398416448668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) demonstrate their impressive reasoning capabilities. However, the reasoning confined to internal parametric space limits LLMs' access to real-time information and understanding of the physical world. To overcome this constraint, we introduce SituatedThinker, a novel framework that enables LLMs to ground their reasoning in real-world contexts through situated thinking, which adaptively combines both internal knowledge and external information with predefined interfaces. By utilizing reinforcement learning, SituatedThinker incentivizes deliberate reasoning with the real world to acquire information and feedback, allowing LLMs to surpass their knowledge boundaries and enhance reasoning. Experimental results demonstrate significant performance improvements on multi-hop question-answering and mathematical reasoning benchmarks. Furthermore, SituatedThinker demonstrates strong performance on unseen tasks, such as KBQA, TableQA, and text-based games, showcasing the generalizable real-world grounded reasoning capability. Our codes are available at https://github.com/jnanliu/SituatedThinker.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、その印象的な推論能力を示している。
しかし、内部パラメトリック空間に限定された推論は、LLMのリアルタイム情報へのアクセスと物理世界の理解を制限している。
この制約を克服するために、我々は、LLMが位置思考を通じて現実の文脈で推論を基礎にできる新しいフレームワークであるSituatedThinkerを紹介し、内部知識と外部情報の両方を予め定義されたインターフェイスと適応的に組み合わせる。
強化学習を活用することで、SituatedThinkerは現実世界との意図的な推論にインセンティブを与え、LLMが知識境界を超え、推論を強化する。
実験結果から,マルチホップ質問応答と数理推論のベンチマークにおいて,大幅な性能向上が得られた。
さらに、SituatedThinkerはKBQA、TableQA、テキストベースのゲームなど、目に見えないタスクに対して強力なパフォーマンスを示し、一般化可能な実世界の基底推論能力を示している。
私たちのコードはhttps://github.com/jnanliu/SituatedThinker.comで公開されています。
関連論文リスト
- A Call for New Recipes to Enhance Spatial Reasoning in MLLMs [85.67171333213301]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。
近年の研究では、空間的推論能力の限界が明らかにされている。
この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文 参考訳(メタデータ) (2025-04-21T11:48:39Z) - General Reasoning Requires Learning to Reason from the Get-go [19.90997698310839]
大規模言語モデル(LLM)は、実世界の素晴らしいユーティリティを実証している。
しかし、適応的かつ堅牢に推論できる能力は、脆弱なままだ。
我々は3つの重要な方向から知識と推論を解き放つことを提案する。
論文 参考訳(メタデータ) (2025-02-26T18:51:12Z) - CLR-Fact: Evaluating the Complex Logical Reasoning Capability of Large Language Models over Factual Knowledge [44.59258397967782]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる印象的な機能を示している。
本稿では,LLMの複雑な論理的推論能力の体系的評価について述べる。
LLMは一般世界の知識の推論に優れるが、専門分野固有の知識では重大な課題に直面している。
論文 参考訳(メタデータ) (2024-07-30T05:40:32Z) - Towards Logically Consistent Language Models via Probabilistic Reasoning [14.317886666902822]
大規模言語モデル(LLM)は、自然言語理解および生成タスクのための有望な場所である。
LLMは、非現実的な情報を生成し、世界の信念を推論するよう促されたときに矛盾する傾向がある。
我々は,LLMが事実やルールの集合という形で,外部知識と整合性を持つように教える学習目標を導入する。
論文 参考訳(メタデータ) (2024-04-19T12:23:57Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z) - POSQA: Probe the World Models of LLMs with Size Comparisons [38.30479784257936]
身体的言語理解は、言語理解が単に脳の精神的処理の問題ではないことを強調している。
LLM(Large Language Models)の爆発的成長と、私たちの日常生活にすでに広く存在していることから、現実の理解を検証する必要性が高まっている。
論文 参考訳(メタデータ) (2023-10-20T10:05:01Z) - ChatABL: Abductive Learning via Natural Language Interaction with
ChatGPT [72.83383437501577]
大規模言語モデル(LLM)は、最近数学的な能力において大きな可能性を証明している。
LLMは現在、認識、言語理解、推論能力のブリッジングに困難を抱えている。
本稿では, LLMを帰納学習フレームワークに統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-21T16:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。