論文の概要: Reasoning with Language Model is Planning with World Model
- arxiv url: http://arxiv.org/abs/2305.14992v1
- Date: Wed, 24 May 2023 10:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 17:04:24.979815
- Title: Reasoning with Language Model is Planning with World Model
- Title(参考訳): 言語モデルによる推論は世界モデルによる計画
- Authors: Shibo Hao, Yi Gu, Haodi Ma, Joshua Jiahua Hong, Zhen Wang, Daisy Zhe
Wang, Zhiting Hu
- Abstract要約: 大規模言語モデル(LLM)は、顕著な推論能力を示している。
LLMには、世界を予測するための$textitworldモデルがない。
我々は新しいLCM推論フレームワークである$underlineRtextiteasoning viunderlinea underlinePtextitlanning$ $textbf(RAP)$を提案する。
- 参考スコア(独自算出の注目度): 19.780626806119272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown remarkable reasoning capabilities,
especially when prompted to generate intermediate reasoning steps (e.g.,
Chain-of-Thought, CoT). However, LLMs can still struggle with problems that are
easy for humans, such as generating action plans for executing tasks in a given
environment, or performing complex math, logical, and commonsense reasoning.
The deficiency stems from the key fact that LLMs lack an internal
$\textit{world model}$ to predict the world $\textit{state}$ (e.g., environment
status, intermediate variable values) and simulate long-term outcomes of
actions. This prevents LLMs from performing deliberate planning akin to human
brains, which involves exploring alternative reasoning paths, anticipating
future states and rewards, and iteratively refining existing reasoning steps.
To overcome the limitations, we propose a new LLM reasoning framework,
$\underline{R}\textit{easoning vi}\underline{a} \underline{P}\textit{lanning}$
$\textbf{(RAP)}$. RAP repurposes the LLM as both a world model and a reasoning
agent, and incorporates a principled planning algorithm (based on Monto Carlo
Tree Search) for strategic exploration in the vast reasoning space. During
reasoning, the LLM (as agent) incrementally builds a reasoning tree under the
guidance of the LLM (as world model) and task-specific rewards, and obtains a
high-reward reasoning path efficiently with a proper balance between
exploration $\textit{vs.}$ exploitation. We apply RAP to a variety of
challenging reasoning problems including plan generation, math reasoning, and
logical inference. Empirical results on these tasks demonstrate the superiority
of RAP over various strong baselines, including CoT and least-to-most prompting
with self-consistency. RAP on LLAMA-33B surpasses CoT on GPT-4 with 33%
relative improvement in a plan generation setting.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に中間推論ステップ(例えばChain-of-Thought, CoT)を生成するよう促されたときに顕著な推論能力を示す。
しかしながら、LLMは、与えられた環境でタスクを実行するためのアクションプランの作成や、複雑な数学、論理的、常識的推論の実行など、人間にとって容易な問題に苦しむことができる。
この不足は、llmsが世界$\textit{state}$(環境ステータス、中間変数値など)を予測し、アクションの長期的な結果をシミュレートするために内部で$\textit{world model}$を欠いていることに起因する。
これは、LCMが人間の脳に似た計画を行うのを防ぐもので、代替の推論経路を探索し、将来の状態と報酬を予測し、既存の推論手順を反復的に洗練する。
この制限を克服するために、新しいLCM推論フレームワークである$\underline{R}\textit{easoning vi}\underline{a} \underline{P}\textit{lanning}$ $\textbf{(RAP)}$を提案する。
RAPは、LLMを世界モデルと推論エージェントの両方として再利用し、広大な推論空間における戦略的探索のための(Monto Carlo Tree Searchに基づく)原則的計画アルゴリズムを組み込んでいる。
推論中、LLM(エージェント)は、LLM(ワールドモデル)とタスク固有報酬の指導の下で推論ツリーを漸進的に構築し、探索用$\textit{vsの適切なバランスで、高い回帰推論パスを効率的に取得する。
利用料は$ exploitation。
我々は、計画生成、数理推論、論理推論など、様々な困難な推論問題にRAPを適用する。
これらの課題に対する実証的な結果は、cotを含む様々な強固なベースラインに対するrapの優越性を示す。
LLAMA-33BのRAPはGPT-4のCoTを33%の相対的な改善で上回っている。
関連論文リスト
- Enhancing Reasoning Capabilities of LLMs via Principled Synthetic Logic Corpus [13.276829763453433]
大規模言語モデル(LLM)は幅広いタスクを解くことができるが、推論に苦戦している。
本稿では,プログラム生成論理推論サンプルを用いてLLMの推論能力を高めることを目的として,$textbfAdditional Logic Training (ALT)$を提案する。
論文 参考訳(メタデータ) (2024-11-19T13:31:53Z) - Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof
Generation with Contrastive Stepwise Decoding [11.385103498440932]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。
EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文 参考訳(メタデータ) (2023-11-12T05:12:49Z) - Can Large Language Models be Good Path Planners? A Benchmark and
Investigation on Spatial-temporal Reasoning [10.633920029087676]
大規模言語モデル(LLM)は幅広いタスクで顕著な成功を収めた。
我々は、$textbfP$ath $textbfP$lanning from $textbfN$atural $textbfL$anguageという新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-10-05T01:42:16Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z) - Furthest Reasoning with Plan Assessment: Stable Reasoning Path with
Retrieval-Augmented Large Language Models [10.04323204974924]
MHQA(Multi-Hop Question Answering)は広く議論されているカテゴリである。
既存の手法では、推論パスと計画を生成するためにLarge Language Models (LLM) を採用している。
We propose a novel pipeline for MHQA called Furthest-Reasoning-with-Plan-Assessment (FuRePA)。
論文 参考訳(メタデータ) (2023-09-22T10:15:13Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。