Fugu-MT 論文翻訳(概要): Reasoning with Language Model is Planning with World Model

論文の概要: Reasoning with Language Model is Planning with World Model

arxiv url: http://arxiv.org/abs/2305.14992v1
Date: Wed, 24 May 2023 10:28:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 17:04:24.979815
Title: Reasoning with Language Model is Planning with World Model
Title（参考訳）: 言語モデルによる推論は世界モデルによる計画
Authors: Shibo Hao, Yi Gu, Haodi Ma, Joshua Jiahua Hong, Zhen Wang, Daisy Zhe Wang, Zhiting Hu
Abstract要約: 大規模言語モデル(LLM)は、顕著な推論能力を示している。 LLMには、世界を予測するための$textitworldモデルがない。我々は新しいLCM推論フレームワークである$underlineRtextiteasoning viunderlinea underlinePtextitlanning$ $textbf(RAP)$を提案する。
参考スコア（独自算出の注目度）: 19.780626806119272
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have shown remarkable reasoning capabilities, especially when prompted to generate intermediate reasoning steps (e.g., Chain-of-Thought, CoT). However, LLMs can still struggle with problems that are easy for humans, such as generating action plans for executing tasks in a given environment, or performing complex math, logical, and commonsense reasoning. The deficiency stems from the key fact that LLMs lack an internal $\textit{world model}$ to predict the world $\textit{state}$ (e.g., environment status, intermediate variable values) and simulate long-term outcomes of actions. This prevents LLMs from performing deliberate planning akin to human brains, which involves exploring alternative reasoning paths, anticipating future states and rewards, and iteratively refining existing reasoning steps. To overcome the limitations, we propose a new LLM reasoning framework, $\underline{R}\textit{easoning vi}\underline{a} \underline{P}\textit{lanning}$ $\textbf{(RAP)}$. RAP repurposes the LLM as both a world model and a reasoning agent, and incorporates a principled planning algorithm (based on Monto Carlo Tree Search) for strategic exploration in the vast reasoning space. During reasoning, the LLM (as agent) incrementally builds a reasoning tree under the guidance of the LLM (as world model) and task-specific rewards, and obtains a high-reward reasoning path efficiently with a proper balance between exploration $\textit{vs.}$ exploitation. We apply RAP to a variety of challenging reasoning problems including plan generation, math reasoning, and logical inference. Empirical results on these tasks demonstrate the superiority of RAP over various strong baselines, including CoT and least-to-most prompting with self-consistency. RAP on LLAMA-33B surpasses CoT on GPT-4 with 33% relative improvement in a plan generation setting.
Abstract（参考訳）: 大規模言語モデル(LLM)は、特に中間推論ステップ(例えばChain-of-Thought, CoT)を生成するよう促されたときに顕著な推論能力を示す。しかしながら、LLMは、与えられた環境でタスクを実行するためのアクションプランの作成や、複雑な数学、論理的、常識的推論の実行など、人間にとって容易な問題に苦しむことができる。この不足は、llmsが世界$\textit{state}$(環境ステータス、中間変数値など)を予測し、アクションの長期的な結果をシミュレートするために内部で$\textit{world model}$を欠いていることに起因する。これは、LCMが人間の脳に似た計画を行うのを防ぐもので、代替の推論経路を探索し、将来の状態と報酬を予測し、既存の推論手順を反復的に洗練する。この制限を克服するために、新しいLCM推論フレームワークである$\underline{R}\textit{easoning vi}\underline{a} \underline{P}\textit{lanning}$ $\textbf{(RAP)}$を提案する。 RAPは、LLMを世界モデルと推論エージェントの両方として再利用し、広大な推論空間における戦略的探索のための(Monto Carlo Tree Searchに基づく)原則的計画アルゴリズムを組み込んでいる。推論中、LLM(エージェント)は、LLM(ワールドモデル)とタスク固有報酬の指導の下で推論ツリーを漸進的に構築し、探索用$\textit{vsの適切なバランスで、高い回帰推論パスを効率的に取得する。利用料は$ exploitation。我々は、計画生成、数理推論、論理推論など、様々な困難な推論問題にRAPを適用する。これらの課題に対する実証的な結果は、cotを含む様々な強固なベースラインに対するrapの優越性を示す。 LLAMA-33BのRAPはGPT-4のCoTを33%の相対的な改善で上回っている。

関連論文リスト

Toward Adaptive Reasoning in Large Language Models with Thought Rollback [33.714789952452094]
本稿では,Thought Rollback (TR) と呼ばれる新しい推論フレームワークを提案する。 TRにより、大規模言語モデル(LLM)は、幻覚下での問題解決に向けた効果的な推論を維持しつつ、思考構造を適応的に構築することができる」。
論文参考訳（メタデータ） (2024-12-27T16:02:34Z)
Training Large Language Models to Reason in a Continuous Latent Space [84.5618790930725]
我々は,制約のない潜在空間における大規模言語モデル(LLM)推論の可能性を探るため,新しいパラダイムであるCoconut (Chain of Continuous Thought)を導入する。実験により、ココナッツはいくつかの推論タスクにおいてLLMを効果的に増強できることが示されている。これらの知見は、潜伏推論の可能性を実証し、将来の研究に価値ある洞察を与える。
論文参考訳（メタデータ） (2024-12-09T18:55:56Z)
Enhancing Reasoning Capabilities of LLMs via Principled Synthetic Logic Corpus [13.276829763453433]
大規模言語モデル(LLM)は幅広いタスクを解くことができるが、推論に苦戦している。本稿では,プログラム生成論理推論サンプルを用いてLLMの推論能力を高めることを目的として,$textbfAdditional Logic Training (ALT)$を提案する。
論文参考訳（メタデータ） (2024-11-19T13:31:53Z)
Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文参考訳（メタデータ） (2024-10-25T18:36:37Z)
FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文参考訳（メタデータ） (2024-10-14T19:39:11Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。本稿では,LLMの競合環境における推論能力について検討する。まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文参考訳（メタデータ） (2024-02-19T18:23:36Z)
Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof Generation with Contrastive Stepwise Decoding [11.385103498440932]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。 EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文参考訳（メタデータ） (2023-11-12T05:12:49Z)
Can Large Language Models be Good Path Planners? A Benchmark and Investigation on Spatial-temporal Reasoning [10.633920029087676]
大規模言語モデル(LLM)は幅広いタスクで顕著な成功を収めた。我々は、$textbfP$ath $textbfP$lanning from $textbfN$atural $textbfL$anguageという新しいベンチマークを提案する。
論文参考訳（メタデータ） (2023-10-05T01:42:16Z)
Reason for Future, Act for Now: A Principled Framework for Autonomous LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文参考訳（メタデータ） (2023-09-29T16:36:39Z)
Furthest Reasoning with Plan Assessment: Stable Reasoning Path with Retrieval-Augmented Large Language Models [10.04323204974924]
MHQA(Multi-Hop Question Answering)は広く議論されているカテゴリである。既存の手法では、推論パスと計画を生成するためにLarge Language Models (LLM) を採用している。 We propose a novel pipeline for MHQA called Furthest-Reasoning-with-Plan-Assessment (FuRePA)。
論文参考訳（メタデータ） (2023-09-22T10:15:13Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。