論文の概要: Integrating Large Language Models and Reinforcement Learning for Non-Linear Reasoning
- arxiv url: http://arxiv.org/abs/2410.13501v1
- Date: Thu, 17 Oct 2024 12:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:18:13.552477
- Title: Integrating Large Language Models and Reinforcement Learning for Non-Linear Reasoning
- Title(参考訳): 大規模言語モデルの統合と非線形推論のための強化学習
- Authors: Yoav Alon, Cristina David,
- Abstract要約: LLM(Large Language Models)は長期計画に苦慮している。
本稿では,強化学習エージェントがLLMの空間探索を案内するアーキテクチャを提案する。
我々は、このアーキテクチャをプログラム等価タスクで評価し、思考のチェーン(CoT)と思考のツリー(ToT)と比較する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models (LLMs) were shown to struggle with long-term planning, which may be caused by the limited way in which they explore the space of possible solutions. We propose an architecture where a Reinforcement Learning (RL) Agent guides an LLM's space exploration: (1) the Agent has access to domain-specific information, and can therefore make decisions about the quality of candidate solutions based on specific and relevant metrics, which were not explicitly considered by the LLM's training objective; (2) the LLM can focus on generating immediate next steps, without the need for long-term planning. We allow non-linear reasoning by exploring alternative paths and backtracking. We evaluate this architecture on the program equivalence task, and compare it against Chain of Thought (CoT) and Tree of Thoughts (ToT). We assess both the downstream task, denoting the binary classification, and the intermediate reasoning steps. Our approach compares positively against CoT and ToT.
- Abstract(参考訳): LLM(Large Language Models)は長期計画に苦慮していることが示されている。
本稿では, 強化学習エージェントがLLMの空間探索を指導するアーキテクチャを提案する。(1) エージェントはドメイン固有の情報にアクセスでき, そして, LLMのトレーニング目標に明示的に考慮されていない,特定および関連する指標に基づいて, 候補ソリューションの品質を決定することができる。
代替経路やバックトラックを探索することで、非線形推論を可能にする。
我々は,このアーキテクチャをプログラム等価タスク上で評価し,思考の連鎖(CoT)と思考のツリー(ToT)と比較する。
ダウンストリームタスクとバイナリ分類,中間推論ステップの両方を評価した。
提案手法はCoTとToTとを正に比較する。
関連論文リスト
- Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - Reasoning with Large Language Models, a Survey [2.831296564800826]
本稿では,LSMによるプロンプトベース推論の急速に進展する分野について概説する。
我々の分類学は、多段階推論の生成、評価、制御の異なる方法を特定します。
我々は, 自己改善, 自己回帰, 推論過程のいくつかのメタ能力が, プロンプトの司法的利用によって可能であることを発見した。
論文 参考訳(メタデータ) (2024-07-16T08:49:35Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Eliminating Reasoning via Inferring with Planning: A New Framework to
Guide LLMs' Non-linear Thinking [40.22335733384235]
CoT(Chain-of-Thought)のプロンプトとその変種は、高レベルの推論能力を持つ大規模言語モデルを装備することを模索している。
我々は,排除と推論の原理を組み合わせた新しいプロンプトである textbfInferential textbfExclusion textbfPrompting (IEP) を提案する。
論文 参考訳(メタデータ) (2023-10-18T21:42:16Z) - Alphazero-like Tree-Search can Guide Large Language Model Decoding and
Training [37.79247073276239]
ToT(Tree-of-Thought)やRAP(Reasoning via Planning)といった最近の研究は、LLMの推論能力を強化することを目的としている。
LLMのためのAlphaZeroライクな木探索学習フレームワーク(TS-LLM)を提案する。
学習価値関数を用いた木探索がLLM復号を導出する方法を示す。
論文 参考訳(メタデータ) (2023-09-29T12:20:19Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Reinforcement Learning for General LTL Objectives Is Intractable [10.69663517250214]
我々は、マルコフ決定プロセス(PACMDP)フレームワークにおいて、おそらく正しい学習の下で問題を定式化する。
この結果から, 強化学習アルゴリズムでは, 学習ポリシーの性能に対するPAC-MDP保証を得ることは不可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-24T18:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。