Fugu-MT 論文翻訳(概要): DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search

論文の概要: DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search

arxiv url: http://arxiv.org/abs/2410.03864v1
Date: Fri, 4 Oct 2024 18:58:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 15:40:54.509275
Title: DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search
Title（参考訳）: DOTS:最適推論軌道探索によるLLMの動的推論学習
Authors: Murong Yue, Wenlin Yao, Haitao Mi, Dian Yu, Ziyu Yao, Dong Yu,
Abstract要約: DOTS は LLM が最適推論軌道探索によって動的に推論できるアプローチである。提案手法は静的推論手法とバニラ命令チューニング手法より一貫して優れている。
参考スコア（独自算出の注目度）: 37.16633337724158
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Enhancing the capability of large language models (LLMs) in reasoning has gained significant attention in recent years. Previous studies have demonstrated the effectiveness of various prompting strategies in aiding LLMs in reasoning (called "reasoning actions"), such as step-by-step thinking, reflecting before answering, solving with programs, and their combinations. However, these approaches often applied static, predefined reasoning actions uniformly to all questions, without considering the specific characteristics of each question or the capability of the task-solving LLM. In this paper, we propose DOTS, an approach enabling LLMs to reason dynamically via optimal reasoning trajectory search, tailored to the specific characteristics of each question and the inherent capability of the task-solving LLM. Our approach involves three key steps: i) defining atomic reasoning action modules that can be composed into various reasoning action trajectories; ii) searching for the optimal action trajectory for each training question through iterative exploration and evaluation for the specific task-solving LLM; and iii) using the collected optimal trajectories to train an LLM to plan for the reasoning trajectories of unseen questions. In particular, we propose two learning paradigms, i.e., fine-tuning an external LLM as a planner to guide the task-solving LLM, or directly fine-tuning the task-solving LLM with an internalized capability for reasoning actions planning. Our experiments across eight reasoning tasks show that our method consistently outperforms static reasoning techniques and the vanilla instruction tuning approach. Further analysis reveals that our method enables LLMs to adjust their computation based on problem complexity, allocating deeper thinking and reasoning to harder problems.
Abstract（参考訳）: 近年,大規模言語モデル(LLM)の推論能力の向上が注目されている。これまでの研究では、ステップバイステップ思考、回答前の反映、プログラムの解決、それらの組み合わせなど、LLMの推論(「推論行動」と呼ばれる)を支援する様々な促進戦略の有効性が実証されてきた。しかしながら、これらの手法は、各質問の特徴やタスク解決 LLM の機能を考慮することなく、全ての質問に対して静的で事前定義された推論動作を均一に適用することが多い。本稿では,各質問の具体的特徴やタスク解決 LLM 固有の能力に合わせて,最適推論軌道探索により LLM を動的に推論できるアプローチである DOTS を提案する。私たちのアプローチには3つの重要なステップがあります。一様々な推論行動軌道に構成できる原子推論行動モジュールを定義すること。二特定課題解決 LLM の反復探索及び評価により、各訓練質問に対する最適な行動軌跡を求めること。三収集した最適軌跡を用いて、LCMを訓練し、目に見えない疑問の軌跡を立案すること。特に,タスク解決 LLM を指導するプランナーとして外部 LLM を微調整する,あるいはタスク解決 LLM を直接微調整する,という2つの学習パラダイムを提案する。 8つの推論タスクに対する実験により,静的推論手法とバニラ命令チューニング手法を一貫して上回る結果が得られた。さらなる分析により,LLMは問題複雑性に基づいて計算を調整し,より深い思考と難解な問題への推論を可能にすることが明らかとなった。

関連論文リスト

Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective [35.898734823687576]
本稿では,メタ学習の観点から,大規模言語モデル(LLM)の推論能力を理解するためのフレームワークを提案する。我々は,個別のタスクとして扱われる質問に対して,メタラーニング・セットアップとして推論タスクのトレーニングプロセスを定式化する。我々の研究は、確立したメタ学習技術によってこれらのモデルを改善するための実践的な洞察を提供する。
論文参考訳（メタデータ） (2025-05-26T10:52:17Z)
Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文参考訳（メタデータ） (2025-05-23T16:51:54Z)
ARIES: Autonomous Reasoning with LLMs on Interactive Thought Graph Environments [7.508204100423766]
LLMを用いた推論のためのマルチエージェントアーキテクチャであるARIESを紹介する。教師付き微調整(SFT)のない政策エージェントとして市販のLCMを使用することで,HumanEvalの精度が最大29%向上することが観察された。また、観測された障害モードの徹底的な解析を行い、LLMサイズと問題分解の深さの制限が、LLM誘導推論をスケールする上での課題であることを示した。
論文参考訳（メタデータ） (2025-02-28T16:28:13Z)
A Survey on Feedback-based Multi-step Reasoning for Large Language Models on Mathematics [9.681821524089761]
我々は,LLMの多段階数学推論を強化するために,ステップレベルのフィードバックと結果レベルの戦略を調査する。 LLMのスケーリングにおいて,多段階の推論が重要な要素となるため,さらなる研究の促進と理解を深めるための基盤の確立が望まれる。
論文参考訳（メタデータ） (2025-02-20T07:31:00Z)
Active Task Disambiguation with LLMs [48.54945212561785]
本稿では,タスクあいまいさの形式的定義を導入し,ベイズ実験設計のレンズによるタスクあいまいさの問題について考察する。提案手法により,LLMエージェントは情報ゲインを最大化する目的の質問を生成することができる。経験的な結果から、この形式の質問選択は、質問空間内でのみ推論に依存するアプローチに比べて、より効果的なタスクの曖昧さをもたらすことが示されている。
論文参考訳（メタデータ） (2025-02-06T20:20:22Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
Can LLMs plan paths with extra hints from solvers? [2.874944508343474]
大規模言語モデル(LLM)は、自然言語処理、数学的問題解決、プログラム合成に関連するタスクにおいて顕著な能力を示している。本稿では,従来のロボット計画課題の解決において,解法生成フィードバックを統合することでLCM性能を向上させる手法について検討する。
論文参考訳（メタデータ） (2024-10-07T14:00:08Z)
Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文参考訳（メタデータ） (2024-08-17T11:49:53Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。 MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。総合的なベンチマークによりMPPの有効性を評価する。
論文参考訳（メタデータ） (2024-06-17T16:14:11Z)
Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文参考訳（メタデータ） (2023-10-13T14:53:06Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)
Learning to Plan with Natural Language [111.76828049344839]
大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示している。複雑なタスクを完了するためには、ステップごとに特定のソリューションを生成するためにLCMをガイドするタスクの計画が必要です。本研究では,(1)第1学習課題計画フェーズにおいて,LCMが学習エラーフィードバックから導出するように促した新たなステップバイステップのソリューションと行動指示を用いてタスク計画を反復的に更新する,という2つの段階を含む学習計画手法を提案する。
論文参考訳（メタデータ） (2023-04-20T17:09:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。