論文の概要: AdaReasoner: Adaptive Reasoning Enables More Flexible Thinking in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.17312v3
- Date: Fri, 27 Jun 2025 19:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:39.363428
- Title: AdaReasoner: Adaptive Reasoning Enables More Flexible Thinking in Large Language Models
- Title(参考訳): AdaReasoner: 適応推論は、大規模言語モデルでより柔軟な思考を可能にする
- Authors: Xiangqi Wang, Yue Huang, Yanbo Wang, Xiaonan Luo, Kehan Guo, Yujun Zhou, Xiangliang Zhang,
- Abstract要約: AdaReasoner は LLM に依存しないプラグインで,任意の LLM が適応推論設定を自動化するように設計されている。
AdaReasonerは強化学習(RL)フレームワークを使用して訓練され、因子化されたアクション空間とターゲット探索戦略を組み合わせた。
標準ベースラインを一貫して上回り、分布外ロバスト性を保ち、調整されたプロンプトを通じて知識集約的なタスクに利益をもたらす。
- 参考スコア(独自算出の注目度): 32.51746551988431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs often need effective configurations, like temperature and reasoning steps, to handle tasks requiring sophisticated reasoning and problem-solving, ranging from joke generation to mathematical reasoning. Existing prompting approaches usually adopt general-purpose, fixed configurations that work 'well enough' across tasks but seldom achieve task-specific optimality. To address this gap, we introduce AdaReasoner, an LLM-agnostic plugin designed for any LLM to automate adaptive reasoning configurations for tasks requiring different types of thinking. AdaReasoner is trained using a reinforcement learning (RL) framework, combining a factorized action space with a targeted exploration strategy, along with a pretrained reward model to optimize the policy model for reasoning configurations with only a few-shot guide. AdaReasoner is backed by theoretical guarantees and experiments of fast convergence and a sublinear policy gap. Across six different LLMs and a variety of reasoning tasks, it consistently outperforms standard baselines, preserves out-of-distribution robustness, and yield gains on knowledge-intensive tasks through tailored prompts.
- Abstract(参考訳): LLMは、ジョーク生成から数学的推論まで、洗練された推論と問題解決を必要とするタスクを処理するために、温度や推論ステップのような効果的な構成を必要とすることが多い。
既存のプロンプトアプローチでは、通常、タスク間で「十分に」機能する汎用的な固定された構成を採用するが、タスク固有の最適性を達成することはめったにない。
このギャップに対処するために、異なるタイプの思考を必要とするタスクに対する適応的推論構成を自動化するために、どのLLMにも依存しないプラグインであるAdaReasonerを紹介した。
AdaReasonerは強化学習(RL)フレームワークを使用してトレーニングされており、因子化されたアクション空間とターゲット探索戦略を組み合わせるとともに、事前トレーニングされた報酬モデルを使用して、数ショットのガイドだけで構成を推論するためのポリシーモデルを最適化する。
AdaReasonerは、高速収束とサブ線形ポリシーギャップの理論的保証と実験によって支えられている。
6つの異なるLCMと様々な推論タスクにまたがって、標準ベースラインを一貫して上回り、分布外ロバスト性を保ち、調整されたプロンプトを通じて知識集約的なタスクに利益をもたらす。
関連論文リスト
- RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow [19.502882116487005]
リモートセンシング画像は、大きく、本質的に非構造的な空間データを提示する。
リモートセンシング推論タスクのためのフレキシブルで堅牢なワークフローであるRemoteReasonerを提案する。
予備実験により、RemoteReasonerは複数の粒度推論タスクで顕著な性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-07-25T13:58:11Z) - Preference-based Multi-Objective Reinforcement Learning [5.031225669460861]
本稿では、嗜好のMORLフレームワークへの統合を形式化した嗜好ベースのMORL(Pb-MORL)を紹介する。
そこで本提案手法は,提案した嗜好に適合する多目的報酬モデルを構築する。
ベンチマーク多目的タスク,マルチエネルギー管理タスク,および多線高速道路における自律運転タスクにおける実験結果から,本手法の競争力向上が示唆された。
論文 参考訳(メタデータ) (2025-07-18T16:43:04Z) - LogicPuzzleRL: Cultivating Robust Mathematical Reasoning in LLMs via Reinforcement Learning [29.047063129464494]
大規模言語モデル(LLM)は多くの教師付きタスクで優れるが、よくなじみのない設定で構造化された推論に悩まされる。
この矛盾は、標準的な微調整パイプラインが汎用的な思考戦略を育むのではなく、狭く、ドメイン固有のものを注入する可能性があることを示唆している。
本研究では,7つのカスタム論理パズルの組による強化学習を通じて,LLMを微調整する「学習のための遊び」フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T09:40:47Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Guiding Reasoning in Small Language Models with LLM Assistance [23.3038074903744]
小さな言語モデルは、深く、多段階の論理的推論を必要とするタスクに適していると疑念を抱いた。
本稿では,Small Reasons, Large Hintsというフレームワークについて紹介する。
数学的推論データセットを用いた実験により, ターゲットとなる外部足場の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-04-14T06:32:45Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Towards more Contextual Agents: An extractor-Generator Optimization Framework [0.0]
LLM(Large Language Model)ベースのエージェントは、幅広い汎用アプリケーションにわたる複雑なタスクの解決に顕著な成功を収めている。
しかしながら、それらのパフォーマンスは、専門産業や研究領域のようなコンテキスト固有のシナリオで劣化することが多い。
この課題に対処するため,本研究では,LLMエージェントの文脈適応性を高めるための体系的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:07:06Z) - Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。
本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:56:23Z) - Offline Reinforcement Learning for LLM Multi-Step Reasoning [15.687002884103537]
OREO(Offline Reasoning Optimization)は,多段階推論の強化を目的としたオフライン強化学習手法である。
これにより、ペアワイズデータを収集する必要がなくなり、より優れたクレジット割り当てが可能になる。
マルチステップ推論ベンチマークでは、既存のオフライン学習手法を超越している。
論文 参考訳(メタデータ) (2024-12-20T18:49:45Z) - Optimal Query Allocation in Extractive QA with LLMs: A Learning-to-Defer Framework with Theoretical Guarantees [3.4289478404209826]
大規模言語モデルは生成タスクでは優れているが、構造化されたテキスト選択では非効率である。
本稿では,専門的な専門家にクエリを割り当て,信頼性の高い予測を確実にする学習者向けフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T08:21:00Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Towards Generalist Prompting for Large Language Models by Mental Models [105.03747314550591]
大規模言語モデル(LLM)は多くのタスクにおいて素晴らしいパフォーマンスを示している。
最適な性能を達成するには、特別に設計されたプロンプト法が必要である。
本稿では,最適あるいは準最適性能を実現する設計原理に基づくジェネラリストプロンプトの概念を紹介する。
論文 参考訳(メタデータ) (2024-02-28T11:29:09Z) - LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning [61.7853049843921]
Chain-of-Thoughting(CoT)プロンプトは、大規模言語モデル(LLM)のための一般的なコンテキスト内学習手法である。
本稿では、教師なし学習を用いて有理数の潜在空間表現を生成するLaRS(Lalatnt Reasoning Skills)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T20:36:10Z) - A Principled Framework for Knowledge-enhanced Large Language Model [58.1536118111993]
大規模言語モデル(LLM)は汎用性があるが、深い信頼性のある推論を必要とするタスクに悩まされることが多い。
本稿では、知識を効果的に固定し、閉ループ推論プロセスを用いるLLMを作成するための厳密な設計のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-18T18:10:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。