論文の概要: SMaRT: Select, Mix, and ReinvenT - A Strategy Fusion Framework for LLM-Driven Reasoning and Planning
- arxiv url: http://arxiv.org/abs/2510.18095v1
- Date: Mon, 20 Oct 2025 20:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.616653
- Title: SMaRT: Select, Mix, and ReinvenT - A Strategy Fusion Framework for LLM-Driven Reasoning and Planning
- Title(参考訳): SMaRT: LLM駆動の推論と計画のための戦略融合フレームワーク
- Authors: Nikhil Verma, Manasa Bharadwaj, Wonjun Jang, Harmanpreet Singh, Yixiao Wang, Homa Fashandi, Chul Lee,
- Abstract要約: 大規模言語モデル(LLM)は、例外的な一般化機能を備えた複雑なタスク自動化を再定義した。
パフォーマンスを最大化し、堅牢性を保証するために戦略を融合するフレームワークの必要性を強調している。
我々は、この制約を克服するために設計された革新的な戦略融合アプローチであるSelect, Mix, ReinvenT (SMaRT) フレームワークを紹介します。
- 参考スコア(独自算出の注目度): 14.78684546475325
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have redefined complex task automation with exceptional generalization capabilities. Despite these advancements, state-of-the-art methods rely on single-strategy prompting, missing the synergy of diverse reasoning approaches. No single strategy excels universally, highlighting the need for frameworks that fuse strategies to maximize performance and ensure robustness. We introduce the Select, Mix, and ReinvenT (SMaRT) framework, an innovative strategy fusion approach designed to overcome this constraint by creating balanced and efficient solutions through the seamless integration of diverse reasoning strategies. Unlike existing methods, which employ LLMs merely as evaluators, SMaRT uses them as intelligent integrators, unlocking the "best of all worlds" across tasks. Extensive empirical evaluations across benchmarks in reasoning, planning, and sequential decision-making highlight the robustness and adaptability of SMaRT. The framework consistently outperforms state-of-the-art baselines in solution quality, constraint adherence, and performance metrics. This work redefines LLM-driven decision-making by pioneering a new paradigm in cross-strategy calibration, unlocking superior outcomes for reasoning systems and advancing the boundaries of self-refining methodologies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、例外的な一般化機能を備えた複雑なタスク自動化を再定義した。
これらの進歩にもかかわらず、最先端の手法は、様々な推論アプローチの相乗効果を欠き、単一戦略の促進に依存している。
パフォーマンスを最大化し、堅牢性を保証するために戦略を融合するフレームワークの必要性を強調している。
Select, Mix, and ReinvenT (SMaRT) フレームワークを導入し, 多様な推論戦略のシームレスな統合を通じて, この制約を克服する革新的な戦略融合手法を提案する。
LLMを単に評価器として使用する既存の方法とは異なり、SMaRTはそれらをインテリジェントな積分器として使用し、タスク全体にわたって「全ての世界のベスト」をアンロックする。
推論、計画、シーケンシャルな意思決定におけるベンチマークの広範な経験的評価は、SMaRTの堅牢性と適応性を強調している。
このフレームワークは、ソリューションの品質、制約順守、パフォーマンスメトリクスにおける最先端のベースラインを一貫して上回る。
この研究は、LSMによる意思決定を再定義し、クロスストラテジーキャリブレーションの新しいパラダイムを開拓し、推論システムに対する優れた結果を解き放ち、自己修正方法論の境界を推し進める。
関連論文リスト
- Reinforced Strategy Optimization for Conversational Recommender Systems via Network-of-Experts [63.412646471177645]
会話レコメンダシステム(CRS)のための新しい強化戦略最適化(RSO)手法を提案する。
RSOは、戦略駆動型応答決定をマクロレベルの戦略計画とマイクロレベルの戦略適応に分解する。
実験の結果, RSOは最先端のベースラインと比較して, インタラクション性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-09-30T11:12:01Z) - MOTIF: Multi-strategy Optimization via Turn-based Interactive Framework [4.012351415340318]
本稿では,多戦略最適化問題として,より広範な解法設計の定式化を導入する。
各ターンで、エージェントは、自分自身と相手の以前の更新履歴を活用することで、1つのコンポーネントを改善する。
複数のCOPドメインにわたる実験により、MOTIFは最先端の手法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-08-05T21:45:36Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - To Code or not to Code? Adaptive Tool Integration for Math Language Models via Expectation-Maximization [30.057052324461534]
本稿では,メタ認知ツール利用決定と進化能力の間の自己強化サイクルを構築するために,構造化探索(E-step)と非政治最適化(M-step)を併用する新しいフレームワークを提案する。
当社の7Bモデルは、MATH500では11%、AIMEでは9.4%、o1のようなCoTでは9.4%改善しています。
論文 参考訳(メタデータ) (2025-02-02T06:32:23Z) - SMART: Self-learning Meta-strategy Agent for Reasoning Tasks [44.45037694899524]
SMART(Self-learning Meta-Strategy Agent for Reasoning Tasks)は、LMが様々な推論タスクの最も効果的な戦略を学習し、選択できる新しいフレームワークである。
我々は、戦略選択プロセスをマルコフ決定プロセスとしてモデル化し、強化学習による継続的自己改善を活用する。
実験の結果,SMARTは外部ガイダンスを使わずに最適な戦略を選択する能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-10-21T15:55:04Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving [76.5322280307861]
StrategyLLM は LLM が帰納的推論、特定のタスクインスタンスからの一般的な戦略の導出、帰納的推論を可能にし、これらの一般的な戦略を特定のタスク例に適用し、一般化可能で一貫した数発のプロンプトを構築する。
実験の結果、StrategyLLMは、数学推論(34.2%$rightarrow$38.8%)、コモンセンス推論(70.3%$rightarrow$72.5%)、アルゴリズム推論(73.7%$rightarrow$85.0)を含む、4つの難しいタスクにまたがる13のデータセットに対して、人間によるアノテートソリューションを必要とする競争ベースラインのCoT-SCよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-11-15T09:18:09Z) - QFree: A Universal Value Function Factorization for Multi-Agent
Reinforcement Learning [2.287186762346021]
マルチエージェント強化学習のための共通値関数分解法QFreeを提案する。
汎用複雑なMARLベンチマーク環境において,QFreeが最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-11-01T08:07:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。