論文の概要: SMART: Self-learning Meta-strategy Agent for Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2410.16128v1
- Date: Mon, 21 Oct 2024 15:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:20:06.917687
- Title: SMART: Self-learning Meta-strategy Agent for Reasoning Tasks
- Title(参考訳): SMART:タスクの推論のための自己学習型メタストラテジーエージェント
- Authors: Rongxing Liu, Kumar Shridhar, Manish Prajapat, Patrick Xia, Mrinmaya Sachan,
- Abstract要約: SMART(Self-learning Meta-Strategy Agent for Reasoning Tasks)は、LMが様々な推論タスクの最も効果的な戦略を学習し、選択できる新しいフレームワークである。
我々は、戦略選択プロセスをマルコフ決定プロセスとしてモデル化し、強化学習による継続的自己改善を活用する。
実験の結果,SMARTは外部ガイダンスを使わずに最適な戦略を選択する能力を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 44.45037694899524
- License:
- Abstract: Tasks requiring deductive reasoning, especially those involving multiple steps, often demand adaptive strategies such as intermediate generation of rationales or programs, as no single approach is universally optimal. While Language Models (LMs) can enhance their outputs through iterative self-refinement and strategy adjustments, they frequently fail to apply the most effective strategy in their first attempt. This inefficiency raises the question: Can LMs learn to select the optimal strategy in the first attempt, without a need for refinement? To address this challenge, we introduce SMART (Self-learning Meta-strategy Agent for Reasoning Tasks), a novel framework that enables LMs to autonomously learn and select the most effective strategies for various reasoning tasks. We model the strategy selection process as a Markov Decision Process and leverage reinforcement learning-driven continuous self-improvement to allow the model to find the suitable strategy to solve a given task. Unlike traditional self-refinement methods that rely on multiple inference passes or external feedback, SMART allows an LM to internalize the outcomes of its own reasoning processes and adjust its strategy accordingly, aiming for correct solutions on the first attempt. Our experiments across various reasoning datasets and with different model architectures demonstrate that SMART significantly enhances the ability of models to choose optimal strategies without external guidance (+15 points on the GSM8K dataset). By achieving higher accuracy with a single inference pass, SMART not only improves performance but also reduces computational costs for refinement-based strategies, paving the way for more efficient and intelligent reasoning in LMs.
- Abstract(参考訳): 帰納的推論を必要とするタスク、特に複数のステップを含むタスクは、一つのアプローチが普遍的に最適ではないため、しばしば論理学やプログラムの中間生成のような適応的な戦略を要求する。
言語モデル(LM)は、反復的な自己調整と戦略調整を通じてアウトプットを強化することができるが、最初の試みで最も効果的な戦略を適用することはしばしば失敗する。
LMは、改善の必要なく、最初の試みで最適な戦略を選択することを学べますか?
この課題に対処するために,LMが自律的に学習し,様々な推論タスクに対して最も効果的な戦略を選択することができる新しいフレームワークであるSMART(Self-learning Meta-Strategy Agent for Reasoning Tasks)を紹介した。
我々は、戦略選択プロセスをマルコフ決定プロセスとしてモデル化し、強化学習による継続的自己改善を活用して、与えられた課題を解決するための適切な戦略を見つける。
SMARTは、複数の推論パスや外部からのフィードバックに依存する従来の自己修正手法とは異なり、LMは独自の推論プロセスの結果を内部化し、その戦略を調整し、最初の試みの正しい解決策を目指している。
様々な推論データセットと異なるモデルアーキテクチャを用いた実験により、SMARTは外部ガイダンス(GSM8Kデータセットの+15ポイント)を使わずに最適な戦略を選択する能力を大幅に向上することを示した。
単一の推論パスで高い精度を達成することで、SMARTは性能を向上するだけでなく、改良ベースの戦略の計算コストを低減し、LMにおけるより効率的でインテリジェントな推論の道を開いた。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - SIKeD: Self-guided Iterative Knowledge Distillation for mathematical reasoning [49.29200323760457]
大きな言語モデル(LLM)は、推論スキルをより小さなモデルに転送することができる。
より小さなモデルは蒸留時に全ての戦略にLLM分布を適合させるほど表現力に乏しい。
この1つの戦略への依存は、より小さなモデルにおいて、望ましい戦略で困難な推論タスクを解決しようとするときに、課題となる。
論文 参考訳(メタデータ) (2024-10-24T09:29:18Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Leveraging automatic strategy discovery to teach people how to select better projects [0.9821874476902969]
個人や組織の決定は、規範的な決定戦略が現実の世界であまりにも要求されているため、過小評価されることが多い。
最近の研究は、人工知能を利用して規範的な意思決定戦略を発見し、教えることによって、いくつかのエラーを防ぐことができることを示唆している。
この記事は、このアプローチを現実の意思決定問題、すなわちプロジェクト選択に拡張する最初のものです。
論文 参考訳(メタデータ) (2024-06-06T13:51:44Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - Robust Utility Optimization via a GAN Approach [3.74142789780782]
本稿では,堅牢なユーティリティ最適化問題を解決するために,GAN(Generative Adversarial Network)アプローチを提案する。
特に、投資家と市場の両方をニューラルネットワーク(NN)でモデル化し、ミニマックスゼロサムゲームでトレーニングする。
論文 参考訳(メタデータ) (2024-03-22T14:36:39Z) - Scalable and Equitable Math Problem Solving Strategy Prediction in Big
Educational Data [2.86829428083307]
我々はMVecと呼ばれる埋め込みを開発し、学生の熟達度に基づいて表現を学習する。
次に、これらの埋め込みを非パラメトリッククラスタリング法でクラスタ化する。
提案手法は,大規模データセットの小さなサンプルをトレーニングすることで,高精度にスケールアップ可能であることを示す。
論文 参考訳(メタデータ) (2023-08-07T19:51:10Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Efficient Reinforced Feature Selection via Early Stopping Traverse
Strategy [36.890295071860166]
単エージェントモンテカルロ型強化特徴選択法(MCRFS)を提案する。
また,早期停止(ES)戦略と報酬レベルインタラクティブ(RI)戦略の2つの効率改善戦略を提案する。
論文 参考訳(メタデータ) (2021-09-29T03:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。