論文の概要: SAMULE: Self-Learning Agents Enhanced by Multi-level Reflection
- arxiv url: http://arxiv.org/abs/2509.20562v1
- Date: Wed, 24 Sep 2025 21:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.58912
- Title: SAMULE: Self-Learning Agents Enhanced by Multi-level Reflection
- Title(参考訳): SAMULE:多レベル反射による自己学習剤
- Authors: Yubin Ge, Salvatore Romeo, Jason Cai, Monica Sunkara, Yi Zhang,
- Abstract要約: SAMULEは、多層反射合成に基づいて訓練された振り返り言語モデルを活用した、自己学習エージェントのための新しいフレームワークである。
まず、細かなエラー訂正のための単一軌道学習(マイクロレベル)、同じタスクの複数の試行でエラーを発生させるタスク内学習(メソレベル)、さまざまなタスク障害から同一の型付きエラーに基づいて伝達可能な洞察を抽出するタスク間学習(マクロレベル)の3段階にわたる高品質なリフレクションを合成する。
- 参考スコア(独自算出の注目度): 14.40651157974557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rapid advancements in LLM agents, they still face the challenge of generating meaningful reflections due to inadequate error analysis and a reliance on rare successful trajectories, especially in complex tasks. In this work, we propose SAMULE, a new framework for self-learning agents powered by a retrospective language model that is trained based on Multi-Level Reflection Synthesis. It first synthesizes high-quality reflections across three complementary levels: Single-Trajectory Learning (micro-level) for detailed error correction; Intra-Task Learning (meso-level) to build error taxonomies across multiple trials of the same task, and Inter-Task Learning (macro-level) to extract transferable insights based on same typed errors from diverse task failures. Then we fine-tune a language model serving as the retrospective model to generate reflections during inference. We further extend our framework to interactive settings through a foresight-based reflection mechanism, enabling agents to proactively reflect and adapt during user interactions by comparing predicted and actual responses. Extensive experiments on three challenging benchmarks - TravelPlanner, NATURAL PLAN, and Tau-bench - demonstrate that our approach significantly outperforms reflection-based baselines. Our results highlight the critical role of well-designed reflection synthesis and failure-centric learning in building self-improving LLM agents.
- Abstract(参考訳): LLMエージェントの急速な進歩にもかかわらず、不適切なエラー分析と、特に複雑なタスクにおいて稀に成功した軌道に依存するため、意味のある反射を生成するという課題に直面している。
本研究では,多層反射合成に基づいて学習した振り返り言語モデルを用いた,自己学習エージェントのための新しいフレームワークであるSAMULEを提案する。
まず、細かなエラー訂正のための単一軌道学習(マイクロレベル)、同じタスクの複数の試行でエラー分類を構築するためのタスク内学習(メソレベル)、さまざまなタスク失敗から同じ型付きエラーに基づいて伝達可能な洞察を抽出するタスク間学習(マクロレベル)の3段階にわたる高品質なリフレクションを合成する。
次に、振り返りモデルとして機能する言語モデルを微調整して、推論中にリフレクションを生成する。
我々は、フォレストベースのリフレクション機構により、我々のフレームワークをさらにインタラクティブな設定に拡張し、予測応答と実際の応答を比較することで、ユーザのインタラクション中にエージェントが積極的に反射し、適応することができるようにした。
TravelPlanner、NATURAL PLAN、Tau-benchの3つの挑戦的なベンチマークに関する大規模な実験は、我々のアプローチがリフレクションベースのベースラインを大幅に上回っていることを示している。
本研究は,自己改善型LDMエージェント構築における,よく設計されたリフレクション合成と失敗中心学習の重要性を強調した。
関連論文リスト
- SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning [25.02860760920562]
MLLM(Multimodal large language model)は、タスク推論において有望な能力を示すが、明示的な自己回帰と自己補正を必要とする複雑な問題に悩まされている。
既存のリフレクション手法は単純で、意味のあるインストラクティブフィードバックを生成するのに苦労している。
本稿では,2段階のリフレクション対応強化学習フレームワークであるグループ相対ポリシー最適化 (SRPO) を用いたマルチモーダル自己回帰強化推論を提案する。
論文 参考訳(メタデータ) (2025-06-02T14:21:44Z) - MIRROR: Multi-agent Intra- and Inter-Reflection for Optimized Reasoning in Tool Learning [33.009759731505746]
ツール統合を含む複雑なタスクは、大規模言語モデルにとって大きな課題となる。
リフレクションはエージェントベンチマークにおける誤った軌道の修正に有効な戦略として現れている。
提案するMIRRORは,実行前に意図した動作を批判的に評価するフレームワークと,軌道のさらなる調整を行うインターリフレクションの両方からなるフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T03:37:33Z) - ReflectEvo: Improving Meta Introspection of Small LLMs by Learning Self-Reflection [60.75785864719726]
本稿では,小言語モデル(SLM)がリフレクション学習を通じてメタイントロスペクションを向上させることを実証するために,新しいパイプラインであるReflectEvoを提案する。
大規模かつ包括的かつ自己生成型リフレクションデータセットであるReflectEvo-460kを構築し,多様なマルチドメインタスクを実現する。
論文 参考訳(メタデータ) (2025-05-22T10:03:05Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Instruct-of-Reflection: Enhancing Large Language Models Iterative Reflection Capabilities via Dynamic-Meta Instruction [11.838351314880736]
インストラクション・オブ・リフレクション(英: Instruct-of-Reflection、IoRT)は、大規模言語モデル(LLM)の反復的リフレクション能力を高めるために動的メタ命令を活用する、新しく一般的なリフレクションフレームワークである。
実験の結果、IoRTは数学的および常識的推論タスクにおいて、確立されたベースラインよりも平均10.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-03-02T14:02:03Z) - Meta-Reflection: A Feedback-Free Reflection Learning Framework [57.14485943991588]
外部からのフィードバックを伴わずに単一の推論パスのみを必要とするフィードバックフリーリフレクション機構であるメタリフレクションを提案する。
過去のリフレクションを記憶し、取り出す人間の能力によって、メタリフレクションはコードブックに反射的な洞察を統合する。
実世界のシナリオにおけるメタリフレクションの実践性を徹底的に検討し,評価するために,E-Commerce Customer Intent Detectionという産業eコマースベンチマークを導入する。
論文 参考訳(メタデータ) (2024-12-18T12:20:04Z) - RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models [5.0741409008225755]
大規模言語モデル(LLM)は、ロボットの課題を解決するための有望なツールとして登場した。
既存のLSMベースのエージェントは、過去の相互作用を維持および学習する能力に欠ける。
RAG-Modulo は,過去のインタラクションを記憶した LLM ベースのエージェントを強化し,エージェントの判断を評価するための批判を取り入れたフレームワークである。
論文 参考訳(メタデータ) (2024-09-18T20:03:32Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。