論文の概要: ReflexGrad: Three-Way Synergistic Architecture for Zero-Shot Generalization in LLM Agents
- arxiv url: http://arxiv.org/abs/2511.14584v1
- Date: Tue, 18 Nov 2025 15:25:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.180195
- Title: ReflexGrad: Three-Way Synergistic Architecture for Zero-Shot Generalization in LLM Agents
- Title(参考訳): ReflexGrad: LLMエージェントにおけるゼロショット一般化のための3ウェイ相乗的アーキテクチャ
- Authors: Ankush Kadu, Ashwanth Krishnan,
- Abstract要約: ReflexGradは、3つの相補的なメカニズムを密に結合する新しいアーキテクチャである。
本システムは, 純粋意味論的推論により, 真のゼロショット一般化を実現する。
我々の研究は、相補的な学習機構の相補的な統合が、堅牢なゼロショット一般化を可能にすることを実証している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enabling agents to learn from experience and generalize across diverse tasks without task-specific training remains a fundamental challenge in reinforcement learning and decision-making. While recent approaches have explored episodic memory (Reflexion), gradient-based prompt optimization (TextGrad),and hierarchical task decomposition independently, their potential for synergistic integration remains unexplored. We introduce ReflexGrad, a novel architecture that tightly couples three complementary mechanisms: (1) LLM-based hierarchical TODO decomposition for strategic planning, (2) history-aware causal reflection that analyzes recent action patterns to identify failure root causes and enable within-trial learning, and (3) gradient-based optimization for systematic improvement. Unlike prior work relying on few-shot demonstrations, our system achieves true zero-shot generalization through pure LLM semantic reasoning,requiring no task-specific examples, fine-tuning, or hardcoded similarity metrics. Evaluated on ALFWorld benchmark tasks, ReflexGrad demonstrates 67% zero-shot success rate on Trial 0 without any prior task experience or demonstrations, establishing effective performance on first exposure. Through empirical analysis, we identify the architectural mechanisms underlying stable convergence (zero action loops) and effective cross-task transfer (67% to 78% improvement).Our work demonstrates that synergistic integration of complementary learning mechanisms enables robust zero-shot generalization that approaches few-shot baselines from prior work.
- Abstract(参考訳): エージェントが経験から学び、タスク固有のトレーニングなしで様々なタスクを一般化できるようにすることは、強化学習と意思決定における根本的な課題である。
近年、エピソードメモリ(Reflexion)、勾配に基づくプロンプト最適化(TextGrad)、階層的タスクの分解を独立に検討しているが、相乗的統合の可能性については未解明のままである。
本稿では,(1)戦略計画のためのLCMに基づく階層型TODO分解,(2)障害原因を特定して内部学習を可能にする,最近の行動パターンを解析する履歴対応因果リフレクション,(3)系統的改善のための勾配に基づく最適化,の3つの相補的なメカニズムを密結合した新しいアーキテクチャであるReflexGradを紹介する。
従来の数発のデモとは異なり、本システムは純粋LLMセマンティック推論によって真のゼロショット一般化を実現し、タスク固有の例、微調整、ハードコード類似度メトリクスは不要である。
ALFWorldベンチマークタスクに基づいて評価されたReflexGradは、以前のタスクエクスペリエンスやデモなしでTrial 0で67%のゼロショット成功率を示し、最初の露出で効果的なパフォーマンスを確立している。
実証分析により、安定収束(ゼロ作用ループ)と効果的なクロスタスク転送(67%から78%の改善)の基盤となるアーキテクチャメカニズムを同定する。
本研究は, 相補的な学習機構の相補的な統合により, それまでの作業から数発のベースラインに近づいた頑健なゼロショット一般化を実現することを実証する。
関連論文リスト
- Rethinking the Role of Dynamic Sparse Training for Scalable Deep Reinforcement Learning [58.533203990515034]
ニューラルネットワークのスケーリングは機械学習における画期的な進歩をもたらしたが、このパラダイムは深層強化学習(DRL)では失敗している。
我々は、動的スパーストレーニング戦略が、アーキテクチャの改善によって確立された主要なスケーラビリティ基盤を補完するモジュール固有の利点を提供することを示す。
アーキテクチャ改善の利点を生かした実践的なフレームワークであるModule-Specific Training (MST) にこれらの知見を精査し、アルゴリズムの修正なしに様々なRLアルゴリズムをまたいだ大幅なスケーラビリティ向上を示す。
論文 参考訳(メタデータ) (2025-10-14T03:03:08Z) - SAMULE: Self-Learning Agents Enhanced by Multi-level Reflection [14.40651157974557]
SAMULEは、多層反射合成に基づいて訓練された振り返り言語モデルを活用した、自己学習エージェントのための新しいフレームワークである。
まず、細かなエラー訂正のための単一軌道学習(マイクロレベル)、同じタスクの複数の試行でエラーを発生させるタスク内学習(メソレベル)、さまざまなタスク障害から同一の型付きエラーに基づいて伝達可能な洞察を抽出するタスク間学習(マクロレベル)の3段階にわたる高品質なリフレクションを合成する。
論文 参考訳(メタデータ) (2025-09-24T21:02:15Z) - RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents [43.806220882212386]
RLVMRは、検証可能なメタ推論の振る舞いに報いることによって、密集したプロセスレベルの監視をエンドツーエンドのRLに統合する。
挑戦的なALFWorldとScienceWorldのベンチマークでは、RLVMRが新たな最先端の結果を達成している。
論文 参考訳(メタデータ) (2025-07-30T17:00:48Z) - Conditional Multi-Stage Failure Recovery for Embodied Agents [17.95974193288372]
ゼロショット連鎖プロンプトを用いた条件付き多段階故障復旧フレームワークを提案する。
我々は,TEACHデータセットのTfDベンチマークを用いて評価を行い,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-07-08T14:23:41Z) - Unleashing Embodied Task Planning Ability in LLMs via Reinforcement Learning [41.67411509781136]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
既存のアプローチは静的知識に基づいてオープンループアクションスクリプトを生成する。
結果駆動型強化学習フレームワークであるEmbodied Planner-R1を紹介する。
論文 参考訳(メタデータ) (2025-06-29T07:31:24Z) - OmniReflect: Discovering Transferable Constitutions for LLM agents via Neuro-Symbolic Reflections [0.8123746895372843]
我々は,複雑なタスクにおけるLarge Language Model (LLM)エージェントのパフォーマンスを改善するためのリフレクション駆動フレームワークであるOmniReflectを紹介する。
我々はNeural、Reflex、NeuroSymbolicの手法を採用し、文脈適応性と計算効率のバランスを提供する。
実験結果の平均は、ALFWorldで+10.3%、BabyAIで+23.8%、PDDLで+8.3%という、タスクの成功の大きな改善を示している。
論文 参考訳(メタデータ) (2025-06-20T19:38:21Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。
本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文 参考訳(メタデータ) (2024-12-11T11:38:11Z) - Devil's Advocate: Anticipatory Reflection for LLM Agents [53.897557605550325]
我々のアプローチは、LLMエージェントに対して、与えられたタスクを管理可能なサブタスクに分解するように促す。
イントロスペクティブ・イントロスペクティブ・イントロスペクティブ・イントロスペクティブ(introspective intervention)を3回実施する。
潜在的な障害の予測と、アクション実行前の代替策。
サブタスクの目的とのポストアクションアライメントと、計画実行における最大限の努力を保証するための改善によるバックトラック。
論文 参考訳(メタデータ) (2024-05-25T19:20:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。