論文の概要: Reflective Context Learning: Studying the Optimization Primitives of Context Space
- arxiv url: http://arxiv.org/abs/2604.03189v1
- Date: Fri, 03 Apr 2026 17:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.545487
- Title: Reflective Context Learning: Studying the Optimization Primitives of Context Space
- Title(参考訳): リフレクティブ・コンテクスト学習 : コンテクスト空間の最適化プリミティブに関する研究
- Authors: Nikita Vassilyev, William Berrios, Ruowang Zhang, Bo Han, Douwe Kiela, Shikib Mehri,
- Abstract要約: 本稿では、反復的なインタラクション、動作と障害モードのリフレクション、コンテキストへの反復的な更新を通じて学習するエージェントのための統一されたフレームワークを提案する。
本研究では,ロバスト性更新による学習を,伝達可能な原理によって体系的に学習し,改善できる最適化問題として扱うべきであることを示す。
- 参考スコア(独自算出の注目度): 31.12730605047122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generally capable agents must learn from experience in ways that generalize across tasks and environments. The fundamental problems of learning, including credit assignment, overfitting, forgetting, local optima, and high-variance learning signals, persist whether the learned object lies in parameter space or context space. While these challenges are well understood in classical machine learning optimization, they remain underexplored in context space, leading current methods to be fragmented and ad hoc. We present Reflective Context Learning (RCL), a unified framework for agents that learn through repeated interaction, reflection on behavior and failure modes, and iterative updates to context. In RCL, reflection converts trajectories and current context into a directional update signal analogous to gradients, while mutation applies that signal to improve future behavior in context space. We recast recent context-optimization approaches as instances of this shared learning problem and systematically extend them with classical optimization primitives, including batching, improved credit-assignment signal, auxiliary losses, failure replay, and grouped rollouts for variance reduction. On AppWorld, BrowseComp+, and RewardBench2, these primitives improve over strong baselines, with their relative importance shifting across task regimes. We further analyze robustness to initialization, the effects of batch size, sampling and curriculum strategy, optimizer-state variants, and the impact of allocating stronger or weaker models to different optimization components. Our results suggest that learning through context updates should be treated not as a set of isolated algorithms, but as an optimization problem whose mechanisms can be studied systematically and improved through transferable principles.
- Abstract(参考訳): 一般的に有能なエージェントは、タスクや環境をまたいで一般化する方法で経験から学ぶ必要がある。
信用代入、過度に適合する、忘れること、局所最適性、高分散学習信号などの学習の基本的な問題は、学習対象がパラメータ空間や文脈空間にあるかどうかを継続する。
これらの課題は、古典的な機械学習最適化においてよく理解されているが、コンテキスト空間では未探索のままであり、現在のメソッドは断片化されアドホックになる。
リフレクティブ・コンテキスト・ラーニング(Reflective Context Learning, RCL)は、反復的なインタラクション、動作と障害モードのリフレクション、コンテキストへの反復的な更新を通じて学習するエージェントのための統合フレームワークである。
RCLでは、リフレクションは軌跡と現在のコンテキストを勾配に類似した方向更新信号に変換し、一方突然変異はその信号を文脈空間における将来の振る舞いを改善するために適用する。
我々は、この共有学習問題の事例として、最近のコンテキスト最適化アプローチを再放送し、バッチ処理、改良されたクレジット割り当て信号、補助的損失、障害リプレイ、分散低減のためのグループロールアウトを含む古典的な最適化プリミティブを体系的に拡張した。
AppWorld、BrowseComp+、RewardBench2では、これらのプリミティブは強いベースラインよりも改善され、タスクレシスタンス間で相対的な重要性がシフトしている。
さらに、初期化に対するロバスト性、バッチサイズ、サンプリングおよびカリキュラム戦略、オプティマイザ状態の変種、およびより強力なモデルや弱いモデルを異なる最適化コンポーネントに割り当てる影響について分析する。
この結果から,文脈更新による学習は,一組の孤立アルゴリズムではなく,伝達可能な原理によって学習機構を体系的に研究・改善できる最適化問題として扱うべきであることが示唆された。
関連論文リスト
- When Does Context Help? Error Dynamics of Contextual Information in Large Language Models [64.88201012057822]
大規模言語モデルにおける任意の文脈情報の影響を分析するための統合理論フレームワークを提案する。
本分析は,出力誤差ダイナミクスによる文脈的影響を特徴付ける。
ICL、検索拡張生成、メモリ進化に関する実験は、我々の理論を検証し、原則化された文脈選択戦略を動機づける。
論文 参考訳(メタデータ) (2026-02-09T05:58:41Z) - Deep Unfolding: Recent Developments, Theory, and Design Guidelines [99.63555420898554]
この記事では、最適化アルゴリズムを構造化されたトレーニング可能なMLアーキテクチャに変換するフレームワークであるDeep Unfoldingのチュートリアルスタイルの概要を提供する。
推論と学習のための最適化の基礎を概観し、深層展開のための4つの代表的な設計パラダイムを導入し、その反復的な性質から生じる特有なトレーニングスキームについて議論する。
論文 参考訳(メタデータ) (2025-12-03T13:16:35Z) - In-Context Learning for Non-Stationary MIMO Equalization [23.324726233034614]
In-context Learning (ICL) は、いくつかの例で推論時に新しいチャネルに適応する。
既存のICLベースの等化器は、主にコンテキストウィンドウ内の静的チャネルに対して開発・評価されている。
非定常タスクの適応性を改善した効率的な注意機構を設計するための原則的枠組みを用いる。
論文 参考訳(メタデータ) (2025-10-09T18:16:41Z) - Reflection-Enhanced Meta-Optimization Integrating TextGrad-style Prompt Optimization with Memory-Driven Self-Evolution [0.0]
本稿では,メモリ拡張リフレクションRetrievalRAGモジュールと自己適応型メタコントローラを統合するフレームワークを提案する。
REMOは、計算オーバーヘッドの増加にもかかわらず、より安定で堅牢なチューニングを実現する。
論文 参考訳(メタデータ) (2025-08-26T07:25:45Z) - Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。
特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文 参考訳(メタデータ) (2025-07-08T11:45:51Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Accelerating evolutionary exploration through language model-based transfer learning [7.4439048149751095]
本稿では,伝達学習と遺伝子発現プログラミングを統合する手法を提案する。
このフレームワークは自然言語処理技術を統合し、過去の最適化で探索された方程式から相関や繰り返しパターンを識別する。
本結果は,移動学習機構によって導出された初期解が,改良された解に対するアルゴリズムの収束率を高めることを裏付けるものである。
論文 参考訳(メタデータ) (2024-06-07T08:05:52Z) - Scrutinize What We Ignore: Reining In Task Representation Shift Of Context-Based Offline Meta Reinforcement Learning [10.792687309720169]
オフラインメタ強化学習(OMRL)は、相互作用回避と強力な一般化性能のための有望なアプローチとして登場した。
従来のコンテキストベースのアプローチは、コンテキストエンコーダとポリシーの最適化がパフォーマンス改善につながるという直感に依存しています。
我々はこの問題をタスク表現シフトと呼び、適切なコンテキストエンコーダ更新によってモノトニック性能の改善が保証できることを理論的に証明する。
論文 参考訳(メタデータ) (2024-05-20T13:14:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。