論文の概要: Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies
- arxiv url: http://arxiv.org/abs/2604.00830v1
- Date: Wed, 01 Apr 2026 12:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.98945
- Title: Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies
- Title(参考訳): テスト時の学習: 学習可能な適応ポリシーを持つ言語エージェント
- Authors: Zhanzhi Lou, Hui Chen, Yibo Li, Qian Wang, Bryan Hooi,
- Abstract要約: テスト・タイム・ラーニング(TTL)は、言語エージェントが推論時に環境と繰り返し対話することで、その性能を反復的に改善することを可能にする。
我々は,人間の直感に基づく手作業ではなく,タスク環境から最適な適応ポリシーを学ぶべきだと論じている。
本稿では,2段階最適化問題として効果的な適応ポリシーの発見を定式化するMeta-TTLを提案する。
- 参考スコア(独自算出の注目度): 48.31565681022125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-Time Learning (TTL) enables language agents to iteratively refine their performance through repeated interactions with the environment at inference time. At the core of TTL is an adaptation policy that updates the actor policy based on experience from previous episodes, thereby improving future behavior. Existing methods rely on fixed, hand-crafted adaptation policies rather than optimizing them for downstream improvement. We argue that optimal adaptation policies should be learned from task environments, not hand-engineered based on human intuition. To achieve this, we introduce Meta-TTL, a framework that formulates the discovery of effective adaptation policies as a bi-level optimization problem. Within this framework, the inner loop executes the standard TTL process, measuring how effectively a candidate adaptation policy helps an agent correct errors across sequential episodes. Guided by the agent's performance, the outer loop employs evolutionary search over a diverse distribution of training tasks to iteratively refine the adaptation policy. We evaluate Meta-TTL on Jericho and WebArena-Lite across both in-distribution (ID) and out-of-distribution (OOD) settings, using multiple meta-agent backbones. Results on both benchmarks show that Meta-TTL consistently outperforms hand-crafted baselines, suggesting that the optimized adaptation policy encodes transferable strategies that generalize beyond the training task distribution.
- Abstract(参考訳): テスト・タイム・ラーニング(TTL)は、言語エージェントが推論時に環境と繰り返し対話することで、その性能を反復的に改善することを可能にする。
TTLの中核は、前回の経験に基づいてアクターポリシーを更新し、将来の行動を改善する適応ポリシーである。
既存の手法は、下流の改善のために最適化するのではなく、固定された手作りの適応ポリシーに依存している。
我々は,人間の直感に基づく手作業ではなく,タスク環境から最適な適応ポリシーを学ぶべきだと論じている。
そこで我々は,2段階最適化問題として効果的な適応ポリシーの発見を定式化するMeta-TTLを提案する。
このフレームワーク内では、内部ループが標準のTLLプロセスを実行し、候補適応ポリシーがエージェントが逐次エピソード間でエラーを修正するのにいかに効果的かを測定する。
エージェントのパフォーマンスによって導かれた外部ループは、適応ポリシーを反復的に洗練するために、多様なトレーニングタスクの分布を進化的に探索する。
複数のメタエージェントバックボーンを用いて,Jerricho と WebArena-Lite 上の Meta-TTL を,in-distribution (ID) とout-of-distriion (OOD) の2つの設定で評価した。
両ベンチマークの結果から,Meta-TTLは手作りのベースラインを一貫して上回り,最適化された適応ポリシは,トレーニングタスク分布を超えて一般化可能な戦略を符号化していることが示された。
関連論文リスト
- Align and Filter: Improving Performance in Asynchronous On-Policy RL [27.989398323927393]
分散学習と高頻度更新によるポリシラグの発生源を同定する。
本稿では,政策ラグを軽減するための実践的アプローチとして,テクスト変動に基づく制約付きポリシー最適化を提案する。
論文 参考訳(メタデータ) (2026-03-02T01:52:34Z) - In-Context Reinforcement Learning From Suboptimal Historical Data [56.60512975858003]
トランスフォーマーモデルは、主にコンテキスト内学習能力によって、目覚ましい経験的成功を収めた。
本稿では,アクタ・クリティカルなアルゴリズムを文脈内でエミュレートする決定重要度変換フレームワークを提案する。
以上の結果から,特にオフラインデータセットが最適な履歴データを含む場合,DITは優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-01-27T23:13:06Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Policy-Conditioned Policies for Multi-Agent Task Solving [53.67744322553693]
本研究では,ポリシーを人間の解釈可能なソースコードとして表現することでギャップを埋めるパラダイムシフトを提案する。
本研究では,Large Language Models (LLM) を近似インタプリタとして利用することにより,学習問題を再構築する。
我々はこのプロセスを,ポリシーコードをテキスト勾配で最適化するアルゴリズムである TextitProgrammatic Iterated Best Response (PIBR) として定式化する。
論文 参考訳(メタデータ) (2025-12-24T07:42:10Z) - TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [12.061547251822326]
Trajectory-based Group Relative Policy Optimization (TGRPO)は、Visual-Language-Action(VLA)モデルのためのオンラインRLベースのトレーニングフレームワークである。
TGRPOの平均成功率は80.7%で、これはスーパーバイザードファインチューニング(SFT)よりも4.2%高く、他の代表的RLベースのポストトレーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-10T04:27:49Z) - Adaptive Augmentation Policy Optimization with LLM Feedback [3.038642416291856]
データ拡張はディープラーニングパイプラインの重要なコンポーネントであり、データセットの多様性を高めてモデルの一般化を強化する。
従来の拡張戦略は手動で設計した変換、分類サンプリング、あるいは自動検索ベースのアプローチに依存している。
本稿では,モデル性能フィードバックに基づいて拡張ポリシーを改良するLarge Language Model (LLM)誘導拡張最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-10-17T11:26:10Z) - Meta-Reinforcement Learning with Universal Policy Adaptation: Provable Near-Optimality under All-task Optimum Comparator [9.900800253949512]
本稿では,メタRL(BO-MRL)の2段階最適化フレームワークを開発し,タスク固有のポリシー適応のためのメタプライヤを学習する。
提案手法の精度を実証的に検証し,提案アルゴリズムがベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-13T05:17:58Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。