論文の概要: Self-Improving LLM Agents at Test-Time
- arxiv url: http://arxiv.org/abs/2510.07841v1
- Date: Thu, 09 Oct 2025 06:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.9102
- Title: Self-Improving LLM Agents at Test-Time
- Title(参考訳): 試験時間における自己改善LDM剤
- Authors: Emre Can Acikgoz, Cheng Qian, Heng Ji, Dilek Hakkani-Tür, Gokhan Tur,
- Abstract要約: 言語モデル(LM)の1つのパラダイムは、大規模なトレーニングデータセットの作成に依存している。
実際には、大量のデータを集めることは非効率であり、それらのトレーニングは違法に高価である。
テスト時間自己改善(TT-SI)とテスト時間蒸留(TT-D)の2つのバリエーションについて検討する。
- 参考スコア(独自算出の注目度): 49.9396634315896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One paradigm of language model (LM) fine-tuning relies on creating large training datasets, under the assumption that high quantity and diversity will enable models to generalize to novel tasks after post-training. In practice, gathering large sets of data is inefficient, and training on them is prohibitively expensive; worse, there is no guarantee that the resulting model will handle complex scenarios or generalize better. Moreover, existing techniques rarely assess whether a training sample provides novel information or is redundant with the knowledge already acquired by the model, resulting in unnecessary costs. In this work, we explore a new test-time self-improvement method to create more effective and generalizable agentic LMs on-the-fly. The proposed algorithm can be summarized in three steps: (i) first it identifies the samples that model struggles with (self-awareness), (ii) then generates similar examples from detected uncertain samples (self-data augmentation), and (iii) uses these newly generated samples at test-time fine-tuning (self-improvement). We study two variants of this approach: Test-Time Self-Improvement (TT-SI), where the same model generates additional training examples from its own uncertain cases and then learns from them, and contrast this approach with Test-Time Distillation (TT-D), where a stronger model generates similar examples for uncertain cases, enabling student to adapt using distilled supervision. Empirical evaluations across different agent benchmarks demonstrate that TT-SI improves the performance with +5.48% absolute accuracy gain on average across all benchmarks and surpasses other standard learning methods, yet using 68x less training samples. Our findings highlight the promise of TT-SI, demonstrating the potential of self-improvement algorithms at test-time as a new paradigm for building more capable agents toward self-evolution.
- Abstract(参考訳): 言語モデル(LM)の1つのパラダイムは、学習後の新しいタスクにモデルが一般化できるという仮定のもと、大規模なトレーニングデータセットを作成することに依存している。
実際には、大規模なデータセットの収集は非効率であり、それらに対するトレーニングは違法に高価である。さらに悪いことに、結果のモデルが複雑なシナリオを処理するか、より一般化されるかは保証されていない。
さらに、既存の手法では、トレーニングサンプルが新しい情報を提供するか、あるいはモデルが既に取得した知識に冗長であるかをほとんど評価せず、結果として不要なコストが生じる。
そこで本研究では,より効率的で汎用的なエージェントLMをオンザフライで作成するための,新しいテスト時間自己改善手法について検討する。
提案アルゴリズムは3つのステップで要約できる。
(i)まず、モデルが苦しむサンプル(自己認識)を特定する。
(ii) 検出された不確実なサンプル(自己データ拡張)から同様の例を生成し、
(iii)これら新たに生成されたサンプルをテストタイム微調整(自己改善)に使用する。
試験時間自己改善 (TT-SI) では, 試験時間自己改善 (TT-SI) と試験時間蒸留 (TT-D) の2種類について検討した。
エージェントベンチマークによる実証的な評価では、TT-SIは平均5.48%の精度でパフォーマンスを改善し、他の標準学習手法を上回り、68倍のトレーニングサンプルを使用する。
我々の研究はTT-SIの可能性を強調し、自己進化に向けてより有能なエージェントを構築するための新しいパラダイムとして、テスト時に自己改善アルゴリズムの可能性を示す。
関連論文リスト
- Continuous Self-Improvement of Large Language Models by Test-time Training with Verifier-Driven Sample Selection [6.471199527741301]
VDS-TTT(Verifier-Driven Sample Selection for Test-Time Training)と呼ばれる新しいフレームワークを導入する。
学習した検証器を用いて、生成された応答のプールをスコアし、高いランクの擬似ラベル付き例からのみ選び、微調整を施す。
低ランクなLoRAアダプタパラメータのみを微調整し、適応効率と高速収束を確保する。
論文 参考訳(メタデータ) (2025-05-26T03:54:47Z) - Enhancing Sample Selection Against Label Noise by Cutting Mislabeled Easy Examples [62.13094877228772]
トレーニングプロセスの初期段階において,モデルによって正しく予測された誤ラベル例は,特にモデル性能に有害であることを示す。
モデルの後続のトレーニング状態を利用して,早期に同定された自信あるサブセットを再選択するアーリーカットを提案する。
論文 参考訳(メタデータ) (2025-02-12T09:12:45Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。
リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文 参考訳(メタデータ) (2024-06-03T16:21:38Z) - Point-TTA: Test-Time Adaptation for Point Cloud Registration Using
Multitask Meta-Auxiliary Learning [17.980649681325406]
我々は、ポイントクラウド登録(PCR)のための新しいテスト時間適応フレームワークであるPoint-TTAを提案する。
我々のモデルは、テストデータの事前の知識を必要とせずに、テスト時に目に見えない分布に適応することができる。
訓練中は, 補助タスクによる適応モデルにより主タスクの精度が向上するように, メタ補助学習アプローチを用いて訓練を行う。
論文 参考訳(メタデータ) (2023-08-31T06:32:11Z) - Test-Time Adaptation with Perturbation Consistency Learning [32.58879780726279]
そこで本研究では, 分布変化のあるサンプルに対して, 安定な予測を行うための簡易なテスト時間適応手法を提案する。
提案手法は,強力なPLMバックボーンよりも推論時間が少なく,高い,あるいは同等の性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-25T12:29:22Z) - TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。
ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-05-18T05:43:06Z) - Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。
また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文 参考訳(メタデータ) (2022-04-06T06:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。