論文の概要: Rethinking Entropy Minimization in Test-Time Adaptation for Autoregressive Models
- arxiv url: http://arxiv.org/abs/2605.08186v1
- Date: Tue, 05 May 2026 12:00:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.441733
- Title: Rethinking Entropy Minimization in Test-Time Adaptation for Autoregressive Models
- Title(参考訳): 自己回帰モデルに対するテスト時間適応におけるエントロピー最小化の再考
- Authors: Wei-Ping Huang, Chee-En Yu, Guan-Ting Lin, Hung-yi Lee,
- Abstract要約: エントロピー最小化(EM)によるテスト時間適応(TTA)は分類作業に有効であることが証明されているが、その応用は理論的に断片化されている。
本研究では,自己回帰モデルに適した厳密なEMの定式化を導出する。
本研究の目的は,トークンレベルの政策勾配損失とトークンレベルのエントロピー損失に自然に分解されることを示し,従来の手法を統一された定式化の部分的実現として再解釈する。
テストベッドとしてWhisper ASRを用いることで、音響ノイズ、アクセント、多言語設定を含む20以上の異なる領域のパフォーマンスを継続的に向上することを示す。
- 参考スコア(独自算出の注目度): 52.18157855348584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-Time Adaptation (TTA) via entropy minimization (EM) has proven effective for classification tasks, yet its application to generative autoregressive models remains theoretically fragmented. Existing approaches typically rely on distinct heuristics, such as teacher forcing with pseudo labels or policy-gradient-based reinforcement learning, without a unified mathematical foundation. In this work, we resolve this discrepancy by deriving a rigorous formulation of EM tailored to autoregressive models. We show that the exact objective naturally decomposes into a token-level policy gradient loss and a token-level entropy loss, and we reinterpret prior methods as partial realizations of this unified formulation. Using Whisper ASR as a testbed, we demonstrate that our approach consistently improves performance across more than 20 diverse domains, including acoustic noise, accents, and multilingual settings.
- Abstract(参考訳): エントロピー最小化(EM)によるテスト時間適応(TTA)は分類作業に有効であることが証明されているが、生成自己回帰モデルへの応用は理論的に断片化されている。
既存のアプローチは、例えば教師が擬似ラベルを強制したり、政策の漸進的な強化学習を行うなど、統一された数学的基礎を持たずに、異なるヒューリスティックに頼っているのが一般的である。
本研究では, 自己回帰モデルに適した厳密なEMの定式化を導出することにより, この相違を解消する。
本研究の目的は,トークンレベルの政策勾配損失とトークンレベルのエントロピー損失に自然に分解されることを示し,従来の手法を統一された定式化の部分的実現として再解釈する。
テストベッドとしてWhisper ASRを用いることで、音響ノイズ、アクセント、多言語設定を含む20以上の異なる領域のパフォーマンスを継続的に向上することを示す。
関連論文リスト
- Non-Parametric Rehearsal Learning via Conditional Mean Embeddings [88.89267783967263]
本研究では,不必要な未来(AUF)問題をテキスト化するための非パラメトリックリハーサル学習手法を提案する。
具体的には、カーネル機械を用いてAUFの目的を、動作誘起分布変化から所望性モデリングを遠ざける統一表現に再構成する。
論文 参考訳(メタデータ) (2026-05-09T15:30:52Z) - Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training [29.56905427210088]
Gragient-ARMは、好みのフィードバックから強化学習を使用するルーリックジェネレータとジャッジを共同で最適化するフレームワークである。
ベンチマークのベースライン間で、勾配-ARMは最先端のパフォーマンスを達成し、オフラインおよびオンラインの強化学習設定において、ダウンストリームポリシーアライメントを大幅に改善することを示す。
論文 参考訳(メタデータ) (2026-02-02T00:50:53Z) - Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments [5.5855749614100825]
本稿では,複数の事前学習モデルを活用することで,このリコール低減を緩和できるという仮説を述べる。
我々は,一貫性に基づく推論問題として,様々なモデルからの矛盾する予測を特定し,管理することの課題を定式化する。
本研究は,複数の不完全なモデルから得られた知識を,難易度の高い新しいシナリオにおいて堅牢に統合するための効果的なメカニズムとして,一貫性に基づく誘拐の有効性を検証するものである。
論文 参考訳(メタデータ) (2025-05-25T23:17:47Z) - Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning [20.491176017183044]
本稿では多目的強化学習(MORL)問題に取り組む。
MOACと呼ばれる革新的なアクター批判アルゴリズムを導入し、競合する報酬信号間のトレードオフを反復的に行うことでポリシーを見出す。
論文 参考訳(メタデータ) (2024-05-05T23:52:57Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Adaptive Meta-learner via Gradient Similarity for Few-shot Text
Classification [11.035878821365149]
本稿では, モデル一般化能力の向上を図るため, 適応型メタラーナをグラディエント類似性(AMGS)を介して提案する。
いくつかのベンチマークによる実験結果から,提案したAMGSは連続的にテキスト分類性能を向上することが示された。
論文 参考訳(メタデータ) (2022-09-10T16:14:53Z) - Semantic Self-adaptation: Enhancing Generalization with a Single Sample [45.111358665370524]
セマンティックセグメンテーションのための自己適応型アプローチを提案する。
整合正則化を用いて畳み込み層のパラメータを入力画像に微調整する。
実験により, 自己適応は訓練時のモデル正規化の確立した実践を補完する可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-10T12:29:01Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。