論文の概要: You only need 4 extra tokens: Synergistic Test-time Adaptation for LLMs
- arxiv url: http://arxiv.org/abs/2510.10223v1
- Date: Sat, 11 Oct 2025 14:00:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.848003
- Title: You only need 4 extra tokens: Synergistic Test-time Adaptation for LLMs
- Title(参考訳): 余分なトークンは4つしかない: LLMの相乗的テスト時間適応
- Authors: Yijie Xu, Huizai Yao, Zhiyu Guo, Weiyu Guo, Pengteng Li, Aiwei Liu, Xuming Hu, Hui Xiong,
- Abstract要約: 大規模言語モデル (LLM) は、金融、医療、農業などの専門分野にますます導入されている。
本稿では,言語モデルに対するラベルフリーテスト時適応について検討し,追加の監督なしにモデルをオンザフライで適応する推論時フレームワークであるSyTTAについて述べる。
- 参考スコア(独自算出の注目度): 50.54173262572369
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in specialized domains such as finance, medicine, and agriculture, where they face significant distribution shifts from their training data. Domain-specific fine-tuning can mitigate this challenge but relies on high-quality labeled data that is expensive and slow to collect in expertise-limited settings. We study label-free test-time adaptation for language models and present SyTTA, an inference-time framework that adapts models on-the-fly without additional supervision. SyTTA couples two complementary uncertainty signals that arise under distribution shift: input-side perplexity, indicating mismatch with domain-specific terminology and patterns, and output-side predictive entropy, indicating diffuse and unstable token probabilities during generation. Across diverse model architectures and domain-specific benchmarks, SyTTA delivers consistent gains. Notably, on agricultural question answering, SyTTA improves Rouge-LSum by over 120% on Qwen-2.5-7B with only 4 extra tokens per query. These results show that effective test-time adaptation for language models is achievable without labeled examples, supporting deployment in label-scarce domains. The code will be made available upon acceptance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、金融、医療、農業などの専門分野にますます導入され、トレーニングデータからかなりの分散シフトに直面している。
ドメイン固有の微調整は、この課題を軽減することができるが、専門知識に制限された設定で収集するのに高価で遅い、高品質なラベル付きデータに依存している。
本稿では,言語モデルに対するラベルフリーテスト時適応について検討し,追加の監督なしにモデルをオンザフライで適応する推論時フレームワークであるSyTTAについて述べる。
SyTTAは2つの相補的な不確実性信号(入力側パープレキシティ、ドメイン固有の用語とパターンとのミスマッチ、および出力側予測エントロピー)を結合し、生成中の拡散と不安定なトークン確率を示す。
さまざまなモデルアーキテクチャとドメイン固有のベンチマークを通じて、SyTTAは一貫性のあるゲインを提供します。
特に農業問題への回答において、SyTTAはQwen-2.5-7BでルージュLSumを120%以上改善し、クエリ毎に4つの余分なトークンしか持たない。
これらの結果から,言語モデルに対する効果的なテスト時適応は,ラベル付き例を使わずに実現可能であることが示唆された。
コードは受理時に利用可能になる。
関連論文リスト
- Zero-Shot Anomaly Detection with Dual-Branch Prompt Selection [17.263625932911534]
Zero-shot Anomaly Detection (ZSAD) は、見えないカテゴリの欠陥を識別し、ローカライズする。
既存のZSADメソッドは、固定または学習プロンプトを使用しても、トレーニングデータが限られたトレーニングドメインから導出されるため、ドメインシフトの下で苦労する。
PILOTは2つの重要なイノベーションを通じてこれらの課題を克服するために設計されたフレームワークです。
論文 参考訳(メタデータ) (2025-08-01T17:00:12Z) - Alleviating Distribution Shift in Synthetic Data for Machine Translation Quality Estimation [55.73341401764367]
合成QEデータの分散シフトを緩和する新しいフレームワークであるDCSQEを紹介する。
DCSQEは、参照、すなわち翻訳監督信号を使用して、生成プロセスとアノテーションプロセスの両方をガイドする。
実験により、DCSQEは教師なし設定と教師なし設定の両方でSOTAベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-02-27T10:11:53Z) - Unsupervised Domain Adaptation for Action Recognition via Self-Ensembling and Conditional Embedding Alignment [2.06242362470764]
本稿では, 整合正則化, 時間アンサンブル, 条件分布アライメントの3つの関数からなる新しい共同最適化アーキテクチャを提案する。
$mu$DARは、平均マクロF1スコアを4つのベンチマークwHARデータセットで6つの最先端UDAメソッドで改善する$approx$4-12%の範囲をもたらす。
論文 参考訳(メタデータ) (2024-10-23T00:59:27Z) - Adaptive Test-Time Personalization for Federated Learning [51.25437606915392]
テスト時パーソナライズド・フェデレーション・ラーニング(TTPFL)と呼ばれる新しい設定を導入する。
TTPFLでは、クライアントはテスト期間中にラベル付きデータに頼ることなく、教師なしの方法でグローバルモデルをローカルに適応する。
本稿では,ソースドメイン間の分散シフトから,モデル内の各モジュールの適応率を適応的に学習する ATP という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T20:42:47Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Addressing Distribution Shift at Test Time in Pre-trained Language
Models [3.655021726150369]
State-of-the-the-art pre-trained Language Model (PLM)は、多くの言語処理タスクに適用された場合、他のモデルよりも優れている。
PLMは分散シフト下で性能が低下することが判明した。
本研究では,分散シフト下での試験時間におけるPLMの性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2022-12-05T16:04:54Z) - Bridging Few-Shot Learning and Adaptation: New Challenges of
Support-Query Shift [4.374837991804085]
わずかなラベル付きデータで新しい概念を学習するアルゴリズムはほとんどない。
テスト時に遭遇した新しいクラスからクエリインスタンスを分類するには、いくつかのラベル付きサンプルからなるサポートセットが必要である。
現実的なセットティングでは、データ分散は、少なくとも変化の対象であり、分散シフト(DS)と呼ばれる状況である。
論文 参考訳(メタデータ) (2021-05-25T10:10:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。