論文の概要: Test-Time Learning for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.20633v1
- Date: Tue, 27 May 2025 02:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.350202
- Title: Test-Time Learning for Large Language Models
- Title(参考訳): 大規模言語モデルのためのテスト時間学習
- Authors: Jinwu Hu, Zhitian Zhang, Guohao Chen, Xutao Wen, Chao Shuai, Wei Luo, Bin Xiao, Yuanqing Li, Mingkui Tan,
- Abstract要約: 大規模言語モデル(LLM)のためのテスト時間学習(TTL)パラダイムを提案する。
LLMはテスト中にラベルなしのテストデータのみを使用してターゲットドメインに動的に適応する。
TLMはドメイン知識適応における元のLLMと比較して少なくとも20%性能が向上することを示す。
- 参考スコア(独自算出の注目度): 33.11605667376906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) have exhibited remarkable emergent capabilities through extensive pre-training, they still face critical limitations in generalizing to specialized domains and handling diverse linguistic variations, known as distribution shifts. In this paper, we propose a Test-Time Learning (TTL) paradigm for LLMs, namely TLM, which dynamically adapts LLMs to target domains using only unlabeled test data during testing. Specifically, we first provide empirical evidence and theoretical insights to reveal that more accurate predictions from LLMs can be achieved by minimizing the input perplexity of the unlabeled test data. Based on this insight, we formulate the Test-Time Learning process of LLMs as input perplexity minimization, enabling self-supervised enhancement of LLM performance. Furthermore, we observe that high-perplexity samples tend to be more informative for model optimization. Accordingly, we introduce a Sample Efficient Learning Strategy that actively selects and emphasizes these high-perplexity samples for test-time updates. Lastly, to mitigate catastrophic forgetting and ensure adaptation stability, we adopt Low-Rank Adaptation (LoRA) instead of full-parameter optimization, which allows lightweight model updates while preserving more original knowledge from the model. We introduce the AdaptEval benchmark for TTL and demonstrate through experiments that TLM improves performance by at least 20% compared to original LLMs on domain knowledge adaptation.
- Abstract(参考訳): LLM(Large Language Models)は、広範な事前トレーニングを通じて顕著な創発的能力を示したが、専門分野への一般化や、分散シフトとして知られる多種多様な言語的バリエーションの扱いにおいて、依然として重要な制限に直面している。
本稿では,テスト中の未ラベルテストデータのみを用いて,LSMを対象領域に動的に適応するTL(Test-Time Learning)パラダイムを提案する。
具体的には、まず実験的なエビデンスと理論的な洞察を提供し、ラベルなしテストデータの入力パープレキシティを最小化することにより、LSMからのより正確な予測が達成できることを明らかにする。
この知見に基づいて,LLMの試験時間学習プロセスを入力パープレキシティ最小化として定式化し,LLM性能の自己監督的向上を可能にする。
さらに,高パープレキシティサンプルがモデル最適化に有用である傾向が観察された。
そこで我々は,テスト時間更新のために,これらの高難易度サンプルを積極的に選択し,強調するサンプル効率学習戦略を導入する。
最後に、破滅的な忘れを軽減し、適応安定性を確保するために、モデルからより独自の知識を保ちながら、軽量なモデル更新を可能にするフルパラメータ最適化の代わりに、ローランク適応(LoRA)を採用する。
本稿では,TLL の AdaptEval ベンチマークを導入し,ドメイン知識適応における元の LLM と比較して,TLM が性能を少なくとも20%向上することを示す。
関連論文リスト
- Active Testing of Large Language Model via Multi-Stage Sampling [17.89896012553348]
AcTracerは,大規模言語モデル(LLM)に適した,アクティブなテストフレームワークである。
ほぼ最適な性能推定を達成するために、戦略的にテストデータの小さなサブセットを選択する。
実験の結果,AcTracerは既存手法と比較して最先端の性能を達成できた。
論文 参考訳(メタデータ) (2024-08-07T06:17:48Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。