論文の概要: PERK: Long-Context Reasoning as Parameter-Efficient Test-Time Learning
- arxiv url: http://arxiv.org/abs/2507.06415v1
- Date: Tue, 08 Jul 2025 21:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.398688
- Title: PERK: Long-Context Reasoning as Parameter-Efficient Test-Time Learning
- Title(参考訳): PERK: パラメータ効率の良いテスト時間学習としてのLong-Context Reasoning
- Authors: Zeming Chen, Angelika Romanou, Gail Weiss, Antoine Bosselut,
- Abstract要約: PERKは、テスト時に軽量モデルアダプタのアップデートを使用して、長い入力コンテキストをエンコードすることを学ぶためのスケーラブルなアプローチである。
PerKは標準のプロンプトベースの長文ベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 21.68926219958533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context reasoning requires accurately identifying relevant information in extensive, noisy input contexts. Previous research shows that using test-time learning to encode context directly into model parameters can effectively enable reasoning over noisy information. However, meta-learning methods for enabling test-time learning are prohibitively memory-intensive, preventing their application to long context settings. In this work, we propose PERK (Parameter Efficient Reasoning over Knowledge), a scalable approach for learning to encode long input contexts using gradient updates to a lightweight model adapter at test time. Specifically, PERK employs two nested optimization loops in a meta-training phase. The inner loop rapidly encodes contexts into a low-rank adapter (LoRA) that serves as a parameter-efficient memory module for the base model. Concurrently, the outer loop learns to use the updated adapter to accurately recall and reason over relevant information from the encoded long context. Our evaluations on several long-context reasoning tasks show that PERK significantly outperforms the standard prompt-based long-context baseline, achieving average absolute performance gains of up to 90% for smaller models (GPT-2) and up to 27% for our largest evaluated model, Qwen-2.5-0.5B. In general, PERK is more robust to reasoning complexity, length extrapolation, and the locations of relevant information in contexts. Finally, we show that while PERK is memory-intensive during training, it scales more efficiently at inference time than prompt-based long-context inference.
- Abstract(参考訳): 長いコンテキスト推論では、広範でノイズの多い入力コンテキストにおいて、関連する情報を正確に識別する必要がある。
従来の研究では、テスト時間学習を用いてコンテキストを直接モデルパラメータにエンコードすることで、ノイズの多い情報に対する推論を効果的に実現できることが示されている。
しかし、テスト時間学習を実現するメタラーニング手法は、メモリ集約的であり、長期のコンテキスト設定への適用を妨げている。
本研究では、テスト時に軽量モデルアダプタの勾配更新を用いて、長い入力コンテキストをエンコードするスケーラブルなアプローチであるPERK(Parameter Efficient Reasoning over Knowledge)を提案する。
具体的には、PERKは2つのネスト最適化ループをメタトレーニングフェーズで採用している。
インナーループはコンテキストを急速にローランクアダプタ(LoRA)にエンコードし、ベースモデルのパラメータ効率の良いメモリモジュールとして機能する。
同時に、外部ループは、更新されたアダプタを使用して、符号化された長いコンテキストから関連する情報を正確にリコールし、推論することを学ぶ。
いくつかの長文推論タスクにおいて、PERKは標準のプロンプトベースの長文ベースラインを著しく上回り、より小さなモデル(GPT-2)では最大90%、最大の評価モデルであるQwen-2.5-0.5Bでは最大27%の性能向上を達成した。
一般に、PERKは複雑さ、長さの外挿、コンテキスト内の関連する情報の位置を推論する上でより堅牢である。
最後に、PERKはトレーニング中はメモリ集約的であるが、プロンプトベースの長文推論よりも推論時間で効率よくスケールすることを示す。
関連論文リスト
- 100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability? [28.694112253150983]
リアルタイムベースの長期コンテキスト評価ベンチマークには2つの大きな欠点がある。
LongBenchのようなベンチマークは、しばしばモデルのベースライン能力とロングコンテキストのパフォーマンスを分離するための適切なメトリクスを提供しない。
長さ制御可能な長文ベンチマークと,ベースライン知識を真の長文能力から切り離す新しいメトリクスを導入する。
論文 参考訳(メタデータ) (2025-05-25T19:58:31Z) - Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。
制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。
これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文 参考訳(メタデータ) (2025-02-21T17:02:40Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文 参考訳(メタデータ) (2024-01-13T02:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。