Fugu-MT 論文翻訳(概要): Reproducibility Report: Test-Time Training on Nearest Neighbors for Large Language Models

論文の概要: Reproducibility Report: Test-Time Training on Nearest Neighbors for Large Language Models

arxiv url: http://arxiv.org/abs/2511.16691v1
Date: Sun, 16 Nov 2025 09:25:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-24 18:08:18.753877
Title: Reproducibility Report: Test-Time Training on Nearest Neighbors for Large Language Models
Title（参考訳）: Reproducibility Report: 大規模言語モデルにおける最も近い隣人のテストタイムトレーニング
Authors: Boyang Zhou, Johan Lindqvist, Lindsey Li,
Abstract要約: 大規模言語モデルにおけるテストタイムトレーニングの中心的主張を再現する(Hardt and Sun, 2024) GPT-2 (117M, 774M), GPT-Neo (1.3B), R1-Distilled-Qwen2.5-1.5B。実験の結果,テストタイムのトレーニングによって,The Pileのさまざまなドメインにまたがる複雑度やビット単位のメトリクスが大幅に減少することが確認された。
参考スコア（独自算出の注目度）: 1.4079939639608414
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We reproduce the central claims of Test-Time Training on Nearest Neighbors for Large Language Models (Hardt and Sun, 2024), which proposes adapting a language model at inference time by fine-tuning on retrieved nearest-neighbor sequences. Using pretrained RoBERTa embeddings indexed with Faiss, we retrieve 20 neighbors per test input and apply one gradient update per neighbor across GPT-2 (117M, 774M), GPT-Neo (1.3B), and R1-Distilled-Qwen2.5-1.5B. Our experiments confirm that test-time training significantly reduces perplexity and bits-per-byte metrics across diverse domains from The Pile, with the largest improvements in structured or specialized datasets such as GitHub and EuroParl. We further validate that models not pretrained on The Pile benefit more from this adaptation than models already trained on similar data, allowing smaller models to approach the performance of larger ones. Due to infrastructure limitations, we introduce a memory-efficient retrieval implementation that loads only required line offsets rather than entire files, reducing RAM requirements from over 128 GB per server to 32 GB. We also extend the original study by evaluating R1-Distilled-Qwen2.5-1.5B, showing that test-time training yields consistent gains even for modern reasoning-optimized architectures. Overall, our results support the robustness and generality of nearest-neighbor test-time training while highlighting practical considerations for reproducing large-scale retrieval-augmented adaptation.
Abstract（参考訳）: 本研究では, 近接言語モデル(Hardt and Sun, 2024)におけるテスト時間トレーニングの中心的主張を再現し, 検索した近接言語列を微調整することで, 推論時に言語モデルを適用することを提案する。 Faissをインデックス化したRoBERTa埋め込みを用いて、テスト入力毎に20の隣人を検索し、GPT-2 (117M, 774M)、GPT-Neo (1.3B)、R1-Distilled-Qwen2.5-1.5Bで隣人に1つの勾配更新を適用する。私たちの実験では、テストタイムトレーニングによって、The Pileからさまざまなドメインにまたがる複雑度とビット単位のメトリクスが大幅に削減され、GitHubやEuroParlのような構造化されたあるいは特殊なデータセットが大幅に改善されていることを確認しています。さらに、The Pileで事前トレーニングされていないモデルは、類似したデータでトレーニング済みのモデルよりも、この適応による恩恵が大きいことを検証する。インフラストラクチャの制限により、メモリ効率のよい検索実装を導入し、ファイル全体ではなく、必要な行オフセットのみをロードし、RAM要求を128GB以上から32GBに削減した。また、R1-Distilled-Qwen2.5-1.5Bの評価により、現代の推論最適化アーキテクチャにおいてもテスト時間トレーニングが一貫した利得が得られることを示した。本研究は, 大規模検索強化適応を再現するための実践的考察を強調しつつ, 最寄りテストタイムトレーニングの堅牢性と汎用性を支持した。

関連論文リスト

SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文参考訳（メタデータ） (2025-08-03T23:59:31Z)
Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。 RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文参考訳（メタデータ） (2025-05-25T23:06:20Z)
NUDGE: Lightweight Non-Parametric Fine-Tuning of Embeddings for Retrieval [0.7646713951724011]
既存のアプローチは、事前訓練されたモデル自体を微調整するか、より効率的に、事前訓練されたモデルの出力を変換するためにアダプタモデルを訓練する。 NUDGEは、新しい非パラメトリック埋め込みファインチューニングアプローチのファミリーである。 NUDGEは、$k$-NN検索の精度を最大化するために、データレコードの埋め込みを直接修正する。
論文参考訳（メタデータ） (2024-09-04T00:10:36Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Test-Time Training on Nearest Neighbors for Large Language Models [25.365366617508663]
Pileデータセットのテキスト埋め込みに基づく大規模分散インデックスを構築する。テスト入力毎に,本システムは隣人を検索し,テキスト上でモデルを微調整する。驚くべきことに、20以上の言語モデリングタスクにおいて、20人程度の隣人の検索とトレーニングが大幅にパフォーマンスを向上します。
論文参考訳（メタデータ） (2023-05-29T08:03:28Z)
Injecting Domain Adaptation with Learning-to-hash for Effective and Efficient Zero-shot Dense Retrieval [49.98615945702959]
我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
論文参考訳（メタデータ） (2022-05-23T17:53:44Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。