Fugu-MT 論文翻訳(概要): Test-Time Training Done Right

論文の概要: Test-Time Training Done Right

arxiv url: http://arxiv.org/abs/2505.23884v1
Date: Thu, 29 May 2025 17:50:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.602662
Title: Test-Time Training Done Right
Title（参考訳）: テストタイムトレーニングが正しい
Authors: Tianyuan Zhang, Sai Bi, Yicong Hong, Kai Zhang, Fujun Luan, Songlin Yang, Kalyan Sunkavalli, William T. Freeman, Hao Tan,
Abstract要約: テスト時間トレーニング(TTT)モデルは、推論中にモデルの重みの一部を適応させることによってコンテキストをモデル化する。既存のTT手法は、長文データを扱う上で有効性を示すのに苦労した。我々は,大規模チャンクテストタイムトレーニング(LaCT)を開発し,ハードウェア利用率を桁違いに向上させる。
参考スコア（独自算出の注目度）: 61.8429380523577
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Test-Time Training (TTT) models context dependencies by adapting part of the model's weights (referred to as fast weights) during inference. This fast weight, akin to recurrent states in RNNs, stores temporary memories of past tokens in the current sequence. Existing TTT methods struggled to show effectiveness in handling long-context data, due to their inefficiency on modern GPUs. The TTT layers in many of these approaches operate with extremely low FLOPs utilization (often <5%) because they deliberately apply small online minibatch sizes (e.g., updating fast weights every 16 or 64 tokens). Moreover, a small minibatch implies fine-grained block-wise causal dependencies in the data, unsuitable for data beyond 1D ordered sequences, like sets or N-dimensional grids such as images or videos. In contrast, we pursue the opposite direction by using an extremely large chunk update, ranging from 2K to 1M tokens across tasks of varying modalities, which we refer to as Large Chunk Test-Time Training (LaCT). It improves hardware utilization by orders of magnitude, and more importantly, facilitates scaling of nonlinear state size (up to 40% of model parameters), hence substantially improving state capacity, all without requiring cumbersome and error-prone kernel implementations. It also allows easy integration of sophisticated optimizers, e.g. Muon for online updates. We validate our approach across diverse modalities and tasks, including novel view synthesis with image set, language models, and auto-regressive video diffusion. Our approach can scale up to 14B-parameter AR video diffusion model on sequences up to 56K tokens. In our longest sequence experiment, we perform novel view synthesis with 1 million context length. We hope this work will inspire and accelerate new research in the field of long-context modeling and test-time training. Website: https://tianyuanzhang.com/projects/ttt-done-right
Abstract（参考訳）: テスト時間トレーニング(TTT)モデルは、推論中にモデルの重みの一部(高速重みとして参照)を適応させることによって、コンテキスト依存をモデル化する。この高速ウェイトは、RNNのリカレントステートに似たもので、過去のトークンの一時的な記憶を現在のシーケンスに格納する。既存のTTメソッドは、現在のGPUでは非効率であるため、長文データを扱う上で有効性を示すのに苦労した。これらのアプローチのTTT層は、小さなオンラインミニバッチサイズを意図的に適用するため、非常に低いFLOP(多くの場合、5%)で動作します(例:16または64トークン毎に高速な重みを更新します)。さらに、小さなミニバッチは、データセットや画像やビデオのようなN次元グリッドのような1D順序のシーケンスを超えるデータには適さない、データ内のきめ細かいブロック単位の因果依存性を暗示する。対照的に、非常に大きなチャンク更新を用いて反対方向を追求し、2Kトークンから1Mトークンまで様々に異なるタスクをこなし、これをLarge Chunk Test-Time Training (LaCT)と呼ぶ。ハードウェアの利用を桁違いに改善し、さらに重要なのは、非線形状態サイズ(モデルパラメータの最大40%)のスケーリングを容易にし、結果として状態容量を大幅に改善することです。また、高度なオプティマイザ、例えばオンラインアップデート用のMuonを容易に統合できる。我々は、画像集合を用いた新しいビュー合成、言語モデル、自動回帰ビデオ拡散など、様々なモダリティやタスクにまたがるアプローチを検証する。提案手法は,最大56Kトークンのシーケンス上で14BパラメータARビデオ拡散モデルを拡張可能である。最長のシーケンス実験では、100万のコンテキスト長で新しいビュー合成を行う。この研究が、長期のコンテキストモデリングとテストタイムトレーニングの分野での新しい研究を刺激し、加速することを願っている。ウェブサイト:https://tianyuanzhang.com/projects/ttt-done-right

関連論文リスト

Towards Universal Modal Tracking with Online Dense Temporal Token Learning [66.83607018706519]
オンライン高密度時間トークン学習を用いたユニバーサルビデオレベルのモダリティ認識追跡モデルを提案する。モデルの入力をビデオシーケンスレベルに拡張し、よりリッチなビデオコンテキストを言語に近い視点から見ることを目的としている。
論文参考訳（メタデータ） (2025-07-27T08:47:42Z)
Next-Scale Autoregressive Models are Zero-Shot Single-Image Object View Synthesizers [4.015569252776372]
ArchonViewは,3Dレンダリングデータのみをスクラッチからトレーニングし,2D事前トレーニングを行わないにも関わらず,最先端のメソッドをはるかに上回る方法である。また,従来の手法が失敗する難易度カメラにも頑健な性能を示し,拡散よりも推論速度が数倍高速であることを示す。
論文参考訳（メタデータ） (2025-03-17T17:59:59Z)
TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training [20.712053538676116]
拡散モデルは通常、サンプルの非効率性と高いトレーニングコストに悩まされる。 TREADは計算コストを削減し、同時にモデル性能を向上することを示す。ガイド付きで2.09、ガイドなしで3.93の競合FIDを達成する。
論文参考訳（メタデータ） (2025-01-08T18:38:25Z)
Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文参考訳（メタデータ） (2024-10-18T22:38:08Z)
Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler [34.416299887009195]
提案したWSDスケジューラの最適学習率,バッチサイズ,トレーニングトークン数の相関について検討した。本稿では,学習率スケジューラであるPowerスケジューラを提案する。 Powerスケジューラでトレーニングした3B高密度モデルとMoEモデルは、最先端の小型言語モデルと同等のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-08-23T20:22:20Z)
Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-02-27T12:39:23Z)
YaRN: Efficient Context Window Extension of Large Language Models [1.024113475677323]
RoPE(Rotary Position Embeddings)は、トランスフォーマーベースの言語モデルにおいて、位置情報を効果的に符号化する。本稿では,そのようなモデルのコンテキストウィンドウを拡張する計算効率の高いYarnを提案する。 LLaMAモデルは,従来の事前学習が許すよりもはるかに長い文脈長を効果的に活用し,外挿することができることを示す。
論文参考訳（メタデータ） (2023-08-31T18:18:07Z)
Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。 6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文参考訳（メタデータ） (2023-05-15T06:40:56Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文参考訳（メタデータ） (2021-04-09T16:43:11Z)
PGT: A Progressive Method for Training Models on Long Videos [45.935259079953255]
メインストリーム方式は、生のビデオをクリップに分割し、不完全な時間的情報の流れをもたらす。長文を扱う自然言語処理技術に着想を得て,マルコフ特性を満たすシリアルフラグメントとしてビデオを扱うことを提案する。さまざまなモデルやデータセットで大幅なパフォーマンス改善をもたらすことを実証的に実証しています。
論文参考訳（メタデータ） (2021-03-21T06:15:20Z)
Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2020-02-21T05:00:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。