論文の概要: IT$^3$: Idempotent Test-Time Training
- arxiv url: http://arxiv.org/abs/2410.04201v2
- Date: Sun, 25 May 2025 20:42:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.026885
- Title: IT$^3$: Idempotent Test-Time Training
- Title(参考訳): IT$^3$: Idempotent Test-Time Training
- Authors: Nikita Durasov, Assaf Shocher, Doruk Oner, Gal Chechik, Alexei A. Efros, Pascal Fua,
- Abstract要約: ディープラーニングモデルは、トレーニングデータとテストデータの間の分散シフトのために、現実世界の環境にデプロイする際に苦労することが多い。
Idempotent Test-Time Training (IT$3$) は、現在のテストインスタンスのみを使用して、分散シフトへのオンザフライ適応を可能にする新しいアプローチである。
この結果から,イデオポテンスはドメインやアーキテクチャをまたいで一般化するテスト時間適応の普遍的原理を提供すると考えられる。
- 参考スコア(独自算出の注目度): 95.78053599609044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models often struggle when deployed in real-world settings due to distribution shifts between training and test data. While existing approaches like domain adaptation and test-time training (TTT) offer partial solutions, they typically require additional data or domain-specific auxiliary tasks. We present Idempotent Test-Time Training (IT$^3$), a novel approach that enables on-the-fly adaptation to distribution shifts using only the current test instance, without any auxiliary task design. Our key insight is that enforcing idempotence -- where repeated applications of a function yield the same result -- can effectively replace domain-specific auxiliary tasks used in previous TTT methods. We theoretically connect idempotence to prediction confidence and demonstrate that minimizing the distance between successive applications of our model during inference leads to improved out-of-distribution performance. Extensive experiments across diverse domains (including image classification, aerodynamics prediction, and aerial segmentation) and architectures (MLPs, CNNs, GNNs) show that IT$^3$ consistently outperforms existing approaches while being simpler and more widely applicable. Our results suggest that idempotence provides a universal principle for test-time adaptation that generalizes across domains and architectures.
- Abstract(参考訳): ディープラーニングモデルは、トレーニングデータとテストデータの間の分散シフトのために、現実世界の環境にデプロイする際に苦労することが多い。
ドメイン適応やテストタイムトレーニング(TTT)といった既存のアプローチは部分的なソリューションを提供するが、通常、追加のデータやドメイン固有の補助的なタスクが必要になる。
Idempotent Test-Time Training (IT$^3$) は,現在のテストインスタンスのみを用いて,タスク設計を伴わずに,分散シフトへのオンザフライ適応を可能にする新しいアプローチである。
我々の重要な洞察は、関数の繰り返し適用が同じ結果をもたらすイデオポテンスを強制することは、以前のTTTメソッドで使われるドメイン固有の補助タスクを効果的に置き換えることができるということである。
理論的には、イデオポテンスと予測信頼性を結合し、推論中に連続するモデルのアプリケーション間の距離を最小化することで、分配性能が向上することを示す。
様々な領域(画像分類、空力予測、空中セグメンテーションを含む)とアーキテクチャ(MLP、CNN、GNN)にわたる大規模な実験により、IT$^3$は、よりシンプルで広く適用可能な既存のアプローチより一貫して優れていることが示されている。
この結果から,イデオポテンスはドメインやアーキテクチャをまたいで一般化したテスト時間適応の普遍的な原理をもたらすことが示唆された。
関連論文リスト
- Transformer In-Context Learning for Categorical Data [51.23121284812406]
我々は、分類結果、非線形基礎モデル、非線形注意を考慮し、文脈内学習のレンズを通してトランスフォーマーを理解する研究を機能データで拡張する。
我々は、ImageNetデータセットを用いて、この数発の学習方法論の最初の実世界の実演であると考えられるものを提示する。
論文 参考訳(メタデータ) (2024-05-27T15:03:21Z) - Agnostically Learning Multi-index Models with Queries [54.290489524576756]
本稿では,ガウス分布下での非依存学習の課題に対するクエリアクセスのパワーについて検討する。
クエリアクセスは、MIMを不可知的に学習するためのランダムな例よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2023-12-27T15:50:47Z) - Testable Learning with Distribution Shift [9.036777309376697]
分散シフトを伴うテスト可能学習と呼ばれる新しいモデルを定義する。
テスト分布上の分類器の性能を証明可能なアルゴリズムを得る。
ハーフスペースやハーフスペースの交点,決定木といった概念クラスを学ぶ上で,いくつかの肯定的な結果が得られる。
論文 参考訳(メタデータ) (2023-11-25T23:57:45Z) - Blessing of Class Diversity in Pre-training [54.335530406959435]
事前学習タスクのクラスが十分に多種多様である場合、事前学習は下流タスクのサンプル効率を大幅に向上させることができることを示す。
我々の証明は、合成関数クラスに対するベクトル形式ラデマッハ複雑性連鎖則と修正自己調和条件に依存している。
論文 参考訳(メタデータ) (2022-09-07T20:10:12Z) - Mediated Uncoupled Learning: Learning Functions without Direct
Input-output Correspondences [80.95776331769899]
ペア化されたデータがない場合、$X$から$Y$を予測するタスクを考えます。
単純なアプローチは、$S_X$で$U$から$U$を予測し、$S_Y$で$U$から$Y$を予測することである。
我々は$U$を予測しない新しい方法を提案するが、$f(X)$と$S_X$をトレーニングすることで$Y = f(X)$を直接学習し、$h(U)$を予測する。
論文 参考訳(メタデータ) (2021-07-16T22:13:29Z) - Convergence and Sample Complexity of SGD in GANs [15.25030172685628]
SGDによるGAN(Generative Adversarial Networks)のトレーニングにおける収束保証を提供する。
我々は,非線形アクティベーション機能を持つ1層ジェネレータネットワークによってモデル化されたターゲット分布の学習を検討する。
この結果は、ReLUを含む幅広い非線形アクティベーション関数 $phi$ に適用され、切り離された統計との接続によって実現される。
論文 参考訳(メタデータ) (2020-12-01T18:50:38Z) - Learning to extrapolate using continued fractions: Predicting the
critical temperature of superconductor materials [5.905364646955811]
人工知能(AI)と機械学習(ML)の分野では、未知のターゲット関数 $y=f(mathbfx)$ の近似が共通の目的である。
トレーニングセットとして$S$を参照し、新しいインスタンス$mathbfx$に対して、このターゲット関数を効果的に近似できる低複雑さの数学的モデルを特定することを目的としている。
論文 参考訳(メタデータ) (2020-11-27T04:57:40Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - Faster Uncertainty Quantification for Inverse Problems with Conditional
Normalizing Flows [0.9176056742068814]
逆問題では、ペア化されたサンプル$(x,y)sim p_X,Y(x,y)$で、$y$は物理系の部分的な観測であることが多い。
条件付きジェネレータ$q_theta(x|y)$をトレーニングするために,フローとジョイントデータを正規化する2段階のスキームを提案する。
論文 参考訳(メタデータ) (2020-07-15T20:36:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。