Fugu-MT 論文翻訳(概要): IT$^3$: Idempotent Test-Time Training

論文の概要: IT$^3$: Idempotent Test-Time Training

arxiv url: http://arxiv.org/abs/2410.04201v1
Date: Sat, 5 Oct 2024 15:39:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 13:31:47.758290
Title: IT$^3$: Idempotent Test-Time Training
Title（参考訳）: IT$^3$: Idempotent Test-Time Training
Authors: Nikita Durasov, Assaf Shocher, Doruk Oner, Gal Chechik, Alexei A. Efros, Pascal Fua,
Abstract要約: 本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training (IT$3$)を紹介する。 IT$3$は、イデオロジェンスの普遍性に基づいている。画像分類の劣化など,様々なタスクにまたがるアプローチの汎用性を実証する。
参考スコア（独自算出の注目度）: 95.78053599609044
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces Idempotent Test-Time Training (IT$^3$), a novel approach to addressing the challenge of distribution shift. While supervised-learning methods assume matching train and test distributions, this is rarely the case for machine learning systems deployed in the real world. Test-Time Training (TTT) approaches address this by adapting models during inference, but they are limited by a domain specific auxiliary task. IT$^3$ is based on the universal property of idempotence. An idempotent operator is one that can be applied sequentially without changing the result beyond the initial application, that is $f(f(x))=f(x)$. At training, the model receives an input $x$ along with another signal that can either be the ground truth label $y$ or a neutral "don't know" signal $0$. At test time, the additional signal can only be $0$. When sequentially applying the model, first predicting $y_0 = f(x, 0)$ and then $y_1 = f(x, y_0)$, the distance between $y_0$ and $y_1$ measures certainty and indicates out-of-distribution input $x$ if high. We use this distance, that can be expressed as $||f(x, f(x, 0)) - f(x, 0)||$ as our TTT loss during inference. By carefully optimizing this objective, we effectively train $f(x,\cdot)$ to be idempotent, projecting the internal representation of the input onto the training distribution. We demonstrate the versatility of our approach across various tasks, including corrupted image classification, aerodynamic predictions, tabular data with missing information, age prediction from face, and large-scale aerial photo segmentation. Moreover, these tasks span different architectures such as MLPs, CNNs, and GNNs.
Abstract（参考訳）: 本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training(IT$^3$)を紹介する。教師付き学習手法は、列車とテストの分布の一致を前提としているが、現実世界にデプロイされる機械学習システムでは、これが稀である。テストタイムトレーニング(TTT)アプローチは、推論中にモデルを適用することでこの問題に対処するが、ドメイン固有の補助タスクによって制限される。 IT$^3$はイデペンデンスの普遍性に基づいている。一等作用素は、初期アプリケーションを超えて結果を変更することなく逐次適用できる演算子で、$f(f(x))=f(x)$である。トレーニング時に、モデルは入力$x$と他の信号と共に入力$y$または中立的な"Don't know"信号$0$とすることができる。テスト時には、追加の信号は0ドルにしかならない。モデルを逐次適用する場合、まず$y_0 = f(x, 0)$ と $y_1 = f(x, y_0)$ と予測すると、$y_0$ と $y_1$ の距離は確実性を測り、高ければ分布外入力 $x$ を示す。この距離を$||f(x, f(x, 0)) - f(x, 0)||$ と表すことができる。この目的を慎重に最適化することで、$f(x,\cdot)$を等しく訓練し、入力の内部表現をトレーニング分布に投影する。本稿では, 画像分類の劣化, 空力予測, 欠落情報付き表層データ, 顔からの年齢予測, 大規模空中写真セグメンテーションなど, 様々なタスクにまたがるアプローチの汎用性を実証する。さらに、これらのタスクは、MPP、CNN、GNNなどの異なるアーキテクチャにまたがる。

関連論文リスト

Space Rotation with Basis Transformation for Training-free Test-Time Adaptation [25.408849667998993]
テスト時間適応のための基底変換を用いた訓練不要な特徴空間回転を提案する。クラス間の固有の区別を利用することで、元の特徴空間を再構成し、それを新しい表現にマッピングする。本手法は,性能と効率の両面で最先端技術より優れている。
論文参考訳（メタデータ） (2025-02-27T10:15:34Z)
BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文参考訳（メタデータ） (2024-10-20T15:58:43Z)
Enhancing Test Time Adaptation with Few-shot Guidance [35.13317598777832]
深層ニューラルネットワークは、トレーニング(ソース)とテスト(ターゲット)データのドメインシフトに直面しながら、大きなパフォーマンス低下に直面することが多い。 TTA(Test Time Adaptation)法は,事前学習したソースモデルを用いて,配信外ストリーミングターゲットデータを処理する手法として提案されている。本稿では,Few-Shot Test Time Adaptation (FS-TTA) を開発した。
論文参考訳（メタデータ） (2024-09-02T15:50:48Z)
Transformer In-Context Learning for Categorical Data [51.23121284812406]
我々は、分類結果、非線形基礎モデル、非線形注意を考慮し、文脈内学習のレンズを通してトランスフォーマーを理解する研究を機能データで拡張する。我々は、ImageNetデータセットを用いて、この数発の学習方法論の最初の実世界の実演であると考えられるものを提示する。
論文参考訳（メタデータ） (2024-05-27T15:03:21Z)
Agnostically Learning Multi-index Models with Queries [54.290489524576756]
本稿では,ガウス分布下での非依存学習の課題に対するクエリアクセスのパワーについて検討する。クエリアクセスは、MIMを不可知的に学習するためのランダムな例よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2023-12-27T15:50:47Z)
Testable Learning with Distribution Shift [9.036777309376697]
分散シフトを伴うテスト可能学習と呼ばれる新しいモデルを定義する。テスト分布上の分類器の性能を証明可能なアルゴリズムを得る。ハーフスペースやハーフスペースの交点,決定木といった概念クラスを学ぶ上で,いくつかの肯定的な結果が得られる。
論文参考訳（メタデータ） (2023-11-25T23:57:45Z)
Adaptive Test-Time Personalization for Federated Learning [51.25437606915392]
テスト時パーソナライズド・フェデレーション・ラーニング(TTPFL)と呼ばれる新しい設定を導入する。 TTPFLでは、クライアントはテスト期間中にラベル付きデータに頼ることなく、教師なしの方法でグローバルモデルをローカルに適応する。本稿では,ソースドメイン間の分散シフトから,モデル内の各モジュールの適応率を適応的に学習する ATP という新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-28T20:42:47Z)
Point-TTA: Test-Time Adaptation for Point Cloud Registration Using Multitask Meta-Auxiliary Learning [17.980649681325406]
我々は、ポイントクラウド登録(PCR)のための新しいテスト時間適応フレームワークであるPoint-TTAを提案する。我々のモデルは、テストデータの事前の知識を必要とせずに、テスト時に目に見えない分布に適応することができる。訓練中は, 補助タスクによる適応モデルにより主タスクの精度が向上するように, メタ補助学習アプローチを用いて訓練を行う。
論文参考訳（メタデータ） (2023-08-31T06:32:11Z)
NormAUG: Normalization-guided Augmentation for Domain Generalization [60.159546669021346]
ディープラーニングのためのNormAUG(Normalization-guided Augmentation)と呼ばれるシンプルで効果的な手法を提案する。本手法は特徴レベルで多様な情報を導入し,主経路の一般化を改善する。テスト段階では、アンサンブル戦略を利用して、モデルの補助経路からの予測を組み合わせ、さらなる性能向上を図る。
論文参考訳（メタデータ） (2023-07-25T13:35:45Z)
Blessing of Class Diversity in Pre-training [54.335530406959435]
事前学習タスクのクラスが十分に多種多様である場合、事前学習は下流タスクのサンプル効率を大幅に向上させることができることを示す。我々の証明は、合成関数クラスに対するベクトル形式ラデマッハ複雑性連鎖則と修正自己調和条件に依存している。
論文参考訳（メタデータ） (2022-09-07T20:10:12Z)
CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文参考訳（メタデータ） (2022-06-01T03:02:07Z)
Mediated Uncoupled Learning: Learning Functions without Direct Input-output Correspondences [80.95776331769899]
ペア化されたデータがない場合、$X$から$Y$を予測するタスクを考えます。単純なアプローチは、$S_X$で$U$から$U$を予測し、$S_Y$で$U$から$Y$を予測することである。我々は$U$を予測しない新しい方法を提案するが、$f(X)$と$S_X$をトレーニングすることで$Y = f(X)$を直接学習し、$h(U)$を予測する。
論文参考訳（メタデータ） (2021-07-16T22:13:29Z)
Convergence and Sample Complexity of SGD in GANs [15.25030172685628]
SGDによるGAN(Generative Adversarial Networks)のトレーニングにおける収束保証を提供する。我々は,非線形アクティベーション機能を持つ1層ジェネレータネットワークによってモデル化されたターゲット分布の学習を検討する。この結果は、ReLUを含む幅広い非線形アクティベーション関数 $phi$ に適用され、切り離された統計との接続によって実現される。
論文参考訳（メタデータ） (2020-12-01T18:50:38Z)
Learning to extrapolate using continued fractions: Predicting the critical temperature of superconductor materials [5.905364646955811]
人工知能(AI)と機械学習(ML)の分野では、未知のターゲット関数 $y=f(mathbfx)$ の近似が共通の目的である。トレーニングセットとして$S$を参照し、新しいインスタンス$mathbfx$に対して、このターゲット関数を効果的に近似できる低複雑さの数学的モデルを特定することを目的としている。
論文参考訳（メタデータ） (2020-11-27T04:57:40Z)
Improving Robustness and Generality of NLP Models Using Disentangled Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文参考訳（メタデータ） (2020-09-21T02:48:46Z)
Faster Uncertainty Quantification for Inverse Problems with Conditional Normalizing Flows [0.9176056742068814]
逆問題では、ペア化されたサンプル$(x,y)sim p_X,Y(x,y)$で、$y$は物理系の部分的な観測であることが多い。条件付きジェネレータ$q_theta(x|y)$をトレーニングするために,フローとジョイントデータを正規化する2段階のスキームを提案する。
論文参考訳（メタデータ） (2020-07-15T20:36:30Z)
Adaptive Risk Minimization: Learning to Adapt to Domain Shift [109.87561509436016]
ほとんどの機械学習アルゴリズムの基本的な前提は、トレーニングとテストデータは、同じ基礎となる分布から引き出されることである。本研究では,学習データをドメインに構造化し,複数のテスト時間シフトが存在する場合の領域一般化の問題点について考察する。本稿では、適応リスク最小化(ARM)の枠組みを紹介し、モデルがトレーニング領域に適応することを学ぶことで、効果的な適応のために直接最適化される。
論文参考訳（メタデータ） (2020-07-06T17:59:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。