論文の概要: SSAM: Self-Supervised Association Modeling for Test-Time Adaption
- arxiv url: http://arxiv.org/abs/2506.00513v1
- Date: Sat, 31 May 2025 11:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.171299
- Title: SSAM: Self-Supervised Association Modeling for Test-Time Adaption
- Title(参考訳): SSAM: テスト時間適応のための自己組織化アソシエーションモデリング
- Authors: Yaxiong Wang, Zhenqiang Zhang, Lechao Cheng, Zhun Zhong, Dan Guo, Meng Wang,
- Abstract要約: SSAM(Self-Supervised Association Modeling)は、2相アソシエーション学習による動的エンコーダの洗練を可能にする新しいTTAフレームワークである。
提案手法は,1)特徴空間の再構成を導くための確率的カテゴリアソシエーションを推定するソフトプロトタイプ推定(SPE)と,2)クラスタ条件による画像特徴再構成によるエンコーダの安定性を向上するPIR(Prototype-anchored Image Reconstruction)の2つの相乗的コンポーネントを介して動作する。
- 参考スコア(独自算出の注目度): 42.00379819876794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time adaption (TTA) has witnessed important progress in recent years, the prevailing methods typically first encode the image and the text and design strategies to model the association between them. Meanwhile, the image encoder is usually frozen due to the absence of explicit supervision in TTA scenarios. We identify a critical limitation in this paradigm: While test-time images often exhibit distribution shifts from training data, existing methods persistently freeze the image encoder due to the absence of explicit supervision during adaptation. This practice overlooks the image encoder's crucial role in bridging distribution shift between training and test. To address this challenge, we propose SSAM (Self-Supervised Association Modeling), a new TTA framework that enables dynamic encoder refinement through dual-phase association learning. Our method operates via two synergistic components: 1) Soft Prototype Estimation (SPE), which estimates probabilistic category associations to guide feature space reorganization, and 2) Prototype-anchored Image Reconstruction (PIR), enforcing encoder stability through cluster-conditional image feature reconstruction. Comprehensive experiments across diverse baseline methods and benchmarks demonstrate that SSAM can surpass state-of-the-art TTA baselines by a clear margin while maintaining computational efficiency. The framework's architecture-agnostic design and minimal hyperparameter dependence further enhance its practical applicability.
- Abstract(参考訳): テスト時間適応(TTA)は、画像とテキストと設計戦略を符号化してそれらの関連をモデル化する一般的な方法である。
一方、イメージエンコーダは通常、TTAシナリオにおける明示的な監督が欠如しているため、凍結される。
テストタイム画像はしばしばトレーニングデータから分布シフトを示すが、既存の手法では適応中に明示的な監督が欠如しているため、画像エンコーダを永久に凍結する。
このプラクティスは、トレーニングとテストの間の分散シフトをブリッジする上で、イメージエンコーダが果たす重要な役割を見落としている。
この課題に対処するために、二相アソシエーション学習による動的エンコーダの洗練を可能にする新しいTTAフレームワークであるSSAM(Self-Supervised Association Modeling)を提案する。
我々の手法は2つの相乗的成分を介して機能する。
1)特徴空間再構成を導くための確率的カテゴリー関係を推定するソフトプロトタイプ推定(SPE)
2) クラスタ条件による画像特徴再構成によりエンコーダの安定性を向上するPIR(Prototype-anchored Image Reconstruction)。
様々なベースライン法やベンチマークの総合的な実験により、SSAMは計算効率を維持しつつ、最先端のTTAベースラインをクリアマージンで超えることを示した。
フレームワークのアーキテクチャに依存しない設計と最小限のハイパーパラメータ依存により、実用性はさらに向上した。
関連論文リスト
- One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models [65.96186414865747]
テキスト・ツー・イメージ(T2I)拡散モデルは、推論速度と画質のトレードオフに直面している。
学生モデルUNetアーキテクチャのための最初の時間非依存の統一TiUEを紹介する。
ワンパススキームを使用して、TiUEは複数のデコーダタイムステップにまたがるエンコーダ機能を共有し、並列サンプリングを可能にする。
論文 参考訳(メタデータ) (2025-05-28T04:23:22Z) - Efficient One-Step Diffusion Refinement for Snapshot Compressive Imaging [8.819370643243012]
Coded Aperture Snapshot Spectral Imaging (CASSI)は3次元マルチスペクトル画像(MSI)を撮影するための重要な技術である
現在の最先端の手法は、主にエンドツーエンドであり、高周波の詳細を再構築する際の制限に直面している。
本稿では,Snapshot Compressive Imagingのための自己教師型適応フレームワークにおいて,新しい1段階拡散確率モデルを提案する。
論文 参考訳(メタデータ) (2024-09-11T17:02:10Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Referee Can Play: An Alternative Approach to Conditional Generation via
Model Inversion [35.21106030549071]
拡散確率モデル(DPM)はテキスト・画像生成タスクにおいて支配的な力である。
先進視覚言語モデル(VLM)の逆転手法として、最先端DPMの代替的視点を提案する。
差別的VLMを監督した画像を直接最適化することにより、提案手法はより優れたテキスト画像アライメントを実現することができる。
論文 参考訳(メタデータ) (2024-02-26T05:08:40Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。