論文の概要: Self-Bootstrapping for Versatile Test-Time Adaptation
- arxiv url: http://arxiv.org/abs/2504.08010v1
- Date: Thu, 10 Apr 2025 05:45:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:19:41.828544
- Title: Self-Bootstrapping for Versatile Test-Time Adaptation
- Title(参考訳): 可逆性テスト時間適応のためのセルフブートストラップ
- Authors: Shuaicheng Niu, Guohao Chen, Peilin Zhao, Tianyi Wang, Pengcheng Wu, Zhiqi Shen,
- Abstract要約: 我々は様々なタスクに対して多目的なテスト時間適応(TTA)の目標を策定する。
テスト画像(ターゲット)と劣化したビューとの予測一貫性を最適化する自己ブートストラップ方式によりこれを実現できる。
実験により, 独立に, あるいはプラグアンドプレイモジュールとして, 分類, セグメンテーション, 3次元単分子検出タスクにおいて, 優れた結果が得られることが示された。
- 参考スコア(独自算出の注目度): 29.616417768209114
- License:
- Abstract: In this paper, we seek to develop a versatile test-time adaptation (TTA) objective for a variety of tasks - classification and regression across image-, object-, and pixel-level predictions. We achieve this through a self-bootstrapping scheme that optimizes prediction consistency between the test image (as target) and its deteriorated view. The key challenge lies in devising effective augmentations/deteriorations that: i) preserve the image's geometric information, e.g., object sizes and locations, which is crucial for TTA on object/pixel-level tasks, and ii) provide sufficient learning signals for TTA. To this end, we analyze how common distribution shifts affect the image's information power across spatial frequencies in the Fourier domain, and reveal that low-frequency components carry high power and masking these components supplies more learning signals, while masking high-frequency components can not. In light of this, we randomly mask the low-frequency amplitude of an image in its Fourier domain for augmentation. Meanwhile, we also augment the image with noise injection to compensate for missing learning signals at high frequencies, by enhancing the information power there. Experiments show that, either independently or as a plug-and-play module, our method achieves superior results across classification, segmentation, and 3D monocular detection tasks with both transformer and CNN models.
- Abstract(参考訳): 本稿では,画像,オブジェクト,ピクセルレベルの予測を対象とし,多種多様なタスクを対象とした多目的テスト時間適応(TTA)の手法を提案する。
テスト画像(ターゲット)と劣化したビューとの予測一貫性を最適化する自己ブートストラップ方式によりこれを実現できる。
鍵となる課題は、効果的な拡張/劣化を考案することである。
一 画像の幾何学的情報、例えば、被写体の大きさ及び位置を保存することであって、被写体/画素レベルのタスクにおいてTTAにとって不可欠であること。
二 TTA に十分な学習信号を提供すること。
この目的のために、フーリエ領域の空間周波数間での分布シフトが画像の情報パワーにどのように影響するかを分析し、低周波成分が高出力を持ち、これらの成分をマスキングすることで学習信号がより多く供給され、高周波成分をマスキングできないことを明らかにした。
これを踏まえ、フーリエ領域における画像の低周波振幅をランダムにマスキングして拡張する。
また,ノイズ注入による画像の増強により,学習信号の欠落を高周波数で補うことができる。
実験により,トランスモデルとCNNモデルの両方による分類,セグメンテーション,および3次元単分子検出タスクにおいて,独立あるいはプラグアンドプレイモジュールとして優れた結果が得られた。
関連論文リスト
- FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。
本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。
人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。
本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - Multi-scale Frequency Enhancement Network for Blind Image Deblurring [7.198959621445282]
視覚障害者のためのマルチスケール周波数拡張ネットワーク(MFENet)を提案する。
ぼやけた画像のマルチスケール空間およびチャネル情報をキャプチャするために,深度的に分離可能な畳み込みに基づくマルチスケール特徴抽出モジュール(MS-FE)を導入する。
提案手法は,視覚的品質と客観的評価の両指標において,優れた劣化性能を達成できることを実証する。
論文 参考訳(メタデータ) (2024-11-11T11:49:18Z) - Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning [49.275450836604726]
本稿では、事前学習の有効性を大幅に向上させる、新しい周波数ベースの自己監視学習(SSL)手法を提案する。
我々は、知識蒸留によって強化された2ブランチのフレームワークを使用し、モデルがフィルタされた画像と原画像の両方を入力として取り込むことを可能にする。
論文 参考訳(メタデータ) (2024-09-16T15:10:07Z) - Improving Representation of High-frequency Components for Medical Visual Foundation Models [16.39492793639237]
我々は、周波数適応表現オートエンコーダ(Frepa)という新しい事前学習戦略を提案する。
Frepaはエンコーダに画像埋め込みにおける高周波成分を効果的に表現し保存することを奨励する。
そこで我々はFrepaを9つの医療モダリティにまたがって開発し、2D画像と3Dボリュームデータの両方に対して32の下流タスクで検証する。
論文 参考訳(メタデータ) (2024-07-19T20:05:10Z) - Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Misalignment-Robust Frequency Distribution Loss for Image Transformation [51.0462138717502]
本稿では,画像強調や超解像といった深層学習に基づく画像変換手法における共通の課題に対処することを目的とする。
本稿では、周波数領域内における分布距離を計算するための、新しいシンプルな周波数分布損失(FDL)を提案する。
本手法は,周波数領域におけるグローバル情報の思慮深い活用により,トレーニング制約として実証的に有効であることが実証された。
論文 参考訳(メタデータ) (2024-02-28T09:27:41Z) - Investigating Shift Equivalence of Convolutional Neural Networks in
Industrial Defect Segmentation [3.843350895842836]
産業欠陥分割タスクでは、モデルの出力整合性(等価性とも呼ばれる)がしばしば見過ごされる。
CNNにおける従来のサンプリングレイヤの代替として,コンポーネントアテンション多相サンプリング(CAPS)と呼ばれる新しいダウン/アップサンプリング層が提案されている。
マイクロサーフェス欠陥(MSD)データセットと4つの実世界の産業的欠陥データセットの実験結果から,提案手法は高い等価性とセグメンテーション性能を示すことが示された。
論文 参考訳(メタデータ) (2023-09-29T00:04:47Z) - Spatial-Phase Shallow Learning: Rethinking Face Forgery Detection in
Frequency Domain [88.7339322596758]
本論文では,空間画像と位相スペクトルを組み合わせ,顔の偽造のアップサンプリング成果をキャプチャするSPSL(Spatial-Phase Shallow Learning)法を提案する。
SPSLは、クロスデータセット評価における最先端性能とマルチクラス分類を実現し、単一データセット評価において同等の結果を得ることができる。
論文 参考訳(メタデータ) (2021-03-02T16:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。