論文の概要: Reconstruction Target Matters in Masked Image Modeling for Cross-Domain Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2412.19101v1
- Date: Thu, 26 Dec 2024 07:43:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:30.080544
- Title: Reconstruction Target Matters in Masked Image Modeling for Cross-Domain Few-Shot Learning
- Title(参考訳): クロスドメインFew-Shot学習のためのマスク画像モデリングにおける再構成対象事項
- Authors: Ran Ma, Yixiong Zou, Yuhua Li, Ruixuan Li,
- Abstract要約: クロスドメインのFew-Shot Learningは、データ固有のソースドメインからデータ中心のターゲットドメインに知識を転送するモデルを必要とする。
Masked Autoencoder (MAE)は、ラベルのないデータを効果的に利用し、画像のグローバル構造を学習する。
本稿ではドメイン非依存型マスケ画像モデリング(DAMIM)を提案する。
- 参考スコア(独自算出の注目度): 10.384302950402969
- License:
- Abstract: Cross-Domain Few-Shot Learning (CDFSL) requires the model to transfer knowledge from the data-abundant source domain to data-scarce target domains for fast adaptation, where the large domain gap makes CDFSL a challenging problem. Masked Autoencoder (MAE) excels in effectively using unlabeled data and learning image's global structures, enhancing model generalization and robustness. However, in the CDFSL task with significant domain shifts, we find MAE even shows lower performance than the baseline supervised models. In this paper, we first delve into this phenomenon for an interpretation. We find that MAE tends to focus on low-level domain information during reconstructing pixels while changing the reconstruction target to token features could mitigate this problem. However, not all features are beneficial, as we then find reconstructing high-level features can hardly improve the model's transferability, indicating a trade-off between filtering domain information and preserving the image's global structure. In all, the reconstruction target matters for the CDFSL task. Based on the above findings and interpretations, we further propose Domain-Agnostic Masked Image Modeling (DAMIM) for the CDFSL task. DAMIM includes an Aggregated Feature Reconstruction module to automatically aggregate features for reconstruction, with balanced learning of domain-agnostic information and images' global structure, and a Lightweight Decoder module to further benefit the encoder's generalizability. Experiments on four CDFSL datasets demonstrate that our method achieves state-of-the-art performance.
- Abstract(参考訳): クロスドメインのFew-Shot Learning (CDFSL) は、CDFSLが難しい問題となるような高速適応のために、データ依存のソースドメインからデータ中心のターゲットドメインに知識を伝達するモデルを必要とする。
Masked Autoencoder (MAE)は、ラベルのないデータと画像のグローバル構造を効果的に利用し、モデルの一般化と堅牢性を向上する。
しかし,領域シフトが著しいCDFSLタスクでは,ベースライン教師付きモデルよりもMAEの性能が低いことが判明した。
本稿では、まずこの現象を解釈するために掘り下げる。
MAEは画素再構築時に低レベル領域情報に注目する傾向にあり, また, トークン機能への再構成ターゲットの変更により, この問題を緩和する可能性が示唆された。
しかし、高レベルな特徴の再構成は、ドメイン情報のフィルタリングと画像のグローバルな構造保存のトレードオフを示すため、モデルの転送可能性を改善することがほとんどできないため、すべての特徴が有益であるとは限らない。
全体として、CDFSLタスクの再構築対象は重要です。
以上の知見と解釈に基づいて,CDFSLタスクのためのドメイン非依存マスケ画像モデリング(DAMIM)を提案する。
DAMIMには、ドメインに依存しない情報と画像のグローバル構造をバランスよく学習するAggregated Feature Restructionモジュールと、エンコーダの一般化性をさらに向上するLightweight Decoderモジュールが含まれている。
4つのCDFSLデータセットを用いた実験により,本手法が最先端の性能を実現することを示す。
関連論文リスト
- A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions [26.09373405194564]
我々は,IPTV2と呼ばれる階層的な注意を払って,効率的な画像処理トランスフォーマアーキテクチャを提案する。
我々は、局所的およびグローバルな受容領域における適切なトークン相互作用を得るために、焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を採用する。
提案した IPT-V2 は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デコライニングを網羅し,従来の手法よりも性能と計算の複雑さのトレードオフを得る。
論文 参考訳(メタデータ) (2024-03-31T10:01:20Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network [52.77569396659629]
本稿では,低光環境下で撮像した光場(LF)画像の復元に,DCUNet(Deep compensation network openfolding)を提案する。
このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。
本稿では,LF画像の特徴を適切に活用するために,擬似明示的特徴相互作用モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-10T07:53:06Z) - Autoencoders with Intrinsic Dimension Constraints for Learning Low
Dimensional Image Representations [27.40298734517967]
本稿では,グローバルおよびローカルID制約の正規化をデータ表現の再構成に組み込んだ,オートエンコーダを用いた新しい深層表現学習手法を提案する。
このアプローチはデータセット全体の大域多様体構造を保存するだけでなく、各点の特徴写像の局所多様体構造も維持する。
論文 参考訳(メタデータ) (2023-04-16T03:43:08Z) - CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware
Training [112.96224800952724]
複雑な画像に大きな穴をあける際の可視像構造を生成するためのカスケード変調GAN(CM-GAN)を提案する。
各デコーダブロックにおいて、まず大域変調を適用し、粗い意味認識合成構造を行い、次に大域変調の出力に空間変調を適用し、空間適応的に特徴写像を更に調整する。
さらに,ネットワークがホール内の新たな物体を幻覚させるのを防ぐため,実世界のシナリオにおける物体除去タスクのニーズを満たすために,オブジェクト認識型トレーニングスキームを設計する。
論文 参考訳(メタデータ) (2022-03-22T16:13:27Z) - Specificity-Preserving Federated Learning for MR Image Reconstruction [94.58912814426122]
統合学習は、磁気共鳴(MR)画像再構成におけるデータのプライバシーと効率を改善するために使用できる。
近年のFL技術は、グローバルモデルの一般化を強化することで、この問題を解決する傾向にある。
MR画像再構成のための特異性保存FLアルゴリズム(FedMRI)を提案する。
論文 参考訳(メタデータ) (2021-12-09T22:13:35Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。