論文の概要: Modality-Collaborative Low-Rank Decomposers for Few-Shot Video Domain Adaptation
- arxiv url: http://arxiv.org/abs/2511.18711v1
- Date: Mon, 24 Nov 2025 03:09:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.986545
- Title: Modality-Collaborative Low-Rank Decomposers for Few-Shot Video Domain Adaptation
- Title(参考訳): Few-Shot Video Domain AdaptationのためのModality-Collaborative Low-Rank Decomposer
- Authors: Yuyang Wanyan, Xiaoshan Yang, Weiming Dong, Changsheng Xu,
- Abstract要約: FSVDA(Few-Shot Video Domain Adaptation)の課題について検討する。
モダリティ・ユニクティック・モダリティ・共有特徴を分解するために,モダリティ・コラボレーティブ・ローランク・デコンポスタ(MC-LRD)の新たなフレームワークを導入する。
我々のモデルは既存の手法よりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 74.16390314862801
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we study the challenging task of Few-Shot Video Domain Adaptation (FSVDA). The multimodal nature of videos introduces unique challenges, necessitating the simultaneous consideration of both domain alignment and modality collaboration in a few-shot scenario, which is ignored in previous literature. We observe that, under the influence of domain shift, the generalization performance on the target domain of each individual modality, as well as that of fused multimodal features, is constrained. Because each modality is comprised of coupled features with multiple components that exhibit different domain shifts. This variability increases the complexity of domain adaptation, thereby reducing the effectiveness of multimodal feature integration. To address these challenges, we introduce a novel framework of Modality-Collaborative LowRank Decomposers (MC-LRD) to decompose modality-unique and modality-shared features with different domain shift levels from each modality that are more friendly for domain alignment. The MC-LRD comprises multiple decomposers for each modality and Multimodal Decomposition Routers (MDR). Each decomposer has progressively shared parameters across different modalities. The MDR is leveraged to selectively activate the decomposers to produce modality-unique and modality-shared features. To ensure efficient decomposition, we apply orthogonal decorrelation constraints separately to decomposers and subrouters, enhancing their diversity. Furthermore, we propose a cross-domain activation consistency loss to guarantee that target and source samples of the same category exhibit consistent activation preferences of the decomposers, thereby facilitating domain alignment. Extensive experimental results on three public benchmarks demonstrate that our model achieves significant improvements over existing methods.
- Abstract(参考訳): 本稿では,FSVDA(Few-Shot Video Domain Adaptation)の課題について考察する。
ビデオのマルチモーダルな性質は、ドメインのアライメントとモダリティの協調を同時に考慮する必要があるというユニークな課題をもたらし、これは以前の文献では無視されている。
ドメインシフトの影響下では、個々のモダリティのターゲット領域に対する一般化性能と、融合多重モーダル特徴の一般化性能が制約されていることを観察する。
それぞれのモダリティは、異なるドメインシフトを示す複数のコンポーネントと結合した特徴で構成されているためである。
この可変性により、ドメイン適応の複雑さが増大し、マルチモーダルな特徴統合の有効性が低下する。
これらの課題に対処するため,モダリティ・コラボレーティブ・ローランク・デコンポスタ(MC-LRD)の新たなフレームワークを導入し,ドメインアライメントに親しみやすい各モダリティから,ドメインシフトレベルが異なるモダリティ・ユニクティック・モダリティ共有特徴を分解する。
MC-LRDは、各モード用の複数の分解器と、MDR(Multimodal Decomposition Routers)を備える。
各デコンパイラは、異なるモードでパラメータを段階的に共有する。
MDRを利用して除算器を選択的に活性化し、モダリティ普遍性とモダリティ共有性を生成する。
効率的な分解を実現するため、直交デコレーションの制約を分解器とサブルーチンに別々に適用し、それらの多様性を高める。
さらに、同一カテゴリのターゲットおよびソースサンプルがデコンプソンの一貫性のあるアクティベーション嗜好を示すことを保証し、ドメインアライメントを容易にするクロスドメインアクティベーション一貫性損失を提案する。
3つの公開ベンチマークによる大規模な実験結果から,本モデルが既存手法よりも大幅に改善されていることが示された。
関連論文リスト
- Unsupervised Multi-Source Federated Domain Adaptation under Domain Diversity through Group-Wise Discrepancy Minimization [2.522791298432536]
Unsupervised Multi-source Domain adapt (UMDA) は、複数の多様なソースドメインからのラベル付きデータを活用することにより、ラベルなしのターゲットドメインに一般化するモデルを学習することを目的としている。
GALAはスケーラブルで堅牢なUMDAフレームワークで、2つの重要なコンポーネントを導入しています。
GALAは、標準ベンチマークの競合や最先端の結果を一貫して達成し、様々なマルチソース設定で先行メソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-10-09T12:34:37Z) - Unified modality separation: A vision-language framework for unsupervised domain adaptation [60.8391821117794]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。
本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。
提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:51:10Z) - Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。
モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文 参考訳(メタデータ) (2025-03-17T18:08:03Z) - Single-Domain Generalized Object Detection by Balancing Domain Diversity and Invariance [2.5183599110662054]
オブジェクト検出のための単一ドメインの一般化は、学習された表現を単一のソースドメインから見えないターゲットドメインに転送しようとする。
本稿では、ドメイン固有の多様性とドメイン不変性の統合を実現するダイバーシティ不変検出モデル(DIDM)を提案する。
複数の多様なデータセットの実験は、提案モデルの有効性を示し、既存の手法よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2025-02-06T07:41:24Z) - Exploiting Aggregation and Segregation of Representations for Domain Adaptive Human Pose Estimation [50.31351006532924]
人間のポーズ推定(HPE)は最近、モーション分析、バーチャルリアリティー、ヘルスケア等に広く応用されているため、注目を集めている。
時間と労働集約的なアノテーションのために、ラベル付き現実世界のデータセットが不足している。
本稿では,ドメイン適応型人間のポーズ推定のための表現集約と分離を両立させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-29T17:59:45Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Dynamic Domain Discrepancy Adjustment for Active Multi-Domain Adaptation [3.367755441623275]
マルチソースアン教師付きドメイン適応(MUDA)は、関連するソースドメインから未ラベルのターゲットドメインに知識を転送することを目的としている。
アクティブマルチドメイン適応(D3AAMDA)のための動的ドメイン不一致適応法(Dynamic Domain Disrepancy Adjustment)を提案する。
このメカニズムは、ソースドメインとターゲットドメイン間の特徴のアライメントレベルを制御し、ソースドメイン内のローカルな有利な特徴情報を効果的に活用する。
論文 参考訳(メタデータ) (2023-07-26T09:40:19Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。