Fugu-MT 論文翻訳(概要): Towards Multimodal Domain Generalization with Few Labels

論文の概要: Towards Multimodal Domain Generalization with Few Labels

arxiv url: http://arxiv.org/abs/2602.22917v1
Date: Thu, 26 Feb 2026 12:05:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.670499
Title: Towards Multimodal Domain Generalization with Few Labels
Title（参考訳）: 少数ラベルを用いたマルチモーダル領域一般化に向けて
Authors: Hongzhao Li, Hao Dong, Hualei Wan, Shupan Li, Mingliang Xu, Muhammad Haris Khan,
Abstract要約: SSMDG(Semi-Supervised Multimodal Domain Generalization)という新しい問題を紹介し,研究する。 SSMDGは、ラベル付きサンプルが少ないマルチソースデータから堅牢なマルチモーダルモデルを学習することを目的としている。本稿では,コンセンサス駆動整合規則,分散認識整合規則,クロスモーダルプロトタイプアライメントの3つの主要なコンポーネントを特徴とする統一フレームワークを提案する。
参考スコア（独自算出の注目度）: 37.21678123296403
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal models ideally should generalize to unseen domains while remaining data-efficient to reduce annotation costs. To this end, we introduce and study a new problem, Semi-Supervised Multimodal Domain Generalization (SSMDG), which aims to learn robust multimodal models from multi-source data with few labeled samples. We observe that existing approaches fail to address this setting effectively: multimodal domain generalization methods cannot exploit unlabeled data, semi-supervised multimodal learning methods ignore domain shifts, and semi-supervised domain generalization methods are confined to single-modality inputs. To overcome these limitations, we propose a unified framework featuring three key components: Consensus-Driven Consistency Regularization, which obtains reliable pseudo-labels through confident fused-unimodal consensus; Disagreement-Aware Regularization, which effectively utilizes ambiguous non-consensus samples; and Cross-Modal Prototype Alignment, which enforces domain- and modality-invariant representations while promoting robustness under missing modalities via cross-modal translation. We further establish the first SSMDG benchmarks, on which our method consistently outperforms strong baselines in both standard and missing-modality scenarios. Our benchmarks and code are available at https://github.com/lihongzhao99/SSMDG.
Abstract（参考訳）: マルチモーダルモデルは、アノテーションコストを減らすためにデータ効率を保ちながら、未確認領域に理想的に一般化すべきである。そこで本研究では,ラベル付きサンプルの少ないマルチソースデータからロバストなマルチモーダルモデルを学習することを目的とした,Semi-Supervised Multimodal Domain Generalization (SSMDG)という新たな問題を紹介し,研究する。マルチモーダル領域一般化法はラベルのないデータを利用することができず、半教師付きマルチモーダル学習法はドメインシフトを無視し、半教師付きドメイン一般化法は単一モーダル入力に制限される。これらの制約を克服するために,コンセンサス駆動整合性整合性整合性整合性(consensus-Driven Consistency Regularization),不明瞭な非整合性サンプルを効果的に活用する分散認識整合性(Disagreement-Aware Regularization),ドメイン・モダリティ・不変表現を強制するクロスモーダル・プロトタイプアライメント(Cross-Modal Prototype Alignment)の3つの主要なコンポーネントを提案する。 SSMDGベンチマークは,標準および欠落したモダリティのシナリオにおいて,我々の手法が一貫して高いベースラインを達成している。ベンチマークとコードはhttps://github.com/lihongzhao99/SSMDG.comで公開されています。

関連論文リスト

Reasoning-Driven Multimodal LLM for Domain Generalization [72.00754603114187]
DomainBed-Reasoning データセットを用いた領域一般化における推論の役割について検討する。 MTCT(Multi-Task Cross-Training)とSARR(Self-Aligned Reasoning Regularization)の2つのコンポーネントからなるフレームワークであるRD-MLDGを提案する。標準のDomainBedデータセットの実験は、RD-MLDGが補完的な最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2026-02-27T08:10:06Z)
Bridging Modalities via Progressive Re-alignment for Multimodal Test-Time Adaptation [39.02105398462778]
テスト時間適応(TTA)は、未ラベルのテストデータのみを使用したオンラインモデル適応を可能にする。マルチモーダルのシナリオでは、異なるモダリティをまたいだ分布の度合いの変化は複雑なカップリング効果をもたらす。本稿では,BriMPR(Progressive Re-alignment)によるブリッジングモダリティ( Bridging Modalities)と呼ばれる新しいTTAフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-28T03:33:42Z)
Unsupervised Multi-Source Federated Domain Adaptation under Domain Diversity through Group-Wise Discrepancy Minimization [2.522791298432536]
Unsupervised Multi-source Domain adapt (UMDA) は、複数の多様なソースドメインからのラベル付きデータを活用することにより、ラベルなしのターゲットドメインに一般化するモデルを学習することを目的としている。 GALAはスケーラブルで堅牢なUMDAフレームワークで、2つの重要なコンポーネントを導入しています。 GALAは、標準ベンチマークの競合や最先端の結果を一貫して達成し、様々なマルチソース設定で先行メソッドよりも大幅に優れています。
論文参考訳（メタデータ） (2025-10-09T12:34:37Z)
LADB: Latent Aligned Diffusion Bridges for Semi-Supervised Domain Translation [54.690154688667086]
拡散モデルは高品質な出力を生成するのに優れているが、データスカースドメインでは課題に直面している。サンプルからサンプルへの変換のための半教師付きフレームワークであるLatent Aligned Diffusion Bridges (LADB)を提案する。
論文参考訳（メタデータ） (2025-09-10T14:23:07Z)
Multi-Prompt Progressive Alignment for Multi-Source Unsupervised Domain Adaptation [73.40696661117408]
未ラベルの下流タスクにCLIPを適用するためのプログレッシブアライメント戦略を提案する。私たちはアプローチをMP2Aと名付け、ImageCLEF、Office-Home、そして最も難しいDomainNetという3つの人気のあるUDAベンチマークでテストします。実験によると、MP2Aは最新のCLIPベースのMS-UDAアプローチと比較して最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-07-31T09:42:42Z)
Principled Multimodal Representation Learning [99.53621521696051]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文参考訳（メタデータ） (2025-07-23T09:12:25Z)
Bridging Domain Generalization to Multimodal Domain Generalization via Unified Representations [43.07575348801021]
ドメイン一般化(DG)は、ソースドメインのみをトレーニングすることで、目に見えない、あるいは分散的にシフトしたターゲットドメインにおけるモデルの堅牢性を高めることを目的としている。マルチモーダル・ドメイン・ジェネリゼーション(MMDG)における重要な課題は、マルチモーダル・ソースで訓練されたモデルが、同じモダリティ・セット内の未確認対象の分布に一般化できるようにすることである。我々は、統一表現を利用して異なるペアのモダリティをマッピングする新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-07-04T05:17:32Z)
Towards Modality Generalization: A Benchmark and Prospective Analysis [68.20973671493203]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文参考訳（メタデータ） (2024-12-24T08:38:35Z)
Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文参考訳（メタデータ） (2024-10-15T08:49:38Z)
SimMMDG: A Simple and Effective Framework for Multi-modal Domain Generalization [13.456240733175767]
SimMMDGは、マルチモーダルシナリオにおけるドメインの一般化を実現する上での課題を克服するためのフレームワークである。我々は,共同性を確保し,距離制約を課すために,モダリティ共有特徴に対する教師付きコントラスト学習を採用する。本研究では,EPIC-KitchensデータセットとHuman-Animal-CartoonデータセットのマルチモーダルDGにおいて,理論的に支持され,高い性能を実現している。
論文参考訳（メタデータ） (2023-10-30T17:58:09Z)
MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation [104.48766162008815]
本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。マルチモダリティを最大限に活用できるフレームワークを設計するために、各モダリティは他のモダリティに対して正規化された自己監督信号を提供する。正規化された擬似ラベルは、多数の多モードテスト時間適応シナリオにおいて安定した自己学習信号を生成する。
論文参考訳（メタデータ） (2022-04-27T02:28:12Z)
Semi-Supervised Domain Generalization with Stochastic StyleMatch [90.98288822165482]
実世界のアプリケーションでは、アノテーションのコストが高いため、各ソースドメインから利用可能なラベルはわずかです。本研究では,より現実的で実践的な半教師付き領域一般化について検討する。提案手法であるStyleMatchは,擬似ラベルに基づく最先端の半教師付き学習手法であるFixMatchに着想を得たものである。
論文参考訳（メタデータ） (2021-06-01T16:00:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。