論文の概要: Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals
- arxiv url: http://arxiv.org/abs/2606.02679v1
- Date: Mon, 01 Jun 2026 14:20:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 10:57:21.695552
- Title: Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals
- Title(参考訳): 融合前、何を維持するべきかを問う:マルチモーダル信号の文脈校正
- Authors: Jiyuan Liu, Liangwei Nathan Zheng, Wei Emma Zhang, Xinpei Wang, Weitong Chen,
- Abstract要約: マルチモーダルシステムは、言語、サウンド、ビジュアルストリーム間の情報の組み合わせの恩恵を受けることが多いが、この利点は保証されていない。
本研究では、下流予測器にマージされる前にマルチモーダル表現を調整する方法について検討する。
我々は,各モダリティを要約レベルで比較し,クロスソースサポートと競合のキューを抽出し,これらのキューをインスタンスワイドおよび次元ワイド変調信号に変換する,コンパクトなキャリブレーションモジュールを開発した。
キャリブレーションは、既に融合した表現ではなく、元のモダリティの特徴に適用され、モデルが誤解を招く成分を抑え、弱いが有用な証拠を保持し、より支持された応答を強調することができる。
- 参考スコア(独自算出の注目度): 10.534072717524191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal systems often benefit from combining information across language, sound, and visual streams, but this benefit is not guaranteed. A modality that is useful for one input may become distracting for another, and local feature responses within the same modality can disagree with evidence from other sources. This work investigates how to adjust multimodal representations before they are merged by a downstream predictor. We develop a compact calibration module that compares each modality with the others at the summary level, extracts cues of cross-source support and conflict, and converts these cues into instance-wise and dimension-wise modulation signals. The calibration is applied to the original modality features rather than to already fused representations, enabling the model to suppress misleading components, preserve weak but useful evidence, and emphasize responses that are better supported by the current multimodal context. The module is designed as a plug-in component and can be attached to different fusion backbones without changing their prediction heads. Across five benchmarks covering sentiment understanding, action recognition, audio-visual event detection, and audio-visual emotion classification, the proposed pre-combination calibration strategy improves performance under both sequence-based and convolutional fusion settings. Additional analyses under modality removal, synthetic corruption, training dynamics, and feature-level visualization show that calibrating signals before fusion can reduce interference from unreliable modalities and produce more stable multimodal optimization.
- Abstract(参考訳): マルチモーダルシステムは、言語、サウンド、ビジュアルストリーム間の情報の組み合わせの恩恵を受けることが多いが、この利点は保証されていない。
ある入力に有用なモダリティは、別の入力に気を散らし、同じモダリティ内の局所的な特徴応答は、他のソースからの証拠と矛盾する可能性がある。
本研究では、下流予測器にマージされる前にマルチモーダル表現を調整する方法について検討する。
我々は,各モダリティを要約レベルで比較し,クロスソースサポートと競合のキューを抽出し,これらのキューをインスタンスワイドおよび次元ワイド変調信号に変換する,コンパクトなキャリブレーションモジュールを開発した。
キャリブレーションは、既に融合した表現ではなく、元のモダリティ特徴に適用され、モデルが誤解を招く成分を抑え、弱いが有用な証拠を保存し、現在のマルチモーダルコンテキストでより支持される応答を強調することができる。
モジュールはプラグインコンポーネントとして設計されており、予測ヘッドを変更することなく異なる融合バックボーンにアタッチできる。
感情理解,行動認識,音声・視覚的事象検出,音声・視覚的感情分類の5つのベンチマークにおいて,提案した組合せ前校正戦略は,シーケンスベースと畳み込みの融合設定下での性能を向上させる。
モダリティ除去, 合成汚損, トレーニングダイナミクス, 特徴レベルの可視化による追加分析により, 融合前の校正信号は信頼性の低いモダリティからの干渉を低減し, より安定したマルチモーダル最適化を実現することが示された。
関連論文リスト
- Controlling Decision Drift in Multimodal Sentiment Analysis with Missing Modalities [20.8430910234166]
本稿では,モダリティの欠如によるロバスト性向上のための2レベル参照アライメントフレームワークを提案する。
第一レベルの参照アライメントは、完全なモダリティサンプルを利用して表現を制約し、異なるモダリティの組み合わせを共有の感情空間に整合させる。
第2レベルの参照アライメントは、プロトタイプ検索と投票を通じて信頼性の低いモダリティを抑えることで、決定レベルでの相互整合性を強制する。
論文 参考訳(メタデータ) (2026-05-16T09:03:31Z) - Towards Trustworthy Multimodal Recommendation [6.596263763651009]
現実のデプロイメントはますます重要になってきていますが、未調査の問題、すなわち信頼性を高めます。
現代のeコマースプラットフォームでは、マルチモーダルコンテンツは誤解を招くか、信頼できない。
本稿では,不確実なモダリティ特徴を緩和するモジュール・アンド・プレイのモダリティレベル補正コンポーネントを提案する。
論文 参考訳(メタデータ) (2026-01-31T13:47:25Z) - Text-Guided Channel Perturbation and Pretrained Knowledge Integration for Unified Multi-Modality Image Fusion [5.5275479200431406]
統一モデルは、多モード画像融合のためのモード間でパラメータを共有することを目的としている。
大きなモダリティの違いは、しばしば勾配の衝突を引き起こし、性能を制限します。
本稿では,チャネル摂動と事前学習型知識統合に基づく統合多モード画像融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-16T03:22:33Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Spectrum-based Modality Representation Fusion Graph Convolutional Network for Multimodal Recommendation [7.627299398469962]
本稿では,新しいスペクトルベースのモダリティ表現グラフレコメンデータを提案する。
モダリティノイズを同時に抑制しながら、ユニモーダルとフュージョンの両方の好みを捉えることを目的としている。
実世界の3つのデータセットを用いた実験により,提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2024-12-19T15:53:21Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - ScaleVLAD: Improving Multimodal Sentiment Analysis via Multi-Scale
Fusion of Locally Descriptors [15.042741192427334]
本稿では,テキスト,ビデオ,オーディオからマルチスケール表現を収集する「スケールVLAD」という融合モデルを提案する。
IEMOCAP、MOSI、MOSEIの3つの一般的な感情分析ベンチマークの実験は、ベースラインよりも大幅に向上した。
論文 参考訳(メタデータ) (2021-12-02T16:09:33Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。