Fugu-MT 論文翻訳(概要): DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis

論文の概要: DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis

arxiv url: http://arxiv.org/abs/2412.12225v3
Date: Wed, 09 Apr 2025 00:52:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-10 16:25:04.089661
Title: DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis
Title（参考訳）: DLF:ディスタングル・ランゲージ・フォーカス型マルチモーダル感性分析
Authors: Pan Wang, Qiang Zhou, Yawen Wu, Tianlong Chen, Jingtong Hu,
Abstract要約: 本稿では,多目的表現学習フレームワークDentangled-Language-Focused (DLF)を提案する。このモジュールは、モダリティ共有とモダリティ固有情報を分離するための機能障害モジュールを組み込んでいる。相補的モダリティ固有情報を活用することで言語表現を強化するために,Language-Focused Attractor (LFA) がさらに開発された。
参考スコア（独自算出の注目度）: 41.29318462528406
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Multimodal Sentiment Analysis (MSA) leverages heterogeneous modalities, such as language, vision, and audio, to enhance the understanding of human sentiment. While existing models often focus on extracting shared information across modalities or directly fusing heterogeneous modalities, such approaches can introduce redundancy and conflicts due to equal treatment of all modalities and the mutual transfer of information between modality pairs. To address these issues, we propose a Disentangled-Language-Focused (DLF) multimodal representation learning framework, which incorporates a feature disentanglement module to separate modality-shared and modality-specific information. To further reduce redundancy and enhance language-targeted features, four geometric measures are introduced to refine the disentanglement process. A Language-Focused Attractor (LFA) is further developed to strengthen language representation by leveraging complementary modality-specific information through a language-guided cross-attention mechanism. The framework also employs hierarchical predictions to improve overall accuracy. Extensive experiments on two popular MSA datasets, CMU-MOSI and CMU-MOSEI, demonstrate the significant performance gains achieved by the proposed DLF framework. Comprehensive ablation studies further validate the effectiveness of the feature disentanglement module, language-focused attractor, and hierarchical predictions. Our code is available at https://github.com/pwang322/DLF.
Abstract（参考訳）: マルチモーダル・センティメント・アナリティクス(MSA)は、言語、視覚、音声などの不均一なモダリティを活用し、人間の感情の理解を強化する。既存のモデルは、モダリティを越えて共有情報を抽出することや、不均一なモダリティを直接融合することに焦点を当てることが多いが、このようなアプローチは、すべてのモダリティの平等な扱いと、モダリティペア間の情報の相互移動による冗長性と矛盾を導入することができる。これらの問題に対処するために,多言語多言語表現学習フレームワークを提案する。さらに冗長性を低減し、言語をターゲットとした特徴を高めるため、4つの幾何学的測度を導入し、絡み合うプロセスを洗練させる。言語誘導型クロスアテンション機構を通じて、相補的モダリティ特化情報を活用することにより、言語表現を強化するために、LFA(Language-Focused Attractor)がさらに開発された。このフレームワークは、全体的な正確性を改善するために階層的な予測も採用している。 CMU-MOSIとCMU-MOSEIの2つの一般的なMSAデータセットに対する大規模な実験は、提案したDLFフレームワークによって達成された大きなパフォーマンス向上を実証している。包括的アブレーション研究は, 機能障害モジュール, 言語中心のアトラクタ, 階層的予測の有効性をさらに検証している。私たちのコードはhttps://github.com/pwang322/DLF.orgで公開されています。

関連論文リスト

Relation-R1: Cognitive Chain-of-Thought Guided Reinforcement Learning for Unified Relational Comprehension [12.563060744760651]
リレーショナルR1は最初の統合リレーショナル理解フレームワークである。認知連鎖(CoT)誘導監視細管(SFT)とグループ相対政策最適化(GRPO)を統合している。広く使われているPSGデータセットとSWiGデータセットの実験により、リレーショナルR1はバイナリとtextitN-aryリレーショナル理解の両方で最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2025-04-20T14:50:49Z)
Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence [83.15764564701706]
本稿では、コーシー=シュワルツの発散と相互情報を統合することで、分布型視覚言語アライメントを実現する新しいフレームワークを提案する。提案フレームワークでは,CSの分散と相互情報は多モーダルアライメントにおいて相補的な役割を担い,各モーダルのグローバル分布情報とペアのセマンティック関係の両方をキャプチャする。テキスト・画像生成およびモダリティ横断検索タスクの実験により,本手法が視覚言語アライメントに与える影響を実証した。
論文参考訳（メタデータ） (2025-02-24T10:29:15Z)
Cross-domain Few-shot Object Detection with Multi-modal Textual Enrichment [21.36633828492347]
クロスドメイン多モードFew-Shotオブジェクト検出(CDMM-FSOD) メタラーニングベースのフレームワークを導入し、リッチテキストセマンティクスを補助モダリティとして活用し、効果的なドメイン適応を実現する。提案手法を共通のクロスドメインオブジェクト検出ベンチマークで評価し,既存の複数ショットオブジェクト検出手法を大きく上回っていることを示す。
論文参考訳（メタデータ） (2025-02-23T06:59:22Z)
A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文参考訳（メタデータ） (2025-02-22T20:55:26Z)
Toward Robust Incomplete Multimodal Sentiment Analysis via Hierarchical Representation Learning [21.127950337002776]
マルチモーダル・センティメント・アナリティクス(MSA)は、複数のモーダルを通して人間の感情を理解し、認識することを目的とした重要な研究分野である。本稿では,不確実なモダリティの下でのタスクのための階層表現学習フレームワーク(HRLF)を提案する。 HRLFは、不確実なモダリティ欠失例において、MSA性能を著しく改善することを示した。
論文参考訳（メタデータ） (2024-11-05T04:04:41Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
Cross-domain Multi-modal Few-shot Object Detection via Rich Text [21.36633828492347]
クロスモーダルな特徴抽出と統合は、数ショットの学習タスクで安定したパフォーマンス改善をもたらした。 MM-OD (CDMM-FSOD) のクロスドメイン数ショット一般化について検討し,メタラーニングに基づく多モード数ショット検出手法を提案する。
論文参考訳（メタデータ） (2024-03-24T15:10:22Z)
Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis [22.012103941836838]
適応型言語誘導型マルチモーダルトランス(ALMT)を提案する。 ALMTにはAdaptive Hyper-modality Learning (AHL)モジュールが組み込まれており、無関係/複雑圧縮表現を学習する。 ALMTは、いくつかの一般的なデータセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-10-09T15:43:07Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。 MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文参考訳（メタデータ） (2023-07-19T02:11:19Z)
Incorporating Linguistic Knowledge for Abstractive Multi-document Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。依存関係情報を言語誘導型注意機構に処理する。言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文参考訳（メタデータ） (2021-09-23T08:13:35Z)
Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。 ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文参考訳（メタデータ） (2021-05-28T14:25:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。