論文の概要: PGF-Net: A Progressive Gated-Fusion Framework for Efficient Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2508.15852v1
- Date: Wed, 20 Aug 2025 08:29:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.121962
- Title: PGF-Net: A Progressive Gated-Fusion Framework for Efficient Multimodal Sentiment Analysis
- Title(参考訳): PGF-Net: 効率的なマルチモーダル感性分析のためのプログレッシブGated-Fusionフレームワーク
- Authors: Bin Wen, Tien-Ping Tan,
- Abstract要約: PGF-Netは,効率よく解釈可能なマルチモーダル感情分析のための新しいディープラーニングフレームワークである。
本稿では,音声と視覚ストリームの非言語的特徴を動的に問合せし統合するために,クロスアテンション機構を用いたプログレッシブ・イントラライヤー・フュージョン(Progressive intra-Layer Fusion)パラダイムを提案する。
第二に、モデルにはAdaptive Gated Arbitration機構が組み込まれており、元の言語情報のバランスをとるために動的コントローラとして機能する。
- 参考スコア(独自算出の注目度): 6.373083097957498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce PGF-Net (Progressive Gated-Fusion Network), a novel deep learning framework designed for efficient and interpretable multimodal sentiment analysis. Our framework incorporates three primary innovations. Firstly, we propose a Progressive Intra-Layer Fusion paradigm, where a Cross-Attention mechanism empowers the textual representation to dynamically query and integrate non-linguistic features from audio and visual streams within the deep layers of a Transformer encoder. This enables a deeper, context-dependent fusion process. Secondly, the model incorporates an Adaptive Gated Arbitration mechanism, which acts as a dynamic controller to balance the original linguistic information against the newly fused multimodal context, ensuring stable and meaningful integration while preventing noise from overwhelming the signal. Lastly, a hybrid Parameter-Efficient Fine-Tuning (PEFT) strategy is employed, synergistically combining global adaptation via LoRA with local refinement through Post-Fusion Adapters. This significantly reduces trainable parameters, making the model lightweight and suitable for resource-limited scenarios. These innovations are integrated into a hierarchical encoder architecture, enabling PGF-Net to perform deep, dynamic, and interpretable multimodal sentiment analysis while maintaining exceptional parameter efficiency. Experimental results on MOSI dataset demonstrate that our proposed PGF-Net achieves state-of-the-art performance, with a Mean Absolute Error (MAE) of 0.691 and an F1-Score of 86.9%. Notably, our model achieves these results with only 3.09M trainable parameters, showcasing a superior balance between performance and computational efficiency.
- Abstract(参考訳): PGF-Net(Progressive Gated-Fusion Network)は,マルチモーダル感情分析を効率的かつ解釈可能な,新しいディープラーニングフレームワークである。
私たちのフレームワークには3つの主要なイノベーションが組み込まれています。
まず,トランスフォーマーエンコーダの深層層内における音声・視覚ストリームからの非言語的特徴を動的に問合せ,統合するためのクロスアテンション機構を提案する。
これにより、より深くコンテキストに依存した融合プロセスが可能になる。
第二に、アダプティブ・ゲーテッド・アロケーション(Adaptive Gated Arbitration)機構が組み込まれており、これは動的コントローラとして機能し、元の言語情報を新しく融合したマルチモーダルコンテキストとバランスを取り、ノイズが信号の過大さを防ぎながら安定かつ有意義な統合を保証する。
最後に、LoRAによるグローバル適応とポストフュージョンアダプタによる局所的な洗練を相乗的に組み合わせ、PEFT(パラメータ効率の良いファインチューニング)戦略を採用する。
これにより、トレーニング可能なパラメータが大幅に削減され、モデルが軽量になり、リソース制限のあるシナリオに適合する。
これらの革新は階層型エンコーダアーキテクチャに統合され、PGF-Netは例外的なパラメータ効率を維持しつつ、深い動的かつ解釈可能なマルチモーダル感情分析を行うことができる。
MOSIデータセットを用いた実験結果から,提案したPGF-Netは平均絶対誤差0.691,F1スコア86.9%,最先端性能が得られた。
特に,本モデルではトレーニング可能なパラメータをわずか3.09Mで達成し,性能と計算効率のバランスが良好であることを示す。
関連論文リスト
- EffiFusion-GAN: Efficient Fusion Generative Adversarial Network for Speech Enhancement [1.144423767174855]
本稿では,音声強調のための軽量かつ強力なモデルであるEffiFusion-GANを紹介する。
モデルはマルチスケールブロック内に深度的に分離可能な畳み込みを統合し、様々な音響特性を効率的に捉える。
EffiFusion-GANはPSSQスコアが3.45で、同じパラメータ設定で既存のモデルより優れている。
論文 参考訳(メタデータ) (2025-08-20T08:36:43Z) - Gated Recursive Fusion: A Stateful Approach to Scalable Multimodal Transformers [0.0]
Gated Recurrent Fusion(GRF)は、線形にスケーラブルで再帰的なパイプライン内で、モーダル間注目のパワーをキャプチャする新しいアーキテクチャである。
我々の研究は、強力でスケーラブルなマルチモーダル表現学習のための堅牢で効率的なパラダイムを提示している。
論文 参考訳(メタデータ) (2025-07-01T09:33:38Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。
MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。
提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-27T00:59:14Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - Wolf2Pack: The AutoFusion Framework for Dynamic Parameter Fusion [4.164728134421114]
我々は,事前学習されたチェックポイントを使わずに,マルチタスク学習のための異なるモデルパラメータを融合するフレームワークであるAutoFusionを紹介する。
我々は、よく使われるベンチマークデータセットの実験を通してAutoFusionの有効性を検証する。
私たちのフレームワークは、モデル統合のためのスケーラブルで柔軟なソリューションを提供し、将来の研究および実用的なアプリケーションのための強力なツールとして位置づけています。
論文 参考訳(メタデータ) (2024-10-08T07:21:24Z) - X Modality Assisting RGBT Object Tracking [1.730147049648545]
X Modality Assisting Network (X-Net)を導入し、視覚オブジェクト追跡を3つの異なるレベルに分離することで、融合パラダイムの影響を探る。
X-Netは、正確なレートと成功率の平均で0.47%/1.2%のパフォーマンス向上を達成する。
論文 参考訳(メタデータ) (2023-12-27T05:38:54Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。