論文の概要: Text-Routed Sparse Mixture-of-Experts Model with Explanation and Temporal Alignment for Multi-Modal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2512.22741v1
- Date: Sun, 28 Dec 2025 01:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.199098
- Title: Text-Routed Sparse Mixture-of-Experts Model with Explanation and Temporal Alignment for Multi-Modal Sentiment Analysis
- Title(参考訳): マルチモーダル感性分析のための説明と時間アライメントを伴うテキスト制御スパース混合実験モデル
- Authors: Dongning Rao, Yunbiao Zeng, Zhihua Jiang, Jujian Lv,
- Abstract要約: 本稿では,MSA のための eXplanation とテンポラルアライメントを備えたテキスト・ルート・スパース・オブ・エキスパート・モデルを提案する。
TEXTは、まずMLLM(Multi-modal Large Language Models)を介してMSAの説明を拡張し、その後、時間性指向のニューラルネットワークブロックを通じて、音声とビデオの表現を新しく整列させる。
TEXTは、最近提案された3つのアプローチと3つのMLLMを含む、すべてのテストモデルの中で、4つのデータセットで最高のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 1.7522684436505962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-interaction-involved applications underscore the need for Multi-modal Sentiment Analysis (MSA). Although many approaches have been proposed to address the subtle emotions in different modalities, the power of explanations and temporal alignments is still underexplored. Thus, this paper proposes the Text-routed sparse mixture-of-Experts model with eXplanation and Temporal alignment for MSA (TEXT). TEXT first augments explanations for MSA via Multi-modal Large Language Models (MLLM), and then novelly aligns the epresentations of audio and video through a temporality-oriented neural network block. TEXT aligns different modalities with explanations and facilitates a new text-routed sparse mixture-of-experts with gate fusion. Our temporal alignment block merges the benefits of Mamba and temporal cross-attention. As a result, TEXT achieves the best performance cross four datasets among all tested models, including three recently proposed approaches and three MLLMs. TEXT wins on at least four metrics out of all six metrics. For example, TEXT decreases the mean absolute error to 0.353 on the CH-SIMS dataset, which signifies a 13.5% decrement compared with recently proposed approaches.
- Abstract(参考訳): ヒューマンインタラクション関連のアプリケーションは、マルチモーダル感性分析(MSA)の必要性を浮き彫りにしている。
異なるモダリティの微妙な感情に対処するために多くのアプローチが提案されているが、説明力や時間的アライメントの力はまだ未熟である。
そこで本稿では,MSA (TEXT) のための eXplanation とテンポラルアライメントを備えたテキスト・ロータス・スパース・オブ・エクスプット・モデルを提案する。
TEXTは、まずMLLM(Multi-modal Large Language Models)を介してMSAの説明を拡張し、その後、時間性指向のニューラルネットワークブロックを通じて、音声とビデオの表現を新しく整列させる。
TEXTは、異なるモダリティを説明と整合させ、新しいテキスト抽出されたスパース混合とゲート融合を促進する。
時間的アライメントブロックは,マンバと時間的クロスアテンションの利点を融合させる。
結果として、TEXTは、最近提案された3つのアプローチと3つのMLLMを含む、すべてのテストモデルの中で、4つのデータセットで最高のパフォーマンスを達成する。
TEXTは6つの指標のうち少なくとも4つの指標で勝利する。
例えば、TEXTはCH-SIMSデータセットの平均絶対誤差を0.353に下げ、これは最近提案されたアプローチと比較して13.5%の減少を示している。
関連論文リスト
- BRIDGE: Bootstrapping Text to Control Time-Series Generation via Multi-Agent Iterative Optimization and Diffusion Modeling [51.830134409330704]
時系列生成(TSG、Time-Series Generation)は、シミュレーション、データ拡張、および反事実分析に広く応用された、顕著な研究分野である。
我々は、テキストが意味的な洞察、ドメイン情報、インスタンス固有の時間パターンを提供し、TSGをガイドし改善することができると論じている。
BRIDGEはテキスト制御型TSGフレームワークで,テキスト記述とセマンティックプロトタイプを統合し,ドメインレベルのガイダンスをサポートする。
論文 参考訳(メタデータ) (2025-03-04T09:40:00Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - AMPLE: Emotion-Aware Multimodal Fusion Prompt Learning for Fake News Detection [0.1499944454332829]
本稿では,Emotion-textbfAware textbfMultimodal Fusion textbfPrompt textbfLtextbfEarning (textbfAMPLE) フレームワークについて述べる。
このフレームワークは感情分析ツールを利用してテキストから感情要素を抽出する。
次に、マルチヘッドクロスアテンション(MCA)機構と類似性を考慮した融合手法を用いて、マルチモーダルデータを統合する。
論文 参考訳(メタデータ) (2024-10-21T02:19:24Z) - AToM: Amortized Text-to-Mesh using 2D Diffusion [107.02696990299032]
Amortized Text-to-Mesh (AToM) は複数のテキストプロンプトに同時に最適化されたフィードフォワードフレームワークである。
AToMはトレーニングコストの約10倍の削減とともに、1秒未満で高品質なテクスチャメッシュを直接生成する。
AToMは4倍以上の精度で最先端のアモルト化アプローチを著しく上回っている。
論文 参考訳(メタデータ) (2024-02-01T18:59:56Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。