論文の概要: MultiPress: A Multi-Agent Framework for Interpretable Multimodal News Classification
- arxiv url: http://arxiv.org/abs/2604.03586v1
- Date: Sat, 04 Apr 2026 04:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.655107
- Title: MultiPress: A Multi-Agent Framework for Interpretable Multimodal News Classification
- Title(参考訳): MultiPress: 解釈可能なマルチモーダルニュース分類のためのマルチエージェントフレームワーク
- Authors: Tailong Luo, Hao Li, Rong Fu, Xinyue Jiang, Huaxuan Ding, Yiduo Zhang, Zilin Zhao, Simon Fong, Guangyin Jin, Jianyuan Ni,
- Abstract要約: MultiPressは、マルチモーダルニュース分類のための新しい3段階のマルチエージェントフレームワークである。
マルチモーダル認識、検索強化推論、ゲート融合スコアリングのための特殊エージェントを統合している。
新たに構築された大規模マルチモーダルニュースデータセット上でMultiPressを検証する。
- 参考スコア(独自算出の注目度): 9.440872951369467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing prevalence of multimodal news content, effective news topic classification demands models capable of jointly understanding and reasoning over heterogeneous data such as text and images. Existing methods often process modalities independently or employ simplistic fusion strategies, limiting their ability to capture complex cross-modal interactions and leverage external knowledge. To overcome these limitations, we propose MultiPress, a novel three-stage multi-agent framework for multimodal news classification. MultiPress integrates specialized agents for multimodal perception, retrieval-augmented reasoning, and gated fusion scoring, followed by a reward-driven iterative optimization mechanism. We validate MultiPress on a newly constructed large-scale multimodal news dataset, demonstrating significant improvements over strong baselines and highlighting the effectiveness of modular multi-agent collaboration and retrieval-augmented reasoning in enhancing classification accuracy and interpretability.
- Abstract(参考訳): マルチモーダルニュースコンテンツの普及に伴い、効果的なニューストピック分類は、テキストや画像などの異種データを共同で理解し、推論できるモデルを必要とする。
既存の方法は、しばしば独立してモダリティを処理したり、単純な融合戦略を採用し、複雑なモダリティ間の相互作用を捕捉し、外部知識を活用する能力を制限する。
これらの制約を克服するために,マルチモーダルニュース分類のための新しい3段階マルチエージェントフレームワークであるMultiPressを提案する。
MultiPressは、マルチモーダル認識、検索強化推論、ゲート融合スコアリングのための特殊エージェントと、報酬駆動の反復最適化機構を統合している。
我々はMultiPressを新たに構築した大規模マルチモーダルニュースデータセット上で検証し、強力なベースラインに対する大幅な改善を示し、分類精度と解釈可能性を高めるためのモジュール型マルチエージェント協調と検索強化推論の有効性を強調した。
関連論文リスト
- M$^3$Searcher: Modular Multimodal Information Seeking Agency with Retrieval-Oriented Reasoning [8.546005018618713]
M$3$Searcherはモジュラーマルチモーダル情報検索エージェントである。
M$3$Searcherは検索指向の多目的報酬で最適化されている。
MMSearchVQAは、検索中心のRLトレーニングをサポートするマルチモーダルマルチホップデータセットである。
論文 参考訳(メタデータ) (2026-01-14T08:27:40Z) - A Unified Multi-Agent Framework for Universal Multimodal Understanding and Generation [8.021435739965982]
マルチモーダルな理解と生成を2つの分離されたフェーズ(認知と熟考)を通じて統合するモジュラーフレームワークを提案する。
コグニションでは、Perceiver、Planner、Reflectorの3つのロール条件のマルチモーダルLLMエージェントが協調対話を行い、構造化された理解と計画を実行する。
Deliberation フェーズには、LSM に基づく推論と拡散に基づく生成を相互に強化する成長意識探索機構が組み込まれている。
論文 参考訳(メタデータ) (2025-08-14T09:52:51Z) - MANGO: Multimodal Attention-based Normalizing Flow Approach to Fusion Learning [12.821814562210632]
本稿では,マルチモーダルアテンションに基づく正規化フロー(MANGO)アプローチを提案する。
マルチモーダルデータのための正規化フローベースモデルを開発するために,新しい非可逆クロスアテンション層を提案する。
また,MMCA(Modality-to-Modality Cross-Attention),IMCA(Inter-Modality Cross-Attention),ICA(Learable Inter-Modality Cross-Attention)の3つの新しいクロスアテンション機構を導入する。
論文 参考訳(メタデータ) (2025-08-13T18:56:57Z) - MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation [80.08991479306681]
MEXAは、エキスパートモデルのモダリティおよびタスク対応アグリゲーションを実行する、トレーニング不要のフレームワークである。
我々は,ビデオ推論,オーディオ推論,3D理解,医用QAなど,多様なマルチモーダルベンチマークに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-06-20T16:14:13Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。