論文の概要: Multimodal Fine-grained Reasoning for Post Quality Evaluation
- arxiv url: http://arxiv.org/abs/2507.17934v1
- Date: Mon, 21 Jul 2025 04:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.616221
- Title: Multimodal Fine-grained Reasoning for Post Quality Evaluation
- Title(参考訳): ポスト品質評価のためのマルチモーダル微粒推論
- Authors: Xiaoxu Guo, Siyan Liang, Yachao Cui, Juxiang Zhou, Lei Wang, Han Cao,
- Abstract要約: 人間の認知過程を模倣したMFTRR(Multimodal Fine-fine Topic-post Reasoning)フレームワークを提案する。
MFTRRはポストクオリティアセスメントをランキングタスクとして再設定し、マルチモーダルデータを組み込んで品質の変化をよりよく捉えている。
- 参考スコア(独自算出の注目度): 1.806315356676339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately assessing post quality requires complex relational reasoning to capture nuanced topic-post relationships. However, existing studies face three major limitations: (1) treating the task as unimodal categorization, which fails to leverage multimodal cues and fine-grained quality distinctions; (2) introducing noise during deep multimodal fusion, leading to misleading signals; and (3) lacking the ability to capture complex semantic relationships like relevance and comprehensiveness. To address these issues, we propose the Multimodal Fine-grained Topic-post Relational Reasoning (MFTRR) framework, which mimics human cognitive processes. MFTRR reframes post-quality assessment as a ranking task and incorporates multimodal data to better capture quality variations. It consists of two key modules: (1) the Local-Global Semantic Correlation Reasoning Module, which models fine-grained semantic interactions between posts and topics at both local and global levels, enhanced by a maximum information fusion mechanism to suppress noise; and (2) the Multi-Level Evidential Relational Reasoning Module, which explores macro- and micro-level relational cues to strengthen evidence-based reasoning. We evaluate MFTRR on three newly constructed multimodal topic-post datasets and the public Lazada-Home dataset. Experimental results demonstrate that MFTRR significantly outperforms state-of-the-art baselines, achieving up to 9.52% NDCG@3 improvement over the best unimodal method on the Art History dataset.
- Abstract(参考訳): ポストの品質を正確に評価するには、複雑なリレーショナル推論が必要である。
しかし, 従来の研究では, 1) タスクを一元的分類として扱うことで, マルチモーダルなキューの活用に失敗し, きめ細かい品質の区別ができないこと, 2) 深いマルチモーダル融合時にノイズを発生させ, 誤解を招くこと, (3) 関連性や包括性といった複雑な意味的関係を捉える能力が欠如していること, の3つの大きな制限に直面している。
これらの課題に対処するために,人間の認知過程を模倣したMFTRR(Multimodal Fine-fine Topic-post Relational Reasoning)フレームワークを提案する。
MFTRRはポストクオリティアセスメントをランキングタスクとして再設定し、マルチモーダルデータを組み込んで品質の変化をよりよく捉えている。
本モジュールは,(1)ローカル・グローバル・セマンティック・リレーショナル・リレーショナル・リレーショナル・モジュール,(2)マクロ・マイクロレベルのリレーショナル・キューを探索し,エビデンスに基づく推論を強化するマルチレベル・レレーショナル・リレーショナル・リレーショナル・リレーショナル・リレーショナル・モジュール,の2つの重要なモジュールから構成される。
新たに構築された3つのトピックポストデータセットとパブリックなLazada-Homeデータセットに対してMFTRRを評価する。
実験の結果、MFTRRは最先端のベースラインを大幅に上回り、Art Historyデータセットの最高のユニモーダル法よりも9.52% NDCG@3の改善を実現している。
関連論文リスト
- Coherent Multimodal Reasoning with Iterative Self-Evaluation for Vision-Language Models [4.064135211977999]
大規模言語モデル (LLMs) と視覚言語モデル (LVLMs) は複雑で多段階のクロスモーダルな常識推論タスクに苦しむ。
我々は,LVLMの共通感覚推論能力を高める新しいアプローチであるコヒーレント・マルチモーダル推論フレームワーク(CMRF)を提案する。
CMRFは複雑なクエリを分解し、ステップバイステップの推論を生成し、エラーを自己修正することで人間の問題解決を模倣する。
論文 参考訳(メタデータ) (2025-08-04T20:33:58Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - MICINet: Multi-Level Inter-Class Confusing Information Removal for Reliable Multimodal Classification [57.08108545219043]
また,Multi-Level Inter-Class Confusing Information removal Network (MICINet) と呼ばれるマルチモーダル分類手法を提案する。
MICINetは、これらのノイズをクラス間統合情報(textitICI)の概念に統合し、グローバルレベルと個人レベルのノイズを除去することで、信頼性の高いノイズ除去を実現している。
4つのデータセットの実験により、MICINetは様々なノイズ条件下で、他の最先端の信頼性の高いマルチモーダル分類方法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-27T01:33:28Z) - FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop Reasoning [5.65203350495478]
MLLMの推論能力を評価するためのベンチマークであるFCMR(Financial Cross-Modal Multi-Hop Reasoning)を提案する。
FCMRは3つの難易度(易度、中度、硬度)に分類される。
この新しいベンチマークの実験では、最先端のMLLMでさえ苦戦しており、最高の性能のモデルは最も難しいレベルでは30.4%の精度しか達成していない。
論文 参考訳(メタデータ) (2024-12-17T05:50:55Z) - Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文 参考訳(メタデータ) (2023-12-26T01:59:23Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。