論文の概要: PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection
- arxiv url: http://arxiv.org/abs/2511.12130v1
- Date: Sat, 15 Nov 2025 09:35:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.626112
- Title: PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection
- Title(参考訳): PRISM of Opinions: ユーザ中心の会話スタンス検出のためのペルソナ対応マルチモーダルフレームワーク
- Authors: Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng Xu,
- Abstract要約: マルチモーダル・コンバーショナル・スタンス検出(MCSD)は,複雑な議論の中で特定のターゲットに対するユーザの態度を解釈することを目的としている。
最初のユーザ中心のMCSDデータセットである**U-MStance**を導入し、6つの現実世界のターゲットに対して40万以上の注釈付きコメントを含む。
PRISM, a **P*ersona-*R*easoned mult*I**modal **S**tance **M**odel for MCSD。
- 参考スコア(独自算出の注目度): 27.63546120178429
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid proliferation of multimodal social media content has driven research in Multimodal Conversational Stance Detection (MCSD), which aims to interpret users' attitudes toward specific targets within complex discussions. However, existing studies remain limited by: **1) pseudo-multimodality**, where visual cues appear only in source posts while comments are treated as text-only, misaligning with real-world multimodal interactions; and **2) user homogeneity**, where diverse users are treated uniformly, neglecting personal traits that shape stance expression. To address these issues, we introduce **U-MStance**, the first user-centric MCSD dataset, containing over 40k annotated comments across six real-world targets. We further propose **PRISM**, a **P**ersona-**R**easoned mult**I**modal **S**tance **M**odel for MCSD. PRISM first derives longitudinal user personas from historical posts and comments to capture individual traits, then aligns textual and visual cues within conversational context via Chain-of-Thought to bridge semantic and pragmatic gaps across modalities. Finally, a mutual task reinforcement mechanism is employed to jointly optimize stance detection and stance-aware response generation for bidirectional knowledge transfer. Experiments on U-MStance demonstrate that PRISM yields significant gains over strong baselines, underscoring the effectiveness of user-centric and context-grounded multimodal reasoning for realistic stance understanding.
- Abstract(参考訳): ソーシャルメディアコンテンツの急速な普及は、複雑な議論の中で特定のターゲットに対するユーザの態度を解釈することを目的としたマルチモーダル会話スタンス検出(MCSD)の研究を推進している。
しかし、既存の研究では、**1) 擬似マルチモーダル** は、コメントがテキストのみとして扱われる一方で、コメントは、実世界のマルチモーダルの相互作用と不一致で扱われる。
これらの問題に対処するために、最初のユーザ中心のMCSDデータセットである**U-MStance**を紹介します。
さらに、MCSDに対して**PRISM**, a*P**ersona-*R**easoned mult*I**modal **S**tance **M**odelを提案する。
PRISMはまず、歴史的投稿やコメントから長手なユーザペルソナを導き、個々の特徴をキャプチャし、次にChain-of-Thoughtを介して会話コンテキスト内のテキストと視覚の手がかりを調整し、モダリティのセマンティクスと実用的ギャップを橋渡しする。
最後に、双方向知識伝達のための姿勢検出と姿勢認識応答生成を協調的に最適化するために、相互タスク強化機構を用いる。
U-MStanceの実験は、PRISMが強いベースラインよりも大きな利益をもたらすことを示した。
関連論文リスト
- Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation [60.63465682731118]
エゴセントリックなAIエージェントのパフォーマンスは、基本的にマルチモーダルな意図のあいまいさによって制限される。
ゼロショットでモジュラーなフレームワークであるPlug-and-Play Clarifierを導入し、問題を個別に解決可能なサブタスクに分解する。
我々のフレームワークは,小言語モデルの意図的明確化性能を約30%向上させ,より大きな言語モデルとの競争力を高める。
論文 参考訳(メタデータ) (2025-11-12T04:28:14Z) - ReMoD: Rethinking Modality Contribution in Multimodal Stance Detection via Dual Reasoning [29.400983680521733]
マルチモーダルスタンス検出(MSD)はソーシャルメディア上での世論を理解する上で重要な課題である。
既存の作業は、様々なモダリティからの情報を融合してスタント表現を学習し、異なるモダリティからのスタント表現の様々なコントリビューションを見下ろしている。
ReMoD*は**Re**が**Mo**の姿勢表現への貢献を**D**al-reasoningパラダイムを通して考えるためのフレームワークである。
論文 参考訳(メタデータ) (2025-11-08T15:56:24Z) - VOGUE: A Multimodal Dataset for Conversational Recommendation in Fashion [18.017186369021154]
VOGUEは、現実的なファッションショッピングシナリオにおける60人の人間対話の新たなデータセットである。
各対話は、共有されたビジュアルカタログ、アイテムメタデータ、ユーザーファッションプロファイルと履歴、およびSeekersとAssistantsの会話後の評価と組み合わせられる。
VOGUEの初期解析では,視覚的に接地された対話の特異なダイナミクスが明らかとなった。
論文 参考訳(メタデータ) (2025-10-24T04:45:29Z) - RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing [133.0641538589466]
RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。
本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。
RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。
論文 参考訳(メタデータ) (2025-07-27T16:49:47Z) - Grounding Task Assistance with Multimodal Cues from a Single Demonstration [17.975173937253494]
MICA(Multimodal Interactive Contextualized Assistance)は、視線と音声の手がかりを統合することで、タスク支援のための会話エージェントを改善するフレームワークである。
リアルタイムチャット支援タスク複製から得られる質問に対する評価は,複数モーダルキューがフレームベース検索よりも応答品質を著しく向上することを示している。
論文 参考訳(メタデータ) (2025-05-02T20:43:11Z) - Training-Free Personalization via Retrieval and Reasoning on Fingerprints [37.54948724318688]
視覚言語モデル(VLM)はマルチモーダル推論に大きな改善をもたらしたが、ユーザ固有の概念を理解するのに苦戦している。
本稿では, VLMの内部知識を活用して, パーソナライズのための検索と推論(R2P)を提案する。
R2Pは、様々な下流タスクにおける最先端のアプローチを一貫して上回る。
論文 参考訳(メタデータ) (2025-03-24T12:36:24Z) - PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - MPCHAT: Towards Multimodal Persona-Grounded Conversation [54.800425322314105]
我々はペルソナに基づく対話をマルチモーダル領域に拡張し、2つの主要な貢献をする。
まず,MPCHATという対話データセットを提案する。
第2に,マルチモーダル・ペルソナを組み込んだ多モーダル・ペルソナの対話タスクが,統計的に有意な性能向上をもたらすことを実証的に示す。
論文 参考訳(メタデータ) (2023-05-27T06:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。