論文の概要: MISID: A Multimodal Multi-turn Dataset for Complex Intent Recognition in Strategic Deception Games
- arxiv url: http://arxiv.org/abs/2604.12700v1
- Date: Tue, 14 Apr 2026 13:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.453768
- Title: MISID: A Multimodal Multi-turn Dataset for Complex Intent Recognition in Strategic Deception Games
- Title(参考訳): MISID:戦略的偽装ゲームにおける複雑なインテント認識のためのマルチモーダルマルチターンデータセット
- Authors: Shufang Lin, Muyang Chen, Xiabing Zhou, Rongrong Zhang, Dayou Zhang, Fangxin Wang,
- Abstract要約: マルチターンインタラクションにおける意図認識のための総合ベンチマークMISIDを紹介する。
ハイテイクなソーシャルストラテジーゲームから派生したMISIDは、長文の談話分析とエビデンスに基づく因果追跡に適した、きめ細かい2次元の多次元アノテーションスキームを特徴としている。
MISIDにおける最先端マルチモーダル言語モデル (MLLM) の体系的評価により, テキスト優先視覚幻覚, クロスモーダルシナジーの障害, 連鎖型因果的手がかりの制限など, 複雑なシナリオにおける重要な欠陥が明らかとなった。
- 参考スコア(独自算出の注目度): 7.184720967960135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding human intent in complex multi-turn interactions remains a fundamental challenge in human-computer interaction and behavioral analysis. While existing intent recognition datasets focus mainly on single utterances or simple dialogues, real-world scenarios often involve sophisticated strategic interactions where participants must maintain complex deceptive narratives over extended periods. To address this gap, we introduce MISID, a comprehensive multimodal, multi-turn, and multi-participant benchmark for intent recognition. Sourced from high-stakes social strategy games, MISID features a fine-grained, two-tier multi-dimensional annotation scheme tailored for long-context discourse analysis and evidence-based causal tracking. Our systematic evaluation of state-of-the-art Multimodal Large Language Models (MLLMs) on MISID reveals critical deficiencies in complex scenarios, including text-prior visual hallucination, impaired cross-modal synergy, and limited capacity in chaining causal cues. Consequently, we propose FRACTAM as a baseline framework. Using a ``Decouple-Anchor-Reason'' paradigm, FRACTAM reduces text bias by extracting pure unimodal factual representations, employs two-stage retrieval for long-range factual anchoring, and constructs explicit cross-modal evidence chains. Extensive experiments demonstrate that FRACTAM enhances mainstream models' performance in complex strategic tasks, improving hidden intent detection and inference while maintaining robust perceptual accuracy. Our dataset is available at https://naislab.cn/datasets/MISID.
- Abstract(参考訳): 複雑なマルチターン相互作用における人間の意図を理解することは、人間とコンピュータの相互作用と行動分析における根本的な課題である。
既存の意図認識データセットは、主に単一発話や単純な対話に焦点を当てるが、現実のシナリオは、参加者が長い期間にわたって複雑な認知的物語を維持する必要があるような高度な戦略的相互作用を伴うことが多い。
このギャップに対処するために、インテント認識のための総合的マルチモーダル、マルチターン、マルチ参加型ベンチマークMISIDを導入する。
ハイテイクなソーシャルストラテジーゲームから派生したMISIDは、長文の談話分析とエビデンスに基づく因果追跡に適した、きめ細かい2次元の多次元アノテーションスキームを特徴としている。
MISIDにおける最先端マルチモーダル言語モデル (MLLM) の体系的評価により, テキスト優先視覚幻覚, クロスモーダルシナジーの障害, 連鎖型因果的手がかりの制限など, 複雑なシナリオにおける重要な欠陥が明らかとなった。
そこで本研究では,FRACTAMをベースラインフレームワークとして提案する。
Decouple-Anchor-Reason' のパラダイムを用いて、FRACTAM は純粋に一助的な事実表現を抽出することでテキストバイアスを減らし、長距離の事実アンカーに2段階の検索を採用し、明示的なクロスモーダルなエビデンスチェーンを構築している。
広範囲にわたる実験により、FRACTAMは複雑な戦略的タスクにおける主流モデルの性能を高め、頑健な知覚精度を維持しながら隠れ意図の検出と推論を改善した。
私たちのデータセットはhttps://naislab.cn/datasets/MISIDで利用可能です。
関連論文リスト
- Modality-Agnostic Prompt Learning for Multi-Modal Camouflaged Object Detection [61.36976558603528]
本稿では,Segment Anything Model(SAM)のためのモダリティに依存しないマルチモーダルプロンプトを生成する新しいフレームワークを提案する。
具体的には,データ駆動型コンテンツドメインと知識駆動型プロンプトドメインとのインタラクションを通じて,マルチモーダル学習をモデル化する。
さらに,微粒なプロンプトキューを組み込むことで,粗い予測をキャリブレーションする軽量マスクリファインモジュールを導入する。
論文 参考訳(メタデータ) (2026-04-14T07:13:28Z) - Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models [43.767942065379366]
サイコファシー(英: Sycophancy)は、AIモデルが実際の正確さや視覚的証拠の矛盾を犠牲にしてユーザー入力に同意する傾向である。
約2000組の視覚質問応答対からなる総合評価ベンチマーク「textitPENDULUM」を導入する。
本研究は, モデルロバスト性およびサイコファンおよび幻覚行動に対する感受性の顕著な変動を観察する。
論文 参考訳(メタデータ) (2025-12-22T12:49:12Z) - Revealing Multimodal Causality with Large Language Models [80.95511545591107]
非構造化データからマルチモーダル因果発見のための新しいフレームワークであるMLLM-CDを提案する。
本研究は,(1)真のマルチモーダル因子を同定する新しいコントラッシブ・ファクター発見モジュール,(2)発見要因間の因果関係を推測する統計的因果構造発見モジュール,(3)発見結果を洗練するための反復的マルチモーダル・カウンターファクト・推論モジュールの3つの重要な構成要素から構成される。
合成と実世界の両方のデータセットに対する大規模な実験は、提案したMLLM-CDの有効性を実証している。
論文 参考訳(メタデータ) (2025-09-22T13:45:17Z) - Beyond Spurious Signals: Debiasing Multimodal Large Language Models via Counterfactual Inference and Adaptive Expert Routing [10.66971486730557]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合する能力を示すが、しばしば素早い相関に頼っている。
本稿では,MLLMの表層相関バイアスに対する批判的課題を,新たな因果媒介に基づく脱バイアスフレームワークを通じて解決する。
論文 参考訳(メタデータ) (2025-09-18T19:01:11Z) - KnowDR-REC: A Benchmark for Referring Expression Comprehension with Real-World Knowledge [1.5833270109954136]
本研究では,実世界の知識に基づいて構築されたKnowDR-RECを提案する。
我々は、KnowDR-REC上で16の最先端マルチモーダルモデルを評価し、既存のMLLMが知識駆動型視覚接地作業に苦戦していることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-08-12T19:43:44Z) - METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark [48.78602579128459]
本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。
我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
論文 参考訳(メタデータ) (2025-07-22T03:42:51Z) - MT2-CSD: A New Dataset and Multi-Semantic Knowledge Fusion Method for Conversational Stance Detection [5.892386683874131]
MT2-CSDは,多目的・多ターン会話姿勢検出のための包括的データセットである。
これらの課題に対処するため,Large Language Model enhanced Conversational Attention Network (LLM-CRAN)を提案する。
論文 参考訳(メタデータ) (2025-06-26T06:59:30Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。