論文の概要: DixitWorld: Evaluating Multimodal Abductive Reasoning in Vision-Language Models with Multi-Agent Dixit Gameplay
- arxiv url: http://arxiv.org/abs/2510.10117v1
- Date: Sat, 11 Oct 2025 08:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.793041
- Title: DixitWorld: Evaluating Multimodal Abductive Reasoning in Vision-Language Models with Multi-Agent Dixit Gameplay
- Title(参考訳): ディクシットワールド:マルチエージェントディクシストゲームプレイを用いた視覚言語モデルにおけるマルチモーダル・アブダクティヴ推論の評価
- Authors: Yunxiang Mo, Tianshi Zheng, Qing Zong, Jiayu Liu, Baixuan Xu, Yauwai Yim, Chunkit Chan, Jiaxin Bai, Yangqiu Song,
- Abstract要約: マルチモーダルな帰納的推論を分解するための総合評価スイートであるDixitWorldを紹介した。
DIXITWORLDは,仮説生成と仮説選択を評価する動的マルチエージェント環境であるDixitArenaという,2つのコアコンポーネントを備えている。
DixitArenaの結果は、異なる、役割に依存した行動を明らかにしている。
- 参考スコア(独自算出の注目度): 50.31585196187091
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal abductive reasoning--the generation and selection of explanatory hypotheses from partial observations--is a cornerstone of intelligence. Current evaluations of this ability in vision-language models (VLMs) are largely confined to static, single-agent tasks. Inspired by Dixit, we introduce DixitWorld, a comprehensive evaluation suite designed to deconstruct this challenge. DIXITWORLD features two core components: DixitArena, a dynamic, multi-agent environment that evaluates both hypothesis generation (a "storyteller" crafting cryptic clues) and hypothesis selection ("listeners" choosing the target image from decoys) under imperfect information; and DixitBench, a static QA benchmark that isolates the listener's task for efficient, controlled evaluation. Results from DixitArena reveal distinct, role-dependent behaviors: smaller open-source models often excel as creative storytellers, producing imaginative yet less discriminative clues, whereas larger proprietary models demonstrate superior overall performance, particularly as listeners. Performance on DixitBench strongly correlates with listener results in DixitArena, validating it as a reliable proxy for hypothesis selection. Our findings reveal a key trade-off between generative creativity and discriminative understanding in multimodal abductive reasoning, a central challenge for developing more balanced and capable vision-language agents.
- Abstract(参考訳): 多モード帰納的推論-部分的な観察から説明的仮説の生成と選択-は知性の基礎である。
視覚言語モデル(VLM)におけるこの能力の現在の評価は、静的な単一エージェントタスクに限られている。
DixitにインスパイアされたDxitWorldは、この課題を分解するために設計された総合的な評価スイートである。
DIXITWORLDは2つのコアコンポーネントを備えている: DixitArenaは動的でマルチエージェント環境で、不完全な情報の下で仮説生成("ストーリーステラー"工法)と仮説選択(デコイからターゲット画像を選択するリスナー")の両方を評価し、また、リスナーのタスクを効率よく制御された評価のために分離する静的QAベンチマークであるDixitBenchである。
より小さなオープンソースモデルは、創造的なストーリーテラーとして優れ、想像力に乏しいが差別的な手がかりを生み出す一方、より大きなプロプライエタリモデルは、特にリスナーとして、より優れた全体的なパフォーマンスを示す。
DixitBenchのパフォーマンスは、DixitArenaのリスナ結果と強く相関しており、仮説選択の信頼できるプロキシとして検証されている。
本研究は,多モード帰納的推論における創造的創造性と差別的理解のトレードオフを明らかにし,よりバランスよく有能な視覚言語エージェントを開発する上での課題である。
関連論文リスト
- Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness [43.25173443756643]
本稿では,複数のモデルから抽出した特徴量集約を用いて,ロバスト性の役割について検討する。
予備的な結果は、複数のモデルの予測能力を活用しながら、アプリケーションの信頼性を高める可能性を示している。
論文 参考訳(メタデータ) (2025-10-13T08:55:45Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - KnowDR-REC: A Benchmark for Referring Expression Comprehension with Real-World Knowledge [1.5833270109954136]
本研究では,実世界の知識に基づいて構築されたKnowDR-RECを提案する。
我々は、KnowDR-REC上で16の最先端マルチモーダルモデルを評価し、既存のMLLMが知識駆動型視覚接地作業に苦戦していることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-08-12T19:43:44Z) - Probing Multimodal Fusion in the Brain: The Dominance of Audiovisual Streams in Naturalistic Encoding [1.2233362977312945]
我々は,最先端視覚 (X-CLIP) と聴覚 (Whisper) 特徴抽出器を用いた脳符号化モデルを開発した。
分布内(ID)データと分布外(OOD)データの両方を厳格に評価する。
論文 参考訳(メタデータ) (2025-07-25T08:12:26Z) - MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation [64.85885900375483]
MEXAは、エキスパートモデルのモダリティおよびタスク対応アグリゲーションを実行する、トレーニング不要のフレームワークである。
我々は,ビデオ推論,オーディオ推論,3D理解,医用QAなど,多様なマルチモーダルベンチマークに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-06-20T16:14:13Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。