論文の概要: UReason: Benchmarking the Reasoning Paradox in Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2602.08336v1
- Date: Mon, 09 Feb 2026 07:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.100164
- Title: UReason: Benchmarking the Reasoning Paradox in Unified Multimodal Models
- Title(参考訳): UReason: 統一マルチモーダルモデルにおける推論パラドックスのベンチマーク
- Authors: Cheng Yang, Chufan Shi, Bo Shui, Yaokang Wu, Muzi Tao, Huijuan Wang, Ivan Yee Lee, Yong Liu, Xuezhe Ma, Taylor Berg-Kirkpatrick,
- Abstract要約: 推論駆動画像生成のための診断ベンチマークであるUReasonを提案する。
我々は、一貫した推論パラドックス(Reasoning Paradox: Reasoning traces)を観察する。
我々の分析は、ボトルネックは推論能力の不足よりも、文脈干渉にあることを示唆している。
- 参考スコア(独自算出の注目度): 44.0727449598399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To elicit capabilities for addressing complex and implicit visual requirements, recent unified multimodal models increasingly adopt chain-of-thought reasoning to guide image generation. However, the actual effect of reasoning on visual synthesis remains unclear. We present UReason, a diagnostic benchmark for reasoning-driven image generation that evaluates whether reasoning can be faithfully executed in pixels. UReason contains 2,000 instances across five task families: Code, Arithmetic, Spatial, Attribute, and Text reasoning. To isolate the role of reasoning traces, we introduce an evaluation framework comparing direct generation, reasoning-guided generation, and de-contextualized generation which conditions only on the refined prompt. Across eight open-source unified models, we observe a consistent Reasoning Paradox: Reasoning traces generally improve performance over direct generation, yet retaining intermediate thoughts as conditioning context often hinders visual synthesis, and conditioning only on the refined prompt yields substantial gains. Our analysis suggests that the bottleneck lies in contextual interference rather than insufficient reasoning capacity. UReason provides a principled testbed for studying reasoning in unified models and motivates future methods that effectively integrate reasoning for visual generation while mitigating interference.
- Abstract(参考訳): 複雑で暗黙的な視覚的要求に対処する能力を引き出すために、最近の統合マルチモーダルモデルは、画像生成を導くためにチェーン・オブ・ソート・推論を採用するようになっている。
しかし、実際の推論が視覚合成に与える影響は明らかでない。
UReasonは、推論駆動画像生成のための診断ベンチマークであり、画素内で推論が忠実に実行されるかどうかを評価する。
UReasonには、コード、算術、空間、属性、テキスト推論の5つのタスクファミリーに2000のインスタンスが含まれている。
推論トレースの役割を分離するために,改良されたプロンプトにのみ条件を付与する直接生成,推論誘導生成,非コンテキスト化生成を比較した評価フレームワークを提案する。
8つのオープンソース統一モデル全体にわたって、一貫した推論パラドックスを観察する: 推論トレースは一般的に直接生成よりも性能を向上するが、条件付けコンテキストが視覚合成を妨げ、洗練されたプロンプトのみを条件付けすることで、実質的な利得が得られる。
我々の分析は、ボトルネックは推論能力の不足よりも、文脈干渉にあることを示唆している。
UReasonは、統一モデルにおける推論を研究し、干渉を緩和しながら視覚生成のための推論を効果的に統合する将来の手法を動機づける、原則化されたテストベッドを提供する。
関連論文リスト
- ReasonAny: Incorporating Reasoning Capability to Any Model via Simple and Effective Model Merging [46.06799235021118]
本稿では,コントラシブ・グラディエント同定による推論領域の性能崩壊を解消する新たな統合フレームワークを提案する。
安全、バイオメディシン、ファイナンス領域での実験では、ReasonAnyは効果的に"Reasoning + X"機能を合成している。
論文 参考訳(メタデータ) (2026-01-09T06:19:00Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation [79.17352367219736]
ROVERは1つのモダリティを使用して、もう1つの出力を誘導、検証、精査する。
ROVERは、相互モーダルな推論を明示的にターゲットとする、人間による注釈付きベンチマークである。
論文 参考訳(メタデータ) (2025-11-03T02:27:46Z) - Unifying Deductive and Abductive Reasoning in Knowledge Graphs with Masked Diffusion Model [64.31242163019242]
帰納的推論と帰納的推論は知識グラフを解析するための重要なパラダイムである。
DARKと呼ばれる知識グラフにおける帰納的・帰納的推論のための統一的なフレームワークを提案する。
DARKは, 帰納的推論タスクと帰納的推論タスクの両方において, 最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-13T14:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。