論文の概要: Generative Universal Verifier as Multimodal Meta-Reasoner
- arxiv url: http://arxiv.org/abs/2510.13804v1
- Date: Wed, 15 Oct 2025 17:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.805742
- Title: Generative Universal Verifier as Multimodal Meta-Reasoner
- Title(参考訳): マルチモーダルメタ共振器としての生成ユニバーサル検証器
- Authors: Xinchen Zhang, Xiaoying Zhang, Youbin Wu, Yanbin Cao, Renrui Zhang, Ruihang Chu, Ling Yang, Yujiu Yang,
- Abstract要約: Generative Universal Verifierは、視覚言語モデルと統合マルチモーダルモデルにおける次世代マルチモーダル推論のために設計された新しい概念とプラグインである。
ViVerBenchは、マルチモーダル推論における視覚的結果を評価するために、16のカテゴリにまたがる重要なタスクのベンチマークである。
OmniVerifier-7Bは、ユニバーサルビジュアル検証のために訓練された最初のオムニ対応生成検証器である。
- 参考スコア(独自算出の注目度): 71.34250480838473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Generative Universal Verifier, a novel concept and plugin designed for next-generation multimodal reasoning in vision-language models and unified multimodal models, providing the fundamental capability of reflection and refinement on visual outcomes during the reasoning and generation process. This work makes three main contributions: (1) We build ViVerBench, a comprehensive benchmark spanning 16 categories of critical tasks for evaluating visual outcomes in multimodal reasoning. Results show that existing VLMs consistently underperform across these tasks, underscoring a substantial gap from human-level capability in reliable visual verification. (2) We design two automated pipelines to construct large-scale visual verification data and train OmniVerifier-7B, the first omni-capable generative verifier trained for universal visual verification and achieves notable gains on ViVerBench(+8.3). Through training, we identify three atomic capabilities in visual verification and demonstrate how they generalize and interact synergistically. (3) We propose OmniVerifier-TTS, a sequential test-time scaling paradigm that leverages the universal verifier to bridge image generation and editing within unified models, enhancing the upper bound of generative ability through iterative fine-grained optimization. Beyond generation, we extend universal verifier to broader world-modeling interleaved reasoning scenarios. Empirically, OmniVerifier-TTS achieves improvements on T2I-ReasonBench(+3.7), and GenEval++(+4.3), outperforming existing parallel test-time scaling methods, such as Best-of-N. By endowing multimodal reasoning with reliable visual verification, OmniVerifier advances both reliable reflection during generation and scalable test-time refinement, marking a step toward more trustworthy and controllable next-generation reasoning systems.
- Abstract(参考訳): 本稿では,視覚言語モデルと統合マルチモーダルモデルにおける次世代マルチモーダル推論のための新しい概念とプラグインであるGenerative Universal Verifierを紹介する。
1) マルチモーダル推論における視覚的結果を評価するために、16のクリティカルタスクのカテゴリにまたがる包括的なベンチマークであるViVerBenchを構築します。
その結果、既存のVLMはこれらのタスクで一貫して性能が劣り、信頼性の高い視覚的検証における人間レベルの能力とはかなりの差があることが判明した。
2) 大規模な視覚的検証データを構築するための2つの自動パイプラインを設計し,ViVerBench(+8.3) 上で有意な利得を達成した最初のオムニ対応生成検証器である OmniVerifier-7B を訓練する。
トレーニングを通じて、視覚的検証における3つのアトミックな能力を特定し、それらがどのように一般化し、シナジスティックに相互作用するかを実証する。
(3)OmniVerifier-TTSは,統一モデル内の画像生成と編集にユニバーサル検証を利用する連続的なテスト時間スケーリングパラダイムであり,反復的な微粒化最適化により生成能力の上限を向上する。
世代を超えて、普遍検証はより広範な世界モデル間推論シナリオに拡張する。
経験的に、OmniVerifier-TTSはT2I-ReasonBench(+3.7)とGenEval++(+4.3)の改善を実現している。
信頼性のある視覚的検証を伴うマルチモーダル推論を提供することで、OmniVerifierは、生成時の信頼性のあるリフレクションとスケーラブルなテストタイムリフレクションの両方を前進させ、より信頼性が高く制御可能な次世代推論システムへの一歩を踏み出した。
関連論文リスト
- GIR-Bench: Versatile Benchmark for Generating Images with Reasoning [40.09327641816171]
統一マルチモーダルモデルは、画像理解と生成の両方で大きな言語モデルの推論能力を統合する。
textbfGIR-Benchは3つの相補的な視点で統一されたモデルを評価する包括的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-13T05:50:44Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Simple o3: Towards Interleaved Vision-Language Reasoning [38.46230601239066]
我々は、動的ツールインタラクションをインターリーブされた視覚言語推論に統合する、エンドツーエンドのフレームワークであるSimple o3を提案する。
提案手法は,高品質な視覚言語推論チェーンを生成するスケーラブルなデータ合成パイプラインを特徴とする。
実験の結果、Simple o3は様々なベンチマークで優れたパフォーマンスを示し、既存のアプローチよりも優れています。
論文 参考訳(メタデータ) (2025-08-16T17:15:39Z) - SUDER: Self-Improving Unified Large Multimodal Models for Understanding and Generation with Dual Self-Rewards [55.99492656542475]
textbfSDER (textbfSelf-improving textbfUnified LMMs with textbfDual stextbfElf-textbfRewards) を提案する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z) - All-in-One: Transferring Vision Foundation Models into Stereo Matching [13.781452399651887]
AIO-Stereoは、複数の異種VFMからの知識を柔軟に選択し、単一のステレオマッチングモデルに転送することができる。
AIO-Stereoは、複数のデータセットで最先端のパフォーマンスを達成し、ミドルベリーデータセットで1st$をランク付けしている。
論文 参考訳(メタデータ) (2024-12-13T06:59:17Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。