論文の概要: OmniVerifier-M1: Multimodal Meta-Verifier with Explicit Structured Recalibration
- arxiv url: http://arxiv.org/abs/2605.28805v1
- Date: Wed, 27 May 2026 17:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.261913
- Title: OmniVerifier-M1: Multimodal Meta-Verifier with Explicit Structured Recalibration
- Title(参考訳): OmniVerifier-M1: 明示的構造化校正によるマルチモーダルメタ検証
- Authors: Xinchen Zhang, Bowei Liu, Jiale Liu, Chufan Shi, Yizhen Zhang, Junhong Liu, Youliang Zhang, Zhiheng Li, Yujiu Yang, Ling Yang,
- Abstract要約: 決定のみの信号よりも検証器生成の合理性を利用するマルチモーダルなメタ検証について検討する。
我々は,記号的メタ検証とデカップリングされた強化学習を利用した一般の視覚的検証であるOmniVerifier-M1を訓練する。
このアプローチは、より信頼性が高く、解釈可能で、きめ細かいマルチモーダル検証の道を開き、より安全で、より制御可能な基盤モデルのデプロイメントをサポートする。
- 参考スコア(独自算出の注目度): 48.11927189422178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual outcomes are increasingly central to multimodal large language models, making reliable and fine-grained verification essential for scaling generalist foundation models. In this work, we investigate multimodal meta-verification, which leverages verifier-generated rationales rather than decision-only signals, and explore how to effectively incorporate meta-verification feedback into multimodal verifier training. We identify two key findings. First, symbolic verifier outputs (e.g., bounding boxes) outperform textual explanations as meta-verification rationales, enabling efficient rule-based reinforcement learning rewards while avoiding reliance on model-based rewards from auxiliary judge models. Second, decoupling reinforcement learning objectives for binary judgment and meta-verification substantially outperforms joint reward optimization, due to intrinsic differences in output structure and learning dynamics. Based on these insights, we train OmniVerifier-M1, a generalist visual verifier leveraging symbolic meta-verification and decoupled reinforcement learning. OmniVerifier-M1 provides robust verification and fine-grained error localization, and further enables M1-TTS, a verifier-driven agentic generation system achieving dynamic region-level self-correction. This approach paves the way for more reliable, interpretable, and fine-grained multimodal verification, supporting safer and more controllable foundation model deployment.
- Abstract(参考訳): 視覚的な成果は、多モーダルな大規模言語モデルにおいてますます中心となってきており、ジェネラリスト基礎モデルのスケーリングに不可欠な信頼性ときめ細かい検証を実現している。
本研究では,決定のみの信号よりも検証結果の有理性を活用するマルチモーダルなメタ検証について検討し,メタ検証フィードバックを効果的にマルチモーダルな検証学習に組み込む方法について検討する。
主な発見は2つある。
まず、記号検証器は、メタ検証論理としてテキスト説明を上回り、補助判断モデルからのモデルベース報酬への依存を回避しつつ、効率的なルールベースの強化学習報酬を可能にする。
第2に、二分判定とメタ検証のための強化学習目標の分離は、出力構造と学習力学の本質的な違いにより、共同報酬最適化を著しく上回る。
これらの知見に基づいて,記号的メタ検証とデカップリング強化学習を活用した汎用的視覚的検証器であるOmniVerifier-M1を訓練する。
OmniVerifier-M1は、堅牢な検証ときめ細かいエラーローカライゼーションを提供し、さらに、動的領域レベルの自己補正を実現する検証器駆動のエージェント生成システムであるM1-TTSを可能にする。
このアプローチは、より信頼性が高く、解釈可能で、きめ細かいマルチモーダル検証の道を開き、より安全で、より制御可能な基盤モデルのデプロイメントをサポートする。
関連論文リスト
- Reasoning-Aware AIGC Detection via Alignment and Reinforcement [55.09684020007737]
REVEALは、分類の前に解釈可能な推論チェーンを生成するフレームワークである。
複数のベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-04-21T07:29:55Z) - Endogenous Reprompting: Self-Evolving Cognitive Alignment for Unified Multimodal Models [23.128973540926552]
内因性再増殖は、モデルの理解を明確な生成的推論ステップに変換する。
評価精度,再現効率,生成品質において,SEERは一貫して最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-01-28T06:54:36Z) - Generative Universal Verifier as Multimodal Meta-Reasoner [71.34250480838473]
Generative Universal Verifierは、視覚言語モデルと統合マルチモーダルモデルにおける次世代マルチモーダル推論のために設計された新しい概念とプラグインである。
ViVerBenchは、マルチモーダル推論における視覚的結果を評価するために、16のカテゴリにまたがる重要なタスクのベンチマークである。
OmniVerifier-7Bは、ユニバーサルビジュアル検証のために訓練された最初のオムニ対応生成検証器である。
論文 参考訳(メタデータ) (2025-10-15T17:59:24Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Mutual Information Regularization for Weakly-supervised RGB-D Salient
Object Detection [33.210575826086654]
弱教師付きRGB-Dサルエント物体検出モデルを提案する。
モーダル相互情報正規化による効果的なマルチモーダル表現学習に着目した。
論文 参考訳(メタデータ) (2023-06-06T12:36:57Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。