論文の概要: VERITAS: Leveraging Vision Priors and Expert Fusion to Improve Multimodal Data
- arxiv url: http://arxiv.org/abs/2510.15317v1
- Date: Fri, 17 Oct 2025 05:13:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.480184
- Title: VERITAS: Leveraging Vision Priors and Expert Fusion to Improve Multimodal Data
- Title(参考訳): VERITAS: ビジョン優先とエキスパートフュージョンの活用によるマルチモーダルデータの改善
- Authors: Tingqiao Xu, Ziru Zeng, Jiayu Chen,
- Abstract要約: VERITASは、SFTデータ品質を向上させるために、ビジョン先行と複数の最先端LMMを統合するパイプラインである。
3つのLMMが元の答えを評価し、信頼性の高いスコアに統計的に融合した批判的合理性とスコアを提供する。
我々の批評家モデルは、最先端のLMMに匹敵する拡張能力を示しながら、より効率的である。
- 参考スコア(独自算出の注目度): 3.638465758795032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quality of supervised fine-tuning (SFT) data is crucial for the performance of large multimodal models (LMMs), yet current data enhancement methods often suffer from factual errors and hallucinations due to inadequate visual perception. To address this challenge, we propose VERITAS, a pipeline that systematically integrates vision priors and multiple state-of-the-art LMMs with statistical methods to enhance SFT data quality. VERITAS leverages visual recognition models (RAM++) and OCR systems (PP-OCRv4) to extract structured vision priors, which are combined with images, questions, and answers. Three LMMs (GPT-4o, Gemini-2.5-Pro, Doubao-1.5-pro) evaluate the original answers, providing critique rationales and scores that are statistically fused into a high-confidence consensus score serving as ground truth. Using this consensus, we train a lightweight critic model via Group Relative Policy Optimization (GRPO), enhancing reasoning capabilities efficiently. Each LMM then refines the original answers based on the critiques, generating new candidate answers; we select the highest-scoring one as the final refined answer. Experiments across six multimodal benchmarks demonstrate that models fine-tuned with data processed by VERITAS consistently outperform those using raw data, particularly in text-rich and fine-grained reasoning tasks. Our critic model exhibits enhanced capability comparable to state-of-the-art LMMs while being significantly more efficient. We release our pipeline, datasets, and model checkpoints to advance research in multimodal data optimization.
- Abstract(参考訳): 教師付き微調整(SFT)データの品質は、大規模マルチモーダルモデル(LMM)の性能に欠かせないが、現在のデータ拡張手法では、視覚的認識が不十分なために、事実エラーや幻覚に悩まされることが多い。
この課題に対処するため、我々は、SFTデータ品質を向上させる統計的手法を用いて、ビジョン先行と複数の最先端LMMを体系的に統合するパイプラインであるVERITASを提案する。
VERITASは、視覚認識モデル(RAM++)とOCRシステム(PP-OCRv4)を活用して、画像、質問、回答と組み合わせた構造化された視覚先行情報を抽出する。
3つのLMM(GPT-4o, Gemini-2.5-Pro, Doubao-1.5-pro)は元の答えを評価し、統計的に信頼性の高いスコアに融合した批判的根拠とスコアを提供する。
このコンセンサスを用いて、グループ相対政策最適化(GRPO)を介して軽量な批評家モデルを訓練し、推論能力を効率的に向上する。
それぞれのLMMは、批判に基づいて元の回答を洗練し、新しい候補の回答を生成する。
6つのマルチモーダルベンチマークの実験では、VERITASによって処理されたデータで微調整されたモデルは、特にテキスト豊かできめ細かな推論タスクにおいて、生データを使用したモデルよりも一貫して優れていることが示されている。
我々の批評家モデルは、最先端のLMMに匹敵する拡張能力を示しながら、より効率的である。
パイプライン、データセット、モデルチェックポイントをリリースし、マルチモーダルデータ最適化の研究を進めています。
関連論文リスト
- On Evaluating the Adversarial Robustness of Foundation Models for Multimodal Entity Linking [11.268639885321884]
敵攻撃シナリオの相違により,メインストリームMELモデルのロバスト性を総合的に評価する。
5つのデータセットの実験では、LCM-RetLinkはMELの精度を0.4%-35.7%改善している。
この研究は、MELのロバスト性に関する未調査の側面を強調し、最初のMEL逆例データセットを構築し、リリースする。
論文 参考訳(メタデータ) (2025-08-21T11:57:37Z) - High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning [43.8114307203968]
最先端の大規模マルチモーダルモデル (LMM) は高解像度画像処理において課題に直面している。
本稿では,多ターン接地型政策最適化(MGPO)を提案する。
MGPOは、LMMが自動的にサブイメージをトリミングすることで、鍵となる視覚領域に反復的に焦点を合わせることを可能にする。
論文 参考訳(メタデータ) (2025-07-08T12:05:05Z) - MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.23935582919081]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。
我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-02-13T18:59:46Z) - Multimodal Preference Data Synthetic Alignment with Reward Model [23.978820500281213]
本稿では,DPOトレーニングによる効果的なマルチモーダルアライメントのための人選好のプロキシとして,報酬モデルを用いて合成データを生成する新しいフレームワークを提案する。
実験結果から、生成モデルや報酬モデルのような選択された合成データの統合は、人手による注釈付きデータへの依存を効果的に軽減できることが示された。
論文 参考訳(メタデータ) (2024-12-23T09:29:40Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。
パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。
我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-10-20T04:57:45Z) - The Inter-Intra Modal Measure: A Predictive Lens on Fine-Tuning Outcomes in Vision-Language Models [6.7181844004432385]
Intra Modal Measure (IIMM) は、モーダル内画像の類似性とモーダル間不一致の関係を定量化する予測指標である。
既存の転送可能性測定と比較して、IIMMはデュアルエンコーダモデルにおける微調整後の精度変化に対して、はるかに強い予測力を示す。
我々は、IIMMの変化が、事前と後調整の埋め込みの間のワッサーシュタイン距離によって制限されていることを証明した理論的境界を与える。
論文 参考訳(メタデータ) (2024-07-22T15:35:09Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。