論文の概要: Self-Improving VLM Judges Without Human Annotations
- arxiv url: http://arxiv.org/abs/2512.05145v1
- Date: Tue, 02 Dec 2025 20:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.756302
- Title: Self-Improving VLM Judges Without Human Annotations
- Title(参考訳): アノテーションのない自己改善型VLM審査員
- Authors: Inna Wanyin Lin, Yushi Hu, Shuyue Stella Li, Scott Geng, Pang Wei Koh, Luke Zettlemoyer, Tim Althoff, Marjan Ghazvininejad,
- Abstract要約: 自己合成データのみを用いて,人間の好みのアノテーションを使わずにVLM判断モデルを自己学習する枠組みを提案する。
提案手法は,Llama-3.2-11Bマルチモーダル判定を0.38から0.51に改善する。
これらの注釈のない結果の全体的な強みは、VLM能力の急速な向上とともに進化する将来の自己判断の可能性を示している。
- 参考スコア(独自算出の注目度): 74.29324865147838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective judges of Vision-Language Models (VLMs) are crucial for model development. Current methods for training VLM judges mainly rely on large-scale human preference annotations. However, such an approach is costly, and the annotations easily become obsolete as models rapidly improve. In this work, we present a framework to self-train a VLM judge model without any human preference annotations, using only self-synthesized data. Our method is iterative and has three stages: (1) generate diverse multimodal instruction-response pairs at varying quality levels, (2) generate reasoning traces and judgments for each pair, removing the ones that do not match our expected quality levels, and (3) training on correct judge answers and their reasoning traces. We evaluate the resulting judge on Multimodal RewardBench and VL-RewardBench across domains: correctness, preference, reasoning, safety, and visual question-answering. Our method improves a Llama-3.2-11B multimodal judge from 0.38 to 0.51 in overall accuracy on VL-RewardBench, often outperforming much larger models including Llama-3.2-90B, GPT-4o, and Claude 3.5 Sonnet, with particularly strong gains in general, hallucination, and reasoning dimensions. The overall strength of these human-annotation-free results suggest the potential for a future self-judge that evolves alongside rapidly improving VLM capabilities.
- Abstract(参考訳): VLM(Vision-Language Models)の効果的な判断は、モデル開発に不可欠である。
VLM審査員を訓練する現在の方法は、主に大規模な人間の嗜好アノテーションに依存している。
しかし、このようなアプローチはコストがかかり、モデルが急速に改善するにつれてアノテーションは時代遅れになる。
本研究では,自己合成データのみを用いて,人間の好みのアノテーションを使わずに,VLM判断モデルを自己学習する枠組みを提案する。
提案手法は,(1)様々な品質レベルで多様なマルチモーダル命令応答ペアを生成し,(2)各ペアの推論トレースと判断を生成し,期待される品質レベルと一致しないものを除去し,(3)正解と推論トレースのトレーニングを行う。
我々は,マルチモーダル・リワードベンチとVL-リワードベンチの判定結果を,正当性,優先性,推論,安全性,視覚的質問応答といった領域で評価した。
我々の手法は、Llama-3.2-11Bマルチモーダル判定をVL-RewardBenchで0.38から0.51に改善し、Llama-3.2-90B、GPT-4o、Claude 3.5 Sonnetなどのより大きなモデルよりも優れ、一般、幻覚、推論次元が特に高い。
これらの注釈のない結果の全体的な強みは、VLM能力の急速な向上とともに進化する将来の自己判断の可能性を示している。
関連論文リスト
- Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models [82.92771279118888]
マルチモーダル報酬モデルを評価するためのエキスパートアノテートベンチマークであるMultimodal RewardBenchを紹介する。
我々のデータセットは、様々な視覚言語モデルから収集された5,211個の注釈付き(プロンプト、選択された応答、拒否された応答)三つ子からなる。
Gemini 1.5 ProやClaude 3.5 Sonnetといったトップパフォーマンスモデルでさえ、全体的な精度は72%に過ぎません。
論文 参考訳(メタデータ) (2025-02-20T01:48:13Z) - Direct Judgement Preference Optimization [79.54459973726405]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。
我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。
提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文 参考訳(メタデータ) (2024-09-23T02:08:20Z) - MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation? [59.7772329962047]
MJ-Benchは、マルチモーダル・ジャッジを評価するために、包括的な選好データセットを組み込んだ新しいベンチマークである。
具体的には、より小型のCLIPベースのスコアリングモデル、オープンソースのVLM、オープンソースのVLMなど、様々なマルチモーダル・ジャッジを評価する。
実験の結果、オープンソースのVLMは一般的にフィードバックが良く、GPT-4oは他の審査員を平均上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-05T20:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。