論文の概要: REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation
- arxiv url: http://arxiv.org/abs/2512.23169v1
- Date: Mon, 29 Dec 2025 03:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.389992
- Title: REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation
- Title(参考訳): ReVEALER:要素レベルテキスト画像アライメント評価のための強化誘導型ビジュアル推論
- Authors: Fulin Shi, Wenyi Xiao, Bin Chen, Liang Din, Leilei Gan,
- Abstract要約: REVEALERは、強化誘導視覚推論に基づく要素レベルのアライメント評価のための統一的なフレームワークである。
提案手法は,MLLM(Multimodal Large Language Models)を用いて意味的要素を明示的にローカライズし,解釈可能なアライメント判断を導出する。
- 参考スコア(独自算出の注目度): 10.151027538362259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the alignment between textual prompts and generated images is critical for ensuring the reliability and usability of text-to-image (T2I) models. However, most existing evaluation methods rely on coarse-grained metrics or static QA pipelines, which lack fine-grained interpretability and struggle to reflect human preferences. To address this, we propose REVEALER, a unified framework for element-level alignment evaluation based on reinforcement-guided visual reasoning. Adopting a structured "grounding-reasoning-conclusion" paradigm, our method enables Multimodal Large Language Models (MLLMs) to explicitly localize semantic elements and derive interpretable alignment judgments. We optimize the model via Group Relative Policy Optimization(GRPO) using a composite reward function that incorporates structural format, grounding accuracy, and alignment fidelity. Extensive experiments across four benchmarks-EvalMuse-40K, RichHF, MHaluBench, and GenAI-Bench-demonstrate that REVEALER achieves state-of-the-art performance. Our approach consistently outperforms both strong proprietary models and supervised baselines while demonstrating superior inference efficiency compared to existing iterative visual reasoning methods.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルの信頼性とユーザビリティを確保するためには,テキスト・プロンプトと生成された画像のアライメントを評価することが重要である。
しかし、既存の評価手法の多くは、粒度の粗いメトリクスや静的QAパイプラインに依存しており、微粒な解釈性がなく、人間の好みを反映するのに苦労している。
これを解決するために,強化誘導視覚推論に基づく要素レベルのアライメント評価のための統合フレームワークREVEALERを提案する。
提案手法は,構造化された「接地・推論・結論」パラダイムを採用し,意味的要素を明示的にローカライズし,解釈可能なアライメント判断を導出する多モーダル大言語モデル(MLLM)を実現する。
我々は,構造形式,接地精度,アライメント忠実度を組み込んだ複合報酬関数を用いて,GRPO(Group Relative Policy Optimization)を介してモデルを最適化する。
EvalMuse-40K、RichHF、MHaluBench、GenAI-Bench-demonstrateの4つのベンチマークに対する大規模な実験により、REVEALERは最先端のパフォーマンスを達成した。
提案手法は,既存の反復的視覚的推論法よりも優れた推論効率を示しながら,強力なプロプライエタリモデルと教師付きベースラインの両方を一貫して上回る。
関連論文リスト
- Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - LGAI-EMBEDDING-Preview Technical Report [41.68404082385825]
本稿では、情報検索(IR)と非IRタスクの両方に最適化された一般化テキスト埋め込みを学習するための統一的な命令ベースフレームワークを提案する。
提案手法は,コンテキスト認識の埋め込みを生成するために,コンテキスト内学習,ソフトインスペクション,適応型ハードネガティブマイニングを組み合わせる。
その結果,本手法はボルダスコアによる最高性能モデルのうち,強い一般化とランクを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-06-09T05:30:35Z) - Multimodal Benchmarking and Recommendation of Text-to-Image Generation Models [0.0]
本研究は,テキスト・ツー・イメージ・ジェネレーション・モデルのためのオープンソースの統一ベンチマーク・評価フレームワークを提案する。
本フレームワークは,モデル選択のためのタスク固有のレコメンデーションと,評価指標に基づく設計の促進を可能にする。
論文 参考訳(メタデータ) (2025-05-06T18:53:34Z) - AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset [89.37514696019484]
嗜好学習は、大きな言語モデルと人間の価値の整合に不可欠である。
私たちの作業は、好みのデータセット設計をアドホックなスケーリングからコンポーネント対応の最適化にシフトします。
論文 参考訳(メタデータ) (2025-04-04T17:33:07Z) - An Examination of the Compositionality of Large Generative Vision-Language Models [7.639748270719836]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
本稿では,GVLMの構成性を評価するための評価指標(VisualGPTScoreなど)と現在のベンチマークについて検討する。
我々は,GVLMの言語的能力を利用して,現在のベンチマークにおける構文バイアスを同定する。
論文 参考訳(メタデータ) (2023-08-21T06:50:29Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。