Fugu-MT 論文翻訳(概要): S2H-DPO: Hardness-Aware Preference Optimization for Vision-Language Models

論文の概要: S2H-DPO: Hardness-Aware Preference Optimization for Vision-Language Models

arxiv url: http://arxiv.org/abs/2604.18512v1
Date: Mon, 20 Apr 2026 17:06:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:53.012067
Title: S2H-DPO: Hardness-Aware Preference Optimization for Vision-Language Models
Title（参考訳）: S2H-DPO:視覚言語モデルに対するハードネス・アウェア優先最適化
Authors: Nitish Shukla, Surgan Jandial, Arun Ross,
Abstract要約: 本稿では,3つの階層的推論レベルにまたがるマルチイメージの嗜好データを構築する学習フレームワークを提案する。提案手法は,マルチイメージ理解能力を同時に強化しつつ,強力な単一イメージ推論性能を維持している。
参考スコア（独自算出の注目度）: 8.92478226038086
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language Models (VLMs) have demonstrated remarkable progress in single-image understanding, yet effective reasoning across multiple images remains challenging. We identify a critical capability gap in existing multi-image alignment approaches: current methods focus primarily on localized reasoning with pre-specified image indices (``Look at Image 3 and...''), bypassing the essential skills of global visual search and autonomous cross-image comparison. To address this limitation, we introduce a Simple-to-Hard (S2H) learning framework that systematically constructs multi-image preference data across three hierarchical reasoning levels requiring an increasing level of capabilities: (1) single-image localized reasoning, (2) multi-image localized comparison, and (3) global visual search. Unlike prior work that relies on model-specific attributes, such as hallucinations or attention heuristics, to generate preference pairs, our approach leverages prompt-driven complexity to create chosen/rejected pairs that are applicable across different models. Through extensive evaluations on LLaVA and Qwen-VL models, we show that our diverse multi-image reasoning data significantly enhances multi-image reasoning performance, yielding significant improvements over baseline methods across benchmarks. Importantly, our approach maintains strong single-image reasoning performance while simultaneously strengthening multi-image understanding capabilities, thus advancing the state of the art for holistic visual preference alignment.
Abstract（参考訳）: VLM(Vision-Language Models)は、単一画像の理解において顕著な進歩を示しているが、複数の画像にまたがる効果的な推論は依然として困難である。既存のマルチイメージアライメントアプローチにおける重要な機能ギャップを識別する: 現在の手法は、主に、事前に特定された画像指標(``Look at Image 3 and ...'')による局所的推論に焦点を当て、グローバルビジュアル検索と自律的クロスイメージ比較の必須スキルを回避している。この制限に対処するために,1) 単一画像の局所化推論,(2) マルチ画像の局所化比較,(3) グローバルビジュアル検索の3つの階層的推論レベルにまたがって,マルチイメージの嗜好データを体系的に構築する,シンプル・ツー・ハード(S2H)学習フレームワークを導入する。嗜好ペアを生成するために幻覚や注意ヒューリスティックといったモデル固有の属性に依存する以前の作業とは異なり、我々のアプローチは、プロンプト駆動の複雑さを活用して、異なるモデルにまたがって適用可能な選択/拒絶ペアを作成する。 LLaVAおよびQwen-VLモデルに対する広範な評価により、我々の多様なマルチイメージ推論データがマルチイメージ推論性能を大幅に向上し、ベンチマーク全体のベースライン手法よりも大幅に改善されたことを示す。重要なこととして,本手法は強い単一画像推論性能を維持しつつ,同時に多画像理解能力を強化し,総合的な視覚的嗜好アライメントの最先端を推し進める。

関連論文リスト

Towards Generalized Multi-Image Editing for Unified Multimodal Models [56.620038824933566]
統一マルチモーダルモデル(UMM)は、マルチモーダル理解と生成を統合する。 UMMは、複数の入力画像にまたがる詳細を参照する場合、視覚的一貫性の維持と視覚的手がかりの曖昧さに制限される。画像の同一性を明確に識別し、可変入力数に一般化するUMMのためのスケーラブルなマルチイメージ編集フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-09T06:42:49Z)
Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。 VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文参考訳（メタデータ） (2025-09-23T16:22:27Z)
Simple o3: Towards Interleaved Vision-Language Reasoning [38.46230601239066]
我々は、動的ツールインタラクションをインターリーブされた視覚言語推論に統合する、エンドツーエンドのフレームワークであるSimple o3を提案する。提案手法は,高品質な視覚言語推論チェーンを生成するスケーラブルなデータ合成パイプラインを特徴とする。実験の結果、Simple o3は様々なベンチマークで優れたパフォーマンスを示し、既存のアプローチよりも優れています。
論文参考訳（メタデータ） (2025-08-16T17:15:39Z)
MiCo: Multi-image Contrast for Reinforcement Visual Reasoning [72.81576836419373]
CoT(Chain-of-Thought)推論は、複数の画像に視覚的手がかりをリンクするために使用することができる。視覚言語モデル(VLM)の規則に基づく強化学習に適応する提案手法は,マルチイメージ推論ベンチマークにおいて大幅な改善を実現し,汎用視覚タスクにおいて高い性能を示す。
論文参考訳（メタデータ） (2025-06-27T17:59:27Z)
PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning [50.21619363035618]
本稿では,マルチモーダルタスクのインターリーブに適した汎用強化学習手法PeRLを提案する。空間的および位置的多様性を探索するために、様々な位置関係をシミュレートするために、画像列の置換を導入する。実験の結果,PeRLのトレーニングモデルは,VLMベースラインを大きなマージンで,R1関連およびインターリーブしたVLMベースラインを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2025-06-17T18:25:56Z)
Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains [31.828341309787042]
視覚言語モデル(VLM)は、単一画像タスクにおいて顕著な成功を収める。現実のシナリオでは複雑なマルチイメージの入力が伴うことが多く、パフォーマンスが著しく低下する。マルチイメージシナリオにおけるVLMの知覚、理解、推論能力を高める新しいパラダイムであるFocus-Centric Visual Chainを提案する。
論文参考訳（メタデータ） (2025-04-28T19:02:18Z)
Unified Reward Model for Multimodal Understanding and Generation [32.22714522329413]
本稿では,マルチモーダル理解と生成評価のための最初の統一報酬モデルUnifiedRewardを提案する。まず、構築した大規模人間の嗜好データセットに基づいてUnifiedRewardを開発し、画像生成/映像生成/理解タスクを含む。
論文参考訳（メタデータ） (2025-03-07T08:36:05Z)
ImageChain: Advancing Sequential Image-to-Text Reasoning in Multimodal Large Language Models [12.265270657795275]
ImageChainは、画像データに対するシーケンシャルな推論機能を備えたMLLMを強化するフレームワークである。提案手法は,次の場面における記述課題の性能向上に寄与する。 ImageChainは、コミックからロボティクスまで幅広いアプリケーションにおいて、堅牢なゼロショット・アウト・オブ・ドメインのパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-02-26T18:55:06Z)
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。 MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文参考訳（メタデータ） (2024-10-23T07:56:48Z)
Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。 COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文参考訳（メタデータ） (2024-05-27T17:59:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。