論文の概要: VaPR -- Vision-language Preference alignment for Reasoning
- arxiv url: http://arxiv.org/abs/2510.01700v1
- Date: Thu, 02 Oct 2025 06:10:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.021349
- Title: VaPR -- Vision-language Preference alignment for Reasoning
- Title(参考訳): VaPR -- 推論のための視覚言語優先アライメント
- Authors: Rohan Wadhawan, Fabrice Y Harel-Canada, Zi-Yi Dou, Suhaila Shakiah, Robinson Piramuthu, Nanyun Peng,
- Abstract要約: LLM誘導応答編集に基づく強負応答生成フレームワークを提案する。
VaPRは、ターゲットとなるエラーで拒否された応答を生成し、受け入れられたものとのスタイルと長さの類似性を維持する。
本稿では,VaPR-OSでトレーニングしたモデルをエディタとして,オープンソースのLLMに一般化し,名前でトレーニングしたモデルの99%をVaPR-OSでトレーニングした。
- 参考スコア(独自算出の注目度): 43.4847999322297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference finetuning methods like Direct Preference Optimization (DPO) with AI-generated feedback have shown promise in aligning Large Vision-Language Models (LVLMs) with human preferences. However, existing techniques overlook the prevalence of noise in synthetic preference annotations in the form of stylistic and length biases. To this end, we introduce a hard-negative response generation framework based on LLM-guided response editing, that produces rejected responses with targeted errors, maintaining stylistic and length similarity to the accepted ones. Using this framework, we develop the VaPR dataset, comprising 30K high-quality samples, to finetune three LVLM families: LLaVA-V1.5, Qwen2VL & Qwen2.5VL (2B-13B sizes). Our VaPR models deliver significant performance improvements across ten benchmarks, achieving average gains of 6.5% (LLaVA), 4.0% (Qwen2VL), and 1.5% (Qwen2.5VL), with notable improvements on reasoning tasks. A scaling analysis shows that performance consistently improves with data size, with LLaVA models benefiting even at smaller scales. Moreover, VaPR reduces the tendency to answer "Yes" in binary questions - addressing a common failure mode in LVLMs like LLaVA. Lastly, we show that the framework generalizes to open-source LLMs as editors, with models trained on VaPR-OS achieving ~99% of the performance of models trained on \name, which is synthesized using GPT-4o. Our data, models, and code can be found on the project page https://vap-r.github.io
- Abstract(参考訳): 直接選好最適化(DPO)やAI生成フィードバックといった選好の微調整手法は、LVLM(Large Vision-Language Models)と人間の選好の整合性を示す。
しかし、既存の手法は、合成選好アノテーションにおける雑音の頻度を、スタイリスティックな偏りと長さの偏りという形で見落としている。
この目的のために,LLM誘導応答編集に基づく強負応答生成フレームワークを導入する。
この枠組みを用いて,LLaVA-V1.5,Qwen2VL & Qwen2.5VL(2B-13Bサイズ)の3つのLVLMファミリーを微細化するために,30Kの高品質サンプルからなるVaPRデータセットを開発した。
我々のVaPRモデルは10ベンチマークで大幅なパフォーマンス向上を実現し、平均ゲインは6.5%(LLaVA)、4.0%(Qwen2VL)、1.5%(Qwen2.5VL)となり、推論タスクは顕著に改善された。
スケール分析によると、LLaVAモデルは小さなスケールでもメリットがあるため、データサイズでパフォーマンスが一貫して改善されている。
さらに、VaPRは、LLaVAのようなLVLMの共通障害モードに対処するため、バイナリ質問の"Yes"に答える傾向を低減する。
最後に、このフレームワークは、VaPR-OSでトレーニングされたモデルを用いて、GPT-4oで合成した \name でトレーニングされたモデルの約99%のパフォーマンスを達成し、LLMをエディタとしてオープンソースに一般化することを示す。
私たちのデータ、モデル、コードはプロジェクトページ https://vap-r.github.io で確認できます。
関連論文リスト
- Refine-n-Judge: Curating High-Quality Preference Chains for LLM-Fine-Tuning [14.254037571895404]
大規模言語モデル(LLM)は、好みに基づく微調整を通じて顕著な進歩を見せている。
本稿では、1つのLCMを精細化と判定の両方に活用し、データセットの品質を向上させる自動反復手法であるRefine-n-Judgeを紹介する。
本研究では,5つのコーパスにまたがる公開データセットにまたがるRefine-n-Judgeの有効性を示す。
論文 参考訳(メタデータ) (2025-08-03T01:56:03Z) - ViLBench: A Suite for Vision-Language Process Reward Modeling [25.565912785217822]
本稿では,現在の視覚大言語モデル(VLLM)を2種類の報酬モデルとしてベンチマークする。
我々は、集中的なプロセス報酬信号を必要とするように設計された視覚言語ベンチマークViLBenchを紹介する。
本稿では,一般VLLMと報奨モデルとのギャップを埋めるための有望な経路を予め紹介する。
論文 参考訳(メタデータ) (2025-03-26T06:38:31Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models [45.040292339670096]
大規模視覚言語モデル(LVLM)は、その強力な推論と一般化能力を備えた幅広い視覚言語タスクの前提を示してきた。
本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
論文 参考訳(メタデータ) (2024-02-18T19:26:49Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。