論文の概要: Test-Time Reasoning Through Visual Human Preferences with VLMs and Soft Rewards
- arxiv url: http://arxiv.org/abs/2503.19948v1
- Date: Tue, 25 Mar 2025 15:30:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:22:01.633444
- Title: Test-Time Reasoning Through Visual Human Preferences with VLMs and Soft Rewards
- Title(参考訳): VLMとソフトリワードを用いた視覚的人間の選好によるテスト時間推論
- Authors: Alexander Gambashidze, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets,
- Abstract要約: ImageReward や Human Preference Score v2 (HPSv2) のようなデータセットを用いて、われわれのモデルは ImageReward のテストセットで 64.9%、HPSv2で65.4% の精度を達成した。
われわれの発見は、テキスト・ツー・ビジョン・モデルをさらに強化する強力なマイルストーンになり得る。
- 参考スコア(独自算出の注目度): 45.84931291646799
- License:
- Abstract: Can Visual Language Models (VLMs) effectively capture human visual preferences? This work addresses this question by training VLMs to think about preferences at test time, employing reinforcement learning methods inspired by DeepSeek R1 and OpenAI O1. Using datasets such as ImageReward and Human Preference Score v2 (HPSv2), our models achieve accuracies of 64.9% on the ImageReward test set (trained on ImageReward official split) and 65.4% on HPSv2 (trained on approximately 25% of its data). These results match traditional encoder-based models while providing transparent reasoning and enhanced generalization. This approach allows to use not only rich VLM world knowledge, but also its potential to think, yielding interpretable outcomes that help decision-making processes. By demonstrating that human visual preferences reasonable by current VLMs, we introduce efficient soft-reward strategies for image ranking, outperforming simplistic selection or scoring methods. This reasoning capability enables VLMs to rank arbitrary images-regardless of aspect ratio or complexity-thereby potentially amplifying the effectiveness of visual Preference Optimization. By reducing the need for extensive markup while improving reward generalization and explainability, our findings can be a strong mile-stone that will enhance text-to-vision models even further.
- Abstract(参考訳): 視覚言語モデル(VLM)は人間の視覚的嗜好を効果的に捉えることができるか?
この研究は、DeepSeek R1とOpenAI O1にインスパイアされた強化学習手法を用いて、テスト時の好みを考えるためにVLMをトレーニングすることで、この問題に対処する。
ImageRewardやHuman Preference Score v2(HPSv2)などのデータセットを使用して、ImageRewardテストセット(ImageRewardの公式スプリットでトレーニング)で64.9%、HPSv2(約25%のデータでトレーニング)で65.4%の精度を達成した。
これらの結果は、透明な推論と拡張された一般化を提供しながら、従来のエンコーダベースのモデルと一致する。
このアプローチは、豊富なVLM世界の知識だけでなく、意思決定プロセスに役立つ解釈可能な結果をもたらす可能性も利用することができる。
人間の視覚的嗜好が現在のVLMで妥当であることを示すことによって、画像のランク付け、簡素な選択やスコアリング方法よりも優れた、効率的なソフトリワード戦略を導入する。
この推論能力により、VLMはアスペクト比や複雑性に関係なく任意の画像をランク付けできる。
報奨一般化と説明可能性の向上を図りながら、広範囲なマークアップの必要性を減らすことで、我々の発見は、テキスト・ツー・ビジョンモデルをさらに強化する強力なマイルストーンとなり得る。
関連論文リスト
- Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images [7.823336661261962]
VLM(Large Vision-Language Models)は、画像の内容を無視し、言語モデルに過剰に依存する傾向にある。
本稿では,S-VCO(Symmetrical Visual Contrastive Optimization)を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:05:42Z) - Preference VLM: Leveraging VLMs for Scalable Preference-Based Reinforcement Learning [17.59802090014789]
視覚言語モデル(VLM)と選択的フィードバックを統合するフレームワークであるPrefVLMを紹介する。
提案手法はVLMを利用して初期選好ラベルを生成する。
メタワールド操作タスクの実験は、PrefVLMが最先端の手法に匹敵する成功率または優れた成功率を達成することを示した。
論文 参考訳(メタデータ) (2025-02-03T18:50:15Z) - Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。
ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。
本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-31T17:54:29Z) - VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation [70.68566282567207]
画像生成と映像生成の両方において人間の視覚的嗜好を学習するためのフレームワークであるVisionRewardを紹介する。
VisionRewardは、マシンメトリクスと人的評価の両方において、既存の画像およびビデオ報酬モデルを大幅に上回ることができる。
論文 参考訳(メタデータ) (2024-12-30T16:24:09Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - RoVRM: A Robust Visual Reward Model Optimized via Auxiliary Textual Preference Data [47.55541945729117]
大型視覚言語モデル(LVLM)は人間の好みと一致しないことが多い。
本稿では,LVLMのヒューマン・参照アライメントを改善するロバスト・ビジュアル・リワード・モデル(RoVRM)を提案する。
論文 参考訳(メタデータ) (2024-08-22T03:49:18Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。