論文の概要: RoVRM: A Robust Visual Reward Model Optimized via Auxiliary Textual Preference Data
- arxiv url: http://arxiv.org/abs/2408.12109v1
- Date: Thu, 22 Aug 2024 03:49:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 15:13:16.544883
- Title: RoVRM: A Robust Visual Reward Model Optimized via Auxiliary Textual Preference Data
- Title(参考訳): RoVRM:補助的テキスト参照データにより最適化されたロバストなビジュアルリワードモデル
- Authors: Chenglong Wang, Yang Gan, Yifu Huo, Yongyu Mu, Murun Yang, Qiaozhi He, Tong Xiao, Chunliang Zhang, Tongran Liu, Quan Du, Di Yang, Jingbo Zhu,
- Abstract要約: 大型視覚言語モデル(LVLM)は人間の好みと一致しないことが多い。
本稿では,LVLMのヒューマン・参照アライメントを改善するロバスト・ビジュアル・リワード・モデル(RoVRM)を提案する。
- 参考スコア(独自算出の注目度): 47.55541945729117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) often fail to align with human preferences, leading to issues like generating misleading content without proper visual context (also known as hallucination). A promising solution to this problem is using human-preference alignment techniques, such as best-of-n sampling and reinforcement learning. However, these techniques face the difficulty arising from the scarcity of visual preference data, which is required to train a visual reward model (VRM). In this work, we continue the line of research. We present a Robust Visual Reward Model (RoVRM) which improves human-preference alignment for LVLMs. RoVRM leverages auxiliary textual preference data through a three-phase progressive training and optimal transport-based preference data selection to effectively mitigate the scarcity of visual preference data. We experiment with RoVRM on the commonly used vision-language tasks based on the LLaVA-1.5-7B and -13B models. Experimental results demonstrate that RoVRM consistently outperforms traditional VRMs. Furthermore, our three-phase progressive training and preference data selection approaches can yield consistent performance gains over ranking-based alignment techniques, such as direct preference optimization.
- Abstract(参考訳): 大規模な視覚言語モデル(LVLM)は人間の好みと一致せず、適切な視覚的コンテキスト(幻覚としても知られる)を伴わない誤解を招くような問題を引き起こす。
この問題に対する有望な解決策は、ベスト・オブ・nサンプリングや強化学習など、人間の嗜好アライメント技術を使用することである。
しかし、これらの手法は、視覚的報酬モデル(VRM)のトレーニングに必要な視覚的嗜好データの不足に起因する困難に直面している。
この研究において、我々は研究のラインを継続する。
本稿では,LVLMのヒューマン・参照アライメントを改善するロバスト・ビジュアル・リワード・モデル(RoVRM)を提案する。
RoVRMは、3段階のプログレッシブトレーニングと最適なトランスポートベースの選好データ選択を通じて補助的なテキスト選好データを活用し、視覚選好データの不足を効果的に軽減する。
我々は,LLaVA-1.5-7Bモデルと-13Bモデルに基づく視覚言語タスクにおいて,RoVRMを用いて実験を行った。
実験の結果、RoVRMは従来のVRMよりも一貫して優れていた。
さらに,3段階のプログレッシブトレーニングと選好データ選択アプローチにより,直接選好最適化などのランキングベースのアライメント手法よりも一貫した性能向上が得られる。
関連論文リスト
- Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - Optimizing V-information for Self-Supervised Pre-training Data-Effective Medical Foundation Models [15.413974936297082]
大規模データセット上での自己教師付き事前トレーニング医療基盤モデルは、例外的なパフォーマンスを示す。
基礎モデル事前学習のための貴重なサンプルを選択するために、データ効率のよい学習手法が導入された。
実世界の医療領域におけるV情報の最適化のための最適なデータ効率学習手法を開発した。
論文 参考訳(メタデータ) (2024-08-13T10:28:54Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization [25.290462963681257]
MLLM(Multimodal Large Language Models)は、視覚的な入力に基づいて応答を生成する。
彼らはしばしば、事前学習したコーパスと同様の反応を生み出すバイアスに悩まされ、視覚情報の重要性を誇示する。
我々は、このバイアスを事前学習統計のための"推奨"として扱い、視覚入力におけるモデルの基盤を妨げます。
論文 参考訳(メタデータ) (2024-03-13T17:29:45Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - S^3-Rec: Self-Supervised Learning for Sequential Recommendation with
Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。
そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。
6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文 参考訳(メタデータ) (2020-08-18T11:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。