論文の概要: Self-Supervised Visual Preference Alignment
- arxiv url: http://arxiv.org/abs/2404.10501v1
- Date: Tue, 16 Apr 2024 12:19:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 16:53:59.447945
- Title: Self-Supervised Visual Preference Alignment
- Title(参考訳): 自己監督型視覚的嗜好アライメント
- Authors: Ke Zhu, Liang Zhao, Zheng Ge, Xiangyu Zhang,
- Abstract要約: 本稿では,視覚言語モデル(VLM)において,教師なしの嗜好アライメントに向けた最初の試みを行う。
我々は、原画像と拡張画像のペアについて、選択された応答と拒否された応答を生成し、直接選好最適化による選好アライメントを行う。
イメージ入力を適切に設計した拡張は、VLMを誘導して偽の負の応答を生成するため、モデルがより堅牢で強力な答えから学習するのに役立つ。
- 参考スコア(独自算出の注目度): 21.552415796397206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper makes the first attempt towards unsupervised preference alignment in Vision-Language Models (VLMs). We generate chosen and rejected responses with regard to the original and augmented image pairs, and conduct preference alignment with direct preference optimization. It is based on a core idea: properly designed augmentation to the image input will induce VLM to generate false but hard negative responses, which helps the model to learn from and produce more robust and powerful answers. The whole pipeline no longer hinges on supervision from GPT4 or human involvement during alignment, and is highly efficient with few lines of code. With only 8k randomly sampled unsupervised data, it achieves 90\% relative score to GPT-4 on complex reasoning in LLaVA-Bench, and improves LLaVA-7B/13B by 6.7\%/5.6\% score on complex multi-modal benchmark MM-Vet. Visualizations shows its improved ability to align with user-intentions. A series of ablations are firmly conducted to reveal the latent mechanism of the approach, which also indicates its potential towards further scaling. Code will be available.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)において,教師なしの嗜好アライメントに向けた最初の試みを行う。
我々は、原画像と拡張画像のペアについて、選択された応答と拒否された応答を生成し、直接選好最適化による選好アライメントを行う。
イメージ入力を適切に設計した拡張は、VLMを誘導して偽の負の応答を生成するため、モデルがより堅牢で強力な答えから学習するのに役立つ。
パイプライン全体は、GPT4やアライメント中の人間の関与による監視をもはや必要とせず、コード行数で非常に効率的です。
LLaVA-Bench の複雑な推論では 8k のランダムなサンプルデータのみで GPT-4 に対して 90 % のスコアを達成し、複雑なマルチモーダルベンチマーク MM-Vet では LLaVA-7B/13B を 6.7 %/5.6 のスコアで改善する。
ビジュアライゼーションは、ユーザインテントとの整合性が改善されたことを示している。
アプローチの潜伏メカニズムを明らかにするために、一連のアブリケーションがしっかりと行われており、さらなるスケーリングの可能性も示している。
コードは利用可能です。
関連論文リスト
- SelfCodeAlign: Self-Alignment for Code Generation [15.23960029671979]
SelfCodeAlignは、自己整合型コード言語モデル(LLM)のための、初めて完全に透明で許容可能なパイプラインである
まず、高品質なシードスニペットから多様なコーディング概念を抽出し、新しいタスクを生成する。
次に、タスク毎に複数のレスポンスをサンプリングし、それぞれがテストケースとペアリングし、サンドボックス環境で検証する。
このデータセットの微調整は、HumanEval+で67.1パス@1を達成するモデルにつながります。
論文 参考訳(メタデータ) (2024-10-31T17:55:13Z) - Modality-Fair Preference Optimization for Trustworthy MLLM Alignment [11.796170286878056]
直接選好最適化(DPO)は,大規模言語モデル(LLM)の整合に有効である
しばしば画像情報よりもテキストを好んでおり、信頼できない出力や視覚幻覚をもたらす。
テキストと画像の嗜好のバランスをとるために,MFPO(Modality-Fair Preference Optimization)を提案する。
論文 参考訳(メタデータ) (2024-10-20T08:56:52Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness [94.03511733306296]
我々は,MLLMを超GPT-4V信頼性のための完全なオープンソースパラダイムに整合させるフレームワークであるRLAIF-Vを紹介する。
RLAIF-Vは、高品質なフィードバックデータとオンラインフィードバック学習アルゴリズムを含む、2つの観点から、オープンソースフィードバックを最大限活用する。
実験により、RLAIF-Vは、他のタスクのパフォーマンスを犠牲にすることなく、モデルの信頼性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-05-27T14:37:01Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - Zephyr: Direct Distillation of LM Alignment [59.03530095974505]
ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。
従来の研究では、より大規模なモデルに教師付き微調整(dSFT)を適用することにより、タスクの精度が大幅に向上することが示されている。
蒸留直接選好最適化(dDPO)を用いて,意図のアライメントを大幅に改善したチャットモデルを学習する。
論文 参考訳(メタデータ) (2023-10-25T19:25:16Z) - SupCL-Seq: Supervised Contrastive Learning for Downstream Optimized
Sequence Representations [4.392337343771302]
本稿では,コンピュータビジョンからNLPにおけるシーケンス表現の最適化まで,教師付きコントラスト学習を拡張したSupCL-Seqを提案する。
我々は,SupCL-Seqが標準BERTbaseと比較して,GLUEベンチマーク上の多くのシーケンス分類タスクにおいて大きな向上をもたらすことを示す。
論文 参考訳(メタデータ) (2021-09-15T16:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。