論文の概要: Self-Supervised Visual Preference Alignment
- arxiv url: http://arxiv.org/abs/2404.10501v1
- Date: Tue, 16 Apr 2024 12:19:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 16:53:59.447945
- Title: Self-Supervised Visual Preference Alignment
- Title(参考訳): 自己監督型視覚的嗜好アライメント
- Authors: Ke Zhu, Liang Zhao, Zheng Ge, Xiangyu Zhang,
- Abstract要約: 本稿では,視覚言語モデル(VLM)において,教師なしの嗜好アライメントに向けた最初の試みを行う。
我々は、原画像と拡張画像のペアについて、選択された応答と拒否された応答を生成し、直接選好最適化による選好アライメントを行う。
イメージ入力を適切に設計した拡張は、VLMを誘導して偽の負の応答を生成するため、モデルがより堅牢で強力な答えから学習するのに役立つ。
- 参考スコア(独自算出の注目度): 21.552415796397206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper makes the first attempt towards unsupervised preference alignment in Vision-Language Models (VLMs). We generate chosen and rejected responses with regard to the original and augmented image pairs, and conduct preference alignment with direct preference optimization. It is based on a core idea: properly designed augmentation to the image input will induce VLM to generate false but hard negative responses, which helps the model to learn from and produce more robust and powerful answers. The whole pipeline no longer hinges on supervision from GPT4 or human involvement during alignment, and is highly efficient with few lines of code. With only 8k randomly sampled unsupervised data, it achieves 90\% relative score to GPT-4 on complex reasoning in LLaVA-Bench, and improves LLaVA-7B/13B by 6.7\%/5.6\% score on complex multi-modal benchmark MM-Vet. Visualizations shows its improved ability to align with user-intentions. A series of ablations are firmly conducted to reveal the latent mechanism of the approach, which also indicates its potential towards further scaling. Code will be available.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)において,教師なしの嗜好アライメントに向けた最初の試みを行う。
我々は、原画像と拡張画像のペアについて、選択された応答と拒否された応答を生成し、直接選好最適化による選好アライメントを行う。
イメージ入力を適切に設計した拡張は、VLMを誘導して偽の負の応答を生成するため、モデルがより堅牢で強力な答えから学習するのに役立つ。
パイプライン全体は、GPT4やアライメント中の人間の関与による監視をもはや必要とせず、コード行数で非常に効率的です。
LLaVA-Bench の複雑な推論では 8k のランダムなサンプルデータのみで GPT-4 に対して 90 % のスコアを達成し、複雑なマルチモーダルベンチマーク MM-Vet では LLaVA-7B/13B を 6.7 %/5.6 のスコアで改善する。
ビジュアライゼーションは、ユーザインテントとの整合性が改善されたことを示している。
アプローチの潜伏メカニズムを明らかにするために、一連のアブリケーションがしっかりと行われており、さらなるスケーリングの可能性も示している。
コードは利用可能です。
関連論文リスト
- S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - Modality-Fair Preference Optimization for Trustworthy MLLM Alignment [11.796170286878056]
直接選好最適化(DPO)は,大規模言語モデル(LLM)の整合に有効である
しばしば画像情報よりもテキストを好んでおり、信頼できない出力や視覚幻覚をもたらす。
テキストと画像の嗜好のバランスをとるために,MFPO(Modality-Fair Preference Optimization)を提案する。
論文 参考訳(メタデータ) (2024-10-20T08:56:52Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - SupCL-Seq: Supervised Contrastive Learning for Downstream Optimized
Sequence Representations [4.392337343771302]
本稿では,コンピュータビジョンからNLPにおけるシーケンス表現の最適化まで,教師付きコントラスト学習を拡張したSupCL-Seqを提案する。
我々は,SupCL-Seqが標準BERTbaseと比較して,GLUEベンチマーク上の多くのシーケンス分類タスクにおいて大きな向上をもたらすことを示す。
論文 参考訳(メタデータ) (2021-09-15T16:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。