論文の概要: Silkie: Preference Distillation for Large Visual Language Models
- arxiv url: http://arxiv.org/abs/2312.10665v1
- Date: Sun, 17 Dec 2023 09:44:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 15:07:16.545439
- Title: Silkie: Preference Distillation for Large Visual Language Models
- Title(参考訳): Silkie: 大規模ビジュアル言語モデルの推奨蒸留
- Authors: Lei Li, Zhihui Xie, Mukai Li, Shunian Chen, Peiyi Wang, Liang Chen,
Yazheng Yang, Benyou Wang, Lingpeng Kong
- Abstract要約: 本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
- 参考スコア(独自算出の注目度): 56.10697821410489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores preference distillation for large vision language models
(LVLMs), improving their ability to generate helpful and faithful responses
anchoring the visual context. We first build a vision-language feedback
(VLFeedback) dataset utilizing AI annotation. Specifically, responses are
generated by models sampled from 12 LVLMs, conditioned on multi-modal
instructions sourced from various datasets. We adopt GPT-4V to assess the
generated outputs regarding helpfulness, visual faithfulness, and ethical
considerations. Furthermore, the preference supervision is distilled into
Qwen-VL-Chat through the direct preference optimization (DPO) method. The
resulting model Silkie, achieves 6.9% and 9.5% relative improvement on the MME
benchmark regarding the perception and cognition capabilities, respectively.
Silkie also demonstrates reduced hallucination by setting a new
state-of-the-art score of 3.02 on the MMHal-Bench benchmark. Further analysis
shows that DPO with our VLFeedback dataset mainly boosts the fine-grained
perception and complex cognition abilities of LVLMs, leading to more
comprehensive improvements compared to human-annotated preference datasets.
- Abstract(参考訳): 本稿では,大規模視覚言語モデル(LVLM)の嗜好蒸留について検討し,視覚コンテキストに係わる有用で忠実な応答を生成する能力を向上させる。
まず,aiアノテーションを用いた視覚言語フィードバック(vlfeedback)データセットを構築した。
具体的には、12のlvlmからサンプリングされたモデルから応答を生成し、さまざまなデータセットからソースされたマルチモーダル命令を条件とする。
我々はGPT-4Vを用いて、有用性、視覚的忠実性、倫理的考察に関する出力を評価する。
さらに、直接選好最適化(DPO)法により、選好監督をQwen-VL-Chatに蒸留する。
その結果,mmeベンチマークにおいて,知覚能力と認知能力に関して6.9%,9.5%の相対的改善が得られた。
Silkieはまた、MMHal-Benchベンチマークで新しい最先端スコア3.02を設定することで幻覚を減少させる。
さらに分析したところ、我々のVLFeedbackデータセットを用いたDPOは、LVLMの微粒な認識と複雑な認識能力を主に向上させ、人間の注釈付き嗜好データセットと比較してより包括的な改善をもたらすことが示された。
関連論文リスト
- Less is More: Data Value Estimation for Visual Instruction Tuning [127.38740043393527]
視覚的命令データにおける冗長性を除去する新しいデータ選択手法を提案する。
LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチが、フルデータ微調整モデルと同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Strengthening Multimodal Large Language Model with Bootstrapped
Preference Optimization [26.558671454453993]
MLLM(Multimodal Large Language Models)は、視覚的な入力に基づいて応答を生成する。
彼らはしばしば、事前学習したコーパスと同様の反応を生み出すバイアスに悩まされ、視覚情報の重要性を誇示する。
我々は、このバイアスを事前学習統計のための"推奨"として扱い、視覚入力におけるモデルの基盤を妨げます。
論文 参考訳(メタデータ) (2024-03-13T17:29:45Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept
Recognition in Large Vision Language Models [68.46457611340097]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Multi-modal preference alignment remedies regression of visual
instruction tuning on language model [7.9311636400991485]
そこで本研究では,小データセットに細粒度アノテーションを付加した蒸留方式のマルチモーダルアライメントモデルを提案する。
以上の結果から,DPOでは,データスケールが小さいにも関わらず,Vicunaの6.57とLLaVAの5.99に比べて,MT-Benchで6.73のスコアを達成できた。
論文 参考訳(メタデータ) (2024-02-16T18:42:08Z) - Mitigating Object Hallucination in Large Vision-Language Models via
Classifier-Free Guidance [56.04768229686853]
LVLM(Large Vision-Language Models)は、画像中の既存の物体を幻覚させる傾向がある。
私たちはclassifieR-Free guIdaNcE (MARINE)を介してMitigating HallucinAtionと呼ばれるフレームワークを導入する。
MARINEはトレーニングフリーかつAPIフリーであり、生成プロセス中のオブジェクト幻覚を効果的かつ効率的に低減することができる。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z) - Towards Reliable and Fluent Large Language Models: Incorporating
Feedback Learning Loops in QA Systems [10.58737969057445]
我々は,大規模な言語モデルによって生成された応答の引用,正しさ,および流布性を評価することができる評論家モデルを訓練するためのデータセットを構築した。
本稿では,批判モデルを利用して生成したテキストの異質な側面をリアルタイムにフィードバックする自動フィードバック機構を提案する。
提案手法の有効性を実験的に検証し,4%の精度向上とMAUVE測定値の約8%の精度向上を図った。
論文 参考訳(メタデータ) (2023-09-08T09:39:53Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - ILLUME: Rationalizing Vision-Language Models through Human Interactions [18.701950647429]
本稿では,機械生成データとのヒューマンインタラクションに基づくチューニングパラダイムを提案する。
我々の ILLUME は以下のループを実行する: 画像検索のプロンプトが与えられたら、VLM は複数の候補論理をサンプリングし、人間の批評家は選好選択を通じてフィードバックを提供する。
このループはトレーニングデータを増やし、人間の意図に合わせたVLMの合理化能力を徐々に削ります。
論文 参考訳(メタデータ) (2022-08-17T11:41:43Z) - PRI-VAE: Principle-of-Relevant-Information Variational Autoencoders [21.702801479284986]
まず,PRI-VAEと呼ばれる新しい学習目標を提案する。
本稿では,いくつかの重要な情報理論量の進化を検査し,既存のVAEモデルを分析するための情報理論的視点を提案する。
また、4つのベンチマークデータセットに対するPRI-VAEの有効性を実証した。
論文 参考訳(メタデータ) (2020-07-13T16:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。