論文の概要: Multi-modal preference alignment remedies regression of visual
instruction tuning on language model
- arxiv url: http://arxiv.org/abs/2402.10884v1
- Date: Fri, 16 Feb 2024 18:42:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 14:37:00.292849
- Title: Multi-modal preference alignment remedies regression of visual
instruction tuning on language model
- Title(参考訳): マルチモーダル選好アラインメントは言語モデルにおける視覚命令チューニングの回帰を改善する
- Authors: Shengzhi Li, Rongyu Lin, Shichao Pei
- Abstract要約: そこで本研究では,小データセットに細粒度アノテーションを付加した蒸留方式のマルチモーダルアライメントモデルを提案する。
以上の結果から,DPOでは,データスケールが小さいにも関わらず,Vicunaの6.57とLLaVAの5.99に比べて,MT-Benchで6.73のスコアを達成できた。
- 参考スコア(独自算出の注目度): 7.9311636400991485
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In production, multi-modal large language models (MLLMs) are expected to
support multi-turn queries of interchanging image and text modalities. However,
the current MLLMs trained with visual-question-answering (VQA) datasets could
suffer from degradation, as VQA datasets lack the diversity and complexity of
the original text instruction datasets which the underlying language model had
been trained with. To address this challenging degradation, we first collect a
lightweight (6k entries) VQA preference dataset where answers were annotated by
Gemini for 5 quality metrics in a granular fashion, and investigate standard
Supervised Fine-tuning, rejection sampling, Direct Preference Optimization
(DPO), and SteerLM. Our findings indicate that the with DPO we are able to
surpass instruction-following capabilities of the language model, achieving a
6.73 score on MT-Bench, compared to Vicuna's 6.57 and LLaVA's 5.99 despite
small data scale. This enhancement in textual instruction proficiency
correlates with boosted visual instruction performance (+4.9\% on MM-Vet, +6\%
on LLaVA-Bench), with minimal alignment tax on visual knowledge benchmarks
compared to previous RLHF approach. In conclusion, we propose a
distillation-based multi-modal alignment model with fine-grained annotations on
a small dataset that reconciles the textual and visual performance of MLLMs,
restoring and boosting language capability after visual instruction tuning.
- Abstract(参考訳): 実運用環境では,マルチモーダル大言語モデル (MLLM) が画像の相互変換とテキストモダリティのマルチターンクエリをサポートすることが期待されている。
しかしながら、現在のMLLMでは、VQAデータセットは、基礎となる言語モデルがトレーニングしたオリジナルのテキスト命令データセットの多様性と複雑さを欠いているため、VQAデータセットでトレーニングされている。
この難易度に対処するために、まず軽量(6kエントリ)のVQA選好データセットを収集し、Geminiによって5つの品質指標に注釈を付け、標準のSupervised Fine-tuning、rejection sample、Direct Preference Optimization (DPO)、SteerLMを調査した。
以上の結果から,DPOでは,データスケールが小さいにも関わらず,Vicunaの6.57とLLaVAの5.99に比べて,MT-Benchで6.73のスコアを達成できた。
このテキスト命令の熟練度の向上は、以前のRLHFアプローチと比較して視覚知識ベンチマークに最小限のアライメント税を課すことで、視覚的命令性能の向上(MM-Vetでは+4.9\%、LLaVA-Benchでは+6\%)と相関する。
そこで本研究では,MLLMのテキストおよび視覚的性能を調整し,視覚的指導訓練後の言語能力の回復と向上を図る,細粒度アノテーションを用いた蒸留ベースのマルチモーダルアライメントモデルを提案する。
関連論文リスト
- Less is More: Data Value Estimation for Visual Instruction Tuning [127.38740043393527]
視覚的命令データにおける冗長性を除去する新しいデータ選択手法を提案する。
LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチが、フルデータ微調整モデルと同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。
近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。
我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文 参考訳(メタデータ) (2024-01-17T04:43:45Z) - Salute the Classic: Revisiting Challenges of Machine Translation in the
Age of Large Language Models [91.6543868677356]
ニューラルネットワーク翻訳の進化は、6つのコア課題の影響を受けている。
これらの課題には、ドメインミスマッチ、並列データの量、まれな単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、そして準最適ビームサーチが含まれる。
この研究はこれらの課題を再考し、先進的な大規模言語モデルにおけるそれらの継続的な関連性についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-16T13:30:09Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - VIGC: Visual Instruction Generation and Correction [47.477290387002284]
視覚言語タスクのための高品質なインストラクションチューニングデータの不足は依然として課題である。
LLaVAのような現在の主要なパラダイムは、データを生成するために言語のみのGPT-4に依存している。
本稿では,マルチモーダルな大規模言語モデルによる命令調整データの生成を可能にするビジュアルインストラクション生成と補正フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T11:21:05Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - SVIT: Scaling up Visual Instruction Tuning [26.794950789335402]
我々は,会話質問応答(QA)ペアの1.6M,QAペアの1.6M,QAペアの1.0M,詳細な画像記述の106Kを含む4200万の視覚的インストラクションチューニングデータを構築した。
実験では、提案したデータセットに基づいてトレーニングされたSVIT-v1.5が、一般的なベンチマークで最先端のマルチモーダル大規模言語モデルを上回っていることを確認した。
論文 参考訳(メタデータ) (2023-07-09T03:25:14Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。