Fugu-MT 論文翻訳(概要): Multi-modal preference alignment remedies regression of visual instruction tuning on language model

論文の概要: Multi-modal preference alignment remedies regression of visual instruction tuning on language model

arxiv url: http://arxiv.org/abs/2402.10884v1
Date: Fri, 16 Feb 2024 18:42:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 14:37:00.292849
Title: Multi-modal preference alignment remedies regression of visual instruction tuning on language model
Title（参考訳）: マルチモーダル選好アラインメントは言語モデルにおける視覚命令チューニングの回帰を改善する
Authors: Shengzhi Li, Rongyu Lin, Shichao Pei
Abstract要約: そこで本研究では,小データセットに細粒度アノテーションを付加した蒸留方式のマルチモーダルアライメントモデルを提案する。以上の結果から,DPOでは,データスケールが小さいにも関わらず,Vicunaの6.57とLLaVAの5.99に比べて,MT-Benchで6.73のスコアを達成できた。
参考スコア（独自算出の注目度）: 7.9311636400991485
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In production, multi-modal large language models (MLLMs) are expected to support multi-turn queries of interchanging image and text modalities. However, the current MLLMs trained with visual-question-answering (VQA) datasets could suffer from degradation, as VQA datasets lack the diversity and complexity of the original text instruction datasets which the underlying language model had been trained with. To address this challenging degradation, we first collect a lightweight (6k entries) VQA preference dataset where answers were annotated by Gemini for 5 quality metrics in a granular fashion, and investigate standard Supervised Fine-tuning, rejection sampling, Direct Preference Optimization (DPO), and SteerLM. Our findings indicate that the with DPO we are able to surpass instruction-following capabilities of the language model, achieving a 6.73 score on MT-Bench, compared to Vicuna's 6.57 and LLaVA's 5.99 despite small data scale. This enhancement in textual instruction proficiency correlates with boosted visual instruction performance (+4.9\% on MM-Vet, +6\% on LLaVA-Bench), with minimal alignment tax on visual knowledge benchmarks compared to previous RLHF approach. In conclusion, we propose a distillation-based multi-modal alignment model with fine-grained annotations on a small dataset that reconciles the textual and visual performance of MLLMs, restoring and boosting language capability after visual instruction tuning.
Abstract（参考訳）: 実運用環境では,マルチモーダル大言語モデル (MLLM) が画像の相互変換とテキストモダリティのマルチターンクエリをサポートすることが期待されている。しかしながら、現在のMLLMでは、VQAデータセットは、基礎となる言語モデルがトレーニングしたオリジナルのテキスト命令データセットの多様性と複雑さを欠いているため、VQAデータセットでトレーニングされている。この難易度に対処するために、まず軽量(6kエントリ)のVQA選好データセットを収集し、Geminiによって5つの品質指標に注釈を付け、標準のSupervised Fine-tuning、rejection sample、Direct Preference Optimization (DPO)、SteerLMを調査した。以上の結果から,DPOでは,データスケールが小さいにも関わらず,Vicunaの6.57とLLaVAの5.99に比べて,MT-Benchで6.73のスコアを達成できた。このテキスト命令の熟練度の向上は、以前のRLHFアプローチと比較して視覚知識ベンチマークに最小限のアライメント税を課すことで、視覚的命令性能の向上(MM-Vetでは+4.9\%、LLaVA-Benchでは+6\%)と相関する。そこで本研究では,MLLMのテキストおよび視覚的性能を調整し,視覚的指導訓練後の言語能力の回復と向上を図る,細粒度アノテーションを用いた蒸留ベースのマルチモーダルアライメントモデルを提案する。

関連論文リスト

CIMR: Contextualized Iterative Multimodal Reasoning for Robust Instruction Following in LVLMs [2.238122883754112]
CIMRは、コンテキスト対応の反復推論と自己補正モジュールを導入した、新しいフレームワークである。 CIMRの精度は91.5%で、GPT-4V、LLaVA-1.5、MiniGPT-4、InstructBLIPなどの最先端モデルを上回る。
論文参考訳（メタデータ） (2025-07-22T18:39:18Z)
MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文参考訳（メタデータ） (2025-03-26T12:42:37Z)
Multimodal Preference Data Synthetic Alignment with Reward Model [23.978820500281213]
本稿では,DPOトレーニングによる効果的なマルチモーダルアライメントのための人選好のプロキシとして,報酬モデルを用いて合成データを生成する新しいフレームワークを提案する。実験結果から、生成モデルや報酬モデルのような選択された合成データの統合は、人手による注釈付きデータへの依存を効果的に軽減できることが示された。
論文参考訳（メタデータ） (2024-12-23T09:29:40Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
MDCure: A Scalable Pipeline for Multi-Document Instruction-Following [40.201087646516335]
LLMのMD能力を高めるために,スケーラブルで効果的な微調整パイプラインであるMDCureを導入する。 MDCureは、ターゲティングプロンプトを介して関連記事の集合から高品質な合成MD命令データを生成する。また、MD設定のためのトレーニングユーティリティに基づいて生成されたデータをフィルタリングする多目的報酬モデルであるMDCureRMを導入する。
論文参考訳（メタデータ） (2024-10-30T21:08:07Z)
Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文参考訳（メタデータ） (2024-09-27T08:20:59Z)
DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。 DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文参考訳（メタデータ） (2024-06-17T17:42:57Z)
COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文参考訳（メタデータ） (2024-01-17T04:43:45Z)
Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文参考訳（メタデータ） (2023-12-17T09:44:27Z)
Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels? [158.96530466189986]
マルチモーダルな大規模言語モデル (MLLM) は、視覚言語タスクにおいて有望な命令に従う能力を示している。我々は,事前学習や微調整において,そのようなデータに対して明示的に訓練されていないにもかかわらず,画素内のテキスト命令をマルチモーダルモデルでどの程度理解できるかを検討する。我々は、テキストモダリティと視覚モダリティの両方で、堅牢な指示を実行できる一般化可能なモデルであるv-MLLMを訓練する。
論文参考訳（メタデータ） (2023-11-29T14:08:53Z)
SVIT: Scaling up Visual Instruction Tuning [26.794950789335402]
我々は,会話質問応答(QA)ペアの1.6M,QAペアの1.6M,QAペアの1.0M,詳細な画像記述の106Kを含む4200万の視覚的インストラクションチューニングデータを構築した。実験では、提案したデータセットに基づいてトレーニングされたSVIT-v1.5が、一般的なベンチマークで最先端のマルチモーダル大規模言語モデルを上回っていることを確認した。
論文参考訳（メタデータ） (2023-07-09T03:25:14Z)
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。 PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文参考訳（メタデータ） (2022-03-12T09:33:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。