論文の概要: Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation
- arxiv url: http://arxiv.org/abs/2409.18541v2
- Date: Mon, 16 Dec 2024 10:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:50:51.413364
- Title: Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation
- Title(参考訳): Align$^2$LLaVA:マルチモーダル・インストラクション・キュレーションのためのケースド人間と大言語モデル優先アライメント
- Authors: Hongzhe Huang, Jiang Liu, Zhewen Yu, Li Cai, Dian Jiao, Wenqiao Zhang, Siliang Tang, Juncheng Li, Hao Jiang, Haoyuan Li, Yueting Zhuang,
- Abstract要約: 本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
- 参考スコア(独自算出の注目度): 56.75665429851673
- License:
- Abstract: Recent advances in Multi-modal Large Language Models (MLLMs), such as LLaVA-series models, are driven by massive machine-generated instruction-following data tuning. Such automatic instruction collection pipelines, however, inadvertently introduce significant variability in data quality. This paper introduces a novel instruction curation algorithm, derived from two unique perspectives, human and LLM preference alignment, to compress this vast corpus of machine-generated multimodal instructions to a compact and high-quality form: (i) For human preference alignment, we have collected a machine-generated multimodal instruction dataset and established a comprehensive set of both subjective and objective criteria to guide the data quality assessment critically from human experts. By doing so, a reward model was trained on the annotated dataset to internalize the nuanced human understanding of instruction alignment. (ii) For LLM preference alignment, given the instruction selected by the reward model, we propose leveraging the inner LLM used in MLLM to align the writing style of visual instructions with that of the inner LLM itself, resulting in LLM-aligned instruction improvement. Extensive experiments demonstrate that we can maintain or even improve model performance by compressing synthetic multimodal instructions by up to 90%. Impressively, by aggressively reducing the training instructions from 158k to 14k (9$\times$ smaller), our model consistently outperforms its full-size dataset counterpart across various MLLM benchmarks. Our project is available at https://github.com/DCDmllm/Align2LLaVA.
- Abstract(参考訳): LLaVAシリーズモデルのようなMLLM(Multi-modal Large Language Models)の最近の進歩は、大規模な機械による命令追従データチューニングによって駆動される。
しかし、このような自動命令収集パイプラインは、必然的にデータ品質に大きな変動をもたらす。
本稿では、この機械生成マルチモーダル命令の膨大なコーパスをコンパクトかつ高品質な形式に圧縮するために、人間とLLMの選好アライメントという2つのユニークな視点から導かれた新しい命令キュレーションアルゴリズムを提案する。
一 人間の嗜好調整のために、機械生成マルチモーダル・インストラクション・データセットを収集し、主観的・客観的な基準の包括的セットを構築し、データ品質評価を人的専門家から批判的に導く。
これにより、アノテートされたデータセットに基づいて報酬モデルを訓練し、命令アライメントに関する微妙な人間の理解を内部化する。
2) 報奨モデルにより選択された指示を考慮に入れたLLM選好アライメントにおいては,MLLMで使用される内部LLMを利用して内部LLM自体の書字スタイルを整列させ,LLMに整列した指示を改善することを提案する。
大規模な実験により、合成マルチモーダル命令を最大90%圧縮することで、モデル性能を維持または改善できることが実証された。
興味深いことに、トレーニング命令を158kから14k(9$\times$ small)に積極的に削減することで、我々のモデルはMLLMベンチマークで比較したフルサイズのデータセットを一貫して上回ります。
私たちのプロジェクトはhttps://github.com/DCDmllm/Align2LLaVA.comで利用可能です。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs [47.94710556156627]
MIA-Benchは、マルチモーダルな大規模言語モデル(MLLM)を、複雑な命令に厳密に準拠する能力に基づいて評価するために設計されたベンチマークである。
私たちのベンチマークでは、400のイメージプロンプトペアで構成されており、それぞれが階層化された命令に対するモデルのコンプライアンスに挑戦するために作られています。
論文 参考訳(メタデータ) (2024-07-01T17:53:35Z) - UICoder: Finetuning Large Language Models to Generate User Interface Code through Automated Feedback [21.858896845159208]
大規模言語モデル(LLM)は、視覚的に関連する設計をコンパイルし、生成するUIコードを生成するのに苦労する。
生成を改善するための既存のアプローチは、高価な人間のフィードバックやプロプライエタリなモデルを蒸留することに依存している。
提案手法は,既存のLLMから始まり,大規模合成データセットを自己生成することにより,改良されたモデルを反復的に生成する。
論文 参考訳(メタデータ) (2024-06-11T21:53:46Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Towards Robust Instruction Tuning on Multimodal Large Language Models [25.506776502317436]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale
Instructions [28.937552799649808]
命令を微調整した大規模言語モデル(LLM)は、優れた生成能力を示す。
我々は既存の命令と新しく生成された命令の両方に基づいて258万の命令を大規模に開発する。
我々は、エンコーダデコーダとデコーダのみのファミリーの両方のモデルを含む、LaMini-LMと呼ばれる様々なモデルの群を微調整する。
論文 参考訳(メタデータ) (2023-04-27T17:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。