Fugu-MT 論文翻訳(概要): COCO is "ALL'' You Need for Visual Instruction Fine-tuning

論文の概要: COCO is "ALL'' You Need for Visual Instruction Fine-tuning

arxiv url: http://arxiv.org/abs/2401.08968v1
Date: Wed, 17 Jan 2024 04:43:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 17:01:15.930517
Title: COCO is "ALL'' You Need for Visual Instruction Fine-tuning
Title（参考訳）: COCOは、ビジュアルインストラクションの微調整に必要な「すべて」
Authors: Xiaotian Han, Yiqi Wang, Bohan Zhai, Quanzeng You, Hongxia Yang
Abstract要約: ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
参考スコア（独自算出の注目度）: 39.438410070172125
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multi-modal Large Language Models (MLLMs) are increasingly prominent in the field of artificial intelligence. Visual instruction fine-tuning (IFT) is a vital process for aligning MLLMs' output with user's intentions. High-quality and diversified instruction following data is the key to this fine-tuning process. Recent studies propose to construct visual IFT datasets through a multifaceted approach: transforming existing datasets with rule-based templates, employing GPT-4 for rewriting annotations, and utilizing GPT-4V for visual dataset pseudo-labeling. LLaVA-1.5 adopted similar approach and construct LLaVA-mix-665k, which is one of the simplest, most widely used, yet most effective IFT datasets today. Notably, when properly fine-tuned with this dataset, MLLMs can achieve state-of-the-art performance on several benchmarks. However, we noticed that models trained with this dataset often struggle to follow user instructions properly in multi-round dialog. In addition, tradition caption and VQA evaluation benchmarks, with their closed-form evaluation structure, are not fully equipped to assess the capabilities of modern open-ended generative MLLMs. This problem is not unique to the LLaVA-mix-665k dataset, but may be a potential issue in all IFT datasets constructed from image captioning or VQA sources, though the extent of this issue may vary. We argue that datasets with diverse and high-quality detailed instruction following annotations are essential and adequate for MLLMs IFT. In this work, we establish a new IFT dataset, with images sourced from the COCO dataset along with more diverse instructions. Our experiments show that when fine-tuned with out proposed dataset, MLLMs achieve better performance on open-ended evaluation benchmarks in both single-round and multi-round dialog setting.
Abstract（参考訳）: MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。高品質で多様なデータに基づく命令が、この微調整プロセスの鍵となる。近年の研究では、既存のデータセットをルールベースのテンプレートで変換し、アノテーションの書き直しにGPT-4を、ビジュアルデータセットの擬似ラベルにGPT-4Vを活用する、多面的アプローチによる視覚IFTデータセットの構築が提案されている。 LLaVA-1.5も同様のアプローチを採用し、LLaVA-mix-665kを構築した。特に、このデータセットを適切に微調整すると、MLLMはいくつかのベンチマークで最先端のパフォーマンスを達成できる。しかし、このデータセットでトレーニングされたモデルは、マルチラウンドダイアログで適切にユーザー指示に従うのに苦労していることに気付きました。さらに, 従来のキャプションとVQA評価ベンチマークは, そのクローズドフォーム評価構造とともに, 現代のオープンエンド生成MLLMの能力を評価するために完全には装備されていない。この問題はLLaVA-mix-665kデータセットに固有のものではないが、画像キャプションやVQAソースから構築された全てのIFTデータセットで潜在的な問題となる可能性がある。 MLLMのIFTには,アノテーションによる多様で高品質な詳細な命令を持つデータセットが不可欠である。本研究では,COCOデータセットから取得した画像と,より多様なインストラクションを備えた新しいIFTデータセットを確立する。提案したデータセットを微調整すると,MLLMは単一ラウンドおよび複数ラウンドのダイアログ設定において,オープンエンド評価ベンチマークの性能が向上することを示す。

関連論文リスト

Instructify: Demystifying Metadata to Visual Instruction Tuning Data Conversion [41.10541692094663]
オープンなLCMを用いて、利用可能なメタデータをVisIT命令に変換するための、オープンで統一されたレシピとアプローチを提案する。我々のアプローチは、同じ画像データやメタデータソースに適用した場合、利用可能なVisITデータセットのデータ品質を再現または向上することができる。
論文参考訳（メタデータ） (2025-05-23T17:14:12Z)
SLearnLLM: A Self-Learning Framework for Efficient Domain-Specific Adaptation of Large Language Models [7.44035983292392]
人間の学習パターンにインスパイアされた大規模言語モデル(LLM)のための自己学習フレームワークを提案する。このフレームワークは特定のドメインの細調整(SFT)データセットを入力として取り込む。また,本手法は,全データセットの微調整で得られたものと比較して,トレーニング時間を大幅に短縮することを示す。
論文参考訳（メタデータ） (2025-05-23T04:50:54Z)
MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文参考訳（メタデータ） (2025-03-26T12:42:37Z)
Are They the Same? Exploring Visual Correspondence Shortcomings of Multimodal LLMs [42.57007182613631]
我々は,30種類のMLLMに対して,相当なベンチマークを行うベンチマークを構築した。オブジェクトレベルのコントラスト学習と命令強化戦略を備えた新しいコントラスト型MLLMであるCoLVAを提案する。その結果,CoLVAはMMVMベンチマークで51.06%の総合精度(OA)を達成し,それぞれGPT-4o,ベースラインが8.41%,OA23.58%を上回った。
論文参考訳（メタデータ） (2025-01-08T18:30:53Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文参考訳（メタデータ） (2024-07-29T17:04:34Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。 LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文参考訳（メタデータ） (2023-12-11T09:44:41Z)
What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning [115.19451843294154]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上のためのビジュアルインストラクションチューニング本稿では,高品質な視覚的推論命令を自動生成するための体系的アプローチを提案する。我々のデータセットは、MME-CognitionにおけるMiniGPT-4とBLIP-2の性能をそれぞれ32.6%、28.8%向上させるなど、比較したMLLMの性能を一貫して向上させる。
論文参考訳（メタデータ） (2023-11-02T15:36:12Z)
SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。 SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文参考訳（メタデータ） (2023-10-01T17:59:20Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。