論文の概要: Instructify: Demystifying Metadata to Visual Instruction Tuning Data Conversion
- arxiv url: http://arxiv.org/abs/2505.18115v1
- Date: Fri, 23 May 2025 17:14:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.245193
- Title: Instructify: Demystifying Metadata to Visual Instruction Tuning Data Conversion
- Title(参考訳): Instructify: メタデータをビジュアルインストラクションチューニングデータ変換に変換する
- Authors: Jacob Hansen, Wei Lin, Junmo Kang, Muhammad Jehanzeb Mirza, Hongyin Luo, Rogerio Feris, Alan Ritter, James Glass, Leonid Karlinsky,
- Abstract要約: オープンなLCMを用いて、利用可能なメタデータをVisIT命令に変換するための、オープンで統一されたレシピとアプローチを提案する。
我々のアプローチは、同じ画像データやメタデータソースに適用した場合、利用可能なVisITデータセットのデータ品質を再現または向上することができる。
- 参考スコア(独自算出の注目度): 41.10541692094663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Instruction Tuning (VisIT) data, commonly available as human-assistant conversations with images interleaved in the human turns, are currently the most widespread vehicle for aligning strong LLMs to understand visual inputs, converting them to strong LMMs. While many VisIT datasets are available, most are constructed using ad-hoc techniques developed independently by different groups. They are often poorly documented, lack reproducible code, and rely on paid, closed-source model APIs such as GPT-4, Gemini, or Claude to convert image metadata (labels) into VisIT instructions. This leads to high costs and makes it challenging to scale, enhance quality, or generate VisIT data for new datasets. In this work, we address these challenges and propose an open and unified recipe and approach,~\textbf{\method}, for converting available metadata to VisIT instructions using open LLMs. Our multi-stage \method features an efficient framework for metadata grouping, quality control, data and prompt organization, and conversation sampling. We show that our approach can reproduce or enhance the data quality of available VisIT datasets when applied to the same image data and metadata sources, improving GPT-4 generated VisIT instructions by ~3\% on average and up to 12\% on individual benchmarks using open models, such as Gemma 2 27B and LLaMa 3.1 70B. Additionally, our approach enables effective performance scaling - both in quantity and quality - by enhancing the resulting LMM performance across a wide range of benchmarks. We also analyze the impact of various factors, including conversation format, base model selection, and resampling strategies. Our code, which supports the reproduction of equal or higher-quality VisIT datasets and facilities future metadata-to-VisIT data conversion for niche domains, is released at https://github.com/jacob-hansen/Instructify.
- Abstract(参考訳): 視覚インストラクション・チューニング(VisIT)データは現在、人間のターンにインターリーブされた画像と人間の助けによる会話として利用されており、視覚入力を理解するために強力なLLMを調整し、それらを強力なLMMに変換するための最も広範な手段である。
多くのVisITデータセットが利用可能であるが、ほとんどが異なるグループによって独立して開発されたアドホック技術を用いて構築されている。
GPT-4、Gemini、Claudeといった有償のクローズドソースモデルAPIを使って画像メタデータ(ラベル)をVisIT命令に変換する。
これにより、コストが高くなり、新しいデータセットのスケール、品質の向上、あるいはVisITデータの生成が困難になる。
本研究では,これらの課題に対処し,オープン LLM を用いて利用可能なメタデータを VisIT 命令に変換するための,オープンで統一されたレシピとアプローチ,~\textbf{\method} を提案する。
当社のマルチステージ \method は,メタデータグループ化,品質管理,データと迅速な組織化,会話サンプリングのための効率的なフレームワークを備えている。
我々は,同じ画像データやメタデータソースに適用した場合,利用可能なVisITデータセットのデータ品質を再現あるいは向上し,Gemma 2 27B や LLaMa 3.1 70B といったオープンモデルを用いて,個々のベンチマークにおいて,GPT-4 生成した VisIT 命令を平均 3 % 以上,最大 12 % まで改善できることを示す。
さらに,本手法は,幅広いベンチマークで得られたLMM性能を向上することにより,量と品質の両方において,効果的なパフォーマンススケーリングを可能にする。
また,会話形式,基本モデル選択,再サンプリング戦略など,さまざまな要因の影響も分析した。
我々のコードは、ニッチドメインのための同等または高品質のVisITデータセットと将来的なメタデータからVisITデータへの変換をサポートするもので、https://github.com/jacob-hansen/Instructifyでリリースされます。
関連論文リスト
- MMKB-RAG: A Multi-Modal Knowledge-Based Retrieval-Augmented Generation Framework [15.410873298893817]
MMKB-RAG(Multi-Modal Knowledge-based Retrieval-Augmented Generation)を提案する。
このフレームワークは、モデル固有の知識境界を利用して、検索プロセスのセマンティックタグを動的に生成する。
知識に基づく視覚的質問応答タスクに関する大規模な実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-04-14T10:19:47Z) - MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。
モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。
以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文 参考訳(メタデータ) (2025-03-26T12:42:37Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data [35.85909368345219]
大規模マルチモーダル命令データセットであるInfinity-MMを導入する。
統一された前処理を実行し、多様性と正確性を保証する4000万以上のサンプルからなるデータセットを作成しました。
タグ付けシステムとオープンソースのVision-Languageモデルに基づく合成命令生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T09:03:48Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。
近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。
我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文 参考訳(メタデータ) (2024-01-17T04:43:45Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。