Fugu-MT 論文翻訳(概要): Less is More: High-value Data Selection for Visual Instruction Tuning

論文の概要: Less is More: High-value Data Selection for Visual Instruction Tuning

arxiv url: http://arxiv.org/abs/2403.09559v3
Date: Wed, 09 Oct 2024 03:51:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 23:11:03.652157
Title: Less is More: High-value Data Selection for Visual Instruction Tuning
Title（参考訳）: より少ない:ビジュアルインストラクションチューニングのための高価値データ選択
Authors: Zikang Liu, Kun Zhou, Wayne Xin Zhao, Dawei Gao, Yaliang Li, Ji-Rong Wen,
Abstract要約: 本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
参考スコア（独自算出の注目度）: 127.38740043393527
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual instruction tuning is the key to building large vision language models~(LVLMs), which can greatly improve the task generalization and solving capabilities by learning a mixture of instruction data from diverse visual tasks. Previous work mostly collects multiple existing visual instruction datasets via heuristic ways for training (even more than a million instructions), which may introduce data redundancy and enlarge the training cost. To investigate this issue, we conduct a series of empirical studies, which reveal a significant redundancy within the visual instruction datasets, and show that greatly reducing the amount of instructions from several tasks even do not affect the performance. Based on the findings, we propose a high-value data selection approach TIVE, to eliminate redundancy within the visual instruction data and reduce the training cost. In TIVE, we first estimate the instance influence score on its corresponding task, and the task difficulty score, based on the gradient-based influence functions. Then, we leverage the two kinds of scores to determine the task proportion within the selected visual instruction subset, and select high-value instances for each task, respectively. Experiments on various LVLMs show that our approach using only about 15% data can achieve comparable average performance to the full-data fine-tuned model across eight benchmarks, even surpassing it on four of the benchmarks. Our code and data will be publicly released.
Abstract（参考訳）: 視覚的インストラクションチューニングは大きな視覚言語モデル(LVLM)を構築する鍵であり、多様な視覚的タスクから命令データの混合を学習することでタスクの一般化と解決能力を大幅に向上させることができる。これまでの作業は、トレーニングのためのヒューリスティックな方法(100万以上の命令)を通じて、複数の既存のビジュアルインストラクションデータセットを収集していた。そこで本研究では,視覚的命令データセットに有意な冗長性を示す一連の実証的研究を行い,複数のタスクからの命令の量を大幅に削減しても性能に影響を与えないことを示す。この結果に基づいて,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法であるTIVEを提案する。 TIVEでは、まず、その対応するタスクのインスタンス影響スコアと、勾配に基づく影響関数に基づいてタスク難易度スコアを推定する。次に,2種類のスコアを活用して,選択した視覚的命令サブセット内のタスク比率を決定し,各タスクに対して高い値のインスタンスを選択する。様々なLVLM実験により, 約15%のデータを用いたアプローチは, 8つのベンチマークにおいて, 4つのベンチマークを上回り, フルデータ微調整モデルに匹敵する平均性能を達成できることが示されている。コードとデータは公開されます。

関連論文リスト

VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning [33.115992843637564]
そこで本研究では,インストラクションチューニング時の視覚入力の限界寄与を計測する基本データ選択フレームワークを提案する。 VisNecは、予測損失と視覚的コンテキストとを比較して、トレーニングインスタンスが視覚的にクリティカルなのか、冗長なのか、あるいは不一致なのかを識別する。 VisNecが選択したLLaVA-665Kデータセットの15%しかトレーニングしていない10のベンチマークでは、完全なデータパフォーマンスの100.2%が達成されている。
論文参考訳（メタデータ） (2026-03-01T17:26:02Z)
ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning [18.989158560585675]
大規模データセットのトレーニングは、計算コストが高く、データの冗長性のために非効率である。 ScalSelectは、線形時間複雑性を持つ訓練不要なマルチモーダルデータ選択法である。 ScalSelectはデータセット全体のトレーニングパフォーマンスの97.5%以上を16%のデータで達成し、一部の設定ではフルデータトレーニングよりも優れています。
論文参考訳（メタデータ） (2026-02-12T06:38:49Z)
Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents [62.616106562146776]
textbfVisual-Centric textbfSelection approach by textbfAgents Collaboration (ViSA)を提案する。提案手法は,(1)視覚エージェントの協調による画像情報定量化手法により,リッチな視覚情報を持つ画像を選択する方法,(2)高品質な画像に関連する高品質な画像を選択する視覚中心の指示品質評価手法からなる。
論文参考訳（メタデータ） (2025-02-27T09:37:30Z)
ICONS: Influence Consensus for Vision-Language Data Selection [39.454024810266176]
我々は、視覚言語データ選択のための勾配駆動型インフルエンス・コンセンサス・アプローチであるICONSを紹介する。クロスタスク・インフルエンス・コンセンサス(英語版)は、複数のタスクで一貫して価値のあるサンプルを特定するために使用される。実験により、選択したデータに基づいてトレーニングされたモデル(LLaVA-665Kの20%)が、完全なデータセットを使用して得られた相対的なパフォーマンスの98.6%を達成することが示された。
論文参考訳（メタデータ） (2024-12-31T21:33:38Z)
Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [65.01625761120924]
我々は、貴重なサンプルはタスクを知らせ、非冗長であり、サンプル分布(つまり、外れ値ではない)を表すべきであると論じる。我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの100.8%を達成している。
論文参考訳（メタデータ） (2024-12-09T08:36:10Z)
ROSE: A Reward-Oriented Data Selection Framework for LLM Task-Specific Instruction Tuning [29.001249598245]
Reward-Oriented inStruction data sElectionを導入し、タスク固有の命令チューニングのためのデータ選択を最適化する。 ROSEは、最もタスク関連のトレーニングデータポイントを選択するために、数ショットの選好検証セットに対するトレーニングデータポイントの影響を近似するために影響定式化を適用する。
論文参考訳（メタデータ） (2024-12-01T01:01:09Z)
DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors [13.700885996266457]
行動クローニングやオフライン強化学習(RL)を通じて収集されたデータから学習することは、ジェネラリストエージェントをスケールするための強力なレシピである。オフラインRLエージェントの堅牢性を評価するため,DeepMind Control Visual Benchmark (DMC-VB) をDeepMind Control Suiteで収集した。そこで,本研究では,事前学習のための表現学習手法を評価するための3つのベンチマークを提案し,最近提案したいくつかの手法の実験を行った。
論文参考訳（メタデータ） (2024-09-26T23:07:01Z)
Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文参考訳（メタデータ） (2024-06-16T16:15:20Z)
Data-CUBE: Data Curriculum for Instruction-based Sentence Representation Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文参考訳（メタデータ） (2024-01-07T18:12:20Z)
One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2023-12-16T03:33:12Z)
Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。 LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文参考訳（メタデータ） (2023-06-26T10:26:33Z)
MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning [24.741736629886564]
インストラクションチューニングは、命令によって指定されたタスクで事前訓練された言語モデルを微調整する新しい学習パラダイムである。 MUL-TIINSTRUCTは,最初のマルチモーダル・インストラクション・チューニング・ベンチマーク・データセットである。各種マルチモーダルタスクにおけるゼロショット性能と,テキストのみの命令データセットからの変換学習の利点を示す。
論文参考訳（メタデータ） (2022-12-21T05:17:06Z)
Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文参考訳（メタデータ） (2022-10-12T15:02:04Z)
Understanding and Improving Information Transfer in Multi-Task Learning [14.43111978531182]
すべてのタスクに対して共有モジュール,各タスクに対して別個の出力モジュールを備えたアーキテクチャについて検討する。タスクデータ間の不一致が負の転送(または性能の低下)を引き起こし、ポジティブな転送に十分な条件を提供することを示す。理論的洞察から着想を得た結果,タスクの埋め込みレイヤの整合がマルチタスクトレーニングやトランスファー学習のパフォーマンス向上につながることが示された。
論文参考訳（メタデータ） (2020-05-02T23:43:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。