論文の概要: TaskGalaxy: Scaling Multi-modal Instruction Fine-tuning with Tens of Thousands Vision Task Types
- arxiv url: http://arxiv.org/abs/2502.09925v1
- Date: Fri, 14 Feb 2025 05:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:35.393935
- Title: TaskGalaxy: Scaling Multi-modal Instruction Fine-tuning with Tens of Thousands Vision Task Types
- Title(参考訳): TaskGalaxy: 数千の視覚タスクタイプによるマルチモーダルインストラクションファインタニングのスケーリング
- Authors: Jiankang Chen, Tianke Zhang, Changyi Liu, Haojie Ding, Yaya Shi, Feng Cheng, Huihui Xiao, Bin Wen, Fan Yang, Tingting Gao, Di Zhang,
- Abstract要約: マルチモーダルビジュアル言語モデルは、モデルアーキテクチャの進歩、トレーニング技術、高品質なデータによって推進され、オープンワールドのアプリケーションで注目を集めている。
微調整データセットにおけるタスクの多様性を高めるための既存の取り組みは、手作業ラベリングの労働集約的なプロセスによって妨げられている。
本研究では,19,227の階層型タスクタイプと413,648のサンプルからなる大規模マルチモーダル命令微調整データセットであるTaskGalaxyを提案する。
- 参考スコア(独自算出の注目度): 8.755996117965571
- License:
- Abstract: Multimodal visual language models are gaining prominence in open-world applications, driven by advancements in model architectures, training techniques, and high-quality data. However, their performance is often limited by insufficient task-specific data, leading to poor generalization and biased outputs. Existing efforts to increase task diversity in fine-tuning datasets are hindered by the labor-intensive process of manual task labeling, which typically produces only a few hundred task types. To address this, we propose TaskGalaxy, a large-scale multimodal instruction fine-tuning dataset comprising 19,227 hierarchical task types and 413,648 samples. TaskGalaxy utilizes GPT-4o to enrich task diversity by expanding from a small set of manually defined tasks, with CLIP and GPT-4o filtering those that best match open-source images, and generating relevant question-answer pairs. Multiple models are employed to ensure sample quality. This automated process enhances both task diversity and data quality, reducing manual intervention. Incorporating TaskGalaxy into LLaVA-v1.5 and InternVL-Chat-v1.0 models shows substantial performance improvements across 16 benchmarks, demonstrating the critical importance of task diversity. TaskGalaxy is publicly released at https://github.com/Kwai-YuanQi/TaskGalaxy.
- Abstract(参考訳): マルチモーダルビジュアル言語モデルは、モデルアーキテクチャの進歩、トレーニング技術、高品質なデータによって推進され、オープンワールドのアプリケーションで注目を集めている。
しかし、それらの性能はタスク固有の不十分なデータによって制限されることが多く、一般化が不十分で出力が偏っている。
微調整データセットにおけるタスクの多様性を高める既存の取り組みは、通常数百のタスクタイプしか生成しない手作業ラベリングの労働集約的なプロセスによって妨げられている。
そこで本研究では,19,227の階層型タスクタイプと413,648のサンプルからなる大規模マルチモーダル命令微調整データセットであるTaskGalaxyを提案する。
TaskGalaxyは、GPT-4oを使用して、手動で定義されたタスクの小さなセットから拡張し、CLIPとGPT-4oで、オープンソースイメージに最もよくマッチするタスクをフィルタリングし、関連する質問と回答のペアを生成する。
サンプルの品質を確保するために複数のモデルが使用される。
この自動化プロセスはタスクの多様性とデータ品質の両方を強化し、手作業による介入を減らす。
TaskGalaxyをLLaVA-v1.5とInternVL-Chat-v1.0モデルに組み込むと、16のベンチマークで大幅なパフォーマンス向上が見られ、タスクの多様性の重要な重要性が示される。
TaskGalaxyはhttps://github.com/Kwai-YuanQi/TaskGalaxy.comで公開されている。
関連論文リスト
- An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - Prompt Tuning with Soft Context Sharing for Vision-Language Models [42.61889428498378]
本稿では,複数目的の複数ショットタスクにおいて,事前学習した視覚言語モデルを協調的にチューニングする新しい手法を提案する。
我々は,SoftCPTがシングルタスクのプロンプトチューニング方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-29T10:19:10Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Exceeding the Limits of Visual-Linguistic Multi-Task Learning [0.0]
同様に構造化された入力データを共有する1000のユニークな分類タスクを構築した。
これらの分類タスクは、異なるeコマースウェブサイトの製品階層の学習に重点を置いている。
マルチタスク学習(MTL)を用いて,これらの課題を一斉に解決する。
論文 参考訳(メタデータ) (2021-07-27T19:42:14Z) - XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation [80.18830380517753]
我々は新しいタスク非依存蒸留フレームワーク XtremeDistilTransformers を開発した。
本研究は, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。
論文 参考訳(メタデータ) (2021-06-08T17:49:33Z) - HyperGrid: Efficient Multi-Task Transformers with Grid-wise Decomposable
Hyper Projections [96.64246471034195]
我々は,マルチタスク学習を効果的に行う新しいアプローチであるtextscHyperGridを提案する。
本手法は,微調整とマルチタスク学習のギャップを埋めるのに役立つ。
論文 参考訳(メタデータ) (2020-07-12T02:49:16Z) - Using a thousand optimization tasks to learn hyperparameter search
strategies [53.318615663332274]
本稿では、ニューラルネットワークのトレーニングと評価に使用するニューラルネットワークのデータセットであるTaskSetを紹介する。
TaskSetはそのサイズと多様性に特有で、完全な接続または畳み込みネットワークによるイメージ分類から変分オートエンコーダ、さまざまなデータセット上の非ボリューム保存フローまで、数千以上のタスクを含んでいる。
論文 参考訳(メタデータ) (2020-02-27T02:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。