論文の概要: Curriculum Learning with Quality-Driven Data Selection
- arxiv url: http://arxiv.org/abs/2407.00102v1
- Date: Thu, 27 Jun 2024 07:20:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 06:30:11.879679
- Title: Curriculum Learning with Quality-Driven Data Selection
- Title(参考訳): 品質駆動型データ選択によるカリキュラム学習
- Authors: Biao Wu, Fang Meng, Ling Chen,
- Abstract要約: OpenAIのGPT-4は、MLLM(Multimodal Large Language Models)の開発に多大な関心を集めている。
画像とテキストの相関とモデルパープレクシリティを利用して、様々な品質のデータを評価し、選択する新しいデータ選択手法を提案する。
本研究は,各種データセットを対象とした総合的な実験を含む。
- 参考スコア(独自算出の注目度): 6.045582958441303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The impressive multimodal capabilities demonstrated by OpenAI's GPT-4 have generated significant interest in the development of Multimodal Large Language Models (MLLMs). Visual instruction tuning of MLLMs with machine-generated instruction-following data has shown to enhance zero-shot capabilities across various tasks. However, there has been limited exploration into controlling the quality of the instruction data.Current methodologies for data selection in MLLMs often rely on single, unreliable scores or use downstream tasks for selection, which is time-consuming and can lead to potential overfitting on the chosen evaluation datasets. To mitigate these limitations, we propose a novel data selection methodology that utilizes image-text correlation and model perplexity to evaluate and select data of varying quality. This approach leverages the distinct distribution of these two attributes, mapping data quality into a two-dimensional space that allows for the selection of data based on their location within this distribution. By utilizing this space, we can analyze the impact of task type settings, used as prompts, on data quality. Additionally, this space can be used to construct multi-stage subsets of varying quality to facilitate curriculum learning. Our research includes comprehensive experiments conducted on various datasets. The results emphasize substantial enhancements in five commonly assessed capabilities compared to using the complete dataset. Our codes, data, and models are publicly available at: \url{https://anonymous.4open.science/r/EHIT-31B4}
- Abstract(参考訳): OpenAIのGPT-4で実証された印象的なマルチモーダル機能は、MLLM(Multimodal Large Language Models)の開発に多大な関心を集めている。
機械学習による命令追従データを用いたMLLMの視覚的インストラクションチューニングにより,様々なタスクにおけるゼロショット機能の向上が示されている。
MLLMにおけるデータ選択の現在の方法論は、単一で信頼性の低いスコアや、選択のための下流タスクに頼っていることが多いため、時間を要するため、選択した評価データセットに過度に適合する可能性がある。
これらの制約を緩和するために,画像-テキスト相関とモデルパープレキシティを利用して,様々な品質のデータを評価し,選択する新しいデータ選択手法を提案する。
このアプローチは、これらの2つの属性の異なる分布を利用し、データ品質を2次元空間にマッピングすることで、この分布内の位置に基づいてデータの選択を可能にする。
この空間を利用することで、プロンプトとして使用されるタスクタイプ設定がデータ品質に与える影響を分析することができる。
さらに、この空間は、カリキュラム学習を容易にするために、様々な品質の多段階のサブセットを構築するために使用できる。
本研究は,各種データセットを対象とした総合的な実験を含む。
その結果、完全なデータセットを使用する場合と比較して、一般的に評価される5つの機能において、大幅な拡張が強調された。
私たちのコード、データ、モデルは、次のように公開されています。
関連論文リスト
- Exploring Large Language Models for Feature Selection: A Data-centric Perspective [17.99621520553622]
大規模言語モデル(LLM)は様々なドメインに影響を与え、例外的な少数ショットとゼロショットの学習機能を活用している。
我々は,データ中心の観点からLLMに基づく特徴選択手法を探求し,理解することを目指している。
本研究は,テキストベースの特徴選択手法の有効性とロバスト性を強調し,実世界の医療応用を用いてその可能性を示す。
論文 参考訳(メタデータ) (2024-08-21T22:35:19Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。