Fugu-MT 論文翻訳(概要): Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness

論文の概要: Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness

arxiv url: http://arxiv.org/abs/2412.06293v1
Date: Mon, 09 Dec 2024 08:36:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.283169
Title: Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness
Title（参考訳）: 協調的マルチモーダルデータ選択をマスターする:インフォーマルネス、特異性、代表性に着目して
Authors: Qifan Yu, Zhebei Shen, Zhongqi Yue, Yang Wu, Wenqiao Zhang, Yunfei Li, Juncheng Li, Siliang Tang, Yueting Zhuang,
Abstract要約: 我々は、貴重なサンプルはタスクを知らせ、非冗長であり、サンプル分布(つまり、外れ値ではない)を表すべきであると論じる。我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの100.8%を達成している。
参考スコア（独自算出の注目度）: 65.01625761120924
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Instruction tuning fine-tunes pre-trained Multi-modal Large Language Models (MLLMs) to handle real-world tasks. However, the rapid expansion of visual instruction datasets introduces data redundancy, leading to excessive computational costs. We propose a collaborative framework, DataTailor, which leverages three key principles--informativeness, uniqueness, and representativeness--for effective data selection. We argue that a valuable sample should be informative of the task, non-redundant, and represent the sample distribution (i.e., not an outlier). We further propose practical ways to score against each principle, which automatically adapts to a given dataset without tedious hyperparameter tuning. Comprehensive experiments on various benchmarks demonstrate that DataTailor achieves 100.8% of the performance of full-data fine-tuning with only 15% of the data, significantly reducing computational costs while maintaining superior results. This exemplifies the "Less is More" philosophy in MLLM development.
Abstract（参考訳）: MLLM(Multi-Modal Large Language Models)は、マルチモーダル言語モデル(Multi-Modal Large Language Models, MLLM)を訓練し、実世界のタスクを処理する。しかし、視覚的命令データセットの急速な拡張はデータの冗長性をもたらし、過剰な計算コストをもたらす。我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。我々は、貴重なサンプルは、タスクを知らせ、非冗長であり、サンプル分布(つまり、外れ値ではない)を表すべきであると論じる。さらに,各原理に対して,退屈なハイパーパラメータチューニングを伴わずに,与えられたデータセットに自動的に適応する実践的手法を提案する。様々なベンチマークに関する総合的な実験により、DataTailorはデータの15%しかデータの完全な微調整のパフォーマンスの100.8%を達成し、優れた結果を維持しながら計算コストを大幅に削減することを示した。これはMLLM開発における"Less is More"の哲学を実証している。

関連論文リスト

ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning [18.989158560585675]
大規模データセットのトレーニングは、計算コストが高く、データの冗長性のために非効率である。 ScalSelectは、線形時間複雑性を持つ訓練不要なマルチモーダルデータ選択法である。 ScalSelectはデータセット全体のトレーニングパフォーマンスの97.5%以上を16%のデータで達成し、一部の設定ではフルデータトレーニングよりも優れています。
論文参考訳（メタデータ） (2026-02-12T06:38:49Z)
TADS: Task-Aware Data Selection for Multi-Task Multimodal Pre-Training [29.962039479618543]
マルチタスク・マルチモーダル・プレトレーニングのための新しいフレームワークであるTADS(Task-Aware Data Selection)を紹介する。 TADSは固有の品質、タスク関連性、分散多様性を学習可能な値関数に統合する。フィードバック駆動型メタ学習機構は、プロキシモデルの性能に基づいて選択戦略を適応的に洗練する。
論文参考訳（メタデータ） (2026-02-05T03:08:45Z)
Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning [40.19639581728674]
タスク固有のデータに対する細調整された大規模言語モデル(LLM)は、その効果的なデプロイメントには不可欠である。データウィスペラ (Data Whisperer) は,数発のインコンテクスト学習とモデルによる微調整を併用した,効率的でトレーニング不要なアテンションベースの手法である。 Data Whispererは、Llama-3-8B-インストラクトモデルの完全なGSM8Kデータセットよりも優れたパフォーマンスを実現し、データの10%しか使用せず、既存のメソッドよりも3.1ポイントの改善と7.4$times$スピードアップを実現している。
論文参考訳（メタデータ） (2025-05-18T03:10:00Z)
MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文参考訳（メタデータ） (2025-03-26T12:42:37Z)
PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [28.442470930703337]
PRISMは、効率的なマルチモーダルデータ選択のためのトレーニング不要のアプローチである。 Pearson相関解析を用いて、MLLMの固有視覚符号化特性の定量化を行う。ビジュアルインストラクションのチューニングとデータ選択に要する時間を従来の手法の30%に短縮する。
論文参考訳（メタデータ） (2025-02-17T18:43:41Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文参考訳（メタデータ） (2024-09-18T13:20:23Z)
AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文参考訳（メタデータ） (2024-06-17T04:20:02Z)
Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文参考訳（メタデータ） (2024-03-14T16:47:25Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。 3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文参考訳（メタデータ） (2023-11-14T14:10:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。