論文の概要: Foundation Model Insights and a Multi-Model Approach for Superior Fine-Grained One-shot Subset Selection
- arxiv url: http://arxiv.org/abs/2506.14473v1
- Date: Tue, 17 Jun 2025 12:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.472726
- Title: Foundation Model Insights and a Multi-Model Approach for Superior Fine-Grained One-shot Subset Selection
- Title(参考訳): ファウンデーションモデルインサイトと高精細1ショットサブセット選択のためのマルチモデルアプローチ
- Authors: Zhijing Wan, Zhixiang Wang, Zheng Wang, Xin Xu, Shin'ichi Satoh,
- Abstract要約: ワンショットサブセットの選択は、ディープラーニングトレーニングコストを削減する効果的なツールとして機能する。
FMベースのサブセット選択は、多様なデータセットで従来のIEベースのメソッドより優れているか?
提案手法は,Oxford-IIIT Pet,Food-101,Caltech-UCSD Birds-200-2011などの細粒度データセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 22.659400981807487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One-shot subset selection serves as an effective tool to reduce deep learning training costs by identifying an informative data subset based on the information extracted by an information extractor (IE). Traditional IEs, typically pre-trained on the target dataset, are inherently dataset-dependent. Foundation models (FMs) offer a promising alternative, potentially mitigating this limitation. This work investigates two key questions: (1) Can FM-based subset selection outperform traditional IE-based methods across diverse datasets? (2) Do all FMs perform equally well as IEs for subset selection? Extensive experiments uncovered surprising insights: FMs consistently outperform traditional IEs on fine-grained datasets, whereas their advantage diminishes on coarse-grained datasets with noisy labels. Motivated by these finding, we propose RAM-APL (RAnking Mean-Accuracy of Pseudo-class Labels), a method tailored for fine-grained image datasets. RAM-APL leverages multiple FMs to enhance subset selection by exploiting their complementary strengths. Our approach achieves state-of-the-art performance on fine-grained datasets, including Oxford-IIIT Pet, Food-101, and Caltech-UCSD Birds-200-2011.
- Abstract(参考訳): ワンショットサブセット選択は、情報抽出装置(IE)によって抽出された情報に基づいて情報的データサブセットを特定することにより、ディープラーニングトレーニングコストを低減する効果的なツールとして機能する。
通常、ターゲットデータセットで事前トレーニングされた従来のIEは、本質的にデータセットに依存している。
ファンデーションモデル(FM)は、この制限を緩和する有望な代替手段を提供する。
1)FMベースのサブセット選択は、多様なデータセットで従来のIEベースのメソッドより優れているか?
2)全てのFMは、サブセット選択のためのIEと同等に動作するか?
FMは細粒度データセットで従来型のIEを一貫して上回り、その利点はノイズの多いラベル付き粗粒度データセットで減少する。
これらの発見を動機として,細粒度画像データセットに適したRAM-APL(Ranking Mean-Accuracy of Pseudo-class Labels)を提案する。
RAM-APLは、複数のFMを活用して、相補的な強度を活用することでサブセット選択を強化する。
提案手法は,Oxford-IIIT Pet,Food-101,Caltech-UCSD Birds-200-2011などの細粒度データセットの最先端性能を実現する。
関連論文リスト
- Core-Set Selection for Data-efficient Land Cover Segmentation [16.89537279044251]
リモートセンシング画像セグメンテーションデータセットからサンプルの重要なサブセットを選択するための6つの新しいコアセット選択手法を提案する。
本手法は,3つの土地被覆分類データセットのランダム選択ベースラインに対して,これらのアプローチをベンチマークする。
この結果は,リモートセンシング領域におけるデータ中心学習の重要性と可能性を示している。
論文 参考訳(メタデータ) (2025-05-02T12:22:08Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DAMEX: Dataset-aware Mixture-of-Experts for visual understanding of
mixture-of-datasets [34.780870585656395]
本稿では,データセット・アウェア・ミックス・オブ・エクササイズ,DAMEXを提案する。
データセットトークンをマップされた専門家にルーティングすることを学ぶことで、データセットのエキスパートになるように専門家を訓練します。
Universal Object-Detection Benchmarkの実験では、既存の最先端技術よりも優れています。
論文 参考訳(メタデータ) (2023-11-08T18:55:24Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Generating Data to Mitigate Spurious Correlations in Natural Language
Inference Datasets [27.562256973255728]
自然言語処理モデルはしばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象のディストリビューション内でのみうまく機能する。
そこで本研究では, 脱バイアス化したデータセットを生成して, 脱バイアス化したオフザシェルフモデルをトレーニングする手法を提案する。
提案手法は,1)高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法,2)素粒子相関に寄与するデータ点を除去するフィルタリング機構から構成される。
論文 参考訳(メタデータ) (2022-03-24T09:08:05Z) - Single-dataset Experts for Multi-dataset Question Answering [6.092171111087768]
複数のデータセットにネットワークをトレーニングして、新たなデータセットを一般化し、転送します。
我々のアプローチは、単一データセットの専門家の集合を用いて、マルチデータセットの質問応答をモデル化することである。
パラメータ警告に基づく単純な手法は、ゼロショットの一般化と少数ショットの転送性能の向上につながる。
論文 参考訳(メタデータ) (2021-09-28T17:08:22Z) - Balancing Constraints and Submodularity in Data Subset Selection [43.03720397062461]
より少ないトレーニングデータを用いて、従来のディープラーニングモデルと同様の精度が得られることを示す。
新たな多様性駆動客観的関数を提案し,マトロイドを用いたクラスラベルと決定境界の制約のバランスをとる。
論文 参考訳(メタデータ) (2021-04-26T19:22:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。