Fugu-MT 論文翻訳(概要): Model-agnostic Coreset Selection via LLM-based Concept Bottlenecks

論文の概要: Model-agnostic Coreset Selection via LLM-based Concept Bottlenecks

arxiv url: http://arxiv.org/abs/2502.16733v1
Date: Sun, 23 Feb 2025 22:14:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.335397
Title: Model-agnostic Coreset Selection via LLM-based Concept Bottlenecks
Title（参考訳）: LLMを用いた概念ボトルネックによるモデル非依存コアセットの選択
Authors: Akshay Mehra, Trisha Mittal, Subhadra Gopalakrishnan, Joshua Kimball,
Abstract要約: Coreset Selection(CS)は、データセット全体の使用に匹敵するモデルパフォーマンスを達成するトレーニングデータのサブセットを特定する。これらのスコアは計算に非効率的であり、サンプルが一般に学習することが困難であるか、あるいは特定のモデルのためにのみ難しいかを示さないため、解釈が困難である。本研究は,ダウンストリームモデルに依存しない人間の理解可能なテキスト属性(概念)を用いて,サンプルの難易度を評価するための解釈可能なスコアを提案する。
参考スコア（独自算出の注目度）: 6.857632954159568
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Coreset Selection (CS) identifies a subset of training data that achieves model performance comparable to using the entire dataset. Many state-of-the-art CS methods, select coresets using scores whose computation requires training the downstream model on the entire dataset and recording changes in its behavior on samples as it trains (training dynamics). These scores are inefficient to compute and hard to interpret as they do not indicate whether a sample is difficult to learn in general or only for a specific model. Our work addresses these challenges by proposing an interpretable score that gauges a sample's difficulty using human-understandable textual attributes (concepts) independent of any downstream model. Specifically, we measure the alignment between a sample's visual features and concept bottlenecks, derived via large language models, by training a linear concept bottleneck layer and compute the sample's difficulty score using it. We then use this score and a stratified sampling strategy to identify the coreset. Crucially, our score is efficiently computable without training the downstream model on the full dataset even once, leads to high-performing coresets for various downstream models, and is computable even for an unlabeled dataset. Through experiments on CIFAR-10, CIFAR-100, and ImageNet-1K, we show our coresets outperform random subsets, even at high pruning rates, and achieve model performance comparable to or better than coresets found by training dynamics-based methods.
Abstract（参考訳）: Coreset Selection(CS)は、データセット全体の使用に匹敵するモデルパフォーマンスを達成するトレーニングデータのサブセットを特定する。多くの最先端のCSメソッドは、データセット全体のダウンストリームモデルをトレーニングし、トレーニングする(動的にトレーニングする)サンプル上での振る舞いの変化を記録する必要があるスコアを使用してコアセットを選択する。これらのスコアは計算に非効率的であり、サンプルが一般に学習することが困難であるか、あるいは特定のモデルのためにのみ難しいかを示さないため、解釈が困難である。我々の研究は、ダウンストリームモデルに依存しない人間の理解可能なテキスト属性(概念)を用いて、サンプルの難易度を測定する解釈可能なスコアを提案することで、これらの課題に対処する。具体的には、線形概念ボトルネック層をトレーニングし、それを用いてサンプルの難易度を計算することにより、サンプルの視覚的特徴と概念ボトルネックのアライメントを測定する。次に、このスコアと階層化されたサンプリング戦略を使ってコアセットを特定します。重要なことに、我々のスコアは、1度でもフルデータセットのダウンストリームモデルをトレーニングすることなく効率的に計算可能であり、様々なダウンストリームモデルに対して高いパフォーマンスのコアセットをもたらし、ラベルのないデータセットに対しても計算可能である。 CIFAR-10, CIFAR-100, ImageNet-1Kでの実験により, 高プルーニングレートであっても, コアセットはランダムなサブセットよりも優れており, 動的手法のトレーニングによって得られるコアセットに匹敵するモデル性能を実現する。

関連論文リスト

The Impact of Coreset Selection on Spurious Correlations and Group Robustness [29.00056007029943]
コアセット選択手法は、データ効率のよい機械学習のためのモデル性能を維持しながら、トレーニングデータサイズの削減を約束している。我々は、選択したコアセットの急激なバイアスレベルに対するデータ選択の影響と、それらに基づいてトレーニングされた下流モデルのロバスト性について、初めて包括的分析を行った。
論文参考訳（メタデータ） (2025-07-15T19:46:30Z)
Evaluating Sample Utility for Efficient Data Selection by Mimicking Model Weights [11.237906163959908]
マルチモーダルモデルは、大規模なWebcrawledデータセットでトレーニングされる。これらのデータセットは、しばしばノイズ、バイアス、無関係な情報を含む。 Mimic Score を用いた効率的なモデルベースアプローチを提案する。
論文参考訳（メタデータ） (2025-01-12T04:28:14Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models [37.45103473809928]
In2Coreアルゴリズムは,トレーニングモデルと評価サンプルの相関関係を解析し,コアセットを選択する。 LLMの微調整データにアルゴリズムを適用することで、トレーニングデータの50%で同様の性能を実現することができる。
論文参考訳（メタデータ） (2024-08-07T05:48:05Z)
TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data [29.45013725650798]
完全なデータセットに匹敵するパフォーマンスを達成する命令データセットのサブセットを抽出することが不可欠である。タスク非依存のグラディエントクラスタ化コレセット選択(TAGCOS)を提案する。具体的には、サンプル勾配をデータ表現として利用し、類似したデータをグループ化するためにクラスタリングを行い、コアセット選択に効率的なグリーディアルゴリズムを適用する。
論文参考訳（メタデータ） (2024-07-21T17:59:20Z)
Dataset Quantization with Active Learning based Adaptive Sampling [11.157462442942775]
また, 不均一なサンプル分布であっても, 性能維持が可能であることを示す。サンプル選択を最適化するために,新しい能動的学習に基づく適応型サンプリング手法を提案する。提案手法は,最先端のデータセット圧縮手法よりも優れている。
論文参考訳（メタデータ） (2024-07-09T23:09:18Z)
No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文参考訳（メタデータ） (2024-04-04T17:58:02Z)
D2 Pruning: Message Passing for Balancing Diversity and Difficulty in Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文参考訳（メタデータ） (2023-10-11T23:01:29Z)
Optimal Sample Selection Through Uncertainty Estimation and Its Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文参考訳（メタデータ） (2023-09-05T14:06:33Z)
Probabilistic Bilevel Coreset Selection [24.874967723659022]
本稿では,各トレーニングサンプルの確率的重みを学習することにより,コアセット選択の連続確率的2レベル定式化を提案する。暗黙的な微分の問題を伴わずに、偏りのない政策勾配を経由し、二段階最適化問題に対する効率的な解法を開発する。
論文参考訳（メタデータ） (2023-01-24T09:37:00Z)
Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文参考訳（メタデータ） (2022-02-04T15:46:27Z)
MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。 MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文参考訳（メタデータ） (2021-12-27T16:16:35Z)
Active Learning for Deep Visual Tracking [51.5063680734122]
畳み込みニューラルネットワーク(CNN)は近年,単一目標追跡タスクに成功している。本稿では,ディープ・ビジュアル・トラッキングのためのアクティブ・ラーニング手法を提案する。アクティブラーニングの指導のもと、トレーニングされた深層CNNモデルに基づくトラッカーは、ラベリングコストを低減しつつ、競合的なトラッキング性能を達成することができる。
論文参考訳（メタデータ） (2021-10-17T11:47:56Z)
No Fear of Heterogeneity: Classifier Calibration for Federated Learning with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文参考訳（メタデータ） (2021-06-09T12:02:29Z)
Balancing Constraints and Submodularity in Data Subset Selection [43.03720397062461]
より少ないトレーニングデータを用いて、従来のディープラーニングモデルと同様の精度が得られることを示す。新たな多様性駆動客観的関数を提案し,マトロイドを用いたクラスラベルと決定境界の制約のバランスをとる。
論文参考訳（メタデータ） (2021-04-26T19:22:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。