論文の概要: Joint Out-of-Distribution Filtering and Data Discovery Active Learning
- arxiv url: http://arxiv.org/abs/2503.02491v1
- Date: Tue, 04 Mar 2025 10:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:22:04.295073
- Title: Joint Out-of-Distribution Filtering and Data Discovery Active Learning
- Title(参考訳): 分散外フィルタリングとデータ発見能動的学習の併用
- Authors: Sebastian Schmidt, Leonard Schenk, Leo Schwinn, Stephan Günnemann,
- Abstract要約: 本稿では,データ発見能学習(Joda)と分布外フィルタリングの併用を提案する。
従来の作業とは異なり、Jodaは効率が高く、補助的なモデルやラベルのないプールへのアクセスをフィルタリングや選択のために完全に省略している。
18のコンフィグレーションと3つのメトリクスに関する広範な実験では、OODフィルタリングバランスに最適なクラス発見で、常に最高の精度を達成しています。
- 参考スコア(独自算出の注目度): 44.29827026888824
- License:
- Abstract: As the data demand for deep learning models increases, active learning (AL) becomes essential to strategically select samples for labeling, which maximizes data efficiency and reduces training costs. Real-world scenarios necessitate the consideration of incomplete data knowledge within AL. Prior works address handling out-of-distribution (OOD) data, while another research direction has focused on category discovery. However, a combined analysis of real-world considerations combining AL with out-of-distribution data and category discovery remains unexplored. To address this gap, we propose Joint Out-of-distribution filtering and data Discovery Active learning (Joda) , to uniquely address both challenges simultaneously by filtering out OOD data before selecting candidates for labeling. In contrast to previous methods, we deeply entangle the training procedure with filter and selection to construct a common feature space that aligns known and novel categories while separating OOD samples. Unlike previous works, Joda is highly efficient and completely omits auxiliary models and training access to the unlabeled pool for filtering or selection. In extensive experiments on 18 configurations and 3 metrics, \ours{} consistently achieves the highest accuracy with the best class discovery to OOD filtering balance compared to state-of-the-art competitor approaches.
- Abstract(参考訳): ディープラーニングモデルのデータ需要が増加するにつれて、アクティブラーニング(AL)はラベリングのためのサンプルを戦略的に選択し、データの効率を最大化し、トレーニングコストを削減するために必要となる。
現実のシナリオでは、AL内の不完全なデータ知識を考慮する必要があります。
以前の作業では、アウト・オブ・ディストリビューション(OOD)データの処理に対処し、別の研究方向ではカテゴリ発見に重点を置いてきた。
しかし、ALとアウト・オブ・ディストリビューション・データとカテゴリー発見を組み合わせた実世界の考察は、まだ解明されていない。
このギャップに対処するために,ラベル付けの候補を選択する前にOODデータをフィルタリングすることで,両課題を同時に解決する統合アウト・オブ・ディストリビューション・フィルタリングとデータディスカバリ・アクティブ・ラーニング(Joda)を提案する。
従来の手法とは対照的に、トレーニング手順をフィルタと選択で深く絡めて、OODサンプルを分離しながら、既知のカテゴリと新しいカテゴリを整列する共通特徴空間を構築する。
従来の作業とは異なり、Jodaは効率が高く、補助的なモデルやラベルのないプールへのアクセスをフィルタリングや選択のために完全に省略している。
18のコンフィグレーションと3つのメトリクスに関する広範な実験において、 \ours{} は最先端の競合するアプローチと比較して、OODフィルタリングバランスに対して最高のクラス発見で、常に最高の精度を達成している。
関連論文リスト
- Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - The Devil is in the Details: A Deep Dive into the Rabbit Hole of Data
Filtering [23.68112988933411]
本稿では,DataComp チャレンジに参加する際の学習と解決について述べる。
我々のフィルタリング戦略は, 単一モダリティフィルタリング, クロスモダリティフィルタリング, データ分散アライメントの3段階を含む。
提案手法は,3つのタスクの平均的なパフォーマンスに対して4%以上,ImageNetでは2%以上,DataComp論文のベストメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-09-27T19:10:43Z) - Deep Active Learning with Contrastive Learning Under Realistic Data Pool
Assumptions [2.578242050187029]
アクティブラーニングは、モデルが望まれる精度を迅速に到達できるようにする、ラベルのないデータプールから最も情報性の高いデータを特定することを目的としている。
既存のアクティブラーニング手法の多くは、未ラベルのデータプールに対象タスクに関連するサンプルのみが存在する理想的な環境で評価されている。
我々は,不明瞭でタスク非関連なアウト・オブ・ディストリビューションと,イン・ディストリビューション・サンプルを含む,新しいアクティブ・ラーニング・ベンチマークを導入する。
論文 参考訳(メタデータ) (2023-03-25T10:46:10Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。