論文の概要: Diverse Subset Selection via Norm-Based Sampling and Orthogonality
- arxiv url: http://arxiv.org/abs/2406.01086v2
- Date: Fri, 26 Sep 2025 07:04:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.818094
- Title: Diverse Subset Selection via Norm-Based Sampling and Orthogonality
- Title(参考訳): ノルムに基づくサンプリングと直交性による多元部分集合選択
- Authors: Noga Bar, Raja Giryes,
- Abstract要約: 大きな注釈付きデータセットはディープニューラルネットワークの成功には不可欠だが、医療画像のような領域ではラベル付けデータは非常に高価である。
この研究はサブセット選択の問題に取り組み、アノテーションのために大きなラベル付けされていないプールから最も情報に富んだ例の小さなセットを選択する。
- 参考スコア(独自算出の注目度): 31.558151874765667
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large annotated datasets are crucial for the success of deep neural networks, but labeling data can be prohibitively expensive in domains such as medical imaging. This work tackles the subset selection problem: selecting a small set of the most informative examples from a large unlabeled pool for annotation. We propose a simple and effective method that combines feature norms, randomization, and orthogonality (via the Gram-Schmidt process) to select diverse and informative samples. Feature norms serve as a proxy for informativeness, while randomization and orthogonalization reduce redundancy and encourage coverage of the feature space. Extensive experiments on image and text benchmarks, including CIFAR-10/100, Tiny ImageNet, ImageNet, OrganAMNIST, and Yelp, show that our method consistently improves subset selection performance, both as a standalone approach and when integrated with existing techniques.
- Abstract(参考訳): 大きな注釈付きデータセットはディープニューラルネットワークの成功には不可欠だが、医療画像のような領域ではラベル付けデータは非常に高価である。
この研究はサブセット選択の問題に取り組み、アノテーションのために大きなラベル付けされていないプールから最も情報に富んだ例の小さなセットを選択する。
本稿では, 特徴ノルム, ランダム化, 直交性を(Gram-Schmidtプロセスを介して)組み合わせて, 多様な情報的サンプルを選択する, 簡便で効果的な手法を提案する。
特徴ノルムは情報伝達のプロキシとして機能し、ランダム化と直交化は冗長性を減少させ、特徴空間のカバレッジを促進する。
CIFAR-10/100、Tiny ImageNet、ImageNet、OrganAMNIST、Yelpといった画像とテキストのベンチマークに関する大規模な実験により、我々の手法は、スタンドアロンアプローチと既存の技術との統合の両方において、サブセット選択性能を一貫して改善することを示した。
関連論文リスト
- A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't) [14.070675074621043]
インストラクションの微調整では、ターゲットタスクから小さなクエリセットを使用して、大きな候補プールから命令トレーニングデータのサブセットを選択する。
関心が高まりつつも、対象とする命令の選択に関する文献は断片化され、不透明なままである。
本研究では,データ表現と選択アルゴリズムという2つの中核成分を分離し,体系的に分析することで,この景観に明瞭さをもたらすことを目的とする。
論文 参考訳(メタデータ) (2026-02-16T12:33:05Z) - Coreset selection based on Intra-class diversity [4.638022690041187]
近年の研究では、Deep Learningモデルをトレーニングするための2つの異なるアプローチが採用されている。
データセットのサイズが大きくなるにつれて、この問題に対する解決策を探究する研究コミュニティが最近注目を集めている。
そこで本研究では,クラス内の多様性を抽出し,最終サンプリングに利用したクラスごとのクラスタを生成する手法を提案する。
論文 参考訳(メタデータ) (2025-09-23T12:45:53Z) - Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。
個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。
われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Unveiling the Power of Sparse Neural Networks for Feature Selection [60.50319755984697]
スパースニューラルネットワーク(SNN)は、効率的な特徴選択のための強力なツールとして登場した。
動的スパーストレーニング(DST)アルゴリズムで訓練されたSNNは、平均して50%以上のメモリと55%以上のFLOPを削減できることを示す。
以上の結果から,DSTアルゴリズムで訓練したSNNによる特徴選択は,平均して50ドル以上のメモリと55%のFLOPを削減できることがわかった。
論文 参考訳(メタデータ) (2024-08-08T16:48:33Z) - BWS: Best Window Selection Based on Sample Scores for Data Pruning across Broad Ranges [12.248397169100784]
データサブセットの選択は、フルデータセットのトレーニングを近似できる大規模なデータセットの、小さくても情報に富むサブセットを見つけることを目的としている。
難易度スコアに基づいて順序付けされたサンプルから最適なウィンドウサブセットを選択する方法を提案することにより、普遍的で効率的なデータサブセット選択法であるBest Window Selection(BWS)を導入する。
論文 参考訳(メタデータ) (2024-06-05T08:33:09Z) - Enhancing Neural Subset Selection: Integrating Background Information into Set Representations [53.15923939406772]
対象値が入力集合とサブセットの両方に条件付けされている場合、スーパーセットのテクスティ不変な統計量を関心のサブセットに組み込むことが不可欠であることを示す。
これにより、出力値がサブセットとその対応するスーパーセットの置換に不変であることを保証する。
論文 参考訳(メタデータ) (2024-02-05T16:09:35Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Much Easier Said Than Done: Falsifying the Causal Relevance of Linear
Decoding Methods [1.3999481573773074]
線形分類器プローブは、高い選択性を持つユニットをネットワーク機能にとって最も重要なものとして識別する。
選択的ニューロンに対するアブレーション効果がないにもかかわらず、線形復号法はネットワーク機能の解釈に効果的に利用できる。
具体的には,AlexNet,VGG16,MobileNetV2,ResNet101のユニット群において,選択性とユニットの平均活動の相互作用がアブレーション性能の低下を予測できることを示す。
論文 参考訳(メタデータ) (2022-11-08T16:43:02Z) - Optimal Data Selection: An Online Distributed View [61.31708750038692]
この問題のオンライン版と分散版のアルゴリズムを開発する。
ランダム選択法は, ランダム選択法よりも5~20%高い性能を示した。
ImageNet と MNIST の学習タスクにおいて、我々の選択方法はランダム選択よりも5-20% 高い性能を示した。
論文 参考訳(メタデータ) (2022-01-25T18:56:16Z) - Dive into Layers: Neural Network Capacity Bounding using Algebraic
Geometry [55.57953219617467]
ニューラルネットワークの学習性はそのサイズと直接関連していることを示す。
入力データとニューラルネットワークのトポロジ的幾何学的複雑さを測定するためにベッチ数を用いる。
実世界のデータセットMNISTで実験を行い、分析結果と結論を検証した。
論文 参考訳(メタデータ) (2021-09-03T11:45:51Z) - Low-rank Dictionary Learning for Unsupervised Feature Selection [11.634317251468968]
低ランク表現に辞書学習のアイデアを適用することで、教師なしの新たな特徴選択手法を導入する。
非教師付き特徴選択のための統一目的関数は、$ell_2,1$-norm正規化によってスパースな方法で提案される。
実験の結果,提案手法は最先端のアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-21T13:39:10Z) - Anomaly Detection on Attributed Networks via Contrastive Self-Supervised
Learning [50.24174211654775]
本論文では,アトリビュートネットワーク上の異常検出のためのコントラスト型自己監視学習フレームワークを提案する。
このフレームワークは、新しいタイプのコントラストインスタンスペアをサンプリングすることで、ネットワークデータからのローカル情報を完全に活用します。
高次元特性と局所構造から情報埋め込みを学習するグラフニューラルネットワークに基づくコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:17:20Z) - The Yin-Yang dataset [0.0]
Yin-Yangデータセットは、スパイキングニューラルネットワークにおける生物学的に妥当なエラーバックプロパゲーションとディープラーニングの研究のために開発された。
これは、いくつかの利点を提供することで、古典的なディープラーニングデータセットに代わる役割を果たします。
論文 参考訳(メタデータ) (2021-02-16T15:18:05Z) - Consistent Feature Selection for Analytic Deep Neural Networks [3.42658286826597]
分析深層ネットワークにおける特徴選択の問題について検討する。
我々は、広範囲のネットワークに対して、グループラッソによる適応群ラッソ選択手順が選択整合であることを証明する。
この研究は、Group Lassoがニューラルネットワークによる特徴選択に非効率であることのさらなる証拠を提供する。
論文 参考訳(メタデータ) (2020-10-16T01:59:53Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z) - Consistent feature selection for neural networks via Adaptive Group
Lasso [3.42658286826597]
ニューラルネットワークの重要な特徴を選択するための適応型グループの使用に関する理論的保証を提案し,確立する。
具体的には,1つの隠蔽層と双曲的タンジェント活性化関数を持つ単一出力フィードフォワードニューラルネットワークに対して,特徴選択法が整合であることを示す。
論文 参考訳(メタデータ) (2020-05-30T18:50:56Z) - IVFS: Simple and Efficient Feature Selection for High Dimensional
Topology Preservation [33.424663018395684]
本稿では,サンプル類似性保存を向上する簡易かつ効果的な特徴選択アルゴリズムを提案する。
提案アルゴリズムは、全データの対距離と位相パターンを適切に保存することができる。
論文 参考訳(メタデータ) (2020-04-02T23:05:00Z) - Attentive CutMix: An Enhanced Data Augmentation Approach for Deep
Learning Based Image Classification [58.20132466198622]
そこで我々は,CutMixに基づく自然拡張拡張戦略であるAttentive CutMixを提案する。
各トレーニングイテレーションにおいて、特徴抽出器から中間注意マップに基づいて最も記述性の高い領域を選択する。
提案手法は単純かつ有効であり,実装が容易であり,ベースラインを大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-03-29T15:01:05Z) - Beyond Dropout: Feature Map Distortion to Regularize Deep Neural
Networks [107.77595511218429]
本稿では,ディープニューラルネットワークの中間層に関連する実験的なRademacher複雑性について検討する。
上記の問題に対処するための特徴歪み法(Disout)を提案する。
より高い試験性能を有するディープニューラルネットワークを作製するための特徴写像歪みの優位性を解析し、実証した。
論文 参考訳(メタデータ) (2020-02-23T13:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。