論文の概要: Scalable Graph Attention-based Instance Selection via Mini-Batch Sampling and Hierarchical Hashing
- arxiv url: http://arxiv.org/abs/2502.20293v1
- Date: Thu, 27 Feb 2025 17:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:56:29.097616
- Title: Scalable Graph Attention-based Instance Selection via Mini-Batch Sampling and Hierarchical Hashing
- Title(参考訳): ミニバッチサンプリングと階層ハッシュによるグラフ注意に基づくスケーラブルなインスタンス選択
- Authors: Zahiriddin Rustamov, Ayham Zaitouny, Nazar Zaki,
- Abstract要約: インスタンス選択(IS)は、機械学習において重要な特徴を保持しながらデータセットのサイズを減らすために重要である。
本稿では,アテンション機構を用いてインフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・セクション(GAIS)法を提案する。
本稿では,戦略バッチ処理による距離ベースのミニバッチサンプリング手法と,ランダムプロジェクションによる効率的な類似性を実現する階層的ハッシュ手法の2つの方法を提案する。
- 参考スコア(独自算出の注目度): 0.24578723416255752
- License:
- Abstract: Instance selection (IS) is important in machine learning for reducing dataset size while keeping key characteristics. Current IS methods often struggle with capturing complex relationships in high-dimensional spaces and scale with large datasets. This paper introduces a graph attention-based instance selection (GAIS) method that uses attention mechanisms to identify informative instances through their structural relationships in graph representations. We present two approaches for scalable graph construction: a distance-based mini-batch sampling technique that reduces computation through strategic batch processing, and a hierarchical hashing approach that allows for efficient similarity computation through random projections. The mini-batch approach keeps class distributions through stratified sampling, while the hierarchical hashing method captures relationships at multiple granularities through single-level, multi-level, and multi-view variants. Experiments across 39 datasets show that GAIS achieves reduction rates above 96\% while maintaining or improving model performance relative to state-of-the-art IS methods. The findings shows that the distance-based mini-batch approach offers an optimal balance of efficiency and effectiveness for large-scale datasets, while multi-view variants provide superior performance for complex, high-dimensional data, demonstrating that attention-based importance scoring can effectively identify instances crucial for maintaining decision boundaries without requiring exhaustive pairwise comparisons.
- Abstract(参考訳): インスタンス選択(IS)は、機械学習において重要な特徴を保持しながらデータセットのサイズを減らすために重要である。
現在のIS手法は、しばしば高次元空間における複雑な関係を捉え、大きなデータセットでスケールするのに苦労する。
本稿では,グラフ表現における構造的関係を通して,注目機構を用いて情報的インスタンスを識別するGAIS法を提案する。
提案手法は,戦略バッチ処理による計算を削減した距離ベースミニバッチサンプリング手法と,ランダムプロジェクションによる効率的な類似性計算を可能にする階層的ハッシュ手法である。
階層的ハッシュ法は, 単一レベル, 複数レベル, 複数ビューの変異によって, 複数の粒度の関係を捉える。
39のデータセットでの実験では、GAISは96\%以上の削減率を達成する一方で、最先端のIS手法と比較してモデルパフォーマンスを維持または改善している。
その結果,距離ベースのミニバッチ手法は大規模データセットの効率性と有効性の最適バランスを提供する一方で,多視点変動は複雑な高次元データに対して優れた性能を提供し,注目に基づく重要度スコアリングは,徹底的なペア比較を必要とせず,意思決定境界の維持に不可欠なインスタンスを効果的に識別できることが示唆された。
関連論文リスト
- GAIS: A Novel Approach to Instance Selection with Graph Attention Networks [1.100197352932064]
本稿では,グラフアテンションに基づくインスタンス選択(GAIS)と呼ばれる新しい手法を提案する。
13の多様なデータセットの実験により、GAISは従来のIS手法よりも有効性において一貫して優れていたことが示されている。
GAISは計算コストが若干高いが、トレーニングデータを大幅に削減した精度を維持する上での優れた性能は、グラフベースのデータ選択に有望なアプローチである。
論文 参考訳(メタデータ) (2024-12-26T12:51:14Z) - Fast and Scalable Semi-Supervised Learning for Multi-View Subspace Clustering [13.638434337947302]
FSSMSCは、既存のアプローチで一般的に見られる高い計算複雑性に対する新しいソリューションである。
この手法は、各データポイントを選択されたランドマークの疎線型結合として表現し、すべてのビューにまたがるコンセンサスアンカーグラフを生成する。
FSSMSCの有効性と効率は、様々なスケールの複数のベンチマークデータセットに対する広範な実験を通して検証される。
論文 参考訳(メタデータ) (2024-08-11T06:54:00Z) - Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - One for all: A novel Dual-space Co-training baseline for Large-scale
Multi-View Clustering [42.92751228313385]
我々は、Dual-space Co-training Large-scale Multi-view Clustering (DSCMC)という新しいマルチビュークラスタリングモデルを提案する。
提案手法の主な目的は,2つの異なる空間における協調学習を活用することにより,クラスタリング性能を向上させることである。
我々のアルゴリズムは近似線形計算複雑性を持ち、大規模データセットへの適用が成功することを保証している。
論文 参考訳(メタデータ) (2024-01-28T16:30:13Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Effective and Efficient Graph Learning for Multi-view Clustering [173.8313827799077]
マルチビュークラスタリングのための効率的かつ効率的なグラフ学習モデルを提案する。
本手法はテンソルシャッテンp-ノルムの最小化により異なるビューのグラフ間のビュー類似性を利用する。
提案アルゴリズムは時間経済であり,安定した結果を得るとともに,データサイズによく対応している。
論文 参考訳(メタデータ) (2021-08-15T13:14:28Z) - Spatial-Spectral Clustering with Anchor Graph for Hyperspectral Image [88.60285937702304]
本稿では、HSIデータクラスタリングのための空間スペクトルクラスタリングとアンカーグラフ(SSCAG)という新しい非監視アプローチを提案する。
提案されたSSCAGは最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-04-24T08:09:27Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。