論文の概要: Scalable Graph Attention-based Instance Selection via Mini-Batch Sampling and Hierarchical Hashing
- arxiv url: http://arxiv.org/abs/2502.20293v2
- Date: Tue, 10 Jun 2025 10:12:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:39.661538
- Title: Scalable Graph Attention-based Instance Selection via Mini-Batch Sampling and Hierarchical Hashing
- Title(参考訳): ミニバッチサンプリングと階層ハッシュによるグラフ注意に基づくスケーラブルなインスタンス選択
- Authors: Zahiriddin Rustamov, Ayham Zaitouny, Nazar Zaki,
- Abstract要約: インスタンス選択(IS)は、情報的特性を維持しながらデータセットのサイズを減らすという課題に対処する。
本稿では,アテンション機構を用いてインフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメー
距離に基づくミニバッチサンプリング手法と階層的ハッシュ手法という,スケーラブルなグラフ構築のための2つのアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.24578723416255752
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Instance selection (IS) addresses the critical challenge of reducing dataset size while keeping informative characteristics, becoming increasingly important as datasets grow to millions of instances. Current IS methods often struggle with capturing complex relationships in high-dimensional spaces and scale with large datasets. This paper introduces a graph attention-based instance selection (GAIS) method that uses attention mechanisms to identify informative instances through their structural relationships in graph representations. We present two approaches for scalable graph construction: a distance-based mini-batch sampling technique that achieves dataset-size-independent complexity through strategic batch processing, and a hierarchical hashing approach that enables efficient similarity computation through random projections. The mini-batch approach keeps class distributions through stratified sampling, while the hierarchical hashing method captures relationships at multiple granularities through single-level, multi-level, and multi-view variants. Experiments across 39 datasets show that GAIS achieves reduction rates above 96\% while maintaining or improving model performance relative to state-of-the-art IS methods. The findings show that the distance-based mini-batch approach offers an optimal efficiency for large-scale datasets, while multi-view variants excel on complex, high-dimensional data, demonstrating that attention-based importance scoring can effectively identify instances important for maintaining decision boundaries while avoiding computationally prohibitive pairwise comparisons.
- Abstract(参考訳): インスタンス選択(IS)は、データサイズを減らし、情報的特性を維持し、データセットが数百万のインスタンスに成長するにつれて、ますます重要になる、という重要な課題に対処する。
現在のIS手法は、しばしば高次元空間における複雑な関係を捉え、大きなデータセットでスケールするのに苦労する。
本稿では,グラフ表現における構造的関係を通して,注目機構を用いて情報的インスタンスを識別するGAIS法を提案する。
本稿では,分散グラフ構築のための2つの手法を提案する: 戦略バッチ処理によるデータセットサイズ非依存の複雑さを実現する距離ベースのミニバッチサンプリング手法と,ランダム投影による効率的な類似性計算を可能にする階層的ハッシュ手法である。
階層的ハッシュ法は, 単一レベル, 複数レベル, 複数ビューの変異によって, 複数の粒度の関係を捉える。
39のデータセットでの実験では、GAISは96\%以上の削減率を達成する一方で、最先端のIS手法と比較してモデルパフォーマンスを維持または改善している。
その結果,距離ベースのミニバッチ手法は大規模データセットに対して最適な効率性を示す一方で,多視点変動は複雑な高次元データに優れており,注目に基づく重要度スコアリングは,計算的に禁止されたペアワイズ比較を回避しつつ,決定境界を維持する上で重要なインスタンスを効果的に識別できることが示唆された。
関連論文リスト
- GAIS: A Novel Approach to Instance Selection with Graph Attention Networks [1.100197352932064]
本稿では,グラフアテンションに基づくインスタンス選択(GAIS)と呼ばれる新しい手法を提案する。
13の多様なデータセットの実験により、GAISは従来のIS手法よりも有効性において一貫して優れていたことが示されている。
GAISは計算コストが若干高いが、トレーニングデータを大幅に削減した精度を維持する上での優れた性能は、グラフベースのデータ選択に有望なアプローチである。
論文 参考訳(メタデータ) (2024-12-26T12:51:14Z) - Fast and Scalable Semi-Supervised Learning for Multi-View Subspace Clustering [13.638434337947302]
FSSMSCは、既存のアプローチで一般的に見られる高い計算複雑性に対する新しいソリューションである。
この手法は、各データポイントを選択されたランドマークの疎線型結合として表現し、すべてのビューにまたがるコンセンサスアンカーグラフを生成する。
FSSMSCの有効性と効率は、様々なスケールの複数のベンチマークデータセットに対する広範な実験を通して検証される。
論文 参考訳(メタデータ) (2024-08-11T06:54:00Z) - Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - One for all: A novel Dual-space Co-training baseline for Large-scale
Multi-View Clustering [42.92751228313385]
我々は、Dual-space Co-training Large-scale Multi-view Clustering (DSCMC)という新しいマルチビュークラスタリングモデルを提案する。
提案手法の主な目的は,2つの異なる空間における協調学習を活用することにより,クラスタリング性能を向上させることである。
我々のアルゴリズムは近似線形計算複雑性を持ち、大規模データセットへの適用が成功することを保証している。
論文 参考訳(メタデータ) (2024-01-28T16:30:13Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Effective and Efficient Graph Learning for Multi-view Clustering [173.8313827799077]
マルチビュークラスタリングのための効率的かつ効率的なグラフ学習モデルを提案する。
本手法はテンソルシャッテンp-ノルムの最小化により異なるビューのグラフ間のビュー類似性を利用する。
提案アルゴリズムは時間経済であり,安定した結果を得るとともに,データサイズによく対応している。
論文 参考訳(メタデータ) (2021-08-15T13:14:28Z) - Spatial-Spectral Clustering with Anchor Graph for Hyperspectral Image [88.60285937702304]
本稿では、HSIデータクラスタリングのための空間スペクトルクラスタリングとアンカーグラフ(SSCAG)という新しい非監視アプローチを提案する。
提案されたSSCAGは最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-04-24T08:09:27Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。