論文の概要: SEED: Targeted Data Selection by Weighted Independent Set
- arxiv url: http://arxiv.org/abs/2605.15691v2
- Date: Wed, 20 May 2026 05:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.205416
- Title: SEED: Targeted Data Selection by Weighted Independent Set
- Title(参考訳): SEED:重み付き独立セットによるデータ選択を目標に
- Authors: Yuan Zhang, Lifeng Guo, Junwen Pan, Wenzhao Zheng, Wen Zhou, Kuan Cheng, Kurt Keutzer, Shanghang Zhang,
- Abstract要約: 我々はSEEDと呼ばれる堅牢でスケーラブルなデータ選択パイプラインを開発した。
SEEDは、命令チューニング、視覚的命令チューニング、セマンティックセグメンテーションにおける最先端の手法を一貫して上回っている。
- 参考スコア(独自算出の注目度): 76.68391670109433
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Data selection seeks to identify a compact yet informative subset from large-scale training corpora, balancing sample quality against collection diversity. We formulate this problem as a Weighted Independent Set (WIS) on a similarity graph, where nodes represent data samples weighted by influence, and edges connect semantically redundant pairs. This formulation naturally yields subsets that are simultaneously high-quality and diverse. However, two challenges arise in practice: naive node weights fail to distinguish informative signals from gradient noise, and edge construction under heterogeneous domain distributions produces structurally imbalanced graphs that bias selection toward sparse regions. To address these issues, we introduce two principled refinements from a unified graph perspective: (1) \textit{node value calibration} that restricts influence estimation to the bilateral salient subspace to ground node importance in task-relevant signals rather than surface-level statistics; (2) \textit{local scale normalization} that adapts edge thresholds to local neighborhood density, mitigating graph imbalance induced by cross-domain distribution shifts. Together, these components yield a robust and scalable data selection pipeline dubbed SEED. We further construct \texttt{Honeybee-Remake-SEED-200K}, a compact multimodal dataset curated by SEED. Extensive experiments show that SEED consistently outperforms state-of-the-art methods on instruction tuning, visual instruction tuning, and semantic segmentation across diverse model families.
- Abstract(参考訳): データ選択は、大規模なトレーニングコーパスからコンパクトだが情報的なサブセットを特定し、サンプルの品質とコレクションの多様性のバランスを取る。
この問題を類似グラフ上の重み付き独立集合(WIS)として定式化し、ノードは影響によって重み付けされたデータサンプルを表し、エッジは意味的に冗長なペアを接続する。
この定式化は自然に高品質で多様な部分集合を生み出す。
しかし、実際には2つの課題が生じる: ネーブノード重みは勾配ノイズと情報信号の区別に失敗し、ヘテロジニアス領域分布の下でのエッジ構造は、スパース領域への偏りを選択する構造的に不均衡なグラフを生成する。
これらの問題に対処するために,(1)表層統計よりむしろタスク関連信号において,左右の有意な部分空間に対する影響推定を基本ノードに限定する \textit{node value calibration} ,(2)辺縁閾値を局所近傍密度に適応させる \textit{local scale normalization} ,およびクロスドメイン分布シフトによって誘導されるグラフの不均衡を緩和する。
これらのコンポーネントはSEEDと呼ばれる堅牢でスケーラブルなデータ選択パイプラインを提供する。
さらに、SEEDによって計算されたコンパクトなマルチモーダルデータセットである「texttt{Honeybee-Remake-SEED-200K}」を構築した。
大規模な実験により、SEEDは様々なモデルファミリ間の命令チューニング、視覚的命令チューニング、セマンティックセグメンテーションにおける最先端の手法を一貫して上回っていることが示された。
関連論文リスト
- Weight-Informed Self-Explaining Clustering for Mixed-Type Tabular Data [63.62853416081748]
WISEは表現、特徴重み付け、クラスタリング、解釈を統一するフレームワークである。
クラスタリングを駆動する同じプリミティブに根ざした、忠実で人間解釈可能な説明を生成する。
論文 参考訳(メタデータ) (2026-04-07T13:18:31Z) - TwinTURBO: Semi-Supervised Fine-Tuning of Foundation Models via Mutual Information Decompositions for Downstream Task and Latent Spaces [10.86297454943578]
本稿では,限られたラベル付きデータに対するトレーニングの課題に対処する,半教師付き微調整フレームワークを提案する。
いくつかのデータセットの実験では、極低ラベル条件下での分類タスクが大幅に改善された。
論文 参考訳(メタデータ) (2025-03-10T20:56:54Z) - SEG:Seeds-Enhanced Iterative Refinement Graph Neural Network for Entity Alignment [13.487673375206276]
本稿では,マルチソースデータと反復的シード拡張を融合したソフトラベル伝搬フレームワークを提案する。
正試料間距離と負試料の差分処理を行う双方向重み付き共同損失関数を実装した。
提案手法は,既存の半教師付きアプローチよりも優れており,複数のデータセットにおいて優れた結果が得られた。
論文 参考訳(メタデータ) (2024-10-28T04:50:46Z) - Kernel spectral joint embeddings for high-dimensional noisy datasets using duo-landmark integral operators [9.782959684053631]
本研究では、2つの独立に観測された高次元ノイズデータセットの結合埋め込みを実現する新しいカーネルスペクトル法を提案する。
得られた低次元埋め込みは、同時クラスタリング、データの可視化、デノイングなど、多くの下流タスクに利用できる。
論文 参考訳(メタデータ) (2024-05-20T18:29:36Z) - Graph Out-of-Distribution Generalization with Controllable Data
Augmentation [51.17476258673232]
グラフニューラルネットワーク(GNN)は,グラフ特性の分類において異常な性能を示した。
トレーニングとテストデータの選択バイアスが原因で、分散偏差が広まっています。
仮想サンプルの分布偏差を測定するためのOODキャリブレーションを提案する。
論文 参考訳(メタデータ) (2023-08-16T13:10:27Z) - Mixed Graph Contrastive Network for Semi-Supervised Node Classification [63.924129159538076]
我々はMixed Graph Contrastive Network(MGCN)と呼ばれる新しいグラフコントラスト学習手法を提案する。
本研究では,非摂動増強戦略と相関還元機構により,潜伏埋め込みの識別能力を向上する。
これら2つの設定を組み合わせることで、識別表現学習のために、豊富なノードと稀に価値あるラベル付きノードの両方から、豊富な監視情報を抽出する。
論文 参考訳(メタデータ) (2022-06-06T14:26:34Z) - Handling Distribution Shifts on Graphs: An Invariance Perspective [78.31180235269035]
我々は、グラフ上のOOD問題を定式化し、新しい不変学習手法である探索・拡張リスク最小化(EERM)を開発する。
EERMは、複数の仮想環境からのリスクの分散を最大化するために、敵対的に訓練された複数のコンテキストエクスプローラーを利用する。
理論的に有効なOOD解の保証を示すことによって,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-05T02:31:01Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。