論文の概要: SCARV: Structure-Constrained Aggregation for Stable Sample Ranking in Redundant NLP Datasets
- arxiv url: http://arxiv.org/abs/2605.00944v1
- Date: Fri, 01 May 2026 08:09:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.503942
- Title: SCARV: Structure-Constrained Aggregation for Stable Sample Ranking in Redundant NLP Datasets
- Title(参考訳): SCARV: 冗長NLPデータセットにおける安定したサンプルランク付けのための構造制約付きアグリゲーション
- Authors: Xu Zheng, Feiyu Wu, Linhong Wu, Zhuocheng Wang, Hui Li,
- Abstract要約: 冗長性下での安定なサンプルレベルのランク付けについて検討し,モジュール型アグリゲーションフレームワークであるtextscSCARVを提案する。
textscSCARVは、堅牢なマルチシードアグリゲーションと、冗長クラスタ上の構造対応アグリゲーション/アロケーションステップを組み合わせる。
我々の分解と計算対応フロンティアは、ロバストなマルチシードアグリゲーションが支配的な安定化要因であり、構造対応コンポーネントは、主に低アグリゲーション予算の下で価値を付加する。
- 参考スコア(独自算出の注目度): 6.536583951633948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sample-level rankings are increasingly used in data-centric NLP for analysis, filtering, debugging, and curation, yet existing pipelines typically score training examples pointwise and rank them as if they were independent. This assumption is fragile in the presence of exact duplicates, near-duplicates, paraphrases, and other redundant structure common in NLP corpora, where stochastic training can make highly similar examples receive unstable relative orderings across random seeds. We study stable sample-level ranking under redundancy and propose \textsc{SCARV}, a modular aggregation framework that operates on top of an existing scoring proxy. \textsc{SCARV} combines robust multi-seed aggregation with a structure-aware aggregation/allocation step over redundancy clusters. Across synthetic redundancy, naturally mined QQP redundancy, multiple proxy families, several NLP tasks, and end-to-end DistilBERT fine-tuning, \textsc{SCARV} substantially improves over bare proxy rankings in global and local stability and yields more reproducible ranking-based decisions such as subset selection and suspicious-example retrieval. Our decomposition and compute-aware frontier sharpen the mechanism: robust multi-seed aggregation is the dominant generic stabilizer, while the structure-aware component adds value mainly under low aggregation budgets or when redundancy clusters are informative, naturally occurring, or sufficiently covered. These results position \textsc{SCARV} not as a universal data selector or a universally dominant replacement for seed-only aggregation, but as a stability-oriented aggregation layer for proxy-induced rankings in redundant NLP datasets.
- Abstract(参考訳): サンプルレベルのランキングは、分析、フィルタリング、デバッグ、キュレーションにデータ中心のNLPで使われることが多いが、既存のパイプラインは通常、トレーニング例をポイントワイドにスコアし、独立しているかのようにランク付けする。
この仮定は、NLPコーパスに共通する正確な重複、ほぼ重複、パラフレーズ、その他の冗長構造の存在において脆弱である。
本研究では,既存のスコアリングプロキシ上で動作可能なモジュール集約フレームワークであるtextsc{SCARV}を提案する。
\textsc{SCARV} は、堅牢なマルチシードアグリゲーションと、冗長クラスタ上の構造対応アグリゲーション/アロケーションステップを結合する。
合成冗長性、自然に採掘されたQQP冗長性、複数のプロキシファミリー、複数のNLPタスク、およびエンドツーエンドのDistilBERT微調整、 \textsc{SCARV}は、グローバルおよびローカルの安定性において、ベアプロキシランキングを大幅に改善し、サブセット選択や疑わしいサンプル検索のような再現可能なランキングベースの決定をもたらす。
強靭な多系統凝集が支配的な汎用安定器であり、構造対応成分は、主に低い集約予算の下で、あるいは冗長クラスタが情報的、自然発生的、あるいは十分にカバーされている場合に、価値を付加する。
これらの結果から, {textsc{SCARV} は,汎用データセレクタや種子のみの集約の代用としてではなく,冗長な NLP データセットにおけるプロキシによるランク付けのための安定性指向の集約層として位置づけられた。
関連論文リスト
- From Local Indices to Global Identifiers: Generative Reranking for Recommender Systems via Global Action Space [50.72071213515985]
GloRankは、ローカルインデックスの選択からグローバル識別子の生成に移行する、ジェネレーティブなフレームワークである。
我々はGloRankが最先端のベースラインを一貫して上回り、コールドスタートシナリオにおいて優れたロバスト性を実現することを示す。
論文 参考訳(メタデータ) (2026-04-28T06:57:00Z) - From Global to Local: Rethinking CLIP Feature Aggregation for Person Re-Identification [20.74226476678832]
中間パッチトークンとCLIPのテキスト埋め込み空間でパラメータ化されたアンカーベクトルを整列することで、同一性表現を再構築するSAGA-ReIDを提案する。
制御された実験は、2つの定性的に異なる条件下で凝集機構を分離する。
ベンチマーク評価では、CLIP-ReIDよりも標準設定と無視設定で一貫したゲインを確認している。
論文 参考訳(メタデータ) (2026-04-24T03:37:21Z) - Semantic-based Distributed Learning for Diverse and Discriminative Representations [26.214742067718277]
大規模分散シナリオでは、ますます複雑なタスクはネットワーク間のよりインテリジェントなコラボレーションを要求する。
多様な表現と差別的な表現を両立させる分散学習フレームワークを提案する。
どちらの場合も、得られる最適解は理論的に差別的かつ多様な性質を維持することが証明される。
論文 参考訳(メタデータ) (2026-04-20T13:22:58Z) - Weight-Informed Self-Explaining Clustering for Mixed-Type Tabular Data [63.62853416081748]
WISEは表現、特徴重み付け、クラスタリング、解釈を統一するフレームワークである。
クラスタリングを駆動する同じプリミティブに根ざした、忠実で人間解釈可能な説明を生成する。
論文 参考訳(メタデータ) (2026-04-07T13:18:31Z) - Learning Sequential Decisions from Multiple Sources via Group-Robust Markov Decision Processes [9.088701245020479]
本稿では,オフライン多地点データセットから堅牢な逐次意思決定ポリシーを学習することを目的とする。
クロスサイト不確実性をモデル化するために, 群線形構造を持つ分散ロバストなMDPについて検討した。
我々は,キークロスサイト構造を維持しつつ,トラクタブルなベルマン再帰を保ちながら特徴的(d-矩形)不確実性集合を導入する。
論文 参考訳(メタデータ) (2026-02-02T08:58:55Z) - Correlation-Aware Feature Attribution Based Explainable AI [4.457502798302293]
emphExCIRは、軽量転送プロトコルを備えた相関対応属性スコアである。
textscBlockCIRは、コリニアクラスタの二重カウントを緩和する。
emphscalable説明責任は、現実のデプロイメントにおいて、emphscalable説明責任を計算的に効率的、emphscalent、emphscalable説明責任を提供する。
論文 参考訳(メタデータ) (2025-11-20T15:51:00Z) - Learning Discrete Bayesian Networks with Hierarchical Dirichlet Shrinkage [52.914168158222765]
我々はDBNを学習するための包括的なベイズ的フレームワークについて詳述する。
我々は、並列ランゲヴィン提案を用いてマルコフ連鎖モンテカルロ(MCMC)アルゴリズムを新たに提案し、正確な後続サンプルを生成する。
原発性乳癌検体から予後ネットワーク構造を明らかにするために本手法を適用した。
論文 参考訳(メタデータ) (2025-09-16T17:24:35Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - A^2-FPN: Attention Aggregation based Feature Pyramid Network for
Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。
A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文 参考訳(メタデータ) (2021-05-07T11:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。