論文の概要: Complement Submodular Information Measures for Balanced and Robust Data Selection
- arxiv url: http://arxiv.org/abs/2605.24779v1
- Date: Sat, 23 May 2026 23:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.431833
- Title: Complement Submodular Information Measures for Balanced and Robust Data Selection
- Title(参考訳): バランスとロバストなデータ選択のための補足サブモジュール情報対策
- Authors: Rishabh Iyer,
- Abstract要約: 補足サブモジュール情報(CSI)は補足サブモジュールの新たなクラスである。
CSIの目標は、ロバストな部分集合選択における標準部分モジュラー目標よりも一貫して優れていることを示す。
特にCSIの目的は、コヒーレントなレア/テールの意味構造の保存を著しく改善することである。
- 参考スコア(独自算出の注目度): 0.20305676256390934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Submodular optimization has become a fundamental paradigm for data selection, retrieval, summarization, and representation learning due to its ability to model coverage, diversity, and representativeness. However, classical submodular objectives optimize only the selected subset and do not explicitly preserve structural information between the selected subset and the remaining data. In many modern machine learning applications, including train/validation/test splitting, benchmark construction, and robust subset selection, the quality of a selection depends critically on preserving balanced structure across both the selected subset and its complement. In this work, we introduce Complement Submodular Information (CSI), a new class of complement-aware submodular objectives that quantify shared structural information between a subset and its complement. Our framework induces complement-aware variants of several classical submodular functions including Facility Location, Graph Cut, LogDet, Saturated Coverage, Set Cover, Probabilistic Set Cover, and Feature Based Functions. We analyze the theoretical properties of CSI objectives and show that they exhibit approximate monotonicity under bounded curvature conditions, leading to near-$(1-1/e)$ greedy approximation guarantees. Empirically, CSI objectives consistently outperform standard submodular objectives on robust hidden-slice-aware subset selection. In particular, CSI objectives significantly improve preservation of coherent rare/tail semantic structure while simultaneously suppressing noisy and isolated outliers, leading to substantially improved downstream predictive performance. Synthetic experiments further illustrate how different CSI instantiations capture complementary notions of representativeness, diversity, connectivity, and balanced neighborhood preservation.
- Abstract(参考訳): サブモジュール最適化は、データ選択、検索、要約、表現学習の基本的なパラダイムとなっている。
しかし、古典的部分モジュラー目的は選択されたサブセットのみを最適化し、選択されたサブセットと残りのデータの間の構造情報を明示的に保持しない。
トレイン/バリデーション/テスト分割、ベンチマーク構成、ロバストなサブセット選択など、現代の機械学習アプリケーションでは、選択の品質は選択されたサブセットと補完部分の両方でバランスの取れた構造を保存することに決定的に依存する。
本研究では,部分集合と補集合の間の共有構造情報を定量化する補足型サブモジュールの新たなクラスであるComplement Submodular Information (CSI)を紹介する。
本フレームワークは,施設位置,グラフカット,ログデット,飽和カバー,セットカバー,確率的セットカバー,特徴ベース関数など,いくつかの古典的サブモジュール関数の補完型を誘導する。
我々は, CSI対象の理論的性質を解析し, 有界曲率条件下で近似単調性を示すことを示す。
経験的に、CSIの目標は、頑健な隠れスライス対応サブセットの選択において、標準のサブモジュラー目標を一貫して上回る。
特に,CSIの目的は,ノイズや孤立した異常を同時に抑制しつつ,コヒーレントなレア/テールの意味構造の保存を著しく改善し,下流予測性能を著しく向上させる。
合成実験はさらに、異なるCSIインスタンスが、代表性、多様性、接続性、バランスの取れた近所の保存の相補的な概念をいかに捉えているかを示す。
関連論文リスト
- Objective-Induced Bias and Search Dynamics in Multiobjective Unsupervised Feature Selection [2.2282508171588806]
評価対象の選択、サブセットサイズ正規化の方向性、初期化戦略について検討する。
客観的デザインは, 効果的な多目的的非教師付き特徴選択の中心であることを示す。
論文 参考訳(メタデータ) (2026-05-20T15:14:00Z) - Quantum Feature Selection with Higher-Order Binary Optimization on Trapped-Ion Hardware [4.622928173506349]
本稿では,高次非制約二元最適化(HUBO)の定式化に基づく量子的特徴選択フレームワークを提案する。
提案モデルには,相互情報量から導出される1,2,3体相互作用項が含まれる。
提案したワークフローをGallstoneデータセットとSpambaseデータセットという2つのベンチマーク分類データセットで評価する。
論文 参考訳(メタデータ) (2026-04-29T16:01:39Z) - USBD: Universal Structural Basis Distillation for Source-Free Graph Domain Adaptation [28.47018372381707]
SF-GDAは、グラフデータセット間でのプライバシ保護の知識伝達において重要である。
本稿では, バイアスモデルに適応するパラダイムを, SF-GDAの普遍的構造基底学習にシフトさせるフレームワークであるユニバーサル構造基底蒸留を提案する。
論文 参考訳(メタデータ) (2026-02-09T09:39:07Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - Enhancing Neural Subset Selection: Integrating Background Information into Set Representations [53.15923939406772]
対象値が入力集合とサブセットの両方に条件付けされている場合、スーパーセットのテクスティ不変な統計量を関心のサブセットに組み込むことが不可欠であることを示す。
これにより、出力値がサブセットとその対応するスーパーセットの置換に不変であることを保証する。
論文 参考訳(メタデータ) (2024-02-05T16:09:35Z) - BOtied: Multi-objective Bayesian optimization with tied multivariate ranks [33.414682601242006]
本稿では,非支配解と結合累積分布関数の極端量子化との自然な関係を示す。
このリンクにより、我々はPareto対応CDFインジケータと関連する取得関数BOtiedを提案する。
種々の合成および実世界の問題に対する実験により,BOtied は最先端MOBO 取得関数より優れていることが示された。
論文 参考訳(メタデータ) (2023-06-01T04:50:06Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。