論文の概要: Eigen-Value: Efficient Domain-Robust Data Valuation via Eigenvalue-Based Approach
- arxiv url: http://arxiv.org/abs/2510.23409v1
- Date: Mon, 27 Oct 2025 15:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.585448
- Title: Eigen-Value: Efficient Domain-Robust Data Valuation via Eigenvalue-Based Approach
- Title(参考訳): 固有値:固有値に基づく効率的なドメイン・ロバストデータ評価
- Authors: Youngjun Choi, Joonseong Kang, Sungjun Lim, Kyungwoo Song,
- Abstract要約: 我々は,OODロバストネスのためのプラグアンドプレイデータアセスメントフレームワークであるEmphEigen-Value (EV)を紹介した。
EVは、IDとOODの間の損失のギャップであるドメインの差を新しいスペクトルで近似する。
EVは、計算的に軽量なまま、現実世界のデータセット間でのOOD堅牢性と安定した価値ランキングの改善を実現している。
- 参考スコア(独自算出の注目度): 16.949761208449132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data valuation has become central in the era of data-centric AI. It drives efficient training pipelines and enables objective pricing in data markets by assigning a numeric value to each data point. Most existing data valuation methods estimate the effect of removing individual data points by evaluating changes in model validation performance under in-distribution (ID) settings, as opposed to out-of-distribution (OOD) scenarios where data follow different patterns. Since ID and OOD data behave differently, data valuation methods based on ID loss often fail to generalize to OOD settings, particularly when the validation set contains no OOD data. Furthermore, although OOD-aware methods exist, they involve heavy computational costs, which hinder practical deployment. To address these challenges, we introduce \emph{Eigen-Value} (EV), a plug-and-play data valuation framework for OOD robustness that uses only an ID data subset, including during validation. EV provides a new spectral approximation of domain discrepancy, which is the gap of loss between ID and OOD using ratios of eigenvalues of ID data's covariance matrix. EV then estimates the marginal contribution of each data point to this discrepancy via perturbation theory, alleviating the computational burden. Subsequently, EV plugs into ID loss-based methods by adding an EV term without any additional training loop. We demonstrate that EV achieves improved OOD robustness and stable value rankings across real-world datasets, while remaining computationally lightweight. These results indicate that EV is practical for large-scale settings with domain shift, offering an efficient path to OOD-robust data valuation.
- Abstract(参考訳): データバリュエーションは、データ中心AIの時代の中心になっている。
効率的なトレーニングパイプラインを駆動し、各データポイントに数値を割り当てることで、データ市場における客観的な価格設定を可能にする。
既存のデータ評価手法の多くは、データが異なるパターンに従うアウト・オブ・ディストリビューション(OOD)シナリオとは対照的に、ID設定下でのモデル検証性能の変化を評価することによって、個々のデータポイントを削除する効果を見積もっている。
IDとOODデータが異なる振る舞いをするので、ID損失に基づくデータ評価手法は、特に検証セットにOODデータが含まれていない場合、OOD設定に一般化できないことが多い。
さらに、OODを意識した手法は存在するが、計算コストが重いため、実際の展開を妨げている。
これらの課題に対処するために、検証中のIDデータサブセットのみを使用するOODロバストネスのためのプラグアンドプレイデータアセスメントフレームワークである \emph{Eigen-Value} (EV) を紹介した。
EVは、IDデータの共分散行列の固有値の比率を用いて、IDとOODの間の損失のギャップである、ドメインの差の新たなスペクトル近似を提供する。
EVは摂動理論によって各データの限界寄与を推定し、計算負担を軽減する。
その後、EVは、追加のトレーニングループなしでEV用語を追加することで、ID損失ベースのメソッドにプラグインする。
我々は,EVが計算処理の軽量さを維持しながら,実世界のデータセット間でのOODロバスト性と安定した値ランキングを実現することを実証した。
これらの結果から、EVはドメインシフトを伴う大規模設定において実用的であり、OOD-robustデータバリュエーションへの効率的なパスを提供することが示された。
関連論文リスト
- DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - What If the Input is Expanded in OOD Detection? [77.37433624869857]
Out-of-distriion (OOD) 検出は未知のクラスからのOOD入力を特定することを目的としている。
In-distriion(ID)データと区別するために,様々なスコアリング関数を提案する。
入力空間に異なる共通の汚職を用いるという、新しい視点を導入する。
論文 参考訳(メタデータ) (2024-10-24T06:47:28Z) - RICASSO: Reinforced Imbalance Learning with Class-Aware Self-Supervised Outliers Exposure [21.809270017579806]
ディープラーニングモデルは、不均衡(ロングテール)とアウト・オブ・ディストリビューション(OOD)の両方のデータから、しばしば課題に直面します。
本研究は、データ混合により、IDデータとOODデータの両方の特徴を示す擬似OODデータを生成することができることを示す。
RICASSO(Reinforced Im Balance Learning)と呼ばれる統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T14:29:32Z) - Neural Dynamic Data Valuation: A Stochastic Optimal Control Approach [15.538631565455448]
本稿では、時間とともにデータユーティリティの動的進化を捉えるために、データバリュエーションを最適制御問題として定式化する新しいフレームワークを提案する。
静的アプローチとは異なり、NDDVは個々の学習力学と集団学習力学の両方を反映した連続的な軌跡を通してデータ相互作用をモデル化する。
論文 参考訳(メタデータ) (2024-04-30T13:39:26Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - Out-of-distribution Detection with Implicit Outlier Transformation [72.73711947366377]
外周露光(OE)は、オフ・オブ・ディストリビューション(OOD)検出において強力である。
我々は,未確認のOOD状況に対してモデルの性能を良くする,新しいOEベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-09T04:36:38Z) - Training OOD Detectors in their Natural Habitats [31.565635192716712]
アウト・オブ・ディストリビューション(OOD)検出は、野生にデプロイされた機械学習モデルにとって重要である。
近年の手法では,OOD検出の改善のために補助外乱データを用いてモデルを正規化している。
我々は、自然にIDとOODの両方のサンプルで構成される野生の混合データを活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T15:38:39Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。