論文の概要: Neural Dynamic Data Valuation
- arxiv url: http://arxiv.org/abs/2404.19557v3
- Date: Wed, 12 Jun 2024 14:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-13 22:14:47.876015
- Title: Neural Dynamic Data Valuation
- Title(参考訳): ニューラルネットワークによる動的データ評価
- Authors: Zhangyong Liang, Huanhuan Gao, Ji Zhang,
- Abstract要約: ニューラルダイナミックデータ評価(NDDV)という最適制御の観点から,新しいデータ評価手法を提案する。
本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。
さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
- 参考スコア(独自算出の注目度): 4.286118155737111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data constitute the foundational component of the data economy and its marketplaces. Efficient and fair data valuation has emerged as a topic of significant interest.\ Many approaches based on marginal contribution have shown promising results in various downstream tasks. However, they are well known to be computationally expensive as they require training a large number of utility functions, which are used to evaluate the usefulness or value of a given dataset for a specific purpose. As a result, it has been recognized as infeasible to apply these methods to a data marketplace involving large-scale datasets. Consequently, a critical issue arises: how can the re-training of the utility function be avoided? To address this issue, we propose a novel data valuation method from the perspective of optimal control, named the neural dynamic data valuation (NDDV). Our method has solid theoretical interpretations to accurately identify the data valuation via the sensitivity of the data optimal control state. In addition, we implement a data re-weighting strategy to capture the unique features of data points, ensuring fairness through the interaction between data points and the mean-field states. Notably, our method requires only training once to estimate the value of all data points, significantly improving the computational efficiency. We conduct comprehensive experiments using different datasets and tasks. The results demonstrate that the proposed NDDV method outperforms the existing state-of-the-art data valuation methods in accurately identifying data points with either high or low values and is more computationally efficient.
- Abstract(参考訳): データ・エコノミーとその市場の基礎的な構成要素はデータ・エコノミーである。
効率的で公正なデータ評価が、重要な関心事のトピックとして浮上している。
> 限界貢献に基づく多くのアプローチは、様々な下流タスクにおいて有望な結果を示している。
しかしながら、特定の目的のために与えられたデータセットの有用性や価値を評価するために使用される、多数のユーティリティ関数のトレーニングを必要とするため、計算コストが広く知られている。
その結果、大規模なデータセットを含むデータマーケットプレースにこれらの手法を適用することは不可能であると認識されている。
その結果、重要な問題が発生する: ユーティリティ関数の再トレーニングをどうやって回避できるのか?
この問題に対処するために,ニューラルダイナミックデータ評価(NDDV)と呼ばれる最適制御の観点から,新しいデータ評価手法を提案する。
本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。
さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
特に,本手法では,すべてのデータポイントの値を推定するために1回のみのトレーニングが必要であり,計算効率が大幅に向上する。
さまざまなデータセットとタスクを使用して包括的な実験を行います。
その結果,提案手法は既存の最先端データ評価手法よりも高い値または低値のデータポイントを正確に同定し,より計算効率がよいことを示す。
関連論文リスト
- Entropy-Guided Token Dropout: Training Autoregressive Language Models with Limited Domain Data [89.96277093034547]
本研究では,エントロピー誘導型トークンドロップアウト方式であるEntroDropを導入する。
本稿では,EntroDropが標準正規化ベースラインを一貫して上回り,拡張型マルチエポックトレーニングを通じて堅牢な性能を維持していることを示す。
論文 参考訳(メタデータ) (2025-12-29T12:35:51Z) - Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making [48.998030470623384]
オフラインの意思決定は、さらなるインタラクションを伴わずに、固定データセットからの信頼性の高い振る舞いを必要とする。
i)タスク整列軌道を多様に生成するプランナー,(ii)システム力学との整合性を強制するダイナミクスモデル,(iii)タスク目標に整合した動作を選択するランサーモジュールからなる構成モデルに基づく拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-09T06:26:02Z) - Multimodal-Guided Dynamic Dataset Pruning for Robust and Efficient Data-Centric Learning [49.10890099624699]
本稿では,タスク駆動の難易度とモダリティ間のセマンティクスの整合性に基づいて,トレーニングサンプルを適応的に選択する動的データセット解析フレームワークを提案する。
私たちの研究は、堅牢なサンプル選択のためのモダリティアライメントの統合の可能性を強調し、アプリケーションドメイン全体のより効率的で堅牢なプラクティスに向けて、データ中心の学習を進めています。
論文 参考訳(メタデータ) (2025-07-17T03:08:26Z) - Model-agnostic Mitigation Strategies of Data Imbalance for Regression [0.0]
データ不均衡は、回帰タスクにおいて広範囲にわたる課題として持続し、モデルパフォーマンスのバイアスを導入し、予測信頼性を損なう。
既存のサンプリング手法を構築・改善する高度な緩和手法を提案する。
モデルのアンサンブル(不均衡緩和で訓練されたモデルと、非バランスで訓練されたモデル)の構築は、これらの負の効果を著しく減少させることを実証する。
論文 参考訳(メタデータ) (2025-06-02T09:46:08Z) - Losing is for Cherishing: Data Valuation Based on Machine Unlearning and Shapley Value [18.858879113762917]
我々は、機械学習を利用してデータ値を効率的に推定する新しいフレームワークUnlearning Shapleyを提案する。
提案手法は,モンテカルロサンプリングによるシェープリー値の計算を行い,再学習を回避し,全データへの依存を排除した。
この作業は、データバリュエーション理論と実践的デプロイメントのギャップを埋め、現代のAIエコシステムにスケーラブルでプライバシに準拠したソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-22T02:46:03Z) - DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - A Scalable Approach to Covariate and Concept Drift Management via Adaptive Data Segmentation [0.562479170374811]
多くの現実世界のアプリケーションでは、継続的機械学習(ML)システムは不可欠だが、データドリフトが困難である。
伝統的なドリフト適応法は典型的にはアンサンブル技術を用いてモデルを更新し、しばしばドリフトされた歴史データを破棄する。
ドリフトしたデータをモデルトレーニングプロセスに明示的に組み込むことは、モデルの精度と堅牢性を大幅に向上させる、と我々は主張する。
論文 参考訳(メタデータ) (2024-11-23T17:35:23Z) - Off-dynamics Conditional Diffusion Planners [15.321049697197447]
この研究は、オフラインRLにおけるデータ不足の課題に対処するために、より容易に利用できるオフダイナミックスデータセットの使用を探求する。
本研究では,DPMを用いた大規模オフダイナミックスデータセットと限定ターゲットデータセットの連成分布の学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T04:56:43Z) - Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。
多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。
本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T07:56:53Z) - Combined Optimization of Dynamics and Assimilation with End-to-End Learning on Sparse Observations [1.492574139257933]
CODAは、疎度でノイズの多い観測から、ダイナミックスとDAを直接学習するエンドツーエンドの最適化スキームである。
本研究では,非ロール型自己回帰力学と,弱い制約を持つ4Dvar DAのデータと自己整合性を組み合わせた新たな学習目標を提案する。
論文 参考訳(メタデータ) (2024-09-11T09:36:15Z) - Data Valuation by Leveraging Global and Local Statistical Information [25.911043100052588]
グローバルとローカルの両方の値分布が、機械学習の文脈におけるデータ評価に有意な可能性を秘めていることを示す。
提案手法は,探索された分布特性を既存手法であるAMEに組み込むことで,Shapley値を推定する新しいデータ評価手法であるAMEを提案する。
また,グローバルな値分布と局所的な値分布の情報を統合した最適化問題を定式化することにより,動的データ評価問題に対処する新たな経路を提案する。
論文 参考訳(メタデータ) (2024-05-23T08:58:08Z) - Data Valuation with Gradient Similarity [1.997283751398032]
データ評価アルゴリズムは、与えられた予測タスクへの貢献または重要性に基づいて、データセット内の各サンプルの価値を定量化する。
DVGS(Data Valuation with Gradient similarity)と呼ばれる既存の手法に代わる単純な方法を提案する。
当社のアプローチでは,低品質なデータを迅速かつ正確に識別することが可能で,データクリーニング作業における専門家の知識や手作業による介入の必要性を低減できる。
論文 参考訳(メタデータ) (2024-05-13T22:10:00Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Data-OOB: Out-of-bag Estimate as a Simple and Efficient Data Value [17.340091573913316]
本研究では,バッジモデルのためのデータ評価手法であるData-OOBを提案する。
Data-OOBは、評価に106ドルのサンプルがあり、入力寸法が100である場合、1つのCPUプロセッサで2.25時間未満である。
提案手法は,誤ラベル付きデータを識別し,有用な(あるいは有害な)データポイントの集合を見出すことで,既存の最先端データ評価手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-16T08:03:58Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - DeepVol: Volatility Forecasting from High-Frequency Data with Dilated Causal Convolutions [53.37679435230207]
本稿では,Dilated Causal Convolutionsに基づくDeepVolモデルを提案する。
実験結果から,提案手法は高頻度データからグローバルな特徴を効果的に学習できることが示唆された。
論文 参考訳(メタデータ) (2022-09-23T16:13:47Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Overcoming Model Bias for Robust Offline Deep Reinforcement Learning [3.1325640909772403]
MOOSEは、ポリシーをデータのサポート内に保持することで、低モデルバイアスを保証するアルゴリズムである。
我々はMOOSEと産業ベンチマークのBRAC, BEAR, BCQ, および MuJoCo の連続制御タスクを比較した。
論文 参考訳(メタデータ) (2020-08-12T19:08:55Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。