論文の概要: Unifying and Optimizing Data Values for Selection via Sequential-Decision-Making
- arxiv url: http://arxiv.org/abs/2502.04554v1
- Date: Thu, 06 Feb 2025 23:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:46.914069
- Title: Unifying and Optimizing Data Values for Selection via Sequential-Decision-Making
- Title(参考訳): 逐次決定処理による選択のためのデータ値の統一と最適化
- Authors: Hongliang Chi, Qiong Wu, Zhengyi Zhou, Jonathan Light, Emily Dodwell, Yao Ma,
- Abstract要約: 本研究では,選択に適用されるデータ値を逐次決定問題として再定義可能であることを示す。
本稿では,学習された二部グラフを代理ユーティリティモデルとして用いた効率的な近似手法を提案する。
- 参考スコア(独自算出の注目度): 5.755427480127593
- License:
- Abstract: Data selection has emerged as a crucial downstream application of data valuation. While existing data valuation methods have shown promise in selection tasks, the theoretical foundations and full potential of using data values for selection remain largely unexplored. In this work, we first demonstrate that data values applied for selection can be naturally reformulated as a sequential-decision-making problem, where the optimal data value can be derived through dynamic programming. We show this framework unifies and reinterprets existing methods like Data Shapley through the lens of approximate dynamic programming, specifically as myopic reward function approximations to this sequential problem. Furthermore, we analyze how sequential data selection optimality is affected when the ground-truth utility function exhibits monotonic submodularity with curvature. To address the computational challenges in obtaining optimal data values, we propose an efficient approximation scheme using learned bipartite graphs as surrogate utility models, ensuring greedy selection is still optimal when the surrogate utility is correctly specified and learned. Extensive experiments demonstrate the effectiveness of our approach across diverse datasets.
- Abstract(参考訳): データバリュエーションの重要なダウンストリームアプリケーションとして、データ選択が登場しました。
既存のデータ評価手法は、選択タスクにおいて有望であることを示しているが、選択にデータ値を使うことの理論的基礎と潜在能力は、まだ明らかにされていない。
本研究では、選択に適用されるデータ値が、動的プログラミングによって最適なデータ値を導出できるシーケンシャル決定問題として自然に再構成できることを最初に示す。
このフレームワークは、近似動的プログラミングのレンズを通して、Data Shapleyのような既存のメソッドを統一、再解釈し、特に、このシーケンシャルな問題に対するミオピック報酬関数近似として示す。
さらに,実効性関数が曲率で単調な部分モジュラリティを示す場合,連続したデータ選択の最適性がどう影響するかを解析する。
最適なデータ値を得る際の計算課題を解決するために,学習された二部グラフを用いた効率的な近似手法を提案する。
広範囲にわたる実験により、多様なデータセットにまたがるアプローチの有効性が実証された。
関連論文リスト
- Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Globally-Optimal Greedy Experiment Selection for Active Sequential
Estimation [1.1530723302736279]
逐次的に収集したデータの実験を適応的に選択するアクティブシーケンシャル推定の問題について検討する。
目標は、より正確なモデル推定のための実験選択ルールを設計することである。
そこで本稿では,グリーディ実験の選択手法のクラスを提案し,最大可能性の統計的解析を行う。
論文 参考訳(メタデータ) (2024-02-13T17:09:29Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Fast Classification with Sequential Feature Selection in Test Phase [1.1470070927586016]
本稿では,分類のための能動的特徴獲得のための新しいアプローチを提案する。
最適な予測性能を達成するために、最も情報性の高い機能のサブセットを順次選択する作業である。
提案手法では,既存の手法に比べてはるかに高速で効率の良い新しい遅延モデルが提案されている。
論文 参考訳(メタデータ) (2023-06-25T21:31:46Z) - Data-Driven Offline Decision-Making via Invariant Representation
Learning [97.49309949598505]
オフラインのデータ駆動意思決定は、アクティブなインタラクションなしで最適化された決定を合成する。
オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。
本稿では、オフラインデータ駆動意思決定をドメイン適応として定式化し、最適化された決定値の正確な予測を行うことを目標とする。
論文 参考訳(メタデータ) (2022-11-21T11:01:37Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z) - Joint Adaptive Graph and Structured Sparsity Regularization for
Unsupervised Feature Selection [6.41804410246642]
本稿では,共同適応グラフと構造付き空間正規化unsupervised feature selection (JASFS)法を提案する。
最適な機能のサブセットがグループで選択され、選択された機能の数が自動的に決定される。
8つのベンチマーク実験の結果,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2020-10-09T08:17:04Z) - Consistent and Flexible Selectivity Estimation for High-Dimensional Data [23.016360687961193]
本稿では,クエリ依存の断片的線形関数を選択性推定器として学習する深層学習モデルを提案する。
提案手法は,最先端モデルの精度を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-05-20T08:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。