論文の概要: Action Shapley: A Training Data Selection Metric for World Model in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.10905v1
- Date: Thu, 15 Jan 2026 23:33:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.306876
- Title: Action Shapley: A Training Data Selection Metric for World Model in Reinforcement Learning
- Title(参考訳): Action Shapley: 強化学習における世界モデルのためのトレーニングデータ選択基準
- Authors: Rajat Ghosh, Debojyoti Dutta,
- Abstract要約: Action Shapleyは、トレーニングデータの偏見のない選択の指標である。
本稿では,従来のShapley値計算に固有の指数複雑性を緩和するランダム化動的アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.20421719209402212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous offline and model-based reinforcement learning systems incorporate world models to emulate the inherent environments. A world model is particularly important in scenarios where direct interactions with the real environment is costly, dangerous, or impractical. The efficacy and interpretability of such world models are notably contingent upon the quality of the underlying training data. In this context, we introduce Action Shapley as an agnostic metric for the judicious and unbiased selection of training data. To facilitate the computation of Action Shapley, we present a randomized dynamic algorithm specifically designed to mitigate the exponential complexity inherent in traditional Shapley value computations. Through empirical validation across five data-constrained real-world case studies, the algorithm demonstrates a computational efficiency improvement exceeding 80\% in comparison to conventional exponential time computations. Furthermore, our Action Shapley-based training data selection policy consistently outperforms ad-hoc training data selection.
- Abstract(参考訳): 多くのオフラインおよびモデルに基づく強化学習システムは、固有の環境をエミュレートするために世界モデルを組み込んでいる。
世界モデルは、実際の環境との直接的な相互作用がコストが高く、危険で、実用的でないシナリオにおいて特に重要である。
このような世界モデルの有効性と解釈可能性は、基礎となるトレーニングデータの品質に特有である。
この文脈では、Action Shapleyを、訓練データの偏見のない選択のための無知の指標として導入する。
本研究では,従来のShapley値計算に固有の指数的複雑性を緩和するランダム化動的アルゴリズムを提案する。
5つのデータ制約された実世界のケーススタディの実証検証を通じて、従来の指数時間計算と比較して80%を超える計算効率の改善を示す。
さらに、Action Shapleyベースのトレーニングデータ選択ポリシーは、アドホックなトレーニングデータ選択よりも一貫して優れています。
関連論文リスト
- ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation [1.2425910171551517]
学習されたダイナミックスモデルによるプランニングは、多目的な現実世界の操作に対して有望なアプローチを提供する。
残差物理モデリングと不確実性に基づく能動学習を組み合わせたフレームワークであるActivePusherを提案する。
シミュレーションと実環境の両方でアプローチを評価し,データ効率を継続的に改善し,より高い計画成功率を達成することを実証した。
論文 参考訳(メタデータ) (2025-06-05T05:28:14Z) - Losing is for Cherishing: Data Valuation Based on Machine Unlearning and Shapley Value [24.00172524434103]
我々は、機械学習を利用してデータ値を効率的に推定する新しいフレームワークUnlearning Shapleyを提案する。
提案手法は,モンテカルロサンプリングによるシェープリー値の計算を行い,再学習を回避し,全データへの依存を排除した。
この作業は、データバリュエーション理論と実践的デプロイメントのギャップを埋め、現代のAIエコシステムにスケーラブルでプライバシに準拠したソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-22T02:46:03Z) - CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning [0.0]
そこで本研究では,各トレーニング時代のモデル性能における各データサブセットの有用性を近似したCHG(Compound of Hardness and Gradient)ユーティリティ関数を提案する。
CHGユーティリティ関数を用いて各データポイント毎の閉形式のShapley値を導出することにより、計算複雑性を1つのモデル再学習に還元する。
さらに、CHG Shapleyをリアルタイムデータ選択に利用し、標準データセット、ラベルノイズデータセット、クラス不均衡データセットの3つの設定で実験を行います。
論文 参考訳(メタデータ) (2024-06-17T16:48:31Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [65.57123249246358]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。