論文の概要: Gradient-Based Data Valuation Improves Curriculum Learning for Game-Theoretic Motion Planning
- arxiv url: http://arxiv.org/abs/2604.00388v1
- Date: Wed, 01 Apr 2026 02:17:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.795583
- Title: Gradient-Based Data Valuation Improves Curriculum Learning for Game-Theoretic Motion Planning
- Title(参考訳): グラディエントに基づくデータ評価はゲーム理論運動計画のためのカリキュラム学習を改善する
- Authors: Shihao Li, Jiachen Li, Dongmei Chen,
- Abstract要約: 勾配に基づくデータ評価は、ゲーム理論的なモーションプランナーを訓練するためのメタデータベースのサブセットを著しく上回るカリキュラム注文を生成する。
ゲーム理論計画におけるサンプル効率向上のための実用的なツールとしての勾配に基づくデータ評価
- 参考スコア(独自算出の注目度): 9.553350856191743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate that gradient-based data valuation produces curriculum orderings that significantly outperform metadata-based heuristics for training game-theoretic motion planners. Specifically, we apply TracIn gradient-similarity scoring to GameFormer on the nuPlan benchmark and construct a curriculum that weights training scenarios by their estimated contribution to validation loss reduction. Across three random seeds, the TracIn-weighted curriculum achieves a mean planning ADE of $1.704\pm0.029$\,m, significantly outperforming the metadata-based interaction-difficulty curriculum ($1.822\pm0.014$\,m; paired $t$-test $p=0.021$, Cohen's $d_z=3.88$) while exhibiting lower variance than the uniform baseline ($1.772\pm0.134$\,m). Our analysis reveals that TracIn scores and scenario metadata are nearly orthogonal (Spearman $ρ=-0.014$), indicating that gradient-based valuation captures training dynamics invisible to hand-crafted features. We further show that gradient-based curriculum weighting succeeds where hard data selection fails: TracIn-curated 20\% subsets degrade performance by $2\times$, whereas full-data curriculum weighting with the same scores yields the best results. These findings establish gradient-based data valuation as a practical tool for improving sample efficiency in game-theoretic planning.
- Abstract(参考訳): 勾配に基づくデータ評価は,ゲーム理論の運動プランナの学習において,メタデータに基づくヒューリスティックスを大幅に上回るカリキュラム注文を生成することを示した。
具体的には、nuPlanベンチマークでGameFormerにTracIn勾配類似度スコアを適用し、検証損失低減への推定貢献によってトレーニングシナリオを重み付けするカリキュラムを構築する。
3つのランダムなシードの中で、TracIn重み付きカリキュラムは平均的な計画 ADE を1.704\pm0.029$\,m で達成し、メタデータベースの相互作用を微分するカリキュラム(1.822\pm0.014$\,m; paired $t$-test $p=0.021$, Cohen's $d_z=3.88$)を著しく上回り、均一なベースライン(1.772\pm0.134$\,m)よりも低い分散を示す。
分析の結果,TracInのスコアとシナリオメタデータはほぼ直交(Spearman $ρ=-0.014$)であることが判明した。
TracIn-curated 20\% subsets degrade performance by $2\times$, while full-data curriculum weighting with the same scores is the best results。
これらの結果から,ゲーム理論計画におけるサンプル効率向上のための実用的なツールとして,勾配に基づくデータ評価が確立された。
関連論文リスト
- GradAlign: Gradient-Aligned Data Selection for LLM Reinforcement Learning [55.03441672267886]
強化学習のための勾配整列データ選択法GradAlignを提案する。
GradAlignは,信頼できない報酬信号,分散不均衡,低ユーティリティトレーニングコーパスの3つにまたがって評価する。
論文 参考訳(メタデータ) (2026-02-25T01:54:50Z) - Architecture-Agnostic Curriculum Learning for Document Understanding: Empirical Evidence from Text-Only and Multimodal [13.329839705160927]
文書理解モデルにおいて,プログレッシブなデータスケジューリングが一貫した効率向上をもたらすかどうかを検討する。
このスケジュールは,6.67から10.0までの有効エポックなデータ削減と合わせて,ウォールクロックのトレーニング時間を約33%短縮することを確認した。
論文 参考訳(メタデータ) (2026-02-02T10:09:26Z) - Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。
本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。
目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文 参考訳(メタデータ) (2025-07-24T21:11:39Z) - Quality over Quantity: An Effective Large-Scale Data Reduction Strategy Based on Pointwise V-Information [2.133855532092057]
我々は、ポイントワイドV情報(PVI)に基づく効果的なデータ削減戦略を提案する。
実験の結果、データの10%から30%が削除された場合、分類器の性能は0.0001%から0.76%の精度で維持されることがわかった。
我々は,これまで英語のデータセットに限られていたPVIフレームワークを,さまざまな自然言語処理(NLP)タスクやベースモデルに適用した。
論文 参考訳(メタデータ) (2025-06-19T06:59:19Z) - How to Achieve Higher Accuracy with Less Training Points? [2.1834099301440526]
本稿では,学習セットにどのトレーニングサンプルを含めるべきかを決定するための影響関数に基づく手法を提案する。
当社のアプローチでは、データセット全体のトレーニングに匹敵するパフォーマンスを示しながら、データの10%しか使用していません。
論文 参考訳(メタデータ) (2025-04-18T09:38:26Z) - Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。
次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-17T22:18:24Z) - What is Your Data Worth to GPT? LLM-Scale Data Valuation with Influence Functions [34.99034454081842]
大規模な言語モデル(LLM)は、膨大な量の人間が書いたデータに基づいて訓練されているが、データプロバイダはしばしば信頼できないままである。
本研究では,勾配に基づくデータ評価手法であるインフルエンス関数に着目し,その拡張性を大幅に改善する。
既存のトレーニングコードを最小限の労力でデータバリュエーションコードに変換するソフトウェアパッケージであるLogIXも導入しています。
論文 参考訳(メタデータ) (2024-05-22T19:39:05Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Online Importance Sampling for Stochastic Gradient Optimization [33.42221341526944]
本稿では,トレーニング中のデータの重要度を効率的に計算する実用的なアルゴリズムを提案する。
また、ネットワーク出力の損失w.r.t.の導出に基づく新しいメトリクスを導入し、ミニバッチの重要度サンプリング用に設計した。
論文 参考訳(メタデータ) (2023-11-24T13:21:35Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。