論文の概要: SPARD: Self-Paced Curriculum for RL Alignment via Integrating Reward Dynamics and Data Utility
- arxiv url: http://arxiv.org/abs/2604.07837v1
- Date: Thu, 09 Apr 2026 05:37:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.723629
- Title: SPARD: Self-Paced Curriculum for RL Alignment via Integrating Reward Dynamics and Data Utility
- Title(参考訳): SPARD:Reward Dynamicsとデータユーティリティの統合によるRLアライメントのためのセルフパッチカリキュラム
- Authors: Xuyang Zhi, Peilun zhou, Chengqiang Lu, Hang Lv, Yiwei Liang, Rongyang Zhang, Yan Gao, YI WU, Yao Hu, Hongchao Gu, Defu Lian, Hao Wang, Enhong Chen,
- Abstract要約: 本研究では,学習の進捗を把握し,多目的報酬重み付けとデータ重要度を動的に調整し,自己完結型カリキュラムを構築するフレームワークであるSPARDを提案する。
複数のベンチマークにわたる大規模な実験により、SPARDはすべてのドメインにわたるモデル機能を大幅に強化することが示された。
- 参考スコア(独自算出の注目度): 71.76390626651254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evolution of Large Language Models (LLMs) is shifting the focus from single, verifiable tasks toward complex, open-ended real-world scenarios, imposing significant challenges on the post-training phase. In these settings, the scale and complexity of reward systems have grown significantly, transitioning toward multi-objective formulations that encompass a comprehensive spectrum of model capabilities and application contexts. However, traditional methods typically rely on fixed reward weights, ignoring non-stationary learning dynamics and struggling with data heterogeneity across dimensions. To address these issues, we propose SPARD, a framework that establishes an automated, self-paced curriculum by perceiving learning progress to dynamically adjust multi-objective reward weights and data importance, thereby synchronizing learning intent with data utility for optimal performance. Extensive experiments across multiple benchmarks demonstrate that SPARD significantly enhances model capabilities across all domains.
- Abstract(参考訳): 大規模言語モデル(LLM)の進化は、単一の検証可能なタスクから、複雑でオープンな現実世界のシナリオへと焦点を移し、トレーニング後のフェーズにおいて重大な課題を提起している。
これらの設定では、報酬システムのスケールと複雑さが著しく増加し、モデル機能とアプリケーションコンテキストの包括的なスペクトルを含む多目的の定式化へと移行している。
しかし、伝統的な手法は一般に固定された報酬重みに頼り、非定常的な学習力学を無視し、次元をまたいだデータの異質性に苦しむ。
これらの課題に対処するために,学習の進捗を把握し,多目的報酬重みとデータ重要度を動的に調整し,学習意図をデータユーティリティと同期させて最適なパフォーマンスを実現する,自己評価型カリキュラムを構築するフレームワークであるSPARDを提案する。
複数のベンチマークにわたる大規模な実験により、SPARDはすべてのドメインにわたるモデル機能を大幅に強化することが示された。
関連論文リスト
- A Deep Dive into Scaling RL for Code Generation with Synthetic Data and Curricula [39.433615386487126]
本稿では,教師モデルを用いたスケーラブルなマルチターン合成データ生成パイプラインを提案する。
シングルターン生成と比較して、このマルチターンアプローチは有効な合成問題の収量を大幅に改善する。
我々は,Llama3.1-8BインストラクションとQwen3-8Bベースモデルファミリ間のRLトレーニングにおいて,タスクの難易度,カリキュラムのスケジューリング,環境多様性がどう相互作用するかを体系的に研究する。
論文 参考訳(メタデータ) (2026-03-25T11:23:26Z) - Multimodal-Guided Dynamic Dataset Pruning for Robust and Efficient Data-Centric Learning [49.10890099624699]
本稿では,タスク駆動の難易度とモダリティ間のセマンティクスの整合性に基づいて,トレーニングサンプルを適応的に選択する動的データセット解析フレームワークを提案する。
私たちの研究は、堅牢なサンプル選択のためのモダリティアライメントの統合の可能性を強調し、アプリケーションドメイン全体のより効率的で堅牢なプラクティスに向けて、データ中心の学習を進めています。
論文 参考訳(メタデータ) (2025-07-17T03:08:26Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - STaRFormer: Semi-Supervised Task-Informed Representation Learning via Dynamic Attention-Based Regional Masking for Sequential Data [4.351581973358463]
トランスフォーマーベースのアプローチであるSTaRFormerは、シーケンシャルモデリングのための普遍的なフレームワークとして機能する。
STaRFormerは、動的注意に基づく領域マスキングスキームと半教師付きコントラスト学習を組み合わせて、タスク固有の潜在表現を強化する。
論文 参考訳(メタデータ) (2025-04-14T11:03:19Z) - Adapting to Non-Stationary Environments: Multi-Armed Bandit Enhanced Retrieval-Augmented Generation on Knowledge Graphs [23.357843519762483]
近年の研究では、検索-拡張生成フレームワークと知識グラフを組み合わせることで、大規模言語モデルの推論能力を強力に向上することが示されている。
我々は多目的帯域拡張RAGフレームワークを導入し、多様な機能を持つ複数の検索手法をサポートする。
本手法は,定常環境下での最先端性能を達成しつつ,非定常環境でのベースライン手法を著しく向上させる。
論文 参考訳(メタデータ) (2024-12-10T15:56:03Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。