論文の概要: Scalable Exploration for High-Dimensional Continuous Control via Value-Guided Flow
- arxiv url: http://arxiv.org/abs/2601.19707v1
- Date: Tue, 27 Jan 2026 15:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.369158
- Title: Scalable Exploration for High-Dimensional Continuous Control via Value-Guided Flow
- Title(参考訳): バリューガイドフローによる高次元連続制御のためのスケーラブルな探索
- Authors: Yunyue Wei, Chenhui Zuo, Yanan Sui,
- Abstract要約: 本稿では,Q-Guided Flow Exploration (Qflex)を提案する。
トレーニング中、Qflexは学習可能なソース分布から学習値関数によって誘導される確率フローに沿って動作を横切り、等方性雑音ではなくタスク関連勾配と探索を整列する。
以上の結果から,バリューガイドフローは,大規模探査の原則的かつ実践的な道筋となることが示唆された。
- 参考スコア(独自算出の注目度): 12.08071565601655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlling high-dimensional systems in biological and robotic applications is challenging due to expansive state-action spaces, where effective exploration is critical. Commonly used exploration strategies in reinforcement learning are largely undirected with sharp degradation as action dimensionality grows. Many existing methods resort to dimensionality reduction, which constrains policy expressiveness and forfeits system flexibility. We introduce Q-guided Flow Exploration (Qflex), a scalable reinforcement learning method that conducts exploration directly in the native high-dimensional action space. During training, Qflex traverses actions from a learnable source distribution along a probability flow induced by the learned value function, aligning exploration with task-relevant gradients rather than isotropic noise. Our proposed method substantially outperforms representative online reinforcement learning baselines across diverse high-dimensional continuous-control benchmarks. Qflex also successfully controls a full-body human musculoskeletal model to perform agile, complex movements, demonstrating superior scalability and sample efficiency in very high-dimensional settings. Our results indicate that value-guided flows offer a principled and practical route to exploration at scale.
- Abstract(参考訳): 生物学的・ロボティックな応用における高次元システムの制御は、効果的な探索が不可欠である広範な状態反応空間のために困難である。
強化学習においてよく用いられる探索戦略は、行動次元が大きくなるにつれて急激な劣化を伴う。
既存の多くの手法は、政策表現性を制約し、システムの柔軟性を損なう次元削減を前提としている。
本稿では,Q-Guided Flow Exploration (Qflex)を提案する。Q-Guided Flow Exploration (Qflex)は,ネイティブな高次元行動空間で直接探索を行うスケーラブルな強化学習手法である。
トレーニング中、Qflexは学習可能なソース分布から学習値関数によって誘導される確率フローに沿って動作を横切り、等方性雑音ではなくタスク関連勾配と探索を整列する。
提案手法は,多種多様な高次元連続制御ベンチマークにおいて,オンライン強化学習のベースラインを大幅に上回っている。
Qflexはまた、アジャイルで複雑な動きを実行し、非常に高次元の環境で優れたスケーラビリティとサンプル効率を示すために、フルボディの人筋骨格モデルをうまく制御します。
以上の結果から,バリューガイドフローは,大規模探査の原則的かつ実践的な道筋となることが示唆された。
関連論文リスト
- Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - Reinforcement Learning with a Focus on Adjusting Policies to Reach Targets [0.0]
本稿では,期待したリターンを最大化することよりも,期待レベルを達成することを優先する,新しい深層強化学習手法を提案する。
その結果,本手法は探索範囲を柔軟に調整し,非定常環境に適応できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-23T07:16:47Z) - Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Real-World Fluid Directed Rigid Body Control via Deep Reinforcement
Learning [7.714620721734689]
ボックス・オ・フロー(Box o Flows)は、動的実世界のシナリオにおいてRLアルゴリズムを体系的に評価する実験的な制御システムである。
モデルフリーなRLアルゴリズムは, 単純な報酬仕様を用いて, 様々な複雑な振る舞いを合成できることを示す。
この予備的な研究から得られた洞察とBox o Flowsのようなシステムの可用性は、体系的なRLアルゴリズムの開発を支援するものだと考えています。
論文 参考訳(メタデータ) (2024-02-08T23:35:03Z) - Deep Intrinsically Motivated Exploration in Continuous Control [0.0]
連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。
我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。
我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
論文 参考訳(メタデータ) (2022-10-01T14:52:16Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。