論文の概要: Test-Time Graph Search for Goal-Conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.07257v1
- Date: Wed, 08 Oct 2025 17:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.661441
- Title: Test-Time Graph Search for Goal-Conditioned Reinforcement Learning
- Title(参考訳): ゴール・コンディション強化学習のためのテスト時間グラフ探索
- Authors: Evgenii Opryshko, Junwei Quan, Claas Voelcker, Yilun Du, Igor Gilitschenski,
- Abstract要約: オフライン目標条件強化学習(GCRL)は、テスト時にユーザが指定した目標に到達するポリシーを訓練する。
GCRLタスクを解決するための軽量な計画手法であるTTGS(Test-Time Graph Search)を導入する。
TTGSは任意の状態空間距離やコスト信号を受け入れ、データセット状態の上に重み付きグラフを構築し、凍結ポリシーが実行する一連のサブゴールを高速に検索する。
- 参考スコア(独自算出の注目度): 56.13800388912632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline goal-conditioned reinforcement learning (GCRL) trains policies that reach user-specified goals at test time, providing a simple, unsupervised, domain-agnostic way to extract diverse behaviors from unlabeled, reward-free datasets. Nonetheless, long-horizon decision making remains difficult for GCRL agents due to temporal credit assignment and error accumulation, and the offline setting amplifies these effects. To alleviate this issue, we introduce Test-Time Graph Search (TTGS), a lightweight planning approach to solve the GCRL task. TTGS accepts any state-space distance or cost signal, builds a weighted graph over dataset states, and performs fast search to assemble a sequence of subgoals that a frozen policy executes. When the base learner is value-based, the distance is derived directly from the learned goal-conditioned value function, so no handcrafted metric is needed. TTGS requires no changes to training, no additional supervision, no online interaction, and no privileged information, and it runs entirely at inference. On the OGBench benchmark, TTGS improves success rates of multiple base learners on challenging locomotion tasks, demonstrating the benefit of simple metric-guided test-time planning for offline GCRL.
- Abstract(参考訳): オフライン目標条件強化学習(GCRL)は、テスト時にユーザが指定した目標に達するポリシーを訓練し、ラベルなし、報酬なしのデータセットから多様な振る舞いを抽出するシンプルな、教師なし、ドメインに依存しない方法を提供する。
それでも、時間的信用割当とエラー蓄積のため、GCRLエージェントにとって長期的意思決定は依然として困難であり、オフライン設定はこれらの効果を増幅する。
この問題を軽減するために、GCRLタスクを解決するための軽量な計画手法であるTTGS(Test-Time Graph Search)を導入する。
TTGSは任意の状態空間距離やコスト信号を受け入れ、データセット状態の上に重み付きグラフを構築し、凍結ポリシーが実行する一連のサブゴールを高速に検索する。
基本学習者が値ベースである場合には、学習した目標条件値関数から直接距離を導出するので、手作りの計量は不要である。
TTGSはトレーニングの変更も、追加の監督も、オンラインインタラクションも、特権情報も必要とせず、完全に推論で実行される。
OGBenchベンチマークでは、TTGSは、オフラインGCRLのための単純なメトリック誘導テストタイムプランニングの利点を実証し、複数のベースラーナーの成功率を改善する。
関連論文リスト
- Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。
本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。
目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文 参考訳(メタデータ) (2025-07-24T21:11:39Z) - Clue-RAG: Towards Accurate and Cost-Efficient Graph-based RAG via Multi-Partite Graph and Query-Driven Iterative Retrieval [15.599544326509436]
Retrieval-Augmented Generation (RAG) は、しばしばグラフ構造化データから外部情報を統合することで制限に対処する。
本稿では,マルチパーティグラフインデックスとクエリ駆動反復検索戦略を導入した新しいアプローチであるClue-RAGを提案する。
3つのQAベンチマークの実験により、Clue-RAGは最先端のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-07-11T09:36:45Z) - Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning [15.902089688167871]
オフライン目標条件強化学習(GCRL)は、豊富なラベルなしデータセットから目標達成ポリシーをトレーニングする実践的な学習パラダイムを提供する。
我々は,時間差学習プロセスに時間的抽象化を組み込んだ,OTAと呼ばれるオプション対応の時間的抽象価値学習を提案する。
OTAを用いて抽出した高レベルポリシーは,OGBenchの複雑なタスクに対して高い性能を示す。
論文 参考訳(メタデータ) (2025-05-19T05:51:11Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。