論文の概要: Prompting Decision Transformers for Zero-Shot Reach-Avoid Policies
- arxiv url: http://arxiv.org/abs/2505.19337v1
- Date: Sun, 25 May 2025 22:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.058323
- Title: Prompting Decision Transformers for Zero-Shot Reach-Avoid Policies
- Title(参考訳): ゼロショットリーチ回避政策のためのプロンプト決定変換器
- Authors: Kevin Li, Marinka Zitnik,
- Abstract要約: 我々は、オフライン、報酬なし、ゴール条件付き、地域条件付きRLを避けるための決定変換モデルRADTを紹介する。
RADTは目標を符号化し、プロンプトトークンとしてリージョンを直接回避する。
RADTを11のタスク、環境、実験的な設定の3つの既存のオフライン目標条件付きRLモデルに対してベンチマークする。
- 参考スコア(独自算出の注目度): 13.36420020858065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline goal-conditioned reinforcement learning methods have shown promise for reach-avoid tasks, where an agent must reach a target state while avoiding undesirable regions of the state space. Existing approaches typically encode avoid-region information into an augmented state space and cost function, which prevents flexible, dynamic specification of novel avoid-region information at evaluation time. They also rely heavily on well-designed reward and cost functions, limiting scalability to complex or poorly structured environments. We introduce RADT, a decision transformer model for offline, reward-free, goal-conditioned, avoid region-conditioned RL. RADT encodes goals and avoid regions directly as prompt tokens, allowing any number of avoid regions of arbitrary size to be specified at evaluation time. Using only suboptimal offline trajectories from a random policy, RADT learns reach-avoid behavior through a novel combination of goal and avoid-region hindsight relabeling. We benchmark RADT against 3 existing offline goal-conditioned RL models across 11 tasks, environments, and experimental settings. RADT generalizes in a zero-shot manner to out-of-distribution avoid region sizes and counts, outperforming baselines that require retraining. In one such zero-shot setting, RADT achieves 35.7% improvement in normalized cost over the best retrained baseline while maintaining high goal-reaching success. We apply RADT to cell reprogramming in biology, where it reduces visits to undesirable intermediate gene expression states during trajectories to desired target states, despite stochastic transitions and discrete, structured state dynamics.
- Abstract(参考訳): オフラインの目標条件付き強化学習手法は、エージェントが状態空間の望ましくない領域を避けながら目標状態に到達しなければならないような、到達可能なタスクを約束している。
既存のアプローチでは、通常、回避領域情報を拡張状態空間とコスト関数にエンコードする。
また、十分な設計の報酬とコスト関数にも大きく依存しており、スケーラビリティを複雑な環境や貧弱な環境に制限している。
我々は、オフライン、報酬なし、ゴール条件付き、地域条件付きRLを避けるための決定変換モデルRADTを紹介する。
RADTは目標を符号化し、プロンプトトークンとしてリージョンを直接回避する。
RADTは、ランダムなポリシーから最適のオフライン軌道のみを用いて、ゴールと回避領域の近視の新たな組み合わせによって、到達回避行動を学ぶ。
RADTを11のタスク、環境、実験的な設定の3つの既存のオフライン目標条件付きRLモデルに対してベンチマークする。
RADTはゼロショット方式で一般化し、リージョンサイズやカウントを回避し、再トレーニングを必要とするベースラインを上回ります。
このようなゼロショット設定では、RADTは目標達成の成功を維持しながら、最高のトレーニングベースラインよりも正規化コストが35.7%向上した。
RADTを生物学における細胞再プログラミングに適用することにより、確率的遷移と離散的構造的状態ダイナミクスにもかかわらず、軌道中の望ましくない中間的遺伝子発現状態への訪問を所望の目標状態に還元する。
関連論文リスト
- Imagine Beyond! Distributionally Robust Auto-Encoding for State Space Coverage in Online Reinforcement Learning [16.15673339648566]
GCRL(Goal-Conditioned Reinforcement Learning)は、エージェントが自律的に多様な行動を取得することを可能にする。
エージェントが探索中に表現を学ぶオンライン環境では、潜伏空間はエージェントのポリシーによって進化する。
論文 参考訳(メタデータ) (2025-05-23T12:43:55Z) - Pick of the Bunch: Detecting Infrared Small Targets Beyond Hit-Miss Trade-Offs via Selective Rank-Aware Attention [22.580497586948198]
複雑な背景乱れの中で、赤外線小目標検出は、ディムターゲットを正確に位置決めする固有の課題に直面している。
本稿では,従来のヒットミストレードオフを超えて高精度なネットワークであるSeRankDetを提案する。
論文 参考訳(メタデータ) (2024-08-07T12:10:32Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Stitching Sub-Trajectories with Conditional Diffusion Model for
Goal-Conditioned Offline RL [18.31263353823447]
本稿では,モデルに基づくオフラインゴールコンディション強化学習(Offline GCRL)手法を提案する。
本稿では,目標値と目標値に条件付けされた将来の計画を生成する拡散モデルを用いて,目標を許容するオフラインデータセットから目標値を推定する。
我々は,GCRLタスクの標準ベンチマークセットにおける最先端性能を報告し,オフラインデータ中の準最適軌道のセグメントを縫合して高品質な計画を生成する能力を実証する。
論文 参考訳(メタデータ) (2024-02-11T15:23:13Z) - Goal-Conditioned Reinforcement Learning with Disentanglement-based
Reachability Planning [14.370384505230597]
本稿では,Reachability Planning (REPlan) と組み合わせた目標条件付きRLアルゴリズムを提案する。
我々のREPlanは、時間的に拡張されたタスクを解く上で、従来の最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-07-20T13:08:14Z) - DDPEN: Trajectory Optimisation With Sub Goal Generation Model [70.36888514074022]
本稿では,エスケープネットワークを用いた微分動的プログラミング(DDPEN)を提案する。
本稿では,環境の入力マップとして,所望の位置とともにコストマップの形で利用する深層モデルを提案する。
このモデルは、目標に導く可能性のある将来の方向を生成し、リアルタイムに実行可能なローカルなミニマを避ける。
論文 参考訳(メタデータ) (2023-01-18T11:02:06Z) - Exploration Policies for On-the-Fly Controller Synthesis: A
Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。
我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-10-07T20:28:25Z) - SRRT: Exploring Search Region Regulation for Visual Object Tracking [58.68120400180216]
探索領域規則追跡(SRRT)と呼ばれる新しい追跡パラダイムを提案する。
SRRTでは,各フレームに対して最適な探索領域を動的に推定するために,提案された探索領域レギュレータを適用している。
大規模なLaSOTベンチマークでは、SRRTはSiamRPN++とTransTをAUCの4.6%と3.1%で改善した。
論文 参考訳(メタデータ) (2022-07-10T11:18:26Z) - Uncertainty-Aware Consistency Regularization for Cross-Domain Semantic
Segmentation [63.75774438196315]
Unsupervised Domain adapt (UDA) は、未ラベルのデータのみを持つ新しいターゲットドメインにソースドメインの既存のモデルを適用することを目的としている。
既存のほとんどの手法は、エラーを起こしやすい識別器ネットワークまたは不合理な教師モデルから生じる顕著な負の伝達に悩まされている。
ドメイン間セマンティックセグメンテーションのための不確実性を考慮した整合性正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-19T15:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。