論文の概要: Prompting Decision Transformers for Zero-Shot Reach-Avoid Policies
- arxiv url: http://arxiv.org/abs/2505.19337v2
- Date: Tue, 27 May 2025 02:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 12:08:55.083751
- Title: Prompting Decision Transformers for Zero-Shot Reach-Avoid Policies
- Title(参考訳): ゼロショットリーチ回避政策のためのプロンプト決定変換器
- Authors: Kevin Li, Marinka Zitnik,
- Abstract要約: 我々は、オフライン、報酬なし、ゴール条件付き、地域条件付きRLを避けるための決定変換モデルRADTを紹介する。
RADTは目標を符号化し、プロンプトトークンとしてリージョンを直接回避する。
RADTを11のタスク、環境、実験的な設定の3つの既存のオフライン目標条件付きRLモデルに対してベンチマークする。
- 参考スコア(独自算出の注目度): 13.36420020858065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline goal-conditioned reinforcement learning methods have shown promise for reach-avoid tasks, where an agent must reach a target state while avoiding undesirable regions of the state space. Existing approaches typically encode avoid-region information into an augmented state space and cost function, which prevents flexible, dynamic specification of novel avoid-region information at evaluation time. They also rely heavily on well-designed reward and cost functions, limiting scalability to complex or poorly structured environments. We introduce RADT, a decision transformer model for offline, reward-free, goal-conditioned, avoid region-conditioned RL. RADT encodes goals and avoid regions directly as prompt tokens, allowing any number of avoid regions of arbitrary size to be specified at evaluation time. Using only suboptimal offline trajectories from a random policy, RADT learns reach-avoid behavior through a novel combination of goal and avoid-region hindsight relabeling. We benchmark RADT against 3 existing offline goal-conditioned RL models across 11 tasks, environments, and experimental settings. RADT generalizes in a zero-shot manner to out-of-distribution avoid region sizes and counts, outperforming baselines that require retraining. In one such zero-shot setting, RADT achieves 35.7% improvement in normalized cost over the best retrained baseline while maintaining high goal-reaching success. We apply RADT to cell reprogramming in biology, where it reduces visits to undesirable intermediate gene expression states during trajectories to desired target states, despite stochastic transitions and discrete, structured state dynamics.
- Abstract(参考訳): オフラインの目標条件付き強化学習手法は、エージェントが状態空間の望ましくない領域を避けながら目標状態に到達しなければならないような、到達可能なタスクを約束している。
既存のアプローチでは、通常、回避領域情報を拡張状態空間とコスト関数にエンコードする。
また、十分な設計の報酬とコスト関数にも大きく依存しており、スケーラビリティを複雑な環境や貧弱な環境に制限している。
我々は、オフライン、報酬なし、ゴール条件付き、地域条件付きRLを避けるための決定変換モデルRADTを紹介する。
RADTは目標を符号化し、プロンプトトークンとしてリージョンを直接回避する。
RADTは、ランダムなポリシーから最適のオフライン軌道のみを用いて、ゴールと回避領域の近視の新たな組み合わせによって、到達回避行動を学ぶ。
RADTを11のタスク、環境、実験的な設定の3つの既存のオフライン目標条件付きRLモデルに対してベンチマークする。
RADTはゼロショット方式で一般化し、リージョンサイズやカウントを回避し、再トレーニングを必要とするベースラインを上回ります。
このようなゼロショット設定では、RADTは目標達成の成功を維持しながら、最高のトレーニングベースラインよりも正規化コストが35.7%向上した。
RADTを生物学における細胞再プログラミングに適用することにより、確率的遷移と離散的構造的状態ダイナミクスにもかかわらず、軌道中の望ましくない中間的遺伝子発現状態への訪問を所望の目標状態に還元する。
関連論文リスト
- Collaborative Zone-Adaptive Zero-Day Intrusion Detection for IoBT [9.82963599072781]
本稿では、未確認の攻撃タイプに対する協調検出およびモデル改善フレームワークであるZAIDを提案する。
ZAIDは、一般化可能なトラフィック表現のための普遍的畳み込みモデル、補助的な異常スコアとしてのオートエンコーダベースの再構成信号、パラメータ効率のよいゾーン適応のための軽量アダプタモジュールを組み合わせる。
我々は、MITM、DDoS、DoSを教師付きトレーニングから除外するゼロデイプロトコルを用いて、ToN_IoT上のZAIDを評価し、ゾーンレベルのデプロイメントと適応中にそれらを導入する。
論文 参考訳(メタデータ) (2026-02-18T00:02:15Z) - Breaking the Grid: Distance-Guided Reinforcement Learning in Large Discrete and Hybrid Action Spaces [4.395837214164745]
距離誘導型強化学習(DGRL)を提案し,最大10$text20$アクションを持つ空間における効率的なRLを実現する。
定常および不規則に構造化された環境における最先端ベンチマークに対して,最大66%の性能向上を示す。
論文 参考訳(メタデータ) (2026-02-09T13:05:07Z) - Conditional Sequence Modeling for Safe Reinforcement Learning [8.858563919623082]
オフライン安全な強化学習は、固定データセットからポリシーを学習し、累積コスト制約下でのパフォーマンスを最大化することを目的としている。
既存のオフラインセーフなRLメソッドの多くは、あらかじめ指定されたしきい値の下で訓練されている。
CSMをベースとしたRCDTは,複数のコストしきい値にまたがるゼロショット展開をサポートする。
論文 参考訳(メタデータ) (2026-02-09T12:22:57Z) - Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - State-Covering Trajectory Stitching for Diffusion Planners [23.945423041112036]
State-Covering Trajectory Stitching (SCoTS)は、短いトラジェクトリセグメントを縫合する報酬のないトラジェクトリ拡張法である。
SCoTSは,オフラインの目標条件付きベンチマーク上での拡散プランナの性能と一般化能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-06-01T08:32:22Z) - Imagine Beyond! Distributionally Robust Auto-Encoding for State Space Coverage in Online Reinforcement Learning [16.15673339648566]
GCRL(Goal-Conditioned Reinforcement Learning)は、エージェントが自律的に多様な行動を取得することを可能にする。
エージェントが探索中に表現を学ぶオンライン環境では、潜伏空間はエージェントのポリシーによって進化する。
論文 参考訳(メタデータ) (2025-05-23T12:43:55Z) - Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - Pick of the Bunch: Detecting Infrared Small Targets Beyond Hit-Miss Trade-Offs via Selective Rank-Aware Attention [22.580497586948198]
複雑な背景乱れの中で、赤外線小目標検出は、ディムターゲットを正確に位置決めする固有の課題に直面している。
本稿では,従来のヒットミストレードオフを超えて高精度なネットワークであるSeRankDetを提案する。
論文 参考訳(メタデータ) (2024-08-07T12:10:32Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Stitching Sub-Trajectories with Conditional Diffusion Model for
Goal-Conditioned Offline RL [18.31263353823447]
本稿では,モデルに基づくオフラインゴールコンディション強化学習(Offline GCRL)手法を提案する。
本稿では,目標値と目標値に条件付けされた将来の計画を生成する拡散モデルを用いて,目標を許容するオフラインデータセットから目標値を推定する。
我々は,GCRLタスクの標準ベンチマークセットにおける最先端性能を報告し,オフラインデータ中の準最適軌道のセグメントを縫合して高品質な計画を生成する能力を実証する。
論文 参考訳(メタデータ) (2024-02-11T15:23:13Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Goal-Conditioned Reinforcement Learning with Disentanglement-based
Reachability Planning [14.370384505230597]
本稿では,Reachability Planning (REPlan) と組み合わせた目標条件付きRLアルゴリズムを提案する。
我々のREPlanは、時間的に拡張されたタスクを解く上で、従来の最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-07-20T13:08:14Z) - DDPEN: Trajectory Optimisation With Sub Goal Generation Model [70.36888514074022]
本稿では,エスケープネットワークを用いた微分動的プログラミング(DDPEN)を提案する。
本稿では,環境の入力マップとして,所望の位置とともにコストマップの形で利用する深層モデルを提案する。
このモデルは、目標に導く可能性のある将来の方向を生成し、リアルタイムに実行可能なローカルなミニマを避ける。
論文 参考訳(メタデータ) (2023-01-18T11:02:06Z) - Exploration Policies for On-the-Fly Controller Synthesis: A
Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。
我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-10-07T20:28:25Z) - SRRT: Exploring Search Region Regulation for Visual Object Tracking [58.68120400180216]
探索領域規則追跡(SRRT)と呼ばれる新しい追跡パラダイムを提案する。
SRRTでは,各フレームに対して最適な探索領域を動的に推定するために,提案された探索領域レギュレータを適用している。
大規模なLaSOTベンチマークでは、SRRTはSiamRPN++とTransTをAUCの4.6%と3.1%で改善した。
論文 参考訳(メタデータ) (2022-07-10T11:18:26Z) - Uncertainty-Aware Consistency Regularization for Cross-Domain Semantic
Segmentation [63.75774438196315]
Unsupervised Domain adapt (UDA) は、未ラベルのデータのみを持つ新しいターゲットドメインにソースドメインの既存のモデルを適用することを目的としている。
既存のほとんどの手法は、エラーを起こしやすい識別器ネットワークまたは不合理な教師モデルから生じる顕著な負の伝達に悩まされている。
ドメイン間セマンティックセグメンテーションのための不確実性を考慮した整合性正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-19T15:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。