論文の概要: Zero-Shot Action Generalization with Limited Observations
- arxiv url: http://arxiv.org/abs/2503.08867v1
- Date: Tue, 11 Mar 2025 20:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:48.332821
- Title: Zero-Shot Action Generalization with Limited Observations
- Title(参考訳): 有限観測によるゼロショット動作一般化
- Authors: Abdullah Alchihabi, Hanping Zhang, Yuhong Guo,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は, 逐次的な意思決定問題の解決に成功している。
ゼロショットアクション一般化に関する以前の研究は、アクション観測の大規模なデータセットに依存していた。
我々は,限定観測による新しいゼロショット・フレームワーク,アクション・ジェネリゼーションを導入する。
- 参考スコア(独自算出の注目度): 21.405142057056825
- License:
- Abstract: Reinforcement Learning (RL) has demonstrated remarkable success in solving sequential decision-making problems. However, in real-world scenarios, RL agents often struggle to generalize when faced with unseen actions that were not encountered during training. Some previous works on zero-shot action generalization rely on large datasets of action observations to capture the behaviors of new actions, making them impractical for real-world applications. In this paper, we introduce a novel zero-shot framework, Action Generalization from Limited Observations (AGLO). Our framework has two main components: an action representation learning module and a policy learning module. The action representation learning module extracts discriminative embeddings of actions from limited observations, while the policy learning module leverages the learned action representations, along with augmented synthetic action representations, to learn a policy capable of handling tasks with unseen actions. The experimental results demonstrate that our framework significantly outperforms state-of-the-art methods for zero-shot action generalization across multiple benchmark tasks, showcasing its effectiveness in generalizing to new actions with minimal action observations.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 逐次的な意思決定問題の解決に成功している。
しかし、現実のシナリオでは、RLエージェントはトレーニング中に遭遇しなかった目に見えないアクションに直面したときに一般化するのに苦労することが多い。
ゼロショットアクションの一般化に関するいくつかの以前の研究は、新しいアクションの振る舞いを捉えるために、大規模なアクション観察のデータセットに依存しており、現実のアプリケーションでは実用的ではない。
本稿では,新しいゼロショットフレームワークであるAction Generalization from Limited Observations (AGLO)を紹介する。
私たちのフレームワークには,アクション表現学習モジュールとポリシ学習モジュールという,2つの主要なコンポーネントがあります。
行動表現学習モジュールは、限られた観測から行動の識別的埋め込みを抽出し、ポリシー学習モジュールは、学習された行動表現と、強化された合成行動表現を利用して、目に見えない行動でタスクを処理できる政策を学習する。
実験結果から,本フレームワークは,複数のベンチマークタスクにおけるゼロショット動作一般化の最先端手法よりも優れており,動作観察の最小化による新しい動作への一般化の有効性が示された。
関連論文リスト
- ACT-JEPA: Joint-Embedding Predictive Architecture Improves Policy Representation Learning [90.41852663775086]
ACT-JEPAは模倣学習と自己教師型学習を統合する新しいアーキテクチャである。
我々はアクションシーケンスと抽象的な観察シーケンスを予測するポリシーを訓練する。
実験の結果,ACT-JEPAは時間環境の動的学習によって表現の質を向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-24T16:41:41Z) - Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - Excluding the Irrelevant: Focusing Reinforcement Learning through Continuous Action Masking [7.590209768166108]
本稿では,アクション空間を関連するアクションの状態依存集合にマッピングする3つの連続的なアクションマスキング手法を提案する。
本手法は,RLエージェントの予測可能性を高め,安全クリティカルなアプリケーションでの使用を可能にする。
論文 参考訳(メタデータ) (2024-06-06T02:55:16Z) - STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Code Models are Zero-shot Precondition Reasoners [83.8561159080672]
シーケンシャルな意思決定タスクのために、コード表現を使ってアクションの前提条件を推論します。
本稿では,政策によって予測される行動が前提条件と一致していることを保証する事前条件対応行動サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2023-11-16T06:19:27Z) - Learning the Effects of Physical Actions in a Multi-modal Environment [17.757831697284498]
大規模言語モデル(LLM)は、物理的コモンセンス情報を不十分に扱う。
本稿では,現実的な感覚入力のみから行動の結果を予測するマルチモーダルタスクを提案する。
マルチモーダルモデルでは、視覚情報で拡張した場合に、物理的なコモンセンスをキャプチャできることを示す。
論文 参考訳(メタデータ) (2023-01-27T16:49:52Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Learning Routines for Effective Off-Policy Reinforcement Learning [0.0]
このような制約を効果的に緩和する強化学習のための新しい枠組みを提案する。
我々のフレームワーク内では、エージェントは日常的な空間上で効果的な行動を学ぶ。
その結果,各エピソードごとの環境との相互作用を少なくしながら,関連するパフォーマンス改善が得られることがわかった。
論文 参考訳(メタデータ) (2021-06-05T18:41:57Z) - Reinforcement Learning With Sparse-Executing Actions via Sparsity Regularization [15.945378631406024]
強化学習(RL)は、具体的制御、自律運転、金融取引といった意思決定タスクにおいて、素晴らしいパフォーマンスを示している。
多くの意思決定タスクでは、エージェントは限られた予算の下でアクションを実行するという問題に遭遇する。
本稿では,行動空間における特定の行動が限られた時間しか実行できないスパース行動マルコフ決定プロセス(SA-MDP)としてこの問題を定式化する。
本稿では,ポリシー最適化アルゴリズムであるAction Sparsity Regularization (ASRE)を提案する。
論文 参考訳(メタデータ) (2021-05-18T16:50:42Z) - Learning to Represent Action Values as a Hypergraph on the Action
Vertices [17.811355496708728]
行動値推定は強化学習法(RL)の重要な要素である。
多次元のアクション空間の構造を活用することが、アクションの優れた表現を学ぶための鍵となる要素であると推測する。
Atari 2600 ゲームや、離散化物理制御ベンチマークなど、無数の領域に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-10-28T00:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。