論文の概要: Representation Abstractions as Incentives for Reinforcement Learning
Agents: A Robotic Grasping Case Study
- arxiv url: http://arxiv.org/abs/2309.11984v2
- Date: Fri, 22 Sep 2023 06:27:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 11:36:02.433333
- Title: Representation Abstractions as Incentives for Reinforcement Learning
Agents: A Robotic Grasping Case Study
- Title(参考訳): 強化学習エージェントのためのインセンティブとしての表現抽象化:ロボットグラスピングケーススタディ
- Authors: Panagiotis Petropoulakis, Ludwig Gr\"af, Josip Josifovski,
Mohammadhossein Malmir, and Alois Knoll
- Abstract要約: 本研究は、特定のロボットタスクを解くためのエージェントのインセンティブ化における様々な状態表現の効果について検討する。
状態表現の抽象化の連続体は、完全なシステム知識を持つモデルベースのアプローチから始まる。
シミュレーションにおける課題の解決と実際のロボットへの学習方針の伝達性に対する各表現の効果について検討する。
- 参考スコア(独自算出の注目度): 3.4777703321218225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Choosing an appropriate representation of the environment for the underlying
decision-making process of the RL agent is not always straightforward. The
state representation should be inclusive enough to allow the agent to
informatively decide on its actions and compact enough to increase sample
efficiency for policy training. Given this outlook, this work examines the
effect of various state representations in incentivizing the agent to solve a
specific robotic task: antipodal and planar object grasping. A continuum of
state representation abstractions is defined, starting from a model-based
approach with complete system knowledge, through hand-crafted numerical, to
image-based representations with decreasing level of induced task-specific
knowledge. We examine the effects of each representation in the ability of the
agent to solve the task in simulation and the transferability of the learned
policy to the real robot. The results show that RL agents using numerical
states can perform on par with non-learning baselines. Furthermore, we find
that agents using image-based representations from pre-trained environment
embedding vectors perform better than end-to-end trained agents, and
hypothesize that task-specific knowledge is necessary for achieving convergence
and high success rates in robot control.
- Abstract(参考訳): rlエージェントの基盤となる意思決定プロセスにおいて、環境の適切な表現を選択することは必ずしも簡単ではない。
状態表現は、エージェントがその行為を情報的に決定し、政策訓練のサンプル効率を高めるのに十分なコンパクト化を可能にするのに十分な包括性を持つべきである。
本研究は,ロボットの特定の課題を解決するためのインセンティブとして,様々な状態表現が与える影響について検討する。
状態表現抽象化の連続体は、完全なシステム知識を持つモデルベースアプローチから、手作りの数値を通して、誘導されたタスク固有の知識のレベルを減少させるイメージベース表現へと導かれる。
シミュレーションにおける課題を解決するエージェントの能力における各表現の効果と,学習方針の実際のロボットへの伝達性について検討した。
その結果, 数値状態を用いたRLエージェントは, 非学習ベースラインと同程度に動作可能であることがわかった。
さらに,事前学習した環境埋め込みベクターからのイメージベース表現を用いたエージェントは,エンドツーエンドの訓練エージェントよりも優れており,ロボット制御における収束と高い成功率を達成するためには,タスク固有の知識が必要であると仮定する。
関連論文リスト
- Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Learning Geometric Representations of Objects via Interaction [25.383613570119266]
エージェントとエージェントが相互作用する外部オブジェクトを含むシーンの観察から表現を学習する問題に対処する。
本稿では,任意の自然の非構造化観測からエージェントとオブジェクトの物理的空間における位置を抽出する表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-11T09:45:22Z) - Policy-Induced Self-Supervision Improves Representation Finetuning in
Visual RL [19.32387263597031]
視覚的知覚に基づくRLにおける目標タスクに対して、ソースタスクで事前訓練された表現を転送する方法について検討する。
我々は、事前訓練された表現を凍結または微調整する2つの一般的なアプローチを分析する。
論文 参考訳(メタデータ) (2023-02-12T21:52:28Z) - Visuomotor Control in Multi-Object Scenes Using Object-Aware
Representations [25.33452947179541]
ロボット作業におけるオブジェクト指向表現学習の有効性を示す。
本モデルは,サンプル効率のよい制御ポリシーを学習し,最先端のオブジェクト技術より優れている。
論文 参考訳(メタデータ) (2022-05-12T19:48:11Z) - Learning Abstract and Transferable Representations for Planning [25.63560394067908]
本稿では,エージェントの環境状態の抽象化を自律的に学習するフレームワークを提案する。
これらの抽象化はタスクに依存しないので、新しいタスクを解決するために再利用することができる。
本稿では,これらの可搬型表現と問題固有の表現を組み合わせて,特定のタスクの音響記述を生成する方法について述べる。
論文 参考訳(メタデータ) (2022-05-04T14:40:04Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Agent Modelling under Partial Observability for Deep Reinforcement
Learning [12.903487594031276]
エージェントモデリングの既存の方法は、実行中にローカルな観察とモデル化されたエージェントの選択されたアクションの知識を仮定する。
制御されたエージェントの局所的な観察に基づいて,モデル化されたエージェントの表現を抽出することを学ぶ。
これらの表現は、深い強化学習を通じて訓練された制御エージェントの決定ポリシーを強化するために使用される。
論文 参考訳(メタデータ) (2020-06-16T18:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。