論文の概要: On the Sensory Commutativity of Action Sequences for Embodied Agents
- arxiv url: http://arxiv.org/abs/2002.05630v3
- Date: Fri, 29 Jan 2021 10:15:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 09:35:09.703189
- Title: On the Sensory Commutativity of Action Sequences for Embodied Agents
- Title(参考訳): 身体的エージェントに対する行動系列の感覚伝達性について
- Authors: Hugo Caselles-Dupr\'e, Michael Garcia-Ortiz, David Filliat
- Abstract要約: 群論の数学的形式論に基づくエンボディエージェントの知覚について検討する。
本稿では,エージェントの自由度が環境に与える影響を計測する感覚コミュニケーション確率基準を提案する。
本研究では,SCPと行動系列の可換性を用いて環境中の物体を学習する方法を実証的に説明する。
- 参考スコア(独自算出の注目度): 2.320417845168326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perception of artificial agents is one the grand challenges of AI research.
Deep Learning and data-driven approaches are successful on constrained problems
where perception can be learned using supervision, but do not scale to
open-worlds. In such case, for autonomous embodied agents with first-person
sensors, perception can be learned end-to-end to solve particular tasks.
However, literature shows that perception is not a purely passive compression
mechanism, and that actions play an important role in the formulation of
abstract representations. We propose to study perception for these embodied
agents, under the mathematical formalism of group theory in order to make the
link between perception and action. In particular, we consider the commutative
properties of continuous action sequences with respect to sensory information
perceived by such an embodied agent. We introduce the Sensory Commutativity
Probability (SCP) criterion which measures how much an agent's degree of
freedom affects the environment in embodied scenarios. We show how to compute
this criterion in different environments, including realistic robotic setups.
We empirically illustrate how SCP and the commutative properties of action
sequences can be used to learn about objects in the environment and improve
sample-efficiency in Reinforcement Learning.
- Abstract(参考訳): 人工エージェントの認識は、ai研究の大きな課題の1つだ。
ディープラーニングとデータ駆動アプローチは、監視によって知覚を学習できるが、オープンワールドにスケールしない制約付き問題で成功している。
このような場合、ファーストパーソンセンサーを備えた自律的実施エージェントでは、特定のタスクを解決するために知覚をエンドツーエンドに学習することができる。
しかし、文献によれば、知覚は純粋に受動的圧縮機構ではなく、抽象表現の定式化において重要な役割を果たす。
本稿では,群論の数学的定式化の下で,これらの具体的エージェントに対する知覚を研究することを提案する。
特に,このような具体化剤が知覚する感覚情報に関して,連続的な行動系列の可換性について考察する。
本稿では,エージェントの自由度が環境にどの程度影響するかを測定する,感覚コミュニケーション確率(SCP)基準を導入する。
リアルなロボットのセットアップなど、さまざまな環境でこの基準を計算する方法を示す。
我々は,scpと行動系列の可換性を用いて,環境内のオブジェクトについて学習し,強化学習におけるサンプル効率を向上させる方法について実証的に示す。
関連論文リスト
- Exploring Action-Centric Representations Through the Lens of Rate-Distortion Theory [7.945169878921404]
アクション中心の表現はデータの効率的な損失圧縮であると主張する。
最適な動作を達成するためにデータの完全な再構築はめったに必要ないと結論付けている。
論文 参考訳(メタデータ) (2024-09-13T15:07:22Z) - Learning Geometric Representations of Objects via Interaction [25.383613570119266]
エージェントとエージェントが相互作用する外部オブジェクトを含むシーンの観察から表現を学習する問題に対処する。
本稿では,任意の自然の非構造化観測からエージェントとオブジェクトの物理的空間における位置を抽出する表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-11T09:45:22Z) - Imitation from Observation With Bootstrapped Contrastive Learning [12.048166025000976]
IfO(IfO)は、マルコフ決定プロセスにおいて自律エージェントを訓練する学習パラダイムである。
本稿では,OfOアルゴリズムであるBootIfOLについて紹介する。
我々は,限られた数の実証軌道を用いて効果的な政策を訓練できることを示す,様々な制御タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-02-13T17:32:17Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - Interpreting Neural Policies with Disentangled Tree Representations [58.769048492254555]
本稿では,コンパクトなニューラルポリシーの解釈可能性について,不整合表現レンズを用いて検討する。
決定木を利用して,ロボット学習における絡み合いの要因を抽出する。
学習したニューラルダイナミクスの絡み合いを計測する解釈可能性指標を導入する。
論文 参考訳(メタデータ) (2022-10-13T01:10:41Z) - Homomorphism Autoencoder -- Learning Group Structured Representations from Observed Transitions [51.71245032890532]
本研究では,世界に作用するエージェントが,それを修飾する動作と整合した感覚情報の内部表現を学習できるようにする手法を提案する。
既存の作業とは対照的に、我々のアプローチはグループの事前の知識を必要とせず、エージェントが実行可能なアクションのセットを制限しない。
論文 参考訳(メタデータ) (2022-07-25T11:22:48Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Learning Intuitive Policies Using Action Features [7.260481131198059]
ネットワークアーキテクチャが意味的関係を利用する学習アルゴリズムの妥当性に与える影響について検討する。
観察と行動の卓越した表現を共同で処理する注意に基づくアーキテクチャは、直感的なポリシーを学ぶ上でより良い帰納的バイアスをもたらす。
論文 参考訳(メタデータ) (2022-01-29T20:54:52Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Modelling Behaviour Change using Cognitive Agent Simulations [0.0]
本稿では, シミュレーションエージェントに選択された行動変化理論を適用するために, プログレッシブ・イン・プログレッシブ・リサーチを提案する。
この研究は、不適切な状況下での自己決定的目標達成に必要な複雑なエージェントアーキテクチャに焦点を当てている。
論文 参考訳(メタデータ) (2021-10-16T19:19:08Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。