Fugu-MT 論文翻訳(概要): Learning intuitive physics and one-shot imitation using state-action-prediction self-organizing maps

論文の概要: Learning intuitive physics and one-shot imitation using state-action-prediction self-organizing maps

arxiv url: http://arxiv.org/abs/2007.01647v3
Date: Wed, 27 Oct 2021 09:33:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-14 05:28:42.585366
Title: Learning intuitive physics and one-shot imitation using state-action-prediction self-organizing maps
Title（参考訳）: 状態-作用予測自己組織マップを用いた直感的物理とワンショット模倣の学習
Authors: Martin Stetter and Elmar W. Lang
Abstract要約: 人間は探索と模倣によって学び、世界の因果モデルを構築し、両方を使って新しいタスクを柔軟に解決する。このような特徴を生み出す単純だが効果的な教師なしモデルを提案する。エージェントがアクティブな推論スタイルで柔軟に解決する、複数の関連するが異なる1ショットの模倣タスクに対して、その性能を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human learning and intelligence work differently from the supervised pattern recognition approach adopted in most deep learning architectures. Humans seem to learn rich representations by exploration and imitation, build causal models of the world, and use both to flexibly solve new tasks. We suggest a simple but effective unsupervised model which develops such characteristics. The agent learns to represent the dynamical physical properties of its environment by intrinsically motivated exploration, and performs inference on this representation to reach goals. For this, a set of self-organizing maps which represent state-action pairs is combined with a causal model for sequence prediction. The proposed system is evaluated in the cartpole environment. After an initial phase of playful exploration, the agent can execute kinematic simulations of the environment's future, and use those for action planning. We demonstrate its performance on a set of several related, but different one-shot imitation tasks, which the agent flexibly solves in an active inference style.
Abstract（参考訳）: 人間の学習と知性は、ほとんどのディープラーニングアーキテクチャで採用されている教師付きパターン認識アプローチとは異なる。人間は探索と模倣によって豊かな表現を学び、世界の因果モデルを構築し、両方を使って新しいタスクを柔軟に解決する。このような特徴を生み出す単純だが効果的な教師なしモデルを提案する。エージェントは、本質的に動機づけられた探索によって環境の動的物理的特性を表現することを学び、目標を達成するためにこの表現の推論を行う。このために、状態-作用対を表す自己組織化マップの集合と、シーケンス予測のための因果モデルを組み合わせる。提案システムは, カートポール環境において評価される。遊び心のある探索の最初のフェーズの後、エージェントは環境の将来の運動シミュレーションを実行し、アクションプランニングに使用することができる。エージェントがアクティブな推論スタイルで柔軟に解決する、複数の関連するが異なる1ショットの模倣タスクに対して、その性能を示す。

関連論文リスト

Do-Undo: Generating and Reversing Physical Actions in Vision-Language Models [57.71440995598757]
我々は,視覚言語モデルにおける重要なギャップに対処するために,Do-Undoタスクとベンチマークを導入する。 Do-Undoは、物理的な行動の結果をシミュレートし、それを正確に反転させるモデルを必要とし、視覚の世界における真の原因と効果を反映している。
論文参考訳（メタデータ） (2025-12-15T18:03:42Z)
SOLD: Reinforcement Learning with Slot Object-Centric Latent Dynamics [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、画素入力からオブジェクト中心の動的モデルを学ぶ新しいアルゴリズムである。構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。以上の結果から,SOLDは,最先端のモデルベースRLアルゴリズムであるDreamerV3よりも,さまざまなベンチマークロボット環境において優れていた。
論文参考訳（メタデータ） (2024-10-11T14:03:31Z)
Relational Object-Centric Actor-Critic [44.99833362998488]
近年の研究では、アンタングルオブジェクト表現は、イメージベースでオブジェクト中心の強化学習タスクにおけるポリシー学習に役立つことが強調されている。本稿では,アクタ批判的アプローチとモデルに基づくアプローチを統合した,オブジェクト中心強化学習アルゴリズムを提案する。シミュレーションされた3次元ロボット環境と構成構造を持つ2次元環境において,本手法の評価を行った。
論文参考訳（メタデータ） (2023-10-26T06:05:12Z)
Planning for Learning Object Properties [117.27898922118946]
我々は、物体特性を象徴的な計画問題として認識するために、ニューラルネットワークを自動的に訓練する問題を定式化する。トレーニングデータセット作成と学習プロセスを自動化するための戦略を作成するために,計画手法を使用します。シミュレーションと実環境の両方で実験的な評価を行う。
論文参考訳（メタデータ） (2023-01-15T09:37:55Z)
Inferring Versatile Behavior from Demonstrations by Matching Geometric Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文参考訳（メタデータ） (2022-10-17T16:42:59Z)
Curious Exploration via Structured World Models Yields Zero-Shot Object Manipulation [19.840186443344]
そこで本研究では,制御ループに帰納バイアスを組み込む構造的世界モデルを用いて,サンプル効率の高い探索を実現することを提案する。提案手法は,早期にオブジェクトと対話し始める自由プレイ動作を生成し,時間とともにより複雑な動作を発達させる。
論文参考訳（メタデータ） (2022-06-22T22:08:50Z)
Stochastic Coherence Over Attention Trajectory For Continuous Learning In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文参考訳（メタデータ） (2022-04-26T09:52:31Z)
Inference of Affordances and Active Motor Control in Simulated Agents [0.5161531917413706]
本稿では,出力確率,時間的予測,モジュール型人工ニューラルネットワークアーキテクチャを提案する。我々のアーキテクチャは、割当マップと解釈できる潜在状態が発達していることを示す。アクティブな推論と組み合わせることで、フレキシブルでゴール指向の動作が実行可能であることを示す。
論文参考訳（メタデータ） (2022-02-23T14:13:04Z)
Go-Blend behavior and affect [2.323282558557423]
本稿では、感情モデリングタスクを強化学習プロセスとして見ることにより、感情コンピューティングのパラダイムシフトを提案する。本研究では,Go-Exploreエージェントを最適にプレイし,人間の覚醒のデモンストレーションを模倣しようとすることで,アーケードゲームにおける我々のフレームワークをテストする。
論文参考訳（メタデータ） (2021-09-24T17:04:30Z)
Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文参考訳（メタデータ） (2021-07-10T03:49:41Z)
CLOUD: Contrastive Learning of Unsupervised Dynamics [19.091886595825947]
コントラスト推定により、完全に教師のない方法で前方・逆ダイナミクスを学習することを提案する。目標指向計画や観察からの模倣など,さまざまなタスクにまたがるアプローチの有効性を実証する。
論文参考訳（メタデータ） (2020-10-23T15:42:57Z)
Tracking Emotions: Intrinsic Motivation Grounded on Multi-Level Prediction Error Dynamics [68.8204255655161]
目標達成に向けての進捗率と期待率の差が生じると、感情がどのように生じるかについて議論する。自己生成的・動的目標に向けた行動を生成する本質的なモチベーションアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-07-29T06:53:13Z)
Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文参考訳（メタデータ） (2020-07-14T16:42:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。