Fugu-MT 論文翻訳(概要): Goal-Directed Planning for Habituated Agents by Active Inference Using a Variational Recurrent Neural Network

論文の概要: Goal-Directed Planning for Habituated Agents by Active Inference Using a Variational Recurrent Neural Network

arxiv url: http://arxiv.org/abs/2005.14656v1
Date: Wed, 27 May 2020 06:43:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 09:34:21.715051
Title: Goal-Directed Planning for Habituated Agents by Active Inference Using a Variational Recurrent Neural Network
Title（参考訳）: 変動リカレントニューラルネットワークを用いた能動推論による移動エージェントのゴール指向計画
Authors: Takazumi Matsumoto and Jun Tani
Abstract要約: 本研究では, 予測符号化(PC)とアクティブ推論(AIF)フレームワークが, 低次元潜在状態空間における事前分布を学習することにより, より優れた一般化を実現できることを示す。提案モデルでは, 最適潜伏変数を推定し, 実験結果の最小化のためのシナプス重みを推定することにより学習を行う。提案手法は,シミュレーションにおけるロボットタスクと複雑なロボットタスクの両方を用いて評価し,限られた学習データを用いた学習における十分な一般化を実証した。
参考スコア（独自算出の注目度）: 5.000272778136268
License: http://creativecommons.org/licenses/by/4.0/
Abstract: It is crucial to ask how agents can achieve goals by generating action plans using only partial models of the world acquired through habituated sensory-motor experiences. Although many existing robotics studies use a forward model framework, there are generalization issues with high degrees of freedom. The current study shows that the predictive coding (PC) and active inference (AIF) frameworks, which employ a generative model, can develop better generalization by learning a prior distribution in a low dimensional latent state space representing probabilistic structures extracted from well habituated sensory-motor trajectories. In our proposed model, learning is carried out by inferring optimal latent variables as well as synaptic weights for maximizing the evidence lower bound, while goal-directed planning is accomplished by inferring latent variables for maximizing the estimated lower bound. Our proposed model was evaluated with both simple and complex robotic tasks in simulation, which demonstrated sufficient generalization in learning with limited training data by setting an intermediate value for a regularization coefficient. Furthermore, comparative simulation results show that the proposed model outperforms a conventional forward model in goal-directed planning, due to the learned prior confining the search of motor plans within the range of habituated trajectories.
Abstract（参考訳）: 定性的感覚運動を通じて獲得した世界の部分モデルのみを用いて行動計画を作成することで、エージェントが目標を達成する方法について問うことが重要である。多くの既存のロボティクス研究はフォワードモデルフレームワークを使用しているが、高度な自由度を持つ一般化問題が存在する。本研究は,生成モデルを用いた予測符号化(pc)とアクティブ推論(aif)フレームワークが,よく習熟した知覚運動路から抽出された確率的構造を表す低次元潜在状態空間における事前分布を学習することにより,より良い一般化を実現できることを示す。提案モデルでは, 最適潜在変数を推論し, 証拠を最大化するためのシナプス重みを推定する一方, 目標指向計画では, 推定下限を最大化するために潜在変数を推定することで学習を行う。提案モデルは,単純なロボットタスクと複雑なロボットタスクの両方を用いてシミュレーションにより評価され,正規化係数の中間値を設定し,限られたトレーニングデータで学習する上で十分な一般化が得られた。さらに, 提案モデルが, 慣性軌跡の範囲内での運動計画の探索を封じ込めた学習前において, 目標指向計画において従来のフォワードモデルよりも優れていることを示す。

関連論文リスト

Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making [48.998030470623384]
オフラインの意思決定は、さらなるインタラクションを伴わずに、固定データセットからの信頼性の高い振る舞いを必要とする。 i)タスク整列軌道を多様に生成するプランナー,(ii)システム力学との整合性を強制するダイナミクスモデル,(iii)タスク目標に整合した動作を選択するランサーモジュールからなる構成モデルに基づく拡散フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-09T06:26:02Z)
Spatiotemporal Forecasting as Planning: A Model-Based Reinforcement Learning Approach with Generative World Models [45.523937630646394]
本研究では,モデルベース強化学習における新たなパラダイムであるSFP予測・アズ・プランニング(SFP)を提案する。 SFPは、多様な高時間将来の状態をシミュレートし、「想像に基づく」環境シミュレーションを可能にする新しい世界モデルを構築している。
論文参考訳（メタデータ） (2025-10-05T03:57:38Z)
Predictive Planner for Autonomous Driving with Consistency Models [5.966385886363771]
軌道予測と計画は、自動運転車が動的環境下で安全かつ効率的に走行するために不可欠である。近年の拡散型生成モデルはマルチエージェント軌道生成において有望であるが,その遅いサンプリングは高周波計画タスクには適さない。我々は,エゴ車両の航法目標に基づいて,エゴと周辺エージェントの共同分布からサンプルを採取する予測プランナを構築するために,一貫性モデルを活用する。
論文参考訳（メタデータ） (2025-02-12T00:26:01Z)
On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文参考訳（メタデータ） (2024-10-08T03:12:57Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文参考訳（メタデータ） (2024-08-02T18:07:53Z)
Mitigate Domain Shift by Primary-Auxiliary Objectives Association for Generalizing Person ReID [39.98444065846305]
ReIDモデルは、インスタンス分類の目的に関するトレーニングを通じてのみドメイン不変表現を学ぶのに苦労します。本稿では,弱いラベル付き歩行者唾液度検出のための補助学習目標を用いて,プライマリReIDインスタンス分類目標のモデル学習を指導する手法を提案する。我々のモデルは、最近のテストタイムダイアグラムで拡張してPAOA+を形成し、補助的な目的に対してオンザフライ最適化を行うことができる。
論文参考訳（メタデータ） (2023-10-24T15:15:57Z)
Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-17T00:26:31Z)
Distribution-aware Goal Prediction and Conformant Model-based Planning for Safe Autonomous Driving [16.654299927694716]
本研究では,学習から学習までのタスクを,障害物認識と接地,分布認識の目標予測,モデルベース計画として再構築する。 CARLAシミュレータでは,CARNOVELベンチマークの最先端結果を報告する。
論文参考訳（メタデータ） (2022-12-16T21:51:51Z)
Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文参考訳（メタデータ） (2022-05-20T07:02:03Z)
Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文参考訳（メタデータ） (2020-10-26T16:00:47Z)
Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文参考訳（メタデータ） (2020-07-14T16:42:59Z)
Prediction-Centric Learning of Independent Cascade Dynamics from Partial Observations [13.680949377743392]
本稿では,このモデルから生成された予測が正確であるような拡散モデルの学習の問題に対処する。本稿では,スケーラブルな動的メッセージパッシング手法に基づく計算効率のよいアルゴリズムを提案する。学習モデルからの抽出可能な推論は,元のモデルと比較して限界確率の予測精度がよいことを示す。
論文参考訳（メタデータ） (2020-07-13T17:58:21Z)
Introduction to Rare-Event Predictive Modeling for Inferential Statisticians -- A Hands-On Application in the Prediction of Breakthrough Patents [0.0]
本稿では,予測性能の最適化を目的とした定量的分析のための機械学習(ML)手法を提案する。両フィールド間の潜在的な相乗効果について考察する。我々は,コンピュータサイエンスの用語のデミスティフィケーションを目指して,定量的な社会科学の聴衆に手持ちの予測モデルの導入を行っている。
論文参考訳（メタデータ） (2020-03-30T13:06:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。