論文の概要: When in Doubt, Think Slow: Iterative Reasoning with Latent Imagination
- arxiv url: http://arxiv.org/abs/2402.15283v1
- Date: Fri, 23 Feb 2024 12:27:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 14:42:21.868473
- Title: When in Doubt, Think Slow: Iterative Reasoning with Latent Imagination
- Title(参考訳): 疑わしいとき、ゆっくり考える: 潜在的な想像力を持つ反復的推論
- Authors: Martin Benfeghoul, Umais Zahid, Qinghai Guo, Zafeirios Fountas
- Abstract要約: 本研究では,このようなエージェントの性能向上のための,新しいトレーニング不要なアプローチを提案する。
我々は、推論されたエージェント状態を微調整するために、意思決定時に反復推論を適用する。
本手法は,視覚的3次元ナビゲーションタスクに適用した場合の再現精度とタスク性能の両面において一貫した改善を実現する。
- 参考スコア(独自算出の注目度): 10.24601148760979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In an unfamiliar setting, a model-based reinforcement learning agent can be
limited by the accuracy of its world model. In this work, we present a novel,
training-free approach to improving the performance of such agents separately
from planning and learning. We do so by applying iterative inference at
decision-time, to fine-tune the inferred agent states based on the coherence of
future state representations. Our approach achieves a consistent improvement in
both reconstruction accuracy and task performance when applied to visual 3D
navigation tasks. We go on to show that considering more future states further
improves the performance of the agent in partially-observable environments, but
not in a fully-observable one. Finally, we demonstrate that agents with less
training pre-evaluation benefit most from our approach.
- Abstract(参考訳): 不慣れな環境では、モデルベースの強化学習エージェントはその世界モデルの精度によって制限される。
本稿では,このようなエージェントのパフォーマンスを計画や学習とは別に改善するための,新しいトレーニングフリーアプローチを提案する。
我々は、意思決定時に反復推論を適用し、将来の状態表現のコヒーレンスに基づいて推論されたエージェント状態を微調整する。
本手法は,視覚的3dナビゲーションタスクに適用することで,再構成精度とタスク性能の両立が図れる。
今後の状態を考えると、部分的に観測可能な環境ではエージェントの性能が向上するが、完全に観測可能な環境では改善しないことを示す。
最後に,学習前評価の少ないエージェントが,私たちのアプローチのメリットを最大限に発揮できることを実証する。
関連論文リスト
- STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Self-Optimizing Feature Transformation [33.458785763961004]
特徴変換は、既存の特徴を数学的に変換することで、優れた表現(特徴)空間を抽出することを目的としている。
現在の研究は、ドメイン知識に基づく特徴工学や学習潜在表現に焦点を当てている。
特徴変換のための自己最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-16T16:50:41Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Learning State Representations via Retracing in Reinforcement Learning [25.755855290244103]
リトラシングによる学習は、強化学習タスクの状態表現を学習するための自己指導型アプローチである。
本稿では,Retracingによる学習の具体的なインスタンス化であるCycle-Consistency World Model (CCWM)を紹介する。
CCWMは, 試料効率と性能の両面から, 最先端の性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-11-24T16:19:59Z) - Learning Rich Nearest Neighbor Representations from Self-supervised
Ensembles [60.97922557957857]
推論時間における勾配降下から直接表現を学習する新しい手法により、自己教師付きモデルアンサンブルを行うためのフレームワークを提供する。
この技術は、ドメイン内のデータセットと転送設定の両方において、k-nearestの隣人によって測定されるように、表現品質を改善する。
論文 参考訳(メタデータ) (2021-10-19T22:24:57Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - ReAgent: Point Cloud Registration using Imitation and Reinforcement
Learning [28.244027792644097]
3Dコンピュータビジョンタスクのための新しいポイントクラウド登録エージェント(ReAgent)を紹介します。
我々は,定常的な専門家政策に基づいて,個別登録ポリシーを初期化するために模倣学習を用いる。
我々は,ModelNet40(合成)とScanObjectNN(実データ)の両方における古典的および学習的登録手法との比較を行い,ReAgentが最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2021-03-28T22:04:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。