Fugu-MT 論文翻訳(概要): Learning to Operate in Open Worlds by Adapting Planning Models

論文の概要: Learning to Operate in Open Worlds by Adapting Planning Models

arxiv url: http://arxiv.org/abs/2303.14272v1
Date: Fri, 24 Mar 2023 21:04:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-28 20:56:23.926187
Title: Learning to Operate in Open Worlds by Adapting Planning Models
Title（参考訳）: プランニングモデルの適用によるオープンワールドでの運用の学習
Authors: Wiktor Piotrowski and Roni Stern and Yoni Sher and Jacob Le and Matthew Klenk and Johan deKleer and Shiwali Mohan
Abstract要約: プランニングエージェントは、ドメインモデルがもはや正確に世界を表すことができない新しい状況で振る舞うことができない。オープンな世界で活動するエージェントに対して,新規性の存在を検知し,ドメインモデルに効果的に適用するアプローチを提案する。
参考スコア（独自算出の注目度）: 12.513121330508477
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Planning agents are ill-equipped to act in novel situations in which their domain model no longer accurately represents the world. We introduce an approach for such agents operating in open worlds that detects the presence of novelties and effectively adapts their domain models and consequent action selection. It uses observations of action execution and measures their divergence from what is expected, according to the environment model, to infer existence of a novelty. Then, it revises the model through a heuristics-guided search over model changes. We report empirical evaluations on the CartPole problem, a standard Reinforcement Learning (RL) benchmark. The results show that our approach can deal with a class of novelties very quickly and in an interpretable fashion.
Abstract（参考訳）: プランニングエージェントは、ドメインモデルがもはや世界を正確に表現していない新しい状況で振る舞うことができない。オープンな世界で活動するエージェントに対して,新規性の存在を検知し,ドメインモデルやアクション選択を効果的に適用するアプローチを提案する。行動の実行を観察し、環境モデルによって期待されるものとの相違を計測し、ノベルティの存在を推測する。そして、モデル変更に対するヒューリスティックスガイダンスによる探索を通じてモデルを改訂する。標準強化学習(rl)ベンチマークであるcartopole問題に関する経験的評価を報告する。その結果,本手法は極めて迅速かつ解釈可能な方法で新規性に対処できることがわかった。

関連論文リスト

Assessing Adaptive World Models in Machines with Novel Games [77.94506923046423]
我々は、迅速な適応は、環境の内部表現の効率的な構築と洗練と結びついていると論じる。人工知能における世界モデルの現在の理解と評価は依然として狭いままである。そこで本研究では,真で深みがあり,常にリフレッシュするノベルティを持つ,慎重に設計されたゲームスイートをベースとした,新たなベンチマークパラダイムを提案する。
論文参考訳（メタデータ） (2025-07-17T06:28:14Z)
AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文参考訳（メタデータ） (2025-04-06T20:35:44Z)
AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文参考訳（メタデータ） (2025-03-24T17:58:15Z)
SPARTAN: A Sparse Transformer Learning Local Causation [63.29645501232935]
因果構造は、環境の変化に柔軟に適応する世界モデルにおいて中心的な役割を果たす。本研究では,SPARse TrANsformer World Model(SPARTAN)を提案する。オブジェクト指向トークン間の注意パターンに空間規則を適用することで、SPARTANは、将来のオブジェクト状態を正確に予測するスパース局所因果モデルを特定する。
論文参考訳（メタデータ） (2024-11-11T11:42:48Z)
Adaptive World Models: Learning Behaviors by Latent Imagination Under Non-Stationarity [16.15952351162363]
私たちは新しいフォーマリズム、Hiddenを紹介します。 POMDP - 適応的な世界モデルで制御するために設計された。提案手法は, 様々な非定常RLベンチマークにおけるロバストな動作の学習を可能にすることを実証する。
論文参考訳（メタデータ） (2024-11-02T19:09:56Z)
Partial Models for Building Adaptive Model-Based Reinforcement Learning Agents [37.604622216020765]
部分モデルの概念的にシンプルなアイデアにより、深層モデルに基づくエージェントがこの課題を克服できることを示す。我々は、ディープダイナQ、PlaNet、Dreamerなどのエージェントで部分モデルを使用することで、環境の局所的な変化に効果的に適応できることを示す。
論文参考訳（メタデータ） (2024-05-27T07:46:36Z)
STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文参考訳（メタデータ） (2024-04-20T07:56:21Z)
ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文参考訳（メタデータ） (2023-12-14T15:53:07Z)
Novelty Detection in Reinforcement Learning with World Models [15.01731216883798]
世界モデルを用いた強化学習(RL)は近年大きな成功を収めている。しかし、突然世界力学や性質が変化した場合、エージェントの性能と信頼性は劇的に低下する。生成されたワールドモデルフレームワーク内での新規性検出の実装は、デプロイ時にエージェントを保護するための重要なタスクである。
論文参考訳（メタデータ） (2023-10-12T21:38:07Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Investigating the role of model-based learning in exploration and transfer [11.652741003589027]
本稿では,モデルベースエージェントの文脈における伝達学習について検討する。モデルベースアプローチは,移動学習におけるモデルフリーベースラインよりも優れていることがわかった。本研究の結果から,本質的な探索と環境モデルが組み合わさって,自己監督的かつ新たな報酬関数に一般化可能なエージェントの方向性を示すことが明らかとなった。
論文参考訳（メタデータ） (2023-02-08T11:49:58Z)
Online reinforcement learning with sparse rewards through an active inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-04T10:03:36Z)
Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2020-10-23T03:22:01Z)
Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文参考訳（メタデータ） (2020-07-14T16:42:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。