Fugu-MT 論文翻訳(概要): Neuro-Symbolic World Models for Adapting to Open World Novelty

論文の概要: Neuro-Symbolic World Models for Adapting to Open World Novelty

arxiv url: http://arxiv.org/abs/2301.06294v1
Date: Mon, 16 Jan 2023 07:49:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-18 16:28:09.654775
Title: Neuro-Symbolic World Models for Adapting to Open World Novelty
Title（参考訳）: オープンワールドノベルティに適応するニューロシンボリック世界モデル
Authors: Jonathan Balloch and Zhiyu Lin and Robert Wright and Xiangyu Peng and Mustafa Hussain and Aarun Srinivas and Julia Kim and Mark O. Riedl
Abstract要約: 早急なノベルティ適応のための、エンドツーエンドのトレーニング可能なニューロシンボリックワールドモデルであるWorldClonerを紹介する。 WorldClonerは、プレノベルティ環境遷移の効率的なシンボル表現を学ぶ。 WorldClonerは、想像力に基づく適応を使用してポリシー学習プロセスを強化する。
参考スコア（独自算出の注目度）: 9.707805250772129
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Open-world novelty--a sudden change in the mechanics or properties of an environment--is a common occurrence in the real world. Novelty adaptation is an agent's ability to improve its policy performance post-novelty. Most reinforcement learning (RL) methods assume that the world is a closed, fixed process. Consequentially, RL policies adapt inefficiently to novelties. To address this, we introduce WorldCloner, an end-to-end trainable neuro-symbolic world model for rapid novelty adaptation. WorldCloner learns an efficient symbolic representation of the pre-novelty environment transitions, and uses this transition model to detect novelty and efficiently adapt to novelty in a single-shot fashion. Additionally, WorldCloner augments the policy learning process using imagination-based adaptation, where the world model simulates transitions of the post-novelty environment to help the policy adapt. By blending ''imagined'' transitions with interactions in the post-novelty environment, performance can be recovered with fewer total environment interactions. Using environments designed for studying novelty in sequential decision-making problems, we show that the symbolic world model helps its neural policy adapt more efficiently than model-based and model-based neural-only reinforcement learning methods.
Abstract（参考訳）: オープンワールドのノベルティ - 環境の力学や性質の突然の変化 - は現実世界でよくある現象である。ノベルティ適応は、ノベルティ後のポリシーパフォーマンスを改善するエージェントの能力である。ほとんどの強化学習(RL)法は、世界は閉じた、固定されたプロセスであると仮定する。結果として、RLポリシーは新規性に非効率に適応する。そこで本研究では,迅速な新規性適応のための,エンドツーエンドのトレーニング可能なニューロシンボリックワールドモデルであるWorldClonerを紹介する。 WorldClonerは、プレノベルティ環境遷移の効率的なシンボル表現を学び、この遷移モデルを使用して、新規性を検出し、単一ショット方式で新規性に適応する。さらに、WorldClonerは、想像力に基づく適応を使用してポリシー学習プロセスを強化する。ポストノベルティ環境における'虚像'遷移と相互作用をブレンドすることで、全体の環境相互作用を少なくして性能を回復することができる。逐次的意思決定問題における新しさを研究するために設計された環境を用いて,シンボリックワールドモデルが,モデルベースおよびモデルベースニューラルネットワークのみの強化学習手法よりも,そのニューラルポリシーを効率的に適応させるのに役立つことを示す。

関連論文リスト

AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文参考訳（メタデータ） (2025-03-24T17:58:15Z)
Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [93.58897637077001]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文参考訳（メタデータ） (2025-03-11T13:50:22Z)
Learning Transformer-based World Models with Contrastive Predictive Coding [58.0159270859475]
変換器の表現能力を十分に活用するには,次の状態予測目標が不十分であることを示す。本稿では,行動条件のContrastive Predictive Codingを用いた世界モデルであるTWISTERを導入することで,世界モデル予測をより長い時間的地平線まで拡張することを提案する。 TWISTERは、Atari 100kベンチマークで162%の人間正規化平均スコアを達成し、ルックアヘッド検索を使用しない最先端のメソッドの中で、新しい記録を樹立した。
論文参考訳（メタデータ） (2025-03-06T13:18:37Z)
Multimodal Dreaming: A Global Workspace Approach to World Model-Based Reinforcement Learning [2.5749046466046903]
強化学習(Reinforcement Learning, RL)では、世界モデルはエージェントの行動に応じて環境がどのように進化するかを捉えることを目的としている。潜在空間内での夢のプロセスの実行は、より少ない環境ステップでのトレーニングを可能にすることを示す。我々は、GWとWorld Modelsの組み合わせは、RLエージェントの意思決定を改善する大きな可能性を秘めていると結論づける。
論文参考訳（メタデータ） (2025-02-28T15:24:17Z)
Training a Generally Curious Agent [86.84089201249104]
PAPRIKAは,言語モデルによる一般的な意思決定機能の開発を可能にする微調整手法である。 PAPRIKAで微調整されたモデルは、学習した意思決定能力を全く見えないタスクに効果的に移行できることを示す実験結果が得られた。これらの結果は、新しいシーケンシャルな意思決定問題を自律的に解決できるAIシステムへの有望な道のりを示唆している。
論文参考訳（メタデータ） (2025-02-24T18:56:58Z)
Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文参考訳（メタデータ） (2025-01-17T10:39:09Z)
Open-World Reinforcement Learning over Long Short-Term Imagination [91.28998327423295]
LS-Imagineは、有限個の状態遷移ステップにおいて、イマジネーションの地平線を拡大する。我々の手法は、MineDojoの最先端技術よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2024-10-04T17:17:30Z)
Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文参考訳（メタデータ） (2024-09-25T06:48:25Z)
One-shot World Models Using a Transformer Trained on a Synthetic Prior [37.027893127637036]
ワンショット世界モデル(英: One-Shot World Model、OSWM)は、純粋に合成データからコンテキスト内学習形式で学習されるトランスフォーマー世界モデルである。 OSWMは、シンプルなグリッド世界のダイナミクスや、CartPoleのジム、カスタムコントロール環境に迅速に適応できる。
論文参考訳（メタデータ） (2024-09-21T09:39:32Z)
Learning from Random Demonstrations: Offline Reinforcement Learning with Importance-Sampled Diffusion Models [19.05224410249602]
閉ループポリシー評価と世界モデル適応を用いたオフライン強化学習のための新しい手法を提案する。提案手法の性能を解析し,提案手法と実環境とのリターンギャップに上限を設けた。
論文参考訳（メタデータ） (2024-05-30T09:34:31Z)
Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文参考訳（メタデータ） (2024-05-21T20:53:18Z)
Novelty Detection in Reinforcement Learning with World Models [15.01731216883798]
世界モデルを用いた強化学習(RL)は近年大きな成功を収めている。しかし、突然世界力学や性質が変化した場合、エージェントの性能と信頼性は劇的に低下する。生成されたワールドモデルフレームワーク内での新規性検出の実装は、デプロイ時にエージェントを保護するための重要なタスクである。
論文参考訳（メタデータ） (2023-10-12T21:38:07Z)
Novelty Accommodating Multi-Agent Planning in High Fidelity Simulated Open World [0.0]
ノベルティ(英: Novelty)は、環境のコア特性、組成、力学を変化させる予期せぬ現象である。これまでの研究では、新規性はエージェントのパフォーマンスに破滅的な影響を及ぼすことが示されている。本研究では、軍事領域の現実的な高忠実度シミュレータにおいて、ドメイン非依存のAIエージェントが、斬新な動作と推論を成功させるために適応できることを実証する。
論文参考訳（メタデータ） (2023-06-22T03:44:04Z)
Learning to Operate in Open Worlds by Adapting Planning Models [12.513121330508477]
プランニングエージェントは、ドメインモデルがもはや正確に世界を表すことができない新しい状況で振る舞うことができない。オープンな世界で活動するエージェントに対して,新規性の存在を検知し,ドメインモデルに効果的に適用するアプローチを提案する。
論文参考訳（メタデータ） (2023-03-24T21:04:16Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Real-World Humanoid Locomotion with Reinforcement Learning [92.85934954371099]
実世界におけるヒューマノイド移動に対する完全学習型アプローチを提案する。コントローラーは様々な屋外の地形の上を歩けるし、外乱に対して頑丈で、状況に応じて適応できる。
論文参考訳（メタデータ） (2023-03-06T18:59:09Z)
Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文参考訳（メタデータ） (2020-06-23T17:00:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。