論文の概要: In a Nutshell, the Human Asked for This: Latent Goals for Following
Temporal Specifications
- arxiv url: http://arxiv.org/abs/2110.09461v1
- Date: Mon, 18 Oct 2021 16:53:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 14:11:53.586588
- Title: In a Nutshell, the Human Asked for This: Latent Goals for Following
Temporal Specifications
- Title(参考訳): 一言で言えば、人間はこれに求めた: 時間的仕様に従うための潜在目標
- Authors: Borja G. Le\'on, Murray Shanahan, Francesco Belardinelli
- Abstract要約: 時間論理(TL)で表されるOOD(out-of Distribution)マルチタスク命令を満たすことを目標とするエージェント構築の問題に対処する。
近年の研究では、深層学習アーキテクチャがDRLエージェントにTLのOODタスクを解くための重要な特徴であることを示す。
本稿では,人間の指示と環境からの現在の観察の両方を考慮し,エージェントに現在の目標の潜在表現を誘導する新しいディープラーニングアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 16.9640514047609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of building agents whose goal is to satisfy out-of
distribution (OOD) multi-task instructions expressed in temporal logic (TL) by
using deep reinforcement learning (DRL). Recent works provided evidence that
the deep learning architecture is a key feature when teaching a DRL agent to
solve OOD tasks in TL. Yet, the studies on their performance are still limited.
In this work, we analyse various state-of-the-art (SOTA) architectures that
include generalisation mechanisms such as relational layers, the soft-attention
mechanism, or hierarchical configurations, when generalising safety-aware tasks
expressed in TL. Most importantly, we present a novel deep learning
architecture that induces agents to generate latent representations of their
current goal given both the human instruction and the current observation from
the environment. We find that applying our proposed configuration to SOTA
architectures yields significantly stronger performance when executing new
tasks in OOD environments.
- Abstract(参考訳): 深部強化学習(DRL)を用いて,時間論理(TL)で表されるマルチタスク命令を満足させることを目標とするエージェント構築の問題に対処する。
近年の研究では、深層学習アーキテクチャがDRLエージェントにTLのOODタスクを解くための重要な特徴であることを示す。
しかし、パフォーマンスに関する研究はまだ限られている。
本研究では,tlで表される安全対応タスクを一般化する際に,リレーショナルレイヤやソフトアテンション機構,階層構成などの一般化機構を含む様々な最先端(sota)アーキテクチャを分析する。
最も重要なのは、人間の指示と環境からの現在の観察の両方から、エージェントに現在の目標の潜在表現を誘導する新しいディープラーニングアーキテクチャを提案することである。
提案した構成をSOTAアーキテクチャに適用すると,OOD環境で新しいタスクを実行する際の性能が大幅に向上することがわかった。
関連論文リスト
- StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization [94.31508613367296]
Retrieval-augmented Generation(RAG)は、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。
本稿では,手前のタスクに対して最適な構造型を識別し,元の文書をこの構造化形式に再構成し,その結果に基づいて回答を推測するStructRAGを提案する。
実験の結果、StructRAGは最先端のパフォーマンスを実現し、特に挑戦的なシナリオに優れていた。
論文 参考訳(メタデータ) (2024-10-11T13:52:44Z) - Synthesizing Evolving Symbolic Representations for Autonomous Systems [2.4233709516962785]
本稿では,その経験をスクラッチからPDDL表現に合成し,時間とともに更新できるオープンエンド学習システムを提案する。
a)選択肢を発見する、(b)選択肢を使って環境を探索する、(c)収集した知識を抽象化する、(d)計画。
論文 参考訳(メタデータ) (2024-09-18T07:23:26Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - TPTU: Large Language Model-based AI Agents for Task Planning and Tool
Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。
LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。
本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T09:22:03Z) - Reinforcement Learning with Temporal-Logic-Based Causal Diagrams [25.538860320318943]
エージェントが時間的に拡張された目標を達成するための強化学習(RL)タスクのクラスについて検討する。
これらの機械は報酬関数をモデル化するが、環境に関する因果的知識を見落としてしまうことが多い。
環境の異なる特性間の時間的因果関係をキャプチャする,時間論理に基づく因果関係図(TL-CD)をRLで提案する。
論文 参考訳(メタデータ) (2023-06-23T18:42:27Z) - Multi-Agent Reinforcement Learning Guided by Signal Temporal Logic
Specifications [22.407388715224283]
STL誘導型マルチエージェント強化学習フレームワークを提案する。
STL要求は、各エージェントの目的と安全仕様に応じてタスク仕様の両方を含むように設計され、STL仕様の値は、報酬を生成するために活用される。
論文 参考訳(メタデータ) (2023-06-11T23:53:29Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - AANG: Automating Auxiliary Learning [110.36191309793135]
補助目的の集合を自動生成する手法を提案する。
我々は、新しい統合分類体系の中で既存の目的を分解し、それらの関係を識別し、発見された構造に基づいて新しい目的を創出することで、これを実現する。
これにより、生成された目的物の空間を探索し、指定されたエンドタスクに最も有用なものを見つけるための、原理的かつ効率的なアルゴリズムが導かれる。
論文 参考訳(メタデータ) (2022-05-27T16:32:28Z) - Learning Task Decomposition with Ordered Memory Policy Network [73.3813423684999]
OMPN(Ordered Memory Policy Network)を提案し、デモから学習することでサブタスク階層を発見する。
ompnは部分的に観測可能な環境に適用でき、高いタスク分解性能を達成できる。
私たちの視覚化は、サブタスク階層がモデルに出現できることを確認します。
論文 参考訳(メタデータ) (2021-03-19T18:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。