論文の概要: Semantic HELM: An Interpretable Memory for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.09312v1
- Date: Thu, 15 Jun 2023 17:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 13:26:26.975036
- Title: Semantic HELM: An Interpretable Memory for Reinforcement Learning
- Title(参考訳): Semantic HELM:強化学習のための解釈可能なメモリ
- Authors: Fabian Paischer, Thomas Adler, Markus Hofmarcher, Sepp Hochreiter
- Abstract要約: 意思決定過程を照らすために,人間の言語で機能する新しい記憶機構を提案する。
我々の記憶機構は,過去の記憶がタスクの解決に不可欠である環境において,最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 5.805305403816407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning agents deployed in the real world often have to cope
with partially observable environments. Therefore, most agents employ memory
mechanisms to approximate the state of the environment. Recently, there have
been impressive success stories in mastering partially observable environments,
mostly in the realm of computer games like Dota 2, StarCraft II, or MineCraft.
However, none of these methods are interpretable in the sense that it is not
comprehensible for humans how the agent decides which actions to take based on
its inputs. Yet, human understanding is necessary in order to deploy such
methods in high-stake domains like autonomous driving or medical applications.
We propose a novel memory mechanism that operates on human language to
illuminate the decision-making process. First, we use CLIP to associate visual
inputs with language tokens. Then we feed these tokens to a pretrained language
model that serves the agent as memory and provides it with a coherent and
interpretable representation of the past. Our memory mechanism achieves
state-of-the-art performance in environments where memorizing the past is
crucial to solve tasks. Further, we present situations where our memory
component excels or fails to demonstrate strengths and weaknesses of our new
approach.
- Abstract(参考訳): 現実世界にデプロイされた強化学習エージェントは、部分的に観察可能な環境に対処する必要がある。
したがって、ほとんどのエージェントは環境の状態の近似にメモリ機構を用いる。
最近、部分的に観察可能な環境をマスターする素晴らしい成功談が生まれており、主にDota 2、StarCraft II、MineCraftといったコンピュータゲームの世界にある。
しかしながら、これらの手法は、エージェントが入力に基づいてどのアクションをとるかを決める方法が人間には理解できないという意味で解釈できない。
しかし、自動運転や医療応用のような高度な分野にそのような手法を展開するためには、人間の理解が必要である。
意思決定過程を照らすために,人間の言語で機能する新しい記憶機構を提案する。
まず、視覚入力と言語トークンを関連付けるためにCLIPを使用します。
次に、これらのトークンを、エージェントをメモリとして機能させる事前訓練された言語モデルに供給し、過去の一貫性と解釈可能な表現を提供する。
我々の記憶機構は,過去の記憶がタスクの解決に不可欠である環境において,最先端のパフォーマンスを実現する。
さらに,新たなアプローチの強みや弱みを示すために,メモリコンポーネントが優れているか失敗したかを示す。
関連論文リスト
- Leveraging Knowledge Graph-Based Human-Like Memory Systems to Solve Partially Observable Markov Decision Processes [9.953497719634726]
我々は、部分的に観察可能なマルコフ決定プロセス(POMDP)を開発し、迷路をナビゲートしながら、エージェントが質問に答えなければならない。
環境は完全に知識グラフ(KG)に基づいており、隠れた状態は動的KGである。
私たちはエージェントを異なるメモリシステムで訓練し比較し、人間の脳が自身のメモリを管理する際にどのように機能するかを明らかにします。
論文 参考訳(メタデータ) (2024-08-11T21:04:14Z) - HMT: Hierarchical Memory Transformer for Long Context Language Processing [35.730941605490194]
Hierarchical Memory Transformer (HMT) は、モデル長文処理機能を実現し、改善する新しいフレームワークである。
我々は,HMTがコンテキスト制約付き長文モデルの長文処理能力を着実に改善していることを示す。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - Retentive or Forgetful? Diving into the Knowledge Memorizing Mechanism
of Language Models [49.39276272693035]
大規模事前学習型言語モデルは、顕著な記憶能力を示している。
プレトレーニングのないバニラニューラルネットワークは、破滅的な忘れ物問題に悩まされていることが長年観察されてきた。
1)バニラ言語モデルは忘れがちである; 2)事前学習は暗黙の言語モデルにつながる; 3)知識の妥当性と多様化は記憶形成に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2023-05-16T03:50:38Z) - A Machine with Short-Term, Episodic, and Semantic Memory Systems [9.42475956340287]
明示的な人間の記憶システムの認知科学理論に触発されて、我々は短期的、エピソード的、セマンティックな記憶システムを持つエージェントをモデル化した。
実験により,人間のような記憶システムを持つエージェントは,このメモリ構造を環境に残さずにエージェントよりも優れた性能を発揮できることが示唆された。
論文 参考訳(メタデータ) (2022-12-05T08:34:23Z) - Evaluating Long-Term Memory in 3D Mazes [10.224858246626171]
Memory Mazeはエージェントの長期記憶を評価するために設計されたランダム化迷路の3Dドメインである。
既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを測定する。
現在のアルゴリズムは、時間の経過とともに縮小したバックプロパゲーションによるトレーニングの恩恵を受け、小さな迷路で成功するが、大きな迷路での人間のパフォーマンスに欠ける。
論文 参考訳(メタデータ) (2022-10-24T16:32:28Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Pin the Memory: Learning to Generalize Semantic Segmentation [68.367763672095]
本稿ではメタラーニングフレームワークに基づくセマンティックセグメンテーションのための新しいメモリ誘導ドメイン一般化手法を提案する。
本手法は,セマンティッククラスの概念的知識を,ドメインを超えて一定であるカテゴリ記憶に抽象化する。
論文 参考訳(メタデータ) (2022-04-07T17:34:01Z) - The Tensor Brain: A Unified Theory of Perception, Memory and Semantic
Decoding [16.37225919719441]
本稿では,認識と記憶の統一的計算理論を提案する。
我々のモデルでは、知覚、エピソード記憶、セマンティック記憶は異なる機能モードと操作モードで実現される。
論文 参考訳(メタデータ) (2021-09-27T23:32:44Z) - Not All Memories are Created Equal: Learning to Forget by Expiring [49.053569908417636]
本稿では,重要情報の保持を学習し,無関係情報を期限とするExpire-Spanを提案する。
この記憶を忘れることで、トランスフォーマーは数十万以上の前のタイムステップに効率的に参加することができます。
私たちは、Expire-Spanが数万の大きさの記憶にスケールできることを示し、信じられないほど長いコンテキストタスクに新しい状態を設定します。
論文 参考訳(メタデータ) (2021-05-13T20:50:13Z) - Kanerva++: extending The Kanerva Machine with differentiable, locally
block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。
我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。
この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文 参考訳(メタデータ) (2021-02-20T18:40:40Z) - Self-Attentive Associative Memory [69.40038844695917]
我々は、個々の体験(記憶)とその発生する関係(関連記憶)の記憶を分離することを提案する。
機械学習タスクの多様性において,提案した2メモリモデルと競合する結果が得られる。
論文 参考訳(メタデータ) (2020-02-10T03:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。