論文の概要: Deep Reinforcement Learning with Explicit Context Representation
- arxiv url: http://arxiv.org/abs/2310.09924v1
- Date: Sun, 15 Oct 2023 19:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 17:18:42.399328
- Title: Deep Reinforcement Learning with Explicit Context Representation
- Title(参考訳): 明示的文脈表現を用いた深層強化学習
- Authors: Francisco Munguia-Galeano, Ah-Hwee Tan, Ze Ji
- Abstract要約: 本稿では、イオタ明示的文脈表現(IECR)と呼ばれる離散環境のためのフレームワークを提案する。
IECRフレームワークの新規性は、環境からコンテキスト情報を抽出し、CKFの表現から学ぶ能力にある。
Iota Deep Q-network (IDQN)、Iota double Q-network (IDDQN)、Iota dueling Deep Q-network (IDuDQN)、Iota dueling double Q-network (IDDDQN)である。
- 参考スコア(独自算出の注目度): 9.85366402599116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has shown an outstanding capability for solving
complex computational problems. However, most RL algorithms lack an explicit
method that would allow learning from contextual information. Humans use
context to identify patterns and relations among elements in the environment,
along with how to avoid making wrong actions. On the other hand, what may seem
like an obviously wrong decision from a human perspective could take hundreds
of steps for an RL agent to learn to avoid. This paper proposes a framework for
discrete environments called Iota explicit context representation (IECR). The
framework involves representing each state using contextual key frames (CKFs),
which can then be used to extract a function that represents the affordances of
the state; in addition, two loss functions are introduced with respect to the
affordances of the state. The novelty of the IECR framework lies in its
capacity to extract contextual information from the environment and learn from
the CKFs' representation. We validate the framework by developing four new
algorithms that learn using context: Iota deep Q-network (IDQN), Iota double
deep Q-network (IDDQN), Iota dueling deep Q-network (IDuDQN), and Iota dueling
double deep Q-network (IDDDQN). Furthermore, we evaluate the framework and the
new algorithms in five discrete environments. We show that all the algorithms,
which use contextual information, converge in around 40,000 training steps of
the neural networks, significantly outperforming their state-of-the-art
equivalents.
- Abstract(参考訳): 強化学習(rl)は複雑な計算問題を解決する優れた能力を示している。
しかし、ほとんどのrlアルゴリズムには、文脈情報から学習できる明示的な方法が欠けている。
人間はコンテキストを使って環境中の要素間のパターンや関係を識別し、間違った行動を避ける方法を見つける。
一方、人間の視点からの明らかに間違った判断が、RLエージェントが避けることを学ぶのに何百ステップもかかるかもしれない。
本稿では iota explicit context representation (iecr) と呼ばれる離散環境のためのフレームワークを提案する。
このフレームワークは、コンテキストキーフレーム(CKF)を使用して各状態を表現することを含み、それによって状態の空き度を表す関数を抽出し、さらに状態の空き度に関して2つの損失関数を導入する。
IECRフレームワークの新規性は、環境からコンテキスト情報を抽出し、CKFの表現から学ぶ能力にある。
Iota Deep Q-network (IDDQN), Iota double Q-network (IDDQN), Iota dueling Deep Q-network (IDuDQN), Iota dueling double Q-network (IDDDQN), Iota dueling double Q-network (IDDDDQN)である。
さらに, 5つの離散環境において, フレームワークと新しいアルゴリズムを評価した。
文脈情報を使用するアルゴリズムはすべて、ニューラルネットワークの約4万のトレーニングステップに収束し、最先端の同等性を大幅に上回っています。
関連論文リスト
- Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。
FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。
テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-14T18:41:54Z) - Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:36:36Z) - Neural Coreference Resolution based on Reinforcement Learning [53.73316523766183]
コアレゾリューションシステムは2つのサブタスクを解決する必要がある。
ひとつのタスクは、潜在的な言及のすべてを検出することであり、もう1つは、可能な言及ごとに前者のリンクを学習することである。
本稿では,アクターをベースとした強化学習型ニューラルコア参照分解システムを提案する。
論文 参考訳(メタデータ) (2022-12-18T07:36:35Z) - Symbolic Distillation for Learned TCP Congestion Control [70.27367981153299]
TCP渋滞制御は、深層強化学習(RL)アプローチで大きな成功を収めた。
ブラックボックスポリシーは解釈可能性と信頼性に欠けており、しばしば従来のTCPデータパスの外で運用する必要がある。
本稿では,まず深部RLエージェントを訓練し,次にNNポリシーをホワイトボックスの軽量なルールに蒸留する,両世界の長所を達成するための新しい2段階のソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-24T00:58:16Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。
このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。
elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-17T16:23:45Z) - A Deep Learning Approach for Ontology Enrichment from Unstructured Text [2.932750332087746]
既存のWeb上の攻撃、コントロール、アドバイザリの情報脆弱性は、セキュリティ分析を表現し、実行する機会を提供する。
自然言語処理とMLモデルに基づくオントロジーエンリッチメントアルゴリズムは、単語、フレーズ、文における概念の文脈的抽出に問題がある。
大規模なDBデータセットと2.8GBのウィキペディアコーパスとUniversal Sentenceでトレーニングされた双方向LSTMは、ISOベースの情報セキュリティを強化するためにデプロイされる。
論文 参考訳(メタデータ) (2021-12-16T01:32:21Z) - Network Support for High-performance Distributed Machine Learning [17.919773898228716]
学習ノード(計算を行う)と情報ノード(データを提供する)の両方をキャプチャするシステムモデルを提案する。
次に,学習課題を完了させるために,学習ノードと情報ノードが協調して行うべき課題と,実行すべきイテレーション数を選択する問題を定式化する。
我々はDoubleClimbというアルゴリズムを考案し、1+1/|I|競合解を見つけることができる。
論文 参考訳(メタデータ) (2021-02-05T19:38:57Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z) - Deep Adaptive Semantic Logic (DASL): Compiling Declarative Knowledge
into Deep Neural Networks [11.622060073764944]
本稿では,深層ニューラルネットワークの自動生成のための新しいフレームワークであるDeep Adaptive Semantic Logic (DASL)を紹介する。
DASLは、データからの学習を改善するために、ユーザが提供する形式的な知識を取り入れている。
我々は,視覚的関係検出タスク上でDASLを評価し,コモンセンス知識の追加によってデータ不足時の性能が10.7%向上することが実証された。
論文 参考訳(メタデータ) (2020-03-16T17:37:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。