論文の概要: Relational-Grid-World: A Novel Relational Reasoning Environment and An
Agent Model for Relational Information Extraction
- arxiv url: http://arxiv.org/abs/2007.05961v1
- Date: Sun, 12 Jul 2020 11:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 05:47:03.673118
- Title: Relational-Grid-World: A Novel Relational Reasoning Environment and An
Agent Model for Relational Information Extraction
- Title(参考訳): relational-grid-world:新しい関係推論環境と関係情報抽出エージェントモデル
- Authors: Faruk Kucuksubasi and Elif Surer
- Abstract要約: 強化学習(RL)エージェントは特定の問題のために特別に設計され、一般的には解釈不能な作業プロセスを持つ。
統計的手法に基づくRLアルゴリズムは、論理プログラミングのようなシンボリック人工知能(AI)ツールを用いて、一般化可能性と解釈可能性の観点から改善することができる。
環境オブジェクトの明示的なリレーショナル表現をサポートするモデルフリーなRLアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) agents are often designed specifically for a
particular problem and they generally have uninterpretable working processes.
Statistical methods-based agent algorithms can be improved in terms of
generalizability and interpretability using symbolic Artificial Intelligence
(AI) tools such as logic programming. In this study, we present a model-free RL
architecture that is supported with explicit relational representations of the
environmental objects. For the first time, we use the PrediNet network
architecture in a dynamic decision-making problem rather than image-based
tasks, and Multi-Head Dot-Product Attention Network (MHDPA) as a baseline for
performance comparisons. We tested two networks in two environments ---i.e.,
the baseline Box-World environment and our novel environment,
Relational-Grid-World (RGW). With the procedurally generated RGW environment,
which is complex in terms of visual perceptions and combinatorial selections,
it is easy to measure the relational representation performance of the RL
agents. The experiments were carried out using different configurations of the
environment so that the presented module and the environment were compared with
the baselines. We reached similar policy optimization performance results with
the PrediNet architecture and MHDPA; additionally, we achieved to extract the
propositional representation explicitly ---which makes the agent's statistical
policy logic more interpretable and tractable. This flexibility in the agent's
policy provides convenience for designing non-task-specific agent
architectures. The main contributions of this study are two-fold ---an RL agent
that can explicitly perform relational reasoning, and a new environment that
measures the relational reasoning capabilities of RL agents.
- Abstract(参考訳): 強化学習(RL)エージェントは特定の問題のために特別に設計され、一般的には解釈不能な作業プロセスを持つ。
統計的手法に基づくエージェントアルゴリズムは、論理プログラミングのようなシンボリック人工知能(AI)ツールを用いて、一般化可能性と解釈可能性の観点から改善することができる。
本研究では,環境オブジェクトの明示的な関係表現をサポートするモデルフリーなrlアーキテクチャを提案する。
画像ベースのタスクではなく,動的意思決定問題において,PrediNetネットワークアーキテクチャを初めて使用し,MHDPA(Multi-Head Dot-Product Attention Network)を性能比較のベースラインとした。
基本となるBox-World環境と新しいRelational-Grid-World(RGW)環境の2つの環境で2つのネットワークをテストした。
視覚知覚や組合せ選択の点で複雑である手続き的に生成されたRGW環境により、RLエージェントの相関表現性能を測定することは容易である。
実験は,提案するモジュールと環境をベースラインと比較するように,環境の異なる構成を用いて実施した。
我々は、PrediNetアーキテクチャとMHDPAで同様のポリシー最適化性能を達成し、提案表現を明示的に抽出することで、エージェントの統計的ポリシーロジックをより解釈可能でトラクタブルなものにしました。
このエージェントポリシーの柔軟性は、タスク固有のエージェントアーキテクチャを設計するための利便性を提供する。
この研究の主な貢献は、リレーショナル推論を明示的に実行できる2つの----rlエージェントと、rlエージェントのリレーショナル推論能力を測定する新しい環境である。
関連論文リスト
- On the Linear Speedup of Personalized Federated Reinforcement Learning with Shared Representations [15.549340968605234]
フェデレート強化学習(FedRL)は、エージェントと環境相互作用の間に収集された局所的な軌跡を共有することなく、複数のエージェントが協調的にポリシーを学ぶことを可能にする。
異種環境におけるエージェント間の共通構造を生かし, 共生型FedRLフレームワーク(PFedRL)を導入する。
論文 参考訳(メタデータ) (2024-11-22T15:42:43Z) - AgentRE: An Agent-Based Framework for Navigating Complex Information Landscapes in Relation Extraction [10.65417796726349]
複雑なシナリオにおける関係抽出(RE)は、多種多様な関係型や単一の文内のエンティティ間のあいまいな関係のような課題に直面します。
本稿では,複雑なシナリオにおいてREを実現するために,大規模言語モデルの可能性を完全に活用するエージェントベースのREフレームワークであるAgentREを提案する。
論文 参考訳(メタデータ) (2024-09-03T12:53:05Z) - Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions [68.92637077909693]
本稿では,グラフィカルユーザインタフェース(GUI)環境におけるマルチモーダル大規模言語モデル(MLLM)エージェントの忠実さについて検討する。
ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含む、一般的な設定が提案されている。
実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-05T15:16:22Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Reinforcement Learning with Temporal-Logic-Based Causal Diagrams [25.538860320318943]
エージェントが時間的に拡張された目標を達成するための強化学習(RL)タスクのクラスについて検討する。
これらの機械は報酬関数をモデル化するが、環境に関する因果的知識を見落としてしまうことが多い。
環境の異なる特性間の時間的因果関係をキャプチャする,時間論理に基づく因果関係図(TL-CD)をRLで提案する。
論文 参考訳(メタデータ) (2023-06-23T18:42:27Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - A Framework for Understanding and Visualizing Strategies of RL Agents [0.0]
本稿では,時間論理式を用いてエージェント戦略を特徴付ける逐次決定タスクの理解可能なモデル学習フレームワークを提案する。
我々は,手工芸の専門家政策と訓練された強化学習エージェントの痕跡を用いて,StarCraft II (SC2) の戦闘シナリオに関する枠組みを評価した。
論文 参考訳(メタデータ) (2022-08-17T21:58:19Z) - Soft Hierarchical Graph Recurrent Networks for Many-Agent Partially
Observable Environments [9.067091068256747]
本稿では,階層型グラフ再帰ネットワーク(HGRN)と呼ばれる新しいネットワーク構造を提案する。
以上の技術に基づいて,Soft-HGRNと呼ばれる値に基づくMADRLアルゴリズムと,SAC-HRGNというアクタクリティカルな変種を提案する。
論文 参考訳(メタデータ) (2021-09-05T09:51:25Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。