論文の概要: Text-based RL Agents with Commonsense Knowledge: New Challenges,
Environments and Baselines
- arxiv url: http://arxiv.org/abs/2010.03790v1
- Date: Thu, 8 Oct 2020 06:20:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 10:55:26.823577
- Title: Text-based RL Agents with Commonsense Knowledge: New Challenges,
Environments and Baselines
- Title(参考訳): 共通知識を持つテキストベースRLエージェント:新しい課題,環境,ベースライン
- Authors: Keerthiram Murugesan, Mattia Atzeni, Pavan Kapanipathi, Pushkar
Shukla, Sadhana Kumaravel, Gerald Tesauro, Kartik Talamadupula, Mrinmaya
Sachan, Murray Campbell
- Abstract要約: テキストワールド・コモンセンスにコモンセンスの知識を取り入れたエージェントは,より効率的に行動しながら,より優れた行動を示す。
我々は,TWC上での人的パフォーマンスを推定するユーザスタディを実施し,今後の改善の余地が十分にあることを示す。
- 参考スコア(独自算出の注目度): 40.03754436370682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based games have emerged as an important test-bed for Reinforcement
Learning (RL) research, requiring RL agents to combine grounded language
understanding with sequential decision making. In this paper, we examine the
problem of infusing RL agents with commonsense knowledge. Such knowledge would
allow agents to efficiently act in the world by pruning out implausible
actions, and to perform look-ahead planning to determine how current actions
might affect future world states. We design a new text-based gaming environment
called TextWorld Commonsense (TWC) for training and evaluating RL agents with a
specific kind of commonsense knowledge about objects, their attributes, and
affordances. We also introduce several baseline RL agents which track the
sequential context and dynamically retrieve the relevant commonsense knowledge
from ConceptNet. We show that agents which incorporate commonsense knowledge in
TWC perform better, while acting more efficiently. We conduct user-studies to
estimate human performance on TWC and show that there is ample room for future
improvement.
- Abstract(参考訳): テキストベースのゲームは強化学習(RL)研究において重要なテストベッドとして現れており、RLエージェントは基底言語理解とシーケンシャルな意思決定を組み合わせなければならない。
本稿では,共通知識を持つrlエージェントを感染させる問題について検討する。
このような知識により、エージェントは目立たないアクションを取り除き、現在のアクションが将来の世界状態にどう影響するかを判断するためのルック・ア・プランニングを行うことで、世界で効率的に行動することができる。
我々は、オブジェクト、それらの属性、および余裕に関する特定のコモンセンス知識を用いてRLエージェントを訓練し、評価するためのテキストベースの新しいゲーム環境であるTextWorld Commonsense(TWC)を設計する。
また,シーケンシャルコンテキストを追跡し,関連するコモンセンス知識をconceptnetから動的に取得するベースラインrlエージェントについても紹介する。
TWCにコモンセンス知識を取り入れたエージェントは、より効率的に行動しながら、より優れたパフォーマンスを示す。
我々は,TWCにおける人的パフォーマンスを推定するユーザスタディを実施し,今後の改善の余地が十分にあることを示す。
関連論文リスト
- Deciphering Digital Detectives: Understanding LLM Behaviors and
Capabilities in Multi-Agent Mystery Games [26.07074182316433]
本稿では,Jubenshaに特化している最初のデータセットについて紹介する。
我々の研究は、LSMを使ったユニークなマルチエージェントインタラクションフレームワークも提供し、AIエージェントがこのゲームに自律的に関与できるようにする。
これらのAIエージェントのゲーム性能を評価するために,ケース情報と推論スキルの熟達度を測定する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-12-01T17:33:57Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Dialogue Shaping: Empowering Agents through NPC Interaction [11.847150109599982]
非プレイヤーキャラクタ(NPC)はゲームに関するいくつかの重要な情報を保持しており、RLエージェントのトレーニングを高速化するのに役立つ可能性がある。
本稿では,大規模言語モデル(LLM)を用いてNPCエージェントと対話し,キー情報を取得する方法について検討する。
論文 参考訳(メタデータ) (2023-07-28T22:44:54Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - A Survey on Explainable Reinforcement Learning: Concepts, Algorithms,
Challenges [38.70863329476517]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが環境と対話して長期的な目標を達成する、一般的な機械学習パラダイムである。
励ましの結果にもかかわらず、ディープニューラルネットワークベースのバックボーンは、専門家が高いセキュリティと信頼性が不可欠である現実的なシナリオにおいて、訓練されたエージェントを信頼し、採用することを妨げるブラックボックスとして広く見なされている。
この問題を緩和するために、本質的な解釈可能性やポストホックな説明可能性を構築することにより、知的エージェントの内部動作に光を放つための大量の文献が提案されている。
論文 参考訳(メタデータ) (2022-11-12T13:52:06Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - WordCraft: An Environment for Benchmarking Commonsense Agents [107.20421897619002]
我々はLittle Alchemy 2.0をベースとしたRL環境であるWordCraftを提案する。
この軽量環境は、現実のセマンティクスにインスパイアされたエンティティとリレーションに基づいて実行され、構築される。
論文 参考訳(メタデータ) (2020-07-17T18:40:46Z) - Balancing Reinforcement Learning Training Experiences in Interactive
Information Retrieval [19.723551683930776]
対話型情報検索(IIR)と強化学習(RL)は、対話中に学習するエージェントなど、多くの共通点を共有している。
IIRにRLメソッドをうまく適用するには、RLエージェントを訓練するための十分な関連ラベルを得ることが課題である。
本論文は、ドメインランダム化を用いて、より関連性の高い文書を合成することにより、この問題に対処する。
論文 参考訳(メタデータ) (2020-06-05T00:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。