論文の概要: Text-based RL Agents with Commonsense Knowledge: New Challenges,
Environments and Baselines
- arxiv url: http://arxiv.org/abs/2010.03790v1
- Date: Thu, 8 Oct 2020 06:20:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 10:55:26.823577
- Title: Text-based RL Agents with Commonsense Knowledge: New Challenges,
Environments and Baselines
- Title(参考訳): 共通知識を持つテキストベースRLエージェント:新しい課題,環境,ベースライン
- Authors: Keerthiram Murugesan, Mattia Atzeni, Pavan Kapanipathi, Pushkar
Shukla, Sadhana Kumaravel, Gerald Tesauro, Kartik Talamadupula, Mrinmaya
Sachan, Murray Campbell
- Abstract要約: テキストワールド・コモンセンスにコモンセンスの知識を取り入れたエージェントは,より効率的に行動しながら,より優れた行動を示す。
我々は,TWC上での人的パフォーマンスを推定するユーザスタディを実施し,今後の改善の余地が十分にあることを示す。
- 参考スコア(独自算出の注目度): 40.03754436370682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based games have emerged as an important test-bed for Reinforcement
Learning (RL) research, requiring RL agents to combine grounded language
understanding with sequential decision making. In this paper, we examine the
problem of infusing RL agents with commonsense knowledge. Such knowledge would
allow agents to efficiently act in the world by pruning out implausible
actions, and to perform look-ahead planning to determine how current actions
might affect future world states. We design a new text-based gaming environment
called TextWorld Commonsense (TWC) for training and evaluating RL agents with a
specific kind of commonsense knowledge about objects, their attributes, and
affordances. We also introduce several baseline RL agents which track the
sequential context and dynamically retrieve the relevant commonsense knowledge
from ConceptNet. We show that agents which incorporate commonsense knowledge in
TWC perform better, while acting more efficiently. We conduct user-studies to
estimate human performance on TWC and show that there is ample room for future
improvement.
- Abstract(参考訳): テキストベースのゲームは強化学習(RL)研究において重要なテストベッドとして現れており、RLエージェントは基底言語理解とシーケンシャルな意思決定を組み合わせなければならない。
本稿では,共通知識を持つrlエージェントを感染させる問題について検討する。
このような知識により、エージェントは目立たないアクションを取り除き、現在のアクションが将来の世界状態にどう影響するかを判断するためのルック・ア・プランニングを行うことで、世界で効率的に行動することができる。
我々は、オブジェクト、それらの属性、および余裕に関する特定のコモンセンス知識を用いてRLエージェントを訓練し、評価するためのテキストベースの新しいゲーム環境であるTextWorld Commonsense(TWC)を設計する。
また,シーケンシャルコンテキストを追跡し,関連するコモンセンス知識をconceptnetから動的に取得するベースラインrlエージェントについても紹介する。
TWCにコモンセンス知識を取り入れたエージェントは、より効率的に行動しながら、より優れたパフォーマンスを示す。
我々は,TWCにおける人的パフォーマンスを推定するユーザスタディを実施し,今後の改善の余地が十分にあることを示す。
関連論文リスト
- Semifactual Explanations for Reinforcement Learning [1.5320737596132754]
強化学習(Reinforcement Learning、RL)は、エージェントが試行錯誤を通じて環境から学習する学習パラダイムである。
ディープ強化学習(DRL)アルゴリズムは、ニューラルネットワークを使用してエージェントのポリシーを表現し、その決定を解釈しにくくする。
DRLエージェントの動作を説明するには,ユーザの信頼を向上し,エンゲージメントを高め,実際のタスクとの統合を容易にする必要がある。
論文 参考訳(メタデータ) (2024-09-09T08:37:47Z) - STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models [5.786039929801102]
インタラクティブなフィクションゲームのための既存の環境は、特定のスキルセットをマスターするためにRLエージェントを生成するのにドメイン固有または時間を要する。
本稿では,テキストベースのRLエージェントを自動生成ゲームでブートストラップし,目標環境の目標を達成するためのパフォーマンスと一般化能力を向上する,自己教師型RL,STARlingのための対話型環境を提案する。
論文 参考訳(メタデータ) (2024-06-09T18:07:47Z) - EXPLORER: Exploration-guided Reasoning for Textual Reinforcement Learning [23.83162741035859]
テキスト強化学習のための探索誘導推論剤であるEXPLORERについて述べる。
実験の結果,EXPLORERはテキストワールド調理(TW-Cooking)およびテキストワールドコモンセンス(TWC)ゲームにおいて,ベースラインエージェントよりも優れていた。
論文 参考訳(メタデータ) (2024-03-15T21:22:37Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - WordCraft: An Environment for Benchmarking Commonsense Agents [107.20421897619002]
我々はLittle Alchemy 2.0をベースとしたRL環境であるWordCraftを提案する。
この軽量環境は、現実のセマンティクスにインスパイアされたエンティティとリレーションに基づいて実行され、構築される。
論文 参考訳(メタデータ) (2020-07-17T18:40:46Z) - Balancing Reinforcement Learning Training Experiences in Interactive
Information Retrieval [19.723551683930776]
対話型情報検索(IIR)と強化学習(RL)は、対話中に学習するエージェントなど、多くの共通点を共有している。
IIRにRLメソッドをうまく適用するには、RLエージェントを訓練するための十分な関連ラベルを得ることが課題である。
本論文は、ドメインランダム化を用いて、より関連性の高い文書を合成することにより、この問題に対処する。
論文 参考訳(メタデータ) (2020-06-05T00:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。