論文の概要: Learning to Query Internet Text for Informing Reinforcement Learning
Agents
- arxiv url: http://arxiv.org/abs/2205.13079v1
- Date: Wed, 25 May 2022 23:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 14:25:52.312223
- Title: Learning to Query Internet Text for Informing Reinforcement Learning
Agents
- Title(参考訳): 強化学習エージェントのためのインターネットテキスト検索の学習
- Authors: Kolby Nottingham, Alekhya Pyla, Sameer Singh, Roy Fox
- Abstract要約: 野生で発見された自然言語から有用な情報を抽出する問題に取り組む。
私たちは、強化学習エージェントを訓練して、これらのソースを人間としてクエリする方法を学びます。
提案手法は,強化学習環境において,報酬を最大化するためにクエリを正しく学習することを示す。
- 参考スコア(独自算出の注目度): 36.69880704465014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization to out of distribution tasks in reinforcement learning is a
challenging problem. One successful approach improves generalization by
conditioning policies on task or environment descriptions that provide
information about the current transition or reward functions. Previously, these
descriptions were often expressed as generated or crowd sourced text. In this
work, we begin to tackle the problem of extracting useful information from
natural language found in the wild (e.g. internet forums, documentation, and
wikis). These natural, pre-existing sources are especially challenging, noisy,
and large and present novel challenges compared to previous approaches. We
propose to address these challenges by training reinforcement learning agents
to learn to query these sources as a human would, and we experiment with how
and when an agent should query. To address the \textit{how}, we demonstrate
that pretrained QA models perform well at executing zero-shot queries in our
target domain. Using information retrieved by a QA model, we train an agent to
learn \textit{when} it should execute queries. We show that our method
correctly learns to execute queries to maximize reward in a reinforcement
learning setting.
- Abstract(参考訳): 強化学習における分散タスクの一般化は難しい課題である。
1つの成功したアプローチは、現在の遷移や報酬関数に関する情報を提供するタスクや環境記述にポリシーを条件付けることで一般化を改善する。
以前はこれらの記述は、しばしば生成されたあるいはクラウドソースのテキストとして表現されていた。
本研究では,野生で発見された自然言語(インターネットフォーラム,ドキュメント,wikiなど)から有用な情報を抽出する問題に取り組み始める。
これらの自然で既存の情報源は、以前のアプローチに比べて特に困難で騒がしく、大きく、目新しい課題である。
我々は、強化学習エージェントを訓練して、これらのソースを人間の意図でクエリする方法を学ぶことで、これらの課題に対処することを提案する。
textit{how}に対処するために、事前訓練されたQAモデルは、ターゲットドメインでゼロショットクエリを実行するのによく機能することを示した。
QAモデルによって取得された情報を使用して、エージェントにクエリを実行するように訓練する。
本手法は,強化学習環境での報酬を最大化するために,クエリの実行を正しく学習することを示す。
関連論文リスト
- Online Continual Learning For Interactive Instruction Following Agents [20.100312650193228]
このような学習シナリオは,ロボットエージェントが世界を探索し,知覚する上で,継続的に世界を学ぶことが求められているため,現実的ではない,と我々は主張する。
本研究では,新しい行動学習と新しい環境学習という,エンボディエージェントのための2つの連続学習環境を提案する。
論文 参考訳(メタデータ) (2024-03-12T11:33:48Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Learning How to Infer Partial MDPs for In-Context Adaptation and
Exploration [17.27164535440641]
後方サンプリングは有望なアプローチであるが、ベイズ推論と動的プログラミングが必要である。
部分モデルが環境から関連する情報を除外したとしても、良い政策につながることは明らかである。
論文 参考訳(メタデータ) (2023-02-08T18:35:24Z) - Multi-Source Transfer Learning for Deep Model-Based Reinforcement
Learning [0.6445605125467572]
強化学習における重要な課題は、エージェントが与えられたタスクをマスターするために必要な環境との相互作用の数を減らすことである。
伝達学習は、以前に学習したタスクから知識を再利用することでこの問題に対処することを提案する。
本研究の目的は,モジュール型マルチソーストランスファー学習技術を用いて,これらの課題に対処することである。
論文 参考訳(メタデータ) (2022-05-28T12:04:52Z) - Asking for Knowledge: Training RL Agents to Query External Knowledge
Using Language [121.56329458876655]
グリッドワールドベースのQ-BabyAIとテキストベースのQ-TextWorldの2つの新しい環境を紹介した。
本稿では,意味のある知識を問うための言語コマンドを生成する「知識の探索(AFK)」エージェントを提案する。
論文 参考訳(メタデータ) (2022-05-12T14:20:31Z) - BERTese: Learning to Speak to BERT [50.76152500085082]
本論文では,より良い知識抽出に向けて直接最適化されたパラフレーズクエリ"BERTese"に自動書き換える手法を提案する。
私たちのアプローチが競合するベースラインを上回ることを実証的に示し、複雑なパイプラインの必要性を回避します。
論文 参考訳(メタデータ) (2021-03-09T10:17:22Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Retrieve, Program, Repeat: Complex Knowledge Base Question Answering via
Alternate Meta-learning [56.771557756836906]
本稿では,弱い監督からプログラマと交互に検索モデルを自動的に学習する手法を提案する。
本システムでは,知識ベースに対する複雑な質問応答を行う大規模タスクにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-29T18:28:16Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。