論文の概要: Balancing Reinforcement Learning Training Experiences in Interactive
Information Retrieval
- arxiv url: http://arxiv.org/abs/2006.03185v2
- Date: Wed, 9 Jun 2021 01:41:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 04:09:59.448811
- Title: Balancing Reinforcement Learning Training Experiences in Interactive
Information Retrieval
- Title(参考訳): 対話型情報検索におけるバランス強化学習体験
- Authors: Limin Chen, Zhiwen Tang, Grace Hui Yang
- Abstract要約: 対話型情報検索(IIR)と強化学習(RL)は、対話中に学習するエージェントなど、多くの共通点を共有している。
IIRにRLメソッドをうまく適用するには、RLエージェントを訓練するための十分な関連ラベルを得ることが課題である。
本論文は、ドメインランダム化を用いて、より関連性の高い文書を合成することにより、この問題に対処する。
- 参考スコア(独自算出の注目度): 19.723551683930776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive Information Retrieval (IIR) and Reinforcement Learning (RL) share
many commonalities, including an agent who learns while interacts, a long-term
and complex goal, and an algorithm that explores and adapts. To successfully
apply RL methods to IIR, one challenge is to obtain sufficient relevance labels
to train the RL agents, which are infamously known as sample inefficient.
However, in a text corpus annotated for a given query, it is not the relevant
documents but the irrelevant documents that predominate. This would cause very
unbalanced training experiences for the agent and prevent it from learning any
policy that is effective. Our paper addresses this issue by using domain
randomization to synthesize more relevant documents for the training. Our
experimental results on the Text REtrieval Conference (TREC) Dynamic Domain
(DD) 2017 Track show that the proposed method is able to boost an RL agent's
learning effectiveness by 22\% in dealing with unseen situations.
- Abstract(参考訳): インタラクティブ情報検索(IIR)と強化学習(RL)は、対話中に学習するエージェント、長期的な複雑な目標、探索と適応を行うアルゴリズムなど、多くの共通点を共有している。
IIRにRL法をうまく適用するには、RL剤を訓練するための十分な関連ラベルを得ることが課題である。
しかし、あるクエリに注釈を付けたテキストコーパスでは、関連するドキュメントではなく、支配する無関係なドキュメントである。
これはエージェントにとって非常にバランスの取れないトレーニング経験を引き起こし、効果的な方針を学ぶのを妨げます。
本稿では,この課題をドメインのランダム化を用いてより関連する文書を合成することで解決する。
The Text Retrieval Conference (TREC) Dynamic Domain (DD) 2017 Track の実験結果から,提案手法は未知の状況に対処する上で,RLエージェントの学習効率を22%向上させることができることが示された。
関連論文リスト
- Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は 両刃剣である。
我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。
モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文 参考訳(メタデータ) (2024-02-13T23:29:09Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Believe What You See: Implicit Constraint Approach for Offline
Multi-Agent Reinforcement Learning [16.707045765042505]
現在のオフラインRLアルゴリズムは、累積外挿誤差のため、マルチエージェントシステムでは有効ではない。
本稿では,外挿誤差を効果的に軽減する新しいオフラインRLアルゴリズム,Implicit Constraint Q-learning (ICQ)を提案する。
実験結果から, 外挿誤差はほぼゼロに減少し, エージェント数に敏感であることが示唆された。
論文 参考訳(メタデータ) (2021-06-07T08:02:31Z) - Causal-aware Safe Policy Improvement for Task-oriented dialogue [45.88777832381149]
我々はタスク指向対話政策学習のためのバッチrlフレームワークを提案する:causal safe policy improvement (caspi)
Multiwoz2.0データセットの対話対テキスト生成およびエンドツーエンド対話タスクにおけるこのフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-10T22:34:28Z) - A novel policy for pre-trained Deep Reinforcement Learning for Speech
Emotion Recognition [8.175197257598697]
Reinforcement Learning(RL)は、エージェントが環境と相互作用することによって学習する半教師付き学習パラダイムです。
ディープRLはAlphaGoのようなゲームで大成功を収めてきたが、音声感情認識(SER)のような挑戦的なタスクのためにその可能性を探ることはめったにない。
本稿では、SERに適した新しいポリシー「ゼタポリシー」を導入し、より高速な学習率を達成するために深部RLでの事前学習を適用する。
論文 参考訳(メタデータ) (2021-01-04T02:13:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。