論文の概要: Simulating Bandit Learning from User Feedback for Extractive Question
Answering
- arxiv url: http://arxiv.org/abs/2203.10079v1
- Date: Fri, 18 Mar 2022 17:47:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:15:34.479262
- Title: Simulating Bandit Learning from User Feedback for Extractive Question
Answering
- Title(参考訳): 抽出質問応答のためのユーザフィードバックからの帯域学習のシミュレーション
- Authors: Ge Gao, Eunsol Choi, Yoav Artzi
- Abstract要約: 教師付きデータを用いたフィードバックのシミュレーションにより,ユーザフィードバックからの学習を抽出的質問応答に適用する。
当初は少数の例でトレーニングしたシステムが,モデル予測された回答に対するユーザからのフィードバックを劇的に改善できることが示される。
- 参考スコア(独自算出の注目度): 51.97943858898579
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study learning from user feedback for extractive question answering by
simulating feedback using supervised data. We cast the problem as contextual
bandit learning, and analyze the characteristics of several learning scenarios
with focus on reducing data annotation. We show that systems initially trained
on a small number of examples can dramatically improve given feedback from
users on model-predicted answers, and that one can use existing datasets to
deploy systems in new domains without any annotation, but instead improving the
system on-the-fly via user feedback.
- Abstract(参考訳): ユーザフィードバックからの学習を,教師付きデータを用いたフィードバックのシミュレーションにより学習する。
この問題をコンテキストバンディット学習としてキャストし,データアノテーションの削減に着目して,複数の学習シナリオの特徴を分析する。
モデル予測された回答に対するユーザからのフィードバックを劇的に改善し、既存のデータセットを使用して、アノテーションを使わずに新しいドメインにシステムをデプロイし、代わりにユーザからのフィードバックによってオンザフライでシステムを改善することができることを示す。
関連論文リスト
- Exploiting Correlated Auxiliary Feedback in Parameterized Bandits [56.84649080789685]
そこで本研究では,学習者が追加の補助的フィードバックを観察できるパラメータ化帯域問題の新たな変種について検討する。
補助的なフィードバックは、ユーザのサービス評価(リワード)を観察し、サービス提供時間(補助的なフィードバック)などの追加情報を収集するオンラインプラットフォームなど、多くの現実的なアプリケーションで容易に利用可能である。
論文 参考訳(メタデータ) (2023-11-05T17:27:06Z) - System-Level Natural Language Feedback [83.24259100437965]
システムレベルの設計決定を人為的なループプロセスで形式化する上で,フィードバックの活用方法を示す。
検索クエリと対話応答生成を改善するために,本手法のケーススタディを2つ実施する。
システムレベルのフィードバックとインスタンスレベルのフィードバックの組み合わせは、さらなる利益をもたらします。
論文 参考訳(メタデータ) (2023-06-23T16:21:40Z) - Continually Improving Extractive QA via Human Feedback [59.49549491725224]
本研究では,人間のフィードバックによる抽出質問応答(QA)システムの改善を継続的に進める。
多様な設定の下で何千ものユーザインタラクションを含む実験を行い、時間とともにフィードバックからの学習の理解を広げます。
論文 参考訳(メタデータ) (2023-05-21T14:35:32Z) - Learning from a Learning User for Optimal Recommendations [43.2268992294178]
我々は「学習ユーザ」を捕捉し、効率的なシステム側学習ソリューションを設計するためのモデルを定式化する。
ユーザ学習の収束率が悪化するにつれて,RAESの後悔は良好に悪化することを示す。
本研究は,リコメンデーション問題におけるフィードバックループのモデル化に関する新たな視点を提供する。
論文 参考訳(メタデータ) (2022-02-03T22:45:12Z) - Improving Conversational Question Answering Systems after Deployment
using Feedback-Weighted Learning [69.42679922160684]
本稿では,二元的ユーザフィードバックを用いた初期教師付きシステムを改善するために,重要サンプリングに基づくフィードバック重み付き学習を提案する。
当社の作業は,実際のユーザとのインタラクションを活用し,デプロイ後の会話システムを改善する可能性を開くものだ。
論文 参考訳(メタデータ) (2020-11-01T19:50:34Z) - Reinforcement Learning with Feedback Graphs [69.1524391595912]
エージェントがステップ毎に追加のフィードバックを受けた場合,決定過程におけるエピソード強化学習について検討する。
状態-作用対上のフィードバックグラフを用いてこの設定を定式化し、モデルベースのアルゴリズムが追加のフィードバックを利用してよりサンプル効率のよい学習を行うことを示す。
論文 参考訳(メタデータ) (2020-05-07T22:35:37Z) - Pattern Learning for Detecting Defect Reports and Improvement Requests
in App Reviews [4.460358746823561]
本研究では、レビューを欠陥報告と改善の要求として分類することで、この行動可能な洞察の欠如を狙う新しいアプローチに従う。
我々は,遺伝的プログラミングを通じて語彙・意味パターンを学習できる教師付きシステムを採用している。
自動学習パターンは手作業で生成したパターンよりも優れており、生成可能であることを示す。
論文 参考訳(メタデータ) (2020-04-19T08:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。