論文の概要: Learning to Expand: Reinforced Pseudo-relevance Feedback Selection for
Information-seeking Conversations
- arxiv url: http://arxiv.org/abs/2011.12771v1
- Date: Wed, 25 Nov 2020 14:33:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 02:36:32.595121
- Title: Learning to Expand: Reinforced Pseudo-relevance Feedback Selection for
Information-seeking Conversations
- Title(参考訳): 拡張のための学習:情報参照会話のための疑似関係フィードバック選択の強化
- Authors: Haojie Pan, Cen Chen, Minghui Qiu, Liu Yang, Feng Ji, Jun Huang,
Haiqing Chen
- Abstract要約: 本研究では,PRF選択を学習課題として扱うとともに,人間のアノテーションを使わずにエンドツーエンドで学習できる強化学習ベース手法を提案する。
我々のモデルは,応答候補を拡張するために有意義なPRF項を選択するだけでなく,様々な評価指標のベースライン手法と比較して,最良の結果を得ることができる。
- 参考スコア(独自算出の注目度): 47.43989857297574
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Intelligent personal assistant systems for information-seeking conversations
are increasingly popular in real-world applications, especially for e-commerce
companies. With the development of research in such conversation systems, the
pseudo-relevance feedback (PRF) has demonstrated its effectiveness in
incorporating relevance signals from external documents. However, the existing
studies are either based on heuristic rules or require heavy manual labeling.
In this work, we treat the PRF selection as a learning task and proposed a
reinforced learning based method that can be trained in an end-to-end manner
without any human annotations. More specifically, we proposed a reinforced
selector to extract useful PRF terms to enhance response candidates and a BERT
based response ranker to rank the PRF-enhanced responses. The performance of
the ranker serves as rewards to guide the selector to extract useful PRF terms,
and thus boost the task performance. Extensive experiments on both standard
benchmark and commercial datasets show the superiority of our reinforced PRF
term selector compared with other potential soft or hard selection methods.
Both qualitative case studies and quantitative analysis show that our model can
not only select meaningful PRF terms to expand response candidates but also
achieve the best results compared with all the baseline methods on a variety of
evaluation metrics. We have also deployed our method on online production in an
e-commerce company, which shows a significant improvement over the existing
online ranking system.
- Abstract(参考訳): 情報参照会話のためのインテリジェントなパーソナルアシスタントシステムは、現実のアプリケーション、特にeコマース企業で人気が高まっている。
このような会話システムにおける研究の発展に伴い、擬似関連フィードバック(PRF)は、外部文書からの関連信号を組み込むことの有効性を実証した。
しかし、既存の研究はヒューリスティックなルールに基づいているか、重い手動ラベリングを必要とする。
本研究では,PRF選択を学習課題として扱うとともに,人間のアノテーションを使わずにエンドツーエンドで学習できる強化学習手法を提案する。
具体的には、応答候補を強化するために有用なPRF用語を抽出する強化セレクタと、PRF強化応答をランク付けするためのBERTベースの応答ランクラを提案する。
ランク付け器の性能は、セレクタが有用なPRF項を抽出し、タスク性能を高めるための報酬として機能する。
標準ベンチマークと商用データセットの両方の広範な実験は、他の軟質または硬質選択法と比較して、強化prf項セレクタが優れていることを示している。
定性的なケーススタディと定量的解析はともに,反応候補を拡大するために有意義なprf条件を選択できるだけでなく,様々な評価指標のベースライン法と比較した最良の結果が得られることを示した。
また、既存のオンラインランキングシステムよりも大幅に改善された電子商取引企業におけるオンライン生産に本手法を投入した。
関連論文リスト
- Aligning Large Language Models by On-Policy Self-Judgment [52.25915009010184]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行い,パラメータ効率の高いアライメントフレームワーク,メソッドを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - Towards Off-Policy Reinforcement Learning for Ranking Policies with
Human Feedback [47.03475305565384]
本稿では,ユーザの長期報酬を同時に最大化し,オフラインでランキングを最適化する,新たなオフ政治価値ランキング(VR)アルゴリズムを提案する。
EMプロセスは、将来の報酬とランキング基準の統合の恩恵を享受し、オンラインインタラクションなしで学習するために、リーンポリシーを導いてくれる。
論文 参考訳(メタデータ) (2024-01-17T04:19:33Z) - Reinforcement Replaces Supervision: Query focused Summarization using
Deep Reinforcement Learning [43.123290672073814]
クエリに基づいて文書から要約を生成するシステムを扱う。
Reinforcement Learning (RL) が自然言語生成のための Supervised Learning (SL) の一般化を提供するという知見に触発されて,本課題に RL ベースのアプローチを用いる。
我々は、ROUGE、BLEU、Semantic similarityといった様々な報酬信号に基づいて訓練された複数のポリシーグラディエントネットワークを開発する。
論文 参考訳(メタデータ) (2023-11-29T10:38:16Z) - Reinforcement Learning from Statistical Feedback: the Journey from AB
Testing to ANT Testing [1.1142354615369272]
RLHF(Reinforcement Learning from Human Feedback)は、ChatGPTのような大規模モデルの成功において重要な役割を担っている。
ABテストを用いて、人間のフィードバックではなく統計的ビジネスフィードバックでこのギャップを埋めようとしている。
統計的推論法は、事前訓練されたモデルを微調整する報奨ネットワークを訓練するための選好を得るために用いられる。
論文 参考訳(メタデータ) (2023-11-24T07:50:52Z) - Rescue: Ranking LLM Responses with Partial Ordering to Improve Response
Generation [30.620633200577114]
本稿では,ランキング指標を用いたLCMの最適化手法を提案する。
従来の完全順序付けではなく、部分順序付けを提唱する。
ベンチマークデータセットを用いて,システムの改善された応答生成能力を検証した。
論文 参考訳(メタデータ) (2023-11-15T17:27:14Z) - Enable Language Models to Implicitly Learn Self-Improvement From Data [51.63428207248947]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。
我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T04:29:40Z) - Diverse and Faithful Knowledge-Grounded Dialogue Generation via
Sequential Posterior Inference [82.28542500317445]
本稿では,知識の選択と対話生成が可能な,逐次後推論(Sequential Posterior Inference, SPI)と呼ばれるエンドツーエンド学習フレームワークを提案する。
他の方法とは異なり、SPIは推論ネットワークを必要とせず、後部分布の単純な幾何学を仮定する。
論文 参考訳(メタデータ) (2023-06-01T21:23:13Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。