論文の概要: Learning to Expand: Reinforced Pseudo-relevance Feedback Selection for
Information-seeking Conversations
- arxiv url: http://arxiv.org/abs/2011.12771v1
- Date: Wed, 25 Nov 2020 14:33:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 02:36:32.595121
- Title: Learning to Expand: Reinforced Pseudo-relevance Feedback Selection for
Information-seeking Conversations
- Title(参考訳): 拡張のための学習:情報参照会話のための疑似関係フィードバック選択の強化
- Authors: Haojie Pan, Cen Chen, Minghui Qiu, Liu Yang, Feng Ji, Jun Huang,
Haiqing Chen
- Abstract要約: 本研究では,PRF選択を学習課題として扱うとともに,人間のアノテーションを使わずにエンドツーエンドで学習できる強化学習ベース手法を提案する。
我々のモデルは,応答候補を拡張するために有意義なPRF項を選択するだけでなく,様々な評価指標のベースライン手法と比較して,最良の結果を得ることができる。
- 参考スコア(独自算出の注目度): 47.43989857297574
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Intelligent personal assistant systems for information-seeking conversations
are increasingly popular in real-world applications, especially for e-commerce
companies. With the development of research in such conversation systems, the
pseudo-relevance feedback (PRF) has demonstrated its effectiveness in
incorporating relevance signals from external documents. However, the existing
studies are either based on heuristic rules or require heavy manual labeling.
In this work, we treat the PRF selection as a learning task and proposed a
reinforced learning based method that can be trained in an end-to-end manner
without any human annotations. More specifically, we proposed a reinforced
selector to extract useful PRF terms to enhance response candidates and a BERT
based response ranker to rank the PRF-enhanced responses. The performance of
the ranker serves as rewards to guide the selector to extract useful PRF terms,
and thus boost the task performance. Extensive experiments on both standard
benchmark and commercial datasets show the superiority of our reinforced PRF
term selector compared with other potential soft or hard selection methods.
Both qualitative case studies and quantitative analysis show that our model can
not only select meaningful PRF terms to expand response candidates but also
achieve the best results compared with all the baseline methods on a variety of
evaluation metrics. We have also deployed our method on online production in an
e-commerce company, which shows a significant improvement over the existing
online ranking system.
- Abstract(参考訳): 情報参照会話のためのインテリジェントなパーソナルアシスタントシステムは、現実のアプリケーション、特にeコマース企業で人気が高まっている。
このような会話システムにおける研究の発展に伴い、擬似関連フィードバック(PRF)は、外部文書からの関連信号を組み込むことの有効性を実証した。
しかし、既存の研究はヒューリスティックなルールに基づいているか、重い手動ラベリングを必要とする。
本研究では,PRF選択を学習課題として扱うとともに,人間のアノテーションを使わずにエンドツーエンドで学習できる強化学習手法を提案する。
具体的には、応答候補を強化するために有用なPRF用語を抽出する強化セレクタと、PRF強化応答をランク付けするためのBERTベースの応答ランクラを提案する。
ランク付け器の性能は、セレクタが有用なPRF項を抽出し、タスク性能を高めるための報酬として機能する。
標準ベンチマークと商用データセットの両方の広範な実験は、他の軟質または硬質選択法と比較して、強化prf項セレクタが優れていることを示している。
定性的なケーススタディと定量的解析はともに,反応候補を拡大するために有意義なprf条件を選択できるだけでなく,様々な評価指標のベースライン法と比較した最良の結果が得られることを示した。
また、既存のオンラインランキングシステムよりも大幅に改善された電子商取引企業におけるオンライン生産に本手法を投入した。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - OPTune: Efficient Online Preference Tuning [107.44836901099]
オンライン嗜好調整(OPTune)のためのより効率的なデータ探索手法を提案する。
OPTuneは、オン・プライオリティアライメントのための情報応答を動的にサンプリングする。
評価では, 効率的なデータ探索戦略により, OPTune の LLM は 1.27-1.56 倍高速なトレーニング速度を達成している。
論文 参考訳(メタデータ) (2024-06-11T18:55:04Z) - Online Self-Preferring Language Models [34.22412851864247]
オンライン自己選好(OSP)言語モデルは、自己生成の応答ペアと自己判断の選好強度から学習する。
OSPは、広く使われている2つの人間の嗜好データセットにおいて、さまざまなメトリクスをまたいだ最先端のアライメント性能を達成する。
論文 参考訳(メタデータ) (2024-05-23T02:13:34Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - Reinforcement Replaces Supervision: Query focused Summarization using
Deep Reinforcement Learning [43.123290672073814]
クエリに基づいて文書から要約を生成するシステムを扱う。
Reinforcement Learning (RL) が自然言語生成のための Supervised Learning (SL) の一般化を提供するという知見に触発されて,本課題に RL ベースのアプローチを用いる。
我々は、ROUGE、BLEU、Semantic similarityといった様々な報酬信号に基づいて訓練された複数のポリシーグラディエントネットワークを開発する。
論文 参考訳(メタデータ) (2023-11-29T10:38:16Z) - Reinforcement Learning from Statistical Feedback: the Journey from AB
Testing to ANT Testing [1.1142354615369272]
RLHF(Reinforcement Learning from Human Feedback)は、ChatGPTのような大規模モデルの成功において重要な役割を担っている。
ABテストを用いて、人間のフィードバックではなく統計的ビジネスフィードバックでこのギャップを埋めようとしている。
統計的推論法は、事前訓練されたモデルを微調整する報奨ネットワークを訓練するための選好を得るために用いられる。
論文 参考訳(メタデータ) (2023-11-24T07:50:52Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。