Fugu-MT 論文翻訳(概要): Learning to Expand: Reinforced Pseudo-relevance Feedback Selection for Information-seeking Conversations

論文の概要: Learning to Expand: Reinforced Pseudo-relevance Feedback Selection for Information-seeking Conversations

arxiv url: http://arxiv.org/abs/2011.12771v1
Date: Wed, 25 Nov 2020 14:33:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-21 02:36:32.595121
Title: Learning to Expand: Reinforced Pseudo-relevance Feedback Selection for Information-seeking Conversations
Title（参考訳）: 拡張のための学習:情報参照会話のための疑似関係フィードバック選択の強化
Authors: Haojie Pan, Cen Chen, Minghui Qiu, Liu Yang, Feng Ji, Jun Huang, Haiqing Chen
Abstract要約: 本研究では,PRF選択を学習課題として扱うとともに,人間のアノテーションを使わずにエンドツーエンドで学習できる強化学習ベース手法を提案する。我々のモデルは,応答候補を拡張するために有意義なPRF項を選択するだけでなく,様々な評価指標のベースライン手法と比較して,最良の結果を得ることができる。
参考スコア（独自算出の注目度）: 47.43989857297574
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Intelligent personal assistant systems for information-seeking conversations are increasingly popular in real-world applications, especially for e-commerce companies. With the development of research in such conversation systems, the pseudo-relevance feedback (PRF) has demonstrated its effectiveness in incorporating relevance signals from external documents. However, the existing studies are either based on heuristic rules or require heavy manual labeling. In this work, we treat the PRF selection as a learning task and proposed a reinforced learning based method that can be trained in an end-to-end manner without any human annotations. More specifically, we proposed a reinforced selector to extract useful PRF terms to enhance response candidates and a BERT based response ranker to rank the PRF-enhanced responses. The performance of the ranker serves as rewards to guide the selector to extract useful PRF terms, and thus boost the task performance. Extensive experiments on both standard benchmark and commercial datasets show the superiority of our reinforced PRF term selector compared with other potential soft or hard selection methods. Both qualitative case studies and quantitative analysis show that our model can not only select meaningful PRF terms to expand response candidates but also achieve the best results compared with all the baseline methods on a variety of evaluation metrics. We have also deployed our method on online production in an e-commerce company, which shows a significant improvement over the existing online ranking system.
Abstract（参考訳）: 情報参照会話のためのインテリジェントなパーソナルアシスタントシステムは、現実のアプリケーション、特にeコマース企業で人気が高まっている。このような会話システムにおける研究の発展に伴い、擬似関連フィードバック(PRF)は、外部文書からの関連信号を組み込むことの有効性を実証した。しかし、既存の研究はヒューリスティックなルールに基づいているか、重い手動ラベリングを必要とする。本研究では,PRF選択を学習課題として扱うとともに,人間のアノテーションを使わずにエンドツーエンドで学習できる強化学習手法を提案する。具体的には、応答候補を強化するために有用なPRF用語を抽出する強化セレクタと、PRF強化応答をランク付けするためのBERTベースの応答ランクラを提案する。ランク付け器の性能は、セレクタが有用なPRF項を抽出し、タスク性能を高めるための報酬として機能する。標準ベンチマークと商用データセットの両方の広範な実験は、他の軟質または硬質選択法と比較して、強化prf項セレクタが優れていることを示している。定性的なケーススタディと定量的解析はともに,反応候補を拡大するために有意義なprf条件を選択できるだけでなく,様々な評価指標のベースライン法と比較した最良の結果が得られることを示した。また、既存のオンラインランキングシステムよりも大幅に改善された電子商取引企業におけるオンライン生産に本手法を投入した。

関連論文リスト

Distilling a Small Utility-Based Passage Selector to Enhance Retrieval-Augmented Generation [77.07879255360342]
Retrieval-augmented Generation (RAG)は、取得した情報を組み込むことで、大規模言語モデル(LLM)を強化する。 RAGでは、重要度は実用性に移行し、正確な回答を生成するためのパスの有用性を考慮している。提案手法は、ランク付けよりもユーティリティベースの選択に重点を置いており、固定しきい値を必要とせずに、特定のクエリに合わせた動的通過選択を可能にする。本実験は, 実用性に基づく選択により, RAGの柔軟性とコスト効率が向上し, 計算コストが大幅に低減され, 応答品質が向上することを示した。
論文参考訳（メタデータ） (2025-07-25T09:32:29Z)
Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation [3.727285983486079]
GRPOにおけるオープンエンド長文生成評価のためのスコアリングモデルであるPrefBERTを提案する。 PrefBERTは従来のROUGE-LやBERTScoreよりもセマンティックな報酬フィードバックを提供する。人的評価は、PrefBERTを政策モデルを訓練するための報奨信号として使用すると、人間の嗜好に合った反応が得られます。
論文参考訳（メタデータ） (2025-06-18T02:16:53Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
MARS: A Multi-Agent Framework Incorporating Socratic Guidance for Automated Prompt Optimization [30.748085697067154]
ソクラティックガイダンス(MARS)を取り入れたマルチエージェントフレームワークを提案する。 MARSは7つのエージェントから構成され、それぞれ異なる機能を持ち、Plannerを自律的に使用して最適化パスを設計する。提案手法の有効性を検証するため,様々なデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2025-03-21T06:19:55Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
OPTune: Efficient Online Preference Tuning [107.44836901099]
オンライン嗜好調整(OPTune)のためのより効率的なデータ探索手法を提案する。 OPTuneは、オン・プライオリティアライメントのための情報応答を動的にサンプリングする。評価では, 効率的なデータ探索戦略により, OPTune の LLM は 1.27-1.56 倍高速なトレーニング速度を達成している。
論文参考訳（メタデータ） (2024-06-11T18:55:04Z)
Online Self-Preferring Language Models [34.22412851864247]
オンライン自己選好(OSP)言語モデルは、自己生成の応答ペアと自己判断の選好強度から学習する。 OSPは、広く使われている2つの人間の嗜好データセットにおいて、さまざまなメトリクスをまたいだ最先端のアライメント性能を達成する。
論文参考訳（メタデータ） (2024-05-23T02:13:34Z)
Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文参考訳（メタデータ） (2024-02-17T11:25:26Z)
Reinforcement Replaces Supervision: Query focused Summarization using Deep Reinforcement Learning [43.123290672073814]
クエリに基づいて文書から要約を生成するシステムを扱う。 Reinforcement Learning (RL) が自然言語生成のための Supervised Learning (SL) の一般化を提供するという知見に触発されて,本課題に RL ベースのアプローチを用いる。我々は、ROUGE、BLEU、Semantic similarityといった様々な報酬信号に基づいて訓練された複数のポリシーグラディエントネットワークを開発する。
論文参考訳（メタデータ） (2023-11-29T10:38:16Z)
Reinforcement Learning from Statistical Feedback: the Journey from AB Testing to ANT Testing [1.1142354615369272]
RLHF(Reinforcement Learning from Human Feedback)は、ChatGPTのような大規模モデルの成功において重要な役割を担っている。 ABテストを用いて、人間のフィードバックではなく統計的ビジネスフィードバックでこのギャップを埋めようとしている。統計的推論法は、事前訓練されたモデルを微調整する報奨ネットワークを訓練するための選好を得るために用いられる。
論文参考訳（メタデータ） (2023-11-24T07:50:52Z)
SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文参考訳（メタデータ） (2022-03-18T16:50:38Z)
Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文参考訳（メタデータ） (2021-02-24T18:46:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。