論文の概要: A Deep Reinforcement Learning Approach for Interactive Search with
Sentence-level Feedback
- arxiv url: http://arxiv.org/abs/2310.03043v1
- Date: Tue, 3 Oct 2023 18:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 21:02:35.067381
- Title: A Deep Reinforcement Learning Approach for Interactive Search with
Sentence-level Feedback
- Title(参考訳): 文レベルフィードバックを用いた対話型検索のための深層強化学習手法
- Authors: Jianghong Zhou, Joyce C. Ho, Chen Lin, Eugene Agichtein
- Abstract要約: 対話型検索は、ユーザからのインタラクションフィードバックを取り入れることで、より良いエクスペリエンスを提供することができる。
既存の最先端(SOTA)システムは、相互作用を組み込むために強化学習(RL)モデルを使用している。
しかしそのようなフィードバックには、広範囲なRLアクションスペース探索と大量の注釈付きデータが必要である。
この研究は、新しいディープQラーニング(DQ)アプローチであるDQrankを提案する。
- 参考スコア(独自算出の注目度): 12.712416630402119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive search can provide a better experience by incorporating
interaction feedback from the users. This can significantly improve search
accuracy as it helps avoid irrelevant information and captures the users'
search intents. Existing state-of-the-art (SOTA) systems use reinforcement
learning (RL) models to incorporate the interactions but focus on item-level
feedback, ignoring the fine-grained information found in sentence-level
feedback. Yet such feedback requires extensive RL action space exploration and
large amounts of annotated data. This work addresses these challenges by
proposing a new deep Q-learning (DQ) approach, DQrank. DQrank adapts BERT-based
models, the SOTA in natural language processing, to select crucial sentences
based on users' engagement and rank the items to obtain more satisfactory
responses. We also propose two mechanisms to better explore optimal actions.
DQrank further utilizes the experience replay mechanism in DQ to store the
feedback sentences to obtain a better initial ranking performance. We validate
the effectiveness of DQrank on three search datasets. The results show that
DQRank performs at least 12% better than the previous SOTA RL approaches. We
also conduct detailed ablation studies. The ablation results demonstrate that
each model component can efficiently extract and accumulate long-term
engagement effects from the users' sentence-level feedback. This structure
offers new technologies with promised performance to construct a search system
with sentence-level interaction.
- Abstract(参考訳): 対話型検索は、ユーザからのインタラクションフィードバックを取り入れることで、よりよいエクスペリエンスを提供することができる。
これにより、無関係な情報を避け、ユーザの検索意図をキャプチャするので、検索精度が大幅に向上する。
既存の最先端(SOTA)システムでは、強化学習(RL)モデルを使用してインタラクションを組み込むが、アイテムレベルのフィードバックに重点を置いており、文レベルのフィードバックに見られる詳細な情報を無視している。
しかしそのようなフィードバックには、広範囲なRLアクションスペース探索と大量の注釈付きデータが必要である。
この作業は、新しいディープラーニング(DQ)アプローチであるDQrankを提案することで、これらの課題に対処する。
DQrank は BERT ベースのモデル SOTA を自然言語処理に適用し、ユーザのエンゲージメントに基づいて重要な文を選択し、アイテムのランク付けを行い、より満足な応答を得る。
また,最適な行動を探るための2つのメカニズムを提案する。
DQrankはさらに、DQのエクスペリエンス再生機構を利用してフィードバック文を格納し、より優れた初期ランク付け性能を得る。
3つの検索データセットに対するDQrankの有効性を検証する。
その結果、DQRankは以前のSOTA RLアプローチよりも少なくとも12%高い性能を示した。
詳細なアブレーション研究も行っています。
その結果、各モデルコンポーネントは、ユーザの文レベルのフィードバックから、長期的なエンゲージメント効果を効率的に抽出し蓄積できることが示される。
この構造は、文レベルの対話を伴う検索システムを構築するための、約束された性能を持つ新しい技術を提供する。
関連論文リスト
- ProCIS: A Benchmark for Proactive Retrieval in Conversations [21.23826888841565]
本稿では,280万件以上の会話からなるプロアクティブな文書検索のための大規模データセットを提案する。
クラウドソーシング実験を行い、高品質で比較的完全な妥当性判定を行う。
また、各文書に関連する会話部分に関するアノテーションを収集し、前向きな検索システムの評価を可能にする。
論文 参考訳(メタデータ) (2024-05-10T13:11:07Z) - Enhancing Knowledge Retrieval with Topic Modeling for Knowledge-Grounded Dialogue [0.6650227510403052]
本稿では,知識ベースにおけるトピックモデリングを利用して,検索精度をさらに向上する手法を提案する。
また,改良された検索性能を活用するために,大規模な言語モデルChatGPTの実験を行った。
論文 参考訳(メタデータ) (2024-05-07T23:32:32Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - System-Level Natural Language Feedback [83.24259100437965]
システムレベルの設計決定を人為的なループプロセスで形式化する上で,フィードバックの活用方法を示す。
検索クエリと対話応答生成を改善するために,本手法のケーススタディを2つ実施する。
システムレベルのフィードバックとインスタンスレベルのフィードバックの組み合わせは、さらなる利益をもたらします。
論文 参考訳(メタデータ) (2023-06-23T16:21:40Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Keyword Extraction for Improved Document Retrieval in Conversational
Search [10.798537120200006]
混合開始型会話検索は大きな利点をもたらす。
会話からユーザーが提供する追加情報を取り入れることには、いくつかの課題がある。
我々は2つの対話型キーワード抽出データセットを収集し、それらを組み込んだエンドツーエンドの文書検索パイプラインを提案する。
論文 参考訳(メタデータ) (2021-09-13T13:55:37Z) - Leveraging Historical Interaction Data for Improving Conversational
Recommender System [105.90963882850265]
アイテムと属性に基づく嗜好シーケンスを統合するための,新しい事前学習手法を提案する。
実世界の2つのデータセットの実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-19T03:43:50Z) - Mining Implicit Relevance Feedback from User Behavior for Web Question
Answering [92.45607094299181]
本研究は,ユーザ行動と通過関連性との関連性を検討するための最初の研究である。
提案手法は,追加のラベル付きデータを使わずにパスランキングの精度を大幅に向上させる。
実際にこの研究は、グローバルな商用検索エンジンにおけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。
論文 参考訳(メタデータ) (2020-06-13T07:02:08Z) - Open-Retrieval Conversational Question Answering [62.11228261293487]
オープン検索型対話型質問応答 (ORConvQA) の設定を導入する。
ORConvQAのエンド・ツー・エンドシステムを構築し,レトリバー,リランカ,およびすべてトランスフォーマーをベースとしたリーダを特徴とする。
論文 参考訳(メタデータ) (2020-05-22T19:39:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。