論文の概要: Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies
- arxiv url: http://arxiv.org/abs/2204.08952v3
- Date: Sat, 22 Apr 2023 05:21:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 00:23:26.729440
- Title: Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies
- Title(参考訳): プライバシーポリシーに対する質問応答のための検索データ強化
- Authors: Md Rizwan Parvez, Jianfeng Chi, Wasi Uddin Ahmad, Yuan Tian, Kai-Wei
Chang
- Abstract要約: 本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
- 参考スコア(独自算出の注目度): 74.01792675564218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior studies in privacy policies frame the question answering (QA) task as
identifying the most relevant text segment or a list of sentences from a policy
document given a user query. Existing labeled datasets are heavily imbalanced
(only a few relevant segments), limiting the QA performance in this domain. In
this paper, we develop a data augmentation framework based on ensembling
retriever models that captures the relevant text segments from unlabeled policy
documents and expand the positive examples in the training set. In addition, to
improve the diversity and quality of the augmented data, we leverage multiple
pre-trained language models (LMs) and cascade them with noise reduction filter
models. Using our augmented data on the PrivacyQA benchmark, we elevate the
existing baseline by a large margin (10\% F1) and achieve a new
state-of-the-art F1 score of 50\%. Our ablation studies provide further
insights into the effectiveness of our approach.
- Abstract(参考訳): プライバシポリシに関する以前の研究では、質問応答(QA)タスクは、ユーザクエリが与えられたポリシー文書から最も関連性の高いテキストセグメントまたは文のリストを特定するものである。
既存のラベル付きデータセットは(いくつかの関連するセグメントのみ)非常に不均衡であり、このドメインでのQAパフォーマンスを制限する。
本稿では,ラベルなしのポリシー文書から関連するテキストセグメントをキャプチャし,トレーニングセットのポジティブな例を拡張する,センセンシングレトリバーモデルに基づくデータ拡張フレームワークを開発した。
さらに、拡張データの多様性と品質を改善するために、複数の事前学習言語モデル(LM)を活用し、ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10 % F1)で高め、新しい最先端のF1スコア(50 %)を達成する。
我々のアブレーション研究は、我々のアプローチの有効性に関するさらなる洞察を提供する。
関連論文リスト
- Structured List-Grounded Question Answering [11.109829342410265]
文書対話システムは,外部情報を活用することで,ユーザからの問い合わせに答えることを目的としている。
従来の研究は主に自由形式の文書を扱うことに焦点を当てており、しばしばリストのような構造化されたデータを見下ろしている。
本稿では,構造化リストの解釈と利用を改善するために,質問応答システムを強化することを目的とする。
論文 参考訳(メタデータ) (2024-10-04T22:21:43Z) - GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Improving Attributed Text Generation of Large Language Models via Preference Learning [28.09715554543885]
属性タスクを選好学習としてモデル化し,自動選好最適化フレームワークを導入する。
APOは、回答品質の高い最先端の引用F1を達成する。
論文 参考訳(メタデータ) (2024-03-27T09:19:13Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - Intermediate Training on Question Answering Datasets Improves Generative
Data Augmentation [32.83012699501051]
我々は、コンテキスト生成タスクとしてデータ生成を定式化することにより、生成データ拡張を改善する。
ダウンストリームタスクを質問応答形式に投入し、微調整されたコンテキストジェネレータをターゲットタスク領域に適応させる。
少数ショット、ゼロショット設定で、パフォーマンスが大幅に改善されたことを実証します。
論文 参考訳(メタデータ) (2022-05-25T09:28:21Z) - PolicyQA: A Reading Comprehension Dataset for Privacy Policies [77.79102359580702]
既存のWebサイトプライバシポリシ115のコーパスから算出した,25,017の理解スタイルの例を含むデータセットであるPolicyQAを提案する。
既存の2つのニューラルQAモデルを評価し、厳密な分析を行い、ポリシQAが提供する利点と課題を明らかにする。
論文 参考訳(メタデータ) (2020-10-06T09:04:58Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。