論文の概要: Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies
- arxiv url: http://arxiv.org/abs/2204.08952v1
- Date: Tue, 19 Apr 2022 15:45:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 15:53:55.957393
- Title: Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies
- Title(参考訳): プライバシーポリシーに対する質問応答のための検索データ強化
- Authors: Md Rizwan Parvez, Jianfeng Chi, Wasi Uddin Ahmad, Yuan Tian, Kai-Wei
Chang
- Abstract要約: 本稿では,レトリバーモデルに基づく新しいデータ拡張フレームワークを開発する。
我々は、複数の事前学習言語モデル(LM)を活用し、ノイズ低減オラクルでそれらをカスケードした。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
- 参考スコア(独自算出の注目度): 74.01792675564218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior studies in privacy policies frame the question answering (QA) tasks as
identifying the most relevant text segment or a list of sentences from the
policy document for a user query. However, annotating such a dataset is
challenging as it requires specific domain expertise (e.g., law academics).
Even if we manage a small-scale one, a bottleneck that remains is that the
labeled data are heavily imbalanced (only a few segments are relevant)
--limiting the gain in this domain. Therefore, in this paper, we develop a
novel data augmentation framework based on ensembling retriever models that
captures the relevant text segments from unlabeled policy documents and expand
the positive examples in the training set. In addition, to improve the
diversity and quality of the augmented data, we leverage multiple pre-trained
language models (LMs) and cascaded them with noise reduction oracles. Using our
augmented data on the PrivacyQA benchmark, we elevate the existing baseline by
a large margin (10\% F1) and achieve a new state-of-the-art F1 score of 50\%.
Our ablation studies provide further insights into the effectiveness of our
approach.
- Abstract(参考訳): プライバシポリシに関する以前の研究は、質問応答(QA)タスクは、ユーザクエリのポリシー文書から最も関連性の高いテキストセグメントまたは文のリストを特定するものである。
しかし、特定のドメインの専門知識(例えば法学者)を必要とするため、このようなデータセットの注釈付けは難しい。
たとえ小規模のデータを管理しても、残るボトルネックはラベル付きデータが非常に不均衡(いくつかのセグメントだけが関連している)であり、このドメインの利得を犠牲にしていることです。
そこで,本稿では,ラベルなしの方針文書から関連するテキストセグメントをキャプチャし,トレーニングセットのポジティブな例を拡大する,センサムリングレトリバーモデルに基づく新しいデータ拡張フレームワークを開発した。
さらに、拡張データの多様性と品質を改善するために、複数の事前学習言語モデル(LM)を活用し、ノイズ低減オラクルでそれらをカスケードした。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10 % F1)で高め、新しい最先端のF1スコア(50 %)を達成する。
我々のアブレーション研究は、我々のアプローチの有効性に関するさらなる洞察を提供する。
関連論文リスト
- Structured List-Grounded Question Answering [11.109829342410265]
文書対話システムは,外部情報を活用することで,ユーザからの問い合わせに答えることを目的としている。
従来の研究は主に自由形式の文書を扱うことに焦点を当てており、しばしばリストのような構造化されたデータを見下ろしている。
本稿では,構造化リストの解釈と利用を改善するために,質問応答システムを強化することを目的とする。
論文 参考訳(メタデータ) (2024-10-04T22:21:43Z) - GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Improving Attributed Text Generation of Large Language Models via Preference Learning [28.09715554543885]
属性タスクを選好学習としてモデル化し,自動選好最適化フレームワークを導入する。
APOは、回答品質の高い最先端の引用F1を達成する。
論文 参考訳(メタデータ) (2024-03-27T09:19:13Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - Intermediate Training on Question Answering Datasets Improves Generative
Data Augmentation [32.83012699501051]
我々は、コンテキスト生成タスクとしてデータ生成を定式化することにより、生成データ拡張を改善する。
ダウンストリームタスクを質問応答形式に投入し、微調整されたコンテキストジェネレータをターゲットタスク領域に適応させる。
少数ショット、ゼロショット設定で、パフォーマンスが大幅に改善されたことを実証します。
論文 参考訳(メタデータ) (2022-05-25T09:28:21Z) - PolicyQA: A Reading Comprehension Dataset for Privacy Policies [77.79102359580702]
既存のWebサイトプライバシポリシ115のコーパスから算出した,25,017の理解スタイルの例を含むデータセットであるPolicyQAを提案する。
既存の2つのニューラルQAモデルを評価し、厳密な分析を行い、ポリシQAが提供する利点と課題を明らかにする。
論文 参考訳(メタデータ) (2020-10-06T09:04:58Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。