Fugu-MT 論文翻訳(概要): Retrieval Enhanced Data Augmentation for Question Answering on Privacy Policies

論文の概要: Retrieval Enhanced Data Augmentation for Question Answering on Privacy Policies

arxiv url: http://arxiv.org/abs/2204.08952v3
Date: Sat, 22 Apr 2023 05:21:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-26 00:23:26.729440
Title: Retrieval Enhanced Data Augmentation for Question Answering on Privacy Policies
Title（参考訳）: プライバシーポリシーに対する質問応答のための検索データ強化
Authors: Md Rizwan Parvez, Jianfeng Chi, Wasi Uddin Ahmad, Yuan Tian, Kai-Wei Chang
Abstract要約: 本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。 PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
参考スコア（独自算出の注目度）: 74.01792675564218
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prior studies in privacy policies frame the question answering (QA) task as identifying the most relevant text segment or a list of sentences from a policy document given a user query. Existing labeled datasets are heavily imbalanced (only a few relevant segments), limiting the QA performance in this domain. In this paper, we develop a data augmentation framework based on ensembling retriever models that captures the relevant text segments from unlabeled policy documents and expand the positive examples in the training set. In addition, to improve the diversity and quality of the augmented data, we leverage multiple pre-trained language models (LMs) and cascade them with noise reduction filter models. Using our augmented data on the PrivacyQA benchmark, we elevate the existing baseline by a large margin (10\% F1) and achieve a new state-of-the-art F1 score of 50\%. Our ablation studies provide further insights into the effectiveness of our approach.
Abstract（参考訳）: プライバシポリシに関する以前の研究では、質問応答(QA)タスクは、ユーザクエリが与えられたポリシー文書から最も関連性の高いテキストセグメントまたは文のリストを特定するものである。既存のラベル付きデータセットは(いくつかの関連するセグメントのみ)非常に不均衡であり、このドメインでのQAパフォーマンスを制限する。本稿では,ラベルなしのポリシー文書から関連するテキストセグメントをキャプチャし,トレーニングセットのポジティブな例を拡張する,センセンシングレトリバーモデルに基づくデータ拡張フレームワークを開発した。さらに、拡張データの多様性と品質を改善するために、複数の事前学習言語モデル(LM)を活用し、ノイズ低減フィルタモデルでそれらをカスケードする。 PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10 % F1)で高め、新しい最先端のF1スコア(50 %)を達成する。我々のアブレーション研究は、我々のアプローチの有効性に関するさらなる洞察を提供する。

関連論文リスト

AgentExpt: Automating AI Experiment Design with LLM-based Resource Retrieval Agent [36.65355075707938]
AI研究における重要な応用の1つは、エージェントとベースライン検索による実験設計を自動化することである。ベースラインおよびデータセットレコメンデーションのための包括的フレームワークを提案する。我々は、正確な相互作用連鎖を構築して明確な推論連鎖を構築し、解釈可能な正当化を生成するために大きな言語モデルを微調整する推論強化リランカを開発する。
論文参考訳（メタデータ） (2025-11-07T01:51:56Z)
BDA: Bangla Text Data Augmentation Framework [3.639885019250394]
高品質なデータが不足しているリソース制限フィールドでは、トレーニングデータの量を増やす上で、拡張が重要な役割を果たす。本稿では、事前学習されたモデルとルールベースの手法の両方を用いて、テキストの新しい変種を生成するBangla Text Data Augmentation Frameworkを提案する。
論文参考訳（メタデータ） (2024-12-11T19:50:37Z)
Multi-Facet Blending for Faceted Query-by-Example Retrieval [5.156059061769101]
本稿では,多面体ブレンディング(FaBle)拡張法を提案する。モジュール化によって、事前に定義されたファセットの知識やラベルが不要になります。 1K文書上のFaBle拡張は、ファセット条件埋め込みの訓練を著しく支援する。
論文参考訳（メタデータ） (2024-12-02T12:32:19Z)
Structured List-Grounded Question Answering [11.109829342410265]
文書対話システムは,外部情報を活用することで,ユーザからの問い合わせに答えることを目的としている。従来の研究は主に自由形式の文書を扱うことに焦点を当てており、しばしばリストのような構造化されたデータを見下ろしている。本稿では,構造化リストの解釈と利用を改善するために,質問応答システムを強化することを目的とする。
論文参考訳（メタデータ） (2024-10-04T22:21:43Z)
GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。 GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-08-14T01:24:09Z)
Improving Attributed Text Generation of Large Language Models via Preference Learning [28.09715554543885]
属性タスクを選好学習としてモデル化し,自動選好最適化フレームワークを導入する。 APOは、回答品質の高い最先端の引用F1を達成する。
論文参考訳（メタデータ） (2024-03-27T09:19:13Z)
MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文参考訳（メタデータ） (2023-10-08T04:44:36Z)
QASnowball: An Iterative Bootstrapping Framework for High-Quality Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。 QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文参考訳（メタデータ） (2023-09-19T05:20:36Z)
Intermediate Training on Question Answering Datasets Improves Generative Data Augmentation [32.83012699501051]
我々は、コンテキスト生成タスクとしてデータ生成を定式化することにより、生成データ拡張を改善する。ダウンストリームタスクを質問応答形式に投入し、微調整されたコンテキストジェネレータをターゲットタスク領域に適応させる。少数ショット、ゼロショット設定で、パフォーマンスが大幅に改善されたことを実証します。
論文参考訳（メタデータ） (2022-05-25T09:28:21Z)
PolicyQA: A Reading Comprehension Dataset for Privacy Policies [77.79102359580702]
既存のWebサイトプライバシポリシ115のコーパスから算出した,25,017の理解スタイルの例を含むデータセットであるPolicyQAを提案する。既存の2つのニューラルQAモデルを評価し、厳密な分析を行い、ポリシQAが提供する利点と課題を明らかにする。
論文参考訳（メタデータ） (2020-10-06T09:04:58Z)
Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文参考訳（メタデータ） (2020-05-28T08:26:06Z)
Template-Based Question Generation from Retrieved Sentences for Improved Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2020-04-24T17:57:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。