論文の概要: QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2407.20207v1
- Date: Mon, 29 Jul 2024 17:39:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 12:55:07.165784
- Title: QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval
- Title(参考訳): QAEA-DR:Dense Retrievalのための統一テキスト拡張フレームワーク
- Authors: Hongming Tan, Shaoxiong Zhan, Hai Lin, Hai-Tao Zheng, Wai Kin, Chan,
- Abstract要約: 厳密な検索では、長いテキストを密度の高いベクトルに埋め込むと、情報が失われ、クエリとテキストのマッチングが不正確になる。
近年の研究では,文の埋め込みモデルや検索プロセスの改善を中心に研究が進められている。
本稿では,高密度検索のための新しいテキスト拡張フレームワークを導入し,生文書を高密度テキスト形式に変換する。
- 参考スコア(独自算出の注目度): 12.225881591629815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In dense retrieval, embedding long texts into dense vectors can result in information loss, leading to inaccurate query-text matching. Additionally, low-quality texts with excessive noise or sparse key information are unlikely to align well with relevant queries. Recent studies mainly focus on improving the sentence embedding model or retrieval process. In this work, we introduce a novel text augmentation framework for dense retrieval. This framework transforms raw documents into information-dense text formats, which supplement the original texts to effectively address the aforementioned issues without modifying embedding or retrieval methodologies. Two text representations are generated via large language models (LLMs) zero-shot prompting: question-answer pairs and element-driven events. We term this approach QAEA-DR: unifying question-answer generation and event extraction in a text augmentation framework for dense retrieval. To further enhance the quality of generated texts, a scoring-based evaluation and regeneration mechanism is introduced in LLM prompting. Our QAEA-DR model has a positive impact on dense retrieval, supported by both theoretical analysis and empirical experiments.
- Abstract(参考訳): 厳密な検索では、長いテキストを密度の高いベクトルに埋め込むと、情報が失われ、クエリとテキストのマッチングが不正確になる。
さらに、低品質のノイズや希少なキー情報を持つテキストは、関連するクエリとうまく一致しない。
近年の研究では,文の埋め込みモデルや検索プロセスの改善を中心に研究が進められている。
本研究では,高密度検索のための新しいテキスト拡張フレームワークを提案する。
このフレームワークは、原文書を情報密度のテキスト形式に変換し、元のテキストを補って上記の問題に効果的に対処し、埋め込みや検索の方法論を変更することなく解決する。
2つのテキスト表現は、大きな言語モデル(LLM)ゼロショットプロンプトによって生成される:質問応答ペアと要素駆動イベント。
本稿では,高密度検索のためのテキスト拡張フレームワークにおいて,質問応答生成とイベント抽出を統一するQAEA-DRと呼ぶ。
生成されたテキストの品質をさらに向上するため、LCMプロンプトにスコアベースの評価・再生機構を導入する。
我々のQAEA-DRモデルは、理論解析と実証実験の両方が支持する密度検索に肯定的な影響を及ぼす。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Context-augmented Retrieval: A Novel Framework for Fast Information Retrieval based Response Generation using Large Language Model [0.0]
文脈情報のコーパスが大きくなるにつれて、検索型拡張生成(RAG)ベースの質問回答システム(QA)の回答/推論品質は低下する。
本研究は,古典的テキスト分類とLarge Language Model(LLM)を組み合わせることで,この問題を解決する。
新しいアプローチ Context Augmented Search (CAR) は、情報検索と回答生成時間の大幅な削減とともに、優れた品質の回答生成を示す。
論文 参考訳(メタデータ) (2024-06-24T07:52:05Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - Boosting Punctuation Restoration with Data Generation and Reinforcement
Learning [70.26450819702728]
触覚回復は自動音声認識(ASR)における重要な課題である
テキストの句読点とASRテキストとの相違は、ASRテキストの句読点復元システムのトレーニングにおいて、テキストのユーザビリティを制限している。
本稿では,このギャップを埋めるために,話題内テキストを活用した強化学習手法と大規模事前学習型生成言語モデルの最近の進歩を提案する。
論文 参考訳(メタデータ) (2023-07-24T17:22:04Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - Exploring Fluent Query Reformulations with Text-to-Text Transformers and
Reinforcement Learning [11.205077315939644]
テキストからテキストへの変換器を用いた改質器の訓練により、クエリの改質を生成する方法を検討する。
ポリシーベースの強化学習アルゴリズムを適用し、報酬学習をさらに促進します。
当社のフレームワークはフレキシブルで,異なる下流環境から報奨信号の発信を可能にする。
論文 参考訳(メタデータ) (2020-12-18T03:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。