論文の概要: SparseCL: Sparse Contrastive Learning for Contradiction Retrieval
- arxiv url: http://arxiv.org/abs/2406.10746v1
- Date: Sat, 15 Jun 2024 21:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 21:01:13.376710
- Title: SparseCL: Sparse Contrastive Learning for Contradiction Retrieval
- Title(参考訳): SparseCL: コントラクション検索のためのスパースコントラスト学習
- Authors: Haike Xu, Zongyu Lin, Yizhou Sun, Kai-Wei Chang, Piotr Indyk,
- Abstract要約: コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
- 参考スコア(独自算出の注目度): 87.02936971689817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contradiction retrieval refers to identifying and extracting documents that explicitly disagree with or refute the content of a query, which is important to many downstream applications like fact checking and data cleaning. To retrieve contradiction argument to the query from large document corpora, existing methods such as similarity search and crossencoder models exhibit significant limitations. The former struggles to capture the essence of contradiction due to its inherent nature of favoring similarity, while the latter suffers from computational inefficiency, especially when the size of corpora is large. To address these challenges, we introduce a novel approach: SparseCL that leverages specially trained sentence embeddings designed to preserve subtle, contradictory nuances between sentences. Our method utilizes a combined metric of cosine similarity and a sparsity function to efficiently identify and retrieve documents that contradict a given query. This approach dramatically enhances the speed of contradiction detection by reducing the need for exhaustive document comparisons to simple vector calculations. We validate our model using the Arguana dataset, a benchmark dataset specifically geared towards contradiction retrieval, as well as synthetic contradictions generated from the MSMARCO and HotpotQA datasets using GPT-4. Our experiments demonstrate the efficacy of our approach not only in contradiction retrieval with more than 30% accuracy improvements on MSMARCO and HotpotQA across different model architectures but also in applications such as cleaning corrupted corpora to restore high-quality QA retrieval. This paper outlines a promising direction for improving the accuracy and efficiency of contradiction retrieval in large-scale text corpora.
- Abstract(参考訳): コントラディション検索(Contradiction Search)とは、事実チェックやデータのクリーニングなど、多くの下流アプリケーションにとって重要なクエリの内容に明示的に異を唱える文書を識別し、抽出することである。
大規模文書コーパスからクエリに対する矛盾する引数を抽出するために、類似性探索やクロスエンコーダモデルのような既存の手法では、大きな制限がある。
前者は類似性を好む本質的な性質から矛盾の本質を捉えるのに苦労するが、後者は計算の非効率性に悩まされ、特にコーパスのサイズが大きければなおさらである。
文間の微妙で矛盾のあるニュアンスを保存するために特別に訓練された文埋め込みを活用する。
提案手法は,コサイン類似度とスパーシティ関数を組み合わせたメトリクスを用いて,与えられたクエリに矛盾する文書を効率よく識別し,検索する。
このアプローチは、単純なベクトル計算と比較して、徹底的な文書比較の必要性を減らし、矛盾検出の速度を劇的に向上させる。
GPT-4 を用いて MSMARCO と HotpotQA のデータセットから生成した合成矛盾に加えて, 矛盾検索に特化したベンチマークデータセットである Arguana を用いてモデルを検証した。
本実験は,MSMARCOとHotpotQAの精度を30%以上向上した矛盾検索だけでなく,劣化したコーパスをクリーニングして高品質なQA検索を復元するアプリケーションにも有効であることを示した。
本稿では,大規模テキストコーパスにおける矛盾検索の精度と効率を向上させるための有望な方向性を概説する。
関連論文リスト
- Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Benchmarking Video Frame Interpolation [11.918489436283748]
提案手法は,提案するWebサイトを利用して,一貫したエラーメトリクスを確立するベンチマークである。
また、合成データを利用して線形性の仮定に忠実なテストセットを提案し、コヒーレントな方法で計算効率を評価する。
論文 参考訳(メタデータ) (2024-03-25T19:13:12Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - LoL: A Comparative Regularization Loss over Query Reformulation Losses
for Pseudo-Relevance Feedback [70.44530794897861]
Pseudo-Relevance feedback (PRF) は、検索精度を向上させるための効果的なクエリ修正手法であることが証明されている。
既存のPRF手法は、同じクエリから派生した修正クエリを個別に扱うが、異なる数のフィードバックドキュメントを使用する。
そこで我々はLos-over-Loss(LoL)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-25T10:42:50Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。