Fugu-MT 論文翻訳(概要): Augmenting Document Representations for Dense Retrieval with Interpolation and Perturbation

論文の概要: Augmenting Document Representations for Dense Retrieval with Interpolation and Perturbation

arxiv url: http://arxiv.org/abs/2203.07735v1
Date: Tue, 15 Mar 2022 09:07:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-16 15:08:27.537394
Title: Augmenting Document Representations for Dense Retrieval with Interpolation and Perturbation
Title（参考訳）: 補間と摂動を伴う高密度検索のための文書表現の強化
Authors: Soyeong Jeong, Jinheon Baek, Sukmin Cho, Sung Ju Hwang, Jong C. Park
Abstract要約: ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。 2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
参考スコア（独自算出の注目度）: 49.940525611640346
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dense retrieval models, which aim at retrieving the most relevant document for an input query on a dense representation space, have gained considerable attention for their remarkable success. Yet, dense models require a vast amount of labeled training data for notable performance, whereas it is often challenging to acquire query-document pairs annotated by humans. To tackle this problem, we propose a simple but effective Document Augmentation for dense Retrieval (DAR) framework, which augments the representations of documents with their interpolation and perturbation. We validate the performance of DAR on retrieval tasks with two benchmark datasets, showing that the proposed DAR significantly outperforms relevant baselines on the dense retrieval of both the labeled and unlabeled documents.
Abstract（参考訳）: 濃密な表現空間における入力クエリの最も関連性の高い文書の検索を目的とした高密度検索モデルは,その顕著な成功に対して大きな注目を集めている。しかし、高密度モデルは顕著なパフォーマンスのために大量のラベル付きトレーニングデータを必要とするが、人間によって注釈付けされたクエリドキュメントペアを取得することはしばしば困難である。そこで本研究では,その補間と摂動によって文書の表現を増強する,高密度検索(dar)フレームワークのための簡易かつ効果的な文書拡張手法を提案する。 2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、DARが関連するベースラインを大幅に上回ることを示す。

関連論文リスト

Attention Grounded Enhancement for Visual Document Retrieval [12.602988404893305]
視覚文書検索のためのtextbfAttention-textbfGrounded textbfREtriever textbfEnhancement (AGREE) フレームワークを提案する。 AGREEは、大規模言語モデルからの横断的な注意をプロキシローカル監視として組み合わせ、関連する文書領域の識別をガイドする。挑戦的なViDoRe V2ベンチマークの実験では、AGREEはグローバルなスーパービジョンのみのベースラインをはるかに上回っている。
論文参考訳（メタデータ） (2025-11-17T14:28:41Z)
RegionRAG: Region-level Retrieval-Augumented Generation for Visually-Rich Documents [40.107303323097646]
Modelnameは、検索パラダイムをドキュメントレベルからリージョンレベルにシフトする、新しいフレームワークです。 6つのベンチマークの実験は、RereaRAGが最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-10-31T08:00:32Z)
Query Decomposition for RAG: Balancing Exploration-Exploitation [83.79639293409802]
RAGシステムは複雑なユーザ要求に対処し、それらをサブクエリに分解し、それぞれに関連する可能性のあるドキュメントを取得し、それを集約して回答を生成する。クエリの分解とドキュメントの検索をエクスプロレーション探索設定で定式化し、一度に1つのドキュメントを検索すると、与えられたサブクエリの有用性についての信念が構築される。我々の主な発見は、ランク情報と人的判断を用いた文書関連性の推定により、文書レベルの精度が35%向上し、α-nDCGが15%向上し、長文生成の下流タスクの性能が向上するということである。
論文参考訳（メタデータ） (2025-10-21T13:37:11Z)
Improving Document Retrieval Coherence for Semantically Equivalent Queries [63.97649988164166]
同じ文書を検索する際のモデルのコヒーレンスを改善する訓練DRにおける多段階ランク付け損失のバリエーションを提案する。この損失は、多様だがセマンティックな等価なクエリのために検索されたトップkランクのドキュメント間の不一致を罰する。
論文参考訳（メタデータ） (2025-08-11T13:34:59Z)
Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER) DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文参考訳（メタデータ） (2025-02-18T15:56:34Z)
Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。 GR$2$は2つの重要なコンポーネントに焦点を当てている。マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文参考訳（メタデータ） (2024-09-27T02:55:53Z)
Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。 LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文参考訳（メタデータ） (2023-07-31T15:44:26Z)
Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。 query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文参考訳（メタデータ） (2023-03-14T07:27:30Z)
CAPSTONE: Curriculum Sampling for Dense Retrieval with Document Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文参考訳（メタデータ） (2022-12-18T15:57:46Z)
Document-Level Relation Extraction with Sentences Importance Estimation and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。 2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文参考訳（メタデータ） (2022-04-27T03:20:07Z)
GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。 FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文参考訳（メタデータ） (2022-04-12T03:49:35Z)
CODER: An efficient framework for improving retrieval through COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。ベース密度検索法により抽出された事前計算された文書表現を利用する。実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文参考訳（メタデータ） (2021-12-16T10:25:26Z)
Improving Query Representations for Dense Retrieval with Pseudo Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。 ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。 PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文参考訳（メタデータ） (2021-08-30T18:10:26Z)
Improving Document Representations by Generating Pseudo Query Embeddings for Dense Retrieval [11.465218502487959]
反復的なクラスタリングプロセスにより,各文書のクエリを模倣する手法を設計する。また、2段階のスコア計算手順でマッチング関数を最適化する。いくつかの人気ランキングとQAデータセットに関する実験結果から、私たちのモデルが最先端の結果を達成できることが示された。
論文参考訳（メタデータ） (2021-05-08T05:28:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。