論文の概要: CLAP: Coreference-Linked Augmentation for Passage Retrieval
- arxiv url: http://arxiv.org/abs/2508.06941v1
- Date: Sat, 09 Aug 2025 11:26:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.620137
- Title: CLAP: Coreference-Linked Augmentation for Passage Retrieval
- Title(参考訳): CLAP: パス検索のためのCoreference-Linked Augmentation
- Authors: Huanwei Xu, Lin Xu, Liang Yuan,
- Abstract要約: 軽量LLM拡張フレームワークであるCLAP(Coreference-Linked Augmentation for Passage Retrieval)を提案する。
CLAPは、パスをコヒーレントなチャンクに分割し、コア参照チェーンを分解し、密度の高いレトリバー表現と整合した局所的な擬似クエリを生成する。
グローバルなトピック信号と微粒なサブトピック信号の単純な融合は、ドメイン間のロバストなパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 7.172770741038763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM)-based passage expansion has shown promise for enhancing first-stage retrieval, but often underperforms with dense retrievers due to semantic drift and misalignment with their pretrained semantic space. Beyond this, only a portion of a passage is typically relevant to a query, while the rest introduces noise--an issue compounded by chunking techniques that break coreference continuity. We propose Coreference-Linked Augmentation for Passage Retrieval (CLAP), a lightweight LLM-based expansion framework that segments passages into coherent chunks, resolves coreference chains, and generates localized pseudo-queries aligned with dense retriever representations. A simple fusion of global topical signals and fine-grained subtopic signals achieves robust performance across domains. CLAP yields consistent gains even as retriever strength increases, enabling dense retrievers to match or surpass second-stage rankers such as BM25 + MonoT5-3B, with up to 20.68% absolute nDCG@10 improvement. These improvements are especially notable in out-of-domain settings, where conventional LLM-based expansion methods relying on domain knowledge often falter. CLAP instead adopts a logic-centric pipeline that enables robust, domain-agnostic generalization.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく航法拡張は、第一段階の検索を向上する可能性を示しているが、意味的ドリフトと事前訓練された意味空間との相違により、しばしば密度の高い検索器では性能が低下する。
さらには、パスの一部のみがクエリに関連するのが一般的だが、残りの部分はノイズを導入している。
本稿では,CLAP(Coreference-Linked Augmentation for Passage Retrieval)を提案する。これは軽量なLLMベースの拡張フレームワークで,パスをコヒーレントなチャンクに分割し,コア参照チェーンを解消し,高密度なレトリバー表現に整合した局所的な擬似クエリを生成する。
グローバルなトピック信号と微粒なサブトピック信号の単純な融合は、ドメイン間のロバストなパフォーマンスを実現する。
CLAPはレトリバーの強度が上昇しても一貫した利得を得られ、BM25+MonoT5-3Bのような第2段のローターにマッチまたは上回り、最大20.68%の絶対的なnDCG@10の改善をもたらす。
これらの改善はドメイン外の設定で特に顕著であり、従来のLLMベースの拡張メソッドはドメイン知識に依存しているため、しばしば混乱する。
CLAPは、堅牢でドメインに依存しない一般化を可能にするロジック中心のパイプラインを採用する。
関連論文リスト
- ExpandR: Teaching Dense Retrievers Beyond Queries with LLM Guidance [21.777817032607405]
大規模言語モデル(LLM)は、クエリ拡張による高密度検索の強化に有意な可能性を証明している。
本研究では,LLM拡張高密度検索フレームワークExpandRを提案する。
複数のベンチマーク実験の結果、ExpandRは強いベースラインを一貫して上回ることがわかった。
論文 参考訳(メタデータ) (2025-02-24T11:15:41Z) - Emulating Retrieval Augmented Generation via Prompt Engineering for Enhanced Long Context Comprehension in LLMs [23.960451986662996]
本稿では,レトリーバル拡張生成(RAG)を特殊エンジニアリングとチェーンオブ思考推論によりエミュレートする手法を提案する。
我々は,BABILong から選択したタスクに対するアプローチを評価し,大量の散逸テキストを用いた標準 bAbI QA 問題をインターリーブする。
論文 参考訳(メタデータ) (2025-02-18T02:49:40Z) - Context-Aware Hierarchical Merging for Long Document Summarization [56.96619074316232]
本論文では,階層的なマージをソース文書からコンテキストと統合する手法を提案する。
法的および物語的領域を表すデータセットの実験結果は、文脈的拡張がゼロショットと階層的な融合ベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-03T01:14:31Z) - LLM-RecG: A Semantic Bias-Aware Framework for Zero-Shot Sequential Recommendation [5.512301280728178]
ゼロショットクロスドメインシーケンシャルレコメンデーション(ZCDSR)は、追加のトレーニングや微調整なしで、目に見えないドメインでの予測を可能にする。
大規模言語モデル(LLM)の最近の進歩は、ドメイン間の知識伝達を容易にすることで、ZCDSRを大幅に強化している。
本稿では,アイテムレベルとシーケンシャルレベルの両方において,ドメイン間のアライメントを改善するセマンティックバイアス対応フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-31T15:43:21Z) - LLM-BIP: Structured Pruning for Large Language Models with Block-Wise Forward Importance Propagation [0.0]
ブロック単位の重要スコアの伝搬に基づくより正確なプルーニング指標を提案する。
我々は,LLaMA-7B,Vicuna-7B,LLaMA-13Bを用いて,共通ゼロショットタスクを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-12-09T11:57:16Z) - Localization and Expansion: A Decoupled Framework for Point Cloud Few-shot Semantic Segmentation [39.7657197805346]
Point Cloud few-shot semantic segmentation (PC-FSS)は、特定のクエリポイントクラウドに、いくつかのアノテーション付きのサポートサンプルで、新しいカテゴリのターゲットをセグメントすることを目的としている。
本稿では,DLE(Decoupled Localization and Expansion)の精神における,シンプルで効果的な枠組みを提案する。
構造的ローカライゼーションモジュール(SLM)と自己拡張モジュール(SEM)を含むDLEは、いくつかのメリットを享受している。
論文 参考訳(メタデータ) (2024-08-25T07:34:32Z) - BERM: Training the Balanced and Extractable Representation for Matching
to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。
センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2023-05-18T15:43:09Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。