論文の概要: LexSemBridge: Fine-Grained Dense Representation Enhancement through Token-Aware Embedding Augmentation
- arxiv url: http://arxiv.org/abs/2508.17858v1
- Date: Mon, 25 Aug 2025 10:07:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.722917
- Title: LexSemBridge: Fine-Grained Dense Representation Enhancement through Token-Aware Embedding Augmentation
- Title(参考訳): LexSemBridge:Token-Aware Embedding Augmentationによる細粒度線量表現の強化
- Authors: Shaoxiong Zhan, Hai Lin, Hongming Tan, Xiaodong Cai, Hai-Tao Zheng, Xin Su, Zifei Shan, Ruitong Liu, Hong-Gee Kim,
- Abstract要約: 本稿では,細粒度で入力対応のベクトル変調により高密度なクエリ表現を向上する統合フレームワークを提案する。
LexSemBridgeはバックボーンエンコーダを変更することなくプラグインとして動作する。
- 参考スコア(独自算出の注目度): 16.162310785810792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As queries in retrieval-augmented generation (RAG) pipelines powered by large language models (LLMs) become increasingly complex and diverse, dense retrieval models have demonstrated strong performance in semantic matching. Nevertheless, they often struggle with fine-grained retrieval tasks, where precise keyword alignment and span-level localization are required, even in cases with high lexical overlap that would intuitively suggest easier retrieval. To systematically evaluate this limitation, we introduce two targeted tasks, keyword retrieval and part-of-passage retrieval, designed to simulate practical fine-grained scenarios. Motivated by these observations, we propose LexSemBridge, a unified framework that enhances dense query representations through fine-grained, input-aware vector modulation. LexSemBridge constructs latent enhancement vectors from input tokens using three paradigms: Statistical (SLR), Learned (LLR), and Contextual (CLR), and integrates them with dense embeddings via element-wise interaction. Theoretically, we show that this modulation preserves the semantic direction while selectively amplifying discriminative dimensions. LexSemBridge operates as a plug-in without modifying the backbone encoder and naturally extends to both text and vision modalities. Extensive experiments across semantic and fine-grained retrieval tasks validate the effectiveness and generality of our approach. All code and models are publicly available at https://github.com/Jasaxion/LexSemBridge/
- Abstract(参考訳): 大規模言語モデル(LLM)をベースとした検索拡張生成(RAG)パイプラインのクエリが複雑化し,多種多様になるにつれて,セマンティックマッチングにおいて高い性能を示すようになった。
それにもかかわらず、彼らはしばしば、正確なキーワードアライメントとスパンレベルのローカライゼーションを必要とする、きめ細かな検索タスクに苦労する。
この制限をシステマティックに評価するために,本研究では,現実的なきめ細かいシナリオをシミュレートするために設計された,キーワード検索とパート・オブ・パッセージ検索という2つのタスクを導入する。
これらの観測によって動機付けられたLexSemBridgeは、細粒度で入力対応のベクトル変調により高密度なクエリ表現を強化する統一的なフレームワークである。
LexSemBridgeは、統計的(SLR)、学習的(LLR)、コンテキスト的(CLR)の3つのパラダイムを用いて、入力トークンから潜在エンハンスメントベクトルを構築し、それらを要素的相互作用を通じて密着型埋め込みと統合する。
理論的には、この変調は、識別的次元を選択的に増幅しながら意味的な方向を保っていることを示す。
LexSemBridgeはバックボーンエンコーダを変更することなくプラグインとして動作する。
セマンティックおよびきめ細かな検索タスクにわたる広範囲な実験により、我々のアプローチの有効性と一般化が検証された。
すべてのコードとモデルはhttps://github.com/Jasaxion/LexSemBridge/で公開されている。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Resource-Friendly Dynamic Enhancement Chain for Multi-Hop Question Answering [21.077964610022313]
この研究はDEC(Dynamic Enhancement Chain)と呼ばれる新しいフレームワークを提案する。
DECはまず複雑な質問を論理的に一貫性のあるサブクエストに分解し、幻覚のない推論連鎖を形成する。
その後、コンテキスト対応の書き換えによってこれらのサブクエストを反復的に洗練し、効率的なクエリの定式化を生成する。
論文 参考訳(メタデータ) (2025-06-21T11:55:27Z) - Enhancing Lexicon-Based Text Embeddings with Large Language Models [19.91595650613768]
近年の大規模言語モデル (LLM) は汎用テキスト埋め込みタスクにおいて例外的な性能を示した。
LENSはトークン埋め込みクラスタリングを通じて語彙空間を集約し、双方向の注意と様々なプール戦略を研究する。
LENS は MTEB (Massive Text Embedding Benchmark) 上での高密度埋め込みよりも優れている
論文 参考訳(メタデータ) (2025-01-16T18:57:20Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Making Large Language Models A Better Foundation For Dense Retrieval [19.38740248464456]
デンス検索では,クエリとドキュメント間の意味的関係を表現するために,識別テキストの埋め込みを学習する必要がある。
意味理解におけるLLMの強い能力を考えると、大きな言語モデル(LLM)の使用の恩恵を受けるかもしれない。
本稿では,LLaRA (LLM adapted for dense RetrievAl) を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:10:35Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。