論文の概要: LexSemBridge: Fine-Grained Dense Representation Enhancement through Token-Aware Embedding Augmentation
- arxiv url: http://arxiv.org/abs/2508.17858v2
- Date: Sat, 27 Sep 2025 13:22:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.478317
- Title: LexSemBridge: Fine-Grained Dense Representation Enhancement through Token-Aware Embedding Augmentation
- Title(参考訳): LexSemBridge:Token-Aware Embedding Augmentationによる細粒度線量表現の強化
- Authors: Shaoxiong Zhan, Hai Lin, Hongming Tan, Xiaodong Cai, Hai-Tao Zheng, Xin Su, Zifei Shan, Ruitong Liu, Hong-Gee Kim,
- Abstract要約: 本稿では,細粒度で入力対応のベクトル変調により高密度なクエリ表現を向上する統合フレームワークを提案する。
LexSemBridgeはバックボーンエンコーダを変更することなくプラグインとして動作する。
- 参考スコア(独自算出の注目度): 16.162310785810792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As queries in retrieval-augmented generation (RAG) pipelines powered by large language models (LLMs) become increasingly complex and diverse, dense retrieval models have demonstrated strong performance in semantic matching. Nevertheless, they often struggle with fine-grained retrieval tasks, where precise keyword alignment and span-level localization are required, even in cases with high lexical overlap that would intuitively suggest easier retrieval. To systematically evaluate this limitation, we introduce two targeted tasks, keyword retrieval and part-of-passage retrieval, designed to simulate practical fine-grained scenarios. Motivated by these observations, we propose LexSemBridge, a unified framework that enhances dense query representations through fine-grained, input-aware vector modulation. LexSemBridge constructs latent enhancement vectors from input tokens using three paradigms: Statistical (SLR), Learned (LLR), and Contextual (CLR), and integrates them with dense embeddings via element-wise interaction. Theoretically, we show that this modulation preserves the semantic direction while selectively amplifying discriminative dimensions. LexSemBridge operates as a plug-in without modifying the backbone encoder and naturally extends to both text and vision modalities. Extensive experiments across semantic and fine-grained retrieval tasks validate the effectiveness and generality of our approach. All code and models are publicly available at https://github.com/Jasaxion/LexSemBridge/
- Abstract(参考訳): 大規模言語モデル(LLM)をベースとした検索拡張生成(RAG)パイプラインのクエリが複雑化し,多種多様になるにつれて,セマンティックマッチングにおいて高い性能を示すようになった。
それにもかかわらず、彼らはしばしば、正確なキーワードアライメントとスパンレベルのローカライゼーションを必要とする、きめ細かな検索タスクに苦労する。
この制限をシステマティックに評価するために,本研究では,現実的なきめ細かいシナリオをシミュレートするために設計された,キーワード検索とパート・オブ・パッセージ検索という2つのタスクを導入する。
これらの観測によって動機付けられたLexSemBridgeは、細粒度で入力対応のベクトル変調により高密度なクエリ表現を強化する統一的なフレームワークである。
LexSemBridgeは、統計的(SLR)、学習的(LLR)、コンテキスト的(CLR)の3つのパラダイムを用いて、入力トークンから潜在エンハンスメントベクトルを構築し、それらを要素的相互作用を通じて密着型埋め込みと統合する。
理論的には、この変調は、識別的次元を選択的に増幅しながら意味的な方向を保っていることを示す。
LexSemBridgeはバックボーンエンコーダを変更することなくプラグインとして動作する。
セマンティックおよびきめ細かな検索タスクにわたる広範囲な実験により、我々のアプローチの有効性と一般化が検証された。
すべてのコードとモデルはhttps://github.com/Jasaxion/LexSemBridge/で公開されている。
関連論文リスト
- GLASS: A Generative Recommender for Long-sequence Modeling via SID-Tier and Semantic Search [51.44490997013772]
GLASSは、SID-TierとSemantic Searchを通じて、長期的なユーザ関心を生成プロセスに統合する新しいフレームワークである。
GLASSは2つの大規模実世界のデータセットの実験において最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-05T13:48:33Z) - GrepRAG: An Empirical Study and Optimization of Grep-Like Retrieval for Code Completion [32.17127975368661]
リポジトリレベルのコード補完は、大きな言語モデルでは依然として困難である。
本稿では,軽量でインデックスなし,意図認識型語彙検索について検討する。
本稿では,LLMが関連するコンテキストを自動生成するベースラインフレームワークであるNaive GrepRAGを紹介する。
論文 参考訳(メタデータ) (2026-01-30T18:22:15Z) - LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension [55.29309306566238]
現在のLarge Language Models (LLM) は、長文文書を解釈する際に圧倒的な情報量に直面している。
この課題は、バニラLSMを自律的な読み出しエージェントに高めることができる凝集性メモリモジュールの必須性を高める。
我々はジャン・ピアジェの構成主義理論(Constructivist Theory)からインスピレーションを得て、エージェントメモリの3つの特性(構造化スキーマ、フレキシブルな同化、動的調節)を表現した。
論文 参考訳(メタデータ) (2025-10-07T02:16:30Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Resource-Friendly Dynamic Enhancement Chain for Multi-Hop Question Answering [21.077964610022313]
この研究はDEC(Dynamic Enhancement Chain)と呼ばれる新しいフレームワークを提案する。
DECはまず複雑な質問を論理的に一貫性のあるサブクエストに分解し、幻覚のない推論連鎖を形成する。
その後、コンテキスト対応の書き換えによってこれらのサブクエストを反復的に洗練し、効率的なクエリの定式化を生成する。
論文 参考訳(メタデータ) (2025-06-21T11:55:27Z) - Enhancing Lexicon-Based Text Embeddings with Large Language Models [19.91595650613768]
近年の大規模言語モデル (LLM) は汎用テキスト埋め込みタスクにおいて例外的な性能を示した。
LENSはトークン埋め込みクラスタリングを通じて語彙空間を集約し、双方向の注意と様々なプール戦略を研究する。
LENS は MTEB (Massive Text Embedding Benchmark) 上での高密度埋め込みよりも優れている
論文 参考訳(メタデータ) (2025-01-16T18:57:20Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Making Large Language Models A Better Foundation For Dense Retrieval [19.38740248464456]
デンス検索では,クエリとドキュメント間の意味的関係を表現するために,識別テキストの埋め込みを学習する必要がある。
意味理解におけるLLMの強い能力を考えると、大きな言語モデル(LLM)の使用の恩恵を受けるかもしれない。
本稿では,LLaRA (LLM adapted for dense RetrievAl) を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:10:35Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。