論文の概要: HyReC: Exploring Hybrid-based Retriever for Chinese
- arxiv url: http://arxiv.org/abs/2506.21913v1
- Date: Fri, 27 Jun 2025 04:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.092573
- Title: HyReC: Exploring Hybrid-based Retriever for Chinese
- Title(参考訳): HyReC:中国向けハイブリッドリトリバー
- Authors: Zunran Wang, Zheng Shenpeng, Wang Shenglan, Minghui Zhao, Zhonghua Li,
- Abstract要約: HyReCは、中国語のハイブリッド検索に特化したエンドツーエンド最適化手法である。
項の意味的結合を表現モデルに統合することで、性能を向上させる。
これはGlobal-Local-Aware (GLAE)を特徴とし、レキシコンベースと高密度検索の一貫性のあるセマンティック共有を促進する。
- 参考スコア(独自算出の注目度): 4.044938393768822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hybrid-based retrieval methods, which unify dense-vector and lexicon-based retrieval, have garnered considerable attention in the industry due to performance enhancement. However, despite their promising results, the application of these hybrid paradigms in Chinese retrieval contexts has remained largely underexplored. In this paper, we introduce HyReC, an innovative end-to-end optimization method tailored specifically for hybrid-based retrieval in Chinese. HyReC enhances performance by integrating the semantic union of terms into the representation model. Additionally, it features the Global-Local-Aware Encoder (GLAE) to promote consistent semantic sharing between lexicon-based and dense retrieval while minimizing the interference between them. To further refine alignment, we incorporate a Normalization Module (NM) that fosters mutual benefits between the retrieval approaches. Finally, we evaluate HyReC on the C-MTEB retrieval benchmark to demonstrate its effectiveness.
- Abstract(参考訳): 高密度ベクターとレキシコンベースの検索を一体化するハイブリッドベースの検索手法は、性能向上により、業界でかなりの注目を集めている。
しかし、その有望な結果にもかかわらず、中国の検索文脈におけるこれらのハイブリッドパラダイムの応用は、いまだに過小評価されている。
本稿では,中国語のハイブリッド検索に特化した,革新的なエンドツーエンド最適化手法であるHyReCを紹介する。
HyReCは表現モデルに項の意味的結合を統合することで性能を向上させる。
さらに、Global-Local-Aware Encoder (GLAE) を特徴とし、レキシコンベースと高密度検索間の一貫したセマンティック共有を促進しながら、それらの干渉を最小限に抑える。
さらにアライメントを改良するために,検索手法間の相互利益を促進する正規化モジュール(NM)を組み込んだ。
最後に,HyReCをC-MTEB検索ベンチマークで評価し,その有効性を示す。
関連論文リスト
- Killing Two Birds with One Stone: Unifying Retrieval and Ranking with a Single Generative Recommendation Model [71.45491434257106]
Unified Generative Recommendation Framework (UniGRF)は、検索とランキングを単一の生成モデルに統合する新しいアプローチである。
ステージ間コラボレーションを強化するため、UniGRFはランキング駆動エンハンサーモジュールを導入した。
UniGRFは、ベンチマークデータセット上で既存のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-04-23T06:43:54Z) - Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。
既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。
本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:27:37Z) - SePer: Measure Retrieval Utility Through The Lens Of Semantic Perplexity Reduction [20.6787276745193]
本稿では、RAGフレームワーク内の情報ゲインのレンズを通して、検索品質を測定する自動評価手法を提案する。
検索の利便性を,検索後の意味的難易度を低減する程度で定量化する。
論文 参考訳(メタデータ) (2025-03-03T12:37:34Z) - EAGER-LLM: Enhancing Large Language Models as Recommenders through Exogenous Behavior-Semantic Integration [60.47645731801866]
大規模言語モデル(LLM)は、高度なレコメンデータシステムの基本バックボーンとしてますます活用されている。
LLMは事前訓練された言語意味論であるが、llm-Backboneを通してゼロから協調意味論を学ぶ。
内因性行動情報と内因性行動情報とを非侵襲的に統合するデコーダのみの生成推薦フレームワークであるEAGER-LLMを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:01:57Z) - ReFusion: Improving Natural Language Understanding with Computation-Efficient Retrieval Representation Fusion [22.164620956284466]
言語モデルに外部データベースからの知識を取り入れた検索ベース拡張(RA)は,様々な知識集約(KI)タスクに大きく成功している。
既存の作業は、モデル性能を改善するために、検索と入力を結合することに焦点を当てている。
本稿では,二段階最適化を用いた計算効率の高い検索表現Fusionである textbfReFusion の新たなパラダイムを提案する。
論文 参考訳(メタデータ) (2024-01-04T07:39:26Z) - Learning to Rank in Generative Retrieval [62.91492903161522]
生成的検索は、検索対象として関連する通路の識別子文字列を生成することを目的としている。
我々はLTRGRと呼ばれる生成検索のための学習 torankフレームワークを提案する。
このフレームワークは、現在の生成的検索システムを強化するために、追加の学習からランクまでのトレーニングフェーズのみを必要とする。
論文 参考訳(メタデータ) (2023-06-27T05:48:14Z) - Hybrid and Collaborative Passage Reranking [144.83902343298112]
本稿では,HybRank(HybRank)手法を提案する。
スパースとシークエンスレトリバーの語彙的および意味的特性を組み込んで再ランク付けする。
HybRankは、既製のレトリバー機能をベースに構築されており、任意のパスリストを拡張できるプラグインリランカである。
論文 参考訳(メタデータ) (2023-05-16T09:38:52Z) - Zero-Shot Retrieval with Search Agents and Hybrid Environments [8.017306481455778]
現在の言語モデルは、伝統的な用語ベースの検索と組み合わせて、シンボリックなクエリ再構成ポリシーを学習することができるが、より優れたニューラル検索には及ばない。
本稿では,2つのエンコーダを経由した1回目検索の後に,個別のクエリ精算操作を受け入れるハイブリッド環境に,従来の学習環境を拡張した。
BEIRタスクの実験では、動作クローンによって訓練されたサーチエージェントが、二重エンコーダレシーバーとクロスエンコーダリランカの組み合わせに基づいて、基礎となるサーチシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-09-30T13:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。