論文の概要: Multilingual Generative Retrieval via Cross-lingual Semantic Compression
- arxiv url: http://arxiv.org/abs/2510.07812v1
- Date: Thu, 09 Oct 2025 05:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.890761
- Title: Multilingual Generative Retrieval via Cross-lingual Semantic Compression
- Title(参考訳): 言語間セマンティック圧縮による多言語生成検索
- Authors: Yuxin Huang, Simeng Wu, Ran Song, Yan Xiang, Yantuan Xian, Shengxiang Gao, Zhengtao Yu,
- Abstract要約: 言語間セマンティック圧縮(MGR-CSC)を用いた多言語生成検索を提案する。
MGR-CSCは意味論的に等価な多言語キーワードを共有原子に統一し、意味論を整合させ、識別子空間を圧縮する。
MGR-CSCはmMarco100kで6.83%、mNQ320kで4.77%向上した。
- 参考スコア(独自算出の注目度): 26.871916013557968
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative Information Retrieval is an emerging retrieval paradigm that exhibits remarkable performance in monolingual scenarios.However, applying these methods to multilingual retrieval still encounters two primary challenges, cross-lingual identifier misalignment and identifier inflation. To address these limitations, we propose Multilingual Generative Retrieval via Cross-lingual Semantic Compression (MGR-CSC), a novel framework that unifies semantically equivalent multilingual keywords into shared atoms to align semantics and compresses the identifier space, and we propose a dynamic multi-step constrained decoding strategy during retrieval. MGR-CSC improves cross-lingual alignment by assigning consistent identifiers and enhances decoding efficiency by reducing redundancy. Experiments demonstrate that MGR-CSC achieves outstanding retrieval accuracy, improving by 6.83% on mMarco100k and 4.77% on mNQ320k, while reducing document identifiers length by 74.51% and 78.2%, respectively.
- Abstract(参考訳): 生成的情報検索はモノリンガルなシナリオにおいて顕著な性能を示す新たな検索パラダイムである。しかしながら,これらの手法を多言語検索に適用することは,クロスリンガルな識別子のミスアライメントと識別子のインフレーションという2つの主要な課題に直面している。
これらの制約に対処するために,意味論的に等価な多言語キーワードを共有原子に統一し,意味論を整合させ,識別子空間を圧縮するフレームワークであるMGR-CSC(Multilingual Semantic Compression)を提案する。
MGR-CSCは、一貫した識別子を割り当てることで言語間アライメントを改善し、冗長性を低減して復号効率を向上させる。
MGR-CSCはmMarco100kで6.83%、mNQ320kで4.77%向上し、文書識別子の長さは74.51%、78.2%短縮された。
関連論文リスト
- MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query [55.486895951981566]
MERITは、インターリーブされたマルチ条件セマンティック検索のための最初の多言語データセットである。
本稿では,多条件セマンティック検索のための最初の多言語データセットであるMERITを紹介する。
論文 参考訳(メタデータ) (2025-06-03T17:59:14Z) - Enhancing LLM Language Adaption through Cross-lingual In-Context Pre-training [57.62126373849383]
CrossIC-PT(クロスランガル・イン・コンテクスト・プレトレーニング)は、クロスランガル・トランスファーを強化するシンプルでスケーラブルなアプローチである。
セマンティック関連のバイリンガルウィキペディア文書を1つのコンテキストウィンドウにインターリーブすることで、CrossIC-PTサンプルを構築する。
実験の結果、CrossIC-PTは6つの対象言語にわたる3つのモデルの多言語性能を改善することが示された。
論文 参考訳(メタデータ) (2025-04-29T07:24:25Z) - Cross-lingual Back-Parsing: Utterance Synthesis from Meaning Representation for Zero-Resource Semantic Parsing [6.074150063191985]
Cross-Lingual Back-Parsing(クロスリンガル・バック・パーシング)は、セマンティック・パーシングのためのクロスリンガル・トランスファーを強化するために設計された新しいデータ拡張手法である。
提案手法は,ゼロリソース設定に挑戦する上で,言語間データ拡張を効果的に行う。
論文 参考訳(メタデータ) (2024-10-01T08:53:38Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense Retrieval [80.43859162884353]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - A Conditional Generative Matching Model for Multi-lingual Reply
Suggestion [23.750966630981623]
複数の言語に対応可能な多言語自動応答提案(RS)モデルの問題点について検討する。
本稿では,多言語RSから生じる課題に対処するために,変分オートエンコーダフレームワーク内で最適化された条件付き生成マッチングモデル(CGM)を提案する。
論文 参考訳(メタデータ) (2021-09-15T01:54:41Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。