論文の概要: CLIRudit: Cross-Lingual Information Retrieval of Scientific Documents
- arxiv url: http://arxiv.org/abs/2504.16264v1
- Date: Tue, 22 Apr 2025 20:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.926313
- Title: CLIRudit: Cross-Lingual Information Retrieval of Scientific Documents
- Title(参考訳): CLIRudit: 学術文書の言語間情報検索
- Authors: Francisco Valentini, Diego Kozlowski, Vincent Larivière,
- Abstract要約: 本稿では,言語間の学術的探索を評価するための新しいデータセットであるCLIRuditを提案する。
データセットは、カナダのパブリッシングプラットフォームである'Erudit'のバイリンガルな記事メタデータを使って構築されている。
- 参考スコア(独自算出の注目度): 2.0277446818410994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual information retrieval (CLIR) consists in finding relevant documents in a language that differs from the language of the queries. This paper presents CLIRudit, a new dataset created to evaluate cross-lingual academic search, focusing on English queries and French documents. The dataset is built using bilingual article metadata from \'Erudit, a Canadian publishing platform, and is designed to represent scenarios in which researchers search for scholarly content in languages other than English. We perform a comprehensive benchmarking of different zero-shot first-stage retrieval methods on the dataset, including dense and sparse retrievers, query and document machine translation, and state-of-the-art multilingual retrievers. Our results show that large dense retrievers, not necessarily trained for the cross-lingual retrieval task, can achieve zero-shot performance comparable to using ground truth human translations, without the need for machine translation. Sparse retrievers, such as BM25 or SPLADE, combined with document translation, show competitive results, providing an efficient alternative to large dense models. This research advances the understanding of cross-lingual academic information retrieval and provides a framework that others can use to build comparable datasets across different languages and disciplines. By making the dataset and code publicly available, we aim to facilitate further research that will help make scientific knowledge more accessible across language barriers.
- Abstract(参考訳): 言語間情報検索(CLIR)は、クエリの言語と異なる言語で関連文書を見つけることである。
本稿では,英語クエリとフランス語ドキュメントに着目し,言語間の学術的検索を評価するための新しいデータセットCLIRuditを提案する。
このデータセットは、カナダの出版プラットフォームである \'Erudit のバイリンガル記事メタデータを使用して構築されており、研究者が英語以外の言語で学術的な内容を探すシナリオを表現するように設計されている。
本手法は,高密度およびスパース検索,クエリおよび文書機械翻訳,最先端多言語検索など,データセット上のゼロショットファーストステージ検索手法の総合的なベンチマークを行う。
以上の結果から,機械翻訳を必要とせずに,多言語検索タスクのために訓練された大規模な高密度検索器が,人間翻訳に匹敵するゼロショット性能を達成できることが示唆された。
BM25やSPLADEのようなスパースレトリバーは文書翻訳と組み合わせて競合する結果を示し、大きな高密度モデルに代わる効率的な代替手段を提供する。
この研究は、言語間の学術情報検索の理解を深め、他者が異なる言語や分野にまたがる同等のデータセットを構築するために使用できるフレームワークを提供する。
データセットとコードを公開することにより、私たちは、言語障壁を越えて科学的知識をよりアクセスしやすくする、さらなる研究を促進することを目指しています。
関連論文リスト
- mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。
本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。
英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2025-01-31T16:24:46Z) - Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness [30.00463676754559]
49言語にまたがる14kのウィキペディア文書と組み合わせた720の領域紛争クエリからなるベンチマークであるBordIRLinesを紹介した。
実験の結果,多言語文書を検索することで応答の整合性が向上し,純言語文書よりも地政学的バイアスが低減されることがわかった。
言語間RAGがIRから文書の内容にどのように影響するかについて、さらなる実験と事例研究を行った。
論文 参考訳(メタデータ) (2024-10-02T01:59:07Z) - Unsupervised Multilingual Dense Retrieval via Generative Pseudo Labeling [32.10366004426449]
本稿では,教師なしの高密度多言語レトリバーUMRについて紹介する。
本稿では,多言語高密度検索器の性能を反復的に向上する2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T07:49:06Z) - Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval [56.65147231836708]
SWIM-IRは, 微調整多言語高密度検索のための33言語を含む合成検索訓練データセットである。
SAPは、ターゲット言語における情報クエリの生成において、大きな言語モデル(LLM)を支援する。
我々のモデルはSWIM-Xと呼ばれ、人間に指示された高密度検索モデルと競合する。
論文 参考訳(メタデータ) (2023-11-10T00:17:10Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - Cross-Lingual Phrase Retrieval [49.919180978902915]
言語横断検索は、言語間で関連するテキストを検索することを目的としている。
現在の方法では、言語に依存しないテキスト表現を単語や文レベルで学習することで、言語間検索が典型的である。
本稿では,ラベルなし例文から句表現を抽出する言語横断句検索システムXPRを提案する。
論文 参考訳(メタデータ) (2022-04-19T13:35:50Z) - Mind the Gap: Cross-Lingual Information Retrieval with Hierarchical
Knowledge Enhancement [28.99870384344861]
Cross-Lingual Information Retrievalは、ユーザのクエリとは異なる言語で書かれたドキュメントをランク付けすることを目的としている。
マルチ言語知識グラフ(KG)をCLIRタスクに導入する。
本稿では,階層的知識向上(HIKE)を用いたCLIRというモデルを提案する。
論文 参考訳(メタデータ) (2021-12-27T04:56:30Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Cross-Lingual Document Retrieval with Smooth Learning [31.638708227607214]
言語間文書検索は、クエリの言語が文書の言語と異なる情報検索タスクである。
本稿では,異なる文書言語を用いた言語間検索の性能向上を実現するための,新しいエンドツーエンドロバストフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-02T03:17:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。