論文の概要: Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval
- arxiv url: http://arxiv.org/abs/2304.01019v1
- Date: Mon, 3 Apr 2023 14:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 15:04:01.066003
- Title: Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval
- Title(参考訳): 言語間情報検索のためのシンプルで効果的なニューラルランク付けとリランクベースライン
- Authors: Jimmy Lin, David Alfonso-Hermelo, Vitor Jeronymo, Ehsan Kamalloo,
Carlos Lassance, Rodrigo Nogueira, Odunayo Ogundepo, Mehdi Rezagholizadeh,
Nandan Thakur, Jheng-Hong Yang, Xinyu Zhang
- Abstract要約: 言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
- 参考スコア(独自算出の注目度): 50.882816288076725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of multilingual language models has generated a resurgence of
interest in cross-lingual information retrieval (CLIR), which is the task of
searching documents in one language with queries from another. However, the
rapid pace of progress has led to a confusing panoply of methods and
reproducibility has lagged behind the state of the art. In this context, our
work makes two important contributions: First, we provide a conceptual
framework for organizing different approaches to cross-lingual retrieval using
multi-stage architectures for mono-lingual retrieval as a scaffold. Second, we
implement simple yet effective reproducible baselines in the Anserini and
Pyserini IR toolkits for test collections from the TREC 2022 NeuCLIR Track, in
Persian, Russian, and Chinese. Our efforts are built on a collaboration of the
two teams that submitted the most effective runs to the TREC evaluation. These
contributions provide a firm foundation for future advances.
- Abstract(参考訳): 多言語言語モデルの出現により、言語間情報検索(CLIR)への関心が復活した。
しかし、急速な進歩は、手法の混乱を招き、再現性は芸術の状況に遅れを取っている。
第一に,単言語検索を足場として,多段階アーキテクチャを用いた言語横断検索の異なるアプローチを組織するための概念的枠組みを提供する。
第二に、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
私たちの取り組みは、TREC評価に最も効果的な実行を提出した2つのチームのコラボレーションに基づいています。
これらの貢献は将来の進歩の確固たる基盤を提供する。
関連論文リスト
- mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。
本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。
英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2025-01-31T16:24:46Z) - USTCCTSU at SemEval-2024 Task 1: Reducing Anisotropy for Cross-lingual Semantic Textual Relatedness Task [17.905282052666333]
言語間セマンティックテキスト関連性タスクは,言語間コミュニケーションやテキスト理解における課題に対処する重要な研究課題である。
これは、機械翻訳、多言語情報検索、言語間テキスト理解といった下流タスクに不可欠な、異なる言語間のセマンティックな接続を確立するのに役立つ。
当社のアプローチでは、スペインで2位、インドネシアで3位、そしてトップ10の複数のエントリーが、コンペティションのトラックCで行われます。
論文 参考訳(メタデータ) (2024-11-28T08:40:14Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining
for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。
本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。
実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2022-05-20T18:35:38Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。