論文の概要: XAMPLER: Learning to Retrieve Cross-Lingual In-Context Examples
- arxiv url: http://arxiv.org/abs/2405.05116v2
- Date: Sat, 29 Jun 2024 13:09:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 14:10:11.491158
- Title: XAMPLER: Learning to Retrieve Cross-Lingual In-Context Examples
- Title(参考訳): XAMPLER: 言語間インコンテキストの事例を検索する学習
- Authors: Peiqin Lin, André F. T. Martins, Hinrich Schütze,
- Abstract要約: XAMPLER: 言語横断学習の課題に対処するための手法であるクロス言語実例検索法を紹介する。
XAMPLERは最初、英語の肯定的な例と否定的な例を用いて、多言語小言語モデルGlot500に基づいてレトリバーを訓練する。
ターゲット言語の文脈内学習の例として、英語の例を直接検索することができる。
- 参考スコア(独自算出の注目度): 64.79218405438871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies indicate that leveraging off-the-shelf or fine-tuned retrievers, capable of retrieving relevant in-context examples tailored to the input query, enhances few-shot in-context learning of English. However, adapting these methods to other languages, especially low-resource ones, poses challenges due to the scarcity of cross-lingual retrievers and annotated data. Thus, we introduce XAMPLER: Cross-Lingual Example Retrieval, a method tailored to tackle the challenge of cross-lingual in-context learning using only annotated English data. XAMPLER first trains a retriever based on Glot500, a multilingual small language model, using positive and negative English examples constructed from the predictions of a multilingual large language model, i.e., MaLA500. Leveraging the cross-lingual capacity of the retriever, it can directly retrieve English examples as few-shot examples for in-context learning of target languages. Experiments on the multilingual text classification benchmark SIB200 with 176 languages show that XAMPLER substantially improves the in-context learning performance across languages. Our code is available at \url{https://github.com/cisnlp/XAMPLER}.
- Abstract(参考訳): 近年の研究では、入力クエリに適合した関連するインコンテキストの例を検索できるオフザシェルフや微調整のレトリバーを活用することで、英語のインコンテキスト学習が向上している。
しかしながら、これらの手法を他の言語、特に低リソースに適応させることは、言語横断レトリバーと注釈付きデータの不足により、課題を提起する。
そこで本稿では,XAMPLER: Cross-Lingual Example Retrievalを提案する。
XAMPLERはまず、多言語小言語モデルGlot500に基づくレトリバーを訓練し、多言語大言語モデルの予測から構築された正および負の英語例、すなわちMALA500を用いて学習する。
検索器の言語間能力を活用して、ターゲット言語のテキスト内学習の例として、英語のサンプルを直接検索することができる。
176言語を用いた多言語テキスト分類ベンチマークSIB200の実験により、XAMPLERは言語間のテキスト内学習性能を大幅に改善することが示された。
私たちのコードは \url{https://github.com/cisnlp/XAMPLER} で利用可能です。
関連論文リスト
- Synergistic Approach for Simultaneous Optimization of Monolingual, Cross-lingual, and Multilingual Information Retrieval [5.446052898856584]
本稿では,モノリンガル,クロスリンガル,マルチリンガル設定におけるゼロショット検索性能を改善するためのハイブリッドバッチ学習手法を提案する。
このアプローチは、データセットサイズに基づいてサンプリングされたモノリンガルとクロスリンガルの問合せ対のバッチを混合したマルチリンガル言語モデルを微調整する。
論文 参考訳(メタデータ) (2024-08-20T04:30:26Z) - Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models [22.859955360764275]
本稿では,MultiLingual Needle-in-a-Haystack(MLNeedle)テストを導入する。
我々はMLNeedleの4つの最先端の大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2024-08-19T17:02:06Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Cross-lingual QA: A Key to Unlocking In-context Cross-lingual Performance [2.371686365695081]
クロスランガルQAは、質問と回答の部分のみを翻訳し、翻訳コストを削減できる言語間プロンプト手法である。
4つのタイプ的多言語ベンチマークの実験により、クロスランガルQAはモデルに効果的に刺激を与え、クロスランガルの知識を引き出すことを示した。
本研究は,言語間実例を用いたオープンソースMLLMの高速化により,モデルスケールの増大に伴い,性能が向上することを示す。
論文 参考訳(メタデータ) (2023-05-24T15:14:49Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - Meta-Learning a Cross-lingual Manifold for Semantic Parsing [75.26271012018861]
新しい言語をサポートするためにセマンティックをローカライズするには、効果的な言語間一般化が必要である。
本稿では,言語間移動において,最大サンプル効率で注釈付きセマンティックを学習するための一階メタ学習アルゴリズムを提案する。
ATIS上の6つの言語にまたがる結果は、ステップの組み合わせによって、各新言語におけるソーストレーニングデータの10パーセントを正確なセマンティクスでサンプリングできることを示している。
論文 参考訳(メタデータ) (2022-09-26T10:42:17Z) - Cross-Lingual Phrase Retrieval [49.919180978902915]
言語横断検索は、言語間で関連するテキストを検索することを目的としている。
現在の方法では、言語に依存しないテキスト表現を単語や文レベルで学習することで、言語間検索が典型的である。
本稿では,ラベルなし例文から句表現を抽出する言語横断句検索システムXPRを提案する。
論文 参考訳(メタデータ) (2022-04-19T13:35:50Z) - One Question Answering Model for Many Languages with Cross-lingual Dense
Passage Retrieval [39.061900747689094]
CORAはクロスランガルなオープン・レトリーバル・アンサー・ジェネレーション・モデルである。
言語固有の注釈付きデータや知識ソースが利用できない場合でも、多くの言語で質問に答えることができる。
論文 参考訳(メタデータ) (2021-07-26T06:02:54Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。