論文の概要: XProvence: Zero-Cost Multilingual Context Pruning for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2601.18886v1
- Date: Mon, 26 Jan 2026 19:00:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.026443
- Title: XProvence: Zero-Cost Multilingual Context Pruning for Retrieval-Augmented Generation
- Title(参考訳): XProvence: 検索拡張ジェネレーションのためのゼロコスト多言語コンテキストプルーニング
- Authors: Youssef Mohamed, Mohamed Elhoseiny, Thibault Formal, Nadezhda Chirkova,
- Abstract要約: 本稿では、検索拡張生成(RAG)のための多言語ゼロコストコンテキストプラニングモデルであるXProvenceを紹介する。
XProvenceは、最小限の性能劣化でRAGコンテキストを創り出し、強力なベースラインを上回っていることを示す。
- 参考スコア(独自算出の注目度): 43.017484132437374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces XProvence, a multilingual zero-cost context pruning model for retrieval-augmented generation (RAG), trained on 16 languages and supporting 100+ languages through effective cross-lingual transfer. Motivated by the growing use of RAG systems across diverse languages, we explore several strategies to generalize the Provence framework-which first integrated efficient zero-cost context pruning directly into the re-ranking model-beyond English. Across four multilingual question answering benchmarks, we show how XProvence can prune RAG contexts with minimal-to-no performance degradation and outperforms strong baselines. Our model is available at https://huggingface.co/naver/xprovence-reranker-bgem3-v2.
- Abstract(参考訳): 本稿では16言語で学習し,100言語以上を効果的に言語間移動によりサポートする多言語ゼロコスト文脈解析モデルであるXProvenceを紹介する。
多様な言語にまたがるRAGシステムの利用の増加により、我々はProvenceフレームワークを一般化するいくつかの戦略を探求する。
4つの多言語質問応答ベンチマークで、XProvenceが最小限の性能劣化を伴ってRAGコンテキストを創出し、強力なベースラインを上回っていることを示す。
私たちのモデルはhttps://huggingface.co/naver/xprovence-reranker-bgem3-v2で利用可能です。
関連論文リスト
- Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task [89.45111250272559]
Retrieval-augmented Generation (RAG) は現代のNLPの基盤となっている。
本稿では,複数言語にまたがるRAGの有効性について,複数言語にまたがるオープンドメイン問合せに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-04T17:35:43Z) - sPhinX: Sample Efficient Multilingual Instruction Fine-Tuning Through N-shot Guided Prompting [29.63634707674839]
本稿では,多言語合成命令チューニングデータセット sPhinX を構築するための新しい手法を提案する。
固定命令応答対を直接翻訳する従来の方法とは異なり、sPhinXは英語命令応答対を多言語翻訳で選択的に拡張することで多様性を高める。
本研究では,Mistral-7B と Phi-3-Small の多言語間性能を平均 39.8% と 11.2% で向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-07-13T13:03:45Z) - X-SNS: Cross-Lingual Transfer Prediction through Sub-Network Similarity [19.15213046428148]
クロスランガルトランスファー(XLT)は、微調整プロセスに含まれていない言語で評価された場合、タスク上での性能をある程度保持する多言語言語モデルである。
本稿では,XLTの文脈における言語間の互換性を予測するプロキシとして,2言語間のサブネットワーク類似性の利用を提案する。
論文 参考訳(メタデータ) (2023-10-26T05:39:49Z) - Nearest Neighbour Few-Shot Learning for Cross-lingual Classification [2.578242050187029]
単純な近接数ショット(15サンプル)推論手法による言語間適応による分類作業
提案手法は,少数のラベル付きサンプルのみを対象とする従来の微調整を継続的に改善する。
論文 参考訳(メタデータ) (2021-09-06T03:18:23Z) - XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation [93.80733419450225]
本稿では,言語間移動学習の現状を解析する。
XTREMEを10種類の自然言語理解タスクからなるXTREME-Rに拡張する。
論文 参考訳(メタデータ) (2021-04-15T12:26:12Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。