論文の概要: Benchmarking Google Embeddings 2 against Open-Source Models for Multilingual Dense Retrieval and RAG Systems
- arxiv url: http://arxiv.org/abs/2605.23618v1
- Date: Fri, 22 May 2026 13:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.366168
- Title: Benchmarking Google Embeddings 2 against Open-Source Models for Multilingual Dense Retrieval and RAG Systems
- Title(参考訳): Google Embeddings 2のベンチマークと多言語Dense RetrievalとRAGシステムのためのオープンソースモデル
- Authors: Stefano Cirillo, Domenico Desiato, Giuseppe Polese, Giandomenico Solimando,
- Abstract要約: Google Embeddings(GE2)を5つのオープンソース代替品に対してベンチマークします。
GE2 は BEIR avg.nDCG@10 = 0.638 であり、IT-RAG-Bench nDCG@10 = 0.282 である。
BEIR上での多言語展開スコアは0.188であり、mMPNetを含むすべての専用検索モデル以下である。
- 参考スコア(独自算出の注目度): 2.769282923536839
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We benchmark Google Embeddings (GE2), a Vertex-AI-hosted bi-encoder with 2,048-token context and explicit task-type conditioning, against five open-source alternatives: BGE-M3, E5-large, Multilingual-E5-large (mE5-L), LaBSE, and Paraphrase-Multilingual-MPNet (mMPNet). Evaluation covers four BEIR subsets, a synthetic Italian RAG corpus, a chunking ablation considering 5 sizes of tokens with three strategies, and per-query latency on commodity CPU hardware. GE2 ranks first on every task, achieving BEIR avg.nDCG@10 = 0.638 and IT-RAG-Bench nDCG@10 = 0.282, but at 231.6 ms median latency, it is roughly 14x slower than the fastest local models. mE5-L reaches within 0.003 nDCG of GE2 on Italian at 31 ms, making it the preferred option when sub-100 ms SLAs matter. A more striking finding concerns LaBSE, which, despite widespread multilingual deployment scores 0.188 average nDCG@10 on BEIR, below every dedicated retrieval model including mMPNet. Chunking experiments show that all six models saturate at 32-token chunks on our corpus, with semantic chunking providing measurable gains only at 16 tokens.
- Abstract(参考訳): BGE-M3、E5-large、Multilingual-E5-large (mE5-L)、LaBSE、Paraphrase-Multilingual-MPNet (mMPNet)の5つのオープンソース代替品に対して、Google Embeddings (GE2)をベンチマークした。
4つのBEIRサブセット、合成イタリアのRAGコーパス、3つの戦略で5サイズのトークンを考慮に入れたチャンキングアブレーション、コモディティCPUハードウェア上でのクエリ毎のレイテンシ。
GE2 は BEIR avg.nDCG@10 = 0.638 と IT-RAG-Bench nDCG@10 = 0.282 を達成している。
mE5-L は GE2 の 0.003 nDCG の範囲内を 31 ms で到達し、100 ms以下のSLA が重要となる場合に好まれる。
BEIR上での多言語展開スコアが0.188の平均nDCG@10であるにもかかわらず、LaBSEはmMPNetを含むすべての専用検索モデルより下位にある。
チャンキング実験では、6つのモデルすべてがコーパス上の32トンのチャンクで飽和しており、セマンティックチャンクは16トークンでのみ測定可能なゲインを提供する。
関連論文リスト
- EngGPT2: Sovereign, Efficient and Open Intelligence [0.0]
EngGPT2はSovereign、Efficient、Openモデルとして構築されている。
Qwen3の36TやLlama3の15Tよりも少ない2.5兆のトークンでトレーニングされています。
MMLU-Pro、GSM8K、IFEval、HumanEvalなど、主要なベンチマークのパフォーマンスを提供する。
論文 参考訳(メタデータ) (2026-03-17T12:08:35Z) - SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories [2.951332247539421]
オープンソースGitHubプロジェクトからリポジトリレベルのコーディングタスクを生成する自動フレームワークであるSWE-Bench++を紹介します。
合成アプローチとは異なり、パイプラインは11言語にわたるバグ修正と機能要求の両方をカバーするために、ライブプルリクエストを収集します。
最初のベンチマークは11言語にわたる3,971リポジトリから11,133インスタンスで構成されています。
論文 参考訳(メタデータ) (2025-12-19T10:16:51Z) - David vs. Goliath: A comparative study of different-sized LLMs for code generation in the domain of automotive scenario generation [1.6752458252726459]
大きな言語モデル(LLM)を持つNL-to-Scenic生成は、少ないデータ、限られたメトリクスに悩まされる。
NL2Scenicは146組のNL/Scenicペアを持つオープンデータセットとフレームワークであり、難易度の高い30ケースのテスト分割とサンプルレトリバーを紹介する。
4つのプロプライエタリ(GPT-4o, GPT-5, Claude-Sonnet-4, Gemini-2.5-pro)と9つのオープンソースコードモデル(Qwen2.5Coder 0.5B-32B; CodeLlama 7B/13B/34B)を評価した。
論文 参考訳(メタデータ) (2025-10-15T21:37:02Z) - MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm [60.14048367611333]
MonkeyOCRはドキュメント解析のためのビジョン言語モデルである。
SRR(Structure-Recognition-Relation)三重項パラダイムを活用することで、最先端の技術の進歩を図っている。
論文 参考訳(メタデータ) (2025-06-05T16:34:57Z) - BitNet b1.58 2B4T Technical Report [118.78752947128682]
BitNet b1.58 2B4Tは、最初のオープンソースでネイティブな1ビットのLarge Language Model(LLM)を2-billionパラメータスケールで導入する。
4兆トークンのコーパスでトレーニングされたこのモデルは、言語理解、数学的推論、コーディングの習熟度、会話能力に関するベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-04-16T17:51:43Z) - Empowering Smaller Models: Tuning LLaMA and Gemma with Chain-of-Thought for Ukrainian Exam Tasks [0.0]
小型またはコンパクトなモデルの方が効率的だが、表現不足の言語を十分にサポートしていないことが多い。
この研究は、推論集約的なタスクを扱うために、コンパクトなオープンウェイト言語モデルのパラメータ効率の良い微調整の可能性を探る。
統合タスクトピックとステップバイステップのソリューション生成によるチューニング手法は、マッチングタスクにおける標準チェーン・オブ・シンキングよりも優れる。
論文 参考訳(メタデータ) (2025-03-18T07:44:49Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Massively Multilingual Shallow Fusion with Large Language Models [62.76735265311028]
複数の言語で浅い融合のための単一多言語言語モデル(LM)を訓練する。
GLaMは、推論中に同様の計算を行う密度の高いLMと比較して、イングランドのロングテールテストのWERを4.4%削減する。
多言語浅層融合タスクでは、GLaMは50言語中41言語を改善し、平均相対的なWERの3.85%、最大10%の削減を実現している。
論文 参考訳(メタデータ) (2023-02-17T14:46:38Z) - ContextNet: Improving Convolutional Neural Networks for Automatic Speech
Recognition with Global Context [58.40112382877868]
ContextNet と呼ばれる新しい CNN-RNN-Transducer アーキテクチャを提案する。
ContextNetは、グローバルコンテキスト情報を畳み込みレイヤに組み込む、完全な畳み込みエンコーダを備えている。
クリーン/ノイズの多いLibriSpeechテストセット上では、ContextNetは、外部言語モデル(LM)なしで2.1%/4.6%、LMで1.9%/4.1%、および2.9%/7.0%のワードエラー率(WER)を達成した。
論文 参考訳(メタデータ) (2020-05-07T01:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。