論文の概要: Gemini Embedding: Generalizable Embeddings from Gemini
- arxiv url: http://arxiv.org/abs/2503.07891v1
- Date: Mon, 10 Mar 2025 22:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:46:03.127576
- Title: Gemini Embedding: Generalizable Embeddings from Gemini
- Title(参考訳): Gemini Embedding: Geminiの一般的な埋め込み
- Authors: Jinhyuk Lee, Feiyang Chen, Sahil Dua, Daniel Cer, Madhuri Shanbhogue, Iftekhar Naim, Gustavo Hernández Ábrego, Zhe Li, Kaifeng Chen, Henrique Schechter Vera, Xiaoqi Ren, Shanfeng Zhang, Daniel Salz, Michael Boratko, Jay Han, Blair Chen, Shuo Huang, Vikram Rao, Paul Suganthan, Feng Han, Andreas Doumanoglou, Nithi Gupta, Fedor Moiseev, Cathy Yip, Aashi Jain, Simon Baumgartner, Shahrokh Shahi, Frank Palma Gomez, Sandeep Mariserla, Min Choi, Parashar Shah, Sonam Goenka, Ke Chen, Ye Xia, Koert Chen, Sai Meher Karthik Duddu, Yichang Chen, Trevor Walker, Wenlei Zhou, Rakesh Ghiya, Zach Gleicher, Karan Gill, Zhe Dong, Mojtaba Seyedhosseini, Yunhsuan Sung, Raphael Hoffmann, Tom Duerig,
- Abstract要約: Googleの最も有能な大規模言語モデルであるGeminiのパワーを活用した、最先端の組み込みモデルであるGemini Embeddingを紹介した。
Gemini Embeddingは、ジェミニ固有の多言語およびコード理解機能を利用して、多数の言語にまたがるテキストに対する非常に一般化可能な埋め込みを生成する。
- 参考スコア(独自算出の注目度): 24.21178029650299
- License:
- Abstract: In this report, we introduce Gemini Embedding, a state-of-the-art embedding model leveraging the power of Gemini, Google's most capable large language model. Capitalizing on Gemini's inherent multilingual and code understanding capabilities, Gemini Embedding produces highly generalizable embeddings for text spanning numerous languages and textual modalities. The representations generated by Gemini Embedding can be precomputed and applied to a variety of downstream tasks including classification, similarity, clustering, ranking, and retrieval. Evaluated on the Massive Multilingual Text Embedding Benchmark (MMTEB), which includes over one hundred tasks across 250+ languages, Gemini Embedding substantially outperforms prior state-of-the-art models, demonstrating considerable improvements in embedding quality. Achieving state-of-the-art performance across MMTEB's multilingual, English, and code benchmarks, our unified model demonstrates strong capabilities across a broad selection of tasks and surpasses specialized domain-specific models.
- Abstract(参考訳): 本稿では,Googleの最も有能な大規模言語モデルであるGeminiのパワーを活用した,最先端の組み込みモデルであるGemini Embeddingを紹介する。
Gemini Embeddingは、ジェミニ固有の多言語およびコード理解機能を利用して、多数の言語とテキストのモダリティにまたがるテキストに対して、高度に一般化可能な埋め込みを生成する。
Gemini Embeddingによって生成された表現は、分類、類似性、クラスタリング、ランキング、検索など、さまざまな下流タスクにプリ計算され、適用することができる。
250以上の言語にまたがる100以上のタスクを含むMMTEB(Massive Multilingual Text Embedding Benchmark)で評価されたGemini Embeddingは、最先端のモデルを大幅に上回っており、埋め込み品質が大幅に向上している。
MMTEBの多言語、英語、コードベンチマークにまたがる最先端のパフォーマンスを達成し、我々の統一モデルはタスクの幅広い選択にまたがって強力な能力を示し、特殊なドメイン固有モデルを超えた。
関連論文リスト
- BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models [44.759766566414626]
マルチウェイ多言語評価ベンチマークであるBenchMAXを紹介する。
高品質を維持するために、3つの異なるネイティブなアノテータがそれぞれのサンプルに独立してアノテートする。
BenchMAXの大規模な実験は、言語間のコア機能のさまざまな効果を明らかにしている。
論文 参考訳(メタデータ) (2025-02-11T08:17:19Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context [666.1866258670091]
本稿では,次世代の計算効率の高いマルチモーダルモデルであるGemini 1.5モデルについて紹介する。
ファミリーには2つの新しいモデルが含まれている: (1) アップデートされたGemini 1.5 Proは、機能とベンチマークの大部分で2月バージョンを超え、(2) Gemini 1.5 Flashは、品質の最小限の回帰で効率よく設計された、より軽量な派生型である。
論文 参考訳(メタデータ) (2024-03-08T18:54:20Z) - Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings [22.71166607645311]
本稿では,最先端のバイリンガルテキスト埋め込みモデルについて紹介する。
これらのモデルは、最大8192トークンで長いテキスト入力を処理することができる。
STSタスクのモデル性能を大幅に改善しました。
我々は、ドイツ語とスペイン語の埋め込みモデルのベンチマークを含むように、Massive Text Embedding Benchmarkを拡張した。
論文 参考訳(メタデータ) (2024-02-26T20:53:12Z) - Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language
Models [14.30980373935713]
Googleは、マルチモーダル統合に特化した最先端のMLLMであるGeminiを発表した。
その進歩にもかかわらず、予備ベンチマークは、ジェミニが常識的推論タスクにおいてGPTモデルに遅れていることを示している。
本研究は,複雑な推論タスクにおけるジェミニのパフォーマンスを徹底的に評価する。
論文 参考訳(メタデータ) (2023-12-29T15:57:49Z) - Gemini: A Family of Highly Capable Multimodal Models [629.0779987066369]
マルチモーダルモデルの新たなファミリーであるGeminiは、画像、オーディオ、ビデオ、テキスト理解にまたがる優れた機能を示している。
GeminiファミリーはUltra、Pro、Nanoサイズで構成されており、複雑な推論タスクからオンデバイスメモリ制約のユースケースまで幅広い用途に適している。
論文 参考訳(メタデータ) (2023-12-19T02:39:27Z) - An In-depth Look at Gemini's Language Abilities [49.897870833250494]
OpenAI GPTとGoogle Geminiモデルの能力を比較する。
この分析は、さまざまな言語能力をテストする10のデータセットに対して実施します。
Gemini Pro は GPT 3.5 Turbo よりも近いがわずかに劣る精度を実現している。
論文 参考訳(メタデータ) (2023-12-18T18:47:42Z) - Kosmos-2: Grounding Multimodal Large Language Models to the World [107.27280175398089]
マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。
オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。
コードと事前訓練されたモデルはhttps://aka.ms/kosmos-2.comで入手できる。
論文 参考訳(メタデータ) (2023-06-26T16:32:47Z) - Attend, Memorize and Generate: Towards Faithful Table-to-Text Generation
in Few Shots [58.404516361586325]
Few-shot table-to-text generation は、限られたデータを用いてテーブル内容を伝えるために、流動的で忠実な文を構成するタスクである。
本稿では,人間のテキスト生成プロセスに触発された新しい手法,覚醒と生成(AMG)を提案する。
論文 参考訳(メタデータ) (2022-03-01T20:37:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。