論文の概要: jina-embeddings-v5-omni: Geometry-preserving Embeddings via Locked Aligned Towers
- arxiv url: http://arxiv.org/abs/2605.08384v2
- Date: Tue, 12 May 2026 17:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.910549
- Title: jina-embeddings-v5-omni: Geometry-preserving Embeddings via Locked Aligned Towers
- Title(参考訳): jina-embeddings-v5-omni: Locked Aligned Towersによる幾何保存型埋め込み
- Authors: Florian Hönicke, Michael Günther, Andreas Koukounas, Mohammad Kalim Akram, Scott Martens, Saba Sturua, Han Xiao,
- Abstract要約: GELATOはマルチモーダル埋め込みモデルに対する新しいアプローチである。
GELATOは最先端技術と競合する結果を生み出す。
- 参考スコア(独自算出の注目度): 4.3450882150663235
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we introduce GELATO (Geometry-preserving Embeddings via Locked Aligned TOwers), a novel approach to multimodal embedding models. We build on the VLM-style architecture, in which non-text encoders are adapted to produce input for a language model, which in turn generates embeddings for all varieties of input. We present the result: the jina-embeddings-v5-omni suite, a pair of models that encode text, image, audio, and video input into a single semantic embedding space. GELATO extends the two Jina Embeddings v5 Text models to support additional modality by adding encoders for images and audio. The backbone text embedding models and the added non-text modality encoders remain frozen. We only trained the connecting components, representing 0.35% of the total weights of the joint model. Training is therefore much more efficient than full-parameter retraining. Additionally, the language model remains effectively unaltered, producing exactly the same embeddings for text inputs as the Jina Embeddings v5 Text models. Our evaluations show that GELATO produces results that are competitive with the state-of-the-art, yielding nearly equal performance to larger multimodal embedding models.
- Abstract(参考訳): 本稿では, GELATO (Geometry-Preserving Embeddings via Locked Aligned Towers) を紹介する。
我々は、VLMスタイルのアーキテクチャを構築し、非テキストエンコーダが言語モデルのための入力を生成するように適応され、それによって全ての入力に対する埋め込みを生成する。
jina-embeddings-v5-omniスイートは、テキスト、画像、オーディオ、ビデオ入力を1つのセマンティック埋め込み空間にエンコードするモデルである。
GELATOは2つのJina Embeddings v5 Textモデルを拡張し、画像とオーディオのエンコーダを追加することで、さらなるモダリティをサポートする。
バックボーンのテキスト埋め込みモデルと追加の非テキストモダリティエンコーダは凍結のままである。
接続部品のみをトレーニングし,関節モデルの総重量の0.35%を表現した。
したがって、トレーニングはフルパラメータのトレーニングよりもはるかに効率的である。
さらに、言語モデルは事実上変更されず、Jina Embeddings v5 Textモデルと全く同じテキスト入力の埋め込みを生成する。
評価の結果,GELATOは最先端技術と競合する結果が得られ,より大規模なマルチモーダル埋め込みモデルとほぼ同等の性能を示した。
関連論文リスト
- jina-embeddings-v5-text: Task-Targeted Embedding Distillation [4.215793601372204]
汎用モデルは典型的には、対照的な損失関数を用いて単一または多段階のプロセスで訓練される。
本稿では, モデル蒸留技術とタスク特異的なコントラスト損失を併用して, コンパクトな埋め込みモデルを生成する新しいトレーニング手法を提案する。
結果のモデルのベンチマークスコアは、同じサイズのモデルの最先端モデルを上回るか、一致します。
論文 参考訳(メタデータ) (2026-02-17T12:50:50Z) - Text-to-Level Diffusion Models With Various Text Encoders for Super Mario Bros [0.0]
既存のデータセットにキャプションを自動的に割り当てる戦略を提案し、事前訓練されたテキストエンコーダと、スクラッチから訓練された単純なトランスフォーマーモデルの両方を用いて拡散モデルを訓練する。
その結果,非条件拡散モデルと生成逆数ネットワーク,およびテキストからレベルへのアプローチであるFive-Dollar ModelとMarioGPTを比較した。
論文 参考訳(メタデータ) (2025-06-30T18:50:26Z) - Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think [38.258453761376586]
本稿では,画像生成モデルにおける任意のテキストイメージインターリーブド制御のための効率的なフレームワークであるDream Engineを提案する。
提案手法は,テキスト・イメージアライメントとマルチモーダル・インターリーブド・インストラクション・チューニングからなる2段階の訓練パラダイムを利用する。
本手法は,GenEvalベンチマークで0.69点の総合スコアを達成し,有効であることを示す。
論文 参考訳(メタデータ) (2025-02-27T15:08:39Z) - The Five-Dollar Model: Generating Game Maps and Sprites from Sentence
Embeddings [3.620115940532283]
5ドルモデルは、符号化されたテキストプロンプトから低次元画像を生成する軽量なテキスト画像生成アーキテクチャである。
このモデルを,ピクセルアートゲームマップ,ゲームスプライト画像,ダウンスケール絵文字画像の3つの小さなデータセットに適用する。
CLIP VIT-B/32モデルにより生成されたテキスト画像ペア間のコサイン類似度スコアを用いて,本モデルの性能を評価する。
論文 参考訳(メタデータ) (2023-08-08T05:16:51Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Z-Code++: A Pre-trained Language Model Optimized for Abstractive
Summarization [108.09419317477986]
Z-Code++は、抽象的なテキスト要約に最適化された、新しいトレーニング済み言語モデルである。
このモデルは、まず、言語理解のためのテキストコーパスを用いて事前訓練され、続いて、接地テキスト生成のための要約コーパス上で継続的に事前訓練される。
パラメータ効率はXSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bである。
論文 参考訳(メタデータ) (2022-08-21T01:00:54Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。