論文の概要: Nomic Embed Vision: Expanding the Latent Space
- arxiv url: http://arxiv.org/abs/2406.18587v1
- Date: Thu, 6 Jun 2024 21:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 05:40:31.447169
- Title: Nomic Embed Vision: Expanding the Latent Space
- Title(参考訳): Nomic Embed Vision: 潜在空間を広げる
- Authors: Zach Nussbaum, Brandon Duderstadt, Andriy Mulyar,
- Abstract要約: マイノミック・エンベッド・ビジョン(英語版)とマイノミック・エンベッド・テキスト(英語版)は、視覚、言語、マルチモーダルタスク間で高いパフォーマンスを達成するための最初の統合潜在空間を形成する。
本報告では、高度に高性能でオープンコードでオープンウェイトな画像埋め込みモデルであるnomic-embed-visionのトレーニングについて述べる。
- 参考スコア(独自算出の注目度): 1.3499500088995464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This technical report describes the training of nomic-embed-vision, a highly performant, open-code, open-weights image embedding model that shares the same latent space as nomic-embed-text. Together, nomic-embed-vision and nomic-embed-text form the first unified latent space to achieve high performance across vision, language, and multimodal tasks.
- Abstract(参考訳): この技術報告では、高度に高性能でオープンコードでオープンウェイトな画像埋め込みモデルであるnomic-embed-visionのトレーニングについて述べる。
マイノミック・エンベッド・ビジョン(nomic-embed-vision)とマイノミック・エンベッド・テキスト(nomic-embed-text)は、視覚、言語、マルチモーダルタスクにまたがるハイパフォーマンスを実現するための最初の統合潜在空間である。
関連論文リスト
- 3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance [68.8825501902835]
3DSS-VLGは2Dビジョンランゲージ誘導を用いた3Dセマンティックの弱い教師付きアプローチである。
我々の知る限りでは、テキストカテゴリラベルのテキスト意味情報を用いて、弱教師付きセマンティックセマンティックセグメンテーションを調査するのは、これが初めてである。
論文 参考訳(メタデータ) (2024-07-13T09:39:11Z) - Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。
DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2024-07-13T05:39:17Z) - GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-01T05:19:50Z) - InternLM-XComposer2: Mastering Free-form Text-Image Composition and
Comprehension in Vision-Language Large Model [108.42241250772643]
InternLM-XComposer2は自由形式のテキスト画像合成と理解に優れた視覚言語モデルである。
このモデルは従来の視覚言語理解を超越し、多様な入力からインターリーブされたテキストイメージコンテンツを作成する。
InternLM2-7BをベースとしたInternLM-XComposer2の高画質長文マルチモーダルコンテンツにおける優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-01-29T18:59:02Z) - Meme Sentiment Analysis Enhanced with Multimodal Spatial Encoding and
Facial Embedding [0.0]
ミームから抽出した視覚オブジェクト,顔,テキストクラスタの空間的位置を組み込むことにより,性能向上を示す。
また,マルチモーダル・ミーム分類器における画像表現の強調効果として,顔の埋め込みについて述べる。
論文 参考訳(メタデータ) (2023-03-03T08:44:20Z) - Summary-Oriented Vision Modeling for Multimodal Abstractive
Summarization [63.320005222549646]
マルチモーダル抽象要約(MAS)は、マルチモーダルデータ(テキストとビジョン)から簡潔な要約を作成することを目的としている。
本稿では,要約指向の視覚的特徴によって要約品質を改善することを提案する。
中高、低低、ゼロリソースのシナリオをカバーする44言語の実験は、提案手法の有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-12-15T09:05:26Z) - Expectation-Maximization Contrastive Learning for Compact
Video-and-Language Representations [54.62547989034184]
我々は,コンパクトなビデオ・言語表現を学習するために,予測最大化コントラスト学習(EMCL)を提案する。
具体的には、期待最大化アルゴリズムを用いて、潜在空間のコンパクトな基底集合を求める。
3つのベンチマークテキスト・ビデオ検索データセットの実験により、EMCLはより識別力のあるビデオ・言語表現を学習できることが証明された。
論文 参考訳(メタデータ) (2022-11-21T13:12:44Z) - Multi-modal Visual Place Recognition in Dynamics-Invariant Perception
Space [23.43468556831308]
このレターは、動的環境における位置認識を改善するために、意味的および視覚的モダリティのマルチモーダル融合の使用を探求する。
これを実現するには、まず静的セマンティックセグメンテーションを生成するための新しいディープラーニングアーキテクチャを設計します。
次に,空間的ピラミドマッチングモデルを用いて,静的意味セグメンテーションを特徴ベクトルに符号化する。
並行して、静的なイメージは人気のあるbag-of-wordsモデルを使ってエンコードされる。
論文 参考訳(メタデータ) (2021-05-17T13:14:52Z) - From Spatial Relations to Spatial Configurations [64.21025426604274]
空間関係言語は、推論に不可欠な、大きく包括的な空間概念の集合を表現することができる。
本稿では,既存の空間表現言語の機能を,セマンティクスのきめ細かい分解によって拡張する方法について述べる。
論文 参考訳(メタデータ) (2020-07-19T02:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。