論文の概要: ImageBind: One Embedding Space To Bind Them All
- arxiv url: http://arxiv.org/abs/2305.05665v2
- Date: Wed, 31 May 2023 04:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 20:36:32.595169
- Title: ImageBind: One Embedding Space To Bind Them All
- Title(参考訳): imagebind: すべてにバインドするための埋め込み空間
- Authors: Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan
Vasudev Alwala, Armand Joulin, Ishan Misra
- Abstract要約: ImageBindは、6つの異なるモードにまたがる共同埋め込みを学ぶためのアプローチだ。
画像ペアデータだけがモダリティを結合するのに十分であることを示す。
- 参考スコア(独自算出の注目度): 41.46167013891263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ImageBind, an approach to learn a joint embedding across six
different modalities - images, text, audio, depth, thermal, and IMU data. We
show that all combinations of paired data are not necessary to train such a
joint embedding, and only image-paired data is sufficient to bind the
modalities together. ImageBind can leverage recent large scale vision-language
models, and extends their zero-shot capabilities to new modalities just by
using their natural pairing with images. It enables novel emergent applications
'out-of-the-box' including cross-modal retrieval, composing modalities with
arithmetic, cross-modal detection and generation. The emergent capabilities
improve with the strength of the image encoder and we set a new
state-of-the-art on emergent zero-shot recognition tasks across modalities,
outperforming specialist supervised models. Finally, we show strong few-shot
recognition results outperforming prior work, and that ImageBind serves as a
new way to evaluate vision models for visual and non-visual tasks.
- Abstract(参考訳): 本研究では,画像,テキスト,音声,奥行き,熱,およびimuの6種類のデータにまたがるジョイント埋め込みを学ぶためのアプローチであるimagebindを提案する。
このような組込みを訓練するにはペアデータの組み合わせは不要であり,画像ペアデータのみを結合するには十分であることを示す。
ImageBindは、最近の大規模ヴィジュアル言語モデルを活用することができ、画像と自然にペアリングすることで、ゼロショット能力を新しいモダリティに拡張することができる。
クロスモーダル検索、演算によるモダリティの構成、クロスモーダル検出、生成を含む新しい創発的アプリケーションを可能にする。
画像エンコーダの強度により創発的能力は向上し、我々は新たな最先端のゼロショット認識タスクをモダリティ全体にわたって設定し、スペシャリスト教師付きモデルより優れる。
最後に,視覚的タスクと非視覚的タスクの視覚モデルを評価する新しい方法として,ImageBindが有効であることを示す。
関連論文リスト
- Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - FormNetV2: Multimodal Graph Contrastive Learning for Form Document
Information Extraction [43.17713130538514]
集中型グラフコントラスト学習戦略を導入し、全てのモダリティに対する自己教師付き事前学習を1つの損失で統一する。
FormNetV2は、よりコンパクトなモデルサイズでFUNSD、CORD、SROIE、Paymentベンチマーク上で、最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2023-05-04T05:02:04Z) - Neural Congealing: Aligning Images to a Joint Semantic Atlas [14.348512536556413]
画像の集合を横断的に意味的に共通するコンテンツを調整するための,ゼロショットの自己教師型フレームワークを提案する。
提案手法は,DINO-ViTの事前学習能力を利用して学習する。
提案手法は,大規模データセットに対する広範囲なトレーニングを必要とする最先端の手法と比較して,好適に動作することを示す。
論文 参考訳(メタデータ) (2023-02-08T09:26:22Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image
Retrieval [55.21569389894215]
本稿では,視覚変換器(XModalViT)のクロスアテンションフレームワークを提案する。
我々のフレームワークはまず、個々の写真からペア化されたデータポイントをマッピングし、両方のモダリティから情報を統一する融合表現にスケッチする。
次に、上記のモダリティ融合ネットワークの入力空間を、コントラストおよびリレーショナルなクロスモーダル知識蒸留により個々のモダリティの独立エンコーダに分離する。
論文 参考訳(メタデータ) (2022-10-19T11:50:14Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Bowtie Networks: Generative Modeling for Joint Few-Shot Recognition and
Novel-View Synthesis [39.53519330457627]
本稿では,複数ショット認識と新規ビュー合成という新たな課題を提案する。
我々は、オブジェクト分類器を同時に学習し、新しい視点からそのタイプのオブジェクトの画像を生成することを目的としている。
生成モデルと識別モデルとの相互作用と協調に焦点を当てる。
論文 参考訳(メタデータ) (2020-08-16T19:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。