論文の概要: IMAGINATOR: Pre-Trained Image+Text Joint Embeddings using Word-Level
Grounding of Images
- arxiv url: http://arxiv.org/abs/2305.10438v1
- Date: Fri, 12 May 2023 05:34:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-21 10:37:28.744195
- Title: IMAGINATOR: Pre-Trained Image+Text Joint Embeddings using Word-Level
Grounding of Images
- Title(参考訳): IMAGINATOR:画像のワードレベルグラウンドを用いた事前学習画像+テキスト共同埋め込み
- Authors: Varuna Krishna, S Suryavardan, Shreyash Mishra, Sathyanarayanan
Ramamoorthy, Parth Patwa, Megha Chakraborty, Aman Chadha, Amitava Das, Amit
Sheth
- Abstract要約: IMAGINATORは1M画像+テキストペアと21K画像オブジェクトレベルで訓練された。
IMAGINATORは、(i)オブジェクトオブジェクトのコロケーション、(ii)ワードオブジェクトのコロケーション、(iii)ワードオブジェクトの相関の3つの個別表現をカプセル化している。
また, (i) 画像キャプション, (ii) 画像2 つぶやき, (iii) テキストベースの画像検索の3つの下流タスクに対して, 事前訓練したIMAGINATOR JEsを評価する。
- 参考スコア(独自算出の注目度): 2.9174297412129957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word embeddings, i.e., semantically meaningful vector representation of
words, are largely influenced by the distributional hypothesis "You shall know
a word by the company it keeps" (Harris, 1954), whereas modern prediction-based
neural network embeddings rely on design choices and hyperparameter
optimization. Word embeddings like Word2Vec, GloVe etc. well capture the
contextuality and real-world analogies but contemporary convolution-based image
embeddings such as VGGNet, AlexNet, etc. do not capture contextual knowledge.
The popular king-queen analogy does not hold true for most commonly used vision
embeddings.
In this paper, we introduce a pre-trained joint embedding (JE), named
IMAGINATOR, trained on 21K distinct image objects level from 1M image+text
pairs. JE is a way to encode multimodal data into a vector space where the text
modality serves as the ground-ing key, which the complementary modality (in
this case, the image) is anchored with. IMAGINATOR encapsulates three
individual representations: (i) object-object co-location, (ii) word-object
co-location, and (iii) word-object correlation. These three ways capture
complementary aspects of the two modalities which are further combined to
obtain the final JEs.
Generated JEs are intrinsically evaluated to assess how well they capture the
contextuality and real-world analogies. We also evaluate pre-trained IMAGINATOR
JEs on three downstream tasks: (i) image captioning, (ii) Image2Tweet, and
(iii) text-based image retrieval. IMAGINATOR establishes a new standard on the
aforementioned down-stream tasks by outperforming the current SoTA on all the
selected tasks. IMAGINATOR will be made publicly available. The codes are
available at https://github.com/varunakk/IMAGINATOR
- Abstract(参考訳): 単語埋め込み、すなわち意味的に意味のある単語のベクトル表現は、分布的仮説 "you shall know a word by the company it keep" (harris, 1954) の影響が大きいが、現代の予測に基づくニューラルネットワーク埋め込みは設計の選択とハイパーパラメータ最適化に依存している。
Word2Vec、GloVeなどの単語埋め込みは、コンテキスト性と実世界の類似性をうまく捉えているが、VGGNet、AlexNetなどの現代畳み込みベースの画像埋め込みは文脈知識を捉えない。
一般的なキング・クィン類推は、最もよく使われる視覚埋め込みには当てはまらない。
本稿では,1M画像とテキストのペアから21Kの異なる画像オブジェクトをトレーニングしたJE(IMAGINATOR)について紹介する。
JEは、テキストのモダリティが接地鍵として機能し、補完的なモダリティ(この場合、画像)が固定されるベクトル空間にマルチモーダルデータをエンコードする方法である。
IMAGINATORは3つの個別表現をカプセル化する。
(i)オブジェクト・オブジェクトのコロケーション
(ii)ワード・オブジェクトのコロケーション、及び
(iii) 単語と対象の相関。
これら3つの方法は、最終的なjesを得るためにさらに結合される2つのモダリティの相補的な側面を捉える。
生成されたJEは、文脈性や実世界の類似性をいかに捉えるかを評価するために本質的に評価される。
IMAGINATOR JEを3つの下流タスクで評価する。
(i)画像キャプション、
(ii)image2tweet、
(iii)テキストに基づく画像検索。
imaginatorは、選択したタスクの現在のsomaを上回ることで、前述のダウンストリームタスクの新しい標準を確立する。
IMAGINATORは一般公開される。
コードはhttps://github.com/varunakk/IMAGINATORで公開されている。
関連論文リスト
- Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval [53.89454443114146]
本研究では,ゼロショット合成画像検索タスク(ZS-CIR)について検討した。
従来の作品では、参照画像の特徴をテキスト埋め込み空間に投影することで、擬似ワードトークンを生成する。
知識強化型デュアルストリームゼロショット合成画像検索フレームワーク(KEDs)を提案する。
KEDはデータベースを組み込むことで、参照画像の属性を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2024-03-24T04:23:56Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - CoBIT: A Contrastive Bi-directional Image-Text Generation Model [72.1700346308106]
CoBITは、新しいユニコーダ・デコーダ構造を採用しており、これは1つのフレームワークで3つの事前学習対象を統一しようとするものである。
CoBITは画像理解、画像テキスト理解(検索、キャプション、VQA、SNLI-VE)、テキストベースのコンテンツ生成、特にゼロショットシナリオにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-23T17:24:31Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - Towards Efficient Cross-Modal Visual Textual Retrieval using
Transformer-Encoder Deep Features [10.163477961551592]
クロスモーダル検索は、現代の検索エンジンにおいて重要な機能である。
本稿では,画像文検索に焦点をあてる。
我々は最近導入されたTERNアーキテクチャを画像文特徴抽出器として利用する。
論文 参考訳(メタデータ) (2021-06-01T10:11:46Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。