論文の概要: Multimodal Representation Learning With Text and Images
- arxiv url: http://arxiv.org/abs/2205.00142v1
- Date: Sat, 30 Apr 2022 03:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 08:23:57.575212
- Title: Multimodal Representation Learning With Text and Images
- Title(参考訳): テキストと画像を用いたマルチモーダル表現学習
- Authors: Aishwarya Jayagopal, Ankireddy Monica Aiswarya, Ankita Garg,
Srinivasan Kolumam Nandakumar
- Abstract要約: 本研究は,テキストと画像データの同時表現学習において,マルチモーダルAIと行列分解技術を活用する。
学習表現は下流の分類と回帰タスクを用いて評価される。
- 参考スコア(独自算出の注目度): 2.998895355715139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, multimodal AI has seen an upward trend as researchers are
integrating data of different types such as text, images, speech into modelling
to get the best results. This project leverages multimodal AI and matrix
factorization techniques for representation learning, on text and image data
simultaneously, thereby employing the widely used techniques of Natural
Language Processing (NLP) and Computer Vision. The learnt representations are
evaluated using downstream classification and regression tasks. The methodology
adopted can be extended beyond the scope of this project as it uses
Auto-Encoders for unsupervised representation learning.
- Abstract(参考訳): 近年、マルチモーダルAIは、研究者がテキスト、画像、スピーチなどのさまざまなタイプのデータをモデリングに組み込んで、最高の結果を得ている。
このプロジェクトは、テキストと画像データを同時に表現学習するためにマルチモーダルaiと行列因子化技術を活用しており、自然言語処理(nlp)とコンピュータビジョンという広く使われている技術を利用している。
学習表現は下流分類と回帰タスクを用いて評価される。
採用されている方法論は、教師なし表現学習にオートエンコーダを使用するため、このプロジェクトの範囲を超えて拡張することができる。
関連論文リスト
- Multimodal Representation Learning using Adaptive Graph Construction [0.5221459608786241]
マルチモーダルコントラスト学習は、画像やテキストなどの異種ソースからのデータをレバーゲイトすることでニューラルネットワークを訓練する。
任意の数のモダライトから表現を学習できる新しいコントラスト学習フレームワークであるAutoBINDを提案する。
本稿では,AutoBINDが従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-08T21:57:46Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Using Multiple Instance Learning to Build Multimodal Representations [3.354271620160378]
画像テキストによるマルチモーダル表現学習は、モダリティ間でデータを整列させ、重要な医療応用を可能にする。
本稿では,既存の多モーダル表現学習手法を特例として,置換不変スコア関数を構築するための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-11T18:01:11Z) - Masked Vision and Language Modeling for Multi-modal Representation
Learning [62.15254888833132]
視覚と言語(V+L)表現学習におけるマスク信号モデリングの使い方について検討する。
我々は,あるモダリティのマスク信号が他のモダリティの助けを借りて再構成される,共同マスク型視覚と言語モデリングを構築することを提案する。
種々のV+Lタスクに対する実験により,提案手法は大量のデータを用いて最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-08-03T15:11:01Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。