論文の概要: Do DALL-E and Flamingo Understand Each Other?
- arxiv url: http://arxiv.org/abs/2212.12249v1
- Date: Fri, 23 Dec 2022 10:46:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 16:27:46.438006
- Title: Do DALL-E and Flamingo Understand Each Other?
- Title(参考訳): DALL-EとFlamingoはお互いに理解しているのか?
- Authors: Hang Li, Jindong Gu, Rajat Koner, Sahand Sharifzadeh, Volker Tresp
- Abstract要約: マルチモーダル研究の大きな目標は、画像とテキストの機械的理解を改善することである。
研究は画像とテキストの関係に焦点を当てている。
本稿では,テキスト・画像生成モデルと画像・画像生成モデルの両方を含む統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.774800573516224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major goal of multimodal research is to improve machine understanding of
images and text. Tasks include image captioning, text-to-image generation, and
vision-language representation learning. So far, research has focused on the
relationships between images and text. For example, captioning models attempt
to understand the semantics of images which are then transformed into text. An
important question is: which annotation reflects best a deep understanding of
image content? Similarly, given a text, what is the best image that can present
the semantics of the text? In this work, we argue that the best text or caption
for a given image is the text which would generate the image which is the most
similar to that image. Likewise, the best image for a given text is the image
that results in the caption which is best aligned with the original text. To
this end, we propose a unified framework that includes both a text-to-image
generative model and an image-to-text generative model. Extensive experiments
validate our approach.
- Abstract(参考訳): マルチモーダル研究の大きな目標は、画像とテキストの機械的理解を改善することである。
タスクには、画像キャプション、テキストから画像への生成、視覚言語表現学習が含まれる。
これまでの研究は、画像とテキストの関係に焦点を当ててきた。
例えば、キャプションモデルは、その後テキストに変換される画像の意味を理解しようとする。
どのアノテーションが画像コンテンツの深い理解を最善に反映しているか?
同様に、テキストが与えられたとき、テキストの意味を表現できる最良のイメージは何ですか?
本研究では,与えられた画像に対して最適なテキストやキャプションは,その画像に最もよく似た画像を生成するテキストである,と論じる。
同様に、与えられたテキストの最良の画像は、元のテキストと最もよく一致したキャプションの結果となる画像である。
そこで本稿では,テキスト対画像生成モデルと画像対テキスト生成モデルの両方を含む統一フレームワークを提案する。
広範な実験は我々のアプローチを検証する。
関連論文リスト
- Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - A Novel Evaluation Framework for Image2Text Generation [15.10524860121122]
本稿では,画像生成が可能な現代大規模言語モデル(LLM)に根ざした評価フレームワークを提案する。
高い類似度スコアは、画像キャプションモデルが正確にテキスト記述を生成することを示唆している。
類似度の低いスコアは相違点を示し、モデルの性能の潜在的な欠点を明らかにする。
論文 参考訳(メタデータ) (2024-08-03T09:27:57Z) - DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Swinv2-Imagen: Hierarchical Vision Transformer Diffusion Models for
Text-to-Image Generation [25.14323931233249]
階層型ビジュアルトランスフォーマとセマンティックレイアウトを取り入れたシーングラフに基づくテキスト・画像拡散モデルを提案する。
提案モデルでは, 実体と関係の特徴ベクトルを抽出し, 拡散モデルに関係付ける。
我々はまた、CNN畳み込み操作に起因する問題に対処できるSwinv2-Unetと呼ばれるSwin-TransformerベースのUNetアーキテクチャも導入した。
論文 参考訳(メタデータ) (2022-10-18T02:50:34Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Image Retrieval from Contextual Descriptions [22.084939474881796]
文脈記述による画像検索(ImageCoDe)
文脈記述に基づく10の最小限のコントラスト候補から正しい画像を取得するためのモデル。
ビデオフレームでは20.9、静的画像では59.4の精度で、人間では90.8である。
論文 参考訳(メタデータ) (2022-03-29T19:18:12Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。