Fugu-MT 論文翻訳(概要): Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic

論文の概要: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic

arxiv url: http://arxiv.org/abs/2111.14447v1
Date: Mon, 29 Nov 2021 11:01:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-01 00:58:42.471081
Title: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
Title（参考訳）: ビジュアルセマンティック算術のためのゼロショット画像テキスト生成
Authors: Yoad Tewel, Yoav Shalev, Idan Schwartz, Lior Wolf
Abstract要約: 最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
参考スコア（独自算出の注目度）: 72.60554897161948
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent text-to-image matching models apply contrastive learning to large corpora of uncurated pairs of images and sentences. While such models can provide a powerful score for matching and subsequent zero-shot tasks, they are not capable of generating caption given an image. In this work, we repurpose such models to generate a descriptive text given an image at inference time, without any further training or tuning step. This is done by combining the visual-semantic model with a large language model, benefiting from the knowledge in both web-scale models. The resulting captions are much less restrictive than those obtained by supervised captioning methods. Moreover, as a zero-shot learning method, it is extremely flexible and we demonstrate its ability to perform image arithmetic in which the inputs can be either images or text and the output is a sentence. This enables novel high-level vision capabilities such as comparing two images or solving visual analogy tests.
Abstract（参考訳）: 最近のテキストと画像のマッチングモデルでは、画像と文の大きなコーパスにコントラスト学習を適用している。このようなモデルは、マッチングとその後のゼロショットタスクのための強力なスコアを提供するが、画像に与えられたキャプションを生成することはできない。本研究では,このようなモデルを再利用して,さらなるトレーニングやチューニングのステップを必要とせず,推論時に画像が与えられた記述テキストを生成する。これは、ビジュアル・セマンティクスモデルと大きな言語モデルを組み合わせたもので、webスケールモデルの両方の知識の恩恵を受ける。結果として得られるキャプションは、教師付きキャプションによって得られるものよりもはるかに制限が小さい。さらに,ゼロショット学習法として非常に柔軟であり,入力が画像かテキストかのいずれかであり,出力が文であるような画像演算を行う能力を示す。これにより、2つの画像の比較や視覚的アナロジーテストの解決など、新たなハイレベルな視覚機能が可能になる。

関連論文リスト

Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation [70.95783968368124]
我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
論文参考訳（メタデータ） (2024-12-02T01:19:21Z)
Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文参考訳（メタデータ） (2024-11-22T21:38:51Z)
See or Guess: Counterfactually Regularized Image Captioning [32.82695612178604]
本稿では、因果推論を利用して、既存のモデルを介入作業に役立てる汎用画像キャプションフレームワークを提案する。本手法は幻覚を効果的に低減し,画像への忠実さを向上し,小型および大規模の画像・テキスト・モデル間で高い可搬性を示す。
論文参考訳（メタデータ） (2024-08-29T17:59:57Z)
Hypernymy Understanding Evaluation of Text-to-Image Models via WordNet Hierarchy [12.82992353036576]
我々は、textithypernymy$や単語間の"is-a"関係を理解するために、人気のあるテキスト・画像モデルの有用性を測定する。私たちのメトリクスが、一般的なテキスト・ツー・イメージモデルの個々の長所と短所をよりよく理解する上で、どのように役立つかを示します。
論文参考訳（メタデータ） (2023-10-13T16:53:25Z)
ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。 Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文参考訳（メタデータ） (2023-09-11T15:54:30Z)
Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。 i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文参考訳（メタデータ） (2023-03-30T05:25:20Z)
I Can't Believe There's No Images! Learning Visual Tasks Using only Language Supervision [32.49636188029509]
4つのタスクのテキストトレーニングデータのみを用いてモデルを作成する。これらのモデルは、画像上で訓練されたモデルに近いパフォーマンスを示す。画像データと人為的な言語データを用いない,多種多様なスタイリスティックな画像キャプションモデルについて紹介する。
論文参考訳（メタデータ） (2022-11-17T18:52:19Z)
On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文参考訳（メタデータ） (2022-05-24T00:52:40Z)
Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文参考訳（メタデータ） (2021-09-22T10:57:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。