論文の概要: Visual Conceptual Blending with Large-scale Language and Vision Models
- arxiv url: http://arxiv.org/abs/2106.14127v1
- Date: Sun, 27 Jun 2021 02:48:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 06:02:23.080595
- Title: Visual Conceptual Blending with Large-scale Language and Vision Models
- Title(参考訳): 大規模言語と視覚モデルによる視覚概念のブレンド
- Authors: Songwei Ge and Devi Parikh
- Abstract要約: 言語モデルを用いて2つのブレンドの単一文記述を生成する。
テキストベース画像生成モデルを用いてブレンドの視覚的描写を生成する。
- 参考スコア(独自算出の注目度): 54.251383721475655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We ask the question: to what extent can recent large-scale language and image
generation models blend visual concepts? Given an arbitrary object, we identify
a relevant object and generate a single-sentence description of the blend of
the two using a language model. We then generate a visual depiction of the
blend using a text-based image generation model. Quantitative and qualitative
evaluations demonstrate the superiority of language models over classical
methods for conceptual blending, and of recent large-scale image generation
models over prior models for the visual depiction.
- Abstract(参考訳): 最近の大規模言語と画像生成モデルは、どのようにして視覚概念を融合できるのか?
任意のオブジェクトが与えられた場合、関連するオブジェクトを識別し、言語モデルを用いて2つのブレンドのシングルセンテンス記述を生成する。
次にテキストベース画像生成モデルを用いてブレンドの視覚的描写を生成する。
定量的・質的評価は, 古典的ブレンド法よりも言語モデルが優れていること, 視覚表現の先行モデルよりも近年の大規模画像生成モデルが優れていることを示す。
関連論文リスト
- Elucidating the design space of language models for image generation [13.96798987912677]
画像トークンはテキストトークンと比較してランダム性が高いことを示す。
また, 画像生成における局所的情報の重要性を, 全てのモデルで把握できたが, より小さなモデルでは, グローバルな文脈を捉えるのに苦労していることがわかった。
我々の研究は、視覚生成における言語モデルの最適化挙動を初めて分析し、他の領域にLMを適用する際に、より効果的な設計を刺激できると考えている。
論文 参考訳(メタデータ) (2024-10-21T17:57:04Z) - OCC-MLLM:Empowering Multimodal Large Language Model For the Understanding of Occluded Objects [2.850097504458451]
本稿では,新たに設計されたビジュアルエンコーダを用いて,RGB画像の隠蔽対象を理解する新しいマルチモーダルモデルを提案する。
また、大規模視覚言語ペアデータセットを導入し、大規模視覚言語マルチモーダルモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-10-02T06:14:49Z) - Reading Is Believing: Revisiting Language Bottleneck Models for Image Classification [4.1205832766381985]
我々は、画像分類のためのディープラーニングモデルの説明可能性を保証するアプローチとして、言語ボトルネックモデルを再考する。
実験により、現代の画像キャプタと事前訓練された言語モデルを組み合わせた言語ボトルネックモデルにより、ブラックボックスモデルを超える画像分類精度が得られることを示す。
論文 参考訳(メタデータ) (2024-06-22T10:49:34Z) - Bridging Different Language Models and Generative Vision Models for
Text-to-Image Generation [12.024554708901514]
テキスト・ツー・イメージ生成のための多種多様な事前学習言語モデルと生成視覚モデルの統合を可能にするパイプラインであるLaVi-Bridgeを提案する。
私たちのパイプラインは、様々な言語モデルと生成視覚モデルと互換性があり、異なる構造を収容しています。
論文 参考訳(メタデータ) (2024-03-12T17:50:11Z) - A Vision Check-up for Language Models [61.852026871772914]
テキストのモデルを用いて、予備的な視覚表現学習システムをどのように訓練するかを示す。
自己教師付き視覚表現学習の実験は、自然画像のセマンティックアセスメントを行うことができる視覚モデルを訓練する可能性を強調している。
論文 参考訳(メタデータ) (2024-01-03T18:09:33Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - Visual Clues: Bridging Vision and Language Foundations for Image
Paragraph Captioning [78.07495777674747]
我々は、視覚的手がかりを用いて、大きな事前訓練された視覚基盤モデルと言語モデルをブリッジすることで、余分なクロスモーダルトレーニングなしでそれを行うことができると論じる。
基礎モデルの強力なゼロショット機能のおかげで、画像のリッチなセマンティック表現を構築することから始める。
大規模言語モデルを用いて視覚的コンテンツを包括的に記述し、視覚モデルによって再度検証し、画像に最適な候補を選択する。
論文 参考訳(メタデータ) (2022-06-03T22:33:09Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。