論文の概要: KAFA: Rethinking Image Ad Understanding with Knowledge-Augmented Feature
Adaptation of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2305.18373v1
- Date: Sun, 28 May 2023 04:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 22:02:33.273998
- Title: KAFA: Rethinking Image Ad Understanding with Knowledge-Augmented Feature
Adaptation of Vision-Language Models
- Title(参考訳): KAFA:視覚言語モデルの知識付加的特徴適応による画像広告理解の再考
- Authors: Zhiwei Jia and Pradyumna Narayana and Arjun R. Akula and Garima Pruthi
and Hao Su and Sugato Basu and Varun Jampani
- Abstract要約: 我々は、事前学習された視覚言語モデル(VLM)のレンズによる画像広告理解に関する最初の実証的研究を行う。
本稿では,画像広告のマルチモーダル情報を効果的に融合する機能適応戦略を提案する。
- 参考スコア(独自算出の注目度): 40.54372699488922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image ad understanding is a crucial task with wide real-world applications.
Although highly challenging with the involvement of diverse atypical scenes,
real-world entities, and reasoning over scene-texts, how to interpret image ads
is relatively under-explored, especially in the era of foundational
vision-language models (VLMs) featuring impressive generalizability and
adaptability. In this paper, we perform the first empirical study of image ad
understanding through the lens of pre-trained VLMs. We benchmark and reveal
practical challenges in adapting these VLMs to image ad understanding. We
propose a simple feature adaptation strategy to effectively fuse multimodal
information for image ads and further empower it with knowledge of real-world
entities. We hope our study draws more attention to image ad understanding
which is broadly relevant to the advertising industry.
- Abstract(参考訳): 画像広告の理解は、幅広い現実世界のアプリケーションにとって重要な課題だ。
多様な非定型シーン、現実世界の実体、シーンテキストの推論の関与は極めて困難であるが、画像広告の解釈方法は、特に目覚しい一般化性と適応性を特徴とする基礎的な視覚言語モデル(VLM)の時代において、比較的過小評価されている。
本稿では、事前学習したvlmのレンズを通して、画像広告理解に関する最初の実証研究を行う。
我々は、これらのVLMを画像広告理解に適用するための実践的な課題をベンチマークし、明らかにする。
本稿では,画像広告にマルチモーダル情報を効果的に融合し,実世界の知識を付与するシンプルな特徴適応戦略を提案する。
我々は、この研究が、広告業界に広く関連する画像広告理解にさらに注意を向けることを望む。
関連論文リスト
- Enhancing Image Retrieval : A Comprehensive Study on Photo Search using
the CLIP Mode [0.27195102129095]
写真検索はCLIP(Contrastive Language- Image Pretraining)モデルの導入によって大きな進歩をみせた。
この要約は、CLIPの基本原理を要約し、写真検索の分野を前進させる可能性を強調している。
論文 参考訳(メタデータ) (2024-01-24T17:35:38Z) - Remote Sensing Vision-Language Foundation Models without Annotations via
Ground Remote Alignment [61.769441954135246]
テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。
私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。
論文 参考訳(メタデータ) (2023-12-12T03:39:07Z) - Generating Action-conditioned Prompts for Open-vocabulary Video Action
Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。
我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。
提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文 参考訳(メタデータ) (2023-12-04T02:31:38Z) - Improving In-Context Learning in Diffusion Models with Visual
Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。
iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。
拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2023-12-03T14:15:52Z) - FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo
Embeddings [27.2486625516539]
ロゴ埋め込みの堅牢性を向上させるために,テキスト知識を補助として活用する新しい手法を提案する。
我々は、画像埋め込みクエリがテキスト埋め込みから補足的知識を自動学習できるようにするために、クロスアテンショントランスフォーマーを採用している。
実世界の3つのデータセットに対する実験により、FashionLOGOは一般化されたロバストなロゴ埋め込みを学習することを示した。
論文 参考訳(メタデータ) (2023-08-17T14:30:26Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。
VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文 参考訳(メタデータ) (2022-08-19T14:39:18Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Interpretable Visual Understanding with Cognitive Attention Network [20.991018495051623]
視覚的コモンセンス推論のための認知意識ネットワーク(CAN)を提案する。
まず、画像とテキストの情報をまとめて融合するための画像テキスト融合モジュールを導入する。
第二に、新しい推論モジュールは、画像、クエリ、レスポンスのコモンセンスをエンコードするように設計されている。
論文 参考訳(メタデータ) (2021-08-06T02:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。