Fugu-MT 論文翻訳(概要): KAFA: Rethinking Image Ad Understanding with Knowledge-Augmented Feature Adaptation of Vision-Language Models

論文の概要: KAFA: Rethinking Image Ad Understanding with Knowledge-Augmented Feature Adaptation of Vision-Language Models

arxiv url: http://arxiv.org/abs/2305.18373v1
Date: Sun, 28 May 2023 04:49:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 22:02:33.273998
Title: KAFA: Rethinking Image Ad Understanding with Knowledge-Augmented Feature Adaptation of Vision-Language Models
Title（参考訳）: KAFA:視覚言語モデルの知識付加的特徴適応による画像広告理解の再考
Authors: Zhiwei Jia and Pradyumna Narayana and Arjun R. Akula and Garima Pruthi and Hao Su and Sugato Basu and Varun Jampani
Abstract要約: 我々は、事前学習された視覚言語モデル(VLM)のレンズによる画像広告理解に関する最初の実証的研究を行う。本稿では,画像広告のマルチモーダル情報を効果的に融合する機能適応戦略を提案する。
参考スコア（独自算出の注目度）: 40.54372699488922
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image ad understanding is a crucial task with wide real-world applications. Although highly challenging with the involvement of diverse atypical scenes, real-world entities, and reasoning over scene-texts, how to interpret image ads is relatively under-explored, especially in the era of foundational vision-language models (VLMs) featuring impressive generalizability and adaptability. In this paper, we perform the first empirical study of image ad understanding through the lens of pre-trained VLMs. We benchmark and reveal practical challenges in adapting these VLMs to image ad understanding. We propose a simple feature adaptation strategy to effectively fuse multimodal information for image ads and further empower it with knowledge of real-world entities. We hope our study draws more attention to image ad understanding which is broadly relevant to the advertising industry.
Abstract（参考訳）: 画像広告の理解は、幅広い現実世界のアプリケーションにとって重要な課題だ。多様な非定型シーン、現実世界の実体、シーンテキストの推論の関与は極めて困難であるが、画像広告の解釈方法は、特に目覚しい一般化性と適応性を特徴とする基礎的な視覚言語モデル(VLM)の時代において、比較的過小評価されている。本稿では、事前学習したvlmのレンズを通して、画像広告理解に関する最初の実証研究を行う。我々は、これらのVLMを画像広告理解に適用するための実践的な課題をベンチマークし、明らかにする。本稿では,画像広告にマルチモーダル情報を効果的に融合し,実世界の知識を付与するシンプルな特徴適応戦略を提案する。我々は、この研究が、広告業界に広く関連する画像広告理解にさらに注意を向けることを望む。

関連論文リスト

Improving Fine-grained Visual Understanding in VLMs through Text-Only Training [0.0]
テキストのみの学習を通して視覚言語モデル(VLM)におけるきめ細かい視覚的理解を高める可能性について検討する。我々は2つの異なる領域、細粒度の種分類と文化的な視覚的理解タスクについて包括的な実験を行った。その結果,テキストのみのトレーニングは従来の画像テキスト学習に匹敵するが,計算コストは大幅に削減できることがわかった。
論文参考訳（メタデータ） (2024-12-17T14:18:50Z)
COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training [49.2684130383925]
視覚言語事前学習のためのCOSMOS: CrOSs-modality Self-distillationを提案する。新たなテキストクロッピング戦略とクロスアテンションモジュールを自己教師型学習フレームワークに統合する。さまざまなゼロショットダウンストリームタスクにおいて、以前の強いベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2024-12-02T18:56:06Z)
What's in the Image? A Deep-Dive into the Vision of Vision Language Models [20.669971132114195]
VLM(Vision-Language Models)は、最近、複雑な視覚コンテンツを解釈する際、顕著な能力を示した。本稿では,各層にまたがるアテンションモジュールに着目し,徹底的な経験分析を行う。これらのモデルが視覚データをどのように処理するかについて、いくつかの重要な洞察を明らかにします。
論文参考訳（メタデータ） (2024-11-26T14:59:06Z)
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity [68.15983300711355]
Fine CapTIONは、任意のマスクを参照入力として認識し、異なるレベルの合成画像キャプションのための高解像度画像を処理する新しいVLMである。本研究では,多粒領域合成画像キャプションのための新しいデータセットであるコンポジションCAPを紹介し,コンポジション属性対応地域画像キャプションの課題を紹介した。
論文参考訳（メタデータ） (2024-11-23T02:20:32Z)
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。 OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文参考訳（メタデータ） (2024-06-27T17:59:01Z)
An Introduction to Vision-Language Modeling [128.6223984157515]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。 VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文参考訳（メタデータ） (2024-05-27T15:01:23Z)
Enhancing Image Retrieval : A Comprehensive Study on Photo Search using the CLIP Mode [0.27195102129095]
写真検索はCLIP(Contrastive Language- Image Pretraining)モデルの導入によって大きな進歩をみせた。この要約は、CLIPの基本原理を要約し、写真検索の分野を前進させる可能性を強調している。
論文参考訳（メタデータ） (2024-01-24T17:35:38Z)
VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。 VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文参考訳（メタデータ） (2022-08-19T14:39:18Z)
Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2022-05-20T13:41:12Z)
SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-16T03:16:30Z)
Interpretable Visual Understanding with Cognitive Attention Network [20.991018495051623]
視覚的コモンセンス推論のための認知意識ネットワーク(CAN)を提案する。まず、画像とテキストの情報をまとめて融合するための画像テキスト融合モジュールを導入する。第二に、新しい推論モジュールは、画像、クエリ、レスポンスのコモンセンスをエンコードするように設計されている。
論文参考訳（メタデータ） (2021-08-06T02:57:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。