論文の概要: M2FN: Multi-step Modality Fusion for Advertisement Image Assessment
- arxiv url: http://arxiv.org/abs/2102.00441v2
- Date: Tue, 2 Feb 2021 04:11:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 12:49:30.290581
- Title: M2FN: Multi-step Modality Fusion for Advertisement Image Assessment
- Title(参考訳): M2FN:マルチステップモダリティ融合による画像評価
- Authors: Kyung-Wha Park (1), Jung-Woo Ha (2), JungHoon Lee (3), Sunyoung Kwon
(4), Kyung-Min Kim (2), Byoung-Tak Zhang (1 and 5 and 6) ((1)
Interdisciplinary Program in Neuroscience, Seoul National University., (2)
NAVER AI LAB, NAVER CLOVA., (3) Statistics and Actuarial Science, Soongsil
University., (4) School of Biomedical Convergence Engineering, Pusan National
University., (5) Department of Computer Science and Engineering, Seoul
National University., (6) Surromind Robotics.)
- Abstract要約: 本稿では,ユーザの嗜好に訴える可能性のある広告画像を決定するマルチステップ・モダリティ・フュージョン・ネットワーク(M2FN)を提案する。
M2FNは、豊富な補助属性を持つ実世界の広告データセットを用いて、好みの予測において最先端のパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Assessing advertisements, specifically on the basis of user preferences and
ad quality, is crucial to the marketing industry. Although recent studies have
attempted to use deep neural networks for this purpose, these studies have not
utilized image-related auxiliary attributes, which include embedded text
frequently found in ad images. We, therefore, investigated the influence of
these attributes on ad image preferences. First, we analyzed large-scale
real-world ad log data and, based on our findings, proposed a novel multi-step
modality fusion network (M2FN) that determines advertising images likely to
appeal to user preferences. Our method utilizes auxiliary attributes through
multiple steps in the network, which include conditional batch
normalization-based low-level fusion and attention-based high-level fusion. We
verified M2FN on the AVA dataset, which is widely used for aesthetic image
assessment, and then demonstrated that M2FN can achieve state-of-the-art
performance in preference prediction using a real-world ad dataset with rich
auxiliary attributes.
- Abstract(参考訳): 特にユーザーの嗜好と広告品質に基づいて広告を評価することは、マーケティング業界にとって重要です。
近年の研究では、ディープニューラルネットワークの利用を試みているが、これらの研究では画像関連補助属性(ad画像に頻繁に見られる埋め込みテキストを含む)は使用されていない。
そこで,これらの属性が広告イメージの嗜好に与える影響を検討した。
まず, 大規模実世界の広告ログデータを分析し, 本研究に基づいて, ユーザの好みにアピールしそうな広告画像を決定する新しいマルチステップモダリティ融合ネットワーク (m2fn) を提案する。
本手法は,条件付きバッチ正規化に基づく低レベル融合と注意に基づく高レベル融合を含む,ネットワーク内の複数のステップを通じて補助属性を利用する。
M2FNは、美的画像評価に広く使用されているAVAデータセット上で検証し、豊富な補助属性を持つ実世界の広告データセットを用いて、嗜好予測における最先端のパフォーマンスを達成できることを実証しました。
関連論文リスト
- DDF: A Novel Dual-Domain Image Fusion Strategy for Remote Sensing Image
Semantic Segmentation with Unsupervised Domain Adaptation [6.799138132330112]
非教師なしドメイン適応(UDA)は、対象ドメインからの未分類情報を組み込む際に有利であることが証明されている。
本稿では,新しいデュアルドメイン画像融合戦略とともに,ハイブリッドトレーニング戦略を提案する。
提案手法の有効性は,ISPRS Vaihingen および Potsdam データセットを用いて行った広範囲なベンチマーク実験およびアブレーション研究によって実証された。
論文 参考訳(メタデータ) (2024-03-05T08:57:28Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning Image Deraining Transformer Network with Dynamic Dual
Self-Attention [46.11162082219387]
本稿では,動的二重自己アテンション(DDSA)を用いた画像デコライニング変換器を提案する。
具体的には、トップk近似計算に基づいて、最も有用な類似度値のみを選択し、スパースアテンションを実現する。
また,高品質な定位結果を得るためのより正確な表現を実現するために,新しい空間拡張フィードフォワードネットワーク(SEFN)を開発した。
論文 参考訳(メタデータ) (2023-08-15T13:59:47Z) - Learning Profitable NFT Image Diffusions via Multiple Visual-Policy
Guided Reinforcement Learning [69.60868581184366]
NFT画像に対する報酬として,複数ビジュアルポリシーを用いた拡散型生成フレームワークを提案する。
提案するフレームワークは,大規模言語モデル (LLM) と拡散型画像生成装置,および設計による視覚的報酬からなる。
我々のフレームワークは、SOTAのアプローチと比較して、より視覚的に魅力的な要素と高い市場価値を示すNFT画像を生成することができる。
論文 参考訳(メタデータ) (2023-06-20T17:59:46Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Aesthetic Attribute Assessment of Images Numerically on Mixed
Multi-attribute Datasets [16.120684660965978]
我々は、属性(AMD-A)を用いた美的混合データセットと呼ばれる画像属性データセットを構築し、融合のための外部属性特徴を設計する。
我々のモデルは、美的分類、総合評価、属性スコアを達成できる。
MindSporeを用いた実験結果から,本手法は審美的総合評価と属性評価を効果的に改善できることが示された。
論文 参考訳(メタデータ) (2022-07-05T04:42:10Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Inertial Sensor Data To Image Encoding For Human Action Recognition [0.0]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンの分野で成功したディープラーニングモデルである。
本稿では,慣性センサデータから活動画像への変換に4種類の空間領域法を用いる。
マルチモーダル・フュージョン・フレームワークを構築するために,2つの空間領域フィルタを結合して各種類のアクティビティ・イメージをマルチモーダル化した。
論文 参考訳(メタデータ) (2021-05-28T01:22:52Z) - Unpaired Image Enhancement with Quality-Attention Generative Adversarial
Network [92.01145655155374]
品質の注意を払わないデータに基づいて訓練された生成敵対ネットワーク(QAGAN)を提案する。
提案されたQAGANの重要な新規性は、ジェネレータの注入されたQAMにある。
提案手法は客観的評価と主観評価の両方において良好な性能を実現する。
論文 参考訳(メタデータ) (2020-12-30T05:57:20Z) - DoFE: Domain-oriented Feature Embedding for Generalizable Fundus Image
Segmentation on Unseen Datasets [96.92018649136217]
対象ドメインに対するCNNの一般化能力を向上させるために,新しいドメイン指向特徴埋め込み(DoFE)フレームワークを提案する。
私たちのDoFEフレームワークは、マルチソースドメインから学んだ追加のドメイン事前知識で、画像機能を動的に強化します。
本フレームワークは、未確認データセットのセグメンテーション結果を満足して生成し、他の領域の一般化やネットワークの正規化手法を超越する。
論文 参考訳(メタデータ) (2020-10-13T07:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。