論文の概要: Automatic Creative Selection with Cross-Modal Matching
- arxiv url: http://arxiv.org/abs/2405.00029v1
- Date: Wed, 28 Feb 2024 22:05:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 11:29:30.898476
- Title: Automatic Creative Selection with Cross-Modal Matching
- Title(参考訳): クロスモーダルマッチングによる自動創造的選択
- Authors: Alex Kim, Jia Huang, Rob Monarch, Jerry Kwac, Anikesh Kamath, Parmeshwar Khurd, Kailash Thiyagarajan, Goodman Gu,
- Abstract要約: 本稿では,事前学習したLXMERTモデルに基づいて,検索語にAppイメージをマッチングする手法を提案する。
提案手法は,あるアプリケーションに対する広告主関連(画像,検索語)ペアと,(画像,検索語)ペア間の関連性に関する人間評価の2つを用いて評価する。
- 参考スコア(独自算出の注目度): 0.4215938932388723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Application developers advertise their Apps by creating product pages with App images, and bidding on search terms. It is then crucial for App images to be highly relevant with the search terms. Solutions to this problem require an image-text matching model to predict the quality of the match between the chosen image and the search terms. In this work, we present a novel approach to matching an App image to search terms based on fine-tuning a pre-trained LXMERT model. We show that compared to the CLIP model and a baseline using a Transformer model for search terms, and a ResNet model for images, we significantly improve the matching accuracy. We evaluate our approach using two sets of labels: advertiser associated (image, search term) pairs for a given application, and human ratings for the relevance between (image, search term) pairs. Our approach achieves 0.96 AUC score for advertiser associated ground truth, outperforming the transformer+ResNet baseline and the fine-tuned CLIP model by 8% and 14%. For human labeled ground truth, our approach achieves 0.95 AUC score, outperforming the transformer+ResNet baseline and the fine-tuned CLIP model by 16% and 17%.
- Abstract(参考訳): アプリケーション開発者は、Appイメージで製品ページを作成し、検索用語で入札することで、Appsを宣伝する。
そして、Appイメージが検索用語と深く関連していることが重要です。
この問題の解決策は、選択した画像と検索語とのマッチングの品質を予測するために、画像テキストマッチングモデルを必要とする。
本研究では,事前学習したLXMERTモデルに基づいて,検索語にAppイメージをマッチングする手法を提案する。
本稿では,検索語にTransformerモデル,画像にResNetモデルを用いたCLIPモデルとベースラインを比較し,マッチング精度を大幅に向上することを示す。
提案手法は,あるアプリケーションに対する広告主関連(画像,検索語)ペアと,(画像,検索語)ペア間の関連性に関する人間評価の2つを用いて評価する。
提案手法は広告主関連真実に対して0.96AUCスコアを達成し,トランスフォーマー+ResNetベースラインと微調整CLIPモデルよりも8%,14%向上した。
提案手法は,人間ラベル付き地上真実に対して0.95AUCスコアを達成し,トランスフォーマー+ResNetベースラインと微調整CLIPモデルの16%と17%を上回った。
関連論文リスト
- Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - Few-Shot Anomaly Detection via Category-Agnostic Registration Learning [65.64252994254268]
既存のほとんどの異常検出方法は、各カテゴリに専用のモデルを必要とする。
この記事では、新しい数ショットAD(FSAD)フレームワークを提案する。
これは新しいカテゴリーのモデル微調整を必要としない最初のFSAD法である。
論文 参考訳(メタデータ) (2024-06-13T05:01:13Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Multi-method Integration with Confidence-based Weighting for Zero-shot Image Classification [1.7265013728931]
本稿では,ゼロショット学習(ZSL)のための新しいフレームワークを提案する。
本稿では,ZSLを扱うためのモデルの性能向上のための3つの戦略を提案する。
論文 参考訳(メタデータ) (2024-05-03T15:02:41Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - One-Time Model Adaptation to Heterogeneous Clients: An Intra-Client and
Inter-Image Attention Design [40.97593636235116]
既存のバックボーン認識モデルに新たなICIIAモジュールを提案する。
特に、特定のクライアントからのターゲット画像が与えられた場合、ICIIAはクライアントの歴史的未ラベル画像から関連画像を取得するために、マルチヘッド自己アテンションを導入する。
ICIIAを5つの代表的なデータセットに対して9つのバックボーンモデルを用いて3つの異なる認識タスクを用いて評価した。
論文 参考訳(メタデータ) (2022-11-11T15:33:21Z) - Identical Image Retrieval using Deep Learning [0.0]
私たちは最先端のモデルであるBigTransfer Modelを使用しています。
我々は、K-Nearest Neighborモデルで重要な特徴を抽出し、最も近い隣人を得るために訓練する。
本モデルの応用は,低推論時間でテキストクエリによって実現し難い,類似した画像を見つけることである。
論文 参考訳(メタデータ) (2022-05-10T13:34:41Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。