論文の概要: Zero-Shot Image Moderation in Google Ads with LLM-Assisted Textual Descriptions and Cross-modal Co-embeddings
- arxiv url: http://arxiv.org/abs/2412.16215v1
- Date: Wed, 18 Dec 2024 01:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:01:16.899757
- Title: Zero-Shot Image Moderation in Google Ads with LLM-Assisted Textual Descriptions and Cross-modal Co-embeddings
- Title(参考訳): LLM支援テキスト記述とクロスモーダル共埋め込みを用いたGoogle広告のゼロショット画像モデレーション
- Authors: Enming Luo, Wei Qiao, Katie Warren, Jingxiang Li, Eric Xiao, Krishna Viswanathan, Yuan Wang, Yintao Liu, Jimin Li, Ariel Fuxman,
- Abstract要約: われわれはGoogleの広告画像コンテンツモデレーションに対してスケーラブルでアジャイルなアプローチを提案する。
提案手法は,広告画像に違反するポリシーのゼロショット分類を可能にするために,ヒューマンキュレートされたテキスト記述とクロスモーダルなテキスト画像の共埋め込みを利用する。
- 参考スコア(独自算出の注目度): 8.143995594128315
- License:
- Abstract: We present a scalable and agile approach for ads image content moderation at Google, addressing the challenges of moderating massive volumes of ads with diverse content and evolving policies. The proposed method utilizes human-curated textual descriptions and cross-modal text-image co-embeddings to enable zero-shot classification of policy violating ads images, bypassing the need for extensive supervised training data and human labeling. By leveraging large language models (LLMs) and user expertise, the system generates and refines a comprehensive set of textual descriptions representing policy guidelines. During inference, co-embedding similarity between incoming images and the textual descriptions serves as a reliable signal for policy violation detection, enabling efficient and adaptable ads content moderation. Evaluation results demonstrate the efficacy of this framework in significantly boosting the detection of policy violating content.
- Abstract(参考訳): われわれはGoogleで画像コンテンツのモデレーションにスケーラブルでアジャイルなアプローチを提案し、多様なコンテンツで大量の広告をモデレートし、ポリシーを進化させるという課題に対処する。
提案手法は,人為的なテキスト記述とクロスモーダルなテキスト画像の共埋め込みを利用して,広告画像に違反するポリシーのゼロショット分類を可能にし,広範囲にわたる教師付きトレーニングデータやヒューマンラベリングの必要性を回避している。
大規模言語モデル(LLM)とユーザの専門知識を活用して、ポリシーガイドラインを表す包括的なテキスト記述を生成し、洗練する。
推測中、入ってくる画像とテキスト記述との類似性を共存させることで、ポリシー違反検出の信頼性の高い信号として機能し、効率よく適応可能な広告コンテンツモデレーションを可能にする。
評価結果は,政策違反コンテンツの検出を著しく促進する上で,この枠組みの有効性を示すものである。
関連論文リスト
- Prompt Augmentation for Self-supervised Text-guided Image Manipulation [34.01939157351624]
本稿では,複数のターゲットプロンプトに単一入力プロンプトを増幅し,テキストコンテキストを強化し,局所的な画像編集を可能にするプロンプト拡張手法を提案する。
本稿では,編集領域を分割し,保存領域を近くまで描画することで,効率的な画像編集を行うためのコントラストロスを提案する。
拡散モデルに新たな損失が組み込まれ、公開データセット上の改善された、あるいは競合的な画像編集結果と、最先端のアプローチによる生成画像が示される。
論文 参考訳(メタデータ) (2024-12-17T16:54:05Z) - HyperGAN-CLIP: A Unified Framework for Domain Adaptation, Image Synthesis and Manipulation [21.669044026456557]
GAN(Generative Adversarial Networks)は、非常にリアルな画像を生成する際、顕著な能力を示した。
本稿では,CLIP空間をハイパーネットワーク経由で統合することにより,事前学習したStyleGANの機能を大幅に拡張する新しいフレームワークを提案する。
提案手法は,テキスト固有のトレーニングデータを必要としないテキスト誘導画像操作が可能な,前例のない柔軟性を示す。
論文 参考訳(メタデータ) (2024-11-19T19:36:18Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Semi-supervised multimodal coreference resolution in image narrations [44.66334603518387]
マルチモーダル・コア参照分解能について検討し,特に記述テキストと画像のペア化について検討した。
これは、微粒な画像テキストアライメント、物語言語に固有のあいまいさ、大きな注釈付きトレーニングセットの有効性など、大きな課題を生じさせる。
画像ナレーションペアを用いたデータ効率のよい半教師付き手法を提案する。
論文 参考訳(メタデータ) (2023-10-20T16:10:14Z) - CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation [56.58365347854647]
私たちは、視覚言語基盤モデル、特にCLIPを適応するためのコストベースの新しいアプローチを導入します。
エンコーダの微調整により,CLIPをセグメント化,未確認のクラスに適応させる手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T12:28:21Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - Fine-grained Image Classification and Retrieval by Combining Visual and
Locally Pooled Textual Features [8.317191999275536]
特に、テキストの存在は、コンピュータビジョンタスクの多様性に対処するために使用されるべき強力なガイドコンテンツを提供する。
本稿では,テキスト情報と視覚的手がかりを併用した細粒度分類と画像検索の課題に対処し,両者の本質的な関係を解明する。
論文 参考訳(メタデータ) (2020-01-14T12:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。