論文の概要: Generative Engine Optimization: A VLM and Agent Framework for Pinterest Acquisition Growth
- arxiv url: http://arxiv.org/abs/2602.02961v1
- Date: Tue, 03 Feb 2026 00:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.163692
- Title: Generative Engine Optimization: A VLM and Agent Framework for Pinterest Acquisition Growth
- Title(参考訳): 生成エンジン最適化:Pinterestの買収成長のためのVLMとエージェントフレームワーク
- Authors: Faye Zhang, Qianyu Cheng, Jasmine Wan, Vishwakarma Singh, Jinfeng Rao, Kofi Boakye,
- Abstract要約: Pinterest GEOは、リバース検索設計のパイオニアであるプロダクションスケールのフレームワークである。
コンテンツを記述した一般的な画像キャプションを生成するのではなく、Vision-Language Modelsを微調整して、ユーザーが実際に何を検索するかを予測する。
我々は、数十億の視覚資産にまたがる信号を伝達する権威を意識した相互接続構造を構築するために、ハイブリッドVLMと2tower ANNアーキテクチャを採用している。
- 参考スコア(独自算出の注目度): 2.1440674382333715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models are fundamentally reshaping content discovery through AI-native search systems such as ChatGPT, Gemini, and Claude. Unlike traditional search engines that match keywords to documents, these systems infer user intent, synthesize multimodal evidence, and generate contextual answers directly on the search page, introducing a paradigm shift from Search Engine Optimization (SEO) to Generative Engine Optimization (GEO). For visual content platforms hosting billions of assets, this poses an acute challenge: individual images lack the semantic depth and authority signals that generative search prioritizes, risking disintermediation as user needs are satisfied in-place without site visits. We present Pinterest GEO, a production-scale framework that pioneers reverse search design: rather than generating generic image captions describing what content is, we fine-tune Vision-Language Models (VLMs) to predict what users would actually search for, augmented this with AI agents that mine real-time internet trends to capture emerging search demand. These VLM-generated queries then drive construction of semantically coherent Collection Pages via multimodal embeddings, creating indexable aggregations optimized for generative retrieval. Finally, we employ hybrid VLM and two-tower ANN architectures to build authority-aware interlinking structures that propagate signals across billions of visual assets. Deployed at scale across billions of images and tens of millions of collections, GEO delivers 20\% organic traffic growth contributing to multi-million monthly active user (MAU) growth, demonstrating a principled pathway for visual platforms to thrive in the generative search era.
- Abstract(参考訳): 大規模言語モデルは、ChatGPT、Gemini、ClaudeといったAIネイティブ検索システムを通じて、コンテンツ発見を根本的に再構築している。
キーワードを文書にマッチさせる従来の検索エンジンとは異なり、これらのシステムはユーザ意図を推論し、マルチモーダルなエビデンスを合成し、検索エンジン最適化(SEO)からジェネレーティブエンジン最適化(GEO)へのパラダイムシフトを導入する。
何十億もの資産をホストするビジュアルコンテンツプラットフォームにとって、これは深刻な課題である。個々の画像には、生成検索が優先する意味的な深さと権限信号が欠けている。
Pinterest GEOは、リバース検索デザインの先駆けとなる、プロダクションスケールのフレームワークである。コンテンツが何であるかを記述する一般的なイメージキャプションを生成するのではなく、ユーザが実際に何を検索するかを予測するために、ユーザが実際に検索するかどうかを予測するためにVLM(Vision-Language Models)を微調整し、新たな検索需要を捉えるために、リアルタイムインターネットトレンドをマイニングするAIエージェントでこれを拡張します。
これらのVLM生成クエリは、マルチモーダル埋め込みを通じてセマンティックコヒーレントなコレクションページの構築を駆動し、生成的検索に最適化されたインデックス可能な集約を生成する。
最後に、ハイブリッドVLMと2tower ANNアーキテクチャを用いて、数十億の視覚資産をまたがる信号を伝達する権威を意識した相互接続構造を構築します。
数十億のイメージと数千万のコレクションにスケールしてデプロイされたGEOは、数百万の月間アクティブユーザ(MAU)の成長に寄与する20倍のオーガニックトラフィック成長を提供し、ビジュアルプラットフォームが生成検索時代に成長するための原則的な経路を示す。
関連論文リスト
- Caption Injection for Optimization in Generative Search Engine [15.472540238931202]
ジェネレーティブ検索エンジン(GSE)は検索拡張生成(RAG)技術とLarge Language Models(LLM)を活用する
本稿では,画像からキャプションを抽出し,テキストコンテンツに注入する,最初のマルチモーダルG-SEO手法であるCaption Injectionを提案する。
実験結果から, キャプションインジェクションはテキストのみのG-SEOベースラインをG-Evalで有意に上回ることがわかった。
論文 参考訳(メタデータ) (2025-11-06T05:37:27Z) - DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search [61.77858432092777]
DeepMMSearch-R1は,オンデマンドでマルチターンWeb検索が可能な,最初のマルチモーダルな大規模言語モデルである。
DeepMMSearch-R1は、画像検索をより効果的にするために、入力画像の関連する作物に基づいてWeb検索を開始することができる。
我々は、アプローチの優位性を実証するために、知識集約型ベンチマークを幅広く実施する。
論文 参考訳(メタデータ) (2025-10-14T17:59:58Z) - UniSearch: Rethinking Search System with a Unified Generative Architecture [20.448690421956023]
UniSearchはKuaishou Searchのための統合された生成検索フレームワークである。
UniSearchは、カスケードパイプラインを、検索ジェネレータとビデオジェネレータを統合するエンドツーエンドアーキテクチャに置き換える。
産業規模のデータセットに関する大規模な実験と、短いビデオとライブ検索のシナリオにおけるオンラインA/Bテストは、UniSearchの強力な有効性とデプロイメントの可能性を示している。
論文 参考訳(メタデータ) (2025-09-08T17:08:26Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs [70.79124435220695]
セマンティック強化型Cross-mOdal Retrievalフレームワーク(SemCORE)を提案する。
まず,自然言語の理解と生成に最適化された生成モデルとターゲット識別子を効果的に整合させる構造化自然言語識別器(SID)を構築した。
次に、粒度の細かいターゲット識別を可能にするジェネレーティブ・セマンティック・検証(GSV)戦略を導入する。
論文 参考訳(メタデータ) (2025-04-17T17:59:27Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - GEO: Generative Engine Optimization [50.45232692363787]
我々は、生成エンジン(GE)の統一的な枠組みを定式化する。
GEは大規模な言語モデル(LLM)を使用して情報を収集し、ユーザクエリに応答する。
生成エンジンは通常、複数のソースから情報を合成し、それらを要約することでクエリを満足する。
我々は、生成エンジン応答におけるコンテンツの可視性向上を支援するために、コンテンツ作成者を支援する最初の新しいパラダイムである生成エンジン最適化(GEO)を紹介する。
論文 参考訳(メタデータ) (2023-11-16T10:06:09Z) - A Comprehensive Survey of AI-Generated Content (AIGC): A History of
Generative AI from GAN to ChatGPT [63.58711128819828]
ChatGPTおよびその他の生成AI(GAI)技術は、人工知能生成コンテンツ(AIGC)のカテゴリに属している。
AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。
論文 参考訳(メタデータ) (2023-03-07T20:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。