論文の概要: Caption Injection for Optimization in Generative Search Engine
- arxiv url: http://arxiv.org/abs/2511.04080v1
- Date: Thu, 06 Nov 2025 05:37:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.317771
- Title: Caption Injection for Optimization in Generative Search Engine
- Title(参考訳): 生成検索エンジンにおけるキャプションインジェクションによる最適化
- Authors: Xiaolu Chen, Yong Liao,
- Abstract要約: ジェネレーティブ検索エンジン(GSE)は検索拡張生成(RAG)技術とLarge Language Models(LLM)を活用する
本稿では,画像からキャプションを抽出し,テキストコンテンツに注入する,最初のマルチモーダルG-SEO手法であるCaption Injectionを提案する。
実験結果から, キャプションインジェクションはテキストのみのG-SEOベースラインをG-Evalで有意に上回ることがわかった。
- 参考スコア(独自算出の注目度): 15.472540238931202
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative Search Engines (GSEs) leverage Retrieval-Augmented Generation (RAG) techniques and Large Language Models (LLMs) to integrate multi-source information and provide users with accurate and comprehensive responses. Unlike traditional search engines that present results in ranked lists, GSEs shift users' attention from sequential browsing to content-driven subjective perception, driving a paradigm shift in information retrieval. In this context, enhancing the subjective visibility of content through Generative Search Engine Optimization (G-SEO) methods has emerged as a new research focus. With the rapid advancement of Multimodal Retrieval-Augmented Generation (MRAG) techniques, GSEs can now efficiently integrate text, images, audio, and video, producing richer responses that better satisfy complex information needs. Existing G-SEO methods, however, remain limited to text-based optimization and fail to fully exploit multimodal data. To address this gap, we propose Caption Injection, the first multimodal G-SEO approach, which extracts captions from images and injects them into textual content, integrating visual semantics to enhance the subjective visibility of content in generative search scenarios. We systematically evaluate Caption Injection on MRAMG, a benchmark for MRAG, under both unimodal and multimodal settings. Experimental results show that Caption Injection significantly outperforms text-only G-SEO baselines under the G-Eval metric, demonstrating the necessity and effectiveness of multimodal integration in G-SEO to improve user-perceived content visibility.
- Abstract(参考訳): ジェネレーティブ検索エンジン(GSE)は、検索-拡張生成(RAG)技術とLarge Language Models(LLM)を活用して、複数のソース情報を統合し、ユーザに正確で包括的な応答を提供する。
検索結果をランク付けした従来の検索エンジンとは異なり、GSEはユーザーの注意をシーケンシャルなブラウジングからコンテンツ中心の主観的知覚にシフトさせ、情報検索のパラダイムシフトを推進している。
この文脈では、ジェネレーティブ検索エンジン最適化(G-SEO)手法によるコンテンツの主観的可視性の向上が新たな研究の焦点となっている。
MRAG(Multimodal Retrieval-Augmented Generation)技術の急速な進歩により、GSEはテキスト、画像、オーディオ、ビデオを効率的に統合し、複雑な情報要求を満足するより豊かな応答を生成することができる。
しかし、既存のG-SEO法はテキストベースの最適化に限られており、マルチモーダルデータを完全に活用できない。
画像からキャプションを抽出し、それらをテキストコンテンツに注入し、視覚的セマンティクスを統合して、生成的検索シナリオにおけるコンテンツの主観的可視性を高める、最初のマルチモーダルG-SEO手法であるCaption Injectionを提案する。
MRAGのベンチマークであるMRAMGのキャプションインジェクションを,一様条件と多モード条件の両方で体系的に評価した。
実験結果から, テキストのみのG-SEOベースラインをG-Evalメトリックで大幅に向上させ, G-SEOにおけるマルチモーダル統合の必要性と有効性を示した。
関連論文リスト
- Role-Augmented Intent-Driven Generative Search Engine Optimization [9.876307656819039]
本稿では,G-SEO(Role-Augmented Intent-Driven Generative Search Engine Optimization)法を提案する。
提案手法は,多種多様な情報的役割にまたがるリフレクティブ・リフレクティブ・リファインメントによる検索意図をモデル化し,ターゲットコンテンツの強化を可能にする。
実験結果から,検索意図がコンテンツ最適化に有効な信号であることが示された。
論文 参考訳(メタデータ) (2025-08-15T02:08:55Z) - A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs [70.79124435220695]
セマンティック強化型Cross-mOdal Retrievalフレームワーク(SemCORE)を提案する。
まず,自然言語の理解と生成に最適化された生成モデルとターゲット識別子を効果的に整合させる構造化自然言語識別器(SID)を構築した。
次に、粒度の細かいターゲット識別を可能にするジェネレーティブ・セマンティック・検証(GSV)戦略を導入する。
論文 参考訳(メタデータ) (2025-04-17T17:59:27Z) - CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model [9.224965304457708]
本稿では,新しいマルチモーダル検索フレームワークであるMLLM (CUE-M) について述べる。
画像コンテキストの強化、インテントの洗練、コンテキストクエリ生成、外部APIの統合、関連ベースのフィルタリングなどが含まれている。
知識に基づくVQAと安全性に関する実単語データセットと公開ベンチマークの実験は、CUE-Mがベースラインを上回り、新しい最先端の結果を確立することを示した。
論文 参考訳(メタデータ) (2024-11-19T07:16:48Z) - Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。
本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。
本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - GEO: Generative Engine Optimization [50.45232692363787]
我々は、生成エンジン(GE)の統一的な枠組みを定式化する。
GEは大規模な言語モデル(LLM)を使用して情報を収集し、ユーザクエリに応答する。
生成エンジンは通常、複数のソースから情報を合成し、それらを要約することでクエリを満足する。
我々は、生成エンジン応答におけるコンテンツの可視性向上を支援するために、コンテンツ作成者を支援する最初の新しいパラダイムである生成エンジン最適化(GEO)を紹介する。
論文 参考訳(メタデータ) (2023-11-16T10:06:09Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - A Unified Framework for Integrating Semantic Communication and
AI-Generated Content in Metaverse [57.317580645602895]
統合セマンティックコミュニケーションとAI生成コンテンツ(ISGC)は近年多くの注目を集めている。
ISGCはユーザ入力から意味情報を転送し、デジタルコンテンツを生成し、Metaverse用のグラフィックをレンダリングする。
最適化されたリソース割り当てのための統合ゲインを含む,ISGCの2つの主要なメリットをキャプチャする統合フレームワークを導入する。
論文 参考訳(メタデータ) (2023-05-18T02:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。