論文の概要: Toward Intelligent Scene Augmentation for Context-Aware Object Placement and Sponsor-Logo Integration
- arxiv url: http://arxiv.org/abs/2512.21560v1
- Date: Thu, 25 Dec 2025 08:12:27 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:05:17.689981
- Title: Toward Intelligent Scene Augmentation for Context-Aware Object Placement and Sponsor-Logo Integration
- Title(参考訳): コンテキスト認識型オブジェクト配置とスポンサー・ローゴ統合のためのインテリジェントなシーン拡張に向けて
- Authors: Unnati Saraswat, Tarun Rao, Namah Gupta, Shweta Swami, Shikhar Sharma, Prateek Narang, Dhruv Kumar,
- Abstract要約: 広告とデジタルメディアのための2つの新しいタスクを紹介した。(1)適切な対象カテゴリを予測し、生成し、シーン内に適度に配置すること、(2)商品を検知し、正しいブランドロゴを挿入することを含むEmphsponsor-product logo augmentation。
これらのタスクをサポートするために、カテゴリアノテーション、配置領域、スポンサー製品ラベルを備えた2つの新しいデータセットを構築します。
- 参考スコア(独自算出の注目度): 1.3245493988640074
- License:
- Abstract: Intelligent image editing increasingly relies on advances in computer vision, multimodal reasoning, and generative modeling. While vision-language models (VLMs) and diffusion models enable guided visual manipulation, existing work rarely ensures that inserted objects are \emph{contextually appropriate}. We introduce two new tasks for advertising and digital media: (1) \emph{context-aware object insertion}, which requires predicting suitable object categories, generating them, and placing them plausibly within the scene; and (2) \emph{sponsor-product logo augmentation}, which involves detecting products and inserting correct brand logos, even when items are unbranded or incorrectly branded. To support these tasks, we build two new datasets with category annotations, placement regions, and sponsor-product labels.
- Abstract(参考訳): インテリジェントな画像編集は、コンピュータビジョン、マルチモーダル推論、生成モデリングの進歩にますます依存している。
視覚言語モデル(VLM)と拡散モデル(拡散モデル)はガイド付き視覚操作を可能にするが、既存の作業は挿入されたオブジェクトが \emph{contextually appropriate} であることを保証することは滅多にない。
広告とデジタルメディアのための2つの新しいタスクを紹介した。(1) 適切な対象カテゴリを予測し、生成し、シーン内に適度に配置する \emph{context-aware object insert} 、(2) 商品の検出と正しいブランドロゴの挿入を含む \emph{sponsor-product logo augmentation} である。
これらのタスクをサポートするために、カテゴリアノテーション、配置領域、スポンサー製品ラベルを備えた2つの新しいデータセットを構築します。
関連論文リスト
- In-Video Instructions: Visual Signals as Generative Control [79.44662698914401]
フレーム内に埋め込まれた視覚信号を命令として解釈することにより、制御可能な画像・映像生成に機能を利用することができるかを検討する。
In-Video Instructionは、オーバーレイテキスト、矢印、軌跡などの要素を通じて、視覚領域に直接ユーザーガイダンスをエンコードする。
Veo 3.1、Kling 2.5、Wan 2.2を含む最先端の3つのジェネレータの実験では、ビデオモデルがそのような視覚的に埋め込まれた命令を確実に解釈し実行できることが示されている。
論文 参考訳(メタデータ) (2025-11-24T18:38:45Z) - DOPE: Dual Object Perception-Enhancement Network for Vision-and-Language Navigation [1.4154022683679812]
VLN(Vision-and-Language Navigation)は、エージェントが言語命令を理解し、視覚的手がかりを使って未知の環境をナビゲートしなければならない課題である。
本稿では,これらの問題に対処し,ナビゲーション性能を向上させるために,Dual Object Perception-Enhancement Network (DOPE)を提案する。
論文 参考訳(メタデータ) (2025-04-30T06:47:13Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - LogoSticker: Inserting Logos into Diffusion Models for Customized Generation [73.59571559978278]
テキスト・ツー・イメージ・モデルにロゴを挿入する作業を導入する。
我々の目標は、ロゴのアイデンティティを拡散モデルに挿入し、様々な状況下でシームレスに合成できるようにすることです。
この課題に対処するために,新しい2相パイプラインLogoStickerを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:54:49Z) - Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo Embeddings [26.395196542803543]
本稿では,MLLMに製品画像の適切なテキストを生成するよう促すアプローチを提案する。
実世界のデータセットに関する我々の実験は、FashionLOGOが汎用的で堅牢なロゴ埋め込みを生成することができることを証明している。
論文 参考訳(メタデータ) (2023-08-17T14:30:26Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - Context-Aware Layout to Image Generation with Enhanced Object Appearance [123.62597976732948]
レイアウト・トゥ・イメージ(l2i)生成モデルの目的は、自然背景(スタフ)に対して複数のオブジェクト(もの)を含む複雑な画像を生成することである。
既存のL2Iモデルは大きな進歩を遂げているが、オブジェクト間とオブジェクト間の関係はしばしば壊れている。
これらの原因は、ジェネレータにコンテキスト認識オブジェクトや機能エンコーディングがないことと、識別装置に位置依存の外観表現がないことにあります。
論文 参考訳(メタデータ) (2021-03-22T14:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。