論文の概要: Human + AI for Accelerating Ad Localization Evaluation
- arxiv url: http://arxiv.org/abs/2509.12543v2
- Date: Wed, 17 Sep 2025 18:38:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 13:12:58.925852
- Title: Human + AI for Accelerating Ad Localization Evaluation
- Title(参考訳): 広告ローカライゼーション評価を加速するHuman + AI
- Authors: Harshit Rajgarhia, Shivali Dalmia, Mengyang Zhao, Mukherji Abhishek, Kiran Ganesh,
- Abstract要約: 本稿では,自動化されたコンポーネントと人間の監視を組み合わせることで,広告のローカライゼーションの複雑さに対処する構造的フレームワークを提案する。
これは、シーンテキストの検出、塗装、機械翻訳(MT)、特にアドローカライゼーション評価を加速するためのテキスト再構成を統合する最初の作業である。
- 参考スコア(独自算出の注目度): 1.6398143439811486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting advertisements for multilingual audiences requires more than simple text translation; it demands preservation of visual consistency, spatial alignment, and stylistic integrity across diverse languages and formats. We introduce a structured framework that combines automated components with human oversight to address the complexities of advertisement localization. To the best of our knowledge, this is the first work to integrate scene text detection, inpainting, machine translation (MT), and text reimposition specifically for accelerating ad localization evaluation workflows. Qualitative results across six locales demonstrate that our approach produces semantically accurate and visually coherent localized advertisements, suitable for deployment in real-world workflows.
- Abstract(参考訳): 多言語オーディエンスに広告を適応させるには、単純なテキスト翻訳以上のものが必要であり、様々な言語やフォーマットで視覚的整合性、空間的整合性、スタイリスティックな整合性を維持する必要がある。
本稿では,自動化されたコンポーネントと人間の監視を組み合わせることで,広告のローカライゼーションの複雑さに対処する構造的フレームワークを提案する。
我々の知る限りでは、特に広告ローカライゼーション評価ワークフローを高速化するためのシーンテキストの検出、塗装、機械翻訳(MT)、テキスト再構成を統合するための最初の試みである。
6つの局所的な定性的な結果から,本手法は実世界のワークフローへの展開に適したセマンティックな精度と視覚的コヒーレントなローカライズされた広告を生成することを示す。
関連論文リスト
- Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - Towards Explainable Bilingual Multimodal Misinformation Detection and Localization [64.37162720126194]
BiMiは、地域レベルのローカライゼーション、言語間および言語間整合性検出、誤情報解析のための自然言語説明を共同で行うフレームワークである。
BiMiBenchは、実際のニュース画像とサブタイトルを体系的に編集するベンチマークである。
BiMiは、分類精度が+8.9で、ローカライゼーション精度が+15.9で、BERTScoreを+2.5で上回る。
論文 参考訳(メタデータ) (2025-06-28T15:43:06Z) - RegionGPT: Towards Region Understanding Vision Language Model [88.42271128373191]
RegionGPT(RGPT)は、複雑な地域レベルのキャプションと理解のために設計された新しいフレームワークである。
我々は、詳細な地域レベルのキャプションを備えたトレーニングセットを充実させる、自動領域キャプションデータ生成パイプラインを開発する。
本研究では,領域レベルのタスクに対して,汎用的なRGPTモデルを効果的に適用し,性能を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-03-04T18:58:08Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - FindIt: Generalized Localization with Natural Language Queries [43.07139534653485]
FindItは、さまざまな視覚的グラウンドとローカライゼーションタスクを統合する、シンプルで汎用的なフレームワークである。
我々のアーキテクチャの鍵は、異なるローカライゼーション要求を統一する効率的なマルチスケール融合モジュールである。
エンドツーエンドのトレーニング可能なフレームワークは、幅広い参照表現、ローカライゼーション、検出クエリに柔軟かつ正確に対応します。
論文 参考訳(メタデータ) (2022-03-31T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。