論文の概要: A^3: Towards Advertising Aesthetic Assessment
- arxiv url: http://arxiv.org/abs/2603.24037v1
- Date: Wed, 25 Mar 2026 07:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.192189
- Title: A^3: Towards Advertising Aesthetic Assessment
- Title(参考訳): A^3: 審美評価の宣伝に向けて
- Authors: Kaiyuan Ji, Yixuan Gao, Lu Sun, Yushuo Zheng, Zijian Chen, Jianbo Zhang, Xiangyang Zhu, Yuan Tian, Zicheng Zhang, Guangtao Zhai,
- Abstract要約: 4つのコンポーネントを含む包括的フレームワークであるA3(Advertising Aesthetic Assessment)を提案する。
A3-Lawは理論駆動のパラダイムであり、知覚的注意、形式的関心、Desire Impactという3つの階層的なステージで構成されている。
A3-Law 上に構築した A3-Dataset は,3K の広告画像から120K の命令応答対を合成する。
我々はさらにA3-Alignを開発し、A3-Lawの下で訓練し、A3-Dataset上でCoT誘導学習を行う。
- 参考スコア(独自算出の注目度): 67.11238222490431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advertising images significantly impact commercial conversion rates and brand equity, yet current evaluation methods rely on subjective judgments, lacking scalability, standardized criteria, and interpretability. To address these challenges, we present A^3 (Advertising Aesthetic Assessment), a comprehensive framework encompassing four components: a paradigm (A^3-Law), a dataset (A^3-Dataset), a multimodal large language model (A^3-Align), and a benchmark (A^3-Bench). Central to A^3 is a theory-driven paradigm, A^3-Law, comprising three hierarchical stages: (1) Perceptual Attention, evaluating perceptual image signals for their ability to attract attention; (2) Formal Interest, assessing formal composition of image color and spatial layout in evoking interest; and (3) Desire Impact, measuring desire evocation from images and their persuasive impact. Building on A^3-Law, we construct A^3-Dataset with 120K instruction-response pairs from 30K advertising images, each richly annotated with multi-dimensional labels and Chain-of-Thought (CoT) rationales. We further develop A^3-Align, trained under A^3-Law with CoT-guided learning on A^3-Dataset. Extensive experiments on A^3-Bench demonstrate that A^3-Align achieves superior alignment with A^3-Law compared to existing models, and this alignment generalizes well to quality advertisement selection and prescriptive advertisement critique, indicating its potential for broader deployment. Dataset, code, and models can be found at: https://github.com/euleryuan/A3-Align.
- Abstract(参考訳): 広告画像は、商業的なコンバージョン率やブランドの株式に大きく影響するが、現在の評価方法は、主観的な判断、スケーラビリティの欠如、標準化された基準、解釈可能性に依存している。
これらの課題に対処するため、A^3(Advertising Aesthetic Assessment)、パラダイム(A^3-Law)、データセット(A^3-Dataset)、マルチモーダル大言語モデル(A^3-Align)、ベンチマーク(A^3-Bench)の4つのコンポーネントを包含する包括的なフレームワークを提案する。
A^3-Law は,A^3-Law という理論駆動のパラダイムであり,(1) 注意を惹きつけるために知覚的注意,知覚的イメージ信号の評価,(2) 関心を喚起する際のイメージカラーの形式的構成と空間的レイアウトを評価する形式的関心,(3) イメージからの欲求の喚起とその説得的影響を計測する観念的インパクトの3段階からなる。
A^3-Law 上に構築した A^3-Dataset は,120K の命令応答対を 30K の広告画像から構成する。
我々はさらに、A^3-Lawの下で訓練されたA^3-Alignと、A^3-Dataset上でCoT誘導学習を開発する。
A^3-Benchに関する大規模な実験により、A^3-Alignは既存のモデルに比べてA^3-Lawとの整合性が優れており、この整合性は品質の高い広告選択や規範的な広告批評によく似ており、より広範な展開の可能性を示している。
データセット、コード、モデルについては、https://github.com/euleryuan/A3-Alignを参照してください。
関連論文リスト
- MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods [41.49799689399879]
我々は、1.8Mサンプルと5.1Bソリューショントークンからなる大規模マルチモーダル推論データセットMMFineReasonを紹介する。
得られたデータセットは、STEM問題、視覚パズル、ゲーム、複雑なダイアグラムにまたがっており、各サンプルには視覚的に根拠付けられた推論トレースが付加されている。
我々のモデルは、彼らのサイズクラスに対して、新しい最先端の結果を確立します。
論文 参考訳(メタデータ) (2026-01-29T15:07:28Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - PointOBB-v3: Expanding Performance Boundaries of Single Point-Supervised Oriented Object Detection [65.84604846389624]
我々は,より強力な単一点制御OODフレームワークであるPointOBB-v3を提案する。
追加のプリミティブなしで擬似回転ボックスを生成し、エンドツーエンドのパラダイムをサポートする。
本手法は従来の最先端手法と比較して3.56%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-01-23T18:18:15Z) - $SE(3)$ Equivariant Ray Embeddings for Implicit Multi-View Depth Estimation [45.26823569257832]
本稿では,同変多視点学習の深度推定への応用について検討する。
位置符号化には球高調波を用い、3次元回転同値性を確保する。
我々はPerceiver IOアーキテクチャ内で、特殊同変エンコーダとデコーダを開発する。
論文 参考訳(メタデータ) (2024-11-11T19:34:47Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - IAFA: Instance-aware Feature Aggregation for 3D Object Detection from a
Single Image [37.83574424518901]
単一の画像からの3Dオブジェクト検出は、自動運転において重要なタスクです。
本稿では,3次元物体検出の精度向上のために有用な情報を集約するインスタンス認識手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T05:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。