論文の概要: AD-MIR: Bridging the Gap from Perception to Persuasion in Advertising Video Understanding via Structured Reasoning
- arxiv url: http://arxiv.org/abs/2602.07625v1
- Date: Sat, 07 Feb 2026 17:14:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.728915
- Title: AD-MIR: Bridging the Gap from Perception to Persuasion in Advertising Video Understanding via Structured Reasoning
- Title(参考訳): AD-MIR:構造化推論による映像理解における知覚から説得へのギャップのブリッジ
- Authors: Binxiao Xu, Junyu Feng, Xiaopeng Lin, Haodong Li, Zhiyuan Feng, Bohan Zeng, Shaolin Lu, Ming Lu, Qi She, Wentao Zhang,
- Abstract要約: 広告意図を2段階アーキテクチャで復号化するためのフレームワークであるAD-MIRを紹介する。
構造化推論エージェント(Structured Reasoning Agent)は、反復的な調査ループを通じてマーケティングの専門家を模倣し、物語を分解して暗黙の説得戦術を推論する。
最先端のパフォーマンスを達成し、最強の汎用エージェントであるDVDを1.8%上回り、9.5%の精度で調整された。
- 参考スコア(独自算出の注目度): 31.074880930289083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal understanding of advertising videos is essential for interpreting the intricate relationship between visual storytelling and abstract persuasion strategies. However, despite excelling at general search, existing agents often struggle to bridge the cognitive gap between pixel-level perception and high-level marketing logic. To address this challenge, we introduce AD-MIR, a framework designed to decode advertising intent via a two-stage architecture. First, in the Structure-Aware Memory Construction phase, the system converts raw video into a structured database by integrating semantic retrieval with exact keyword matching. This approach prioritizes fine-grained brand details (e.g., logos, on-screen text) while dynamically filtering out irrelevant background noise to isolate key protagonists. Second, the Structured Reasoning Agent mimics a marketing expert through an iterative inquiry loop, decomposing the narrative to deduce implicit persuasion tactics. Crucially, it employs an evidence-based self-correction mechanism that rigorously validates these insights against specific video frames, automatically backtracking when visual support is lacking. Evaluation on the AdsQA benchmark demonstrates that AD-MIR achieves state-of-the-art performance, surpassing the strongest general-purpose agent, DVD, by 1.8% in strict and 9.5% in relaxed accuracy. These results underscore that effective advertising understanding demands explicitly grounding abstract marketing strategies in pixel-level evidence. The code is available at https://github.com/Little-Fridge/AD-MIR.
- Abstract(参考訳): ビジュアルストーリーテリングと抽象的説得戦略の複雑な関係を理解するためには,広告ビデオのマルチモーダル理解が不可欠である。
しかし、一般検索が優れているにもかかわらず、既存のエージェントは、ピクセルレベルの認識とハイレベルなマーケティングロジックの間の認知的ギャップを埋めるのに苦労することが多い。
この課題に対処するために,2段階アーキテクチャによる広告意図のデコードを目的としたAD-MIRを提案する。
まず、構造化記憶構築フェーズにおいて、意味検索と正確なキーワードマッチングを統合することにより、生動画を構造化データベースに変換する。
このアプローチでは、細かなブランドの詳細(ロゴ、画面上のテキストなど)を優先し、無関係なバックグラウンドノイズを動的にフィルタリングすることで、主要な主人公を隔離する。
第二に、構造化推論エージェント(Structured Reasoning Agent)は、反復的な調査ループを通じてマーケティングの専門家を模倣し、物語を分解して暗黙の説得戦術を推論する。
重要なことに、それはエビデンスに基づく自己補正メカニズムを使って、これらの洞察を特定のビデオフレームに対して厳格に検証し、視覚的サポートが欠けているときに自動的にバックトラックする。
AdsQAベンチマークの評価では、AD-MIRが最先端の汎用エージェントであるDVDを1.8%上回り、9.5%の精度で緩和された。
これらの結果は、効果的な広告理解の要求が、ピクセルレベルの証拠で抽象的なマーケティング戦略を明確に根拠づけていることを強調している。
コードはhttps://github.com/Little-Fridge/AD-MIRで公開されている。
関連論文リスト
- Video-BrowseComp: Benchmarking Agentic Video Research on Open Web [64.53060049124961]
Video-BrowseCompは、オープンウェブのエージェントによるビデオ推論に適した210の質問からなるベンチマークである。
これは時間的視覚的証拠に必須に依存しており、回答はテキスト検索のみでは導き出せないことを保証している。
初のオープンWebビデオ調査ベンチマークとして、Video-BrowseCompは、受動的知覚を越えて、プロアクティブなビデオ推論へと分野を前進させた。
論文 参考訳(メタデータ) (2025-12-28T19:08:27Z) - ImplicitQA: Going beyond frames towards Implicit Video Reasoning [39.63171940350552]
ImplicitQAは、人間のような暗黙の推論でビデオQAモデルをテストするために設計された新しいベンチマークである。
ImplicitQAは、1Kの高品質なクリエイティビティビデオクリップから引き出された1Kの微妙な注釈付きQAペアからなる。
論文 参考訳(メタデータ) (2025-06-26T19:53:54Z) - QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.0749609778104]
既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。
QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。
クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文 参考訳(メタデータ) (2025-03-11T17:59:57Z) - From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning [71.41062111470414]
現在のオブジェクト検出器は、エンティティのローカライゼーションと分類において優れているが、イベント認識機能には固有の制限がある。
本稿では,単なるオブジェクト認識以上の標準オブジェクト検出能力を,複雑なイベント理解に拡張する新しいフレームワークを提案する。
私たちの重要なイノベーションは、高価なタスク固有のトレーニングを必要とせずに、オブジェクト検出とイベント理解のセマンティックなギャップを埋めることです。
論文 参考訳(メタデータ) (2025-02-09T10:30:54Z) - DistinctAD: Distinctive Audio Description Generation in Contexts [62.58375366359421]
本研究では,より優れた物語を生成するために,特徴性を重視した音声記述を生成するためのフレームワークであるDistinctADを提案する。
ドメインギャップに対処するために、追加のADコーパスを必要としないCLIP-AD適応戦略を導入する。
ステージIIでは、DistinctADは2つの重要なイノベーションを取り入れている: (i) コンテクスト予測最大化注意(EMA)モジュールは、連続するビデオクリップから共通のベースを抽出することで冗長性を低減し、 (ii) コンテキスト内の繰り返し単語をフィルタリングする明確な単語予測損失である。
論文 参考訳(メタデータ) (2024-11-27T09:54:59Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Uncovering Hidden Connections: Iterative Search and Reasoning for Video-grounded Dialog [81.2968606962913]
ビデオグラウンドダイアログは、正確な応答生成のために、ダイアログ履歴とビデオコンテンツの両方を深く理解する必要がある。
本稿では,テキストエンコーダ,ビジュアルエンコーダ,ジェネレータで構成される反復探索・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T07:37:13Z) - Unboxing Engagement in YouTube Influencer Videos: An Attention-Based Approach [0.3686808512438362]
言葉(文章)による「言えること」は、映像(映像)や音響(オーディオ)による映像エンゲージメントの予測よりも重要である。
長文YouTubeインフルエンサービデオの非構造化データを解析する。
論文 参考訳(メタデータ) (2020-12-22T19:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。