論文の概要: AdsQA: Towards Advertisement Video Understanding
- arxiv url: http://arxiv.org/abs/2509.08621v1
- Date: Wed, 10 Sep 2025 14:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.450848
- Title: AdsQA: Towards Advertisement Video Understanding
- Title(参考訳): AdsQA:ビデオ理解を目指して
- Authors: Xinwei Long, Kai Tian, Peng Xu, Guoli Jia, Jingxuan Li, Sa Yang, Yihua Shao, Kaiyan Zhang, Che Jiang, Hao Xu, Yang Liu, Jiaheng Ma, Bowen Zhou,
- Abstract要約: 我々は,大規模言語モデル(LLM)の能力を調べるために,広告(ad)ビデオを挑戦的なテストベッドとして使用することを提案する。
私たちのモチベーションは、例えばマーケティングロジック、説得戦略、オーディエンスエンゲージメントといった、ヒントに富んだ情報に富んだ広告ビデオの特徴を最大限に活用することにあります。
広告QAベンチマークであるAdsQAは、広告ビデオ1,544本、クリップ10,962本、合計22.7時間、課題5つのタスクを提供する。
- 参考スコア(独自算出の注目度): 27.89010198926177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have taken a great step towards AGI. Meanwhile, an increasing number of domain-specific problems such as math and programming boost these general-purpose models to continuously evolve via learning deeper expertise. Now is thus the time further to extend the diversity of specialized applications for knowledgeable LLMs, though collecting high quality data with unexpected and informative tasks is challenging. In this paper, we propose to use advertisement (ad) videos as a challenging test-bed to probe the ability of LLMs in perceiving beyond the objective physical content of common visual domain. Our motivation is to take full advantage of the clue-rich and information-dense ad videos' traits, e.g., marketing logic, persuasive strategies, and audience engagement. Our contribution is three-fold: (1) To our knowledge, this is the first attempt to use ad videos with well-designed tasks to evaluate LLMs. We contribute AdsQA, a challenging ad Video QA benchmark derived from 1,544 ad videos with 10,962 clips, totaling 22.7 hours, providing 5 challenging tasks. (2) We propose ReAd-R, a Deepseek-R1 styled RL model that reflects on questions, and generates answers via reward-driven optimization. (3) We benchmark 14 top-tier LLMs on AdsQA, and our \texttt{ReAd-R}~achieves the state-of-the-art outperforming strong competitors equipped with long-chain reasoning capabilities by a clear margin.
- Abstract(参考訳): 大規模言語モデル(LLM)はAGIに向けて大きな一歩を踏み出した。
一方、数学やプログラミングといったドメイン固有の問題の増加は、これらの汎用モデルを深い専門知識を学習することで継続的に進化させる。
そのため、予期せぬ情報的タスクによる高品質なデータ収集は難しいが、知識のあるLLMのための専門的な応用の多様化をさらに進める時が来た。
本稿では、広告(ad)動画を挑戦的なテストベッドとして使用し、共通視覚領域の客観的な物理的内容以上の知覚におけるLCMの能力を調べることを提案する。
私たちのモチベーションは、手がかりに富んだ情報に富んだ広告ビデオの特徴、例えば、マーケティングロジック、説得戦略、オーディエンスエンゲージメントを最大限に活用することにあります。
1) LLMを評価するために、よく設計されたタスクで広告ビデオを使用する試みとしては、これが初めてです。
広告QAベンチマークであるAdsQAは、広告ビデオ1,544本、クリップ10,962本、合計22.7時間、課題5つのタスクを提供する。
2)Deepseek-R1スタイルのRLモデルであるReAd-Rを提案する。
(3)AdsQA上で14の上位LCMをベンチマークし、最先端の長鎖推論機能を備えた強力な競争相手を明確なマージンで達成する。
関連論文リスト
- VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning [42.316341452766075]
本稿では,RFT(Reinforcement Fine-temporalning)による映像知覚の向上を目的とする。
我々は,チャット機能を犠牲にすることなく,最先端のリアルタイムタスクを実現する強力なビデオMLLMであるVideoChat-R1を開発した。
ビデオMLLMのタスク強化におけるRTTの可能性について検討した。
論文 参考訳(メタデータ) (2025-04-09T15:09:27Z) - MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。
MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。
グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - Q-Bench-Video: Benchmarking the Video Quality Understanding of LMMs [76.15356325947731]
ビデオ品質の識別におけるLMMの習熟度を評価するための新しいベンチマークであるQ-Bench-Videoを紹介する。
2,378組の質問応答ペアを収集し、12のオープンソースと5のプロプライエタリなLMMでテストする。
以上の結果から,LMMは映像品質の基本的な理解を保ちつつも,その性能は不完全かつ不正確であり,人的性能に比較して顕著な相違があることが示唆された。
論文 参考訳(メタデータ) (2024-09-30T08:05:00Z) - FunQA: Towards Surprising Video Comprehension [64.58663825184958]
本稿では,挑戦的なビデオ質問応答データセットであるFunQAを紹介する。
FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。
FunQAベンチマークは4.3Kビデオクリップから派生した312KのフリーテキストQAペアで構成されている。
論文 参考訳(メタデータ) (2023-06-26T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。