論文の概要: RAVEN: Robust Advertisement Video Violation Temporal Grounding via Reinforcement Reasoning
- arxiv url: http://arxiv.org/abs/2510.16455v1
- Date: Sat, 18 Oct 2025 11:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.820657
- Title: RAVEN: Robust Advertisement Video Violation Temporal Grounding via Reinforcement Reasoning
- Title(参考訳): RAVEN:強化推論によるビデオバイオレーションの時間的グラウンド
- Authors: Deyi Ji, Yuekui Yang, Haiyang Wu, Shaoping Ma, Tianrun Chen, Lanyun Zhu,
- Abstract要約: RAVENは、カリキュラム強化学習とマルチモーダルな大規模言語モデル(MLLM)を統合して、違反検出のための推論と認知能力を強化するフレームワークである。
RAVENはプログレッシブなトレーニング戦略を採用し、正確にかつ粗い注釈付きデータを組み合わせ、グループ相対ポリシー最適化(GRPO)を活用して明確な推論アノテーションを使わずに創発的な推論能力を開発する。
産業データセットと公開ベンチマークの実験により、RAVENは、違反カテゴリーの精度と時間間隔の局所化において優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 29.56201252167946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advertisement (Ad) video violation detection is critical for ensuring platform compliance, but existing methods struggle with precise temporal grounding, noisy annotations, and limited generalization. We propose RAVEN, a novel framework that integrates curriculum reinforcement learning with multimodal large language models (MLLMs) to enhance reasoning and cognitive capabilities for violation detection. RAVEN employs a progressive training strategy, combining precisely and coarsely annotated data, and leverages Group Relative Policy Optimization (GRPO) to develop emergent reasoning abilities without explicit reasoning annotations. Multiple hierarchical sophisticated reward mechanism ensures precise temporal grounding and consistent category prediction. Experiments on industrial datasets and public benchmarks show that RAVEN achieves superior performances in violation category accuracy and temporal interval localization. We also design a pipeline to deploy the RAVEN on the online Ad services, and online A/B testing further validates its practical applicability, with significant improvements in precision and recall. RAVEN also demonstrates strong generalization, mitigating the catastrophic forgetting issue associated with supervised fine-tuning.
- Abstract(参考訳): ビデオ違反検出はプラットフォームコンプライアンスの確保には不可欠ですが、既存の手法では正確な時間的根拠、ノイズの多いアノテーション、限定的な一般化に苦慮しています。
RAVENは,カリキュラム強化学習とマルチモーダル大言語モデル(MLLM)を統合した新しいフレームワークであり,違反検出のための推論と認知能力を高める。
RAVENはプログレッシブなトレーニング戦略を採用し、正確にかつ粗い注釈付きデータを組み合わせ、グループ相対ポリシー最適化(GRPO)を活用して明確な推論アノテーションを使わずに創発的な推論能力を開発する。
複数の階層的な洗練された報酬機構は、正確な時間的接地と一貫したカテゴリー予測を保証する。
産業データセットと公開ベンチマークの実験により、RAVENは、違反カテゴリーの精度と時間間隔の局所化において優れた性能を発揮することが示された。
また、オンライン広告サービスにRAVENをデプロイするためのパイプラインを設計し、オンラインA/Bテストは、その実用性をさらに検証し、精度とリコールを大幅に改善します。
RAVENはまた強力な一般化を示し、監督された微調整に関連する破滅的な忘れの問題を軽減する。
関連論文リスト
- PrismRAG: Boosting RAG Factuality with Distractor Resilience and Strategized Reasoning [57.89188317734747]
PrismRAGはこのモデルを、イントラクタを意識したQAペアで訓練し、金の証拠と微妙なイントラクタパスを混合する。
LLMを計画し、合理化し、人間工学的な指示に頼らずに合成する推論中心の習慣を取り入れている。
論文 参考訳(メタデータ) (2025-07-25T00:15:31Z) - When Graph Contrastive Learning Backfires: Spectral Vulnerability and Defense in Recommendation [38.71151291554835]
グラフコントラスト学習(GCL)は,レコメンダシステムの堅牢性向上に大きく貢献している。
本稿では、GCLの統合により、ターゲットのプロモーションアタックに対するレコメンデータの感受性が必然的に向上する、予期せぬ脆弱性を明らかにする。
論文 参考訳(メタデータ) (2025-07-10T05:24:08Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning [69.72249695674665]
視覚言語モデル(VLM)のためのロバストテスト時プロンプトチューニング(R-TPT)を提案する。
R-TPTは、推論段階における敵攻撃の影響を緩和する。
プラグアンドプレイの信頼性に基づく重み付きアンサンブル戦略を導入し,防御強化を図る。
論文 参考訳(メタデータ) (2025-04-15T13:49:31Z) - Generative Regression Based Watch Time Prediction for Short-Video Recommendation [36.95095097454143]
短いビデオレコメンデーションシステムでは、時計の時間予測が重要なタスクとして現れている。
最近の研究は、連続時計時間推定を正規回帰タスクに変換することによって、これらの問題に対処しようとしている。
本稿では,WTPをシーケンス生成タスクとして再構成する新しい生成回帰(GR)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T16:48:55Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。