論文の概要: RAVEN++: Pinpointing Fine-Grained Violations in Advertisement Videos with Active Reinforcement Reasoning
- arxiv url: http://arxiv.org/abs/2511.19168v1
- Date: Mon, 24 Nov 2025 14:32:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.255011
- Title: RAVEN++: Pinpointing Fine-Grained Violations in Advertisement Videos with Active Reinforcement Reasoning
- Title(参考訳): RAVEN++: アクティブ強化推論によるビデオの細粒度違反のピンポイント化
- Authors: Deyi Ji, Yuekui Yang, Liqun Liu, Peng Shu, Haiyang Wu, Shaogang Tang, Xudong Chen, Shaoping Ma, Tianrun Chen, Lanyun Zhu,
- Abstract要約: RAVEN++は、3つの重要なイノベーションを紹介する新しいフレームワークである。
RL(Active Reinforcement Learning)は、様々な困難のあるサンプルに動的にトレーニングを適用する。
階層的な報酬関数と推論蒸留によって達成された微細粒度換気理解
知識注入、カリキュラムベースの受動RL、アクティブRLを体系的に組み合わせたプログレッシブマルチステージトレーニング。
- 参考スコア(独自算出の注目度): 28.372254433147564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advertising (Ad) is a cornerstone of the digital economy, yet the moderation of video advertisements remains a significant challenge due to their complexity and the need for precise violation localization. While recent advancements, such as the RAVEN model, have improved coarse-grained violation detection, critical gaps persist in fine-grained understanding, explainability, and generalization. To address these limitations, we propose RAVEN++, a novel framework that introduces three key innovations: 1) Active Reinforcement Learning (RL), which dynamically adapts training to samples of varying difficulty; 2) Fine-Grained Violation Understanding, achieved through hierarchical reward functions and reasoning distillation; and 3) Progressive Multi-Stage Training, which systematically combines knowledge injection, curriculum-based passive RL, and active RL. Extensive experiments on both public and proprietary datasets, on both offline scenarios and online deployed A/B Testing, demonstrate that RAVEN++ outperforms general-purpose LLMs and specialized models like RAVEN in terms of fine-grained violation understanding, reasoning capabilities, and generalization ability.
- Abstract(参考訳): 広告(広告)はデジタル経済の基盤となっているが、ビデオ広告のモデレーションは、その複雑さと正確な違反ローカライゼーションの必要性から、依然として大きな課題である。
RAVENモデルのような最近の進歩は、粗いき裂検出を改善する一方で、臨界ギャップはきめ細かな理解、説明可能性、一般化に持続している。
これらの制限に対処するため、我々は3つの重要なイノベーションを紹介する新しいフレームワークであるRAVEN++を提案する。
1) 各種困難サンプルに動的に適応する能動強化学習(RL)
2 階層的報酬機能及び蒸留の推論により達成された細粒度換気の理解
3)知識注入,カリキュラムベースの受動RL,アクティブRLを体系的に組み合わせたプログレッシブ・マルチステージ・トレーニング。
オフラインシナリオとオンラインデプロイされたA/Bテストの両方で、パブリックとプロプライエタリ両方のデータセットに関する広範な実験は、RAVEN++が、詳細な違反理解、推論機能、一般化能力の観点から、汎用LLMやRAVENのような特殊なモデルよりも優れていることを実証している。
関連論文リスト
- RAVEN: Robust Advertisement Video Violation Temporal Grounding via Reinforcement Reasoning [29.56201252167946]
RAVENは、カリキュラム強化学習とマルチモーダルな大規模言語モデル(MLLM)を統合して、違反検出のための推論と認知能力を強化するフレームワークである。
RAVENはプログレッシブなトレーニング戦略を採用し、正確にかつ粗い注釈付きデータを組み合わせ、グループ相対ポリシー最適化(GRPO)を活用して明確な推論アノテーションを使わずに創発的な推論能力を開発する。
産業データセットと公開ベンチマークの実験により、RAVENは、違反カテゴリーの精度と時間間隔の局所化において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-10-18T11:25:53Z) - CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models [85.315711639214]
モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Learning to Extract Rational Evidence via Reinforcement Learning for Retrieval-Augmented Generation [37.47571308389908]
Retrieval-Augmented Generation (RAG) はLarge Language Models (LLM) の精度を効果的に向上させる
それまでの手法では、明確な思考なしに証拠を直接抽出し、重要な手がかりをフィルタリングし、一般化に苦慮する危険性がある。
本稿では,(1)検索内容中の潜在的手がかりを明示的に推論し,(2)質問に答えるのに有用なキー手がかりを省略しないよう意識的に抽出することによる合理的証拠の抽出を学習するEvi Omniを提案する。
論文 参考訳(メタデータ) (2025-07-21T13:03:55Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - DR3: Value-Based Deep Reinforcement Learning Requires Explicit
Regularization [125.5448293005647]
教師付き学習で見られるSGDの暗黙的な正則化効果が、オフラインの深いRLでは有害である可能性について論じる。
我々の理論的解析は、暗黙正則化の既存のモデルが時間差分学習に適用された場合、導出正規化器は退化解を好むことを示している。
我々は、この暗黙的正則化の望ましくない効果に対処する、DR3と呼ばれる単純で効果的な明示的正則化器を提案する。
論文 参考訳(メタデータ) (2021-12-09T06:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。