論文の概要: Video-Based MPAA Rating Prediction: An Attention-Driven Hybrid Architecture Using Contrastive Learning
- arxiv url: http://arxiv.org/abs/2509.06826v1
- Date: Mon, 08 Sep 2025 16:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.230908
- Title: Video-Based MPAA Rating Prediction: An Attention-Driven Hybrid Architecture Using Contrastive Learning
- Title(参考訳): ビデオベースMPAAレーティング予測:コントラスト学習を用いた注意駆動型ハイブリッドアーキテクチャ
- Authors: Dipta Neogi, Nourash Azmine Chowdhury, Muhammad Rafsan Kabir, Mohammad Ashrafuzzaman Khan,
- Abstract要約: 差別と適応性を改善するために、コントラスト学習を採用し、インスタンス識別、コンテキストコントラスト学習、マルチビューコントラスト学習という3つのフレームワークを探索する。
我々のハイブリッドアーキテクチャは、LRCN(CNN+LSTM)バックボーンとバハダナウアテンション機構を統合し、コンテキストコントラスト学習フレームワークで最先端のパフォーマンスを実現し、88%の精度とF1スコアが0.8815である。
NT-Xent, NT-logistic, Triple Margintなど, 各種のコントラスト損失関数に対するモデルの性能評価を行い, 提案アーキテクチャのロバスト性を実証した。
- 参考スコア(独自算出の注目度): 0.1749935196721634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of visual content consumption across platforms necessitates automated video classification for age-suitability standards like the MPAA rating system (G, PG, PG-13, R). Traditional methods struggle with large labeled data requirements, poor generalization, and inefficient feature learning. To address these challenges, we employ contrastive learning for improved discrimination and adaptability, exploring three frameworks: Instance Discrimination, Contextual Contrastive Learning, and Multi-View Contrastive Learning. Our hybrid architecture integrates an LRCN (CNN+LSTM) backbone with a Bahdanau attention mechanism, achieving state-of-the-art performance in the Contextual Contrastive Learning framework, with 88% accuracy and an F1 score of 0.8815. By combining CNNs for spatial features, LSTMs for temporal modeling, and attention mechanisms for dynamic frame prioritization, the model excels in fine-grained borderline distinctions, such as differentiating PG-13 and R-rated content. We evaluate the model's performance across various contrastive loss functions, including NT-Xent, NT-logistic, and Margin Triplet, demonstrating the robustness of our proposed architecture. To ensure practical application, the model is deployed as a web application for real-time MPAA rating classification, offering an efficient solution for automated content compliance across streaming platforms.
- Abstract(参考訳): プラットフォーム間での視覚的コンテンツ消費の急速な増加は、MPAA評価システム(G, PG, PG-13, R)のような年齢適合性基準のための自動ビデオ分類を必要とする。
従来の手法は、大きなラベル付きデータ要件、一般化の低さ、非効率な特徴学習に苦慮している。
これらの課題に対処するために、私たちは、差別と適応性を改善するためにコントラッシブラーニングを採用し、インスタンス識別、コンテキストコントラストラーニング、マルチビューコントラストラーニングの3つのフレームワークを探索した。
我々のハイブリッドアーキテクチャは、LRCN(CNN+LSTM)バックボーンとバハダナウアテンション機構を統合し、コンテキストコントラスト学習フレームワークで最先端のパフォーマンスを実現し、88%の精度とF1スコアが0.8815である。
空間的特徴のためのCNN、時間的モデリングのためのLSTM、動的フレーム優先順位付けのためのアテンションメカニズムを組み合わせることで、PG-13やRレーティングのコンテンツを識別するといった、きめ細かな境界線区別が優れている。
NT-Xent, NT-logistic, Margin Triplet など, 各種の対照的な損失関数に対するモデルの性能評価を行い, 提案アーキテクチャのロバスト性を実証した。
実用的なアプリケーションを実現するため、このモデルはリアルタイムMPAAレーティング分類のためのWebアプリケーションとしてデプロイされ、ストリーミングプラットフォーム間でのコンテンツコンプライアンスを自動化する効率的なソリューションを提供する。
関連論文リスト
- DyCAF-Net: Dynamic Class-Aware Fusion Network [0.0]
動的クラス・アウェア・フュージョン・ネットワーク(DyCAF-Net)について紹介する。
DyCAF-Netは13のベンチマークで精度、mAP@50、mAP@50-95を大幅に改善した。
分散のスケール、セマンティックオーバーラップ、およびクラス不均衡に対する適応性は、実世界の検出タスクの堅牢なソリューションとして位置づけられる。
論文 参考訳(メタデータ) (2025-08-05T16:06:26Z) - A Framework Combining 3D CNN and Transformer for Video-Based Behavior Recognition [0.0]
本稿では3D CNNとTransformerアーキテクチャを組み合わせたハイブリッドフレームワークを提案する。
3D CNNモジュールは低レベルの時間的特徴を抽出し、Transformerモジュールは長期の時間的依存関係をキャプチャする。
提案モデルは従来の3D CNNやスタンドアロンのトランスフォーマーよりも優れており、高い認識精度と管理可能な複雑さを実現している。
論文 参考訳(メタデータ) (2025-08-02T07:33:29Z) - Benefits of Feature Extraction and Temporal Sequence Analysis for Video Frame Prediction: An Evaluation of Hybrid Deep Learning Models [3.7049613588433497]
ビデオフレーム予測は、天気予報や自律システムに重要な応用がある。
本稿では,オートエンコーダの特徴抽出機能と時間列モデリングを組み合わせたハイブリッドなディープラーニング手法について検討する。
論文 参考訳(メタデータ) (2025-07-28T10:07:00Z) - Embedding-based Retrieval in Multimodal Content Moderation [20.899256623912933]
従来の分類手法を補完するために, 埋め込み型検索法(EBR)を提案する。
EBRはアクションレートを10.32%引き上げ、運用コストを80%以上削減し、解釈可能性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2025-06-30T19:11:25Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Colar: Effective and Efficient Online Action Detection by Consulting
Exemplars [102.28515426925621]
本研究では,まずフレームと模範フレームの類似度を計測し,その類似度重みに基づいて模範特徴を集約する,効果的な模範解釈機構を開発する。
カテゴリレベルのモデリングの相補性のため,本手法は軽量なアーキテクチャを採用しているが,3つのベンチマークで新たなハイパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-02T12:13:08Z) - HRVGAN: High Resolution Video Generation using Spatio-Temporal GAN [0.0]
本稿では,高解像度ビデオ合成に特化して設計された新しい深層生成ネットワークアーキテクチャを提案する。
我々のアプローチは、Wasserstein Generative Adrial Networks (WGANs) のキーコンセプトを統合している。
トレーニングの目的は、フレームレベルの精度とビデオリアリズムのバランスをとるために、画素単位の平均2乗誤差損失と対角損失を組み合わせることである。
論文 参考訳(メタデータ) (2020-08-17T20:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。