論文の概要: PRISM: Perceptual Recognition for Identifying Standout Moments in Human-Centric Keyframe Extraction
- arxiv url: http://arxiv.org/abs/2506.19168v1
- Date: Mon, 23 Jun 2025 22:06:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.408567
- Title: PRISM: Perceptual Recognition for Identifying Standout Moments in Human-Centric Keyframe Extraction
- Title(参考訳): PRISM:人中心鍵フレーム抽出におけるスタントアウトモーメントの認識
- Authors: Mert Can Cakmak, Nitin Agarwal, Diwash Poudel,
- Abstract要約: 本稿では,PRISM (Perceptual Recognition for Identifying Standout Moments) を導入した。
スタンアウトモーメントを識別するための知覚認識は、CIELAB色空間で動作し、色差メトリクスを使用して人間の視覚感度に合わせてフレームを識別する。
我々は、BBC、TVSum、SumMe、ClipShotsの4つのベンチマークデータセット上でPRISMを評価し、高い圧縮比を維持しながら、高い精度と忠実性を達成できることを実証した。
- 参考スコア(独自算出の注目度): 1.011824113969195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online videos play a central role in shaping political discourse and amplifying cyber social threats such as misinformation, propaganda, and radicalization. Detecting the most impactful or "standout" moments in video content is crucial for content moderation, summarization, and forensic analysis. In this paper, we introduce PRISM (Perceptual Recognition for Identifying Standout Moments), a lightweight and perceptually-aligned framework for keyframe extraction. PRISM operates in the CIELAB color space and uses perceptual color difference metrics to identify frames that align with human visual sensitivity. Unlike deep learning-based approaches, PRISM is interpretable, training-free, and computationally efficient, making it well suited for real-time and resource-constrained environments. We evaluate PRISM on four benchmark datasets: BBC, TVSum, SumMe, and ClipShots, and demonstrate that it achieves strong accuracy and fidelity while maintaining high compression ratios. These results highlight PRISM's effectiveness in both structured and unstructured video content, and its potential as a scalable tool for analyzing and moderating harmful or politically sensitive media in online platforms.
- Abstract(参考訳): オンラインビデオは、政治的言論の形成と、誤情報、プロパガンダ、過激化といったサイバー社会の脅威を増幅する上で、中心的な役割を担っている。
コンテンツモデレーション、要約、法医学的分析において、ビデオコンテンツの中で最も影響のある、あるいは"待機"モーメントを検出することが不可欠である。
本稿では,キーフレーム抽出のための軽量かつ知覚に整合したフレームワークであるPRISM(Perceptual Recognition for Identifying Standout Moments)を紹介する。
PRISMはCIELAB色空間で動作し、知覚的な色差メトリクスを使用して人間の視覚感度に合わせてフレームを識別する。
ディープラーニングベースのアプローチとは異なり、PRISMは解釈可能で、トレーニング不要で、計算効率が良いため、リアルタイムおよびリソース制約のある環境に適している。
我々は、BBC、TVSum、SumMe、ClipShotsの4つのベンチマークデータセット上でPRISMを評価し、高い圧縮比を維持しながら、高い精度と忠実性を達成できることを実証した。
これらの結果は、構造化コンテンツと非構造化ビデオコンテンツの両方におけるPRISMの有効性と、オンラインプラットフォームにおける有害または政治的に敏感なメディアを分析し、調整するためのスケーラブルなツールとしての可能性を強調している。
関連論文リスト
- Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - Keyframe-oriented Vision Token Pruning: Enhancing Efficiency of Large Vision Language Models on Long-Form Video Processing [30.94114120434789]
KVTP(Keyframe-oriented Vision Token MME)を提案する。
KVTPは、冗長な計算を著しく削減しつつ、重要なコンテキスト情報を効果的に保持する。
論文 参考訳(メタデータ) (2025-03-13T17:47:52Z) - Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。
本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。
本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - Entropy-driven Unsupervised Keypoint Representation Learning in Videos [7.940371647421243]
本稿では,ビデオから意味のある表現を教師なしで学習するための新しいアプローチを提案する。
画素近傍のテクスティカルなエントロピーとその時間的進化は,特徴の学習に有用な本質的な監督信号を生み出すと論じる。
私たちの経験的な結果は、静的なオブジェクトや動的オブジェクトへの出席や突然の入場や退場といった課題を解決する情報駆動キーポイントのパフォーマンスに優れています。
論文 参考訳(メタデータ) (2022-09-30T12:03:52Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z) - Recognizing Micro-Expression in Video Clip with Adaptive Key-Frame
Mining [18.34213657996624]
マイクロ・エクスプレッションでは、顔の動きは過渡的であり、時間を通して緩やかに局所化される。
適応鍵フレームマイニングネットワーク(AKMNet)と呼ばれる新しいエンドツーエンドディープラーニングアーキテクチャを提案する。
AKMNetは、自己学習した局所鍵フレームの空間的特徴と、その大域的時間的ダイナミクスを組み合わせることで、差別的時間的表現を学習することができる。
論文 参考訳(メタデータ) (2020-09-19T07:03:16Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。