論文の概要: TriPSS: A Tri-Modal Keyframe Extraction Framework Using Perceptual, Structural, and Semantic Representations
- arxiv url: http://arxiv.org/abs/2506.05395v1
- Date: Tue, 03 Jun 2025 19:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.123985
- Title: TriPSS: A Tri-Modal Keyframe Extraction Framework Using Perceptual, Structural, and Semantic Representations
- Title(参考訳): TriPSS: 知覚的, 構造的, 意味的表現を用いた3モード鍵フレーム抽出フレームワーク
- Authors: Mert Can Cakmak, Nitin Agarwal, Diwash Poudel,
- Abstract要約: TriPSSは、CIE空間のカラー特徴から知覚的手がかりを効果的に統合する新しい三モードフレームワークである。
TriPSSは、HDBSCANクラスタリングによるビデオコンテンツの適応的なセグメンテーションを可能にする、堅牢なマルチモーダル埋め込みを構築する。
品質評価と重複フィルタリングを取り入れた改良段階は、最終セットが簡潔かつセマンティックにリッチであることを保証する。
- 参考スコア(独自算出の注目度): 1.011824113969195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient keyframe extraction is critical for effective video summarization and retrieval, yet capturing the complete richness of video content remains challenging. In this work, we present TriPSS, a novel tri-modal framework that effectively integrates perceptual cues from color features in the CIELAB space, deep structural embeddings derived from ResNet-50, and semantic context from frame-level captions generated by Llama-3.2-11B-Vision-Instruct. By fusing these diverse modalities using principal component analysis, TriPSS constructs robust multi-modal embeddings that enable adaptive segmentation of video content via HDBSCAN clustering. A subsequent refinement stage incorporating quality assessment and duplicate filtering ensures that the final keyframe set is both concise and semantically rich. Comprehensive evaluations on benchmark datasets TVSum20 and SumMe demonstrate that TriPSS achieves state-of-the-art performance, substantially outperforming traditional unimodal and previous multi-modal methods. These results underscore TriPSS's ability to capture nuanced visual and semantic information, thereby setting a new benchmark for video content understanding in large-scale retrieval scenarios.
- Abstract(参考訳): 効率的なキーフレーム抽出は効果的な映像要約と検索に重要であるが、ビデオコンテンツの完全豊かさを捉えることは依然として困難である。
本稿では,CIELAB空間における色特徴からの知覚的手がかりを効果的に統合する新しい三要素フレームワークTriPSS,ResNet-50から派生した深部構造埋め込み,Llama-3.2-11B-Vision-Instructで生成されたフレームレベルのキャプションからの意味的コンテキストを提案する。
主成分分析を用いてこれらの多様なモダリティを融合することにより、TriPSSはHDBSCANクラスタリングによる映像コンテンツの適応的セグメンテーションを可能にする堅牢なマルチモーダル埋め込みを構築する。
品質評価と重複フィルタリングを取り入れたその後の改良段階は、最終キーフレームセットが簡潔かつセマンティックにリッチであることを保証する。
ベンチマークデータセットの総合評価では、TVSum20とSumMeは、TriPSSが最先端のパフォーマンスを達成し、従来のユニモーダル法と従来のマルチモーダル法を大幅に上回っていることを実証している。
これらの結果から,TriPSSの視覚的・意味的情報収集能力が評価され,大規模検索シナリオにおける映像コンテンツ理解のための新たなベンチマークが設定された。
関連論文リスト
- M3-CVC: Controllable Video Compression with Multimodal Generative Models [17.49397141459785]
M3-CVCは、生成モデルを組み込んだ制御可能なビデオ圧縮フレームワークである。
以上の結果から,M3-CVCは超低シナリオにおいて最先端のVVCを著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-24T11:56:59Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。