論文の概要: Modality-Aware Shot Relating and Comparing for Video Scene Detection
- arxiv url: http://arxiv.org/abs/2412.17238v1
- Date: Mon, 23 Dec 2024 03:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:56:35.193584
- Title: Modality-Aware Shot Relating and Comparing for Video Scene Detection
- Title(参考訳): 映像シーン検出のためのモダリティ対応ショットの関連と比較
- Authors: Jiawei Tan, Hongxing Wang, Kang Dang, Jiaxin Li, Zhilong Ou,
- Abstract要約: ビデオシーン検出は、それぞれのショットとその周辺が同じシーンに属しているかどうかを評価することを含む。
ほとんどの方法はマルチモーダルセマンティクスを等しく扱い、ショットの2つの側面間の文脈的差異を検査しない。
我々は$bfM$odality-$bfA$ware $bfS$hot $bfR$elating and $bfC$omparing approach (MASRC)を提案する。
- 参考スコア(独自算出の注目度): 9.084135084211415
- License:
- Abstract: Video scene detection involves assessing whether each shot and its surroundings belong to the same scene. Achieving this requires meticulously correlating multi-modal cues, $\it{e.g.}$ visual entity and place modalities, among shots and comparing semantic changes around each shot. However, most methods treat multi-modal semantics equally and do not examine contextual differences between the two sides of a shot, leading to sub-optimal detection performance. In this paper, we propose the $\bf{M}$odality-$\bf{A}$ware $\bf{S}$hot $\bf{R}$elating and $\bf{C}$omparing approach (MASRC), which enables relating shots per their own characteristics of visual entity and place modalities, as well as comparing multi-shots similarities to have scene changes explicitly encoded. Specifically, to fully harness the potential of visual entity and place modalities in modeling shot relations, we mine long-term shot correlations from entity semantics while simultaneously revealing short-term shot correlations from place semantics. In this way, we can learn distinctive shot features that consolidate coherence within scenes and amplify distinguishability across scenes. Once equipped with distinctive shot features, we further encode the relations between preceding and succeeding shots of each target shot by similarity convolution, aiding in the identification of scene ending shots. We validate the broad applicability of the proposed components in MASRC. Extensive experimental results on public benchmark datasets demonstrate that the proposed MASRC significantly advances video scene detection.
- Abstract(参考訳): ビデオシーン検出は、それぞれのショットとその周辺が同じシーンに属しているかどうかを評価することを含む。
これを達成するには、ショット間の複数モーダルキュー、$\it{e g }$ visual entity and place modalities、各ショットのセマンティックな変更を比較する必要がある。
しかし、ほとんどの手法はマルチモーダルセマンティクスを等しく扱い、ショットの2つの側面間の文脈差を検査しないため、準最適検出性能が得られる。
本稿では、視覚的実体と場所のモダリティのそれぞれの特性に応じたショットの関連付けを可能にする$\bf{M}$odality-$\bf{A}$ware $\bf{S}$hot $\bf{R}$elating and $\bf{C}$omparing approach (MASRC)を提案する。
具体的には、ショット関係のモデル化における視覚的実体と場所のモダリティの可能性をフル活用するために、エンティティ意味論から長期ショット相関を抽出し、同時に場所意味論から短期ショット相関を明らかにする。
このようにして、シーン内のコヒーレンスを強化し、シーン間の区別性を増幅する特徴的ショット特徴を学習することができる。
特有な撮影特徴を備えると、類似性畳み込みによる各撮影の先行ショットと後続ショットの関係をさらに符号化し、シーン終了ショットの識別を支援する。
我々は,MASRCにおける提案するコンポーネントの広範な適用性を検証する。
公開ベンチマークデータセットの大規模な実験結果から,提案したMASRCは映像のシーン検出を著しく向上させることが示された。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video
Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。
そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T07:49:27Z) - Multi-level Cross-modal Feature Alignment via Contrastive Learning
towards Zero-shot Classification of Remote Sensing Image Scenes [7.17717863134783]
ゼロショット画像シーンの分類に対処するクロスモーダル特徴アライメント手法が提案されている。
リモートセンシング画像シーンのゼロショット分類のためのコントラスト学習によるマルチレベルクロスモーダル特徴アライメント手法を提案する。
提案手法は,ゼロショットリモートセンシング画像シーン分類のための技術手法の状況より優れている。
論文 参考訳(メタデータ) (2023-05-31T10:00:45Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - SGMNet: Scene Graph Matching Network for Few-Shot Remote Sensing Scene
Classification [14.016637774748677]
Few-Shot Remote Sensing Scene Classification (FSRSSC) は,新しいシーンクラスを少数の例で認識することを目的とした重要な課題である。
SGMNetと呼ばれるFSRSSCのための新しいシーングラフマッチングに基づくメタラーニングフレームワークを提案する。
UCMerced LandUse, WHU19, AID, NWPU-RESISC45データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-10-09T07:43:40Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection [33.25064323136447]
フェーショット物体検出は、実世界のデータの固有の長尾分布のために、必要かつ長続きする問題である。
この研究は、新しい物体検出の学習に明確な関係推論を導入する。
実験では、SRR-FSDは、より高いショットで競争力のある結果を達成することができ、さらに重要なことは、より低い明示的なショットと暗黙的なショットの両方で、大幅にパフォーマンスが向上します。
論文 参考訳(メタデータ) (2021-03-02T18:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。