論文の概要: HighlightMe: Detecting Highlights from Human-Centric Videos
- arxiv url: http://arxiv.org/abs/2110.01774v1
- Date: Tue, 5 Oct 2021 01:18:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 00:07:53.258606
- Title: HighlightMe: Detecting Highlights from Human-Centric Videos
- Title(参考訳): HighlightMe:人間中心のビデオからハイライトを検出する
- Authors: Uttaran Bhattacharya and Gang Wu and Stefano Petrangeli and
Viswanathan Swaminathan and Dinesh Manocha
- Abstract要約: 我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
- 参考スコア(独自算出の注目度): 62.265410865423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a domain- and user-preference-agnostic approach to detect
highlightable excerpts from human-centric videos. Our method works on the
graph-based representation of multiple observable human-centric modalities in
the videos, such as poses and faces. We use an autoencoder network equipped
with spatial-temporal graph convolutions to detect human activities and
interactions based on these modalities. We train our network to map the
activity- and interaction-based latent structural representations of the
different modalities to per-frame highlight scores based on the
representativeness of the frames. We use these scores to compute which frames
to highlight and stitch contiguous frames to produce the excerpts. We train our
network on the large-scale AVA-Kinetics action dataset and evaluate it on four
benchmark video highlight datasets: DSH, TVSum, PHD2, and SumMe. We observe a
4-12% improvement in the mean average precision of matching the human-annotated
highlights over state-of-the-art methods in these datasets, without requiring
any user-provided preferences or dataset-specific fine-tuning.
- Abstract(参考訳): 我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本手法は,ポーズや顔などの複数の観察可能な人間中心のモダリティをグラフベースで表現する。
時空間グラフ畳み込みを具備したオートエンコーダネットワークを用いて,これらのモダリティに基づいて人的活動や相互作用を検出する。
ネットワークをトレーニングし、フレームの表現性に基づいて、異なるモダリティのアクティビティとインタラクションに基づく潜在構造表現をフレーム毎のハイライトスコアにマップします。
これらのスコアを用いて、どのフレームをハイライトし、連続したフレームを縫い合わせて抜粋を生成するかを計算する。
大規模なAVA-Kineticsアクションデータセットでネットワークをトレーニングし、DSH、TVSum、PHD2、SumMeの4つのベンチマークビデオハイライトデータセットで評価する。
ユーザが提供する好みやデータセット固有の微調整を必要とせずに、これらのデータセットにおける最先端の手法よりも、人間の注釈付きハイライトにマッチする平均的な平均精度を4-12%改善する。
関連論文リスト
- Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network [2.223052975765005]
本稿では,人間と物体の相互作用を自動的に認識する新しいピラミッドグラフ畳み込みネットワーク(PGCN)を提案する。
このシステムは、映像データをグラフとして検出した結果から、人間と物体の2次元または3次元空間関係を表す。
我々は,人間と物体の相互作用認識の分野で,2つの挑戦的データセット上でモデルを評価した。
論文 参考訳(メタデータ) (2024-10-10T13:39:17Z) - Match Stereo Videos via Bidirectional Alignment [15.876953256378224]
最近の学習に基づく手法は、独立ステレオペアのパフォーマンスの最適化に重点を置いており、ビデオの時間的矛盾につながる。
本稿では,新しいビデオ処理フレームワークBiDAStereoとプラグイン安定化ネットワークBiDAStabilizerを紹介する。
本稿では,自然景観に着目したリアルな合成データセットとベンチマークと,様々な都市景観のステレオカメラが捉えた実世界のデータセットを定性評価として提示する。
論文 参考訳(メタデータ) (2024-09-30T13:37:29Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal
Networks for HOI in videos [13.25502885135043]
ビデオから人間と物体の相互作用を分析すると、人間とビデオに存在する物体の関係が特定される。
映像中の複数の粒度の真理を効果的に捉え,視覚的特徴を学習するための階層的アプローチ LIGHTEN を提案する。
V-COCOにおける人間と物体の相互作用検出(88.9%と92.6%)とCAD-120の予測タスクおよび画像ベースHOI検出の競争結果の最先端化を実現した。
論文 参考訳(メタデータ) (2020-12-17T05:44:07Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。