論文の概要: MINI-Net: Multiple Instance Ranking Network for Video Highlight
Detection
- arxiv url: http://arxiv.org/abs/2007.09833v2
- Date: Thu, 13 Aug 2020 05:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 13:22:23.185589
- Title: MINI-Net: Multiple Instance Ranking Network for Video Highlight
Detection
- Title(参考訳): MINI-Net:ビデオハイライト検出のための複数インスタンスランキングネットワーク
- Authors: Fa-Ting Hong, Xuanteng Huang, Wei-Hong Li, and Wei-Shi Zheng
- Abstract要約: 本稿では,複数のインスタンスランキングネットワーク(MINI-Net)学習として,ある特定のイベントに対する弱教師付きビデオハイライト検出モデルを提案する。
MINI-Netは、特定のイベントのハイライトセグメントを含む正のバッグに対して、無関係な負のバッグよりも高いハイライトスコアを強制することを学ぶ。
- 参考スコア(独自算出の注目度): 71.02649475990889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the weakly supervised video highlight detection problem for
learning to detect segments that are more attractive in training videos given
their video event label but without expensive supervision of manually
annotating highlight segments. While manually averting localizing highlight
segments, weakly supervised modeling is challenging, as a video in our daily
life could contain highlight segments with multiple event types, e.g., skiing
and surfing. In this work, we propose casting weakly supervised video highlight
detection modeling for a given specific event as a multiple instance ranking
network (MINI-Net) learning. We consider each video as a bag of segments, and
therefore, the proposed MINI-Net learns to enforce a higher highlight score for
a positive bag that contains highlight segments of a specific event than those
for negative bags that are irrelevant. In particular, we form a max-max ranking
loss to acquire a reliable relative comparison between the most likely positive
segment instance and the hardest negative segment instance. With this max-max
ranking loss, our MINI-Net effectively leverages all segment information to
acquire a more distinct video feature representation for localizing the
highlight segments of a specific event in a video. The extensive experimental
results on three challenging public benchmarks clearly validate the efficacy of
our multiple instance ranking approach for solving the problem.
- Abstract(参考訳): ビデオイベントラベルからトレーニングビデオにおいてより魅力的なセグメントを,手作業によるハイライトセグメントの注釈付けを伴わずに検出するための,弱い教師付きビデオハイライト検出問題に対処する。
ハイライトセグメントの局所化を手動で回避する一方で、日々のビデオではスキーやサーフィンなど、複数のイベントタイプを持つハイライトセグメントを含む可能性があるため、弱い教師付きモデリングは困難です。
本研究では,複数インスタンスランキングネットワーク(mini-net)学習として,特定のイベントに対する弱教師付きビデオハイライト検出モデルを提案する。
我々は,各映像をセグメントの袋として捉え,提案するミニネットは,特定のイベントのハイライトセグメントを含むポジティブバッグに対して,無関係な負の袋よりも高いハイライトスコアを強制することを学ぶ。
特に、最大ランキングの損失を形成し、最も可能性の高い正のセグメントインスタンスと最も難しい負のセグメントインスタンスとの信頼性の高い相対比較を得る。
この最大ランクの喪失により、MINI-Netは全セグメント情報を効果的に活用し、ビデオ内の特定のイベントのハイライトセグメントをローカライズする、より明確なビデオ特徴表現を取得する。
3つの難解な公開ベンチマークの広範な実験結果は、この問題に対する複数のインスタンスランキングアプローチの有効性を明確に示しています。
関連論文リスト
- Unsupervised Video Highlight Detection by Learning from Audio and Visual Recurrence [13.2968942989609]
手動のアノテーションを不要にしながら、教師なしのビデオハイライト検出に重点を置いている。
クラスタリング手法により、ビデオの擬似カテゴリを特定し、各ビデオの擬似ハイライトスコアを計算する。
また、視覚的特徴を用いて、各ビデオの視覚的擬似ハイライトスコアも計算する。
論文 参考訳(メタデータ) (2024-07-18T23:09:14Z) - ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - What is Point Supervision Worth in Video Instance Segmentation? [119.71921319637748]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。
トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。
3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
論文 参考訳(メタデータ) (2024-04-01T17:38:25Z) - VideoCutLER: Surprisingly Simple Unsupervised Video Instance
Segmentation [87.13210748484217]
VideoCutLERは、光学フローや自然ビデオのトレーニングのようなモーションベースの学習信号を使用することなく、教師なしのマルチインスタンスビデオセグメンテーションの簡単な方法である。
挑戦的なYouTubeVIS 2019ベンチマークで初めて、競争力のない教師なしの学習結果を示し、50.7%のAPvideo50を達成しました。
VideoCutLERは、監督されたビデオインスタンスセグメンテーションタスクのための強力な事前訓練モデルとしても機能し、APビデオの観点からは、YouTubeVIS 2019でDINOを15.9%上回っている。
論文 参考訳(メタデータ) (2023-08-28T17:10:12Z) - Multi-modal Segment Assemblage Network for Ad Video Editing with
Importance-Coherence Reward [34.06878258459702]
動画編集は、広告ビデオを短いビデオに自動的に編集し、一貫性のあるコンテンツと広告主が伝える重要な情報を保持することを目的としています。
既存の手法はビデオセグメンテーションの段階では良好に機能するが、セグメンテーションの段階では余分な煩雑なモデルに依存し、性能が劣る。
本稿では,効率よく一貫性のあるセグメントアセンブラタスクをエンド・ツー・エンドで実現可能なM-SANを提案する。
論文 参考訳(メタデータ) (2022-09-25T06:51:45Z) - Reliable Shot Identification for Complex Event Detection via
Visual-Semantic Embedding [72.9370352430965]
本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。
カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。
提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-12T11:46:56Z) - Cross-category Video Highlight Detection via Set-based Learning [55.49267044910344]
本稿では,Dual-Learner-based Video Highlight Detection (DL-VHD) フレームワークを提案する。
対象とするカテゴリビデオの区別と,ソースビデオカテゴリにおけるハイライトモーメントの特徴を学習する。
さまざまなカテゴリのハイライト検出タスクにおいて、一般的な5つのUnsupervised Domain Adaptation (UDA)アルゴリズムより優れています。
論文 参考訳(メタデータ) (2021-08-26T13:06:47Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。