論文の概要: Video Region Annotation with Sparse Bounding Boxes
- arxiv url: http://arxiv.org/abs/2008.07049v1
- Date: Mon, 17 Aug 2020 01:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 03:52:42.996396
- Title: Video Region Annotation with Sparse Bounding Boxes
- Title(参考訳): スパースバウンディングボックスによるビデオ領域アノテーション
- Authors: Yuzheng Xu, Yang Wu, Nur Sabrina binti Zuraimi, Shohei Nobuhara and Ko
Nishino
- Abstract要約: 対象領域の少ない注釈付き境界ボックスから、ビデオのすべてのフレームの領域境界を自動的に生成することを学ぶ。
本稿では,領域境界上のキーポイントを反復的に見つけることを学習するVGCN(Volumetric Graph Convolutional Network)を用いてこれを実現している。
- 参考スコア(独自算出の注目度): 29.323784279321337
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video analysis has been moving towards more detailed interpretation (e.g.
segmentation) with encouraging progresses. These tasks, however, increasingly
rely on densely annotated training data both in space and time. Since such
annotation is labour-intensive, few densely annotated video data with detailed
region boundaries exist. This work aims to resolve this dilemma by learning to
automatically generate region boundaries for all frames of a video from
sparsely annotated bounding boxes of target regions. We achieve this with a
Volumetric Graph Convolutional Network (VGCN), which learns to iteratively find
keypoints on the region boundaries using the spatio-temporal volume of
surrounding appearance and motion. The global optimization of VGCN makes it
significantly stronger and generalize better than existing solutions.
Experimental results using two latest datasets (one real and one synthetic),
including ablation studies, demonstrate the effectiveness and superiority of
our method.
- Abstract(参考訳): ビデオ分析はより詳細な解釈(例えばセグメンテーション)へと進み、進歩を奨励している。
しかし、これらのタスクは、空間と時間の両方において、密に注釈されたトレーニングデータに依存している。
このようなアノテーションは労働集約的であるため、詳細な領域境界を持つ濃密な注釈付きビデオデータはほとんど存在しない。
本研究の目的は、このジレンマを解決するために、ターゲット領域の少ない注釈付き境界ボックスから、ビデオのすべてのフレームの領域境界を自動的に生成することである。
本研究では,周辺外見と動きの時空間体積を用いて,領域境界上のキーポイントを反復的に見つけることを学習するVGCNを用いてこれを実現した。
VGCNのグローバルな最適化により、既存のソリューションよりも大幅に強く、一般化される。
アブレーション研究を含む2つの最新のデータセット(1つの実データと1つの合成データ)を用いて,本手法の有効性と優位性を実証した。
関連論文リスト
- EtC: Temporal Boundary Expand then Clarify for Weakly Supervised Video
Grounding with Multimodal Large Language Model [63.93372634950661]
不完全な境界を拡大する上で、より価値のある情報を導入しながら、元の時間的内容の整合性を維持する新しい視点を提案する。
ビデオの連続性、すなわち隣接するフレーム間の視覚的類似性により、我々は、初期擬似境界内で各フレームにアノテートするために強力なマルチモーダル大言語モデル(MLLM)を使用する。
論文 参考訳(メタデータ) (2023-12-05T04:15:56Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Learning Temporal Distribution and Spatial Correlation Towards Universal
Moving Object Segmentation [8.807766029291901]
本稿では,時空間分布と空間相関(LTS)の学習手法を提案する。
提案手法では,時間画素からの分布を,シーン非依存のセグメンテーションのための欠陥反復分布学習(DIDL)ネットワークで学習する。
提案手法は、パラメータが固定された多様で複雑な自然シーンのほとんどすべてのビデオに対してよく機能する。
論文 参考訳(メタデータ) (2023-04-19T20:03:09Z) - Group Contextualization for Video Recognition [80.3842253625557]
グループ文脈化(GC)は、2D-CNN(TSN)とTSMの性能を高める。
GCは4つの異なるコンテキストを並列に埋め込む。
グループコンテキスト化は、2D-CNN(例えばTSN)のパフォーマンスを最先端のビデオネットワークに匹敵するレベルまで向上させる。
論文 参考訳(メタデータ) (2022-03-18T01:49:40Z) - BI-GCN: Boundary-Aware Input-Dependent Graph Convolution Network for
Biomedical Image Segmentation [21.912509900254364]
セグメント化タスクにグラフ畳み込みを適用し,改良されたtextitLaplacianを提案する。
本手法は,大腸内視鏡像におけるポリープの分画と光ディスク,光カップのカラーファンドス画像における画期的なアプローチよりも優れていた。
論文 参考訳(メタデータ) (2021-10-27T21:12:27Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - SCT: Set Constrained Temporal Transformer for Set Supervised Action
Segmentation [22.887397951846353]
弱教師付きアプローチは、弱ラベル付きビデオから時間的アクションセグメンテーションを学ぶことを目的としている。
このようなデータに基づいてエンドツーエンドにトレーニング可能なアプローチを提案する。
提案手法は,最先端の結果が得られる3つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2020-03-31T14:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。