論文の概要: U-LanD: Uncertainty-Driven Video Landmark Detection
- arxiv url: http://arxiv.org/abs/2102.01586v1
- Date: Tue, 2 Feb 2021 16:23:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-02-03 20:49:53.082498
- Title: U-LanD: Uncertainty-Driven Video Landmark Detection
- Title(参考訳): U-LanD:不確実性駆動のビデオランドマーク検出
- Authors: Mohammad H. Jafari, Christina Luong, Michael Tsang, Ang Nan Gu, Nathan
Van Woudenberg, Robert Rohling, Teresa Tsang, Purang Abolmaesumi
- Abstract要約: U-LanDは、重要なビデオフレームでのみ訓練されたディープベイズランドマーク検出器だ。
この観測を教師なし信号として使用し、ランドマークを検出するキーフレームを自動的に認識する。
以上の結果から,U-LanDは非ベイズ的非ベイズ的状態よりも42%の絶対利得を達成できることを示した。
- 参考スコア(独自算出の注目度): 14.103256135155878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents U-LanD, a framework for joint detection of key frames and
landmarks in videos. We tackle a specifically challenging problem, where
training labels are noisy and highly sparse. U-LanD builds upon a pivotal
observation: a deep Bayesian landmark detector solely trained on key video
frames, has significantly lower predictive uncertainty on those frames vs.
other frames in videos. We use this observation as an unsupervised signal to
automatically recognize key frames on which we detect landmarks. As a test-bed
for our framework, we use ultrasound imaging videos of the heart, where sparse
and noisy clinical labels are only available for a single frame in each video.
Using data from 4,493 patients, we demonstrate that U-LanD can exceedingly
outperform the state-of-the-art non-Bayesian counterpart by a noticeable
absolute margin of 42% in R2 score, with almost no overhead imposed on the
model size. Our approach is generic and can be potentially applied to other
challenging data with noisy and sparse training labels.
- Abstract(参考訳): 本稿では,ビデオ中のキーフレームとランドマークを共同検出するためのフレームワークであるU-LanDを提案する。
私たちは、トレーニングラベルが騒々しく、非常にスパースな、特に困難な問題に取り組みます。
U-LanDは、重要なビデオフレームでのみ訓練された深いベイズランドマーク検出器が、それらのフレームの予測不確実性を大幅に低下させています。
この観測を教師なし信号として使用し、ランドマークを検出するキーフレームを自動的に認識する。
本フレームワークの試験ベッドとして,各ビデオの1フレームでのみ,スパースとノイジーな臨床ラベルが使用可能な,心臓の超音波画像を用いた。
4,493人のデータを用いて、U-LanDは、現在最先端の非ベイズ系患者よりも、R2スコアの42%という顕著な絶対的マージンで、モデルサイズにほとんどオーバーヘッドを課さないことが実証された。
私たちのアプローチは汎用的で、騒々しいトレーニングラベルを持つ他の挑戦的なデータに適用できます。
関連論文リスト
- SSVOD: Semi-Supervised Video Object Detection with Sparse Annotations [12.139451002212063]
SSVODはビデオのモーションダイナミクスを利用して、スパースアノテーション付き大規模未ラベルフレームを利用する。
提案手法は,ImageNet-VID, Epic-KITCHENS, YouTube-VISの既存手法に比べて,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-09-04T06:41:33Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - Weakly Supervised Contrastive Learning for Better Severity Scoring of
Lung Ultrasound [0.044364554283083675]
超音波スキャンの外観を評価することに依存する、いくつかのAIベースの患者重症度評価モデルが提案されている。
ビデオクリップ中の全ての超音波フレームにラベルを付けるという課題に対処する。
比較学習法では,ビデオクリップの重大度ラベルを,個々のフレームに対して弱い重大度ラベルとして扱う。
従来のクロスエントロピー損失に基づくトレーニングよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-01-18T23:45:18Z) - Video-based Person Re-identification without Bells and Whistles [49.51670583977911]
ビデオベースの人物再識別(Re-ID)は、異なるカメラの下で歩行者を特定するために、ビデオトラッカーとトリミングされたビデオフレームをマッチングすることを目的としている。
従来の方法による不完全な検出と追跡の結果から, 収穫したトラックレットの空間的, 時間的不整合が生じている。
本稿では,深層学習に基づくトラックレットの検出と追跡を適用することで,これらの予期せぬノイズを効果的に低減できる簡易な再検出リンク(DL)モジュールを提案する。
論文 参考訳(メタデータ) (2021-05-22T10:17:38Z) - Cleaning Label Noise with Clusters for Minimally Supervised Anomaly
Detection [26.062659852373653]
ビデオレベルラベルのみを用いてトレーニングした弱い教師付き異常検出法を定式化する。
提案手法は UCF-crime と ShanghaiTech のデータセットでそれぞれ78.27% と84.16% のフレームレベル AUC が得られる。
論文 参考訳(メタデータ) (2021-04-30T06:03:24Z) - Supervision by Registration and Triangulation for Landmark Detection [70.13440728689231]
本稿では,マルチビュー映像を用いた教師なし手法である登録・三角測量(srt)による監視を行い,ランドマーク検出器の精度と精度を向上させる。
ラベルのないデータを活用することで、検出者は大量のラベルのないデータから自由に学べる。
論文 参考訳(メタデータ) (2021-01-25T02:48:21Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - A Self-Reasoning Framework for Anomaly Detection Using Video-Level
Labels [17.615297975503648]
監視ビデオにおける異常事象の検出は、画像およびビデオ処理コミュニティの間で困難かつ実践的な研究課題である。
本稿では、ビデオレベルラベルのみを用いて自己推論方式で訓練されたディープニューラルネットワークに基づく、弱い教師付き異常検出フレームワークを提案する。
提案するフレームワークは,UCF-crimeやShanghaiTech,Ped2など,公開されている実世界の異常検出データセット上で評価されている。
論文 参考訳(メタデータ) (2020-08-27T02:14:15Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z) - Single Shot Video Object Detector [215.06904478667337]
Single Shot Video Object Detector (SSVD)は、新しいアーキテクチャであり、ビデオ内のオブジェクト検出のための1段階の検出器に機能集約を新規に統合する。
448の448ドルの入力で、SSVDはImageNet VIDデータセットで79.2%のmAPを達成した。
論文 参考訳(メタデータ) (2020-07-07T15:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。