論文の概要: It's About Time: Analog Clock Reading in the Wild
- arxiv url: http://arxiv.org/abs/2111.09162v1
- Date: Wed, 17 Nov 2021 14:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 15:01:27.849665
- Title: It's About Time: Analog Clock Reading in the Wild
- Title(参考訳): そろそろ時間だ:アナログ時計の読書は野放しだ
- Authors: Charig Yang, Weidi Xie, Andrew Zisserman
- Abstract要約: 自然画像やビデオでアナログクロックを読むためのフレームワークを提案する。
我々は、合成クロックを生成するためのスケーラブルなパイプラインを作成し、労働集約アノテーションの要求を大幅に削減する。
提案した合成データセットに基づいてトレーニングしたモデルは、精度良く実時計に向けて一般化されていることを示す。
- 参考スコア(独自算出の注目度): 93.84801062680786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a framework for reading analog clocks in natural
images or videos. Specifically, we make the following contributions: First, we
create a scalable pipeline for generating synthetic clocks, significantly
reducing the requirements for the labour-intensive annotations; Second, we
introduce a clock recognition architecture based on spatial transformer
networks (STN), which is trained end-to-end for clock alignment and
recognition. We show that the model trained on the proposed synthetic dataset
generalises towards real clocks with good accuracy, advocating a Sim2Real
training regime; Third, to further reduce the gap between simulation and real
data, we leverage the special property of time, i.e. uniformity, to generate
reliable pseudo-labels on real unlabelled clock videos, and show that training
on these videos offers further improvements while still requiring zero manual
annotations. Lastly, we introduce three benchmark datasets based on COCO, Open
Images, and The Clock movie, totalling 4,472 images with clocks, with full
annotations for time, accurate to the minute.
- Abstract(参考訳): 本稿では,自然画像やビデオでアナログ時計を読むためのフレームワークを提案する。
具体的には,まず合成クロックを生成するためのスケーラブルなパイプラインを作成し,作業集約的なアノテーション要件を大幅に削減する。第2に,クロックアライメントと認識のためにエンドツーエンドでトレーニングされた空間トランスフォーマネットワーク(stn)に基づくクロック認識アーキテクチャを導入する。
提案する合成データセット上でトレーニングされたモデルでは,シミュレーションと実データとのギャップを更に低減するために,実時間に対する信頼性の高い擬似ラベルを生成するための時間的特性,すなわち一様性を利用し,これらのビデオのトレーニングが,手作業によるアノテーションを必要とせず,さらなる改善をもたらすことを示す。
最後に,COCO,Open Images,The Clockの3つのベンチマークデータセットを紹介した。
関連論文リスト
- Ticking clocks in quantum theory [0.0]
有限系に対して、一つの自然な原理は、一般に時計を時制系と区別するのに役立つ。
このようなクロックのダイナミクスの最も一般的な形式を説明し、一般的なタイピングクロックから文献で遭遇するモデルへの追加の単純化について議論する。
論文 参考訳(メタデータ) (2023-06-02T18:00:01Z) - TimeMAE: Self-Supervised Representations of Time Series with Decoupled
Masked Autoencoders [55.00904795497786]
トランスフォーマネットワークに基づく転送可能な時系列表現を学習するための,新しい自己教師型パラダイムであるTimeMAEを提案する。
TimeMAEは双方向符号化方式を用いて時系列の豊富な文脈表現を学習する。
新たに挿入されたマスク埋め込みによって生じる不一致を解消するため、分離されたオートエンコーダアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-01T08:33:16Z) - Time Series Forecasting via Semi-Asymmetric Convolutional Architecture
with Global Atrous Sliding Window [0.0]
本稿では,時系列予測の問題に対処するために提案手法を提案する。
現代のモデルのほとんどは、短い範囲の情報のみに焦点を当てており、時系列予測のような問題で致命的なものである。
パフォーマンス上のアドバンテージがあることを実験的に検証した3つの主要なコントリビューションを行います。
論文 参考訳(メタデータ) (2023-01-31T15:07:31Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - Fast Non-Rigid Radiance Fields from Monocularized Data [66.74229489512683]
本稿では,不規則に変形するシーンを360度内向きに合成する新しい手法を提案する。
提案手法のコアとなるのは, 空間情報と時間情報の処理を分離し, 訓練と推論を高速化する効率的な変形モジュール, 2) 高速ハッシュ符号化ニューラルラジオアンスフィールドとしての標準シーンを表す静的モジュールである。
どちらの場合も,本手法は従来の手法よりもはるかに高速で,7分未満で収束し,1K解像度でリアルタイムのフレームレートを実現するとともに,生成した新規なビューに対して高い視覚的精度が得られる。
論文 参考訳(メタデータ) (2022-12-02T18:51:10Z) - SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided
Adaptive Memory [61.44510300515693]
注意誘導型適応メモリを用いた同時唇読解用トランスデューサSimulLRについて検討した。
実験の結果、SimulLRは最先端の非同期手法に比べて9.10倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-08-31T05:54:16Z) - Temporal-Spatial Feature Pyramid for Video Saliency Detection [2.578242050187029]
ビデオサリエンシー検出のための3D完全畳み込みエンコーダデコーダアーキテクチャを提案する。
私たちのモデルはシンプルかつ効果的で、リアルタイムで実行できます。
論文 参考訳(メタデータ) (2021-05-10T09:14:14Z) - Is Space-Time Attention All You Need for Video Understanding? [50.78676438502343]
空間と時間の自己意識にのみ焦点をあてた畳み込みのないアプローチを提案する。
TimeSformer"は、フレームレベルのパッチのシーケンスから特徴学習を可能にすることで、標準のTransformerアーキテクチャをビデオに適応させる。
TimeSformerは、いくつかの主要なアクション認識ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-02-09T19:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。