論文の概要: Fast Approximate Modelling of the Next Combination Result for Stopping
the Text Recognition in a Video
- arxiv url: http://arxiv.org/abs/2008.02566v1
- Date: Thu, 6 Aug 2020 10:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 07:20:33.752661
- Title: Fast Approximate Modelling of the Next Combination Result for Stopping
the Text Recognition in a Video
- Title(参考訳): ビデオにおけるテキスト認識の停止に対する次の組合せ結果の高速近似モデリング
- Authors: Konstantin Bulatov, Nadezhda Fedotova, Vladimir V. Arlazarov
- Abstract要約: 本稿では,次の組み合わせ結果のモデル化に基づいて,そのようなプロセスを最適に停止する既存手法について述べる。
本手法は,ビデオ中の文書テキストフィールド認識と任意のテキスト認識のタスクに対して評価された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider a task of stopping the video stream recognition
process of a text field, in which each frame is recognized independently and
the individual results are combined together. The video stream recognition
stopping problem is an under-researched topic with regards to computer vision,
but its relevance for building high-performance video recognition systems is
clear.
Firstly, we describe an existing method of optimally stopping such a process
based on a modelling of the next combined result. Then, we describe
approximations and assumptions which allowed us to build an optimized
computation scheme and thus obtain a method with reduced computational
complexity.
The methods were evaluated for the tasks of document text field recognition
and arbitrary text recognition in a video. The experimental comparison shows
that the introduced approximations do not diminish the quality of the stopping
method in terms of the achieved combined result precision, while dramatically
reducing the time required to make the stopping decision. The results were
consistent for both text recognition tasks.
- Abstract(参考訳): 本稿では,各フレームを独立に認識し,個々の結果を組み合わせたテキストフィールドの映像ストリーム認識プロセスの停止作業について考察する。
映像ストリーム認識停止問題は,コンピュータビジョンに関する未調査の課題であるが,ハイパフォーマンスな映像認識システムの構築における関連性は明らかである。
まず,次の組合せ結果のモデル化に基づいて,そのようなプロセスを最適に停止させる既存の手法について述べる。
次に,最適化計算スキームの構築を可能にした近似と仮定を記述し,計算複雑性を低減した手法を得る。
本手法は,ビデオ中のテキストフィールド認識と任意のテキスト認識のタスクに対して評価した。
実験による比較により, 提案手法が得られた結果の精度の面では停止法の品質を低下させることなく, 停止決定に要する時間を劇的に削減できることを示した。
その結果,両テキスト認識課題とも一致した。
関連論文リスト
- Towards Efficient and Effective Text-to-Video Retrieval with
Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。
トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。
検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文 参考訳(メタデータ) (2024-01-01T08:54:18Z) - DynPoint: Dynamic Neural Point For View Synthesis [45.44096876841621]
我々は、制約のないモノクロビデオのための新しいビューの迅速な合成を容易にするアルゴリズムであるDynPointを提案する。
DynPointは、情報集約を実現するために、隣接するフレーム間の明示的な3D対応を予測することに集中している。
本手法は,ビデオコンテンツの正規表現を学習することなく,長時間の動画処理において強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-29T12:55:53Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Adaptive Compact Attention For Few-shot Video-to-video Translation [13.535988102579918]
本稿では,複数の参照画像からコンテキスト特徴を効率的に抽出する適応型コンパクトアテンション機構を提案する。
我々の中心となる考え方は、すべての参照画像からより高レベルな表現としてコンパクトな基底集合を抽出することである。
提案手法を大規模トーキングヘッドビデオデータセットと人間のダンスデータセットで広範囲に評価した。
論文 参考訳(メタデータ) (2020-11-30T11:19:12Z) - AR-Net: Adaptive Frame Resolution for Efficient Action Recognition [70.62587948892633]
行動認識はコンピュータビジョンにおいてオープンで困難な問題である。
本稿では,入力に条件付けされた各フレームの最適な解像度をオンザフライで選択し,効率的な動作認識を実現する,AR-Netと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-31T01:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。