論文の概要: AdaBrowse: Adaptive Video Browser for Efficient Continuous Sign Language
Recognition
- arxiv url: http://arxiv.org/abs/2308.08327v1
- Date: Wed, 16 Aug 2023 12:40:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 13:35:22.009648
- Title: AdaBrowse: Adaptive Video Browser for Efficient Continuous Sign Language
Recognition
- Title(参考訳): AdaBrowse: 効果的な連続手話認識のための適応型ビデオブラウザ
- Authors: Lianyu Hu, Liqing Gao, Zekang Liu, Chi-Man Pun, Wei Feng
- Abstract要約: 本稿では,入力されたビデオシーケンスから最も情報性の高いサブシーケンスを動的に選択する新しいモデル(AdaBrowse)を提案する。
AdaBrowseは1.44$times$スループットと2.12$times$より少ないFLOPで同等の精度を実現している。
- 参考スコア(独自算出の注目度): 39.778958624066185
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Raw videos have been proven to own considerable feature redundancy where in
many cases only a portion of frames can already meet the requirements for
accurate recognition. In this paper, we are interested in whether such
redundancy can be effectively leveraged to facilitate efficient inference in
continuous sign language recognition (CSLR). We propose a novel adaptive model
(AdaBrowse) to dynamically select a most informative subsequence from input
video sequences by modelling this problem as a sequential decision task. In
specific, we first utilize a lightweight network to quickly scan input videos
to extract coarse features. Then these features are fed into a policy network
to intelligently select a subsequence to process. The corresponding subsequence
is finally inferred by a normal CSLR model for sentence prediction. As only a
portion of frames are processed in this procedure, the total computations can
be considerably saved. Besides temporal redundancy, we are also interested in
whether the inherent spatial redundancy can be seamlessly integrated together
to achieve further efficiency, i.e., dynamically selecting a lowest input
resolution for each sample, whose model is referred to as AdaBrowse+. Extensive
experimental results on four large-scale CSLR datasets, i.e., PHOENIX14,
PHOENIX14-T, CSL-Daily and CSL, demonstrate the effectiveness of AdaBrowse and
AdaBrowse+ by achieving comparable accuracy with state-of-the-art methods with
1.44$\times$ throughput and 2.12$\times$ fewer FLOPs. Comparisons with other
commonly-used 2D CNNs and adaptive efficient methods verify the effectiveness
of AdaBrowse. Code is available at
\url{https://github.com/hulianyuyy/AdaBrowse}.
- Abstract(参考訳): 生ビデオにはかなりの冗長性があることが証明されており、多くの場合、フレームの一部しか正確な認識の要求を満たしていない。
本稿では,連続手話認識(CSLR)における効率的な推論を容易にするために,このような冗長性を効果的に活用できるかどうかを考察する。
本稿では,本課題を逐次決定タスクとしてモデル化し,入力映像列から最も有益な部分列を動的に選択する新しい適応モデル(adabrowse)を提案する。
具体的には、まず軽量なネットワークを用いて、入力ビデオを素早くスキャンし、粗い特徴を抽出する。
その後、これらの機能はポリシーネットワークに送られ、処理するサブシーケンスをインテリジェントに選択する。
対応する列は、文予測のための正規CSLRモデルによって最終的に推測される。
この処理ではフレームの一部のみが処理されるため、全体の計算量はかなり節約できる。
また, 時間的冗長性に加えて, 空間的冗長性をシームレスに統合して, さらなる効率性, すなわち, AdaBrowse+ と呼ばれる各サンプルに対して, 最小の入力解像度を動的に選択できることにも関心がある。
PHOENIX14, PHOENIX14-T, CSL-Daily, CSLの4つの大規模CSLRデータセットの大規模な実験結果は、AdaBrowseとAdaBrowse+の有効性を1.44$\times$スループットと2.12$\times$より少ないFLOPで同等の精度で示す。
他の一般的な2d cnnおよび適応的効率的な手法との比較は、adabrowseの有効性を検証する。
コードは \url{https://github.com/hulianyuyy/AdaBrowse} で入手できる。
関連論文リスト
- Fast Deep Predictive Coding Networks for Videos Feature Extraction without Labels [2.554431612189437]
ディープ予測符号化ネットワーク(DPCN)は、双方向情報フローを通じて映像特徴をキャプチャする。
本稿では,特徴クラスタリングの空間性と精度を向上する内部モデル変数を高速に推定するDPCNを提案する。
CIFAR-10、スーパーマリオブラザース、Coil-100などのデータセットで実験を行った結果、そのアプローチが検証された。
論文 参考訳(メタデータ) (2024-09-08T01:53:25Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - Improved CNN-based Learning of Interpolation Filters for Low-Complexity
Inter Prediction in Video Coding [5.46121027847413]
本稿では,ニューラルネットワークを用いた新しい予測手法を提案する。
新たなトレーニングフレームワークにより、各ネットワークブランチは特定の分数シフトに類似することができる。
Versatile Video Coding (VVC)テストモデルで実装されると、0.77%、1.27%、および2.25%のBDレートの節約が達成される。
論文 参考訳(メタデータ) (2021-06-16T16:48:01Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。