論文の概要: Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation
- arxiv url: http://arxiv.org/abs/2010.05264v1
- Date: Sun, 11 Oct 2020 15:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 13:41:52.349897
- Title: Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation
- Title(参考訳): クロスモダリティ拡張による連続手話認識の促進
- Authors: Junfu Pu, Wengang Zhou, Hezhen Hu, Houqiang Li
- Abstract要約: 連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
- 参考スコア(独自算出の注目度): 135.30357113518127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous sign language recognition (SLR) deals with unaligned video-text
pair and uses the word error rate (WER), i.e., edit distance, as the main
evaluation metric. Since it is not differentiable, we usually instead optimize
the learning model with the connectionist temporal classification (CTC)
objective loss, which maximizes the posterior probability over the sequential
alignment. Due to the optimization gap, the predicted sentence with the highest
decoding probability may not be the best choice under the WER metric. To tackle
this issue, we propose a novel architecture with cross modality augmentation.
Specifically, we first augment cross-modal data by simulating the calculation
procedure of WER, i.e., substitution, deletion and insertion on both text label
and its corresponding video. With these real and generated pseudo video-text
pairs, we propose multiple loss terms to minimize the cross modality distance
between the video and ground truth label, and make the network distinguish the
difference between real and pseudo modalities. The proposed framework can be
easily extended to other existing CTC based continuous SLR architectures.
Extensive experiments on two continuous SLR benchmarks, i.e.,
RWTH-PHOENIX-Weather and CSL, validate the effectiveness of our proposed
method.
- Abstract(参考訳): 連続手話認識(SLR)は、アンアラインなビデオテキストペアを扱い、ワードエラー率(WER)、すなわち編集距離を主要な評価指標として使用する。
微分可能ではないため、典型的には、逐次アライメントによる後続確率を最大化するコネクショニスト時間的分類(CTC)目標損失による学習モデルを最適化する。
最適化のギャップのため、最も高い復号確率の予測文は、WER計量の下では最良の選択ではないかもしれない。
この問題に取り組むため,我々はクロスモダリティ拡張を用いた新しいアーキテクチャを提案する。
具体的には、WERの計算手順、すなわちテキストラベルとその対応するビデオの置換、削除、挿入をシミュレートして、クロスモーダルデータを初めて拡張する。
これらの実および生成された擬似ビデオテキストペアを用いて,ビデオとグランドの真理ラベル間のクロスモダリティ距離を最小化するために,複数の損失項を提案し,実と偽のモダリティの違いをネットワークに区別する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
RWTH-PHOENIX-Weather と CSL の2つの連続SLRベンチマークによる実験により,提案手法の有効性が検証された。
関連論文リスト
- Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - A Flexible Recursive Network for Video Stereo Matching Based on Residual Estimation [0.9362376508480733]
RecSMはビデオステレオマッチングの残差推定に基づくネットワークである。
スタック数は3で、RecSMはACVNetと比較して4倍のスピード向上を実現し、1つのNVIDIA 2080TI GPUに基づいて0.054秒で実行される。
論文 参考訳(メタデータ) (2024-06-05T14:49:14Z) - AdaBrowse: Adaptive Video Browser for Efficient Continuous Sign Language
Recognition [39.778958624066185]
本稿では,入力されたビデオシーケンスから最も情報性の高いサブシーケンスを動的に選択する新しいモデル(AdaBrowse)を提案する。
AdaBrowseは1.44$times$スループットと2.12$times$より少ないFLOPで同等の精度を実現している。
論文 参考訳(メタデータ) (2023-08-16T12:40:47Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - Rescoring Sequence-to-Sequence Models for Text Line Recognition with
CTC-Prefixes [0.0]
我々は,S2Sデコード中にCTC-Prefix-Scoreを使用することを提案する。
ビームサーチ中、CTC信頼行列に従って無効となるパスがペナル化される。
IAM, Rimes, StAZHの3つのHTRデータセット上で, この設定を評価する。
論文 参考訳(メタデータ) (2021-10-12T11:40:05Z) - Few-Shot Action Recognition with Compromised Metric via Optimal
Transport [31.834843714684343]
少数の画像分類の広い研究にもかかわらず、少数のアクション認識はまだ成熟していません。
これらのアルゴリズムをアクション認識に適用する主な障害の1つは、ビデオの複雑な構造です。
これら2つのソリューションの利点を組み合わせるために、CMOT(Compromised Metric via Optimal Transport)を提案します。
論文 参考訳(メタデータ) (2021-04-08T12:42:05Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z) - Neural Non-Rigid Tracking [26.41847163649205]
我々は、新しい、エンドツーエンドの学習可能、差別化可能な非剛性トラッカーを導入する。
我々は畳み込みニューラルネットワークを用いて、密度の高い通信とその信頼性を予測する。
現状の手法と比較して,提案アルゴリズムは再構築性能の向上を示す。
論文 参考訳(メタデータ) (2020-06-23T18:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。