論文の概要: Sign language segmentation with temporal convolutional networks
- arxiv url: http://arxiv.org/abs/2011.12986v2
- Date: Fri, 12 Feb 2021 17:16:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 03:12:55.698550
- Title: Sign language segmentation with temporal convolutional networks
- Title(参考訳): 時間畳み込みネットワークを用いた手話セグメンテーション
- Authors: Katrin Renz, Nicolaj C. Stache, Samuel Albanie, G\"ul Varol
- Abstract要約: 提案手法は3次元畳み込みニューラルネットワーク表現と反復時間セグメント改良を用いて,手話境界のあいまいさを解消する。
本稿では,BSLCORPUS,PHOENIX14,BSL-1Kデータセットに対するアプローチの有効性を示す。
- 参考スコア(独自算出の注目度): 25.661006537351547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of this work is to determine the location of temporal
boundaries between signs in continuous sign language videos. Our approach
employs 3D convolutional neural network representations with iterative temporal
segment refinement to resolve ambiguities between sign boundary cues. We
demonstrate the effectiveness of our approach on the BSLCORPUS, PHOENIX14 and
BSL-1K datasets, showing considerable improvement over the prior state of the
art and the ability to generalise to new signers, languages and domains.
- Abstract(参考訳): 本研究の目的は,連続手話ビデオにおける記号間の時間的境界の位置を決定することである。
提案手法は3次元畳み込みニューラルネットワーク表現と反復時間セグメント改良を用いて,手話境界のあいまいさを解消する。
bslcorpus、phoenix14、bsl-1kデータセットに対するアプローチの有効性を実証し、以前の技術よりも大幅に改善し、新しい署名者、言語、ドメインに一般化する能力を示した。
関連論文リスト
- Linguistically Motivated Sign Language Segmentation [51.06873383204105]
個々の記号へのセグメンテーションとフレーズへのセグメンテーションという2種類のセグメンテーションを考える。
本手法は手話コーパスで観察される言語的手がかりによって動機付けられている。
私たちは、主要なIOタグ付けスキームをBIOタグに置き換えて、継続的な署名を可能にします。
論文 参考訳(メタデータ) (2023-10-21T10:09:34Z) - Continuous Sign Language Recognition with Correlation Network [6.428695655854854]
本研究では, フレーム間の物体軌跡を明示的に捕捉し, 利用するための相関ネットワーク (CorrNet) を提案する。
CorrNetは、4つの大規模データセットで新しい最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-03-06T15:02:12Z) - BEST: BERT Pre-Training for Sign Language Recognition with Coupling
Tokenization [135.73436686653315]
我々は、BERTの事前学習の成功を活用し、手話認識(SLR)モデルを肥大化させるために、ドメイン固有の統計モデルを構築している。
手と体が手話表現の優位性を考えると、それらを三重奏単位として整理し、トランスフォーマーのバックボーンに供給する。
劣化した入力シーケンスからマスク三重項ユニットを再構成して事前学習を行う。
意味的ジェスチャー/身体状態を表すポーズ三重奏ユニットから離散擬似ラベルを適応的に抽出する。
論文 参考訳(メタデータ) (2023-02-10T06:23:44Z) - Sign Segmentation with Changepoint-Modulated Pseudo-Labelling [12.685780222519902]
この研究の目的は、連続手話における記号間の時間的境界を見つけることである。
このタスクで使用可能なアノテーションのpaucityに動機づけられ,セグメンテーション性能を向上させるための単純かつ効果的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-28T15:05:19Z) - Pose-based Sign Language Recognition using GCN and BERT [0.0]
単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。
ビデオからサインを認識することは、単語の意味が微妙な身体の動き、手の動き、その他の動きの組み合わせに依存するため、難しい作業である。
W SLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。
本稿では,空間的・時間的情報を別々に捉え,遅延融合を行う新しいポーズベースアプローチを用いて,W SLRの課題に取り組む。
論文 参考訳(メタデータ) (2020-12-01T19:10:50Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z) - Spatial-Temporal Multi-Cue Network for Continuous Sign Language
Recognition [141.24314054768922]
本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。
有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-08T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。