Fugu-MT 論文翻訳(概要): Sign language segmentation with temporal convolutional networks

論文の概要: Sign language segmentation with temporal convolutional networks

arxiv url: http://arxiv.org/abs/2011.12986v2
Date: Fri, 12 Feb 2021 17:16:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-21 03:12:55.698550
Title: Sign language segmentation with temporal convolutional networks
Title（参考訳）: 時間畳み込みネットワークを用いた手話セグメンテーション
Authors: Katrin Renz, Nicolaj C. Stache, Samuel Albanie, G\"ul Varol
Abstract要約: 提案手法は3次元畳み込みニューラルネットワーク表現と反復時間セグメント改良を用いて,手話境界のあいまいさを解消する。本稿では,BSLCORPUS,PHOENIX14,BSL-1Kデータセットに対するアプローチの有効性を示す。
参考スコア（独自算出の注目度）: 25.661006537351547
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The objective of this work is to determine the location of temporal boundaries between signs in continuous sign language videos. Our approach employs 3D convolutional neural network representations with iterative temporal segment refinement to resolve ambiguities between sign boundary cues. We demonstrate the effectiveness of our approach on the BSLCORPUS, PHOENIX14 and BSL-1K datasets, showing considerable improvement over the prior state of the art and the ability to generalise to new signers, languages and domains.
Abstract（参考訳）: 本研究の目的は,連続手話ビデオにおける記号間の時間的境界の位置を決定することである。提案手法は3次元畳み込みニューラルネットワーク表現と反復時間セグメント改良を用いて,手話境界のあいまいさを解消する。 bslcorpus、phoenix14、bsl-1kデータセットに対するアプローチの有効性を実証し、以前の技術よりも大幅に改善し、新しい署名者、言語、ドメインに一般化する能力を示した。

関連論文リスト

Hands-On: Segmenting Individual Signs from Continuous Sequences [28.01996053847279]
本稿では,署名とフレームセグメンテーションの時間ダイナミクスをモデル化したトランスフォーマーアーキテクチャを提案する。我々のモデルはDGS Corpusの最先端結果を達成する一方、我々の機能はBSLCorpusの以前のベンチマークを上回る。
論文参考訳（メタデータ） (2025-04-11T14:52:59Z)
MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。 How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文参考訳（メタデータ） (2024-07-04T13:53:50Z)
Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文参考訳（メタデータ） (2024-06-15T04:50:19Z)
Linguistically Motivated Sign Language Segmentation [51.06873383204105]
個々の記号へのセグメンテーションとフレーズへのセグメンテーションという2種類のセグメンテーションを考える。本手法は手話コーパスで観察される言語的手がかりによって動機付けられている。私たちは、主要なIOタグ付けスキームをBIOタグに置き換えて、継続的な署名を可能にします。
論文参考訳（メタデータ） (2023-10-21T10:09:34Z)
Continuous Sign Language Recognition with Correlation Network [6.428695655854854]
本研究では, フレーム間の物体軌跡を明示的に捕捉し, 利用するための相関ネットワーク (CorrNet) を提案する。 CorrNetは、4つの大規模データセットで新しい最先端の精度を実現する。
論文参考訳（メタデータ） (2023-03-06T15:02:12Z)
BEST: BERT Pre-Training for Sign Language Recognition with Coupling Tokenization [135.73436686653315]
我々は、BERTの事前学習の成功を活用し、手話認識(SLR)モデルを肥大化させるために、ドメイン固有の統計モデルを構築している。手と体が手話表現の優位性を考えると、それらを三重奏単位として整理し、トランスフォーマーのバックボーンに供給する。劣化した入力シーケンスからマスク三重項ユニットを再構成して事前学習を行う。意味的ジェスチャー/身体状態を表すポーズ三重奏ユニットから離散擬似ラベルを適応的に抽出する。
論文参考訳（メタデータ） (2023-02-10T06:23:44Z)
Sign Segmentation with Changepoint-Modulated Pseudo-Labelling [12.685780222519902]
この研究の目的は、連続手話における記号間の時間的境界を見つけることである。このタスクで使用可能なアノテーションのpaucityに動機づけられ,セグメンテーション性能を向上させるための単純かつ効果的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-04-28T15:05:19Z)
Pose-based Sign Language Recognition using GCN and BERT [0.0]
単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。ビデオからサインを認識することは、単語の意味が微妙な身体の動き、手の動き、その他の動きの組み合わせに依存するため、難しい作業である。 W SLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。本稿では,空間的・時間的情報を別々に捉え,遅延融合を行う新しいポーズベースアプローチを用いて,W SLRの課題に取り組む。
論文参考訳（メタデータ） (2020-12-01T19:10:50Z)
TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文参考訳（メタデータ） (2020-10-12T05:58:09Z)
Co-Saliency Spatio-Temporal Interaction Network for Person Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。 CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文参考訳（メタデータ） (2020-04-10T10:23:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。