論文の概要: TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation
- arxiv url: http://arxiv.org/abs/2010.05468v1
- Date: Mon, 12 Oct 2020 05:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 06:13:31.493275
- Title: TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation
- Title(参考訳): TSPNet:手話翻訳のための時間意味ピラミッドによる階層的特徴学習
- Authors: Dongxu Li, Chenchen Xu, Xin Yu, Kaihao Zhang, Ben Swift, Hanna
Suominen, Hongdong Li
- Abstract要約: 手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
- 参考スコア(独自算出の注目度): 101.6042317204022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language translation (SLT) aims to interpret sign video sequences into
text-based natural language sentences. Sign videos consist of continuous
sequences of sign gestures with no clear boundaries in between. Existing SLT
models usually represent sign visual features in a frame-wise manner so as to
avoid needing to explicitly segmenting the videos into isolated signs. However,
these methods neglect the temporal information of signs and lead to substantial
ambiguity in translation. In this paper, we explore the temporal semantic
structures of signvideos to learn more discriminative features. To this end, we
first present a novel sign video segment representation which takes into
account multiple temporal granularities, thus alleviating the need for accurate
video segmentation. Taking advantage of the proposed segment representation, we
develop a novel hierarchical sign video feature learning method via a temporal
semantic pyramid network, called TSPNet. Specifically, TSPNet introduces an
inter-scale attention to evaluate and enhance local semantic consistency of
sign segments and an intra-scale attention to resolve semantic ambiguity by
using non-local video context. Experiments show that our TSPNet outperforms the
state-of-the-art with significant improvements on the BLEU score (from 9.58 to
13.41) and ROUGE score (from 31.80 to 34.96)on the largest commonly-used SLT
dataset. Our implementation is available at
https://github.com/verashira/TSPNet.
- Abstract(参考訳): 手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
サインビデオは、その間に明確な境界のない連続した手振りで構成されている。
既存のSLTモデルは、ビデオが分離されたサインに明示的にセグメント化されるのを避けるために、通常、フレームワイズで手書きの視覚的特徴を表現する。
しかし、これらの手法は記号の時間的情報を無視し、翻訳の曖昧さに繋がる。
本稿では,シグビデオの時間的意味構造について検討し,より識別的な特徴を学習する。
そこで本研究では,まず,複数の時間的粒度を考慮した新しい手話映像セグメント表現を提案する。
提案したセグメント表現を利用して,TSPNetと呼ばれる時間的意味ピラミッドネットワークを介して,階層的な手話ビデオ特徴学習手法を開発した。
具体的には、TSPNetは、符号セグメントの局所的な意味的一貫性を評価し、強化するためのスケール間注意と、非ローカルなビデオコンテキストを用いて意味的あいまいさを解決するためのスケール内注意を導入する。
実験の結果、我々のTSPNetはBLEUスコア(9.58から13.41)とROUGEスコア(31.80から34.96)を最大で、最先端のSLTデータセットよりも優れています。
私たちの実装はhttps://github.com/verashira/tspnetで利用可能です。
関連論文リスト
- Linguistically Motivated Sign Language Segmentation [51.06873383204105]
個々の記号へのセグメンテーションとフレーズへのセグメンテーションという2種類のセグメンテーションを考える。
本手法は手話コーパスで観察される言語的手がかりによって動機付けられている。
私たちは、主要なIOタグ付けスキームをBIOタグに置き換えて、継続的な署名を可能にします。
論文 参考訳(メタデータ) (2023-10-21T10:09:34Z) - LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision [44.13777026011408]
我々は,高レベルな論理仕様を利用して,映像データの空間的・時間的リッチな特徴を捉えるセマンティックな特性を学習する。
20BN-Something-GEN, MUGEN, OpenPVSG という, 空間表現と時間仕様の豊富な3つのデータセットについて評価を行った。
論文 参考訳(メタデータ) (2023-04-15T22:24:05Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - Looking for the Signs: Identifying Isolated Sign Instances in Continuous
Video Footage [45.29710323525548]
ビデオクリップから時間的表現を抽出するために,SignLookupと呼ばれるトランスフォーマーベースのネットワークを提案する。
本モデルでは,ベンチマークデータセットの精度を96%にまで向上させる。
論文 参考訳(メタデータ) (2021-07-21T12:49:44Z) - Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文 参考訳(メタデータ) (2021-06-30T15:42:08Z) - Sign language segmentation with temporal convolutional networks [25.661006537351547]
提案手法は3次元畳み込みニューラルネットワーク表現と反復時間セグメント改良を用いて,手話境界のあいまいさを解消する。
本稿では,BSLCORPUS,PHOENIX14,BSL-1Kデータセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-11-25T19:11:48Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。