論文の概要: Looking for the Signs: Identifying Isolated Sign Instances in Continuous
Video Footage
- arxiv url: http://arxiv.org/abs/2108.04229v1
- Date: Wed, 21 Jul 2021 12:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-15 11:29:45.551414
- Title: Looking for the Signs: Identifying Isolated Sign Instances in Continuous
Video Footage
- Title(参考訳): サインを探す - 連続ビデオで孤立したサインインスタンスを識別する
- Authors: Tao Jiang, Necati Cihan Camgoz, Richard Bowden
- Abstract要約: ビデオクリップから時間的表現を抽出するために,SignLookupと呼ばれるトランスフォーマーベースのネットワークを提案する。
本モデルでは,ベンチマークデータセットの精度を96%にまで向上させる。
- 参考スコア(独自算出の注目度): 45.29710323525548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on the task of one-shot sign spotting, i.e. given an
example of an isolated sign (query), we want to identify whether/where this
sign appears in a continuous, co-articulated sign language video (target). To
achieve this goal, we propose a transformer-based network, called SignLookup.
We employ 3D Convolutional Neural Networks (CNNs) to extract spatio-temporal
representations from video clips. To solve the temporal scale discrepancies
between the query and the target videos, we construct multiple queries from a
single video clip using different frame-level strides. Self-attention is
applied across these query clips to simulate a continuous scale space. We also
utilize another self-attention module on the target video to learn the
contextual within the sequence. Finally a mutual-attention is used to match the
temporal scales to localize the query within the target sequence. Extensive
experiments demonstrate that the proposed approach can not only reliably
identify isolated signs in continuous videos, regardless of the signers'
appearance, but can also generalize to different sign languages. By taking
advantage of the attention mechanism and the adaptive features, our model
achieves state-of-the-art performance on the sign spotting task with accuracy
as high as 96% on challenging benchmark datasets and significantly
outperforming other approaches.
- Abstract(参考訳): 本稿では,ワンショットサインスポッティングの課題,すなわち,課題に焦点を当てる。
孤立した記号(クエリ)の例が与えられると、この記号が連続した共言語手話ビデオ(target)に現れるかどうかを識別したい。
この目的を達成するために、SignLookupと呼ばれるトランスフォーマーベースのネットワークを提案する。
ビデオクリップから時空間表現を抽出するために3次元畳み込みニューラルネットワーク(CNN)を用いる。
問合せと対象ビデオの時間スケールの相違を解決するために,異なるフレームレベルのストライドを用いて,単一のビデオクリップから複数のクエリを構築する。
これらのクエリクリップに自己注意を適用して、連続的なスケール空間をシミュレートする。
また,ターゲットビデオ上の別のセルフアテンションモジュールを使用して,シーケンス内のコンテキストを学習する。
最後に、相互アテンションを使用して時間スケールを一致させ、クエリをターゲットシーケンス内でローカライズする。
広範な実験により,提案手法は,シグナーの出現によらず,連続映像中の孤立した記号を確実に識別できるだけでなく,異なるシグナー言語に一般化できることが示された。
本モデルでは,注意機構と適応的特徴を生かして,難解なベンチマークデータセットの精度を96%まで向上させ,他の手法を著しく上回っている。
関連論文リスト
- Continuous Sign Language Recognition Using Intra-inter Gloss Attention [0.0]
本研究では,手話認識研究において,インター・グロス・アテンション・モジュール(inter-inter gloss attention module)と呼ばれる新しいモジュールを導入する。
グロス内注目モジュールでは、動画を等サイズのチャンクに分割し、各チャンク内に自己注意機構を適用する。
PHOENIX-2014ベンチマークデータセットの実験結果から,本手法が手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2024-06-26T13:21:08Z) - Feature Disentanglement Learning with Switching and Aggregation for
Video-based Person Re-Identification [9.068045610800667]
映像人物再識別(Re-ID)では、連続したフレームから対象人物の特徴を一貫して抽出する必要がある。
既存の手法は時間的情報の使用方法にのみ焦点をあてる傾向があり、しばしばネットワークは同じような外観と同じ背景に騙される。
本稿では,DSANet(Disentanglement and Switching and Aggregation Network)を提案する。
論文 参考訳(メタデータ) (2022-12-16T04:27:56Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Less than Few: Self-Shot Video Instance Segmentation [50.637278655763616]
質問に対して適切なサポートビデオの検索を自動で行うことを提案する。
私たちは、ビデオインスタンスのセグメンテーションを、セルフショット(と数ショット)の設定で初めて取り組んだ。
我々は,新しいトランスモデルを用いた強力なベースライン性能を提供する。
論文 参考訳(メタデータ) (2022-04-19T13:14:43Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。