論文の概要: AnonySIGN: Novel Human Appearance Synthesis for Sign Language Video
Anonymisation
- arxiv url: http://arxiv.org/abs/2107.10685v1
- Date: Thu, 22 Jul 2021 13:42:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-23 12:52:57.796489
- Title: AnonySIGN: Novel Human Appearance Synthesis for Sign Language Video
Anonymisation
- Title(参考訳): AnonySIGN:手話ビデオ匿名化のための新しい人間の外観合成
- Authors: Ben Saunders, Necati Cihan Camgoz, Richard Bowden
- Abstract要約: 本稿では,手話ビデオの視覚的外観を匿名化するための自動手法として,手話ビデオ匿名化(SLVA)の課題を紹介する。
SLVAに取り組むために,手話データの視覚的匿名化のための新しいアプローチであるAnonySignを提案する。
- 参考スコア(独自算出の注目度): 37.679114155300084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The visual anonymisation of sign language data is an essential task to
address privacy concerns raised by large-scale dataset collection. Previous
anonymisation techniques have either significantly affected sign comprehension
or required manual, labour-intensive work.
In this paper, we formally introduce the task of Sign Language Video
Anonymisation (SLVA) as an automatic method to anonymise the visual appearance
of a sign language video whilst retaining the meaning of the original sign
language sequence. To tackle SLVA, we propose AnonySign, a novel automatic
approach for visual anonymisation of sign language data. We first extract pose
information from the source video to remove the original signer appearance. We
next generate a photo-realistic sign language video of a novel appearance from
the pose sequence, using image-to-image translation methods in a conditional
variational autoencoder framework. An approximate posterior style distribution
is learnt, which can be sampled from to synthesise novel human appearances. In
addition, we propose a novel \textit{style loss} that ensures style consistency
in the anonymised sign language videos.
We evaluate AnonySign for the SLVA task with extensive quantitative and
qualitative experiments highlighting both realism and anonymity of our novel
human appearance synthesis. In addition, we formalise an anonymity perceptual
study as an evaluation criteria for the SLVA task and showcase that video
anonymisation using AnonySign retains the original sign language content.
- Abstract(参考訳): 手話データの視覚的匿名化は、大規模なデータセット収集によって引き起こされるプライバシー問題に対処するための重要なタスクである。
従来の匿名化技術は、手話理解に大きく影響したか、あるいは手作業、労働集約的な作業を必要とした。
本稿では,手話映像の視覚的外観を匿名化するための自動的手法として手話映像匿名化(slva)の課題を,手話映像の本来の意味を保ちながら正式に紹介する。
SLVAに取り組むために,手話データの視覚的匿名化のための新しいアプローチであるAnonySignを提案する。
まず、元のシグナの外観を除去するために、ソースビデオからポーズ情報を抽出する。
次に、条件付き可変オートエンコーダフレームワークにおける画像から画像への変換手法を用いて、ポーズシーケンスから新しい外観の写実的な手話ビデオを生成する。
近い後部スタイルの分布を学習し、新しい人間の外観を合成するためにサンプリングすることができる。
さらに,匿名化した手話ビデオにおけるスタイル一貫性を保証する,新しい \textit{style loss}を提案する。
SLVAタスクにおける AnonySign を定量的および定性的な実験により評価し,新しい人間の外見合成の現実性と匿名性を強調した。
さらに、SLVAタスクの評価基準として匿名知覚研究を定式化し、AnonySignを用いたビデオ匿名化が元の手話の内容を保持することを示す。
関連論文リスト
- DiffSLVA: Harnessing Diffusion Models for Sign Language Video
Anonymization [33.18321022815901]
テキスト誘導手話ビデオ匿名化のための新しい手法であるDiffSLVAを紹介する。
我々は,署名された言語で言語情報を伝達するために重要な,表情をキャプチャーする専用のモジュールを開発する。
この革新的な方法論は、初めて、現実世界のアプリケーションに使用できる言語ビデオの匿名化を可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:26:19Z) - Automatic dense annotation of large-vocabulary sign language videos [85.61513254261523]
自動アノテーションの密度を大幅に高めるための,シンプルでスケーラブルなフレームワークを提案する。
これらのアノテーションは手話研究コミュニティをサポートするために公開されています。
論文 参考訳(メタデータ) (2022-08-04T17:55:09Z) - Signing at Scale: Learning to Co-Articulate Signs for Large-Scale
Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。
現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。
我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。
また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:51:38Z) - Sign Language Video Retrieval with Free-Form Textual Queries [19.29003565494735]
本稿では,自由形式のテキストクエリを用いた手話検索の課題について紹介する。
目的は、書かれたクエリに最もよくマッチする、コレクション内の署名ビデオを見つけることである。
本研究では,SPOT-ALIGNを提案する。SPOT-ALIGNは,利用可能なトレーニングデータの範囲と規模を拡大するために,符号スポッティングと特徴アライメントの反復ラウンドをインターリーブするフレームワークである。
論文 参考訳(メタデータ) (2022-01-07T15:22:18Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign
Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。
我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。
次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文 参考訳(メタデータ) (2020-11-19T14:31:06Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。