論文の概要: Towards Privacy-Aware Sign Language Translation at Scale
- arxiv url: http://arxiv.org/abs/2402.09611v1
- Date: Wed, 14 Feb 2024 22:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 17:43:21.834618
- Title: Towards Privacy-Aware Sign Language Translation at Scale
- Title(参考訳): プライバシーを意識した手話翻訳の大規模化に向けて
- Authors: Phillip Rust and Bowen Shi and Skyler Wang and Necati Cihan Camg\"oz
and Jean Maillard
- Abstract要約: 現在Webで利用可能な手話データの多くは、調整されたキャプションがないため、教師付きモデルのトレーニングには使用できない。
SSVP-SLTは匿名ビデオと無通知ビデオに自己教師付きビデオ事前トレーニングを利用する。
How2Signデータセット上で、最先端の微調整とゼロショットのグロスフリーSLTパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 21.79248864723904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major impediment to the advancement of sign language translation (SLT) is
data scarcity. Much of the sign language data currently available on the web
cannot be used for training supervised models due to the lack of aligned
captions. Furthermore, scaling SLT using large-scale web-scraped datasets bears
privacy risks due to the presence of biometric information, which the
responsible development of SLT technologies should account for. In this work,
we propose a two-stage framework for privacy-aware SLT at scale that addresses
both of these issues. We introduce SSVP-SLT, which leverages self-supervised
video pretraining on anonymized and unannotated videos, followed by supervised
SLT finetuning on a curated parallel dataset. SSVP-SLT achieves
state-of-the-art finetuned and zero-shot gloss-free SLT performance on the
How2Sign dataset, outperforming the strongest respective baselines by over 3
BLEU-4. Based on controlled experiments, we further discuss the advantages and
limitations of self-supervised pretraining and anonymization via facial
obfuscation for SLT.
- Abstract(参考訳): 手話翻訳(SLT)の進歩の大きな障害は、データ不足である。
現在Webで利用可能な手話データの多くは、調整されたキャプションがないため、教師付きモデルのトレーニングには使用できない。
さらに、大規模Webスクラッドデータセットを使用したSLTのスケーリングは、生体情報の存在によるプライバシーリスクを伴い、SLT技術の責任を負う開発が考慮されるべきである。
本研究では,プライバシを意識したSLTを大規模に扱うための2段階フレームワークを提案する。
SSVP-SLTは、匿名ビデオと無注釈ビデオに自己教師付きビデオ事前トレーニングを応用し、次いで並列データセット上で教師付きSLTファインタニングを行う。
SSVP-SLTは、How2Signデータセット上で、最先端の微調整とゼロショットフリーのSLT性能を実現し、3 BLEU-4以上の最強のベースラインを上回ります。
制御実験に基づき,sltに対する顔の難読化による自己教師付き事前学習と匿名化の利点と限界について検討した。
関連論文リスト
- A Survey on Self-Supervised Learning for Non-Sequential Tabular Data [16.946825472307836]
自己教師付き学習(SSL)は、様々な領域の最先端モデルに取り入れられている。
この調査は、非シーケンスデータ(SSL4NS-TD)におけるSSLの最近の進歩と課題を体系的にレビューし、要約することを目的としている。
まず、NS-TDの形式的定義を示し、関連する研究との相関を明らかにする。次に、これらのアプローチを予測学習、コントラスト学習、ハイブリッド学習の3つのグループに分類し、それぞれの方向における代表的手法のモチベーションと強みを示す。
論文 参考訳(メタデータ) (2024-02-02T08:17:41Z) - Memorization in Self-Supervised Learning Improves Downstream
Generalization [52.36632035532779]
自己教師付き学習(SSL)は、ラベルのないデータで純粋に高性能エンコーダを訓練する能力により、最近大きな注目を集めている。
SSL内での暗記を定義するためのフレームワークであるSSLMemを提案する。
論文 参考訳(メタデータ) (2024-01-19T11:32:47Z) - Self-supervised TransUNet for Ultrasound regional segmentation of the
distal radius in children [0.6291443816903801]
TransUNetのSSL(SSL-MAE)用のMasked Autoencoderは、子供の手首超音波スキャンからボニー領域を分割する。
本稿では,TransUNet の SSL (SSL-MAE) 用 Masked Autoencoder を小児手首超音波スキャンからボニー領域に分割する可能性について検討した。
論文 参考訳(メタデータ) (2023-09-18T05:23:33Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Rethinking Semi-supervised Learning with Language Models [33.70349754359132]
半教師付き学習(SSL)は、モデル性能を改善するために非ラベルデータを有効に活用することを目的とした一般的な設定である。
自己学習(ST)とタスク適応事前学習(TAPT)の2つの手法がある。
論文 参考訳(メタデータ) (2023-05-22T13:07:35Z) - Binarizing Split Learning for Data Privacy Enhancement and Computation
Reduction [8.40552206158625]
Split Learning(SL)は、クライアントが生データを共有することなく、サーバとディープラーニングモデルを協調的にトレーニングすることで、データのプライバシ保護を可能にする。
本研究では、高速な計算とメモリ使用量の削減のために、SLローカル層を二項化することを提案する。
我々の結果は、プライバシー保護の要求が高い軽量IoT/モバイルアプリケーションに対して、B-SLモデルが有望であることを実証した。
論文 参考訳(メタデータ) (2022-06-10T04:07:02Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - DATA: Domain-Aware and Task-Aware Pre-training [94.62676913928831]
我々は、自己教師付き学習(SSL)に特化した、シンプルで効果的なNASアプローチであるDataを提示する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,下流タスクにおける計算コストの広い範囲にわたる有望な結果を実現する。
論文 参考訳(メタデータ) (2022-03-17T02:38:49Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - Information Bottleneck Constrained Latent Bidirectional Embedding for
Zero-Shot Learning [59.58381904522967]
本稿では,密な視覚-意味的結合制約を持つ埋め込み型生成モデルを提案する。
視覚空間と意味空間の両方の埋め込みパラメトリック分布を校正する統合潜在空間を学習する。
本手法は, 画像のラベルを生成することにより, トランスダクティブZSL設定に容易に拡張できる。
論文 参考訳(メタデータ) (2020-09-16T03:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。