論文の概要: Towards Privacy-Aware Sign Language Translation at Scale
- arxiv url: http://arxiv.org/abs/2402.09611v2
- Date: Wed, 7 Aug 2024 19:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 20:38:04.112395
- Title: Towards Privacy-Aware Sign Language Translation at Scale
- Title(参考訳): プライバシーに配慮した手話翻訳の大規模化に向けて
- Authors: Phillip Rust, Bowen Shi, Skyler Wang, Necati Cihan Camgöz, Jean Maillard,
- Abstract要約: 現在Webで利用可能な手話データの多くは、調整されたキャプションがないため、教師付きモデルのトレーニングには使用できない。
SSVP-SLTは匿名ビデオと無通知ビデオに自己教師付きビデオ事前トレーニングを利用する。
How2Signデータセット上で、最先端の微調整とゼロショットのグロスフリーSLTパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 31.207412543851362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major impediment to the advancement of sign language translation (SLT) is data scarcity. Much of the sign language data currently available on the web cannot be used for training supervised models due to the lack of aligned captions. Furthermore, scaling SLT using large-scale web-scraped datasets bears privacy risks due to the presence of biometric information, which the responsible development of SLT technologies should account for. In this work, we propose a two-stage framework for privacy-aware SLT at scale that addresses both of these issues. We introduce SSVP-SLT, which leverages self-supervised video pretraining on anonymized and unannotated videos, followed by supervised SLT finetuning on a curated parallel dataset. SSVP-SLT achieves state-of-the-art finetuned and zero-shot gloss-free SLT performance on the How2Sign dataset, outperforming the strongest respective baselines by over 3 BLEU-4. Based on controlled experiments, we further discuss the advantages and limitations of self-supervised pretraining and anonymization via facial obfuscation for SLT.
- Abstract(参考訳): 手話翻訳(SLT)の進歩の大きな障害は、データ不足である。
現在Webで利用可能な手話データの多くは、調整されたキャプションがないため、教師付きモデルのトレーニングには使用できない。
さらに、大規模Webスクラッドデータセットを使用したSLTのスケーリングは、生体情報の存在によるプライバシーリスクを伴い、SLT技術の責任を負う開発が考慮されるべきである。
本研究では,プライバシを意識したSLTを大規模に扱うための2段階フレームワークを提案する。
SSVP-SLTは、匿名ビデオと無注釈ビデオに自己教師付きビデオ事前トレーニングを応用し、次いで並列データセット上で教師付きSLTファインタニングを行う。
SSVP-SLTは、How2Signデータセット上で、最先端の微調整とゼロショットのグロスフリーSLT性能を達成し、3 BLEU-4以上の最強のベースラインを上回ります。
制御実験に基づいて,SLTの顔難読化による自己指導型事前訓練と匿名化の利点と限界について考察する。
関連論文リスト
- A Survey of the Self Supervised Learning Mechanisms for Vision Transformers [5.152455218955949]
視覚タスクにおける自己教師あり学習(SSL)の適用は注目されている。
SSL手法を体系的に分類する包括的分類法を開発した。
SSLの背後にあるモチベーションについて議論し、人気のある事前トレーニングタスクをレビューし、この分野の課題と進歩を強調します。
論文 参考訳(メタデータ) (2024-08-30T07:38:28Z) - Scaling Sign Language Translation [38.43594795927101]
手話翻訳(SLT)は、ビデオ中の手話からテキスト中の音声言語への情報を翻訳する問題に対処する。
本稿では,事前学習データ,モデルサイズ,翻訳方向の数を拡大することにより,SLTのフロンティアを推し進める。
実験では、バニラベースラインよりも大幅に品質が向上し、以前のSOTA(State-of-the-art)をはるかに上回った。
論文 参考訳(メタデータ) (2024-07-16T15:36:58Z) - Memorization in Self-Supervised Learning Improves Downstream Generalization [49.42010047574022]
自己教師付き学習(SSL)は、ラベルのないデータで純粋に高性能エンコーダを訓練する能力により、最近大きな注目を集めている。
SSL内での暗記を定義するためのフレームワークであるSSLMemを提案する。
論文 参考訳(メタデータ) (2024-01-19T11:32:47Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Rethinking Semi-supervised Learning with Language Models [33.70349754359132]
半教師付き学習(SSL)は、モデル性能を改善するために非ラベルデータを有効に活用することを目的とした一般的な設定である。
自己学習(ST)とタスク適応事前学習(TAPT)の2つの手法がある。
論文 参考訳(メタデータ) (2023-05-22T13:07:35Z) - Binarizing Split Learning for Data Privacy Enhancement and Computation
Reduction [8.40552206158625]
Split Learning(SL)は、クライアントが生データを共有することなく、サーバとディープラーニングモデルを協調的にトレーニングすることで、データのプライバシ保護を可能にする。
本研究では、高速な計算とメモリ使用量の削減のために、SLローカル層を二項化することを提案する。
我々の結果は、プライバシー保護の要求が高い軽量IoT/モバイルアプリケーションに対して、B-SLモデルが有望であることを実証した。
論文 参考訳(メタデータ) (2022-06-10T04:07:02Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - DATA: Domain-Aware and Task-Aware Pre-training [94.62676913928831]
我々は、自己教師付き学習(SSL)に特化した、シンプルで効果的なNASアプローチであるDataを提示する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,下流タスクにおける計算コストの広い範囲にわたる有望な結果を実現する。
論文 参考訳(メタデータ) (2022-03-17T02:38:49Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。