論文の概要: Improvement in Sign Language Translation Using Text CTC Alignment
- arxiv url: http://arxiv.org/abs/2412.09014v2
- Date: Fri, 13 Dec 2024 02:34:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 11:43:04.720257
- Title: Improvement in Sign Language Translation Using Text CTC Alignment
- Title(参考訳): テキストCTCアライメントを用いた手話翻訳の改良
- Authors: Sihan Tan, Taro Miyazaki, Nabeela Khan, Kazuhiro Nakadai,
- Abstract要約: 本稿では,CTC/AttentionとTransfer Learningを組み合わせた新しい手法を提案する。
共同CTC/Attentionは階層的エンコーディングを導入し、デコード中の注意機構とCTCを統合する。
提案手法は,最先端技術に匹敵する結果を達成し,純アテンションベースラインを上回ります。
- 参考スコア(独自算出の注目度): 3.513798449090645
- License:
- Abstract: Current sign language translation (SLT) approaches often rely on gloss-based supervision with Connectionist Temporal Classification (CTC), limiting their ability to handle non-monotonic alignments between sign language video and spoken text. In this work, we propose a novel method combining joint CTC/Attention and transfer learning. The joint CTC/Attention introduces hierarchical encoding and integrates CTC with the attention mechanism during decoding, effectively managing both monotonic and non-monotonic alignments. Meanwhile, transfer learning helps bridge the modality gap between vision and language in SLT. Experimental results on two widely adopted benchmarks, RWTH-PHOENIX-Weather 2014 T and CSL-Daily, show that our method achieves results comparable to state-of-the-art and outperforms the pure-attention baseline. Additionally, this work opens a new door for future research into gloss-free SLT using text-based CTC alignment.
- Abstract(参考訳): 現在の手話翻訳(SLT)アプローチは、しばしば、手話ビデオと音声テキストの間の非単調なアライメントを扱う能力を制限する、コネクショニスト時間分類(CTC)による光沢に基づく監督に依存している。
本研究では,CTC/AttentionとTransfer Learningを組み合わせた新しい手法を提案する。
共同CTC/Attentionは階層的エンコーディングを導入し、デコード中の注意機構とCTCを統合し、モノトニックアライメントと非モノトニックアライメントの両方を効果的に管理する。
一方、トランスファーラーニングは、SLTにおける視覚と言語の間のモダリティギャップを橋渡しするのに役立つ。
広く採用されているRWTH-PHOENIX-Weather 2014 TとCSL-Dailyの2つのベンチマークによる実験結果から,本手法は最先端技術に匹敵する結果が得られ,純アテンションベースラインを上回っていることが示された。
さらに本研究は,テキストベースのCTCアライメントを用いた光沢のないSLT研究の新たな扉を開く。
関連論文リスト
- Bridging the Gaps of Both Modality and Language: Synchronous Bilingual
CTC for Speech Translation and Speech Recognition [46.41096278421193]
BiL-CTC+は、ソース言語とターゲット言語とのギャップを埋める。
また,音声認識性能も大幅に向上した。
論文 参考訳(メタデータ) (2023-09-21T16:28:42Z) - Language-Oriented Communication with Semantic Coding and Knowledge
Distillation for Text-to-Image Generation [53.97155730116369]
我々は言語指向意味コミュニケーション(LSC)の新しい枠組みを提唱した。
LSCでは、機械は人間の言語メッセージを使って通信し、SC効率のために自然言語処理(NLP)技術を用いて解釈および操作することができる。
1) テキストプロンプトをキーヘッドワードに圧縮するセマンティック・ソース・コーディング(SSC)、2) セマンティック・チャネル・コーディング(SCC)、2) セマンティック・チャネル・コーディング(SCC)、3) セマンティック・ナレッジ・蒸留(SKD)、3) リスナーの言語学習を通じてリスナーに適応したプロンプトを生成するセマンティック・ナレッジ・蒸留(SKD)の3つの革新的なアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-09-20T08:19:05Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - BERT Meets CTC: New Formulation of End-to-End Speech Recognition with
Pre-trained Masked Language Model [40.16332045057132]
BERT-CTCはエンドツーエンド音声認識の新しい定式化である。
BERTコンテキスト埋め込みによって得られる明示的な出力依存性を通じて言語知識を組み込む。
BERT-CTCは、話し方や言語の変化にまたがる従来のアプローチよりも改善されている。
論文 参考訳(メタデータ) (2022-10-29T18:19:44Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - CTC-synchronous Training for Monotonic Attention Model [43.0382262234792]
逆向きの確率は、デコーダの左から右への依存性のため、トレーニング中のアライメントプロセスでは利用できない。
我々はCTC同期トレーニング(CTC-ST)を提案し、MoChAはCTCアライメントを用いて最適なモノトニックアライメントを学習する。
モデル全体が協調的に最適化され、MoChAから期待される境界がアライメントと同期される。
論文 参考訳(メタデータ) (2020-05-10T16:48:23Z) - GTC: Guided Training of CTC Towards Efficient and Accurate Scene Text
Recognition [27.38969404322089]
本稿では,CTCモデルのより優れたアライメントと特徴表現を,より強力な注意指導から学習するCTCモデルの指導的トレーニングを提案する。
ガイド付きトレーニングの利点により、CTCモデルは、通常のシーンテキストと不規則なシーンテキストの両方に対して、堅牢で正確な予測を達成できる。
CTCデコーダの可能性をさらに活用するために,グラフ畳み込みネットワーク(GCN)を提案し,抽出した特徴の局所的相関を学習した。
論文 参考訳(メタデータ) (2020-02-04T13:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。