論文の概要: American Sign Language Video to Text Translation
- arxiv url: http://arxiv.org/abs/2402.07255v1
- Date: Sun, 11 Feb 2024 17:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 16:29:14.807369
- Title: American Sign Language Video to Text Translation
- Title(参考訳): アメリカの手話ビデオからテキスト翻訳
- Authors: Parsheeta Roy, Ji-Eun Han, Srishti Chouhan, Bhaavanaa Thumu
- Abstract要約: テキストへの手話は、難聴者のコミュニケーション障壁を断ち切る重要な技術である。
BLEUおよびrBLEUメトリクスを用いて翻訳品質を保証するモデルを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language to text is a crucial technology that can break down
communication barriers for individuals with hearing difficulties. We replicate
and try to improve on a recently published study. We evaluate models using BLEU
and rBLEU metrics to ensure translation quality. During our ablation study, we
found that the model's performance is significantly influenced by optimizers,
activation functions, and label smoothing. Further research aims to refine
visual feature capturing, enhance decoder utilization, and integrate
pre-trained decoders for better translation outcomes. Our source code is
available to facilitate replication of our results and encourage future
research.
- Abstract(参考訳): テキストへの手話は、難聴者のコミュニケーション障壁を断ち切るための重要な技術である。
私たちは最近発表された研究を再現し、改善しようと試みます。
BLEUおよびrBLEUメトリクスを用いて翻訳品質を保証するモデルを評価する。
アブレーション研究中,モデルの性能はオプティマイザ,アクティベーション関数,ラベル平滑化に大きく影響していることがわかった。
さらなる研究は、視覚的特徴キャプチャの改善、デコーダの利用の向上、事前訓練されたデコーダの統合による翻訳結果の改善を目的としている。
私たちのソースコードは、結果を複製し、将来の研究を促進するために利用できます。
関連論文リスト
- Zero-shot Cross-lingual Stance Detection via Adversarial Language Adaptation [7.242609314791262]
本稿では,ゼロショット言語間スタンス検出,多言語翻訳拡張BERT (MTAB) に対する新しいアプローチを提案する。
本手法では,ゼロショット性能を向上させるために翻訳拡張を用い,モデルの有効性をさらに向上するために,対角学習と組み合わせる。
提案手法の有効性を実証し,強力なベースラインモデルと改良されたモデルとの比較を行った。
論文 参考訳(メタデータ) (2024-04-22T16:56:43Z) - Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation
and Lateral Inhibition [2.839471733237535]
我々は、Wild LRRoと呼ばれる、表現不足の短いルーマニア語のデータセット上で、いくつかのアーキテクチャと最適化を解析する。
提案手法,すなわち,言語間ドメイン適応とラベルなしビデオを用いて,最先端の検索結果を得る。
また、神経阻害機構にインスパイアされた層を付加する性能も評価した。
論文 参考訳(メタデータ) (2023-10-07T15:36:58Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:32:24Z) - A Transfer Learning Based Model for Text Readability Assessment in
German [4.550811027560416]
移動学習に基づくドイツ語テキストのテキスト複雑性評価のための新しいモデルを提案する。
最高のモデルはBERTの事前訓練言語モデルに基づいており、Root Mean Square Error (RMSE) は 0.483 である。
論文 参考訳(メタデータ) (2022-07-13T15:15:44Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Improving Speech Translation by Understanding and Learning from the
Auxiliary Text Translation Task [26.703809355057224]
我々は,タスクがマルチタスク学習フレームワークにおけるメインタスクに与える影響を理解するために,詳細な分析を行う。
解析により、マルチタスク学習は、異なるモダリティから同様のデコーダ表現を生成する傾向があることを確認した。
これらの知見に触発されて,翻訳品質を向上させる3つの方法を提案する。
論文 参考訳(メタデータ) (2021-07-12T23:53:40Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Worse WER, but Better BLEU? Leveraging Word Embedding as Intermediate in
Multitask End-to-End Speech Translation [127.54315184545796]
音声翻訳(ST)は、ソース言語の音声からターゲット言語のテキストへの変換を学習することを目的としている。
単語埋め込みを中間語として活用することでマルチタスクSTモデルを改善することを提案する。
論文 参考訳(メタデータ) (2020-05-21T14:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。