Fugu-MT 論文翻訳(概要): American Sign Language Video to Text Translation

論文の概要: American Sign Language Video to Text Translation

arxiv url: http://arxiv.org/abs/2402.07255v1
Date: Sun, 11 Feb 2024 17:46:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 16:29:14.807369
Title: American Sign Language Video to Text Translation
Title（参考訳）: アメリカの手話ビデオからテキスト翻訳
Authors: Parsheeta Roy, Ji-Eun Han, Srishti Chouhan, Bhaavanaa Thumu
Abstract要約: テキストへの手話は、難聴者のコミュニケーション障壁を断ち切る重要な技術である。 BLEUおよびrBLEUメトリクスを用いて翻訳品質を保証するモデルを評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sign language to text is a crucial technology that can break down communication barriers for individuals with hearing difficulties. We replicate and try to improve on a recently published study. We evaluate models using BLEU and rBLEU metrics to ensure translation quality. During our ablation study, we found that the model's performance is significantly influenced by optimizers, activation functions, and label smoothing. Further research aims to refine visual feature capturing, enhance decoder utilization, and integrate pre-trained decoders for better translation outcomes. Our source code is available to facilitate replication of our results and encourage future research.
Abstract（参考訳）: テキストへの手話は、難聴者のコミュニケーション障壁を断ち切るための重要な技術である。私たちは最近発表された研究を再現し、改善しようと試みます。 BLEUおよびrBLEUメトリクスを用いて翻訳品質を保証するモデルを評価する。アブレーション研究中,モデルの性能はオプティマイザ,アクティベーション関数,ラベル平滑化に大きく影響していることがわかった。さらなる研究は、視覚的特徴キャプチャの改善、デコーダの利用の向上、事前訓練されたデコーダの統合による翻訳結果の改善を目的としている。私たちのソースコードは、結果を複製し、将来の研究を促進するために利用できます。

関連論文リスト

Overcoming Vocabulary Constraints with Pixel-level Fallback [9.753745943931207]
代名詞のトークン化には、計算効率と語彙カバレッジのバランスが必要である。画素として描画されたテキストから入力埋め込みを生成する語彙自由エンコーダを提案する。
論文参考訳（メタデータ） (2025-04-02T20:50:31Z)
Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.038123093599815]
我々の目的は、連続手話から音声言語テキストへの翻訳である。署名ビデオと追加のコンテキストキューを組み込む。文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文参考訳（メタデータ） (2025-01-16T18:59:03Z)
TG-LLaVA: Text Guided LLaVA via Learnable Latent Embeddings [61.9257731511557]
視覚言語モデル(VLM)を最適化するためのテキストガイド付きLLaVA(TG-LLaVA)を提案する。学習可能な潜伏埋め込みをブリッジとして使用し、テキスト命令を分析し、視覚エンコーダに解析結果をガイダンスとして付加する。テキストのガイダンスによって、視覚エンコーダは、人間が質問を考えるとき、画像の最も関連性の高い部分に集中する方法と同様に、テキスト関連の特徴を抽出することができる。
論文参考訳（メタデータ） (2024-09-15T00:38:34Z)
Gloss2Text: Sign Language Gloss translation using LLMs and Semantically Aware Label Smoothing [21.183453511034767]
本稿では,事前学習された大言語モデル(LLM),データ拡張,ラベルの平滑化損失関数を活用することで,いくつかの進歩を提案する。提案手法は,Em Gloss2Text翻訳における最先端性能を上回る。
論文参考訳（メタデータ） (2024-07-01T15:46:45Z)
LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文参考訳（メタデータ） (2024-05-29T15:35:09Z)
Zero-shot Cross-lingual Stance Detection via Adversarial Language Adaptation [7.242609314791262]
本稿では,ゼロショット言語間スタンス検出,多言語翻訳拡張BERT (MTAB) に対する新しいアプローチを提案する。本手法では,ゼロショット性能を向上させるために翻訳拡張を用い,モデルの有効性をさらに向上するために,対角学習と組み合わせる。提案手法の有効性を実証し,強力なベースラインモデルと改良されたモデルとの比較を行った。
論文参考訳（メタデータ） (2024-04-22T16:56:43Z)
Advancing Translation Preference Modeling with RLHF: A Step Towards Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文参考訳（メタデータ） (2024-02-18T09:51:49Z)
HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文参考訳（メタデータ） (2023-01-17T12:07:13Z)
Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文参考訳（メタデータ） (2022-08-26T09:32:24Z)
Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文参考訳（メタデータ） (2022-04-29T03:53:54Z)
SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。 SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文参考訳（メタデータ） (2021-12-08T11:04:52Z)
Worse WER, but Better BLEU? Leveraging Word Embedding as Intermediate in Multitask End-to-End Speech Translation [127.54315184545796]
音声翻訳(ST)は、ソース言語の音声からターゲット言語のテキストへの変換を学習することを目的としている。単語埋め込みを中間語として活用することでマルチタスクSTモデルを改善することを提案する。
論文参考訳（メタデータ） (2020-05-21T14:22:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。