論文の概要: Fingerspelling PoseNet: Enhancing Fingerspelling Translation with
Pose-Based Transformer Models
- arxiv url: http://arxiv.org/abs/2311.12128v1
- Date: Mon, 20 Nov 2023 19:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 03:08:59.087615
- Title: Fingerspelling PoseNet: Enhancing Fingerspelling Translation with
Pose-Based Transformer Models
- Title(参考訳): Fingerspelling PoseNet: Pose-based Transformer ModelによるFingerspelling Translationの強化
- Authors: Pooya Fayyazsanavi, Negar Nejatishahidin, Jana Kosecka
- Abstract要約: 我々は、野生の動画を用いた米手話翻訳の課題に対処する。
我々はより正確な手振り推定の進歩を活用し、トランスフォーマーに基づくエンコーダ・デコーダモデルを利用した新しいアーキテクチャを提案する。
本研究は,手話翻訳における指先認識の進歩の可能性とアプローチの有効性を明らかにするものである。
- 参考スコア(独自算出の注目度): 2.348041867134616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the task of American Sign Language fingerspelling translation
using videos in the wild. We exploit advances in more accurate hand pose
estimation and propose a novel architecture that leverages the transformer
based encoder-decoder model enabling seamless contextual word translation. The
translation model is augmented by a novel loss term that accurately predicts
the length of the finger-spelled word, benefiting both training and inference.
We also propose a novel two-stage inference approach that re-ranks the
hypotheses using the language model capabilities of the decoder. Through
extensive experiments, we demonstrate that our proposed method outperforms the
state-of-the-art models on ChicagoFSWild and ChicagoFSWild+ achieving more than
10% relative improvement in performance. Our findings highlight the
effectiveness of our approach and its potential to advance fingerspelling
recognition in sign language translation. Code is also available at
https://github.com/pooyafayyaz/Fingerspelling-PoseNet.
- Abstract(参考訳): 我々は,アメリカ手話翻訳の課題を,野放しのビデオを用いて解決する。
我々は,より正確な手形推定手法の進歩を活用し,シームレスな文脈的単語翻訳を可能にするトランスフォーマベースエンコーダ・デコーダモデルを活用した新しいアーキテクチャを提案する。
翻訳モデルは、指で打った単語の長さを正確に予測する新しい損失項によって拡張され、トレーニングと推論の両方に役立つ。
また,デコーダの言語モデル機能を用いて仮説を再ランク付けする,新しい二段階推論手法を提案する。
実験により,提案手法はシカゴFSWildとシカゴFSWild+の最先端モデルよりも10%以上の性能向上を達成できることを示した。
本研究は手話翻訳における指先認識の進歩の可能性とアプローチの有効性を明らかにするものである。
コードはhttps://github.com/pooyafayyaz/fingerspelling-posenetでも利用できる。
関連論文リスト
- Enhanced Auto Language Prediction with Dictionary Capsule -- A Novel
Approach [0.0]
本稿では,言語予測と機械翻訳のための新しい自動言語予測辞書キャプチャーフレームワークを提案する。
このモデルはニューラルネットワークと記号表現の組み合わせを使用して、与えられた入力テキストの言語を予測し、事前に構築された辞書を使用してターゲット言語に翻訳する。
論文 参考訳(メタデータ) (2024-03-09T18:43:48Z) - End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation
and Lateral Inhibition [2.839471733237535]
我々は、Wild LRRoと呼ばれる、表現不足の短いルーマニア語のデータセット上で、いくつかのアーキテクチャと最適化を解析する。
提案手法,すなわち,言語間ドメイン適応とラベルなしビデオを用いて,最先端の検索結果を得る。
また、神経阻害機構にインスパイアされた層を付加する性能も評価した。
論文 参考訳(メタデータ) (2023-10-07T15:36:58Z) - SignDiff: Diffusion Models for American Sign Language Production [23.82668888574089]
本稿では,手話話者を骨格ポーズから生成できるSignDiffという2条件拡散事前学習モデルを提案する。
また,テキスト入力からASL骨格ポーズビデオを生成する,ASLP(American Sign Language Production)の新たな手法を提案する。
論文 参考訳(メタデータ) (2023-08-30T15:14:56Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Weakly-supervised Fingerspelling Recognition in British Sign Language
Videos [85.61513254261523]
従来の指スペル認識法は、British Sign Language (BSL) に焦点を絞っていない
従来の手法とは対照的に,本手法はトレーニング用字幕の弱いアノテーションのみを使用する。
本稿では,このタスクに適応したTransformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-16T15:02:36Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - Fingerspelling Detection in American Sign Language [32.79935314131377]
未熟な手話ビデオで指のスペル検出のタスクを検討します。
これは、現実世界の指先認識システムを構築するための重要なステップである。
そこで本研究では,下流指先認識課題に対する検出の影響を反映したベンチマークと評価指標を提案する。
論文 参考訳(メタデータ) (2021-04-03T02:11:09Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。