論文の概要: Exploring Pose-based Sign Language Translation: Ablation Studies and Attention Insights
- arxiv url: http://arxiv.org/abs/2507.01532v1
- Date: Wed, 02 Jul 2025 09:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.131815
- Title: Exploring Pose-based Sign Language Translation: Ablation Studies and Attention Insights
- Title(参考訳): 詩に基づく手話翻訳の探索 : アブレーション研究と注意点
- Authors: Tomas Zelezny, Jakub Straka, Vaclav Javorek, Ondrej Valach, Marek Hruz, Ivan Gruber,
- Abstract要約: 手話翻訳(SLT)は、独立した認識アプローチから、複雑で連続的な光沢のない翻訳システムへと大きく進化してきた。
本稿では,ポーズベースのデータ前処理技術がSLT性能に与える影響について検討する。
我々は変換器をベースとしたアーキテクチャを採用し、修正されたT5エンコーダデコーダモデルを用いてポーズ表現を処理した。
- 参考スコア(独自算出の注目度): 0.5277756703318045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign Language Translation (SLT) has evolved significantly, moving from isolated recognition approaches to complex, continuous gloss-free translation systems. This paper explores the impact of pose-based data preprocessing techniques - normalization, interpolation, and augmentation - on SLT performance. We employ a transformer-based architecture, adapting a modified T5 encoder-decoder model to process pose representations. Through extensive ablation studies on YouTubeASL and How2Sign datasets, we analyze how different preprocessing strategies affect translation accuracy. Our results demonstrate that appropriate normalization, interpolation, and augmentation techniques can significantly improve model robustness and generalization abilities. Additionally, we provide a deep analysis of the model's attentions and reveal interesting behavior suggesting that adding a dedicated register token can improve overall model performance. We publish our code on our GitHub repository, including the preprocessed YouTubeASL data.
- Abstract(参考訳): 手話翻訳(SLT)は、独立した認識アプローチから、複雑で連続的な光沢のない翻訳システムへと大きく進化してきた。
本稿では、ポーズベースのデータ前処理技術(正規化、補間、拡張)がSLT性能に与える影響について検討する。
我々は変換器をベースとしたアーキテクチャを採用し、修正されたT5エンコーダデコーダモデルを用いてポーズ表現を処理した。
YouTubeASLとHow2Signデータセットに関する大規模なアブレーション研究を通じて、前処理戦略の違いが翻訳精度に与える影響を分析する。
その結果, 適切な正規化, 補間, 拡張技術により, モデルロバスト性や一般化能力を大幅に向上できることが示された。
さらに、モデルの注意を深く分析し、専用のレジスタトークンを追加することで全体のモデル性能が向上することを示す興味深い行動を明らかにする。
事前処理されたYouTubeASLデータを含むコードをGitHubリポジトリに公開しています。
関連論文リスト
- Contextually Guided Transformers via Low-Rank Adaptation [14.702057924366345]
変換器をベースとした大規模言語モデル(LLM)は、テキスト処理において優れているが、特殊な振る舞いのプロンプトに依存しているため、計算オーバーヘッドが生じる。
本稿では,モデル重みにコンテキストをエンコードすることで,明示的なプロンプトの必要性を解消するトランスフォーマーアーキテクチャの修正を提案する。
論文 参考訳(メタデータ) (2025-06-06T01:34:39Z) - SignAttention: On the Interpretability of Transformer Models for Sign Language Translation [2.079808290618441]
本稿では,トランスフォーマーを用いた手話翻訳モデルの最初の包括的解釈可能性解析について述べる。
モデル内の注意機構について検討し,視覚入力を逐次グルースで処理・調整する方法について考察する。
この研究はSLTモデルのより深い理解に寄与し、より透明で信頼性の高い翻訳システムを開発するための道を開いた。
論文 参考訳(メタデータ) (2024-10-18T14:38:37Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation
and Lateral Inhibition [2.839471733237535]
我々は、Wild LRRoと呼ばれる、表現不足の短いルーマニア語のデータセット上で、いくつかのアーキテクチャと最適化を解析する。
提案手法,すなわち,言語間ドメイン適応とラベルなしビデオを用いて,最先端の検索結果を得る。
また、神経阻害機構にインスパイアされた層を付加する性能も評価した。
論文 参考訳(メタデータ) (2023-10-07T15:36:58Z) - Interpretable Sentence Representation with Variational Autoencoders and
Attention [0.685316573653194]
自然言語処理(NLP)における近年の表現学習技術の解釈可能性を高める手法を開発した。
変動オートエンコーダ (VAEs) は, 遅延生成因子の観測に有効である。
帰納的バイアスを持つ2つのモデルを構築し、潜在表現の情報を注釈付きデータなしで理解可能な概念に分離する。
論文 参考訳(メタデータ) (2023-05-04T13:16:15Z) - Modeling Intensification for Sign Language Generation: A Computational
Approach [13.57903290481737]
エンドツーエンドの手話生成モデルは手話の韻律を正確に表現していない。
我々は、データ駆動方式で強化をモデル化することで、生成した手話における韻律を改善することを目指している。
自動メトリクスで評価すると、強化モデリングにおける我々の取り組みがより良い結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-03-18T01:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。