論文の概要: Spatio-temporal Sign Language Representation and Translation
- arxiv url: http://arxiv.org/abs/2510.19413v1
- Date: Wed, 22 Oct 2025 09:34:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.527105
- Title: Spatio-temporal Sign Language Representation and Translation
- Title(参考訳): 時空間手話表現と翻訳
- Authors: Yasser Hamidullah, Josef van Genabith, Cristina España-Bonet,
- Abstract要約: SLTの最先端技術は、カスタマイズされた入力埋め込みを備えた汎用のseq2seqアーキテクチャを使用する。
本稿では,時間的特徴表現と翻訳を1つのモデルで学習するシステムを提案する。
- 参考スコア(独自算出の注目度): 15.279905143200994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the DFKI-MLT submission to the WMT-SLT 2022 sign language translation (SLT) task from Swiss German Sign Language (video) into German (text). State-of-the-art techniques for SLT use a generic seq2seq architecture with customized input embeddings. Instead of word embeddings as used in textual machine translation, SLT systems use features extracted from video frames. Standard approaches often do not benefit from temporal features. In our participation, we present a system that learns spatio-temporal feature representations and translation in a single model, resulting in a real end-to-end architecture expected to better generalize to new data sets. Our best system achieved $5\pm1$ BLEU points on the development set, but the performance on the test dropped to $0.11\pm0.06$ BLEU points.
- Abstract(参考訳): 本稿では,DFKI-MLTによるWMT-SLT 2022手話翻訳(SLT)タスクのスイスドイツ語手話(ビデオ)からドイツ語(テキスト)への翻訳について述べる。
SLTの最先端技術は、カスタマイズされた入力埋め込みを備えた汎用のseq2seqアーキテクチャを使用する。
テキスト機械翻訳で使われる単語の埋め込みの代わりに、SLTシステムはビデオフレームから抽出された特徴を使用する。
標準的なアプローチは時間的特徴の恩恵を受けないことが多い。
本稿では,1つのモデルで時空間の特徴表現と翻訳を学習するシステムを提案する。
私たちのベストシステムは、開発セットで5\pm1$ BLEUポイントを達成しましたが、テストのパフォーマンスは0.11\pm0.06$ BLEUポイントに低下しました。
関連論文リスト
- Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding [47.400649582392255]
大規模言語モデル(MLLM)を用いて,STVGのゼロショットソリューションを探索する。
STVGのためのMLLMベースのゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T17:35:50Z) - CMU's IWSLT 2024 Simultaneous Speech Translation System [80.15755988907506]
本稿では,CMU による IWSLT 2024 Simultaneous Speech Translation (SST) タスクへの提案について述べる。
本システムでは,WavLM音声エンコーダ,モダリティアダプタ,Llama2-7B-Baseモデルをデコーダとして統合する。
論文 参考訳(メタデータ) (2024-08-14T10:44:51Z) - Chrono: A Simple Blueprint for Representing Time in MLLMs [34.036784478999245]
ビデオ言語モデルにおける文脈的・時間的理解の課題について,ビデオにおける時間的局所化の課題を探求することによって検討する。
画像テキスト事前学習MLLMに適用可能なユニバーサルシーケンス青写真であるChronoを紹介する。
我々は、最も広く使われているベンチマークであるCharades-STA、QVHighlights、ActivityNet Captions、NeXT-GQA上でのグラウンドドビデオ質問応答において、新しいSOTAを実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - VidLA: Video-Language Alignment at Scale [48.665918882615195]
大規模なビデオ言語アライメントのためのアプローチであるVidLAを提案する。
提案手法は,複数の検索ベンチマークにおける最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-21T22:36:24Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Tackling Low-Resourced Sign Language Translation: UPC at WMT-SLT 22 [4.382973957294345]
本稿では,機械翻訳ワークショップ2022手話翻訳タスクのためにカタルーニャ大学ポリテシカ校で開発されたシステムについて述べる。
本研究では、Fairseqモデリングツールキットで実装されたTransformerモデルを用いる。
我々は,語彙サイズ,データ拡張手法,ENIX-14Tデータセットを用いた事前学習実験を行った。
論文 参考訳(メタデータ) (2022-12-02T12:42:24Z) - A Machine Learning Approach to Classifying Construction Cost Documents
into the International Construction Measurement Standard [0.0]
原価文書で提供される自然言語記述を分類する最初の自動モデル「Bills of Quantities」を紹介した。
英国中の24の大規模なインフラ建設プロジェクトから収集された5万件以上の項目のデータセットから学習する。
論文 参考訳(メタデータ) (2022-10-24T11:35:53Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z) - Language Guided Networks for Cross-modal Moment Retrieval [66.49445903955777]
モーダルモーダルモーメント検索は、自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としている。
既存の手法は、ビデオや文の特徴を独立して抽出する。
本稿では,言語ガイドネットワーク(LGN, Language Guided Networks)について紹介する。
論文 参考訳(メタデータ) (2020-06-18T12:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。