Fugu-MT 論文翻訳(概要): LLMs are Good Sign Language Translators

論文の概要: LLMs are Good Sign Language Translators

arxiv url: http://arxiv.org/abs/2404.00925v1
Date: Mon, 1 Apr 2024 05:07:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 23:16:25.671359
Title: LLMs are Good Sign Language Translators
Title（参考訳）: LLMは良い手話翻訳ツールである
Authors: Jia Gong, Lin Geng Foo, Yixuan He, Hossein Rahmani, Jun Liu,
Abstract要約: 手話翻訳は,手話動画を音声言語に翻訳することを目的とした課題である。本稿では,手話動画を言語的表現に変換する新しいSignLLMフレームワークを提案する。広範に使用されている2つのSLTベンチマークにおいて、最先端のグロスフリーな結果が得られる。
参考スコア（独自算出の注目度）: 19.259163728870696
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sign Language Translation (SLT) is a challenging task that aims to translate sign videos into spoken language. Inspired by the strong translation capabilities of large language models (LLMs) that are trained on extensive multilingual text corpora, we aim to harness off-the-shelf LLMs to handle SLT. In this paper, we regularize the sign videos to embody linguistic characteristics of spoken language, and propose a novel SignLLM framework to transform sign videos into a language-like representation for improved readability by off-the-shelf LLMs. SignLLM comprises two key modules: (1) The Vector-Quantized Visual Sign module converts sign videos into a sequence of discrete character-level sign tokens, and (2) the Codebook Reconstruction and Alignment module converts these character-level tokens into word-level sign representations using an optimal transport formulation. A sign-text alignment loss further bridges the gap between sign and text tokens, enhancing semantic compatibility. We achieve state-of-the-art gloss-free results on two widely-used SLT benchmarks.
Abstract（参考訳）: 手話翻訳(SLT)は,手話動画を音声言語に翻訳することを目的とした課題である。広範囲な多言語テキストコーパスをトレーニングした大規模言語モデル(LLM)の強力な翻訳能力に着想を得て,既製のLLMを用いてSLTを扱うことを目指す。本稿では,手話の言語的特徴を具現化するために手話ビデオの正規化を行い,手話ビデオの可読性を向上させるために,手話動画を言語的表現に変換する新しい手話フレームワークであるSignLLMを提案する。 The Vector-Quantized Visual Sign module converts sign video into a sequence of individual character-level sign tokens, and the Codebook Reconstruction and Alignment module converts these character-level tokens into word-level sign representations using an optimal transport formulation。サイン-テキストアライメントの損失により、サインとテキストトークンのギャップはさらに埋められ、セマンティックな互換性が向上する。広範に使用されている2つのSLTベンチマークにおいて、最先端のグロスフリーな結果が得られる。

関連論文リスト

Bridging Sign and Spoken Languages: Pseudo Gloss Generation for Sign Language Translation [48.20483623444857]
手話翻訳は、手話動画を音声テキストにマッピングすることを目的としている。一般的なアプローチは、中間表現としてのグロスアノテーションに依存している。そこで我々は,人間に注釈付けされたグルースを不要とした光沢のない擬似グルース生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-21T12:19:55Z)
LLaVA-SLT: Visual Language Tuning for Sign Language Translation [42.20090162339927]
近年の手話翻訳(SLT)の進歩は将来性を示しているが、精度の面ではグロスベースのアプローチに大きく遅れていることが多い。我々はLLaVA-SLTというLarge Multimodal Model (LMM) フレームワークを紹介した。 LLaVA-SLTは最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-21T08:01:08Z)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation [6.688680877428467]
そこで我々は,Gloss-free Multimodal Sign Language Translationフレームワークを提案する。マルチモーダルな大言語モデルを用いて手話コンポーネントの詳細なテキスト記述を生成する。提案手法は,ベンチマークデータセットPHOENIX14TとCSL-Dailyの最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-25T09:01:41Z)
An Efficient Sign Language Translation Using Spatial Configuration and Motion Dynamics with LLMs [7.630967411418269]
グロスフリー手話翻訳(英: Gloss-free Sign Language Translation, SLT)は、手話の動画を直接言語文に変換する言語である。本稿では手話に固有の空間的構成や動きのダイナミクスを捉えることの重要性を強調する。本稿では,空間と運動に基づく手話翻訳(SpaMo)について紹介する。
論文参考訳（メタデータ） (2024-08-20T07:10:40Z)
T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。 PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文参考訳（メタデータ） (2024-06-11T10:06:53Z)
SignBLEU: Automatic Evaluation of Multi-channel Sign Language Translation [3.9711029428461653]
マルチチャネル手話翻訳(MCSLT)という新しいタスクを導入する。本稿では,複数の信号チャネルを捕捉する新しい測度であるSignBLEUを提案する。 SignBLEUは、競合する指標よりも、人間の判断と常に相関していることがわかった。
論文参考訳（メタデータ） (2024-06-10T05:01:26Z)
SignLLM: Sign Language Production Large Language Models [31.557139567708067]
我々は多言語手話生成(SLP)大言語モデルであるSignLLMを提案する。 2つの新しいSLPモードMLSFとPrompt2LangGlossは、クエリテキスト入力と質問スタイルプロンプト入力から手話ジェスチャーを生成することができる。我々はSignLLMを広範に評価し、8つの手話言語でSLPタスクの最先端性能を実現することを実証した。
論文参考訳（メタデータ） (2024-05-17T12:01:43Z)
A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-16T17:19:06Z)
Sign2GPT: Leveraging Large Language Models for Gloss-Free Sign Language Translation [30.008980708977095]
我々は手話翻訳の新しいフレームワークSign2GPTを紹介する。本稿では,自動抽出した擬似グルースから符号表現を学習するようエンコーダに指示する,新しい事前学習戦略を提案する。我々は2つの公開ベンチマーク手話翻訳データセットに対するアプローチを評価した。
論文参考訳（メタデータ） (2024-05-07T10:00:38Z)
Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。 i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文参考訳（メタデータ） (2023-07-27T10:59:18Z)
Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-18T16:34:18Z)
SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。 SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文参考訳（メタデータ） (2021-12-08T11:04:52Z)
Improving Sign Language Translation with Monolingual Data by Sign Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文参考訳（メタデータ） (2021-05-26T08:49:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。