Fugu-MT 論文翻訳(概要): Using an LLM to Turn Sign Spottings into Spoken Language Sentences

論文の概要: Using an LLM to Turn Sign Spottings into Spoken Language Sentences

arxiv url: http://arxiv.org/abs/2403.10434v2
Date: Fri, 14 Jun 2024 11:57:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 18:52:34.215435
Title: Using an LLM to Turn Sign Spottings into Spoken Language Sentences
Title（参考訳）: LLMを使ってサインスポッティングを音声言語文に変換する
Authors: Ozge Mercanoglu Sincan, Necati Cihan Camgoz, Richard Bowden,
Abstract要約: 手話翻訳(SLT)は手話ビデオから音声言語文を生成することを目的とした課題である。本稿では,符号スポッターと強力な大言語モデル(LLM)を用いてSLT性能を向上させるハイブリッドSLTアプローチであるSputter+GPTを提案する。
参考スコア（独自算出の注目度）: 30.882890874888417
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Sign Language Translation (SLT) is a challenging task that aims to generate spoken language sentences from sign language videos. In this paper, we introduce a hybrid SLT approach, Spotter+GPT, that utilizes a sign spotter and a powerful Large Language Model (LLM) to improve SLT performance. Spotter+GPT breaks down the SLT task into two stages. The videos are first processed by the Spotter, which is trained on a linguistic sign language dataset, to identify individual signs. These spotted signs are then passed to an LLM, which transforms them into coherent and contextually appropriate spoken language sentences. The source code of the Spotter is available at https://gitlab.surrey.ac.uk/cogvispublic/sign-spotter.
Abstract（参考訳）: 手話翻訳(SLT)は手話ビデオから音声言語文を生成することを目的とした課題である。本稿では,符号スポッターと強力な大言語モデル(LLM)を用いてSLT性能を向上させるハイブリッドSLTアプローチであるSputter+GPTを提案する。 Spotter+GPTはSLTタスクを2段階に分割する。ビデオはまず、言語手話データセットに基づいて訓練されたSputterによって処理され、個々のサインを識別する。これらの標識はLLMに渡され、コヒーレントで文脈的に適切な音声言語文に変換される。 Spotterのソースコードはhttps://gitlab.surrey.ac.uk/cogvispublic/sign-spotter.comで公開されている。

関連論文リスト

Teach Me Sign: Stepwise Prompting LLM for Sign Language Production [4.855031479710184]
我々は,手話を別の自然言語として扱うTEAM-Sign(TEAM-Sign)を提案する。 LLMを微調整することで、テキストと手話の対応を学習することができる。そこで我々は,手話と手話の相違を考慮し,手話知識の抽出を段階的に進める戦略を採用した。
論文参考訳（メタデータ） (2025-07-15T04:31:52Z)
LLaVA-SLT: Visual Language Tuning for Sign Language Translation [42.20090162339927]
近年の手話翻訳(SLT)の進歩は将来性を示しているが、精度の面ではグロスベースのアプローチに大きく遅れていることが多い。我々はLLaVA-SLTというLarge Multimodal Model (LMM) フレームワークを紹介した。 LLaVA-SLTは最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-21T08:01:08Z)
Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation [6.688680877428467]
そこで我々は,Gloss-free Multimodal Sign Language Translationフレームワークを提案する。マルチモーダルな大言語モデルを用いて手話コンポーネントの詳細なテキスト記述を生成する。提案手法は,ベンチマークデータセットPHOENIX14TとCSL-Dailyの最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-25T09:01:41Z)
Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文参考訳（メタデータ） (2024-08-16T06:04:25Z)
LLMs are Good Sign Language Translators [19.259163728870696]
手話翻訳は,手話動画を音声言語に翻訳することを目的とした課題である。本稿では,手話動画を言語的表現に変換する新しいSignLLMフレームワークを提案する。広範に使用されている2つのSLTベンチマークにおいて、最先端のグロスフリーな結果が得られる。
論文参考訳（メタデータ） (2024-04-01T05:07:13Z)
Gloss Attention for Gloss-free Sign Language Translation [60.633146518820325]
グロスアノテーションによって手話の翻訳が容易になることを示す。次に,同じセマンティクスを持つビデオセグメント内で,モデルが注意を維持できるように,エンファングルースアテンションを提案する。複数の大規模手話データセットに対する実験結果から,提案したGASLTモデルは既存手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-14T14:07:55Z)
Assessing Phrase Break of ESL Speech with Pre-trained Language Models and Large Language Models [7.782346535009883]
本研究では,事前学習言語モデル (PLM) と大規模言語モデル (LLM) を用いて,ESL学習者の音声における句分割の評価手法を提案する。
論文参考訳（メタデータ） (2023-06-08T07:10:39Z)
Scaling up sign spotting through sign language dictionaries [99.50956498009094]
この作業の焦点は、$textitsign spotting$ - 分離されたサインのビデオの場合、$textitwwhere$ と $textitwhere$ の識別が、連続的かつ協調的な手話ビデオで署名されている。我々は,(1) $textitwatching$既存の映像を口コミでスムーズにラベル付けする,(2) $textitreading$ associated subtitles that provide additional translations of the signed content。アプローチの有効性を低く検証する。
論文参考訳（メタデータ） (2022-05-09T10:00:03Z)
Improving Sign Language Translation with Monolingual Data by Sign Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文参考訳（メタデータ） (2021-05-26T08:49:30Z)
Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文参考訳（メタデータ） (2020-10-08T14:12:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。