論文の概要: Using an LLM to Turn Sign Spottings into Spoken Language Sentences
- arxiv url: http://arxiv.org/abs/2403.10434v2
- Date: Fri, 14 Jun 2024 11:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 18:52:34.215435
- Title: Using an LLM to Turn Sign Spottings into Spoken Language Sentences
- Title(参考訳): LLMを使ってサインスポッティングを音声言語文に変換する
- Authors: Ozge Mercanoglu Sincan, Necati Cihan Camgoz, Richard Bowden,
- Abstract要約: 手話翻訳(SLT)は手話ビデオから音声言語文を生成することを目的とした課題である。
本稿では,符号スポッターと強力な大言語モデル(LLM)を用いてSLT性能を向上させるハイブリッドSLTアプローチであるSputter+GPTを提案する。
- 参考スコア(独自算出の注目度): 30.882890874888417
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign Language Translation (SLT) is a challenging task that aims to generate spoken language sentences from sign language videos. In this paper, we introduce a hybrid SLT approach, Spotter+GPT, that utilizes a sign spotter and a powerful Large Language Model (LLM) to improve SLT performance. Spotter+GPT breaks down the SLT task into two stages. The videos are first processed by the Spotter, which is trained on a linguistic sign language dataset, to identify individual signs. These spotted signs are then passed to an LLM, which transforms them into coherent and contextually appropriate spoken language sentences. The source code of the Spotter is available at https://gitlab.surrey.ac.uk/cogvispublic/sign-spotter.
- Abstract(参考訳): 手話翻訳(SLT)は手話ビデオから音声言語文を生成することを目的とした課題である。
本稿では,符号スポッターと強力な大言語モデル(LLM)を用いてSLT性能を向上させるハイブリッドSLTアプローチであるSputter+GPTを提案する。
Spotter+GPTはSLTタスクを2段階に分割する。
ビデオはまず、言語手話データセットに基づいて訓練されたSputterによって処理され、個々のサインを識別する。
これらの標識はLLMに渡され、コヒーレントで文脈的に適切な音声言語文に変換される。
Spotterのソースコードはhttps://gitlab.surrey.ac.uk/cogvispublic/sign-spotter.comで公開されている。
関連論文リスト
- LLMs are Good Sign Language Translators [19.259163728870696]
手話翻訳は,手話動画を音声言語に翻訳することを目的とした課題である。
本稿では,手話動画を言語的表現に変換する新しいSignLLMフレームワークを提案する。
広範に使用されている2つのSLTベンチマークにおいて、最先端のグロスフリーな結果が得られる。
論文 参考訳(メタデータ) (2024-04-01T05:07:13Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Gloss Attention for Gloss-free Sign Language Translation [60.633146518820325]
グロスアノテーションによって手話の翻訳が容易になることを示す。
次に,同じセマンティクスを持つビデオセグメント内で,モデルが注意を維持できるように,エンファングルースアテンションを提案する。
複数の大規模手話データセットに対する実験結果から,提案したGASLTモデルは既存手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-14T14:07:55Z) - Assessing Phrase Break of ESL Speech with Pre-trained Language Models
and Large Language Models [7.782346535009883]
本研究では,事前学習言語モデル (PLM) と大規模言語モデル (LLM) を用いて,ESL学習者の音声における句分割の評価手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T07:10:39Z) - Scaling up sign spotting through sign language dictionaries [99.50956498009094]
この作業の焦点は、$textitsign spotting$ - 分離されたサインのビデオの場合、$textitwwhere$ と $textitwhere$ の識別が、連続的かつ協調的な手話ビデオで署名されている。
我々は,(1) $textitwatching$既存の映像を口コミでスムーズにラベル付けする,(2) $textitreading$ associated subtitles that provide additional translations of the signed content。
アプローチの有効性を低く検証する。
論文 参考訳(メタデータ) (2022-05-09T10:00:03Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。