Fugu-MT 論文翻訳(概要): Topic Detection in Continuous Sign Language Videos

論文の概要: Topic Detection in Continuous Sign Language Videos

arxiv url: http://arxiv.org/abs/2209.02402v1
Date: Thu, 1 Sep 2022 19:17:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-11 13:03:56.801841
Title: Topic Detection in Continuous Sign Language Videos
Title（参考訳）: 連続手話映像における話題検出
Authors: Alvaro Budria, Laia Tarres, Gerard I. Gallego, Francesc Moreno-Noguer, Jordi Torres, Xavier Giro-i-Nieto
Abstract要約: 本稿では,手話話題検出の新しい課題について紹介する。複数のセマンティックドメインにまたがる大規模ビデオデータセットであるHow2Signについて実験を行った。
参考スコア（独自算出の注目度）: 23.43298383445439
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Significant progress has been made recently on challenging tasks in automatic sign language understanding, such as sign language recognition, translation and production. However, these works have focused on datasets with relatively few samples, short recordings and limited vocabulary and signing space. In this work, we introduce the novel task of sign language topic detection. We base our experiments on How2Sign, a large-scale video dataset spanning multiple semantic domains. We provide strong baselines for the task of topic detection and present a comparison between different visual features commonly used in the domain of sign language.
Abstract（参考訳）: 近年,手話認識や翻訳,生産など,手話の自動理解における課題課題が大幅に進展している。しかし、これらの作品は、比較的少ないサンプル、短い録音、限られた語彙と署名空間を持つデータセットに焦点を当てている。本稿では,手話話題検出の新たな課題について紹介する。複数のセマンティックドメインにまたがる大規模ビデオデータセットであるHow2Signについて実験を行った。話題検出の課題に対して強力なベースラインを提供し,手話領域で一般的に使用される視覚的特徴の比較を行う。

関連論文リスト

BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。データ収集とアノテーションプロセスに関する課題を強調します。 BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文参考訳（メタデータ） (2025-02-17T15:39:50Z)
Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.038123093599815]
我々の目的は、連続手話から音声言語テキストへの翻訳である。署名ビデオと追加のコンテキストキューを組み込む。文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文参考訳（メタデータ） (2025-01-16T18:59:03Z)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文参考訳（メタデータ） (2024-07-17T14:16:35Z)
Reconsidering Sentence-Level Sign Language Translation [2.099922236065961]
サンプル中の33%の文に対して,流用なDeafシグナ・アノテータは談話レベルの文脈から,クリップのキー部分のみを理解できた。これらの結果は、機械学習を新しいドメインに適用する際の理解と健全性検査の重要性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-06-16T19:19:54Z)
Linguistically Motivated Sign Language Segmentation [51.06873383204105]
個々の記号へのセグメンテーションとフレーズへのセグメンテーションという2種類のセグメンテーションを考える。本手法は手話コーパスで観察される言語的手がかりによって動機付けられている。私たちは、主要なIOタグ付けスキームをBIOタグに置き換えて、継続的な署名を可能にします。
論文参考訳（メタデータ） (2023-10-21T10:09:34Z)
Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文参考訳（メタデータ） (2023-08-21T15:58:47Z)
CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive Learning [38.83062453145388]
手話検索は、テキスト・トゥ・サイン・ビデオ(T2V)検索とサイン・ビデオ・トゥ・テキスト(V2T)検索の2つのサブタスクで構成される。我々は手話と自然言語の両方の言語特性を考慮し、さらに粒度の細かい言語間マッピングを同時に同定する。我々のフレームワークは、様々なデータセットに対して大きなマージンで先駆的手法より優れています。
論文参考訳（メタデータ） (2023-03-22T17:59:59Z)
Automatic dense annotation of large-vocabulary sign language videos [85.61513254261523]
自動アノテーションの密度を大幅に高めるための,シンプルでスケーラブルなフレームワークを提案する。これらのアノテーションは手話研究コミュニティをサポートするために公開されています。
論文参考訳（メタデータ） (2022-08-04T17:55:09Z)
Scaling up sign spotting through sign language dictionaries [99.50956498009094]
この作業の焦点は、$textitsign spotting$ - 分離されたサインのビデオの場合、$textitwwhere$ と $textitwhere$ の識別が、連続的かつ協調的な手話ビデオで署名されている。我々は,(1) $textitwatching$既存の映像を口コミでスムーズにラベル付けする,(2) $textitreading$ associated subtitles that provide additional translations of the signed content。アプローチの有効性を低く検証する。
論文参考訳（メタデータ） (2022-05-09T10:00:03Z)
Towards Automatic Speech to Sign Language Generation [35.22004819666906]
音声セグメントからシグナのポーズを生成するために訓練された多言語トランスフォーマーネットワークを提案する。我々のモデルは、エンドツーエンドで連続的なサインポーズ列を生成することを学習する。
論文参考訳（メタデータ） (2021-06-24T06:44:19Z)
Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文参考訳（メタデータ） (2020-10-08T14:12:56Z)
Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。 RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文参考訳（メタデータ） (2020-03-30T21:35:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。