Fugu-MT 論文翻訳(概要): Self-Sufficient Framework for Continuous Sign Language Recognition

論文の概要: Self-Sufficient Framework for Continuous Sign Language Recognition

arxiv url: http://arxiv.org/abs/2303.11771v1
Date: Tue, 21 Mar 2023 11:42:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-22 15:14:52.175527
Title: Self-Sufficient Framework for Continuous Sign Language Recognition
Title（参考訳）: 連続手話認識のための自己満足型フレームワーク
Authors: Youngjoon Jang, Youngtaek Oh, Jae Won Cho, Myungchul Kim, Dong-Jin Kim, In So Kweon, Joon Son Chung
Abstract要約: この作業の目標は、継続的手話認識のための自己充足型のフレームワークを開発することです。これには、理解のための手、顔、口などの複雑なマルチスケール機能、フレームレベルのアノテーションの欠如が含まれる。ネットワークやアノテーションを必要とせずに手動と非手動の両方の機能を抽出するDivide and Focus Convolution (DFConv)を提案する。 DPLRは、基底真理グロスシーケンスラベルと予測シーケンスを組み合わせることにより、非スパイクフレームレベルの擬似ラベルを伝搬する。
参考スコア（独自算出の注目度）: 75.60327502570242
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The goal of this work is to develop self-sufficient framework for Continuous Sign Language Recognition (CSLR) that addresses key issues of sign language recognition. These include the need for complex multi-scale features such as hands, face, and mouth for understanding, and absence of frame-level annotations. To this end, we propose (1) Divide and Focus Convolution (DFConv) which extracts both manual and non-manual features without the need for additional networks or annotations, and (2) Dense Pseudo-Label Refinement (DPLR) which propagates non-spiky frame-level pseudo-labels by combining the ground truth gloss sequence labels with the predicted sequence. We demonstrate that our model achieves state-of-the-art performance among RGB-based methods on large-scale CSLR benchmarks, PHOENIX-2014 and PHOENIX-2014-T, while showing comparable results with better efficiency when compared to other approaches that use multi-modality or extra annotations.
Abstract（参考訳）: 本研究の目的は,手話認識の重要な問題に対処する,CSLR(Continuous Sign Language Recognition)のための自己充足型フレームワークを開発することである。これには、理解のための手、顔、口などの複雑なマルチスケール機能、フレームレベルのアノテーションの欠如が含まれる。そこで本研究では,(1)手動と非手動の両方の特徴を追加のネットワークやアノテーションを必要とせずに抽出するDivide and Focus Convolution(DFConv),(2)非スパイクなフレームレベルの擬似ラベルを予測シーケンスと組み合わせて伝播するDense Pseudo-Label Refinement(DPLR)を提案する。我々は,大規模CSLRベンチマークである PHOENIX-2014 と PHOENIX-2014-T において,RGB を用いた手法の最先端性能を実現するとともに,マルチモーダリティや付加アノテーションを用いた他の手法と比較して高い効率性を示した。

関連論文リスト

AutoSign: Direct Pose-to-Text Translation for Continuous Sign Language Recognition [0.0]
聴覚障害者コミュニティと聴覚障害者コミュニティのギャップを埋める上で,サインジェスチャを連続的に認識し,それらをグロースに変換することが重要な役割を担っている。ポーズ列を直接自然言語テキストに変換する自動回帰デコーダのみの変換器であるAutoSignを提案する。マルチステージパイプラインを削除することで、AutoSignはIsharah-1000データセットを大幅に改善した。
論文参考訳（メタデータ） (2025-07-26T07:28:33Z)
Leveraging Joint Predictive Embedding and Bayesian Inference in Graph Self Supervised Learning [0.0]
グラフ表現学習は、ノード分類やリンク予測といったタスクの基盤として登場した。現在の自己教師付き学習(SSL)手法は、計算の非効率性、対照的な目的への依存、表現の崩壊といった課題に直面している。本稿では,意味情報と構造情報を保存しながら,対照的な目的と負のサンプリングを排除したグラフSSLのための新しい結合埋め込み予測フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-02T07:42:45Z)
DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment [20.953645420787527]
計算コストのごく一部でCLIPライクなモデルをトレーニングする。ゼロショット分類とオープンボキャブラリセマンティックセマンティックセグメンテーションの最先端結果を得る。
論文参考訳（メタデータ） (2024-12-20T20:46:48Z)
CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。 CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文参考訳（メタデータ） (2024-10-12T06:24:33Z)
FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs [5.35588281968644]
適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
論文参考訳（メタデータ） (2024-07-02T10:55:43Z)
Continuous Sign Language Recognition Using Intra-inter Gloss Attention [0.0]
本研究では,手話認識研究において,インター・グロス・アテンション・モジュール(inter-inter gloss attention module)と呼ばれる新しいモジュールを導入する。グロス内注目モジュールでは、動画を等サイズのチャンクに分割し、各チャンク内に自己注意機構を適用する。 PHOENIX-2014ベンチマークデータセットの実験結果から,本手法が手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文参考訳（メタデータ） (2024-06-26T13:21:08Z)
A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-16T17:19:06Z)
Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。 ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-02-23T06:11:50Z)
Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文参考訳（メタデータ） (2023-08-21T15:58:47Z)
Scalable Learning of Latent Language Structure With Logical Offline Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文参考訳（メタデータ） (2023-05-31T16:47:20Z)
Improving Continuous Sign Language Recognition with Consistency Constraints and Signer Removal [24.537234147678113]
CSLRバックボーンを強化するために,3つの補助タスクを提案する。視覚モジュールを強制するために、キーポイント誘導空間アテンションモジュールを開発する。視覚モジュールとシーケンシャルモジュールの間には、文埋め込み一貫性制約が課される。本モデルでは,5つのベンチマークで最先端または競争性能を実現する。
論文参考訳（メタデータ） (2022-12-26T06:38:34Z)
Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文参考訳（メタデータ） (2021-10-12T16:57:18Z)
Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。 IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。 IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文参考訳（メタデータ） (2021-03-02T08:20:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。