論文の概要: Signing Outside the Studio: Benchmarking Background Robustness for
Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2211.00448v1
- Date: Tue, 1 Nov 2022 13:27:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 14:10:02.831633
- Title: Signing Outside the Studio: Benchmarking Background Robustness for
Continuous Sign Language Recognition
- Title(参考訳): スタジオ外で署名: 継続的手話認識のためのバックグラウンドロバストネスのベンチマーク
- Authors: Youngjoon Jang, Youngtaek Oh, Jae Won Cho, Dong-Jin Kim, Joon Son
Chung, In So Kweon
- Abstract要約: 本稿では,既存の連続手話認識ベンチマークを用いて,ベンチマークデータセットを自動的に生成するパイプラインを提案する。
新たに構築したベンチマークデータセットは,実環境をシミュレートする多様なシーンで構成されている。
そこで本研究では,(1)背景ランダム化と(2)CSLRモデルの特徴的乱れを含む,シンプルで効果的な学習手法を提案する。
- 参考スコア(独自算出の注目度): 79.23777980180755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this work is background-robust continuous sign language
recognition. Most existing Continuous Sign Language Recognition (CSLR)
benchmarks have fixed backgrounds and are filmed in studios with a static
monochromatic background. However, signing is not limited only to studios in
the real world. In order to analyze the robustness of CSLR models under
background shifts, we first evaluate existing state-of-the-art CSLR models on
diverse backgrounds. To synthesize the sign videos with a variety of
backgrounds, we propose a pipeline to automatically generate a benchmark
dataset utilizing existing CSLR benchmarks. Our newly constructed benchmark
dataset consists of diverse scenes to simulate a real-world environment. We
observe even the most recent CSLR method cannot recognize glosses well on our
new dataset with changed backgrounds. In this regard, we also propose a simple
yet effective training scheme including (1) background randomization and (2)
feature disentanglement for CSLR models. The experimental results on our
dataset demonstrate that our method generalizes well to other unseen background
data with minimal additional training images.
- Abstract(参考訳): この研究の目標は、バックグラウンドロバストな連続手話認識である。
現存するほとんどの連続手話認識(cslr)ベンチマークは固定された背景を持ち、静的な単色背景を持つスタジオで撮影される。
しかし、署名は現実世界のスタジオに限ったものではない。
背景シフトによるCSLRモデルのロバスト性を分析するため,様々な背景から既存のCSLRモデルを評価する。
そこで本研究では,既存のCSLRベンチマークを用いたベンチマークデータセットを自動生成するパイプラインを提案する。
新たに構築したベンチマークデータセットは,実環境をシミュレートする多様なシーンで構成されている。
最新のCSLR法でさえ、背景が変化した新しいデータセットではグルースをよく認識できない。
そこで本研究では,(1)背景ランダム化と(2)CSLRモデルの特徴的乱れを含む,シンプルで効果的な学習手法を提案する。
実験結果から,本手法は他の未知の背景データを最小限の訓練画像で一般化することを示した。
関連論文リスト
- A Chinese Continuous Sign Language Dataset Based on Complex Environments [17.195286118443256]
複雑な環境に基づく中国語連続手話(CSL)のための大規模データセットを構築した。
このデータセットは、日常生活シーンから収集された5,988の連続CSLビデオクリップを含んでいる。
連続手話認識のための時間周波数ネットワーク(TFNet)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-18T13:11:15Z) - Contrastive Learning with Synthetic Positives [11.932323457691945]
近隣住民との対比学習は、最も効率的な自己教師付き学習(SSL)技術の1つであることが証明されている。
本稿では,NCLP(Contrastive Learning with Synthetic Positives)という新しいアプローチを提案する。
NCLPは、無条件拡散モデルによって生成された合成画像を利用して、モデルが多様な正から学ぶのに役立つ追加の正として利用する。
論文 参考訳(メタデータ) (2024-08-30T01:47:43Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - Visual Self-supervised Learning Scheme for Dense Prediction Tasks on X-ray Images [3.782392436834913]
自己教師付き学習(SSL)は自然言語処理(NLP)においてかなりの進歩をもたらした
しかし、既存のビジュアルSSLモデルにコントラスト学習を組み込むことは、しばしば監督対象を超越する、かなりの進歩をもたらした。
ここでは、セキュリティ検査X線画像を用いた密集予測タスクに着目し、提案モデルであるセグメントローカライゼーション(SegLoc)を評価する。
インスタンスローカライゼーション(InsLoc)モデルに基づいて、SegLocはコントラスト学習における重要な課題の1つ、すなわち、クエリ埋め込みの偽陰性ペアに対処する。
論文 参考訳(メタデータ) (2023-10-12T15:42:17Z) - PRIOR: Prototype Representation Joint Learning from Medical Images and
Reports [19.336988866061294]
医用画像とレポートのグローバルなアライメントとローカルなアライメントを組み合わせた表現学習フレームワークを提案する。
標準的なグローバルな多モードアライメント手法とは対照的に、細粒度表現に局所アライメントモジュールを用いる。
低レベルのローカライズされた視覚的および高レベルの臨床言語的特徴に焦点を合わせることができる文量プロトタイプメモリバンクを構築する。
論文 参考訳(メタデータ) (2023-07-24T07:49:01Z) - Evaluating The Robustness of Self-Supervised Representations to
Background/Foreground Removal [4.007351600492541]
DINOv2, MAE, SwaVといった最先端のSSL事前トレーニングモデルを検討し, 4つの画像分類データセットの表現レベルの変化を分析した。
経験的に、すべてのモデルが前景、背景、および完全なイメージを分離する表現につながるわけではない。
論文 参考訳(メタデータ) (2023-06-02T09:46:22Z) - DETA: Denoised Task Adaptation for Few-Shot Learning [135.96805271128645]
数ショット学習におけるテスト時間タスク適応は、訓練済みのタスク非依存モデルに適応してタスク固有の知識を取得することを目的としている。
少数のサンプルしか得られないため、支持試料からのイメージノイズ(Xノイズ)またはラベルノイズ(Yノイズ)の悪影響を著しく増幅することができる。
Denoized Task Adaptation (DETA) は、既存のタスク適応アプローチに対して、最初に統合された画像とラベルをデノベートするフレームワークである。
論文 参考訳(メタデータ) (2023-03-11T05:23:20Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。