論文の概要: Signing Outside the Studio: Benchmarking Background Robustness for
Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2211.00448v1
- Date: Tue, 1 Nov 2022 13:27:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 14:10:02.831633
- Title: Signing Outside the Studio: Benchmarking Background Robustness for
Continuous Sign Language Recognition
- Title(参考訳): スタジオ外で署名: 継続的手話認識のためのバックグラウンドロバストネスのベンチマーク
- Authors: Youngjoon Jang, Youngtaek Oh, Jae Won Cho, Dong-Jin Kim, Joon Son
Chung, In So Kweon
- Abstract要約: 本稿では,既存の連続手話認識ベンチマークを用いて,ベンチマークデータセットを自動的に生成するパイプラインを提案する。
新たに構築したベンチマークデータセットは,実環境をシミュレートする多様なシーンで構成されている。
そこで本研究では,(1)背景ランダム化と(2)CSLRモデルの特徴的乱れを含む,シンプルで効果的な学習手法を提案する。
- 参考スコア(独自算出の注目度): 79.23777980180755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this work is background-robust continuous sign language
recognition. Most existing Continuous Sign Language Recognition (CSLR)
benchmarks have fixed backgrounds and are filmed in studios with a static
monochromatic background. However, signing is not limited only to studios in
the real world. In order to analyze the robustness of CSLR models under
background shifts, we first evaluate existing state-of-the-art CSLR models on
diverse backgrounds. To synthesize the sign videos with a variety of
backgrounds, we propose a pipeline to automatically generate a benchmark
dataset utilizing existing CSLR benchmarks. Our newly constructed benchmark
dataset consists of diverse scenes to simulate a real-world environment. We
observe even the most recent CSLR method cannot recognize glosses well on our
new dataset with changed backgrounds. In this regard, we also propose a simple
yet effective training scheme including (1) background randomization and (2)
feature disentanglement for CSLR models. The experimental results on our
dataset demonstrate that our method generalizes well to other unseen background
data with minimal additional training images.
- Abstract(参考訳): この研究の目標は、バックグラウンドロバストな連続手話認識である。
現存するほとんどの連続手話認識(cslr)ベンチマークは固定された背景を持ち、静的な単色背景を持つスタジオで撮影される。
しかし、署名は現実世界のスタジオに限ったものではない。
背景シフトによるCSLRモデルのロバスト性を分析するため,様々な背景から既存のCSLRモデルを評価する。
そこで本研究では,既存のCSLRベンチマークを用いたベンチマークデータセットを自動生成するパイプラインを提案する。
新たに構築したベンチマークデータセットは,実環境をシミュレートする多様なシーンで構成されている。
最新のCSLR法でさえ、背景が変化した新しいデータセットではグルースをよく認識できない。
そこで本研究では,(1)背景ランダム化と(2)CSLRモデルの特徴的乱れを含む,シンプルで効果的な学習手法を提案する。
実験結果から,本手法は他の未知の背景データを最小限の訓練画像で一般化することを示した。
関連論文リスト
- A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - SegLoc: Visual Self-supervised Learning Scheme for Dense Prediction
Tasks of Security Inspection X-ray Images [4.251030047034566]
コンピュータビジョンにおける自己教師型学習は、比較的軌道に留まることができない。
本稿では,セキュリティ検査用X線画像の高密度予測タスクを評価する。
我々のモデルは、対照的な学習の最も難しい欠点の1つ、すなわち、クエリの埋め込みの偽陰性なペアに対処することに成功しました。
論文 参考訳(メタデータ) (2023-10-12T15:42:17Z) - PRIOR: Prototype Representation Joint Learning from Medical Images and
Reports [19.336988866061294]
医用画像とレポートのグローバルなアライメントとローカルなアライメントを組み合わせた表現学習フレームワークを提案する。
標準的なグローバルな多モードアライメント手法とは対照的に、細粒度表現に局所アライメントモジュールを用いる。
低レベルのローカライズされた視覚的および高レベルの臨床言語的特徴に焦点を合わせることができる文量プロトタイプメモリバンクを構築する。
論文 参考訳(メタデータ) (2023-07-24T07:49:01Z) - Evaluating The Robustness of Self-Supervised Representations to
Background/Foreground Removal [4.007351600492541]
DINOv2, MAE, SwaVといった最先端のSSL事前トレーニングモデルを検討し, 4つの画像分類データセットの表現レベルの変化を分析した。
経験的に、すべてのモデルが前景、背景、および完全なイメージを分離する表現につながるわけではない。
論文 参考訳(メタデータ) (2023-06-02T09:46:22Z) - DETA: Denoised Task Adaptation for Few-Shot Learning [135.96805271128645]
数ショット学習におけるテスト時間タスク適応は、訓練済みのタスク非依存モデルに適応してタスク固有の知識を取得することを目的としている。
少数のサンプルしか得られないため、支持試料からのイメージノイズ(Xノイズ)またはラベルノイズ(Yノイズ)の悪影響を著しく増幅することができる。
Denoized Task Adaptation (DETA) は、既存のタスク適応アプローチに対して、最初に統合された画像とラベルをデノベートするフレームワークである。
論文 参考訳(メタデータ) (2023-03-11T05:23:20Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。