論文の概要: Towards Zero-shot Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2201.05914v1
- Date: Sat, 15 Jan 2022 19:26:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 15:53:28.678689
- Title: Towards Zero-shot Sign Language Recognition
- Title(参考訳): ゼロショット手話認識に向けて
- Authors: Yunus Can Bilge, Ramazan Gokberk Cinbis, Nazli Ikizler-Cinbis
- Abstract要約: 本稿では,ゼロショット手話認識の問題に取り組む。
目標は、目に見えないシグネチャクラスのインスタンスを認識するために、シグネチャクラス上で学んだモデルを活用することだ。
- 参考スコア(独自算出の注目度): 11.952300437658703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles the problem of zero-shot sign language recognition
(ZSSLR), where the goal is to leverage models learned over the seen sign
classes to recognize the instances of unseen sign classes. In this context,
readily available textual sign descriptions and attributes collected from sign
language dictionaries are utilized as semantic class representations for
knowledge transfer. For this novel problem setup, we introduce three benchmark
datasets with their accompanying textual and attribute descriptions to analyze
the problem in detail. Our proposed approach builds spatiotemporal models of
body and hand regions. By leveraging the descriptive text and attribute
embeddings along with these visual representations within a zero-shot learning
framework, we show that textual and attribute based class definitions can
provide effective knowledge for the recognition of previously unseen sign
classes. We additionally introduce techniques to analyze the influence of
binary attributes in correct and incorrect zero-shot predictions. We anticipate
that the introduced approaches and the accompanying datasets will provide a
basis for further exploration of zero-shot learning in sign language
recognition.
- Abstract(参考訳): 本稿では,ゼロショット手話認識(ZSSLR)の課題に対処し,目に見える手話クラスのインスタンスを認識するために,手話クラス上で学習したモデルを活用することを目的とする。
この文脈では、手話辞書から収集した文章的な手話記述や属性を、知識伝達のための意味クラス表現として活用する。
そこで本研究では,テキスト記述と属性記述を伴う3つのベンチマークデータセットを導入し,問題を詳細に解析する。
提案手法は体と手領域の時空間モデルを構築する。
ゼロショット学習フレームワークにおいて,記述的テキストと属性埋め込みとこれらの視覚表現を併用することにより,テキストと属性に基づくクラス定義が,これまで見つからなかったサインクラスの認識に有効な知識を提供することを示す。
さらに,直近のゼロショット予測におけるバイナリ属性の影響を解析する手法も導入する。
手話認識におけるゼロショット学習のさらなる探求のための基礎となる,導入されたアプローチと付随するデータセットが期待できる。
関連論文リスト
- Text2Model: Text-based Model Induction for Zero-shot Image
Classification [41.0122522912593]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
我々は、クラス記述を受け取り、マルチクラスモデルを出力するハイパーネットワークを訓練する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて評価される。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - Open-set Text Recognition via Character-Context Decoupling [16.2819099852748]
オープンセットテキスト認識タスクは、評価中に新しい文字を認識する余分な能力を必要とする、新たな課題である。
現状の手法における限られた性能の大きな原因は,個々の文字の視覚的情報に対する文脈情報の相違である,と我々は主張する。
文脈情報と文字視覚情報を分離することでこの問題を軽減するために,文字コンテキスト分離フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-12T05:43:46Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z) - Attribute Prototype Network for Zero-Shot Learning [113.50220968583353]
差別的グローバルな特徴と局所的な特徴を共同で学習するゼロショット表現学習フレームワークを提案する。
本モデルでは,画像中の属性の視覚的証拠を指摘し,画像表現の属性ローカライゼーション能力の向上を確認した。
論文 参考訳(メタデータ) (2020-08-19T06:46:35Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。