Fugu-MT 論文翻訳(概要): Towards Zero-shot Sign Language Recognition

論文の概要: Towards Zero-shot Sign Language Recognition

arxiv url: http://arxiv.org/abs/2201.05914v1
Date: Sat, 15 Jan 2022 19:26:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-19 15:53:28.678689
Title: Towards Zero-shot Sign Language Recognition
Title（参考訳）: ゼロショット手話認識に向けて
Authors: Yunus Can Bilge, Ramazan Gokberk Cinbis, Nazli Ikizler-Cinbis
Abstract要約: 本稿では,ゼロショット手話認識の問題に取り組む。目標は、目に見えないシグネチャクラスのインスタンスを認識するために、シグネチャクラス上で学んだモデルを活用することだ。
参考スコア（独自算出の注目度）: 11.952300437658703
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper tackles the problem of zero-shot sign language recognition (ZSSLR), where the goal is to leverage models learned over the seen sign classes to recognize the instances of unseen sign classes. In this context, readily available textual sign descriptions and attributes collected from sign language dictionaries are utilized as semantic class representations for knowledge transfer. For this novel problem setup, we introduce three benchmark datasets with their accompanying textual and attribute descriptions to analyze the problem in detail. Our proposed approach builds spatiotemporal models of body and hand regions. By leveraging the descriptive text and attribute embeddings along with these visual representations within a zero-shot learning framework, we show that textual and attribute based class definitions can provide effective knowledge for the recognition of previously unseen sign classes. We additionally introduce techniques to analyze the influence of binary attributes in correct and incorrect zero-shot predictions. We anticipate that the introduced approaches and the accompanying datasets will provide a basis for further exploration of zero-shot learning in sign language recognition.
Abstract（参考訳）: 本稿では,ゼロショット手話認識(ZSSLR)の課題に対処し,目に見える手話クラスのインスタンスを認識するために,手話クラス上で学習したモデルを活用することを目的とする。この文脈では、手話辞書から収集した文章的な手話記述や属性を、知識伝達のための意味クラス表現として活用する。そこで本研究では,テキスト記述と属性記述を伴う3つのベンチマークデータセットを導入し,問題を詳細に解析する。提案手法は体と手領域の時空間モデルを構築する。ゼロショット学習フレームワークにおいて,記述的テキストと属性埋め込みとこれらの視覚表現を併用することにより,テキストと属性に基づくクラス定義が,これまで見つからなかったサインクラスの認識に有効な知識を提供することを示す。さらに,直近のゼロショット予測におけるバイナリ属性の影響を解析する手法も導入する。手話認識におけるゼロショット学習のさらなる探求のための基礎となる,導入されたアプローチと付随するデータセットが期待できる。

関連論文リスト

InPK: Infusing Prior Knowledge into Prompt for Vision-Language Models [24.170351966913557]
学習可能なトークンにクラス固有の事前知識を注入するInPKモデルを提案する。また、テキスト調整に対応するための学習可能なテキスト・ツー・ビジョン・プロジェクション・レイヤも導入する。実験では、InPKは複数のゼロ/ファウショット画像分類タスクにおいて最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2025-02-27T05:33:18Z)
Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文参考訳（メタデータ） (2024-06-15T04:50:19Z)
Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文参考訳（メタデータ） (2022-10-27T05:19:55Z)
Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-04-04T02:25:40Z)
VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文参考訳（メタデータ） (2022-03-20T03:49:02Z)
Attribute Prototype Network for Zero-Shot Learning [113.50220968583353]
差別的グローバルな特徴と局所的な特徴を共同で学習するゼロショット表現学習フレームワークを提案する。本モデルでは,画像中の属性の視覚的証拠を指摘し,画像表現の属性ローカライゼーション能力の向上を確認した。
論文参考訳（メタデータ） (2020-08-19T06:46:35Z)
CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文参考訳（メタデータ） (2020-06-03T11:21:42Z)
Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文参考訳（メタデータ） (2020-03-08T03:05:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。