論文の概要: SLVideo: A Sign Language Video Moment Retrieval Framework
- arxiv url: http://arxiv.org/abs/2407.15668v1
- Date: Mon, 22 Jul 2024 14:29:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 14:40:28.525890
- Title: SLVideo: A Sign Language Video Moment Retrieval Framework
- Title(参考訳): SLVideo: 手話ビデオ検索フレームワーク
- Authors: Gonçalo Vinagre Martins, Afonso Quinaz, Carla Viegas, Sofia Cavaco, João Magalhães,
- Abstract要約: SLVideoは手話ビデオのためのビデオモーメント検索ソフトウェアである。
ビデオフレームから手と顔のサインの埋め込み表現を抽出する。
ユーザーはテキストクエリで特定の手話ビデオセグメントを検索できる。
- 参考スコア(独自算出の注目度): 6.782143030167946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign Language Recognition has been studied and developed throughout the years to help the deaf and hard-of-hearing people in their day-to-day lives. These technologies leverage manual sign recognition algorithms, however, most of them lack the recognition of facial expressions, which are also an essential part of Sign Language as they allow the speaker to add expressiveness to their dialogue or even change the meaning of certain manual signs. SLVideo is a video moment retrieval software for Sign Language videos with a focus on both hands and facial signs. The system extracts embedding representations for the hand and face signs from video frames to capture the language signs in full. This will then allow the user to search for a specific sign language video segment with text queries, or to search by similar sign language videos. To test this system, a collection of five hours of annotated Sign Language videos is used as the dataset, and the initial results are promising in a zero-shot setting.SLVideo is shown to not only address the problem of searching sign language videos but also supports a Sign Language thesaurus with a search by similarity technique. Project web page: https://novasearch.github.io/SLVideo/
- Abstract(参考訳): 手話認識は、日々の生活の中で聴覚障害者や難聴者を助けるために、長年にわたって研究され開発されてきた。
これらの技術は手動手話認識アルゴリズムを利用するが、そのほとんどは顔の認識に欠けており、これは手話の重要な部分であり、話者が対話に表現性を加えることや、特定の手話の意味を変えることさえできる。
SLVideoは手と顔の両方に焦点を絞った手話ビデオのためのビデオモーメント検索ソフトウェアである。
このシステムは、ビデオフレームから手と顔のサインの埋め込み表現を抽出し、言語記号をフルにキャプチャする。
これにより、ユーザーはテキストクエリで特定の手話ビデオセグメントを検索したり、類似の手話ビデオで検索することができる。
このシステムをテストするために,5時間の注釈付き手話ビデオのコレクションをデータセットとして使用し,0ショット設定で最初の結果が期待できる。SLVideoは手話ビデオの検索の問題に対処するだけでなく,類似性による検索による手話シソーラスもサポートする。
プロジェクトWebページ: https://novasearch.github.io/SLVideo/
関連論文リスト
- New Capability to Look Up an ASL Sign from a Video Example [4.992008196032313]
ASL符号のビデオの検索を可能にするために,Web上で公開された新しいシステムについて述べる。
ユーザは分析のためにビデオを提出し、最も可能性の高い5つのサインマッチが提示される。
このビデオ検索は、ASLビデオデータの言語アノテーションを容易にするために、最新のSignStreamソフトウェアに統合されています。
論文 参考訳(メタデータ) (2024-07-18T15:14:35Z) - SignCLIP: Connecting Text and Sign Language by Contrastive Learning [39.72545568965546]
SignCLIPは、大規模な多言語ビデオテキストペアから手話処理に有用な視覚表現を学習する効率的な方法である。
SpreadthesignでSignCLIPを事前訓練し,最大44の手話で5万本のビデオクリップを収録した手話辞書を作成した。
我々は、音声言語テキストと手話ポーズによって形成される潜伏空間を分析し、さらなる言語学的洞察を提供する。
論文 参考訳(メタデータ) (2024-07-01T13:17:35Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - Sign Language Video Retrieval with Free-Form Textual Queries [19.29003565494735]
本稿では,自由形式のテキストクエリを用いた手話検索の課題について紹介する。
目的は、書かれたクエリに最もよくマッチする、コレクション内の署名ビデオを見つけることである。
本研究では,SPOT-ALIGNを提案する。SPOT-ALIGNは,利用可能なトレーニングデータの範囲と規模を拡大するために,符号スポッティングと特徴アライメントの反復ラウンドをインターリーブするフレームワークである。
論文 参考訳(メタデータ) (2022-01-07T15:22:18Z) - Aligning Subtitles in Sign Language Videos [80.20961722170655]
17.7時間に及ぶビデオの字幕15k以上の注釈付きアライメントを手作業でトレーニングした。
我々は,この2つの信号を符号化するために,BERT字幕埋め込みとCNNビデオ表現を用いた。
本モデルでは,ビデオフレームごとのフレームレベルの予測,すなわちクェリされたサブタイトルに属するか否かを出力する。
論文 参考訳(メタデータ) (2021-05-06T17:59:36Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。