論文の概要: SLVideo: A Sign Language Video Moment Retrieval Framework
- arxiv url: http://arxiv.org/abs/2407.15668v2
- Date: Tue, 5 Nov 2024 18:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 15:45:25.688070
- Title: SLVideo: A Sign Language Video Moment Retrieval Framework
- Title(参考訳): SLVideo: 手話ビデオ検索フレームワーク
- Authors: Gonçalo Vinagre Martins, João Magalhães, Afonso Quinaz, Carla Viegas, Sofia Cavaco,
- Abstract要約: SLVideoは手話ビデオのためのビデオモーメント検索システムである。
ビデオフレームから手と顔のサインの埋め込み表現を抽出し、その全体像をキャプチャする。
データセットには、注釈付きポルトガル手話ビデオの8時間のコレクションが使用されている。
- 参考スコア(独自算出の注目度): 6.782143030167946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: SLVideo is a video moment retrieval system for Sign Language videos that incorporates facial expressions, addressing this gap in existing technology. The system extracts embedding representations for the hand and face signs from video frames to capture the signs in their entirety, enabling users to search for a specific sign language video segment with text queries. A collection of eight hours of annotated Portuguese Sign Language videos is used as the dataset, and a CLIP model is used to generate the embeddings. The initial results are promising in a zero-shot setting. In addition, SLVideo incorporates a thesaurus that enables users to search for similar signs to those retrieved, using the video segment embeddings, and also supports the edition and creation of video sign language annotations. Project web page: https://novasearch.github.io/SLVideo/
- Abstract(参考訳): SLVideoは手話ビデオのためのビデオモーメント検索システムで、表情を取り入れ、既存の技術のギャップに対処する。
このシステムは、ビデオフレームから手と顔のサインの埋め込み表現を抽出して、そのサイン全体をキャプチャし、ユーザがテキストクエリで特定の手話ビデオセグメントを検索できるようにする。
データセットには8時間の注釈付きポルトガル語手話ビデオのコレクションが使用され、埋め込みを生成するためにCLIPモデルが使用される。
最初の結果はゼロショット設定で期待できる。
さらにSLVideoにはシソーラスが組み込まれており、ビデオセグメントの埋め込みを使用して、ユーザーが検索したものと類似したサインを検索し、ビデオサイン言語アノテーションのエディションと作成をサポートする。
プロジェクトWebページ: https://novasearch.github.io/SLVideo/
関連論文リスト
- New Capability to Look Up an ASL Sign from a Video Example [4.992008196032313]
ASL符号のビデオの検索を可能にするために,Web上で公開された新しいシステムについて述べる。
ユーザは分析のためにビデオを提出し、最も可能性の高い5つのサインマッチが提示される。
このビデオ検索は、ASLビデオデータの言語アノテーションを容易にするために、最新のSignStreamソフトウェアに統合されています。
論文 参考訳(メタデータ) (2024-07-18T15:14:35Z) - SignCLIP: Connecting Text and Sign Language by Contrastive Learning [39.72545568965546]
SignCLIPは、大規模な多言語ビデオテキストペアから手話処理に有用な視覚表現を学習する効率的な方法である。
SpreadthesignでSignCLIPを事前訓練し,最大44の手話で5万本のビデオクリップを収録した手話辞書を作成した。
我々は、音声言語テキストと手話ポーズによって形成される潜伏空間を分析し、さらなる言語学的洞察を提供する。
論文 参考訳(メタデータ) (2024-07-01T13:17:35Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - Sign Language Video Retrieval with Free-Form Textual Queries [19.29003565494735]
本稿では,自由形式のテキストクエリを用いた手話検索の課題について紹介する。
目的は、書かれたクエリに最もよくマッチする、コレクション内の署名ビデオを見つけることである。
本研究では,SPOT-ALIGNを提案する。SPOT-ALIGNは,利用可能なトレーニングデータの範囲と規模を拡大するために,符号スポッティングと特徴アライメントの反復ラウンドをインターリーブするフレームワークである。
論文 参考訳(メタデータ) (2022-01-07T15:22:18Z) - Aligning Subtitles in Sign Language Videos [80.20961722170655]
17.7時間に及ぶビデオの字幕15k以上の注釈付きアライメントを手作業でトレーニングした。
我々は,この2つの信号を符号化するために,BERT字幕埋め込みとCNNビデオ表現を用いた。
本モデルでは,ビデオフレームごとのフレームレベルの予測,すなわちクェリされたサブタイトルに属するか否かを出力する。
論文 参考訳(メタデータ) (2021-05-06T17:59:36Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。