論文の概要: Finger in Camera Speaks Everything: Unconstrained Air-Writing for Real-World
- arxiv url: http://arxiv.org/abs/2412.19537v1
- Date: Fri, 27 Dec 2024 09:04:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:25:06.526667
- Title: Finger in Camera Speaks Everything: Unconstrained Air-Writing for Real-World
- Title(参考訳): カメラの指が全てを語る: リアルワールドのための非拘束のエアライト
- Authors: Meiqi Wu, Kaiqi Huang, Yuanqiang Cai, Shiyu Hu, Yuzhong Zhao, Weiqiang Wang,
- Abstract要約: AWCV-100K-UCAS2024における画期的な漢字ビデオデータセット(AWCV-100K-UCAS2024)について述べる。
このデータセットは、一般的にアクセス可能なRGBカメラを使用して、さまざまな実世界のシナリオで手書きの軌跡をキャプチャする。
ビデオベース文字認識器VCRecについても紹介する。
- 参考スコア(独自算出の注目度): 45.972735599458446
- License:
- Abstract: Air-writing is a challenging task that combines the fields of computer vision and natural language processing, offering an intuitive and natural approach for human-computer interaction. However, current air-writing solutions face two primary challenges: (1) their dependency on complex sensors (e.g., Radar, EEGs and others) for capturing precise handwritten trajectories, and (2) the absence of a video-based air-writing dataset that covers a comprehensive vocabulary range. These limitations impede their practicality in various real-world scenarios, including the use on devices like iPhones and laptops. To tackle these challenges, we present the groundbreaking air-writing Chinese character video dataset (AWCV-100K-UCAS2024), serving as a pioneering benchmark for video-based air-writing. This dataset captures handwritten trajectories in various real-world scenarios using commonly accessible RGB cameras, eliminating the need for complex sensors. AWCV-100K-UCAS2024 includes 8.8 million video frames, encompassing the complete set of 3,755 characters from the GB2312-80 level-1 set (GB1). Furthermore, we introduce our baseline approach, the video-based character recognizer (VCRec). VCRec adeptly extracts fingertip features from sparse visual cues and employs a spatio-temporal sequence module for analysis. Experimental results showcase the superior performance of VCRec compared to existing models in recognizing air-written characters, both quantitatively and qualitatively. This breakthrough paves the way for enhanced human-computer interaction in real-world contexts. Moreover, our approach leverages affordable RGB cameras, enabling its applicability in a diverse range of scenarios. The code and data examples will be made public at https://github.com/wmeiqi/AWCV.
- Abstract(参考訳): エアライティングはコンピュータビジョンと自然言語処理の分野を組み合わせた困難なタスクであり、人間とコンピュータのインタラクションに対して直感的で自然なアプローチを提供する。
しかし,現在のエアライティング・ソリューションは,(1)複雑なセンサ(Radar,EEGなど)に依存して手書きの正確な軌跡を捉えること,(2)包括的語彙範囲をカバーするビデオベースのエアライティング・データセットが存在しないこと,の2つの課題に直面している。
これらの制限は、iPhoneやラップトップなどのデバイスでの使用など、さまざまな現実シナリオにおける実用性を妨げている。
これらの課題に対処するため,本研究では,画期的な漢字映像データセット (AWCV-100K-UCAS2024) を提示し,映像ベースエアライティングの先駆的ベンチマークとして機能する。
このデータセットは、一般的にアクセス可能なRGBカメラを使用して、さまざまな実世界のシナリオで手書きの軌跡をキャプチャし、複雑なセンサーを必要としない。
AWCV-100K-UCAS2024は880万の動画フレームを含み、GB2312-80レベル-1セット(GB1)から3,755文字の完全なセットを含んでいる。
さらに,ビデオベースキャラクタ認識器(VCRec)についても紹介する。
VCRecは、スパース視覚的手がかりから指先の特徴を積極的に抽出し、分析に時空間配列モジュールを使用する。
実験結果から,空気文字認識における既存のモデルと比較して,VCRecの性能は,定量的にも定性的にも優れていた。
このブレークスルーによって、現実世界のコンテキストにおける人間とコンピュータの相互作用が強化される。
さらに,提案手法は安価なRGBカメラを活用し,様々なシナリオに適用可能である。
コードとデータの例はhttps://github.com/wmeiqi/AWCVで公開されます。
関連論文リスト
- Event Stream based Human Action Recognition: A High-Definition Benchmark Dataset and Algorithms [29.577583619354314]
本稿では,CeleX-Vイベントカメラを用いた大規模かつ高精細度(1280×800ドル)の人間行動認識データセットを提案する。
より包括的なベンチマークデータセットを構築するために、今後比較する作業のために、20以上の主流なHARモデルを報告します。
論文 参考訳(メタデータ) (2024-08-19T07:52:20Z) - Open-World Human-Object Interaction Detection via Multi-modal Prompts [26.355054079885463]
MP-HOIは多モードのPromptベースの強力なHOI検出器であり、オープンセットの一般化のためのテキスト記述と、説明の曖昧さを扱う視覚的見本の両方を活用するように設計されている。
MP-HOIは一般のHOI検出器として機能し、既存の専門家モデルのHOI語彙を30倍以上上回った。
論文 参考訳(メタデータ) (2024-06-11T13:01:45Z) - RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [69.23782518456932]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。
一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。
そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - Multimodal Group Emotion Recognition In-the-wild Using Privacy-Compliant
Features [0.0]
グループレベルの感情認識は、社会ロボティクス、会話エージェント、e-coaching、学習分析など、多くの分野で有用である。
本稿では,EmotiW Challenge 2023の中で,プライバシに適合したグループレベルの感情認識について検討する。
論文 参考訳(メタデータ) (2023-12-06T08:58:11Z) - Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - To show or not to show: Redacting sensitive text from videos of
electronic displays [4.621328863799446]
我々は,光学文字認識 (OCR) と自然言語処理 (NLP) を組み合わせて,ビデオから個人識別可能なテキストを再生成する手法を定義する。
具体的には,Google Cloud Vision (GCV) の Tesseract と OCR システムを,異なる OCR モデルで使用する場合の,このアプローチの相対的性能について検討する。
論文 参考訳(メタデータ) (2022-08-19T07:53:04Z) - SAIC_Cambridge-HuPBA-FBK Submission to the EPIC-Kitchens-100 Action
Recognition Challenge 2021 [80.05652375838073]
本報告では,EPIC-Kitchens-100 Action Recognition Challenge 2021への提出の技術的詳細について述べる。
我々の提出は、公共のリーダーボードで見ることができ、RGBのみを使用して、44.82%のトップ1の行動認識精度を達成した。
論文 参考訳(メタデータ) (2021-10-06T16:29:47Z) - Writing in The Air: Unconstrained Text Recognition from Finger Movement
Using Spatio-Temporal Convolution [3.3502165500990824]
本論文では,WiTA(Entering writing in the Air)タスクに対する新たなベンチマークデータセットについて紹介する。
WiTAは、人間とコンピュータの相互作用のための指の動きと直感的で自然な書き込み方法を実装します。
私たちのデータセットは、2つの言語(韓国語と英語)の5つのサブデータセットで構成され、122の参加者から209,926インスタンスに相当します。
論文 参考訳(メタデータ) (2021-04-19T02:37:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。