論文の概要: MotionInput v2.0 supporting DirectX: A modular library of open-source
gesture-based machine learning and computer vision methods for interacting
and controlling existing software with a webcam
- arxiv url: http://arxiv.org/abs/2108.04357v1
- Date: Tue, 10 Aug 2021 08:23:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 21:44:20.453028
- Title: MotionInput v2.0 supporting DirectX: A modular library of open-source
gesture-based machine learning and computer vision methods for interacting
and controlling existing software with a webcam
- Title(参考訳): MotionInput v2.0 Support DirectX: 既存のソフトウェアをWebカメラで操作・制御するためのオープンソースのジェスチャーベースの機械学習とコンピュータビジョンのモジュールライブラリ
- Authors: Ashild Kummen, Guanlin Li, Ali Hassan, Teodora Ganeva, Qianying Lu,
Robert Shaw, Chenuka Ratwatte, Yang Zou, Lu Han, Emil Almazov, Sheena Visram,
Andrew Taylor, Neil J Sebire, Lee Stott, Yvonne Rogers, Graham Roberts, Dean
Mohamedally
- Abstract要約: MotionInput v2.0は、既存のアプリケーションやゲームの入力操作に人間の動きのジェスチャーをマッピングする。
3つのユースケース領域は、創造性ソフトウェア、オフィスおよび臨床ソフトウェア、ゲームソフトウェアというモジュールの開発を支援した。
- 参考スコア(独自算出の注目度): 11.120698968989108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Touchless computer interaction has become an important consideration during
the COVID-19 pandemic period. Despite progress in machine learning and computer
vision that allows for advanced gesture recognition, an integrated collection
of such open-source methods and a user-customisable approach to utilising them
in a low-cost solution for touchless interaction in existing software is still
missing. In this paper, we introduce the MotionInput v2.0 application. This
application utilises published open-source libraries and additional gesture
definitions developed to take the video stream from a standard RGB webcam as
input. It then maps human motion gestures to input operations for existing
applications and games. The user can choose their own preferred way of
interacting from a series of motion types, including single and bi-modal hand
gesturing, full-body repetitive or extremities-based exercises, head and facial
movements, eye tracking, and combinations of the above. We also introduce a
series of bespoke gesture recognition classifications as DirectInput triggers,
including gestures for idle states, auto calibration, depth capture from a 2D
RGB webcam stream and tracking of facial motions such as mouth motions,
winking, and head direction with rotation. Three use case areas assisted the
development of the modules: creativity software, office and clinical software,
and gaming software. A collection of open-source libraries has been integrated
and provide a layer of modular gesture mapping on top of existing mouse and
keyboard controls in Windows via DirectX. With ease of access to webcams
integrated into most laptops and desktop computers, touchless computing becomes
more available with MotionInput v2.0, in a federated and locally processed
method.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)のパンデミック期には、タッチレスコンピューターの相互作用が重要視されている。
高度なジェスチャー認識を可能にする機械学習とコンピュータビジョンの進歩にもかかわらず、そのようなオープンソースメソッドの統合コレクションと、既存のソフトウェアにおけるタッチレスインタラクションのための低コストソリューションでそれらを利用するユーザフレンドリなアプローチは、まだ欠落している。
本稿では motioninput v2.0 アプリケーションについて述べる。
このアプリケーションは、標準のRGBウェブカメラからビデオストリームを入力として取り出すために、公開されたオープンソースライブラリと追加のジェスチャー定義を利用する。
そして人間の動きのジェスチャーを、既存のアプリケーションやゲームの入力操作にマップする。
ユーザーは、単独およびバイモーダルハンドジェスチャー、全身反復または四肢に基づくエクササイズ、頭と顔の動き、目の動き、およびそれらの組み合わせを含む一連のモーションタイプから、自分の好みのインタラクション方法を選択することができる。
また,アイドル状態のジェスチャ,自動キャリブレーション,2d rgb webcamストリームからの奥行きキャプチャ,口の動き,ウィンキング,回転による頭部方向などの顔の動きの追跡など,直接入力トリガーとして,多彩なジェスチャ認識の分類も導入する。
3つのユースケース領域はモジュールの開発を支援した:創造性ソフトウェア、オフィスおよび臨床ソフトウェア、ゲームソフトウェア。
オープンソースのライブラリのコレクションが統合され、DirectXを介してWindowsの既存のマウスとキーボードコントロールの上にモジュラーなジェスチャーマッピング層を提供する。
多くのラップトップやデスクトップコンピュータに統合されたウェブカメラへのアクセスが容易になるにつれ、タッチレスコンピューティングはMotionInput v2.0でより利用できるようになる。
関連論文リスト
- Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models [19.09048969615117]
MLLMをベースとしたユーザ制御信号として自然言語命令を用いたオープンなヒューマンモーション合成について検討する。
本手法は,多くの下流タスクにおいて,一般的な人間の動作合成を実現することができる。
論文 参考訳(メタデータ) (2024-06-15T21:10:37Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - GestureGPT: Toward Zero-Shot Free-Form Hand Gesture Understanding with Large Language Model Agents [35.48323584634582]
本稿では,人間のジェスチャー理解を模倣する自由形式の手ジェスチャー理解フレームワークであるGestureGPTを紹介する。
我々のフレームワークは、複数の大規模言語モデルエージェントを利用してジェスチャーや文脈情報を管理し、合成する。
私たちは、スマートホームコントロールとオンラインビデオストリーミングという2つの現実シナリオの下で、私たちのフレームワークをオフラインで検証しました。
論文 参考訳(メタデータ) (2023-10-19T15:17:34Z) - The Gesture Authoring Space: Authoring Customised Hand Gestures for
Grasping Virtual Objects in Immersive Virtual Environments [81.5101473684021]
本研究は、仮想オブジェクトを現実世界のようにつかむことができる、オブジェクト固有のグリップジェスチャーのためのハンドジェスチャーオーサリングツールを提案する。
提示されたソリューションは、ジェスチャー認識にテンプレートマッチングを使用し、カスタムのカスタマイズされた手の動きを設計および作成するために技術的な知識を必要としない。
本研究は,提案手法を用いて作成したジェスチャーが,ユーザによって他のユーザよりも自然な入力モダリティとして認識されていることを示した。
論文 参考訳(メタデータ) (2022-07-03T18:33:33Z) - Muscle Vision: Real Time Keypoint Based Pose Classification of Physical
Exercises [52.77024349608834]
ビデオから外挿された3D人間のポーズ認識は、リアルタイムソフトウェアアプリケーションを可能にするまで進歩した。
本稿では,ライブビデオフィード上で人間のポーズ認識を行う新しい機械学習パイプラインとWebインターフェースを提案する。
論文 参考訳(メタデータ) (2022-03-23T00:55:07Z) - Click to Move: Controlling Video Generation with Sparse Motion [30.437648200928603]
Click to Move (C2M)は、ユーザーがマウスクリックで合成ビデオの動きを制御できるビデオ生成の新しいフレームワークである。
本モデルでは,初期フレーム,対応するセグメンテーションマップ,ユーザが提供する入力を符号化するスパース動作ベクトルを入力として受信する。
与えられたフレームから始まり、ユーザ入力と整合したモーションで、もっともらしいビデオシーケンスを出力する。
論文 参考訳(メタデータ) (2021-08-19T17:33:13Z) - SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild [62.450907796261646]
手のジェスチャーの認識は、ソフトウェアによって推定される手の骨格のストリームから直接行うことができる。
最近のスケルトンからのジェスチャーや行動認識の進歩にもかかわらず、現在の最先端技術が現実のシナリオでどの程度うまく機能するかは明らかではない。
本稿では,SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild contestについて述べる。
論文 参考訳(メタデータ) (2021-06-21T10:57:49Z) - Unmasking Communication Partners: A Low-Cost AI Solution for Digitally
Removing Head-Mounted Displays in VR-Based Telepresence [62.997667081978825]
バーチャルリアリティ(VR)における対面会話は、被験者がヘッドマウントディスプレイ(HMD)を装着する際の課題である
過去の研究では、高コストハードウェアを用いた実験室環境では、VRで個人用アバターを用いた高忠実な顔再構成が可能であることが示されている。
我々は,オープンソース,フリーソフトウェア,安価なハードウェアのみを利用する,このタスクのための最初の低コストシステムを提案する。
論文 参考訳(メタデータ) (2020-11-06T23:17:12Z) - Gestop : Customizable Gesture Control of Computer Systems [0.3553493344868413]
Gestopはデモからジェスチャーを検出することを学習するフレームワークで、エンドユーザがカスタマイズできる。
ユーザはジェスチャーを使って、RGBのカメラしか持たないコンピュータとリアルタイムで対話できる。
論文 参考訳(メタデータ) (2020-10-25T19:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。