Fugu-MT 論文翻訳(概要): MotionInput v2.0 supporting DirectX: A modular library of open-source gesture-based machine learning and computer vision methods for interacting and controlling existing software with a webcam

論文の概要: MotionInput v2.0 supporting DirectX: A modular library of open-source gesture-based machine learning and computer vision methods for interacting and controlling existing software with a webcam

arxiv url: http://arxiv.org/abs/2108.04357v1
Date: Tue, 10 Aug 2021 08:23:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-11 21:44:20.453028
Title: MotionInput v2.0 supporting DirectX: A modular library of open-source gesture-based machine learning and computer vision methods for interacting and controlling existing software with a webcam
Title（参考訳）: MotionInput v2.0 Support DirectX: 既存のソフトウェアをWebカメラで操作・制御するためのオープンソースのジェスチャーベースの機械学習とコンピュータビジョンのモジュールライブラリ
Authors: Ashild Kummen, Guanlin Li, Ali Hassan, Teodora Ganeva, Qianying Lu, Robert Shaw, Chenuka Ratwatte, Yang Zou, Lu Han, Emil Almazov, Sheena Visram, Andrew Taylor, Neil J Sebire, Lee Stott, Yvonne Rogers, Graham Roberts, Dean Mohamedally
Abstract要約: MotionInput v2.0は、既存のアプリケーションやゲームの入力操作に人間の動きのジェスチャーをマッピングする。 3つのユースケース領域は、創造性ソフトウェア、オフィスおよび臨床ソフトウェア、ゲームソフトウェアというモジュールの開発を支援した。
参考スコア（独自算出の注目度）: 11.120698968989108
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Touchless computer interaction has become an important consideration during the COVID-19 pandemic period. Despite progress in machine learning and computer vision that allows for advanced gesture recognition, an integrated collection of such open-source methods and a user-customisable approach to utilising them in a low-cost solution for touchless interaction in existing software is still missing. In this paper, we introduce the MotionInput v2.0 application. This application utilises published open-source libraries and additional gesture definitions developed to take the video stream from a standard RGB webcam as input. It then maps human motion gestures to input operations for existing applications and games. The user can choose their own preferred way of interacting from a series of motion types, including single and bi-modal hand gesturing, full-body repetitive or extremities-based exercises, head and facial movements, eye tracking, and combinations of the above. We also introduce a series of bespoke gesture recognition classifications as DirectInput triggers, including gestures for idle states, auto calibration, depth capture from a 2D RGB webcam stream and tracking of facial motions such as mouth motions, winking, and head direction with rotation. Three use case areas assisted the development of the modules: creativity software, office and clinical software, and gaming software. A collection of open-source libraries has been integrated and provide a layer of modular gesture mapping on top of existing mouse and keyboard controls in Windows via DirectX. With ease of access to webcams integrated into most laptops and desktop computers, touchless computing becomes more available with MotionInput v2.0, in a federated and locally processed method.
Abstract（参考訳）: 新型コロナウイルス(COVID-19)のパンデミック期には、タッチレスコンピューターの相互作用が重要視されている。高度なジェスチャー認識を可能にする機械学習とコンピュータビジョンの進歩にもかかわらず、そのようなオープンソースメソッドの統合コレクションと、既存のソフトウェアにおけるタッチレスインタラクションのための低コストソリューションでそれらを利用するユーザフレンドリなアプローチは、まだ欠落している。本稿では motioninput v2.0 アプリケーションについて述べる。このアプリケーションは、標準のRGBウェブカメラからビデオストリームを入力として取り出すために、公開されたオープンソースライブラリと追加のジェスチャー定義を利用する。そして人間の動きのジェスチャーを、既存のアプリケーションやゲームの入力操作にマップする。ユーザーは、単独およびバイモーダルハンドジェスチャー、全身反復または四肢に基づくエクササイズ、頭と顔の動き、目の動き、およびそれらの組み合わせを含む一連のモーションタイプから、自分の好みのインタラクション方法を選択することができる。また,アイドル状態のジェスチャ,自動キャリブレーション,2d rgb webcamストリームからの奥行きキャプチャ,口の動き,ウィンキング,回転による頭部方向などの顔の動きの追跡など,直接入力トリガーとして,多彩なジェスチャ認識の分類も導入する。 3つのユースケース領域はモジュールの開発を支援した:創造性ソフトウェア、オフィスおよび臨床ソフトウェア、ゲームソフトウェア。オープンソースのライブラリのコレクションが統合され、DirectXを介してWindowsの既存のマウスとキーボードコントロールの上にモジュラーなジェスチャーマッピング層を提供する。多くのラップトップやデスクトップコンピュータに統合されたウェブカメラへのアクセスが容易になるにつれ、タッチレスコンピューティングはMotionInput v2.0でより利用できるようになる。

関連論文リスト

ATI: Any Trajectory Instruction for Controllable Video Generation [25.249489701215467]
本稿では、カメラの動き、オブジェクトレベルの翻訳、きめ細かい局所的な動きをシームレスに統合する、動画生成におけるモーション制御のための統一的なフレームワークを提案する。提案手法は,事前学習した画像-映像生成モデルの潜在空間にユーザ定義トラジェクトリを投影することにより,凝集性のある解を提供する。
論文参考訳（メタデータ） (2025-05-28T23:49:18Z)
Generating Physically Realistic and Directable Human Motions from Multi-Modal Inputs [16.41735119504929]
この研究は、望まれる動きを部分的にしか特定できないマルチモーダル入力から現実的で物理的に人間の行動を生成することに焦点を当てている。入力は、腕の動きと身体の速度、部分的なキーポイントアニメーション、ビデオに適用されたコンピュータビジョン、さらにはより高いレベルの運動目標を提供するVRコントローラから得られる。 Masked Humanoid Controller (MHC) は,多目的模倣学習を多目的マスク型動作実証に適用する新しい手法である。
論文参考訳（メタデータ） (2025-02-08T17:02:11Z)
MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation [65.74312406211213]
本稿では,映像生成の文脈で撮影映像を設計する手法を提案する。 I2V合成において,従来のコンピュータグラフィックスと現代映像生成技術からの洞察を結合することにより,3次元動作制御を実現する能力を示す。
論文参考訳（メタデータ） (2025-02-06T18:41:04Z)
Extraction Of Cumulative Blobs From Dynamic Gestures [0.0]
ジェスチャー認識は、コンピュータが人間の動きをコマンドとして解釈できるCV技術に基づいている。モーションキャプチャー用のカメラとして、簡単なナイトビジョンカメラが使用できる。カメラからのビデオストリームは、OpenCVモジュールを実行するPythonプログラムを備えたRaspberry Piに入力される。
論文参考訳（メタデータ） (2025-01-07T18:59:28Z)
Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes [90.39860012099393]
Sitcom-Crafterは3D空間における人間のモーション生成システムである。機能生成モジュールの中心は、我々の新しい3Dシーン対応ヒューマン・ヒューマン・インタラクションモジュールである。拡張モジュールは、コマンド生成のためのプロット理解、異なるモーションタイプのシームレスな統合のためのモーション同期を含む。
論文参考訳（メタデータ） (2024-10-14T17:56:19Z)
Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文参考訳（メタデータ） (2024-06-21T17:55:05Z)
FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models [19.09048969615117]
MLLMをベースとしたユーザ制御信号として自然言語命令を用いたオープンなヒューマンモーション合成について検討する。本手法は,多くの下流タスクにおいて,一般的な人間の動作合成を実現することができる。
論文参考訳（メタデータ） (2024-06-15T21:10:37Z)
Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。 SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文参考訳（メタデータ） (2024-03-15T10:36:24Z)
GestureGPT: Toward Zero-Shot Free-Form Hand Gesture Understanding with Large Language Model Agents [35.48323584634582]
本稿では,人間のジェスチャー理解を模倣する自由形式の手ジェスチャー理解フレームワークであるGestureGPTを紹介する。我々のフレームワークは、複数の大規模言語モデルエージェントを利用してジェスチャーや文脈情報を管理し、合成する。私たちは、スマートホームコントロールとオンラインビデオストリーミングという2つの現実シナリオの下で、私たちのフレームワークをオフラインで検証しました。
論文参考訳（メタデータ） (2023-10-19T15:17:34Z)
The Gesture Authoring Space: Authoring Customised Hand Gestures for Grasping Virtual Objects in Immersive Virtual Environments [81.5101473684021]
本研究は、仮想オブジェクトを現実世界のようにつかむことができる、オブジェクト固有のグリップジェスチャーのためのハンドジェスチャーオーサリングツールを提案する。提示されたソリューションは、ジェスチャー認識にテンプレートマッチングを使用し、カスタムのカスタマイズされた手の動きを設計および作成するために技術的な知識を必要としない。本研究は,提案手法を用いて作成したジェスチャーが,ユーザによって他のユーザよりも自然な入力モダリティとして認識されていることを示した。
論文参考訳（メタデータ） (2022-07-03T18:33:33Z)
Muscle Vision: Real Time Keypoint Based Pose Classification of Physical Exercises [52.77024349608834]
ビデオから外挿された3D人間のポーズ認識は、リアルタイムソフトウェアアプリケーションを可能にするまで進歩した。本稿では,ライブビデオフィード上で人間のポーズ認識を行う新しい機械学習パイプラインとWebインターフェースを提案する。
論文参考訳（メタデータ） (2022-03-23T00:55:07Z)
Click to Move: Controlling Video Generation with Sparse Motion [30.437648200928603]
Click to Move (C2M)は、ユーザーがマウスクリックで合成ビデオの動きを制御できるビデオ生成の新しいフレームワークである。本モデルでは,初期フレーム,対応するセグメンテーションマップ,ユーザが提供する入力を符号化するスパース動作ベクトルを入力として受信する。与えられたフレームから始まり、ユーザ入力と整合したモーションで、もっともらしいビデオシーケンスを出力する。
論文参考訳（メタデータ） (2021-08-19T17:33:13Z)
SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild [62.450907796261646]
手のジェスチャーの認識は、ソフトウェアによって推定される手の骨格のストリームから直接行うことができる。最近のスケルトンからのジェスチャーや行動認識の進歩にもかかわらず、現在の最先端技術が現実のシナリオでどの程度うまく機能するかは明らかではない。本稿では,SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild contestについて述べる。
論文参考訳（メタデータ） (2021-06-21T10:57:49Z)
Unmasking Communication Partners: A Low-Cost AI Solution for Digitally Removing Head-Mounted Displays in VR-Based Telepresence [62.997667081978825]
バーチャルリアリティ(VR)における対面会話は、被験者がヘッドマウントディスプレイ(HMD)を装着する際の課題である過去の研究では、高コストハードウェアを用いた実験室環境では、VRで個人用アバターを用いた高忠実な顔再構成が可能であることが示されている。我々は,オープンソース,フリーソフトウェア,安価なハードウェアのみを利用する,このタスクのための最初の低コストシステムを提案する。
論文参考訳（メタデータ） (2020-11-06T23:17:12Z)
Gestop : Customizable Gesture Control of Computer Systems [0.3553493344868413]
Gestopはデモからジェスチャーを検出することを学習するフレームワークで、エンドユーザがカスタマイズできる。ユーザはジェスチャーを使って、RGBのカメラしか持たないコンピュータとリアルタイムで対話できる。
論文参考訳（メタデータ） (2020-10-25T19:13:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。