論文の概要: Szloca: towards a framework for full 3D tracking through a single camera
in context of interactive arts
- arxiv url: http://arxiv.org/abs/2206.12958v1
- Date: Sun, 26 Jun 2022 20:09:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 17:22:20.382638
- Title: Szloca: towards a framework for full 3D tracking through a single camera
in context of interactive arts
- Title(参考訳): szloca: インタラクティブアーツの文脈における1台のカメラによるフル3dトラッキングフレームワークに向けて
- Authors: Sahaj Garg
- Abstract要約: 本研究は、オブジェクト/人のデータと仮想表現を得るための新しい方法と枠組みを提案する。
このモデルはコンピュータビジョンシステムの複雑な訓練には依存せず、コンピュータビジョンの研究とz深度を表現する能力が組み合わさっている。
- 参考スコア(独自算出の注目度): 1.0878040851638
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Realtime virtual data of objects and human presence in a large area holds a
valuable key in enabling many experiences and applications in various
industries and with exponential rise in the technological development of
artificial intelligence, computer vision has expanded the possibilities of
tracking and classifying things through just video inputs, which is also
surpassing the limitations of most popular and common hardware setups known
traditionally to detect human pose and position, such as low field of view and
limited tracking capacity. The benefits of using computer vision in application
development is large as it augments traditional input sources (like video
streams) and can be integrated in many environments and platforms. In the
context of new media interactive arts, based on physical movements and
expanding over large areas or gallaries, this research presents a novel way and
a framework towards obtaining data and virtual representation of objects/people
- such as three-dimensional positions, skeltons/pose and masks from a single
rgb camera. Looking at the state of art through some recent developments and
building on prior research in the field of computer vision, the paper also
proposes an original method to obtain three dimensional position data from
monocular images, the model does not rely on complex training of computer
vision systems but combines prior computer vision research and adds a capacity
to represent z depth, ieto represent a world position in 3 axis from a 2d input
source.
- Abstract(参考訳): Realtime virtual data of objects and human presence in a large area holds a valuable key in enabling many experiences and applications in various industries and with exponential rise in the technological development of artificial intelligence, computer vision has expanded the possibilities of tracking and classifying things through just video inputs, which is also surpassing the limitations of most popular and common hardware setups known traditionally to detect human pose and position, such as low field of view and limited tracking capacity.
アプリケーション開発にコンピュータビジョンを使用することの利点は、従来の入力ソース(ビデオストリームなど)を拡張し、多くの環境やプラットフォームに統合できるため大きい。
新しいメディアインタラクティブアーツの文脈では、物理的な動きに基づいて、広い領域やギャラリーにまたがって拡大し、単一のrgbカメラから3次元の位置、スケルトン/ポス、マスクなど、オブジェクト/人のデータと仮想表現を得るための新しい方法と枠組みを提案する。
近年のコンピュータビジョンの分野における先行研究の成果を概観し、モノキュラー画像から3次元の位置データを得るための原型手法を提案する。このモデルはコンピュータビジョンシステムの複雑なトレーニングに頼らず、先行コンピュータビジョン研究とz深度を表す能力を加えることで、2次元入力源から世界の位置を3軸で表現できる。
関連論文リスト
- VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding [47.58359136198136]
VisionGPT-3Dはマルチモーダル基盤モデルの強みを基盤として多目的なマルチモーダルフレームワークを提供する。
様々なSOTAビジョンモデルをシームレスに統合し、SOTAビジョンモデルの選択に自動化をもたらす。
2次元深度マップ解析に対応する適切な3次元メッシュ生成アルゴリズムを特定し、多様なマルチモーダル入力に基づいて最適な結果を生成する。
論文 参考訳(メタデータ) (2024-03-14T16:13:00Z) - EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards
Embodied AI [88.03089807278188]
EmbodiedScanはマルチモーダルでエゴ中心の3D知覚データセットであり、総合的な3Dシーン理解のためのベンチマークである。
1Mのエゴ中心のRGB-Dビューをカプセル化した5kスキャン、1Mの言語プロンプト、760以上のカテゴリにまたがる160kの3D指向ボックスを含んでいる。
このデータベースに基づいて、Embodied Perceptronというベースラインフレームワークを導入します。
任意の数のマルチモーダル入力を処理でき、顕著な3D知覚能力を示す。
論文 参考訳(メタデータ) (2023-12-26T18:59:11Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - State of the Art in Dense Monocular Non-Rigid 3D Reconstruction [100.9586977875698]
モノクル2D画像から変形可能なシーン(または非剛体)の3D再構成は、コンピュータビジョンとグラフィックスの長年、活発に研究されてきた領域である。
本研究は,モノクラー映像やモノクラービューの集合から,様々な変形可能な物体や複合シーンを高密度に非剛性で再現するための最先端の手法に焦点を当てる。
論文 参考訳(メタデータ) (2022-10-27T17:59:53Z) - A Review of Deep Learning Techniques for Markerless Human Motion on
Synthetic Datasets [0.0]
近年,人間の姿勢推定がコンピュータビジョンコミュニティで注目を集めている。
2次元画像のみに基づくアニメーションの骨格を予測できるモデルを提案する。
実装プロセスは、独自のデータセットにDeepLabCutを使用して、多くの必要なステップを実行する。
論文 参考訳(メタデータ) (2022-01-07T15:42:50Z) - 3D shape sensing and deep learning-based segmentation of strawberries [5.634825161148484]
農業における形状の3次元認識のためのステレオおよび飛行時間カメラを含む最新のセンシング技術を評価する。
本稿では,カメラベースの3Dセンサから得られる情報の組織的性質を利用した,新しい3Dディープニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-11-26T18:43:10Z) - KITTI-360: A Novel Dataset and Benchmarks for Urban Scene Understanding
in 2D and 3D [67.50776195828242]
KITTI-360は、よりリッチな入力モダリティ、包括的なセマンティックインスタンスアノテーション、正確なローカライゼーションを含む郊外の運転データセットである。
その結果,150k以上のセマンティクスとインスタンスのアノテート画像と1Bのアノテート3Dポイントが得られた。
我々は、同じデータセット上のコンピュータビジョン、グラフィックス、ロボット工学の問題を含む、モバイル知覚に関連するいくつかのタスクのベンチマークとベースラインを構築した。
論文 参考訳(メタデータ) (2021-09-28T00:41:29Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - SAILenv: Learning in Virtual Visual Environments Made Simple [16.979621213790015]
仮想3Dシーンで視覚認識を実験できる新しいプラットフォームを提案する。
すべてのアルゴリズムを仮想世界とインターフェースするためには数行のコードが必要であり、非3Dグラフィックの専門家は容易に3D環境自体をカスタマイズできる。
我々のフレームワークはピクセルレベルのセマンティクスとインスタンスのラベル付け、深さ、そして私たちの知る限り、それは3Dエンジンから直接受け継がれるモーション関連情報を提供する唯一のものである。
論文 参考訳(メタデータ) (2020-07-16T09:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。