論文の概要: Efficient Pipelines for Vision-Based Context Sensing
- arxiv url: http://arxiv.org/abs/2011.00427v1
- Date: Sun, 1 Nov 2020 05:09:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 00:03:09.212672
- Title: Efficient Pipelines for Vision-Based Context Sensing
- Title(参考訳): 視覚に基づくコンテキストセンシングのための効率的なパイプライン
- Authors: Xiaochen Liu
- Abstract要約: 世界中の視界源が出現しており、カメラは道路、社内、モバイルプラットフォームに設置できる。
しかし、ビジョンデータ収集と分析は今でも非常に手作業で行われている。
今日の視覚ベースのコンテキストセンシングシステムには3つの大きな課題がある。
- 参考スコア(独自算出の注目度): 0.24366811507669117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context awareness is an essential part of mobile and ubiquitous computing.
Its goal is to unveil situational information about mobile users like locations
and activities. The sensed context can enable many services like navigation,
AR, and smarting shopping. Such context can be sensed in different ways
including visual sensors. There is an emergence of vision sources deployed
worldwide. The cameras could be installed on roadside, in-house, and on mobile
platforms. This trend provides huge amount of vision data that could be used
for context sensing. However, the vision data collection and analytics are
still highly manual today. It is hard to deploy cameras at large scale for data
collection. Organizing and labeling context from the data are also labor
intensive. In recent years, advanced vision algorithms and deep neural networks
are used to help analyze vision data. But this approach is limited by data
quality, labeling effort, and dependency on hardware resources. In summary,
there are three major challenges for today's vision-based context sensing
systems: data collection and labeling at large scale, process large data
volumes efficiently with limited hardware resources, and extract accurate
context out of vision data. The thesis explores the design space that consists
of three dimensions: sensing task, sensor types, and task locations. Our prior
work explores several points in this design space. We make contributions by (1)
developing efficient and scalable solutions for different points in the design
space of vision-based sensing tasks; (2) achieving state-of-the-art accuracy in
those applications; (3) and developing guidelines for designing such sensing
systems.
- Abstract(参考訳): コンテキスト認識は、モバイルおよびユビキタスコンピューティングの重要な部分である。
その目標は、位置情報やアクティビティなどのモバイルユーザに関する状況情報を公開することだ。
sensed contextはナビゲーション、ar、スマートショッピングといった多くのサービスを可能にする。
このようなコンテキストは視覚センサーを含む様々な方法で認識することができる。
世界中に展開するビジョンソースが出現している。
カメラは道路、社内、およびモバイルプラットフォームに設置できる。
この傾向は、コンテキストセンシングに使用できる膨大な量の視覚データを提供する。
しかし、ビジョンデータ収集と分析は今でも非常に手作業で行われている。
データ収集には大規模なカメラの配備が困難である。
データからのコンテキストの整理とラベリングも、労働集約的です。
近年では、高度な視覚アルゴリズムとディープニューラルネットワークが視覚データの解析に利用されている。
しかし、このアプローチはデータ品質、ラベル付けの労力、ハードウェアリソースへの依存によって制限される。
要約すると、今日のビジョンベースのコンテキストセンシングシステムには、データ収集と大規模ラベリング、限られたハードウェアリソースで大規模なデータボリュームを効率的に処理し、ビジョンデータから正確なコンテキストを抽出するという3つの大きな課題がある。
この論文は、センシングタスク、センサタイプ、タスクロケーションという3つの次元からなるデザイン空間を探求している。
私たちの以前の仕事は、このデザインスペースのいくつかのポイントを探求しています。
我々は,(1)視覚に基づくセンシングタスクの設計空間における様々な点に対する効率的かつスケーラブルなソリューションの開発,(2)これらのアプリケーションにおける最先端の精度の実現,(3)そのようなセンシングシステムを設計するためのガイドラインの開発によって貢献する。
関連論文リスト
- InScope: A New Real-world 3D Infrastructure-side Collaborative Perception Dataset for Open Traffic Scenarios [13.821143687548494]
本稿では,新しい3次元インフラ側協調認識データセットについて紹介する。
InScopeは303の追跡軌道と187,787個の3D境界ボックスで20日間の捕獲期間をカプセル化している。
論文 参考訳(メタデータ) (2024-07-31T13:11:14Z) - VisionKG: Unleashing the Power of Visual Datasets via Knowledge Graph [2.3143591448419074]
Vision Knowledge Graph (VisionKG)は、知識グラフとセマンティックWeb技術を介して視覚データセットを相互にリンクし、整理し、管理する新しいリソースである。
VisionKGには現在5億1900万のRDFトリプルがあり、約4000万のエンティティを記述している。
論文 参考訳(メタデータ) (2023-09-24T11:19:13Z) - Vision-Based Environmental Perception for Autonomous Driving [4.138893879750758]
視覚認知は自律運転において重要な役割を果たす。
近年のディープラーニング手法の開発は信頼性と処理速度が向上している。
単眼カメラは、物体の深度を推定するために、単一の視点からの画像データを使用する。
同時位置情報マッピング(SLAM)は、道路環境のモデルを構築することができる。
論文 参考訳(メタデータ) (2022-12-22T01:59:58Z) - CXTrack: Improving 3D Point Cloud Tracking with Contextual Information [59.55870742072618]
3Dオブジェクトトラッキングは、自律運転など、多くのアプリケーションにおいて重要な役割を果たす。
CXTrackは3次元オブジェクト追跡のためのトランスフォーマーベースのネットワークである。
CXTrackは29FPSで動作しながら最先端のトラッキング性能を実現する。
論文 参考訳(メタデータ) (2022-11-12T11:29:01Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Deep Depth Completion: A Survey [26.09557446012222]
我々は、読者が研究動向をよりよく把握し、現在の進歩を明確に理解するのに役立つ総合的な文献レビューを提供する。
ネットワークアーキテクチャ,損失関数,ベンチマークデータセット,学習戦略の設計面から,関連する研究について検討する。
室内および屋外のデータセットを含む,広く使用されている2つのベンチマークデータセットに対して,モデル性能の定量的比較を行った。
論文 参考訳(メタデータ) (2022-05-11T08:24:00Z) - KITTI-360: A Novel Dataset and Benchmarks for Urban Scene Understanding
in 2D and 3D [67.50776195828242]
KITTI-360は、よりリッチな入力モダリティ、包括的なセマンティックインスタンスアノテーション、正確なローカライゼーションを含む郊外の運転データセットである。
その結果,150k以上のセマンティクスとインスタンスのアノテート画像と1Bのアノテート3Dポイントが得られた。
我々は、同じデータセット上のコンピュータビジョン、グラフィックス、ロボット工学の問題を含む、モバイル知覚に関連するいくつかのタスクのベンチマークとベースラインを構築した。
論文 参考訳(メタデータ) (2021-09-28T00:41:29Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - Urban Sensing based on Mobile Phone Data: Approaches, Applications and
Challenges [67.71975391801257]
モバイルデータ分析における多くの関心は、人間とその行動に関連している。
本研究の目的は,携帯電話データから知識を発見するために実装された手法や手法をレビューすることである。
論文 参考訳(メタデータ) (2020-08-29T15:14:03Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。