論文の概要: Dynamic Object Comprehension: A Framework For Evaluating Artificial
Visual Perception
- arxiv url: http://arxiv.org/abs/2202.08490v1
- Date: Thu, 17 Feb 2022 07:49:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 14:29:39.579366
- Title: Dynamic Object Comprehension: A Framework For Evaluating Artificial
Visual Perception
- Title(参考訳): Dynamic Object Comprehension: 人工的な視覚知覚を評価するフレームワーク
- Authors: Scott Y.L. Chin, Bradley R. Quinton
- Abstract要約: AugmentedとMixed Realityは、おそらくモバイルインターネットの後継として浮上している。
これらのシステムの主要な要件の1つは、物理世界と仮想世界の間の連続性を作成する能力である。
現在の評価基準はこれらの応用には不十分である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Augmented and Mixed Reality are emerging as likely successors to the mobile
internet. However, many technical challenges remain. One of the key
requirements of these systems is the ability to create a continuity between
physical and virtual worlds, with the user's visual perception as the primary
interface medium. Building this continuity requires the system to develop a
visual understanding of the physical world. While there has been significant
recent progress in computer vision and AI techniques such as image
classification and object detection, success in these areas has not yet led to
the visual perception required for these critical MR and AR applications. A
significant issue is that current evaluation criteria are insufficient for
these applications. To motivate and evaluate progress in this emerging area,
there is a need for new metrics. In this paper we outline limitations of
current evaluation criteria and propose new criteria.
- Abstract(参考訳): AugmentedとMixed Realityは、おそらくモバイルインターネットの後継として浮上している。
しかし、多くの技術的課題が残っている。
これらのシステムの重要な要件の1つは、物理的な世界と仮想世界の間の連続性を作り出す能力であり、ユーザの視覚知覚が主要なインターフェイス媒体である。
この連続性を構築するには、物理的な世界を視覚的に理解する必要がある。
コンピュータビジョンや画像分類やオブジェクト検出などのai技術は近年大きく進歩しているが、これらの領域での成功は、これらの重要なmrやarアプリケーションに必要な視覚認識にはまだ繋がっていない。
重要な問題は、これらのアプリケーションに現在の評価基準が不十分であることだ。
この新興分野の進歩を動機づけ、評価するには、新しいメトリクスが必要である。
本稿では,現在の評価基準の限界を概説し,新しい基準を提案する。
関連論文リスト
- On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey [82.49623756124357]
ゼロショット画像認識(ZSIR)は、目に見えない領域の認識と推論をモデルに与えることを目的としている。
本稿では,近年の素子ワイドZSIRの進歩について概説する。
まず、オブジェクト認識、合成認識、基礎モデルに基づくオープンワールド認識という3つの基本的なZSIRタスクを、統一された要素的視点に統合する。
論文 参考訳(メタデータ) (2024-08-09T05:49:21Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - AAPMT: AGI Assessment Through Prompt and Metric Transformer [0.0]
本研究では,知覚品質,信頼度,テキストと画像の対応性などのパラメータに着目したモデルを開発する。
Metric Transformerは、様々なAGI品質指標間の複雑な関係にインスパイアされた、新しい構造である。
論文 参考訳(メタデータ) (2024-03-28T02:31:06Z) - Recent Trends in 3D Reconstruction of General Non-Rigid Scenes [104.07781871008186]
コンピュータグラフィックスやコンピュータビジョンにおいて、3次元幾何学、外観、実際のシーンの動きを含む現実世界のモデルの再構築が不可欠である。
これは、映画産業やAR/VRアプリケーションに有用な、フォトリアリスティックなノベルビューの合成を可能にする。
この最新技術レポート(STAR)は、モノクロおよびマルチビュー入力による最新技術の概要を読者に提供する。
論文 参考訳(メタデータ) (2024-03-22T09:46:11Z) - Context-Aware Indoor Point Cloud Object Generation through User Instructions [6.398660996031915]
本稿では,その周辺環境とシームレスに統合された点雲オブジェクトを生成することができる,新しいエンドツーエンドのマルチモーダルディープニューラルネットワークを提案する。
我々のモデルは、これまで見えなかったオブジェクトレイアウトで新しい環境を作成できるようにすることで、シーン修正に革命をもたらす。
論文 参考訳(メタデータ) (2023-11-26T06:40:16Z) - Challenges for Monocular 6D Object Pose Estimation in Robotics [12.037567673872662]
ロボット工学とコンピュータビジョンの両方から、最近の出版物について統一された視点を提供する。
我々は,オクルージョン処理,新しいポーズ表現,カテゴリーレベルのポーズ推定の形式化と改善が依然として基本的な課題であることがわかった。
これらの問題に対処するためには、オントロジ的推論、変形可能性処理、シーンレベルの推論、現実的なデータセット、アルゴリズムの生態的フットプリントを改善する必要がある。
論文 参考訳(メタデータ) (2023-07-22T21:36:57Z) - Universal Object Detection with Large Vision Model [79.06618136217142]
本研究は,大規模多領域普遍物体検出問題に焦点をあてる。
これらの課題に対処するために,ラベル処理,階層型設計,資源効率のよいモデルトレーニングを提案する。
本手法は,ロバスト・ビジョン・チャレンジ2022のオブジェクト検出トラックにおいて,優れた2位の地位を確保した。
論文 参考訳(メタデータ) (2022-12-19T12:40:13Z) - Survey on the Analysis and Modeling of Visual Kinship: A Decade in the
Making [66.72253432908693]
親和性認識は多くの実践的応用において難しい問題である。
我々は、多くの人にその見解を刺激した公開リソースとデータ課題についてレビューする。
10周年記念には、さまざまなkinベースのタスクのためのデモコードが用意されている。
論文 参考訳(メタデータ) (2020-06-29T13:25:45Z) - An Exploration of Embodied Visual Exploration [97.21890864063872]
身体的コンピュータビジョンは、新しい非構造環境におけるロボットに対する知覚を考慮に入れている。
既存の視覚探索アルゴリズムの分類を提示し、それらをベンチマークするための標準フレームワークを作成する。
次に,提案フレームワークを用いた4つの最先端パラダイムの徹底的な実証的研究を行った。
論文 参考訳(メタデータ) (2020-01-07T17:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。