Fugu-MT 論文翻訳(概要): Dynamic Object Comprehension: A Framework For Evaluating Artificial Visual Perception

論文の概要: Dynamic Object Comprehension: A Framework For Evaluating Artificial Visual Perception

arxiv url: http://arxiv.org/abs/2202.08490v1
Date: Thu, 17 Feb 2022 07:49:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-18 14:29:39.579366
Title: Dynamic Object Comprehension: A Framework For Evaluating Artificial Visual Perception
Title（参考訳）: Dynamic Object Comprehension: 人工的な視覚知覚を評価するフレームワーク
Authors: Scott Y.L. Chin, Bradley R. Quinton
Abstract要約: AugmentedとMixed Realityは、おそらくモバイルインターネットの後継として浮上している。これらのシステムの主要な要件の1つは、物理世界と仮想世界の間の連続性を作成する能力である。現在の評価基準はこれらの応用には不十分である。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Augmented and Mixed Reality are emerging as likely successors to the mobile internet. However, many technical challenges remain. One of the key requirements of these systems is the ability to create a continuity between physical and virtual worlds, with the user's visual perception as the primary interface medium. Building this continuity requires the system to develop a visual understanding of the physical world. While there has been significant recent progress in computer vision and AI techniques such as image classification and object detection, success in these areas has not yet led to the visual perception required for these critical MR and AR applications. A significant issue is that current evaluation criteria are insufficient for these applications. To motivate and evaluate progress in this emerging area, there is a need for new metrics. In this paper we outline limitations of current evaluation criteria and propose new criteria.
Abstract（参考訳）: AugmentedとMixed Realityは、おそらくモバイルインターネットの後継として浮上している。しかし、多くの技術的課題が残っている。これらのシステムの重要な要件の1つは、物理的な世界と仮想世界の間の連続性を作り出す能力であり、ユーザの視覚知覚が主要なインターフェイス媒体である。この連続性を構築するには、物理的な世界を視覚的に理解する必要がある。コンピュータビジョンや画像分類やオブジェクト検出などのai技術は近年大きく進歩しているが、これらの領域での成功は、これらの重要なmrやarアプリケーションに必要な視覚認識にはまだ繋がっていない。重要な問題は、これらのアプリケーションに現在の評価基準が不十分であることだ。この新興分野の進歩を動機づけ、評価するには、新しいメトリクスが必要である。本稿では,現在の評価基準の限界を概説し,新しい基準を提案する。

関連論文リスト

AI-powered Contextual 3D Environment Generation: A Systematic Review [49.1574468325115]
本研究では,既存の3次元シーン生成のための生成AI技術について,体系的なレビューを行う。最先端のアプローチを検討することで、シーンの真正性やテキスト入力の影響など、重要な課題が提示される。
論文参考訳（メタデータ） (2025-06-05T15:56:28Z)
Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook [85.43403500874889]
Retrieval-augmented Generation (RAG) は人工知能(AI)において重要な技術である。具体化されたAIのためのRAGの最近の進歩は、特に計画、タスク実行、マルチモーダル知覚、インタラクション、特殊ドメインの応用に焦点を当てている。
論文参考訳（メタデータ） (2025-03-23T10:33:28Z)
GUI Agents: A Survey [129.94551809688377]
グラフィカルユーザインタフェース(GUI)エージェントは、人間とコンピュータのインタラクションを自動化するためのトランスフォーメーションアプローチとして登場した。 GUIエージェントの関心の高まりと基本的な重要性により、ベンチマーク、評価指標、アーキテクチャ、トレーニングメソッドを分類する総合的な調査を提供する。
論文参考訳（メタデータ） (2024-12-18T04:48:28Z)
On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey [82.49623756124357]
ゼロショット画像認識(ZSIR)は、目に見えない領域の認識と推論をモデルに与えることを目的としている。本稿では,近年の素子ワイドZSIRの進歩について概説する。まず、オブジェクト認識、合成認識、基礎モデルに基づくオープンワールド認識という3つの基本的なZSIRタスクを、統一された要素的視点に統合する。
論文参考訳（メタデータ） (2024-08-09T05:49:21Z)
Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文参考訳（メタデータ） (2024-05-13T14:44:22Z)
AAPMT: AGI Assessment Through Prompt and Metric Transformer [0.0]
本研究では,知覚品質,信頼度,テキストと画像の対応性などのパラメータに着目したモデルを開発する。 Metric Transformerは、様々なAGI品質指標間の複雑な関係にインスパイアされた、新しい構造である。
論文参考訳（メタデータ） (2024-03-28T02:31:06Z)
Recent Trends in 3D Reconstruction of General Non-Rigid Scenes [104.07781871008186]
コンピュータグラフィックスやコンピュータビジョンにおいて、3次元幾何学、外観、実際のシーンの動きを含む現実世界のモデルの再構築が不可欠である。これは、映画産業やAR/VRアプリケーションに有用な、フォトリアリスティックなノベルビューの合成を可能にする。この最新技術レポート(STAR)は、モノクロおよびマルチビュー入力による最新技術の概要を読者に提供する。
論文参考訳（メタデータ） (2024-03-22T09:46:11Z)
Context-Aware Indoor Point Cloud Object Generation through User Instructions [6.398660996031915]
本稿では,その周辺環境とシームレスに統合された点雲オブジェクトを生成することができる,新しいエンドツーエンドのマルチモーダルディープニューラルネットワークを提案する。我々のモデルは、これまで見えなかったオブジェクトレイアウトで新しい環境を作成できるようにすることで、シーン修正に革命をもたらす。
論文参考訳（メタデータ） (2023-11-26T06:40:16Z)
Challenges for Monocular 6D Object Pose Estimation in Robotics [12.037567673872662]
ロボット工学とコンピュータビジョンの両方から、最近の出版物について統一された視点を提供する。我々は,オクルージョン処理,新しいポーズ表現,カテゴリーレベルのポーズ推定の形式化と改善が依然として基本的な課題であることがわかった。これらの問題に対処するためには、オントロジ的推論、変形可能性処理、シーンレベルの推論、現実的なデータセット、アルゴリズムの生態的フットプリントを改善する必要がある。
論文参考訳（メタデータ） (2023-07-22T21:36:57Z)
Universal Object Detection with Large Vision Model [79.06618136217142]
本研究は,大規模多領域普遍物体検出問題に焦点をあてる。これらの課題に対処するために,ラベル処理,階層型設計,資源効率のよいモデルトレーニングを提案する。本手法は,ロバスト・ビジョン・チャレンジ2022のオブジェクト検出トラックにおいて,優れた2位の地位を確保した。
論文参考訳（メタデータ） (2022-12-19T12:40:13Z)
Survey on the Analysis and Modeling of Visual Kinship: A Decade in the Making [66.72253432908693]
親和性認識は多くの実践的応用において難しい問題である。我々は、多くの人にその見解を刺激した公開リソースとデータ課題についてレビューする。 10周年記念には、さまざまなkinベースのタスクのためのデモコードが用意されている。
論文参考訳（メタデータ） (2020-06-29T13:25:45Z)
An Exploration of Embodied Visual Exploration [97.21890864063872]
身体的コンピュータビジョンは、新しい非構造環境におけるロボットに対する知覚を考慮に入れている。既存の視覚探索アルゴリズムの分類を提示し、それらをベンチマークするための標準フレームワークを作成する。次に,提案フレームワークを用いた4つの最先端パラダイムの徹底的な実証的研究を行った。
論文参考訳（メタデータ） (2020-01-07T17:40:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。