論文の概要: AR as an Evaluation Playground: Bridging Metrics and Visual Perception of Computer Vision Models
- arxiv url: http://arxiv.org/abs/2508.04102v1
- Date: Wed, 06 Aug 2025 05:44:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.562766
- Title: AR as an Evaluation Playground: Bridging Metrics and Visual Perception of Computer Vision Models
- Title(参考訳): 評価プレイグラウンドとしてのAR: ブリッジングメトリックとコンピュータビジョンモデルの視覚知覚
- Authors: Ashkan Ganj, Yiqin Zhao, Tian Guo,
- Abstract要約: ARCADEは、研究者がARのリッチなコンテキストと対話性を人間中心のCV評価に容易に活用できる評価プラットフォームである。
具体的には、ARCADEはクロスプラットフォームのARデータ収集、プラグイン可能なモデル推論によるカスタム実験プロトコル、ユーザスタディ用のARストリーミングをサポートする。
本研究では,深度推定と照明推定の2種類のCVモデルを用いてARCADEを実証し,ARタスクがモデル品質の人間の知覚的判断に有効であることを示す。
- 参考スコア(独自算出の注目度): 4.962951437749038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human perception studies can provide complementary insights to qualitative evaluation for understanding computer vision (CV) model performance. However, conducting human perception studies remains a non-trivial task, it often requires complex, end-to-end system setups that are time-consuming and difficult to scale. In this paper, we explore the unique opportunity presented by augmented reality (AR) for helping CV researchers to conduct perceptual studies. We design ARCADE, an evaluation platform that allows researchers to easily leverage AR's rich context and interactivity for human-centered CV evaluation. Specifically, ARCADE supports cross-platform AR data collection, custom experiment protocols via pluggable model inference, and AR streaming for user studies. We demonstrate ARCADE using two types of CV models, depth and lighting estimation and show that AR tasks can be effectively used to elicit human perceptual judgments of model quality. We also evaluate the systems usability and performance across different deployment and study settings, highlighting its flexibility and effectiveness as a human-centered evaluation platform.
- Abstract(参考訳): 人間の知覚研究は、コンピュータビジョン(CV)モデルの性能を理解するための質的評価に補完的な洞察を与えることができる。
しかし、人間の知覚研究を実行することは簡単な作業であり、しばしば、時間を要する複雑なエンドツーエンドのシステムセットアップを必要とします。
本稿では,CV研究者の知覚研究を支援するために,拡張現実(AR)が提示するユニークな機会について検討する。
ARCADEは、研究者がARのリッチなコンテキストと対話性を人間中心のCV評価に容易に活用できる評価プラットフォームである。
具体的には、ARCADEはクロスプラットフォームのARデータ収集、プラグイン可能なモデル推論によるカスタム実験プロトコル、ユーザスタディ用のARストリーミングをサポートする。
本研究では,深度推定と照明推定の2種類のCVモデルを用いてARCADEを実証し,ARタスクがモデル品質の人間の知覚的判断に有効であることを示す。
また、異なるデプロイメントおよび研究環境におけるシステムのユーザビリティとパフォーマンスを評価し、その柔軟性と有効性を人間中心の評価プラットフォームとして強調する。
関連論文リスト
- A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。
セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。
提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-03-10T06:18:31Z) - Edge-AI for Agriculture: Lightweight Vision Models for Disease Detection in Resource-Limited Settings [0.0]
提案システムは,エッジデバイスへの展開に最適化された高度なオブジェクト検出,分類,セグメンテーションモデルを統合する。
本研究は, 精度, 計算効率, 一般化能力に着目し, 各種最先端モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-23T06:48:50Z) - User-centric evaluation of explainability of AI with and for humans: a comprehensive empirical study [5.775094401949666]
この研究はHuman-Centered Artificial Intelligence (HCAI)にある。
一般的に使用されるeXplainable Artificial Intelligence (XAI)アルゴリズムのユーザ中心評価の結果に焦点を当てている。
論文 参考訳(メタデータ) (2024-10-21T12:32:39Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T09:15:21Z) - Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z) - Revisiting Self-supervised Learning of Speech Representation from a
Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。
我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。
我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文 参考訳(メタデータ) (2024-01-16T21:13:22Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - Learning Visualization Policies of Augmented Reality for Human-Robot
Collaboration [5.400491728405083]
人間とロボットのコラボレーション領域では、拡張現実(AR)技術により、ロボットの状態を視覚化することができる。
現在のARベースの可視化ポリシーは手作業で設計されており、多くの人的努力とドメイン知識が必要です。
VARILと呼ばれるフレームワークを開発し、ARエージェントがデモから可視化ポリシーを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-13T22:03:20Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Efficient Realistic Data Generation Framework leveraging Deep
Learning-based Human Digitization [0.0]
提案手法は、実際の背景画像として入力され、さまざまなポーズで人物を投入する。
対応するタスクのベンチマークと評価は、実データに対する補足として、合成データが効果的に使用できることを示している。
論文 参考訳(メタデータ) (2021-06-28T08:07:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。