Fugu-MT 論文翻訳(概要): ClickAIXR: On-Device Multimodal Vision-Language Interaction with Real-World Objects in Extended Reality

論文の概要: ClickAIXR: On-Device Multimodal Vision-Language Interaction with Real-World Objects in Extended Reality

arxiv url: http://arxiv.org/abs/2604.04905v1
Date: Mon, 06 Apr 2026 17:50:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-07 15:49:19.322699
Title: ClickAIXR: On-Device Multimodal Vision-Language Interaction with Real-World Objects in Extended Reality
Title（参考訳）: ClickAIXR:拡張現実感における実世界の物体とのオンデバイスマルチモーダルビジョン・ランゲージインタラクション
Authors: Dawar Khan, Alexandre Kouyoumdjian, Xinyu Liu, Omar Mena, Dominik Engel, Ivan Viola,
Abstract要約: ClickAIXRは、拡張現実(XR)におけるオブジェクトとのマルチモーダル視覚言語インタラクションのための新しいオンデバイスフレームワークであるオンデバイスビジョン言語モデル(VLM)とコントローラベースのオブジェクト選択パラダイムを統合している。我々は,ClickAIXRとGemini 2.5 FlashとChatGPT 5を比較し,ユーザビリティ,信頼性,ユーザ満足度を評価した。
参考スコア（独自算出の注目度）: 45.71425751140069
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We present ClickAIXR, a novel on-device framework for multimodal vision-language interaction with objects in extended reality (XR). Unlike prior systems that rely on cloud-based AI (e.g., ChatGPT) or gaze-based selection (e.g., GazePointAR), ClickAIXR integrates an on-device vision-language model (VLM) with a controller-based object selection paradigm, enabling users to precisely click on real-world objects in XR. Once selected, the object image is processed locally by the VLM to answer natural language questions through both text and speech. This object-centered interaction reduces ambiguity inherent in gaze- or voice-only interfaces and improves transparency by performing all inference on-device, addressing concerns around privacy and latency. We implemented ClickAIXR in the Magic Leap SDK (C API) with ONNX-based local VLM inference. We conducted a user study comparing ClickAIXR with Gemini 2.5 Flash and ChatGPT 5, evaluating usability, trust, and user satisfaction. Results show that latency is moderate and user experience is acceptable. Our findings demonstrate the potential of click-based object selection combined with on-device AI to advance trustworthy, privacy-preserving XR interactions. The source code and supplementary materials are available at: nanovis.org/ClickAIXR.html
Abstract（参考訳）: 我々は、拡張現実(XR)におけるオブジェクトとのマルチモーダル視覚言語インタラクションのための新しいオンデバイスフレームワークであるClickAIXRを紹介する。クラウドベースのAI(例えばChatGPT)や視線ベースの選択(例えばGazePointAR)に依存する従来のシステムとは異なり、ClickAIXRは、オンデバイスビジョン言語モデル(VLM)とコントローラベースのオブジェクト選択パラダイムを統合し、ユーザがXRの現実世界のオブジェクトを正確にクリックできるようにする。一度選択すると、オブジェクトイメージはVLMによって局所的に処理され、テキストと音声の両方を通して自然言語の質問に答える。このオブジェクト中心のインタラクションは、視線や音声のみのインターフェースに固有の曖昧さを低減し、デバイス上のすべての推論を実行し、プライバシとレイテンシに関する懸念に対処することで透明性を向上させる。我々は、ONNXベースのローカルVLM推論を用いて、Magic Leap SDK(C API)にClickAIXRを実装した。我々は,ClickAIXRとGemini 2.5 FlashとChatGPT 5を比較し,ユーザビリティ,信頼性,ユーザ満足度を評価した。結果は、レイテンシが適度であり、ユーザエクスペリエンスが受け入れられていることを示しています。我々の研究結果は、クリックベースのオブジェクト選択とデバイス上のAIを組み合わせることで、信頼できるプライバシー保護のXRインタラクションを前進させる可能性を示している。ソースコードと補助資料は、nanovis.org/ClickAIXR.htmlで入手できる。

関連論文リスト

Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition [71.5328300638085]
Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。 2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-16T19:01:31Z)
PRISM-XR: Empowering Privacy-Aware XR Collaboration with Multimodal Large Language Models [8.808170696228865]
PRISM-XRは、プライバシーに配慮したMLLM統合を提供することで、XR環境でのマルチユーザコラボレーションを促進する新しいフレームワークである。以上の結果から,提案プラットフォームはユーザの要求を満たす上で,約90%の精度を達成可能であることが示唆された。
論文参考訳（メタデータ） (2026-02-09T21:28:02Z)
Hear-Your-Click: Interactive Object-Specific Video-to-Audio Generation [6.631248829195371]
本稿では,対話型V2AフレームワークであるHear-Your-Clickを紹介した。そこで本稿では,Mask-Guided Visual (MVE) を用いた物体認識型コントラスト・オーディオ・ビジュアル・ファインタニング(OCAV)を提案する。音声と視覚の対応性を測定するため,新しい評価基準であるCAVスコアを考案した。
論文参考訳（メタデータ） (2025-07-07T13:01:50Z)
AIvaluateXR: An Evaluation Framework for on-Device AI in XR with Benchmarking Results [55.33807002543901]
我々は,XRデバイス上で動作する大規模言語モデル(LLM)をベンチマークするための総合評価フレームワークであるAIvaluateXRを提案する。我々はMagic Leap 2、Meta Quest 3、Vivo X100s Pro、Apple Vision Proという4つのXRプラットフォームに17個の選択されたLSMをデプロイし、広範囲な評価を行います。本稿では,3次元最適性理論に基づく統一評価手法を提案する。
論文参考訳（メタデータ） (2025-02-13T20:55:48Z)
Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文参考訳（メタデータ） (2024-08-28T17:59:05Z)
Visual Grounding Methods for Efficient Interaction with Desktop Graphical User Interfaces [1.3107174618549584]
Instruction Visual Grounding (IVG) はグラフィカルユーザインタフェース (GUI) におけるオブジェクト識別のためのマルチモーダルアプローチである本稿では、オブジェクト検出モデルであるLarge Language Model(LLM)とOCRモジュールを組み合わせたIVGocrと、エンド・ツー・エンドのグラウンド化にマルチモーダルアーキテクチャを用いたIVGdirectを提案する。私たちの最終テストデータセットは、将来の研究をサポートするために公開されています。
論文参考訳（メタデータ） (2024-05-05T19:10:19Z)
Revisiting Click-based Interactive Video Object Segmentation [24.114405100879278]
CiVOSは、ユーザインタラクションとマスク伝搬を反映したデカップリングモジュール上に構築されている。このアプローチは、人気のある対話型DAVISデータセットで広く評価されている。提示されたCivVOSパイプラインは、低いユーザワークロードを必要とするが、競合的な結果を達成する。
論文参考訳（メタデータ） (2022-03-03T15:55:14Z)
Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。多様なアプリケーションにおけるMViT提案の重要性を示す。
論文参考訳（メタデータ） (2021-11-22T18:59:29Z)
Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion [68.45737688496654]
本稿では,マスク間相互作用とマスク伝搬を分離するモジュール型対話型VOSフレームワークを提案する。提案手法は,フレーム間インタラクションを少なくしつつ,現在の最先端アルゴリズムよりも優れることを示す。
論文参考訳（メタデータ） (2021-03-14T14:39:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。