論文の概要: PRISM-XR: Empowering Privacy-Aware XR Collaboration with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.10154v1
- Date: Mon, 09 Feb 2026 21:28:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.189747
- Title: PRISM-XR: Empowering Privacy-Aware XR Collaboration with Multimodal Large Language Models
- Title(参考訳): PRISM-XR:マルチモーダル大言語モデルによるプライバシ対応XRコラボレーションの強化
- Authors: Jiangong Chen, Mingyu Zhu, Bin Li,
- Abstract要約: PRISM-XRは、プライバシーに配慮したMLLM統合を提供することで、XR環境でのマルチユーザコラボレーションを促進する新しいフレームワークである。
以上の結果から,提案プラットフォームはユーザの要求を満たす上で,約90%の精度を達成可能であることが示唆された。
- 参考スコア(独自算出の注目度): 8.808170696228865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) enhance collaboration in Extended Reality (XR) environments by enabling flexible object and animation creation through the combination of natural language and visual inputs. However, visual data captured by XR headsets includes real-world backgrounds that may contain irrelevant or sensitive user information, such as credit cards left on the table or facial identities of other users. Uploading those frames to cloud-based MLLMs poses serious privacy risks, particularly when such data is processed without explicit user consent. Additionally, existing colocation and synchronization mechanisms in commercial XR APIs rely on time-consuming, privacy-invasive environment scanning and struggle to adapt to the highly dynamic nature of MLLM-integrated XR environments. In this paper, we propose PRISM-XR, a novel framework that facilitates multi-user collaboration in XR by providing privacy-aware MLLM integration. PRISM-XR employs intelligent frame preprocessing on the edge server to filter sensitive data and remove irrelevant context before communicating with cloud generative AI models. Additionally, we introduce a lightweight registration process and a fully customizable content-sharing mechanism to enable efficient, accurate, and privacy-preserving content synchronization among users. Our numerical evaluation results indicate that the proposed platform achieves nearly 90% accuracy in fulfilling user requests and less than 0.27 seconds registration time while maintaining spatial inconsistencies of less than 3.5 cm. Furthermore, we conducted an IRB-approved user study with 28 participants, demonstrating that our system could automatically filter highly sensitive objects in over 90% of scenarios while maintaining strong overall usability.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、自然言語と視覚入力を組み合わせることで、柔軟なオブジェクトとアニメーションの作成を可能にすることで、拡張現実感(XR)環境におけるコラボレーションを強化する。
しかし、XRヘッドセットが捉えた視覚データには、テーブルに残されているクレジットカードや、他のユーザーの顔のアイデンティティなど、無関係または機密性の高いユーザー情報を含む現実世界の背景が含まれている。
これらのフレームをクラウドベースのMLLMにアップロードすると、特に明示的なユーザの同意なしに処理された場合、深刻なプライバシー上のリスクが発生する。
さらに、商用のXR APIにおける既存のコロケーションと同期メカニズムは、時間を要するプライバシーを侵害する環境スキャンに依存しており、MLLM統合されたXR環境の非常にダイナミックな性質に適応するのに苦労している。
本稿では、プライバシを意識したMLLM統合を提供することで、XRにおけるマルチユーザコラボレーションを促進する新しいフレームワークであるPRISM-XRを提案する。
PRISM-XRはエッジサーバ上でインテリジェントなフレーム前処理を使用して、センシティブなデータをフィルタリングし、クラウド生成AIモデルと通信する前に無関係なコンテキストを削除する。
さらに、ユーザ間の効率的な、正確で、プライバシ保護のコンテンツ同期を可能にするために、軽量な登録プロセスと、完全にカスタマイズ可能なコンテンツ共有機構を導入する。
以上の結果から,提案プラットフォームはユーザ要求の達成に約90%の精度を達成でき,登録時間は0.27秒未満であり,空間的不整合は3.5cm未満であることがわかった。
さらに、IRBが承認した28名のユーザスタディを行い、システムによって90%以上のシナリオで高感度なオブジェクトを自動的にフィルタリングし、全体的なユーザビリティを強く維持できることを実証した。
関連論文リスト
- CoSteer: Collaborative Decoding-Time Personalization via Local Delta Steering [80.54309860395763]
CoSteerは、ローカライズされたデルタステアリングを通じてデコード時のパーソナライズを可能にする、新しいコラボレーティブフレームワークである。
トークンレベルの最適化をオンライン学習問題として定式化し、ローカルデルタベクトルがリモートLLMのロジットを動的に調整する。
このアプローチは、生のデータや中間ベクトルではなく、最後のステアリングトークンのみを送信することで、プライバシを保護します。
論文 参考訳(メタデータ) (2025-07-07T08:32:29Z) - IRIS: An Immersive Robot Interaction System [29.868721218549993]
IRISは様々なシミュレーターと実世界のシナリオにまたがる没入型インタラクションとデータ収集をサポートする。
任意の剛性と変形可能なオブジェクト、シミュレーションからのロボットを視覚化し、リアルタイムセンサー生成ポイントクラウドを実世界のアプリケーションに統合する。
論文 参考訳(メタデータ) (2025-02-05T15:56:26Z) - LLMER: Crafting Interactive Extended Reality Worlds with JSON Data Generated by Large Language Models [22.53412407516448]
大規模言語モデル(LLM)と拡張現実性(XR)技術の統合は、真の没入型XR環境を構築する可能性を提供します。
XR環境の複雑さにより、XRアーティファクトの圧倒的な量から関連するコンテキストデータやシーン/オブジェクトパラメータを正確に抽出することが困難になる。
これらの課題を克服するために,LLMERを用いたインタラクティブな世界を創出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-04T16:08:48Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Embedding Large Language Models into Extended Reality: Opportunities and Challenges for Inclusion, Engagement, and Privacy [37.061999275101904]
我々は、それらをアバターに埋め込んだり、物語として含めることによって、XRで大きな言語モデルを使うことについて議論する。
ユーザがLLMを利用する空間に提供した情報と、得られた生体データを組み合わせることで、新たなプライバシー侵害につながるのではないか、と推測する。
論文 参考訳(メタデータ) (2024-02-06T11:19:40Z) - Modular Interactive Video Object Segmentation: Interaction-to-Mask,
Propagation and Difference-Aware Fusion [68.45737688496654]
本稿では,マスク間相互作用とマスク伝搬を分離するモジュール型対話型VOSフレームワークを提案する。
提案手法は,フレーム間インタラクションを少なくしつつ,現在の最先端アルゴリズムよりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-14T14:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。