論文の概要: Explainable XR: Understanding User Behaviors of XR Environments using LLM-assisted Analytics Framework
- arxiv url: http://arxiv.org/abs/2501.13778v1
- Date: Thu, 23 Jan 2025 15:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:57:52.118695
- Title: Explainable XR: Understanding User Behaviors of XR Environments using LLM-assisted Analytics Framework
- Title(参考訳): 説明可能なXR:LLM支援分析フレームワークを用いたXR環境のユーザ行動理解
- Authors: Yoonsang Kim, Zainab Aamir, Mithilesh Singh, Saeed Boorboor, Klaus Mueller, Arie E. Kaufman,
- Abstract要約: 多様なXR環境におけるユーザ動作を分析するためのエンドツーエンドフレームワークであるExplainable XRを提案する。
説明可能なXRは、AR、VR、MR、トランジッション、マルチユーザ共同アプリケーションシナリオといった、クロスプラットフォームを扱う際の課題に対処する。
- 参考スコア(独自算出の注目度): 24.02808692450192
- License:
- Abstract: We present Explainable XR, an end-to-end framework for analyzing user behavior in diverse eXtended Reality (XR) environments by leveraging Large Language Models (LLMs) for data interpretation assistance. Existing XR user analytics frameworks face challenges in handling cross-virtuality - AR, VR, MR - transitions, multi-user collaborative application scenarios, and the complexity of multimodal data. Explainable XR addresses these challenges by providing a virtuality-agnostic solution for the collection, analysis, and visualization of immersive sessions. We propose three main components in our framework: (1) A novel user data recording schema, called User Action Descriptor (UAD), that can capture the users' multimodal actions, along with their intents and the contexts; (2) a platform-agnostic XR session recorder, and (3) a visual analytics interface that offers LLM-assisted insights tailored to the analysts' perspectives, facilitating the exploration and analysis of the recorded XR session data. We demonstrate the versatility of Explainable XR by demonstrating five use-case scenarios, in both individual and collaborative XR applications across virtualities. Our technical evaluation and user studies show that Explainable XR provides a highly usable analytics solution for understanding user actions and delivering multifaceted, actionable insights into user behaviors in immersive environments.
- Abstract(参考訳): 本稿では,データ解釈支援にLarge Language Models (LLMs)を活用することで,多様なeXtended Reality(XR)環境におけるユーザ行動を分析するエンドツーエンドフレームワークであるExplainable XRを提案する。
既存のXRユーザ分析フレームワークは、AR、VR、MR(transitions)、マルチユーザ共同アプリケーションシナリオ、マルチモーダルデータの複雑さといった、クロスプラットフォームを扱う上で、課題に直面している。
説明可能なXRは、没入型セッションの収集、分析、可視化のための仮想性に依存しないソリューションを提供することによって、これらの課題に対処する。
本フレームワークでは,(1)ユーザ・アクション・ディスクリプタ(UAD)と呼ばれる新しいユーザ・データ・記録・スキーマ,(2)プラットフォームに依存しないXRセッション・レコーダ,(3)アナリストの視点に合わせたLCM支援情報を提供し,記録されたXRセッション・データの探索と解析を容易にするビジュアル・アナリティクス・インタフェースを提案する。
仮想空間にまたがる、個別および協調的なXRアプリケーションにおいて、5つのユースケースシナリオを実演することで、説明可能なXRの汎用性を実証する。
我々の技術評価とユーザスタディは、Explainable XRがユーザアクションを理解し、没入型環境におけるユーザ行動に対する多面的かつ実用的な洞察を提供するために、非常に有用な分析ソリューションを提供することを示している。
関連論文リスト
- OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities [124.05360767047539]
我々は、SoTA Omni-modality Language Modelsをベンチマークするために設計された評価スイートであるOmnixRを紹介する。
OLMはテキスト、ビジョン、オーディオなどの複数のモードを統合し、ユニークな課題を提示する。
実験の結果,OmnixR問題に対処するためには,複数のモダリティからの情報を統合する必要があることがわかった。
論文 参考訳(メタデータ) (2024-10-16T04:29:46Z) - Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions [68.92637077909693]
本稿では,グラフィカルユーザインタフェース(GUI)環境におけるマルチモーダル大規模言語モデル(MLLM)エージェントの忠実さについて検討する。
ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含む、一般的な設定が提案されている。
実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-05T15:16:22Z) - LLM-ESR: Large Language Models Enhancement for Long-tailed Sequential Recommendation [58.04939553630209]
現実世界のシステムでは、ほとんどのユーザーはほんの一握りのアイテムしか扱わないが、ほとんどのアイテムは滅多に消費されない。
これら2つの課題は、ロングテールユーザーとロングテールアイテムの課題として知られ、しばしば既存のシークエンシャルレコメンデーションシステムに困難をもたらす。
本稿では,これらの課題に対処するため,Large Language Models Enhancement framework for Sequential Recommendation (LLM-ESR)を提案する。
論文 参考訳(メタデータ) (2024-05-31T07:24:42Z) - Autonomous Workflow for Multimodal Fine-Grained Training Assistants Towards Mixed Reality [28.27036270001756]
この作業は、AIエージェントを詳細にトレーニングするための拡張現実(XR)アプリケーションにシームレスに統合するための自律ワークフローを設計する。
パイロットXR環境におけるLEGOブロック組立のためのマルチモーダルきめ細粒度トレーニングアシスタントのデモンストレーションを行う。
論文 参考訳(メタデータ) (2024-05-16T14:20:30Z) - Embedding Large Language Models into Extended Reality: Opportunities and Challenges for Inclusion, Engagement, and Privacy [37.061999275101904]
我々は、それらをアバターに埋め込んだり、物語として含めることによって、XRで大きな言語モデルを使うことについて議論する。
ユーザがLLMを利用する空間に提供した情報と、得られた生体データを組み合わせることで、新たなプライバシー侵害につながるのではないか、と推測する。
論文 参考訳(メタデータ) (2024-02-06T11:19:40Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - LLMR: Real-time Prompting of Interactive Worlds using Large Language Models [45.87888748442536]
Large Language Model for Mixed Reality (LLMR)は、インタラクティブなMixed Reality体験のリアルタイム作成と修正のためのフレームワークである。
私たちのフレームワークはテキストインタラクションとUnityゲームエンジンに依存しています。
LLMRは標準のGPT-4を平均誤差率で4倍に上回る。
論文 参考訳(メタデータ) (2023-09-21T17:37:01Z) - InstructERC: Reforming Emotion Recognition in Conversation with Multi-task Retrieval-Augmented Large Language Models [9.611864685207056]
本稿では,識別的枠組みから大規模言語モデル(LLM)に基づく生成的枠組みへ,感情認識タスクを再構築するための新しいアプローチであるインストラクタCを提案する。
InstructERCは、3つの重要な貢献をしている:(1)モデルがマルチグラニュラリティ対話監視情報を明示的に統合するのに役立つ単純で効果的なテンプレートモジュール、(2)話者識別と感情予測タスクという2つの追加の感情アライメントタスクを導入し、会話における対話の役割の関係と将来の感情傾向を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2023-09-21T09:22:07Z) - AVIS: Autonomous Visual Information Seeking with Large Language Model
Agent [123.75169211547149]
本稿では,視覚的質問応答フレームワークAVISを提案する。
本手法は,LLM(Large Language Model)を利用して外部ツールの利用を動的に強化する。
AVIS は Infoseek や OK-VQA などの知識集約型視覚質問応答ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-06-13T20:50:22Z) - Versatile User Identification in Extended Reality using Pretrained Similarity-Learning [16.356961801884562]
類似性学習モデルを開発し、“Who Is Alyx?”データセットで事前学習する。
従来の分類学習ベースラインと比較して,本モデルは優れた性能を示す。
本手法は,実運用XRシステムにおける事前学習した動きに基づく識別モデルの容易な統合方法である。
論文 参考訳(メタデータ) (2023-02-15T08:26:24Z) - Knowledge-Enhanced Hierarchical Graph Transformer Network for
Multi-Behavior Recommendation [56.12499090935242]
本研究では,ユーザとレコメンデータシステムにおける項目間の多種類の対話パターンを探索する知識強化階層型グラフトランスフォーマネットワーク(KHGT)を提案する。
KHGTはグラフ構造化ニューラルネットワーク上に構築され、タイプ固有の振る舞い特性をキャプチャする。
KHGTは、様々な評価設定において、最先端のレコメンデーション手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-10-08T09:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。