Fugu-MT 論文翻訳(概要): VR-GPT: Visual Language Model for Intelligent Virtual Reality Applications

論文の概要: VR-GPT: Visual Language Model for Intelligent Virtual Reality Applications

arxiv url: http://arxiv.org/abs/2405.11537v3
Date: Sat, 3 Aug 2024 10:19:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 20:48:25.348334
Title: VR-GPT: Visual Language Model for Intelligent Virtual Reality Applications
Title（参考訳）: VR-GPT:インテリジェント仮想現実アプリケーションのためのビジュアル言語モデル
Authors: Mikhail Konenkov, Artem Lykov, Daria Trinitatova, Dzmitry Tsetserukou,
Abstract要約: 本研究では,VR環境における視覚言語モデルを用いたユーザインタラクションとタスク効率向上のための先駆的アプローチを提案する。本システムは,視覚的テキスト命令に頼ることなく,自然言語処理によるリアルタイム・直感的なユーザインタラクションを支援する。
参考スコア（独自算出の注目度）: 2.5022287664959446
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The advent of immersive Virtual Reality applications has transformed various domains, yet their integration with advanced artificial intelligence technologies like Visual Language Models remains underexplored. This study introduces a pioneering approach utilizing VLMs within VR environments to enhance user interaction and task efficiency. Leveraging the Unity engine and a custom-developed VLM, our system facilitates real-time, intuitive user interactions through natural language processing, without relying on visual text instructions. The incorporation of speech-to-text and text-to-speech technologies allows for seamless communication between the user and the VLM, enabling the system to guide users through complex tasks effectively. Preliminary experimental results indicate that utilizing VLMs not only reduces task completion times but also improves user comfort and task engagement compared to traditional VR interaction methods.
Abstract（参考訳）: 没入型バーチャルリアリティアプリケーションの出現は、さまざまな領域を変えてきたが、Visual Language Modelsのような先進的な人工知能技術との統合はまだ検討されていない。本研究は,VR環境におけるVLMを活用したユーザインタラクションとタスク効率向上のための先駆的アプローチを提案する。本システムは,Unityエンジンとカスタム開発VLMを活用することで,視覚的テキスト命令に頼ることなく,自然言語処理によるリアルタイム,直感的なユーザインタラクションを実現する。音声・テキスト・テキスト・音声技術の導入により、ユーザとVLM間のシームレスなコミュニケーションが可能となり、複雑なタスクを効果的に導くことができる。予備実験の結果, VLMの使用は, 作業完了時間を短縮するだけでなく, 従来のVRインタラクション手法と比較して, ユーザの快適さやタスクエンゲージメントを向上させることが示唆された。

関連論文リスト

VirtualEnv: A Platform for Embodied AI Research [26.527818430035534]
Unreal Engine 5上に構築された次世代シミュレーションプラットフォームであるVirtualEnvを紹介します。具体的でインタラクティブなシナリオにおいて、大きな言語モデル(LLM)のきめ細かいベンチマークを可能にする。私たちはUnreal Engine上に構築されたユーザフレンドリなAPIを提供しており、研究者はLLM駆動エージェントをデプロイし、制御することができます。
論文参考訳（メタデータ） (2026-01-12T14:04:38Z)
Text2VR: Automated instruction Generation in Virtual Reality using Large language Models for Assembly Task [0.0]
本稿では,Large Language Models (LLM) を利用してテキスト入力から仮想命令を生成する手法を提案する。このシステムは、テキストからタスク関連情報を抽出するLLMモジュールと、この情報をVR環境内のアニメーションデモやビジュアルキューに変換するインテリジェントモジュールの2つのコアコンポーネントから構成される。このアプローチは、トレーニングの有効性を高め、開発オーバーヘッドを低減し、VRベースのトレーニングをよりスケーラブルで、産業的なニーズに適応できるようにします。
論文参考訳（メタデータ） (2025-07-19T07:37:48Z)
Exploring Context-aware and LLM-driven Locomotion for Immersive Virtual Reality [8.469329222500726]
大規模言語モデル(LLM)を利用した新しい移動法を提案する。制御器を用いたテレポーテーション,音声によるステアリング,言語モデルによるアプローチの3つの方法を評価する。以上の結果から, LLM駆動の移動は, 確立された方法と比較して, ユーザビリティ, 存在, サイバーシックネスのスコアが同等であることが示唆された。
論文参考訳（メタデータ） (2025-04-24T07:48:09Z)
DWIM: Towards Tool-aware Visual Reasoning via Discrepancy-aware Workflow Generation & Instruct-Masking Tuning [57.285435980459205]
構成的視覚的推論アプローチは、エンド・ツー・エンドのVR手法よりも効果的な戦略として期待されている。 DWIM: ツールの使用状況を評価し, より訓練に有効である抽出を行う, 離散性を考慮したトレーニング生成手法を提案する。 Instruct-Masking fine-tuning — モデルに効果的なアクションをクローンすることのみをガイドし、より実用的なソリューションの生成を可能にする。
論文参考訳（メタデータ） (2025-03-25T01:57:59Z)
Integrating Personality into Digital Humans: A Review of LLM-Driven Approaches for Virtual Reality [37.69303106863453]
大型言語モデル(LLM)をバーチャルリアリティ(VR)環境に統合することで、より没入的でインタラクティブなデジタル人間を作るための新たな経路が開かれた。本稿では,デジタル人間によるニュアンスな人格特性の活用を可能にする手法を包括的に検討し,ゼロショット,少数ショット,微調整などのアプローチを探求する。計算要求、レイテンシの問題、マルチモーダルインタラクションのための標準化された評価フレームワークの欠如など、LCM駆動のパーソナリティ特性をVRに統合するという課題を強調している。
論文参考訳（メタデータ） (2025-02-22T01:33:05Z)
Enhancing Smart Environments with Context-Aware Chatbots using Large Language Models [1.6672326114795073]
本研究は,Large Language Models(LLM)を活用してユーザエクスペリエンスを向上させる,スマート環境内のコンテキスト認識インタラクションのための新しいアーキテクチャを提案する。本システムでは,UWBタグやセンサ付きスマートホームから得られたユーザ位置情報を,リアルタイムなヒューマンアクティビティ認識(HAR)と統合し,ユーザコンテキストの包括的理解を提供する。その結果,LLMとリアルタイムのアクティビティと位置情報を統合することで,個人化されたコンテキストに関連のあるユーザエクスペリエンスを提供するという大きなメリットが浮き彫りになった。
論文参考訳（メタデータ） (2025-02-20T11:46:51Z)
Can You Move These Over There? An LLM-based VR Mover for Supporting Object Manipulation [12.569646616546235]
LLMを利用したVR Moverを提案する。これは、オブジェクト操作をサポートするユーザの声道指示を理解し、解釈できるソリューションである。ユーザ調査の結果,VR Moverはユーザビリティ,ユーザエクスペリエンス,マルチオブジェクト操作におけるパフォーマンスの向上を実現している。
論文参考訳（メタデータ） (2025-02-04T10:27:40Z)
Large Language Model-assisted Speech and Pointing Benefits Multiple 3D Object Selection in Virtual Reality [20.669785157017486]
マルチモーダル音声とレイキャストインタラクション技術を用いて,多目的選択タスクを支援するために,大規模言語モデルを活用する可能性を検討する。その結果,導入したAssistVRは,複数の対象物が存在する場合のベースライン技術よりも優れていた。
論文参考訳（メタデータ） (2024-10-28T14:56:51Z)
Tremor Reduction for Accessible Ray Based Interaction in VR Applications [0.0]
多くの従来の2Dインタフェースのインタラクション方法は、入力機構にほとんど変更を加えることなく、VR空間で直接動作するように変換されている。本稿では,低域通過フィルタを用いてユーザ入力ノイズの正規化を行い,光線による相互作用におけるモータの細かな要求を緩和する手法を提案する。
論文参考訳（メタデータ） (2024-05-12T17:07:16Z)
VR-GS: A Physical Dynamics-Aware Interactive Gaussian Splatting System in Virtual Reality [39.53150683721031]
提案するVR-GSシステムは,人間中心の3Dコンテンツインタラクションにおける飛躍的な進歩を示す。私たちの仮想現実システムのコンポーネントは、高い効率と有効性のために設計されています。
論文参考訳（メタデータ） (2024-01-30T01:28:36Z)
Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文参考訳（メタデータ） (2023-12-22T17:34:01Z)
LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing [99.80742991922992]
本システムは,マルチモーダルなユーザ入力を受信し,マルチモーダルな応答を生成することで,ユーザとのマルチターン対話を実現する。 LLaVA-Interactiveは言語プロンプトを超えており、視覚的プロンプトは、インタラクションにおける人間の意図を調整するために有効である。
論文参考訳（メタデータ） (2023-11-01T15:13:43Z)
Voice2Action: Language Models as Agent for Efficient Real-Time Interaction in Virtual Reality [1.160324357508053]
大規模言語モデル(LLM)は、ごく少数の例で自然言語命令に従うように訓練されている。本稿では,アクションとエンティティ抽出による音声信号とテキストコマンドを階層的に解析するフレームワークであるVoice2Actionを提案する。人工的な指示データを用いた都市工学VR環境における実験結果から,Voice2Actionは最適化のないアプローチよりも効率的かつ高精度に動作可能であることが示された。
論文参考訳（メタデータ） (2023-09-29T19:06:52Z)
Systematic Adaptation of Communication-focused Machine Learning Models from Real to Virtual Environments for Human-Robot Collaboration [1.392250707100996]
本稿では,仮想データセットのサイズを限定した,リアルから仮想への適応のための体系的フレームワークを提案する。実世界の多くの研究とその後の商業化のトピックである手振り認識は、大きなラベル付きデータセットの作成によって可能になった。
論文参考訳（メタデータ） (2023-07-21T03:24:55Z)
Towards Ubiquitous Semantic Metaverse: Challenges, Approaches, and Opportunities [68.03971716740823]
近年,拡張現実(AR)および仮想現実(VR)ユーザーのための没入型サイバーバーチャル体験に革命をもたらすために,ユビキタスセマンティック・メタバースが研究されている。この調査は、ユビキタスメタバースにおける4つの基本システムコンポーネントの表現とインテリジェンスに焦点を当てる。
論文参考訳（メタデータ） (2023-07-13T11:14:46Z)
Force-Aware Interface via Electromyography for Natural VR/AR Interaction [69.1332992637271]
我々はVR/ARにおける自然的および直感的な力入力のための学習ベースのニューラルネットワークを設計する。我々は,3.3%の平均誤差で指の力量をリアルタイムでデコードし,キャリブレーションの少ない新規ユーザに一般化できることを実証した。今後のVR/ARにおける、より現実的な物理性に向けた研究を進めるために、我々の研究成果を期待する。
論文参考訳（メタデータ） (2022-10-03T20:51:25Z)
The Gesture Authoring Space: Authoring Customised Hand Gestures for Grasping Virtual Objects in Immersive Virtual Environments [81.5101473684021]
本研究は、仮想オブジェクトを現実世界のようにつかむことができる、オブジェクト固有のグリップジェスチャーのためのハンドジェスチャーオーサリングツールを提案する。提示されたソリューションは、ジェスチャー認識にテンプレートマッチングを使用し、カスタムのカスタマイズされた手の動きを設計および作成するために技術的な知識を必要としない。本研究は,提案手法を用いて作成したジェスチャーが,ユーザによって他のユーザよりも自然な入力モダリティとして認識されていることを示した。
論文参考訳（メタデータ） (2022-07-03T18:33:33Z)
VIRT: Improving Representation-based Models for Text Matching through Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。 VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文参考訳（メタデータ） (2021-12-08T09:49:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。