論文の概要: Text2VR: Automated instruction Generation in Virtual Reality using Large language Models for Assembly Task
- arxiv url: http://arxiv.org/abs/2508.03699v1
- Date: Sat, 19 Jul 2025 07:37:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-10 09:30:49.328089
- Title: Text2VR: Automated instruction Generation in Virtual Reality using Large language Models for Assembly Task
- Title(参考訳): Text2VR: アセンブリタスクのための大規模言語モデルを用いたバーチャルリアリティの自動命令生成
- Authors: Subin Raj Peter,
- Abstract要約: 本稿では,Large Language Models (LLM) を利用してテキスト入力から仮想命令を生成する手法を提案する。
このシステムは、テキストからタスク関連情報を抽出するLLMモジュールと、この情報をVR環境内のアニメーションデモやビジュアルキューに変換するインテリジェントモジュールの2つのコアコンポーネントから構成される。
このアプローチは、トレーニングの有効性を高め、開発オーバーヘッドを低減し、VRベースのトレーニングをよりスケーラブルで、産業的なニーズに適応できるようにします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virtual Reality (VR) has emerged as a powerful tool for workforce training, offering immersive, interactive, and risk-free environments that enhance skill acquisition, decision-making, and confidence. Despite its advantages, developing VR applications for training remains a significant challenge due to the time, expertise, and resources required to create accurate and engaging instructional content. To address these limitations, this paper proposes a novel approach that leverages Large Language Models (LLMs) to automate the generation of virtual instructions from textual input. The system comprises two core components: an LLM module that extracts task-relevant information from the text, and an intelligent module that transforms this information into animated demonstrations and visual cues within a VR environment. The intelligent module receives input from the LLM module and interprets the extracted information. Based on this, an instruction generator creates training content using relevant data from a database. The instruction generator generates the instruction by changing the color of virtual objects and creating animations to illustrate tasks. This approach enhances training effectiveness and reduces development overhead, making VR-based training more scalable and adaptable to evolving industrial needs.
- Abstract(参考訳): VR(Virtual Reality)は、スキル獲得、意思決定、信頼性を高める没入的でインタラクティブでリスクのない環境を提供する、労働トレーニングの強力なツールとして登場した。
その利点にもかかわらず、トレーニングのためのVRアプリケーションの開発は、正確で魅力的な教育コンテンツを作成するのに必要な時間、専門知識、リソースのために、依然として重大な課題である。
これらの制約に対処するため,テキスト入力からの仮想命令生成を自動化するために,LLM(Large Language Models)を利用した新しい手法を提案する。
このシステムは、テキストからタスク関連情報を抽出するLLMモジュールと、この情報をVR環境内のアニメーションデモやビジュアルキューに変換するインテリジェントモジュールの2つのコアコンポーネントから構成される。
インテリジェントモジュールは、LCMモジュールから入力を受け取り、抽出した情報を解釈する。
これに基づいて、インストラクションジェネレータは、データベースから関連するデータを使用してトレーニングコンテンツを作成する。
命令生成装置は、仮想オブジェクトの色を変更し、タスクを描写するアニメーションを作成することで、命令を生成する。
このアプローチは、トレーニングの有効性を高め、開発オーバーヘッドを低減し、VRベースのトレーニングをよりスケーラブルで、産業的なニーズに適応できるようにします。
関連論文リスト
- VisuCraft: Enhancing Large Vision-Language Models for Complex Visual-Guided Creative Content Generation via Structured Information Extraction [1.8880253210887832]
VisuCraftは、複雑な視覚誘導のクリエイティブコンテンツ生成におけるLVLM(Large Vision-Language Models)の機能を強化するために設計された、新しいフレームワークである。
この結果から,創造性や指示の順応性,視覚的基盤,ユーザ整合性のある長文の創造的テキスト作成における VisuCraft の有効性を検証した。
論文 参考訳(メタデータ) (2025-08-04T20:36:55Z) - LuciBot: Automated Robot Policy Learning from Generated Videos [45.04449337744593]
大規模言語モデル(LLM)や視覚言語モデル(VLM)は、ピック・アンド・プレイスのようなよく定義された報酬を持つ単純なタスクに限られている。
汎用ビデオ生成モデルの想像力を生かして、具体的タスクのためのトレーニング監督を生成する。
提案手法は複雑な実施タスクの監督品質を大幅に向上させ,シミュレータの大規模トレーニングを可能にした。
論文 参考訳(メタデータ) (2025-03-12T22:07:36Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - VR-GPT: Visual Language Model for Intelligent Virtual Reality Applications [2.5022287664959446]
本研究では,VR環境における視覚言語モデルを用いたユーザインタラクションとタスク効率向上のための先駆的アプローチを提案する。
本システムは,視覚的テキスト命令に頼ることなく,自然言語処理によるリアルタイム・直感的なユーザインタラクションを支援する。
論文 参考訳(メタデータ) (2024-05-19T12:56:00Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。