論文の概要: RAG-VR: Leveraging Retrieval-Augmented Generation for 3D Question Answering in VR Environments
- arxiv url: http://arxiv.org/abs/2504.08256v2
- Date: Mon, 14 Apr 2025 01:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 13:21:53.377271
- Title: RAG-VR: Leveraging Retrieval-Augmented Generation for 3D Question Answering in VR Environments
- Title(参考訳): RAG-VR:VR環境における3次元質問応答のための検索強化ジェネレーションの活用
- Authors: Shiyi Ding, Ying Chen,
- Abstract要約: RAG-VRは、検索強化世代(RAG)を組み込んだVR用3次元質問応答システムである
RAG-VRは答えの精度を17.9%-41.8%改善し、2つのベースラインシステムと比較してエンドツーエンドのレイテンシを34.5%-47.3%削減した。
- 参考スコア(独自算出の注目度): 3.2120448116996103
- License:
- Abstract: Recent advances in large language models (LLMs) provide new opportunities for context understanding in virtual reality (VR). However, VR contexts are often highly localized and personalized, limiting the effectiveness of general-purpose LLMs. To address this challenge, we present RAG-VR, the first 3D question-answering system for VR that incorporates retrieval-augmented generation (RAG), which augments an LLM with external knowledge retrieved from a localized knowledge database to improve the answer quality. RAG-VR includes a pipeline for extracting comprehensive knowledge about virtual environments and user conditions for accurate answer generation. To ensure efficient retrieval, RAG-VR offloads the retrieval process to a nearby edge server and uses only essential information during retrieval. Moreover, we train the retriever to effectively distinguish among relevant, irrelevant, and hard-to-differentiate information in relation to questions. RAG-VR improves answer accuracy by 17.9%-41.8% and reduces end-to-end latency by 34.5%-47.3% compared with two baseline systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、仮想現実(VR)におけるコンテキスト理解の新しい機会を提供する。
しかし、VRコンテキストはしばしば高度にローカライズされ、パーソナライズされ、汎用LLMの有効性が制限される。
この課題に対処するために,検索強化生成(RAG)を組み込んだVR用3次元質問応答システムであるRAG-VRを提案する。
RAG-VRには、正確な回答生成のための仮想環境とユーザ条件に関する包括的な知識を抽出するパイプラインが含まれている。
効率的な検索を確保するため、RAG-VRは検索プロセスを近くのエッジサーバにオフロードし、検索時に必須情報のみを使用する。
さらに,検索者に対して,質問に対する関連性,無関係性,難易度を効果的に識別するように訓練する。
RAG-VRは答えの精度を17.9%-41.8%改善し、2つのベースラインシステムと比較してエンドツーエンドのレイテンシを34.5%-47.3%削減した。
関連論文リスト
- Harnessing Large Language Model for Virtual Reality Exploration Testing: A Case Study [5.927266345229359]
大きな言語モデル(LLM)は、情報を長期間保持し、視覚的データとテキストデータの両方を解析する能力を持ち、VRの進化するユーザーインターフェイスの複雑さを解読するための潜在的な鍵として浮上している。
我々は,VR探究試験における視野分析(FOV)におけるLCM(特にGPT-4o)の活用の可能性を検討するために,ケーススタディを実施している。
論文 参考訳(メタデータ) (2025-01-09T23:48:03Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [92.57125498367907]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - DeepNote: Note-Centric Deep Retrieval-Augmented Generation [72.70046559930555]
Retrieval-Augmented Generation (RAG)は質問応答のための大規模言語モデル(LLM)における事実誤りと幻覚を緩和する
我々は、ノート中心の適応検索により、知識ソースの奥深くで堅牢な探索を実現する適応RAGフレームワークであるDeepNoteを開発した。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - Reverse Image Retrieval Cues Parametric Memory in Multimodal LLMs [54.054334823194615]
逆画像検索(Reverse Image Retrieval, RIR)拡張生成は, Web スケールの逆画像検索で MLLM を増強する単純な方法である。
RIRは、GPT-4Vの知識集約型視覚質問応答(VQA)を37-43%、GPT-4 Turboを25-27%、GPT-4oを18-20%改善する。
論文 参考訳(メタデータ) (2024-05-29T04:00:41Z) - Thelxinoë: Recognizing Human Emotions Using Pupillometry and Machine Learning [0.0]
本研究は,現実的かつ感情的に共鳴するタッチインタラクションのための複数のセンサデータを統合することで,VR体験の向上を目的とした,Thelxino"eフレームワークに大きく貢献する。
我々の発見は、没入的でインタラクティブなVR環境を開発するための新しい道を開き、バーチャルタッチ技術の将来の進歩への道を開いた。
論文 参考訳(メタデータ) (2024-03-27T21:14:17Z) - Benchmark Dataset and Effective Inter-Frame Alignment for Real-World
Video Super-Resolution [65.20905703823965]
ビデオ超解像(VSR)は、高解像度(HR)動画を低解像度(LR)ビデオから再構成することを目的としており、近年大きく進歩している。
既存のVSRメソッドを複雑な劣化を伴う実世界のデータにデプロイすることは依然として困難である。
EAVSRは、提案した多層適応空間変換ネットワーク(MultiAdaSTN)を用いて、事前学習した光フロー推定ネットワークが提供するオフセットを洗練する。
論文 参考訳(メタデータ) (2022-12-10T17:41:46Z) - WiserVR: Semantic Communication Enabled Wireless Virtual Reality
Delivery [12.158124978097982]
本稿では,VRユーザに対して連続した360度ビデオフレームを提供するための,Wireless SEmantic deliveRy for VR(WiserVR)という新しいフレームワークを提案する。
ディープラーニングベースの複数のモジュールは、WiserVRのトランシーバとしてよく設計されており、高性能な特徴抽出とセマンティックリカバリを実現している。
論文 参考訳(メタデータ) (2022-11-02T16:22:41Z) - A Review of Emerging Research Directions in Abstract Visual Reasoning [0.0]
入力形態,隠蔽規則,目標課題,認知機能,主な課題の5次元に沿ってタスクを分類する分類法を提案する。
この調査で取り上げられた視点は、共有された異なる性質に関する問題を特徴づけることを可能にし、タスクを解くための既存のアプローチについて統一された視点を提供する。
そのうちの1つは、機械学習の文献において、異なるタスクが独立して検討されていることを示しており、これは人間の知性を測定するためにタスクが使用される方法とは対照的である。
論文 参考訳(メタデータ) (2022-02-21T14:58:02Z) - Feeling of Presence Maximization: mmWave-Enabled Virtual Reality Meets
Deep Reinforcement Learning [76.46530937296066]
本稿では,無線モバイルユーザに対して,超信頼性でエネルギー効率のよいバーチャルリアリティ(VR)体験を提供するという課題について検討する。
モバイルユーザへの信頼性の高い超高精細ビデオフレーム配信を実現するために,コーディネートマルチポイント(CoMP)伝送技術とミリ波(mmWave)通信を利用する。
論文 参考訳(メタデータ) (2021-06-03T08:35:10Z) - Meta-Reinforcement Learning for Reliable Communication in THz/VLC
Wireless VR Networks [157.42035777757292]
屋内テラヘルツ(THz)/可視光通信(VLC)無線ネットワークにおいて,仮想現実(VR)サービスの品質向上の問題について検討した。
小型基地局(sbss)は高品質のvr画像をthzバンド経由でvrユーザーに送信し、発光ダイオード(led)は正確な屋内測位サービスを提供する。
研究したTHz/VLC無線VRネットワークのエネルギー消費を制御するには、VLCアクセスポイント(VAP)を選択的にオンにする必要がある。
論文 参考訳(メタデータ) (2021-01-29T15:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。