論文の概要: SEER-VAR: Semantic Egocentric Environment Reasoner for Vehicle Augmented Reality
- arxiv url: http://arxiv.org/abs/2508.17255v1
- Date: Sun, 24 Aug 2025 08:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.428057
- Title: SEER-VAR: Semantic Egocentric Environment Reasoner for Vehicle Augmented Reality
- Title(参考訳): SEER-VAR:車載拡張現実のためのセマンティックエゴシック環境共振器
- Authors: Yuzhi Lai, Shenghai Yuan, Peizheng Li, Jun Lou, Andreas Zell,
- Abstract要約: 本稿では, セマンティック分解, コンテキスト認識SLAMブランチ, LLM駆動のレコメンデーションを統一する, 自己中心型拡張現実(AR)のための新しいフレームワークを提案する。
この結果から,SEER-topは空間的アライメントの堅牢性を実現し,様々な環境において知覚的に一貫性のあるARレンダリングを実現することを示す。
以上の結果から,SEER-topはシーン理解,オーバーレイ関連性,ドライバの容易性を向上し,今後の研究の基盤となることが示唆された。
- 参考スコア(独自算出の注目度): 22.43676460290477
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present SEER-VAR, a novel framework for egocentric vehicle-based augmented reality (AR) that unifies semantic decomposition, Context-Aware SLAM Branches (CASB), and LLM-driven recommendation. Unlike existing systems that assume static or single-view settings, SEER-VAR dynamically separates cabin and road scenes via depth-guided vision-language grounding. Two SLAM branches track egocentric motion in each context, while a GPT-based module generates context-aware overlays such as dashboard cues and hazard alerts. To support evaluation, we introduce EgoSLAM-Drive, a real-world dataset featuring synchronized egocentric views, 6DoF ground-truth poses, and AR annotations across diverse driving scenarios. Experiments demonstrate that SEER-VAR achieves robust spatial alignment and perceptually coherent AR rendering across varied environments. As one of the first to explore LLM-based AR recommendation in egocentric driving, we address the lack of comparable systems through structured prompting and detailed user studies. Results show that SEER-VAR enhances perceived scene understanding, overlay relevance, and driver ease, providing an effective foundation for future research in this direction. Code and dataset will be made open source.
- Abstract(参考訳): 本稿では, セマンティック分解, コンテキスト対応SLAMブランチ(CASB), LLMによる推奨を統一する, 自我中心型拡張現実(AR)のための新しいフレームワークSEER-VARを提案する。
静的または単一ビューの設定を前提とする既存のシステムとは異なり、SEER-VARは奥行き誘導視覚言語による接地によってキャビンと道路のシーンを動的に分離する。
2つのSLAMブランチは、各コンテキストにおけるエゴセントリックな動きを追跡し、GPTベースのモジュールは、ダッシュボードキューや警告などのコンテキスト対応オーバーレイを生成する。
評価をサポートするために、EgoSLAM-Driveを紹介した。EgoSLAM-Driveは、同期されたエゴセントリックなビュー、6DoFのグラウンドトルースポーズ、さまざまな駆動シナリオにまたがるARアノテーションを備えた現実世界のデータセットである。
実験により,SEER-VARは空間的アライメントと知覚的コヒーレントなARレンダリングを実現することが示された。
LLMベースのARレコメンデーションをエゴセントリックな運転で最初に探求した1人として、構造化されたプロンプトと詳細なユーザスタディを通じて、同等のシステムが欠如していることに対処する。
以上の結果から,SEER-VARはシーン理解,オーバーレイ関連性,ドライバの容易性を向上し,今後の研究の基盤となることが示唆された。
コードとデータセットはオープンソースになる。
関連論文リスト
- Annotation-Free Open-Vocabulary Segmentation for Remote-Sensing Images [51.74614065919118]
本稿では,アノテーションのないRS画像のオープン語彙セグメンテーションのための最初のフレームワークであるSegEarth-OVを紹介する。
粗い特徴から高分解能空間の詳細を頑健に復元する普遍的なアップサンプラーであるSimFeatUpを提案する。
また、パッチ機能から固有のグローバルコンテキストを抽出するための、シンプルで効果的なグローバルバイアス緩和操作も提示する。
論文 参考訳(メタデータ) (2025-08-25T14:22:57Z) - The ATLAS of Traffic Lights: A Reliable Perception Framework for Autonomous Driving [9.932968493913357]
本稿では,最先端検出モデルと新たなリアルタイムアソシエーションと意思決定フレームワークを統合したモジュール化された認識フレームワークを提案する。
我々は、交通信号状態とピクトグラムの包括的なアノテーションを提供するATLASデータセットを紹介した。
我々は、ATLAS上のいくつかの最先端の信号検出アーキテクチャを訓練し、評価し、精度とロバスト性の両方において顕著な性能向上を示す。
論文 参考訳(メタデータ) (2025-04-28T12:15:42Z) - SenseRAG: Constructing Environmental Knowledge Bases with Proactive Querying for LLM-Based Autonomous Driving [10.041702058108482]
本研究では,大規模言語モデル(LLM)の文脈推論機能を活用することにより,自律運転(AD)における状況認識の高度化の必要性に対処する。
厳密なラベルベースのアノテーションに依存する従来の認識システムとは異なり、リアルタイムのマルチモーダルセンサーデータを統一されたLLM対応の知識ベースに統合する。
実世界のV2Xデータセットを用いた実験結果は、知覚と予測性能の大幅な改善を示す。
論文 参考訳(メタデータ) (2025-01-07T05:15:46Z) - A Cross-Scene Benchmark for Open-World Drone Active Tracking [54.235808061746525]
Drone Visual Active Trackingは、視覚的な観察に基づいてモーションシステムを制御することで、対象物を自律的に追跡することを目的としている。
DATと呼ばれるオープンワールドドローンアクティブトラッキングのためのクロスシーンクロスドメインベンチマークを提案する。
また、R-VATと呼ばれる強化学習に基づくドローン追跡手法を提案する。
論文 参考訳(メタデータ) (2024-12-01T09:37:46Z) - Deep Attention Driven Reinforcement Learning (DAD-RL) for Autonomous Decision-Making in Dynamic Environment [2.3575550107698016]
AV中心の時間的注意符号化(STAE)機構を導入し,周囲の車両との動的相互作用を学習する。
マップとルートのコンテキストを理解するために,コンテキストマップの抽出にコンテキストエンコーダを用いる。
得られたモデルは、Soft Actor Critic (SAC)アルゴリズムを用いて訓練される。
論文 参考訳(メタデータ) (2024-07-12T02:34:44Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。
LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。
この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - LaMAR: Benchmarking Localization and Mapping for Augmented Reality [80.23361950062302]
異種ARデバイスでキャプチャされたリアルな軌跡とセンサストリームを共登録する,包括的キャプチャとGTパイプラインを備えた新しいベンチマークであるLaMARを紹介する。
私たちは、ヘッドマウントとハンドヘルドARデバイスで記録された多様な大規模シーンのベンチマークデータセットを公開します。
論文 参考訳(メタデータ) (2022-10-19T17:58:17Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。