論文の概要: Adaptive Visual Navigation Assistant in 3D RPGs
- arxiv url: http://arxiv.org/abs/2508.18539v1
- Date: Mon, 25 Aug 2025 22:20:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.61698
- Title: Adaptive Visual Navigation Assistant in 3D RPGs
- Title(参考訳): 3次元RPGにおける適応型ビジュアルナビゲーションアシスタント
- Authors: Kaijie Xu, Clark Verbrugge,
- Abstract要約: 複雑な3Dゲーム環境では、プレイヤーはマップの遷移点を見つけるために視覚的な余裕に依存する。
本研究では,2つの部分領域間のトラバース可能な空間遷移点(STP)接続を検出するタスクを形式化する。
我々は、まずFaster R-CNNを用いて電位を検出し、次に軽量MSTPセレクタでランク付けする2段階のディープラーニングパイプラインを導入する。
フルネットワークファインチューニングは十分なデータによる優れた検出を実現するが、アダプタのみの転送は、低データシナリオにおいて、はるかに堅牢で効果的である。
- 参考スコア(独自算出の注目度): 3.2586114800974957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In complex 3D game environments, players rely on visual affordances to spot map transition points. Efficient identification of such points is important to client-side auto-mapping, and provides an objective basis for evaluating map cue presentation. In this work, we formalize the task of detecting traversable Spatial Transition Points (STPs)-connectors between two sub regions-and selecting the singular Main STP (MSTP), the unique STP that lies on the designer-intended critical path toward the player's current macro-objective, from a single game frame, proposing this as a new research focus. We introduce a two-stage deep-learning pipeline that first detects potential STPs using Faster R-CNN and then ranks them with a lightweight MSTP selector that fuses local and global visual features. Both stages benefit from parameter-efficient adapters, and we further introduce an optional retrieval-augmented fusion step. Our primary goal is to establish the feasibility of this problem and set baseline performance metrics. We validate our approach on a custom-built, diverse dataset collected from five Action RPG titles. Our experiments reveal a key trade-off: while full-network fine-tuning produces superior STP detection with sufficient data, adapter-only transfer is significantly more robust and effective in low-data scenarios and for the MSTP selection task. By defining this novel problem, providing a baseline pipeline and dataset, and offering initial insights into efficient model adaptation, we aim to contribute to future AI-driven navigation aids and data-informed level-design tools.
- Abstract(参考訳): 複雑な3Dゲーム環境では、プレイヤーはマップの遷移点を見つけるために視覚的な余裕に依存する。
このようなポイントの効率的な識別は、クライアント側の自動マッピングにおいて重要であり、マップキューの提示を評価するための客観的基盤を提供する。
本研究では,2つのサブ領域間の移動可能な空間遷移点(STP)接続体を検出するタスクを形式化し,単一STP(Main STP)を選択する。
我々は、まずFaster R-CNNを用いて潜在的なSTPを検出し、次にローカルとグローバルな視覚機能を融合した軽量MSTPセレクタでランク付けする2段階のディープラーニングパイプラインを導入する。
いずれのステージもパラメータ効率のよいアダプタの恩恵を受けており、オプションの検索拡張融合ステップも導入する。
私たちの一番の目標は、この問題の実現可能性を確立し、ベースラインのパフォーマンス指標を設定することです。
5つのAction RPGタイトルから収集したカスタム構築された多様なデータセットに対するアプローチを検証する。
フルネットワークファインチューニングは十分なデータで優れたSTP検出を実現するが、アダプタのみの転送は低データシナリオやMSTP選択タスクにおいてはるかに堅牢で効果的である。
この新たな問題を定義し、ベースラインパイプラインとデータセットを提供し、効率的なモデル適応に関する最初の洞察を提供することで、将来のAI駆動ナビゲーション支援とデータインフォームドレベルの設計ツールに貢献することを目指している。
関連論文リスト
- Purifying, Labeling, and Utilizing: A High-Quality Pipeline for Small Object Detection [83.90563802153707]
PLUSNetは高品質のSmallオブジェクト検出フレームワークである。
上流の特徴を浄化するための階層的特徴(HFP)フレームワーク、中流トレーニングサンプルの品質を改善するための多重基準ラベル割り当て(MCLA)、下流タスクを達成するためにより効果的に情報を活用するための周波数分離ヘッド(FDHead)の3つのコンポーネントで構成されている。
論文 参考訳(メタデータ) (2025-04-29T10:11:03Z) - EMDFNet: Efficient Multi-scale and Diverse Feature Network for Traffic Sign Detection [11.525603303355268]
小さな物体、特に交通標識の検出は、物体の検出と自律運転において重要なサブタスクである。
これらの課題に乗じて,EMDFNet(Efficient Multi-scale and Diverse Feature Network)という新しいオブジェクト検出ネットワークを提案する。
EMDFNetはAugmented Shortcut ModuleとEfficient Hybridを統合し、上記の問題に同時に対処する。
論文 参考訳(メタデータ) (2024-08-26T11:26:27Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - LF Tracy: A Unified Single-Pipeline Approach for Salient Object Detection in Light Field Cameras [21.224449211575646]
LF Salient Object Detection (SOD) タスクで見落とされた2つの問題を特定した。
従来のアプローチでは、主に光界画像内の空間的・深度的特徴を発見するために、カスタマイズされた2ストリーム設計を採用していた。
ネットワークは、ネットワーク内のデータ接続の欠如により、異なる画像間で暗黙の角情報を学ぶのに苦労している。
これらの問題に対処するための効率的なパラダイム(LF Tracy)を提案する。
論文 参考訳(メタデータ) (2024-01-30T03:17:02Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Position-guided Text Prompt for Vision-Language Pre-training [121.15494549650548]
本研究では,ビジョンランゲージ・プレトレーニングで訓練したクロスモーダルモデルの視覚的グラウンド化能力を高めるために,位置誘導型テキストプロンプト(PTP)パラダイムを提案する。
PTPは、与えられたブロック内のオブジェクトを予測したり、与えられたオブジェクトのブロックを後退させたりすることで、PTPが与えられた視覚的グラウンドタスクを補充するブランク問題に再構成する。
PTPはオブジェクト検出をベースとした手法で同等の結果を得るが、PTPがオブジェクト検出を破棄し、後続では不可能になるため、推論速度ははるかに速い。
論文 参考訳(メタデータ) (2022-12-19T18:55:43Z) - DPTNet: A Dual-Path Transformer Architecture for Scene Text Detection [34.42038300372715]
我々は,シーンテキスト検出タスクのグローバルおよびローカル情報をモデル化する,シンプルで効果的なアーキテクチャであるDPTNetを提案する。
本稿では,コンボリューションネットワークと強力な自己認識機構を統合した並列設計を提案し,注目経路と畳み込み経路の相補的な手がかりを提供する。
我々のDPTNetはMSRA-TD500データセットの最先端結果を実現し、検出精度と速度の両面で他の標準ベンチマーク上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-08-21T12:58:45Z) - Multi-View Adaptive Fusion Network for 3D Object Detection [14.506796247331584]
LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。
本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。
これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-02T00:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。