Fugu-MT 論文翻訳(概要): How Far Can We Go with Pixels Alone? A Pilot Study on Screen-Only Navigation in Commercial 3D ARPGs

論文の概要: How Far Can We Go with Pixels Alone? A Pilot Study on Screen-Only Navigation in Commercial 3D ARPGs

arxiv url: http://arxiv.org/abs/2602.18981v1
Date: Sat, 21 Feb 2026 23:15:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.427801
Title: How Far Can We Go with Pixels Alone? A Pilot Study on Screen-Only Navigation in Commercial 3D ARPGs
Title（参考訳）: スマホの3DARPGにおけるスクリーンオンリーナビゲーションのパイロット研究
Authors: Kaijie Xu, Mustafa Bugti, Clark Verbrugge,
Abstract要約: 我々は、既存のオープンソースのビジュアルアベイランス検出器を構築し、スクリーンのみの探索とナビゲーションエージェントをインスタンス化する。我々のエージェントは、ライブゲームフレームを消費し、有意な関心点を特定し、最小のアクション空間上で単純な有限状態コントローラを駆動する。実験では、エージェントは最も必要なセグメントを横切ることができ、意味のある視覚的なナビゲーションの振る舞いを示す。
参考スコア（独自算出の注目度）: 2.8993790400286876
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern 3D game levels rely heavily on visual guidance, yet the navigability of level layouts remains difficult to quantify. Prior work either simulates play in simplified environments or analyzes static screenshots for visual affordances, but neither setting faithfully captures how players explore complex, real-world game levels. In this paper, we build on an existing open-source visual affordance detector and instantiate a screen-only exploration and navigation agent that operates purely from visual affordances. Our agent consumes live game frames, identifies salient interest points, and drives a simple finite-state controller over a minimal action space to explore Dark Souls-style linear levels and attempt to reach expected goal regions. Pilot experiments show that the agent can traverse most required segments and exhibits meaningful visual navigation behavior, but also highlight that limitations of the underlying visual model prevent truly comprehensive and reliable auto-navigation. We argue that this system provides a concrete, shared baseline and evaluation protocol for visual navigation in complex games, and we call for more attention to this necessary task. Our results suggest that purely vision-based sense-making models, with discrete single-modality inputs and without explicit reasoning, can effectively support navigation and environment understanding in idealized settings, but are unlikely to be a general solution on their own.
Abstract（参考訳）: 現代の3Dゲームレベルは視覚的ガイダンスに大きく依存しているが、レベルレイアウトのナビゲート性は定量化が難しいままである。以前の作業では、シンプルな環境でのプレイをシミュレートしたり、視覚的な余裕のために静的スクリーンショットを分析したりしていましたが、どちらもプレイヤーが複雑な現実世界のゲームレベルを探索する方法を忠実に捉えていません。本稿では,既存のビジュアルアベイランス検出装置を構築し,視覚アベイランスから純粋に動作するスクリーンオンリー探索ナビゲーションエージェントをインスタンス化する。エージェントはライブゲームフレームを消費し、健全な関心点を識別し、最小のアクション空間上で単純な有限状態コントローラを駆動し、ダークソウルスタイルの線形レベルを探索し、期待されるゴール領域に到達しようとする。実験により、エージェントは必要となるほとんどのセグメントを横切ることができ、意味のある視覚的ナビゲーション行動を示すだけでなく、基礎となる視覚モデルの限界が真に包括的で信頼性の高いオートナビゲーションを妨げていることも明らかになった。本稿では,複雑なゲームにおけるビジュアルナビゲーションのための,具体的で共有されたベースラインと評価プロトコルを提供することを論じる。本研究は, 視覚に基づく感覚生成モデルにおいて, 個別の単一モダリティ入力を持ち, 明確な推論を伴わず, ナビゲーションと環境理解を理想化された環境で効果的に支援できることを示唆する。

関連論文リスト

FeudalNav: A Simple Framework for Visual Navigation [7.136542835931238]
ナビゲーション決定過程を複数のレベルに分解する階層的なフレームワークを開発する。提案手法は,簡単な経路選択ネットワークを通じてサブゴールを選択することを学習する。トレーニングや推論にオドメトリを使わずに,Habitat AI環境におけるSOTA手法のスイートによる競合結果を示す。
論文参考訳（メタデータ） (2026-01-15T22:10:29Z)
Visuospatial navigation without distance, prediction, integration, or maps [1.3812010983144802]
ナビゲーションは、少なくとも2つの部分的に解離可能な、同時に開発された脳のシステムによって制御される。ここでは、古典的オープンフィールドナビゲーションタスクにおいて、認知地図を必要とすると仮定される視覚応答に基づく意思決定が十分であることを示す。 3つの異なる戦略が浮かび上がっており、それぞれがコンテキストのトレードオフを提示し、またげっ歯類、昆虫、魚、精子で観察された行動と一致している。
論文参考訳（メタデータ） (2024-07-18T14:07:44Z)
Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文参考訳（メタデータ） (2024-02-29T06:31:18Z)
Learning Navigational Visual Representations with Semantic Map Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。 Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文参考訳（メタデータ） (2023-07-23T14:01:05Z)
CCPT: Automatic Gameplay Testing and Validation with Curiosity-Conditioned Proximal Trajectories [65.35714948506032]
Curiosity-Conditioned Proximal Trajectories (CCPT)法は、好奇心と模倣学習を組み合わせてエージェントを訓練して探索する。 CCPTが複雑な環境を探索し、ゲームプレイの問題を発見し、その過程におけるデザインの監視を行い、それらをゲームデザイナーに直接認識し、強調する方法について説明する。
論文参考訳（メタデータ） (2022-02-21T09:08:33Z)
Augmented reality navigation system for visual prosthesis [67.09251544230744]
反応ナビゲーションと経路計画のソフトウェアを組み込んだ視覚補綴用拡張現実ナビゲーションシステムを提案する。対象を地図上に配置し、対象の軌道を計画し、対象に示し、障害なく再計画する。その結果,目標を達成するための時間と距離を減らし,障害物衝突の回数を大幅に減らし,航法性能の向上を図っている。
論文参考訳（メタデータ） (2021-09-30T09:41:40Z)
Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文参考訳（メタデータ） (2021-07-07T12:09:04Z)
Pathdreamer: A World Model for Indoor Navigation [62.78410447776939]
本研究では,新しい屋内環境をナビゲートするエージェントの視覚的世界モデルPathdreamerを紹介する。過去に1つ以上の視覚観測がなされると、パスドレーマーは可視性の高い高解像度の360度視覚観測を生成する。不確実性の高い地域では、Pathdreamerは多様なシーンを予測でき、エージェントは複数の現実的な結果をサンプリングすることができる。
論文参考訳（メタデータ） (2021-05-18T18:13:53Z)
Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文参考訳（メタデータ） (2021-03-30T17:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。