論文の概要: Inside Knowledge: Graph-based Path Generation with Explainable Data Augmentation and Curriculum Learning for Visual Indoor Navigation
- arxiv url: http://arxiv.org/abs/2508.11446v1
- Date: Fri, 15 Aug 2025 12:54:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.956751
- Title: Inside Knowledge: Graph-based Path Generation with Explainable Data Augmentation and Curriculum Learning for Visual Indoor Navigation
- Title(参考訳): 内部知識:ビジュアル室内ナビゲーションのための説明可能なデータ拡張とカリキュラム学習によるグラフベースのパス生成
- Authors: Daniel Airinei, Elena Burceanu, Marius Leordeanu,
- Abstract要約: 我々は,モバイルデバイスが捉えた画像からターゲットへの方向を予測できる,効率的でリアルタイムで容易にデプロイ可能なディープラーニングアプローチを導入する。
実用面では、比較的大規模なショッピングモール内にビデオ映像を配置し、それぞれのフレームに適切な次の方向をアノテートして、異なる特定の目的地に向けてアノテートする、新しい大規模データセットを導入する。
我々の技術は視覚のみに依存しており、特別なセンサー、道に沿って配置されたマーカー、シーンマップの知識、インターネットアクセスなどを必要としない。
- 参考スコア(独自算出の注目度): 12.116725436513699
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Indoor navigation is a difficult task, as it generally comes with poor GPS access, forcing solutions to rely on other sources of information. While significant progress continues to be made in this area, deployment to production applications is still lacking, given the complexity and additional requirements of current solutions. Here, we introduce an efficient, real-time and easily deployable deep learning approach, based on visual input only, that can predict the direction towards a target from images captured by a mobile device. Our technical approach, based on a novel graph-based path generation method, combined with explainable data augmentation and curriculum learning, includes contributions that make the process of data collection, annotation and training, as automatic as possible, efficient and robust. On the practical side, we introduce a novel largescale dataset, with video footage inside a relatively large shopping mall, in which each frame is annotated with the correct next direction towards different specific target destinations. Different from current methods, ours relies solely on vision, avoiding the need of special sensors, additional markers placed along the path, knowledge of the scene map or internet access. We also created an easy to use application for Android, which we plan to make publicly available. We make all our data and code available along with visual demos on our project site
- Abstract(参考訳): 屋内ナビゲーションは、一般的にGPSアクセスが貧弱なため、他の情報源に頼らざるを得ないため、難しい作業だ。
この領域では大きな進歩が続いているが、現在のソリューションの複雑さと追加の要件を考えれば、本番アプリケーションへのデプロイメントはまだ不足している。
本稿では,視覚的入力のみに基づいて,モバイルデバイスが捉えた画像から目標に向かっての方向を予測する,効率的でリアルタイムで容易にデプロイ可能なディープラーニング手法を提案する。
我々の技術的アプローチは、新しいグラフベースのパス生成法と、説明可能なデータ拡張とカリキュラム学習を組み合わせることで、データ収集、アノテーション、トレーニングのプロセスを可能な限り自動化し、効率的かつ堅牢にするためのコントリビューションを含む。
実用面では、比較的大規模なショッピングモール内にビデオ映像を配置し、それぞれのフレームに適切な次の方向をアノテートして、異なる特定の目的地に向けてアノテートする、新しい大規模データセットを導入する。
現在の方法と異なり、私たちは視覚のみに依存しており、特別なセンサー、経路に沿って配置されたマーカー、シーンマップの知識、インターネットアクセスを不要にしています。
また、Android用の使いやすいアプリケーションも作成しました。
プロジェクトサイトのビジュアルデモとともに、すべてのデータとコードを利用可能にしています。
関連論文リスト
- Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - SelfD: Self-Learning Large-Scale Driving Policies From the Web [13.879536370173506]
SelfDは、大量のオンラインモノクロイメージを利用することで、スケーラブルな運転を学ぶためのフレームワークである。
公開されているYouTubeビデオの大規模なデータセットを使用して、SelfDをトレーニングし、その一般化のメリットを、困難なナビゲーションシナリオ全体にわたって包括的に分析します。
論文 参考訳(メタデータ) (2022-04-21T17:58:36Z) - ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [94.60414567852536]
長距離航法には、計画と局所的な移動可能性の推論の両方が必要である。
学習と計画を統合する学習に基づくアプローチを提案する。
ViKiNGは、画像ベースの学習コントローラを利用できる。
論文 参考訳(メタデータ) (2022-02-23T02:14:23Z) - Lifelong Topological Visual Navigation [16.41858724205884]
本稿では,生涯ナビゲーション性能を時間とともに向上させるグラフ更新戦略を用いた学習型ビジュアルナビゲーション手法を提案する。
画像に基づくトポロジグラフを構築するためのサンプリングベースの計画アルゴリズムから着想を得た結果,スペーサーグラフはベースライン法に比べてナビゲーション性能が高い。
固定的なトレーニング環境から学習するコントローラとは異なり、ロボットが配置される実環境から比較的小さなデータセットを使ってモデルを微調整できることが示される。
論文 参考訳(メタデータ) (2021-10-16T06:16:14Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z) - ViNG: Learning Open-World Navigation with Visual Goals [82.84193221280216]
視覚的目標達成のための学習に基づくナビゲーションシステムを提案する。
提案手法は,我々がvingと呼ぶシステムが,目標条件強化学習のための提案手法を上回っていることを示す。
我々は、ラストマイル配送や倉庫検査など、現実の多くのアプリケーションでViNGを実演する。
論文 参考訳(メタデータ) (2020-12-17T18:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。