論文の概要: VL-KnG: Visual Scene Understanding for Navigation Goal Identification using Spatiotemporal Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2510.01483v1
- Date: Wed, 01 Oct 2025 21:53:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.888788
- Title: VL-KnG: Visual Scene Understanding for Navigation Goal Identification using Spatiotemporal Knowledge Graphs
- Title(参考訳): VL-KnG:時空間知識グラフを用いたナビゲーションゴール識別のための視覚的シーン理解
- Authors: Mohamad Al Mdfaa, Svetlana Lukina, Timur Akhtyamov, Arthur Nigmatzyanov, Dmitrii Nalberskii, Sergey Zagoruyko, Gonzalo Ferrer,
- Abstract要約: 本稿では,知識グラフ構築と識別のための効率的なクエリ処理を用いて,課題に対処するビジュアルシーン理解システムを提案する。
また、WalkieKnowledgeという、約100分間のビデオデータにまたがる8つのさまざまなトラジェクトリに対して、約200の注釈付き質問が手動で表示される新しいベンチマークも導入しました。
- 参考スコア(独自算出の注目度): 2.779512031764865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have shown potential for robot navigation but encounter fundamental limitations: they lack persistent scene memory, offer limited spatial reasoning, and do not scale effectively with video duration for real-time application. We present VL-KnG, a Visual Scene Understanding system that tackles these challenges using spatiotemporal knowledge graph construction and computationally efficient query processing for navigation goal identification. Our approach processes video sequences in chunks utilizing modern VLMs, creates persistent knowledge graphs that maintain object identity over time, and enables explainable spatial reasoning through queryable graph structures. We also introduce WalkieKnowledge, a new benchmark with about 200 manually annotated questions across 8 diverse trajectories spanning approximately 100 minutes of video data, enabling fair comparison between structured approaches and general-purpose VLMs. Real-world deployment on a differential drive robot demonstrates practical applicability, with our method achieving 77.27% success rate and 76.92% answer accuracy, matching Gemini 2.5 Pro performance while providing explainable reasoning supported by the knowledge graph, computational efficiency for real-time deployment across different tasks, such as localization, navigation and planning. Code and dataset will be released after acceptance.
- Abstract(参考訳): 視覚言語モデル(VLM)は、ロボットナビゲーションの可能性を示しているが、基本的な制限に直面している。
本稿では、時空間知識グラフの構築とナビゲーション目標識別のための計算効率の良いクエリ処理を用いて、これらの課題に対処する視覚シーン理解システムVL-KnGを提案する。
提案手法は,最新のVLMを用いたチャンク内のビデオシーケンスを処理し,時間とともにオブジェクトの同一性を維持する永続的な知識グラフを作成し,クエリ可能なグラフ構造による空間的推論を可能にする。
また、約100分間のビデオデータにまたがる8つの異なる軌跡に対して、約200の注釈付き質問を手動で行う新しいベンチマークであるWalkieKnowledgeを導入し、構造化されたアプローチと汎用VLMとの公正な比較を可能にした。
実世界のディファレンシャルドライブロボットへの展開は,77.27%の成功率と76.92%の回答精度を達成し,知識グラフがサポートする説明可能な推論と,ローカライゼーションやナビゲーション,計画など,さまざまなタスクを対象としたリアルタイムデプロイメントの計算効率を提供しながら,Gemini 2.5 Proのパフォーマンスに適合することを示す。
コードとデータセットは受け入れた後にリリースされる。
関連論文リスト
- Perceive, Reflect and Understand Long Video: Progressive Multi-Granular Clue Exploration with Interactive Agents [60.095739427926524]
時間的およびスパースなタスク関連情報を特徴とするロングビデオは、AIシステムに重大な推論課題を生じさせる。
人間のプログレッシブな視覚認知にインスパイアされ、我々はCogniGPTを効率的で信頼性の高い長時間ビデオ理解のために提案する。
論文 参考訳(メタデータ) (2025-09-29T15:42:55Z) - Think With Videos For Agentic Long-Video Understanding [117.68219930263153]
ロングビデオ理解はコンピュータビジョンにおいて難しい問題である。
ビデオによる思考の原則に基づくフレームワークであるVideoExplorerを提案する。
静的なコンテキストを推論する代わりに、VideoExplorerは、サブクエストを反復的に定式化し、関連するモーメントを特定し、タスク指向で時間的にスケーラブルなビデオ理解を実行する。
論文 参考訳(メタデータ) (2025-06-12T15:39:10Z) - Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Perception Framework through Real-Time Semantic Segmentation and Scene
Recognition on a Wearable System for the Visually Impaired [27.04316520914628]
シーン解析および認識タスクのためのマルチタスク効率的な認識システムを提案する。
このシステムは、Intel RealSense LiDARカメラとNvidia Jetson AGX Xavierプロセッサを搭載したウェアラブルベルト上で動作する。
論文 参考訳(メタデータ) (2021-03-06T15:07:17Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。