論文の概要: STRNet: Visual Navigation with Spatio-Temporal Representation through Dynamic Graph Aggregation
- arxiv url: http://arxiv.org/abs/2604.02829v1
- Date: Fri, 03 Apr 2026 07:50:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.381037
- Title: STRNet: Visual Navigation with Spatio-Temporal Representation through Dynamic Graph Aggregation
- Title(参考訳): STRNet:動的グラフ集約による時空間表現によるビジュアルナビゲーション
- Authors: Hao Ren, Zetong Bi, Yiming Zeng, Zhaoliang Wan, Lu Qi, Hui Cheng,
- Abstract要約: 視覚ナビゲーションでは、ロボットは1対1の視覚的観察に基づいて目標に到達する必要がある。
近年の学習ベースアプローチは大きな進歩を遂げているが、視覚入力を表すため、簡易な特徴エンコーダと時間プーリングに依存している。
ロボットナビゲーションのための視覚的エンコーディングを強化する統合時間表現フレームワークを提案する。
- 参考スコア(独自算出の注目度): 31.811040430729673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual navigation requires the robot to reach a specified goal such as an image, based on a sequence of first-person visual observations. While recent learning-based approaches have made significant progress, they often focus on improving policy heads or decision strategies while relying on simplistic feature encoders and temporal pooling to represent visual input. This leads to the loss of fine-grained spatial and temporal structure, ultimately limiting accurate action prediction and progress estimation. In this paper, we propose a unified spatio-temporal representation framework that enhances visual encoding for robotic navigation. Our approach extracts features from both image sequences and goal observations, and fuses them using the designed spatio-temporal fusion module. This module performs spatial graph reasoning within each frame and models temporal dynamics using a hybrid temporal shift module combined with multi-resolution difference-aware convolution. Experimental results demonstrate that our approach consistently improves navigation performance and offers a generalizable visual backbone for goal-conditioned control. Code is available at \href{https://github.com/hren20/STRNet}{https://github.com/hren20/STRNet}.
- Abstract(参考訳): 視覚ナビゲーションでは、ロボットは、一対一の視覚観察のシーケンスに基づいて、画像などの特定の目標に到達する必要がある。
最近の学習ベースのアプローチは大きな進歩を遂げているが、彼らはしばしば、視覚的な入力を表現するための単純な特徴エンコーダと時間プーリングに依存しながら、ポリシーヘッドや意思決定戦略の改善に重点を置いている。
これにより、微細な空間構造と時間構造が失われ、最終的に正確な行動予測と進行予測が制限される。
本稿では,ロボットナビゲーションの視覚的エンコーディングを強化する統合時空間表現フレームワークを提案する。
提案手法は,画像シーケンスと目標観測の両方から特徴を抽出し,設計時空間融合モジュールを用いて融合する。
このモジュールは、各フレーム内で空間グラフ推論を行い、多重時間シフトモジュールと多分解能差認識畳み込みを組み合わせた時間ダイナミクスをモデル化する。
実験により,本手法はナビゲーション性能を常に改善し,目標条件制御のための一般化可能な視覚バックボーンを提供することが示された。
コードは \href{https://github.com/hren20/STRNet}{https://github.com/hren20/STRNet} で公開されている。
関連論文リスト
- Learning Spatio-Temporal Feature Representations for Video-Based Gaze Estimation [50.05866669110754]
映像に基づく視線推定手法は、複数の画像フレームから人間の視線の本質的な時間的ダイナミクスを捉えることを目的としている。
本稿では、CNNバックボーンと専用のチャンネルアテンションと自己注意モジュールを組み合わせたモデルであるSpatio-Temporal Gaze Network(ST-Gaze)を提案する。
そこで本研究では,ST-Gazeが個人固有の適応を伴わずとも最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-12-19T15:15:58Z) - RadarSeq: A Temporal Vision Framework for User Churn Prediction via Radar Chart Sequences [0.0]
本稿では,ユーザの行動パターンをレーダチャート画像のシーケンスとしてモデル化する,時間的認識型コンピュータビジョンフレームワークを提案する。
我々のアーキテクチャは、チャーン行動に基づく空間的パターンと時間的パターンの両方をキャプチャする。
フレームワークのモジュール設計、説明可能性ツール、効率的なデプロイメント特性は、動的ギグエコノミープラットフォームにおける大規模チャーンモデリングに適している。
論文 参考訳(メタデータ) (2025-06-18T22:20:49Z) - ColorMNet: A Memory-based Deep Spatial-Temporal Feature Propagation Network for Video Colorization [62.751303924391564]
映像のカラー化において,空間時間的特徴を効果的に探索する方法が重要である。
我々は,メモリベースの機能伝搬モジュールを開発し,遠方のフレームからの機能との信頼性の高い接続を確立する。
空間時間近傍の隣接するフレームから特徴を集約するローカルアテンションモジュールを開発した。
論文 参考訳(メタデータ) (2024-04-09T12:23:30Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - Revisiting the Spatial and Temporal Modeling for Few-shot Action
Recognition [16.287968292213563]
スロシュネット(SloshNet)は、数発のアクション認識のための空間的および時間的モデリングを、より細かく修正する新しいフレームワークである。
提案するSloshNetは,Something V2, Kinetics, UCF101, HMDB51の4つのアクション認識データセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-01-19T08:34:04Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。