論文の概要: Spatial Traces: Enhancing VLA Models with Spatial-Temporal Understanding
- arxiv url: http://arxiv.org/abs/2508.09032v1
- Date: Tue, 12 Aug 2025 15:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.487986
- Title: Spatial Traces: Enhancing VLA Models with Spatial-Temporal Understanding
- Title(参考訳): 空間的トレース:空間的時間的理解によるVLAモデルの強化
- Authors: Maxim A. Patratskiy, Alexey K. Kovalev, Aleksandr I. Panov,
- Abstract要約: 本研究では,観測から深度マップにキーポイントの視覚的トレースを投影し,空間情報と時間情報の両方を同時に取得する手法を提案する。
SimplerEnvの実験では、SpatialVLAの4%、TraceVLAの19%に比べて、解決したタスクの平均数が増加した。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action models have demonstrated remarkable capabilities in predicting agent movements within virtual environments and real-world scenarios based on visual observations and textual instructions. Although recent research has focused on enhancing spatial and temporal understanding independently, this paper presents a novel approach that integrates both aspects through visual prompting. We introduce a method that projects visual traces of key points from observations onto depth maps, enabling models to capture both spatial and temporal information simultaneously. The experiments in SimplerEnv show that the mean number of tasks successfully solved increased for 4% compared to SpatialVLA and 19% compared to TraceVLA. Furthermore, we show that this enhancement can be achieved with minimal training data, making it particularly valuable for real-world applications where data collection is challenging. The project page is available at https://ampiromax.github.io/ST-VLA.
- Abstract(参考訳): 視覚・言語・アクションモデルでは、仮想環境内のエージェントの動きを予測し、視覚的な観察やテキストによる指示に基づいて現実のシナリオを予測できることが示されている。
近年の研究では,空間的・時間的理解を独立に向上することに焦点を当てているが,視覚的プロンプトを通じて両側面を統合する新しいアプローチを提案する。
本研究では,観測から深度マップにキーポイントの視覚的トレースを投影し,空間情報と時間情報の両方を同時に取得する手法を提案する。
SimplerEnvの実験では、SpatialVLAの4%、TraceVLAの19%に比べて、解決したタスクの平均数が増加した。
さらに、この拡張は、最小限のトレーニングデータで達成できることを示し、データ収集が困難である現実世界のアプリケーションにとって特に有用であることを示す。
プロジェクトページはhttps://ampiromax.github.io/ST-VLAで公開されている。
関連論文リスト
- Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-03T00:51:03Z) - VILOD: A Visual Interactive Labeling Tool for Object Detection [0.0]
この論文は「VILOD:オブジェクト検出のためのビジュアルインタラクティブラベリングツール」を開発・研究している。
これによりユーザは、データ探索、モデル状態の解釈、AL提案、オブジェクト検出のための反復型HITLワークフロー内のさまざまなサンプル選択戦略の実装が可能になる。
この研究は、VILODで使用される異なる視覚誘導型ラベリング戦略が、競合するOD性能トラジェクトリをもたらすことを示した。
論文 参考訳(メタデータ) (2025-08-29T19:27:10Z) - ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver [35.25196177784228]
本稿では,暗黙的な基礎パラダイムを持つ再構成型VLAモデルReconVLAを提案する。
拡散変換器は、モデルの視覚出力に基づいて画像の視線領域を再構成する。
このプロセスにより、VLAモデルはきめ細かい表現を学習し、視覚的注意を正確に割り当てる。
論文 参考訳(メタデータ) (2025-08-14T04:20:19Z) - TrackVLA: Embodied Visual Tracking in the Wild [34.03604806748204]
Embodied visual trackingは、Embodied AIの基本的なスキルであり、エージェントは、自我中心の視覚のみを使用して、動的環境における特定のターゲットに従うことができる。
既存のアプローチは通常、認識と計画のモジュラー分離を通じてこの問題に対処する。
本研究では,物体認識と軌道計画の相乗効果を学習する視覚・言語・行動モデルであるTrackVLAを提案する。
論文 参考訳(メタデータ) (2025-05-29T07:28:09Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Learning to Localize Objects Improves Spatial Reasoning in Visual-LLMs [38.02017186215372]
大きな言語モデル(LLM)を視覚領域タスクに統合し、視覚的なLLM(V-LLM)を実現することにより、視覚言語タスクにおける例外的なパフォーマンスを実現している。
しかし、既存のV-LLMは空間的推論と局所化認識が弱い。
画像空間座標に基づく微調整目標が空間認識をV-LLMに注入する方法について検討する。
論文 参考訳(メタデータ) (2024-04-11T03:09:34Z) - GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection [24.48128633414131]
画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。
提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-22T20:14:55Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - DeepVisualInsight: Time-Travelling Visualization for Spatio-Temporal
Causality of Deep Classification Training [7.4940788786485095]
本稿では,深層学習画像の学習中に因果性を示すことを目的とした,時間旅行型ビジュアルソリューションDeepVisualInsightを提案する。
本研究では,学習した入力表現のレイアウトと,連続したエポックにおける境界にどのような影響を及ぼすかを示す。
実験により, ベースライン手法と比較して, 空間的・時間的特性と可視化効率について, 最高の可視化性能が得られることを示した。
論文 参考訳(メタデータ) (2021-12-31T07:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。