論文の概要: TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2602.02459v1
- Date: Mon, 02 Feb 2026 18:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.101109
- Title: TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments
- Title(参考訳): TIC-VLA:動的環境におけるロボットナビゲーションのための概念内視覚言語行動モデル
- Authors: Zhiyu Huang, Yun Zhang, Johnson Liu, Rui Song, Chen Tang, Jiaqi Ma,
- Abstract要約: 本稿では,動作生成中に遅延セマンティック推論を明示的にモデル化する遅延認識フレームワークであるThink-in-Control (TIC)-VLAを紹介する。
TIC-VLAは、遅延視覚言語セマンティックステートと明示的な遅延メタデータのアクション生成を条件とする遅延セマンティックコントロールインターフェースを定義する。
現実的な評価を支援するために,動的環境における言語誘導ナビゲーションのための物理精度の高いフォトリアリスティック・シミュレーションスイートDynaNavを提案する。
- 参考スコア(独自算出の注目度): 23.799083918923344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots in dynamic, human-centric environments must follow language instructions while maintaining real-time reactive control. Vision-language-action (VLA) models offer a promising framework, but they assume temporally aligned reasoning and control, despite semantic inference being inherently delayed relative to real-time action. We introduce Think-in-Control (TIC)-VLA, a latency-aware framework that explicitly models delayed semantic reasoning during action generation. TIC-VLA defines a delayed semantic-control interface that conditions action generation on delayed vision-language semantic states and explicit latency metadata, in addition to current observations, enabling policies to compensate for asynchronous reasoning. We further propose a latency-consistent training pipeline that injects reasoning inference delays during imitation learning and online reinforcement learning, aligning training with asynchronous deployment. To support realistic evaluation, we present DynaNav, a physics-accurate, photo-realistic simulation suite for language-guided navigation in dynamic environments. Extensive experiments in simulation and on a real robot show that TIC-VLA consistently outperforms prior VLA models while maintaining robust real-time control under multi-second reasoning latency. Project website: https://ucla-mobility.github.io/TIC-VLA/
- Abstract(参考訳): 動的で人間中心の環境のロボットは、リアルタイムなリアクティブ制御を維持しながら、言語命令に従う必要がある。
視覚言語アクション(VLA)モデルは、有望なフレームワークを提供するが、リアルタイムアクションに対して本質的に遅延しているセマンティック推論にもかかわらず、時間的に整合した推論と制御を仮定する。
動作生成中に遅延セマンティック推論を明示的にモデル化する遅延認識フレームワークであるThink-in-Control (TIC)-VLAを紹介する。
TIC-VLAは、現在の観測に加えて、遅延視覚言語セマンティックステートと明示的な遅延メタデータにアクション生成を条件付ける遅延セマンティックコントロールインターフェースを定義し、非同期推論をポリシーが補償することを可能にする。
さらに、模倣学習とオンライン強化学習の間に推論遅延を注入し、非同期デプロイメントとトレーニングを一致させる遅延一貫性トレーニングパイプラインを提案する。
現実的な評価を支援するために,動的環境における言語誘導ナビゲーションのための物理精度の高いフォトリアリスティック・シミュレーションスイートDynaNavを提案する。
シミュレーションおよび実ロボットにおける広範囲な実験により、TIC-VLAは、マルチ秒の推論レイテンシの下で堅牢なリアルタイム制御を維持しながら、従来のVLAモデルよりも一貫して優れていた。
プロジェクトウェブサイト:https://ucla-mobility.github.io/TIC-VLA/
関連論文リスト
- RC-NF: Robot-Conditioned Normalizing Flow for Real-Time Anomaly Detection in Robotic Manipulation [68.7948300643741]
ロボットの異常検出と介入をリアルタイムに監視するロボット・コンディションド・ノーマライゼーション・フロー(RC-NF)を提案する。
RC-NFは、正規化フロー内のタスク認識ロボットとオブジェクト状態の処理を分離する。
従来のロボットタスクの監視方法と比較して、あらゆる異常なタイプで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-11T10:14:37Z) - History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation [18.716145266309802]
Vision-Language Navigation (LNV)は、ロボットが視覚的に接地された環境で自然言語の指示に従うことを可能にする。
近年のVision-Language-Action-Modelでは,ナビゲーション性能は高いが,リアルタイムデプロイメントを制限している計算遅延は大きい。
VLNベースのVLNに適した学習自由な視覚言語フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-06T17:03:16Z) - AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge [49.66156306240961]
高レイテンシは制御ループを壊し、リアルタイムデプロイメントでは安全でない強力なモデルをレンダリングする。
リアクティブ実行からセマンティック推論を分離する非同期制御フレームワークであるAsyncVLAを提案する。
AsyncVLAは、最先端のベースラインよりも40%高い成功率を達成する。
論文 参考訳(メタデータ) (2026-02-13T21:31:19Z) - AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild [62.47761809929869]
視覚言語ナビゲーション(VLN)は、視覚的観察とともに言語指示を解釈することで、知的エージェントが環境をナビゲートする必要がある。
無人航空機(UAV)の現在のVLN研究は、所定のルートに沿ってUAVを誘導するための詳細な指示に依存している。
本稿では,自律型UAVナビゲーションのためのエンド・ツー・エンドのビジョン・ランゲージ・アクションモデルであるAutoFlyを提案する。
論文 参考訳(メタデータ) (2026-02-10T11:08:07Z) - VLS: Steering Pretrained Robot Policies via Vision-Language Models [31.189909515514668]
Vision-Language Steering (VLS)は、凍結生成ロボットポリシーの推論時間適応のためのトレーニング不要フレームワークである。
VLSは、適応を推論時間制御問題として扱い、事前訓練された拡散またはフローマッチングポリシーのサンプリングプロセスを操る。
論文 参考訳(メタデータ) (2026-02-03T19:50:16Z) - SIMPACT: Simulation-Enabled Action Planning using Vision-Language Models [60.80050275581661]
VLM(Vision-Language Models)は、目覚しい常識と意味論的推論能力を示す。
物理力学に関する基礎的な理解は欠如している。
テストタイムでシミュレーション可能な ACTion Planning フレームワークである S を提案する。
本手法は,5つの難易度,実世界の剛体および変形可能な操作課題に対して,最先端の性能を示す。
論文 参考訳(メタデータ) (2025-12-05T18:51:03Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [37.176428069948535]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [102.1527101235251]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。