論文の概要: Lite VLA: Efficient Vision-Language-Action Control on CPU-Bound Edge Robots
- arxiv url: http://arxiv.org/abs/2511.05642v1
- Date: Fri, 07 Nov 2025 17:49:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.517854
- Title: Lite VLA: Efficient Vision-Language-Action Control on CPU-Bound Edge Robots
- Title(参考訳): リテラルVLA:CPU境界エッジロボットの高能率ビジョン・ランゲージ・アクション制御
- Authors: Justin Williams, Kishor Datta Gupta, Roy George, Mrinmoy Sarkar,
- Abstract要約: 本研究は,移動ロボットに小型視覚言語モデル(VLM)を配置し,厳密な計算制約の下でリアルタイムのシーン理解と推論を実現することの実現可能性を示す。
移動性から知覚を分離する従来のアプローチとは異なり、提案フレームワークはオンボードハードウェアのみを使用して動的環境の同時移動と推論を可能にする。
- 参考スコア(独自算出の注目度): 0.6119773373677944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of artificial intelligence models at the edge is increasingly critical for autonomous robots operating in GPS-denied environments where local, resource-efficient reasoning is essential. This work demonstrates the feasibility of deploying small Vision-Language Models (VLMs) on mobile robots to achieve real-time scene understanding and reasoning under strict computational constraints. Unlike prior approaches that separate perception from mobility, the proposed framework enables simultaneous movement and reasoning in dynamic environments using only on-board hardware. The system integrates a compact VLM with multimodal perception to perform contextual interpretation directly on embedded hardware, eliminating reliance on cloud connectivity. Experimental validation highlights the balance between computational efficiency, task accuracy, and system responsiveness. Implementation on a mobile robot confirms one of the first successful deployments of small VLMs for concurrent reasoning and mobility at the edge. This work establishes a foundation for scalable, assured autonomy in applications such as service robotics, disaster response, and defense operations.
- Abstract(参考訳): 人工知能モデルのエッジへの展開は、ローカルでリソース効率のよい推論が不可欠であるGPS密度の高い環境で動く自律ロボットにとって、ますます重要になっている。
本研究は,移動ロボットに小型視覚言語モデル(VLM)を配置し,厳密な計算制約の下でリアルタイムのシーン理解と推論を実現することの実現可能性を示す。
移動性から知覚を分離する従来のアプローチとは異なり、提案フレームワークはオンボードハードウェアのみを使用して動的環境の同時移動と推論を可能にする。
このシステムは、マルチモーダルな知覚とコンパクトなVLMを統合し、組込みハードウェアに直接コンテキスト解釈を行い、クラウド接続への依存をなくす。
実験的な検証では、計算効率、タスク精度、システムの応答性のバランスが強調される。
モバイルロボットの実装は、エッジでの同時推論とモビリティのための小さなVLMの最初の成功例の1つを確認できる。
この研究は、サービスロボティクス、災害対応、防衛操作などのアプリケーションにおいて、スケーラブルで保証された自律性の基盤を確立する。
関連論文リスト
- Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots [5.993870098970107]
VLA(Vision-Language-Action)モデルは、実際のロボットのための言語ガイド付き汎用制御フレームワークとして提案されている。
本稿では,VLAモデルのソフト連続マニピュレータへの展開について述べる。
論文 参考訳(メタデータ) (2025-10-20T10:06:39Z) - ROSA: Harnessing Robot States for Vision-Language and Action Alignment [24.426285156386715]
VLM(Vision-Language Models)は、エンドツーエンドのロボット制御において大きな進歩を遂げた。
本稿では,ロボットの状態推定を利用して視覚言語と行動空間のアライメントを改善する新しいトレーニングパラダイムROSAを提案する。
論文 参考訳(メタデータ) (2025-06-16T16:34:20Z) - Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。
我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - InCoRo: In-Context Learning for Robotics Control with Feedback Loops [4.702566749969133]
InCoRoは、LLMコントローラ、シーン理解ユニット、ロボットからなる古典的なロボットフィードバックループを使用するシステムである。
システムの一般化能力を強調し,InCoRoが成功率において先行技術を上回ることを示す。
この研究は、動的環境に適応する信頼性があり、効率的でインテリジェントな自律システムを構築するための道を開いた。
論文 参考訳(メタデータ) (2024-02-07T19:01:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。