論文の概要: EveryDayVLA: A Vision-Language-Action Model for Affordable Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2511.05397v1
- Date: Fri, 07 Nov 2025 16:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.834629
- Title: EveryDayVLA: A Vision-Language-Action Model for Affordable Robotic Manipulation
- Title(参考訳): EveryDayVLA:ロボットマニピュレーションのためのビジョンランゲージ・アクションモデル
- Authors: Samarth Chopra, Alex McMoil, Ben Carnovale, Evan Sokolson, Rajkumar Kubendran, Samuel Dickerson,
- Abstract要約: 私たちは、300ドル以下で組み立てられる6-DOFマニピュレータであるEverydayVLAを紹介します。
単一統一モデルは、離散的かつ連続的な動作を共同で出力する。
LIBEROでは、EverydayVLAは最先端の成功率と一致している。
- 参考スコア(独自算出の注目度): 0.004647081373990732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Vision-Language-Action (VLA) models map visual inputs and language instructions directly to robot actions, they often rely on costly hardware and struggle in novel or cluttered scenes. We introduce EverydayVLA, a 6-DOF manipulator that can be assembled for under $300, capable of modest payloads and workspace. A single unified model jointly outputs discrete and continuous actions, and our adaptive-horizon ensemble monitors motion uncertainty to trigger on-the-fly re-planning for safe, reliable operation. On LIBERO, EverydayVLA matches state-of-the-art success rates, and in real-world tests it outperforms prior methods by 49% in-distribution and 34.9% out-of-distribution. By combining a state-of-the-art VLA with cost-effective hardware, EverydayVLA democratizes access to a robotic foundation model and paves the way for economical use in homes and research labs alike. Experiment videos and details: https://everydayvla.github.io/
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは視覚入力と言語指示を直接ロボットアクションにマッピングするが、高価なハードウェアに頼り、新しいシーンや散らかったシーンで苦労することが多い。
我々は,300ドル以下で組み立てることができる6-DOFマニピュレータであるEverydayVLAを紹介した。
単一統一モデルでは、離散的かつ連続的な動作を共同で出力し、適応水平アンサンブルは動きの不確実性を監視して、安全かつ信頼性の高い操作をオンザフライで再計画する。
LIBEROでは、EverydayVLAは最先端の成功率と一致し、実世界のテストでは、従来の方法よりも49%の分配率、34.9%のアウト・オブ・ディストリビューションでパフォーマンスが向上している。
最先端のVLAと費用効率のよいハードウェアを組み合わせることで、EverydayVLAはロボットの基礎モデルへのアクセスを民主化し、家庭や研究室でも経済的に使えるようにしている。
実験ビデオと詳細:https://everydayvla.github.io/
関連論文リスト
- Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action models [8.452688845632995]
我々は,視覚・言語・アクション(VLA)モデルのためのオブジェクト・エージェント中心のトークン化であるOat-VLAを提案する。
Oat-VLAは、パフォーマンスを犠牲にすることなく、視覚トークンの数をわずかに減らすことができる。
我々は,Oat-VLA が LIBERO スイート上で OpenVLA の少なくとも2倍の速度で収束していることを明らかにする。
論文 参考訳(メタデータ) (2025-09-28T05:42:53Z) - SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics [37.82471658370026]
視覚言語モデル(VLM)は、豊富な視覚的および言語的知識を符号化した大規模マルチモーダルデータセットで事前訓練された。
SmolVLAは、トレーニングと推論の両方のコストを大幅に削減する、小さく、効率的で、コミュニティ主導のVLAである。
論文 参考訳(メタデータ) (2025-06-02T16:30:19Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust [9.647148940880381]
視覚言語アクション(VLA)モデルは、大規模なインターネットデータとロボットのデモンストレーションに基づいて訓練され、汎用的なロボットポリシーとして機能する可能性がある。
本稿では,入力画像の領域を動的に識別するリアルタイム介入方式である bring Your Own VLA (BYOVLA) を紹介する。
我々は,BYOVLAが最先端のVLAモデルに対して,邪魔な対象や背景が存在する場合に,その名目上の性能をほぼ維持できることを示す。
論文 参考訳(メタデータ) (2024-10-02T19:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。