論文の概要: OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2505.03912v1
- Date: Tue, 06 May 2025 18:35:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.898568
- Title: OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation
- Title(参考訳): OpenHelix: ロボットマニピュレーションのための短期調査,実証分析,オープンソースデュアルシステムVLAモデル
- Authors: Can Cui, Pengxiang Ding, Wenxuan Song, Shuanghao Bai, Xinyang Tong, Zirui Ge, Runze Suo, Wanqi Zhou, Yang Liu, Bofang Jia, Han Zhao, Siteng Huang, Donglin Wang,
- Abstract要約: デュアルシステムVLA(Vision-Language-Action)アーキテクチャは、インテリジェンス研究においてホットな話題となっている。
さらなるパフォーマンス分析と最適化のための十分なオープンソース作業が不足している。
このプロジェクトは、さらなる調査のために低コストのオープンソースモデルを提供する。
- 参考スコア(独自算出の注目度): 27.96260013557763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dual-system VLA (Vision-Language-Action) architectures have become a hot topic in embodied intelligence research, but there is a lack of sufficient open-source work for further performance analysis and optimization. To address this problem, this paper will summarize and compare the structural designs of existing dual-system architectures, and conduct systematic empirical evaluations on the core design elements of existing dual-system architectures. Ultimately, it will provide a low-cost open-source model for further exploration. Of course, this project will continue to update with more experimental conclusions and open-source models with improved performance for everyone to choose from. Project page: https://openhelix-robot.github.io/.
- Abstract(参考訳): デュアルシステムVLA(Vision-Language-Action)アーキテクチャは、インテリジェンス研究においてホットな話題となっているが、さらなるパフォーマンス分析と最適化のための十分なオープンソース作業が不足している。
本稿では,既存のデュアルシステムアーキテクチャの構造設計を要約し,比較し,既存のデュアルシステムアーキテクチャの中核設計要素を体系的に評価する。
究極的には、さらなる調査のために低コストのオープンソースモデルを提供する。
もちろん、このプロジェクトはより実験的な結論と、すべての人が選択できるパフォーマンスを改善したオープンソースモデルで、引き続き更新される。
プロジェクトページ: https://openhelix-robot.github.io/.com
関連論文リスト
- SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [55.14432034345353]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - Dynamic Acoustic Model Architecture Optimization in Training for ASR [51.21112094223223]
DMAOは、Grow-and-drop戦略を使用して、トレーニング中にパラメータを自動的に再配置するアーキテクチャ最適化フレームワークである。
CTC onSpeech, TED-Lium-v2, Switchboard を用いてDMAOの評価を行った。
論文 参考訳(メタデータ) (2025-06-16T07:47:34Z) - UniCAD: Efficient and Extendable Architecture for Multi-Task Computer-Aided Diagnosis System [48.83716673786449]
2次元画像と3次元画像の両方をシームレスに扱う統一アーキテクチャUniCADを提案する。
低ランク適応戦略を用いて、トレーニング済みの視覚モデルを医用画像領域に適応させ、完全に調整された視覚モデルと同等の性能を達成する。
この統合CADアーキテクチャに基づいて、研究者が軽量CAD専門家を共有・アクセスできるオープンソースのプラットフォームを構築します。
論文 参考訳(メタデータ) (2025-05-14T06:21:27Z) - Unlocking the Potential of Past Research: Using Generative AI to Reconstruct Healthcare Simulation Models [0.0]
本研究では、生成人工知能(AI)を用いたフリー・アンド・オープン・ソース・ソフトウェア(FOSS)を用いた出版モデルを再現する可能性について検討する。
ユーザインタフェースを含む2つのDESモデルの生成,テスト,内部再現に成功した。
報告された結果は1つのモデルで複製されたが、分布に関する情報が不足しているため、もう1つのモデルでは再現されなかった。
論文 参考訳(メタデータ) (2025-03-27T16:10:02Z) - SEKI: Self-Evolution and Knowledge Inspiration based Neural Architecture Search via Large Language Models [11.670056503731905]
本稿では,新しい大規模言語モデル (LLM) に基づくニューラルアーキテクチャ探索 (NAS) 手法であるSEKIを紹介する。
現代のLLMにおけるチェーン・オブ・シント(CoT)パラダイムにインスパイアされたセキは、自己進化と知識蒸留という2つの重要な段階で動作している。
論文 参考訳(メタデータ) (2025-02-27T09:17:49Z) - A Survey of Model Architectures in Information Retrieval [64.75808744228067]
機能抽出のためのバックボーンモデルと、関連性推定のためのエンドツーエンドシステムアーキテクチャの2つの重要な側面に焦点を当てる。
従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。
我々は、パフォーマンスとスケーラビリティのアーキテクチャ最適化、マルチモーダル、マルチランガルデータの処理、従来の検索パラダイムを超えた新しいアプリケーションドメインへの適応など、新たな課題と今後の方向性について議論することで結論付けた。
論文 参考訳(メタデータ) (2025-02-20T18:42:58Z) - Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models [51.35570730554632]
ESPnet-SPKは、話者埋め込み抽出器を訓練するためのツールキットである。
我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。
開発モデルと他のドメインとの橋渡しも目指しています。
論文 参考訳(メタデータ) (2024-01-30T18:18:27Z) - Serving Deep Learning Model in Relational Databases [70.53282490832189]
リレーショナルデータ上での深層学習(DL)モデルの実現は、様々な商業分野や科学分野において重要な要件となっている。
最先端のDL中心アーキテクチャは、DL計算を専用のDLフレームワークにオフロードします。
UDF中心アーキテクチャの可能性は、リレーショナルデータベース管理システム(RDBMS)内の1つ以上のテンソル計算をユーザ定義関数(UDF)にカプセル化する。
論文 参考訳(メタデータ) (2023-10-07T06:01:35Z) - Code Recommendation for Open Source Software Developers [32.181023933552694]
CODERは、オープンソースのソフトウェア開発者のための新しいグラフベースのコードレコメンデーションフレームワークである。
本フレームワークは,プロジェクト内,クロスプロジェクト,コールドスタートレコメンデーションなど,様々な実験環境下での優れた性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T16:40:36Z) - Artefact Retrieval: Overview of NLP Models with Knowledge Base Access [18.098224374478598]
本稿では,人工物の種類(知識ベースから抽出した項目),検索機構,およびこれらの人工物がモデルに融合する方法を体系的に記述する。
言語モデルに焦点が当てられているが、質問応答、事実チェック、対話モデルもこのシステムにどのように適合するかを示す。
論文 参考訳(メタデータ) (2022-01-24T13:15:33Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。