論文の概要: From Observation to Action: Latent Action-based Primitive Segmentation for VLA Pre-training in Industrial Settings
- arxiv url: http://arxiv.org/abs/2511.21428v1
- Date: Wed, 26 Nov 2025 14:19:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.13805
- Title: From Observation to Action: Latent Action-based Primitive Segmentation for VLA Pre-training in Industrial Settings
- Title(参考訳): 観察から行動へ:産業環境におけるVLA事前訓練のための潜時行動に基づく原始セグメンテーション
- Authors: Jiajie Zhang, Sören Schwertfeger, Alexander Kleiner,
- Abstract要約: 本稿では,VLA(Vision-Language-Action)モデル事前学習のための連続的な産業用ビデオストリームから,膨大なラベルのない人間のデモデータをアンロックするための新しいフレームワークを提案する。
本手法ではまず,動作ダイナミクスを符号化するために軽量な動作トークンライザを訓練し,教師なし動作セグメンタを用いて意味的に一貫性のある動作プリミティブを発見し,セグメント化する。
これは、構造化されていない産業用ビデオからVLA事前トレーニングデータを抽出し、整理する最初の完全なエンドツーエンドシステムであり、製造業におけるAI統合を具体化するスケーラブルなソリューションを提供する。
- 参考スコア(独自算出の注目度): 53.09342573704396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel unsupervised framework to unlock vast unlabeled human demonstration data from continuous industrial video streams for Vision-Language-Action (VLA) model pre-training. Our method first trains a lightweight motion tokenizer to encode motion dynamics, then employs an unsupervised action segmenter leveraging a novel "Latent Action Energy" metric to discover and segment semantically coherent action primitives. The pipeline outputs both segmented video clips and their corresponding latent action sequences, providing structured data directly suitable for VLA pre-training. Evaluations on public benchmarks and a proprietary electric motor assembly dataset demonstrate effective segmentation of key tasks performed by humans at workstations. Further clustering and quantitative assessment via a Vision-Language Model confirm the semantic coherence of the discovered action primitives. To our knowledge, this is the first fully automated end-to-end system for extracting and organizing VLA pre-training data from unstructured industrial videos, offering a scalable solution for embodied AI integration in manufacturing.
- Abstract(参考訳): 本稿では,VLA(Vision-Language-Action)モデル事前学習のための,連続的な産業用ビデオストリームからの膨大なラベルのない人間のデモデータをアンロックするための,教師なしのフレームワークを提案する。
提案手法ではまず,動作ダイナミクスを符号化するために軽量な動作トークンライザを訓練し,新しい"Latent Action Energy"メトリックを利用した教師なしアクションセグメンタを用いて,意味的コヒーレントな動作プリミティブを発見し,セグメンテーションする。
パイプラインはセグメント化されたビデオクリップとそれに対応する潜在アクションシーケンスの両方を出力し、VLA事前トレーニングに適合する構造化データを提供する。
公的なベンチマークとプロプライエタリな電動機組立データセットによる評価は、ワークステーションで人間が行う重要なタスクを効果的にセグメンテーションすることを示した。
視覚言語モデルによるさらなるクラスタリングと定量的評価は、発見されたアクションプリミティブのセマンティックコヒーレンスを確認する。
我々の知る限り、これはVLAプレトレーニングデータを構造化されていない産業用ビデオから抽出し、整理する、初めての完全に自動化されたエンドツーエンドシステムであり、製造業におけるAI統合を実現するスケーラブルなソリューションを提供する。
関連論文リスト
- iFlyBot-VLA Technical Report [25.330744626382977]
iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。
主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
論文 参考訳(メタデータ) (2025-11-01T06:24:56Z) - RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation [39.383510768790295]
RynnVLA-001は、人間のデモンストレーションから大規模ビデオ生成前訓練に基づいて構築された視覚言語アクション(VLA)モデルである。
最初のステージであるEgo-Centric Video Generative Pretrainingは、12Mのエゴ中心の操作ビデオ上で、画像からビデオまでのモデルを訓練し、初期フレームと言語命令で条件付けられた将来のフレームを予測する。
第2段階であるHuman-Centric Trajectory-Aware Modelingは、将来のキーポイント軌跡を共同で予測することでこれを拡張し、アクション予測による視覚的フレーム予測を効果的にブリッジする。
論文 参考訳(メタデータ) (2025-09-18T17:58:02Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - End-to-End Action Segmentation Transformer [13.30372897896507]
本稿では、生のビデオフレームを直接処理するEnd-to-End Action Transformer(EAST)を紹介する。
コントリビューションは,(1)大きめのバックボーンを効果的に微調整するための軽量なアダプタ設計,(2)粗いアンサンプで予測されるアクション提案を活用する効率的なセグメンテーション・バイ・ディテクト・フレームワーク,(3)新しいアクション・プロモーサルベースのデータ拡張戦略である。
論文 参考訳(メタデータ) (2025-03-08T19:25:16Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。