論文の概要: FrameSkip: Learning from Fewer but More Informative Frames in VLA Training
- arxiv url: http://arxiv.org/abs/2605.13757v1
- Date: Wed, 13 May 2026 16:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.183305
- Title: FrameSkip: Learning from Fewer but More Informative Frames in VLA Training
- Title(参考訳): FrameSkip: VLAトレーニングにおける少ないがよりインフォーマティブなフレームから学ぶ
- Authors: Bin Yu, Shijie Lian, Xiaopeng Lin, Zhaolong Shen, Yuliang Wei, Changti Wu, Hang Yuan, Haishan Liu, Bailing Wang, Cong Huang, Kai Chen,
- Abstract要約: VLA(Vision-Language-Action)ポリシーは、密集したロボットの実証軌道から一般的に訓練されている。
我々はこの慣例が時間的監督の不均衡を生み出すと論じている。
データ層フレーム選択フレームワークであるFrameSkipを紹介する。
- 参考スコア(独自算出の注目度): 22.449197838619764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) policies are commonly trained from dense robot demonstration trajectories, often collected through teleoperation, by sampling every recorded frame as if it provided equally useful supervision. We argue that this convention creates a temporal supervision imbalance: long low-change segments dominate the training stream, while manipulation-critical transitions such as alignment, contact, grasping, and release appear only sparsely. We introduce FrameSkip, a data-layer frame selection framework that scores trajectory frames using action variation, visual-action coherence, task-progress priors, and gripper-transition preservation, then remaps training samples toward high-importance frames under a target retention ratio. Because FrameSkip operates only in the dataloader, it leaves the VLA architecture, action head, training objective, and inference procedure unchanged. Across RoboCasa-GR1, SimplerEnv, and LIBERO, FrameSkip improves the success-retention trade-off over full-frame training and simpler frame selection variants, achieving a macro-average success rate of 76.15% across the three benchmarks compared with 66.50% for full-frame training while using a compressed trajectory view that retains 20% of unique frames in the main setting.
- Abstract(参考訳): VLA(Vision-Language-Action)ポリシーは、一般的に、記録されたすべてのフレームを同様に有用な監視を提供するかのようにサンプリングすることによって、遠隔操作を通じて収集される密集したロボットの実証軌道から訓練される。
長い低変化セグメントがトレーニングストリームを支配しているのに対して、アライメント、コンタクト、把握、リリースといった操作クリティカルなトランジションは、わずかにしか見えません。
本稿では,行動変動,視覚行動のコヒーレンス,タスク・プログレッシブ前処理,グリップ・トランジション保存を用いてトラジェクティブ・フレームをスコアするデータ層フレーム選択フレームワークであるFrameSkipを紹介する。
FrameSkipはデータローダでのみ動作するため、VLAアーキテクチャ、アクションヘッド、トレーニング目標、推論手順は変わらない。
RoboCasa-GR1、SimplerEnv、LIBEROの他、FrameSkipはフルフレームのトレーニングと単純なフレーム選択に対する成功と維持のトレードオフを改善し、マクロ平均の成功率は3つのベンチマークで76.15%、フルフレームのトレーニングでは66.50%、メイン設定ではユニークなフレームの20%を保持する圧縮されたトラジェクトリビューを使用する。
関連論文リスト
- CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - MoSiC: Optimal-Transport Motion Trajectory for Dense Self-Supervised Learning [66.53533434848369]
密集した表現を学習する動き誘導型自己学習フレームワークを提案する。
6つの画像およびビデオデータセットと4つの評価ベンチマークにおいて、最先端を1%から6%改善する。
論文 参考訳(メタデータ) (2025-06-10T11:20:32Z) - Self-supervised Learning of Event-guided Video Frame Interpolation for Rolling Shutter Frames [7.448238372345631]
イベントカメラは時間分解能が高い。
RS歪みを伴わないグローバルシャッター(GS)高フレームレートビデオの再生フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-27T14:30:25Z) - Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting [111.49781716597984]
本稿では,教師付きおよびゼロショット性能のバランスをとるためのマルチモーダル・プロンプト学習手法を提案する。
Kinetics-600, HMDB51, UCF101では, 教師付き環境での競争力を維持しながら, 最先端のゼロショット性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-06T18:00:04Z) - Towards Frame Rate Agnostic Multi-Object Tracking [76.82407173177138]
本稿では,FraMOT 問題に初めて取り組むために,FAPS を用いたフレームレート非依存MOT フレームワークを提案する。
具体的には,フレームレート情報を推論し,符号化するフレームレートアグノスティックアソシエーションモジュール(FAAM)を提案する。
FAPSは、パターンマッチングと融合を追跡することによって、トレーニングにおけるすべての後処理ステップを反映する。
論文 参考訳(メタデータ) (2022-09-23T04:25:19Z) - Domain Adaptive Video Segmentation via Temporal Pseudo Supervision [46.38660541271893]
ビデオセマンティックセグメンテーションは、ラベル付きソースドメインから未ラベルのターゲットドメインに適応することで、制約をラベル付けするデータを緩和することができる。
我々は,対象映像から表現を効果的に表現するための一貫性トレーニングのアイデアを探索する,シンプルかつ効果的な方法である時間的擬似監督(TPS)を設計する。
TPSは実装が簡単で、訓練も安定しており、最先端技術と比較して優れた映像精度を実現する。
論文 参考訳(メタデータ) (2022-07-06T00:36:14Z) - SF-Net: Single-Frame Supervision for Temporal Action Localization [60.202516362976645]
単一フレームの監視は、低いアノテーションのオーバーヘッドを維持しながら、追加の時間的アクション信号を導入します。
本研究では,SF-Netと呼ばれる単一フレーム監視システムを提案する。
SF-Netは、セグメントローカライゼーションと単一フレームローカライゼーションの両方の観点から、最先端の弱い教師付き手法を大幅に改善する。
論文 参考訳(メタデータ) (2020-03-15T15:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。