Fugu-MT 論文翻訳(概要): Premover: Fast Vision-Language-Action Control by Acting Before Instructions Are Complete

論文の概要: Premover: Fast Vision-Language-Action Control by Acting Before Instructions Are Complete

arxiv url: http://arxiv.org/abs/2605.12160v1
Date: Tue, 12 May 2026 14:10:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-13 21:48:56.905982
Title: Premover: Fast Vision-Language-Action Control by Acting Before Instructions Are Complete
Title（参考訳）: Premover: 指導が完了する前に行動する高速ビジョンランゲージ・アクション・コントロール
Authors: Joonha Park, Jiseung Jeong, Taesik Gong,
Abstract要約: アイドルウィンドウを有用なプリ計算に変換する軽量モジュールであるPremoverを紹介する。 LIBEROベンチマークスイートでは、Premoverは平均壁時計時間を34.0秒から29.4秒に短縮し、13.6%削減した。
参考スコア（独自算出の注目度）: 6.1131696701969425
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language-Action (VLA) policies are typically evaluated as if the user had finished typing or speaking before the robot begins acting. In real deployment, however, users take several seconds to enter a request, leaving the policy idle for a substantial fraction of the interaction. We introduce Premover, a lightweight module that converts this idle window into useful precomputation. Premover keeps the VLA backbone frozen and attaches two small projection heads, one for image patches, one for language tokens, that map an intermediate layer of the backbone into a shared space. The resulting focus map is supervised by simulator-rendered target-object segmentation masks and applied as a per-patch reweighting of the next step's image tokens. A single scalar readiness threshold, trained jointly from streaming prefixes, decides when the policy should begin acting. On the LIBERO benchmark suite, Premover reduces mean wall-clock time from 34.0 to 29.4 seconds, a 13.6% reduction, while matching the full-prompt baseline's success rate (95.1% vs. 95.0%); naive premoving, by contrast, collapses to 66.4%.
Abstract（参考訳）: VLA(Vision-Language-Action)ポリシーは、通常、ロボットが動作を開始する前にユーザーが入力を済ませたり話したりしたかのように評価される。しかし、実際のデプロイでは、ユーザはリクエストを入力するのに数秒かかり、ポリシーはインタラクションのかなりの部分でアイドルになる。私たちは、このアイドルウィンドウを有用なプリ計算に変換する軽量モジュールであるPremoverを紹介します。 PremoverはVLAバックボーンを凍結させ、画像パッチ用と言語トークン用という2つの小さなプロジェクションヘッドを添付し、バックボーンの中間層を共有空間にマッピングする。得られたフォーカスマップは、シミュレータレンダリングされたターゲットオブジェクトセグメンテーションマスクによって監視され、次のステップの画像トークンのパッチごとの再重み付けとして適用される。ストリーミングプレフィックスと共同でトレーニングされた単一のスカラー準備しきい値が、ポリシーの動作をいつ開始するかを決定する。 LIBEROベンチマークスイートでは、Premoverは平均壁時計時間を34.0秒から29.4秒に減らし、13.6%減らし、フルプロンプトベースラインの成功率(95.1%対95.0%)と一致する。

関連論文リスト

Evading Visual Aphasia: Contrastive Adaptive Semantic Token Pruning for Vision-Language Models [52.78477729846771]
本稿では,COAST(Contrastive Adaptive Semantic Token Pruning)について紹介する。 COASTはトークン予算をまたいだ強力なプルーニングベースラインを一貫して上回り、複数のLVLMファミリをまたいだ一般化を実現している。
論文参考訳（メタデータ） (2026-05-10T09:07:04Z)
Malicious Image Analysis via Vision-Language Segmentation Fusion: Detection, Element, and Location in One-shot [18.80045630689047]
画像に有害なコンテンツが含まれているかどうかを同時に検出するゼロショットパイプラインを導入する。それぞれの重要な要素を特定し、それらの要素をピクセル精度のマスクでローカライズする。このシステムは、画像を数秒で処理し、既存のVLMにシームレスにプラグインし、きめ細かな説明可能な悪意のある画像モデレーションのための最初の実用的なツールを構成する。
論文参考訳（メタデータ） (2025-12-04T09:18:14Z)
Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection [54.21851618853518]
本稿では,CLIPのトレーニング効率を高めるために,パッチ生成と選択という簡潔で効果的なアプローチを提案する。私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定する。
論文参考訳（メタデータ） (2025-03-21T12:10:38Z)
ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文参考訳（メタデータ） (2023-09-28T05:31:07Z)
Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation [89.88214896713846]
STAスコアは、時間的冗長性と意味的重要性の2つの重要な要因を考慮に入れている。市販のビデオトランスフォーマーとビデオウィンにSTAモジュールを適用する。結果: Kinetics-400 と something-Something V2 は 30% のオーバーシェルフ削減を実現し,0.2% の精度低下を実現した。
論文参考訳（メタデータ） (2023-08-08T19:38:15Z)
Robust Contrastive Language-Image Pre-training against Data Poisoning and Backdoor Attacks [52.26631767748843]
ROCLIPは、ターゲットデータ中毒やバックドア攻撃に対して、マルチモーダル視覚言語モデルを堅牢に学習するための最初の効果的な方法である。 ROCLIPは、比較的大きく多様なランダムキャプションのプールを考慮することにより、有毒な撮像対の関連を効果的に破壊する。実験の結果,ROCLIPは訓練前のCLIPモデルにおいて,最先端のデータ中毒やバックドア攻撃を未然に防ぐことができることがわかった。
論文参考訳（メタデータ） (2023-03-13T04:49:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。