Fugu-MT 論文翻訳(概要): Agile-VLA: Few-Shot Industrial Pose Rectification via Implicit Affordance Anchoring

論文の概要: Agile-VLA: Few-Shot Industrial Pose Rectification via Implicit Affordance Anchoring

arxiv url: http://arxiv.org/abs/2603.22899v1
Date: Tue, 24 Mar 2026 07:48:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-25 19:53:37.364185
Title: Agile-VLA: Few-Shot Industrial Pose Rectification via Implicit Affordance Anchoring
Title（参考訳）: Agile-VLA: インシシトアフメンタンスアンカリングによる数ショットのインダストリアルポスリコメンデーション
Authors: Teng Yan, Zhengyang Pei, Chengyu Shi, Yue Yu, Yikun Chen, Zilong Zhu, Zelin Fang, Kaile Guo, Zihang Wang, Peigen Tian, Bingzhuo Zhong,
Abstract要約: 本稿では,資源制約のあるエッジプラットフォーム上での高遅延意味推論と高レイテンシ意味推論の基本的な対立について述べる。 NVIDIA Agile-AVLAアーキテクチャは、5ショットのデモだけで複雑な不規則な操作タスクの階層的なコア修正を実現する。
参考スコア（独自算出の注目度）: 8.325759657274602
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deploying Vision-Language-Action (VLA) models on resource-constrained edge platforms encounters a fundamental conflict between high-latency semantic inference and the high-frequency control required for dynamic manipulation. To address the challenge, this paper presents Agile-VLA, a hierarchical framework designed for industrial pose reorientation tasks on edge devices such as the NVIDIA Jetson Orin Nano. The core innovation is an Implicit Affordance Anchoring mechanism that directly maps geometric visual cues, specifically centroid and rim keypoint anchors, into structured parametric action primitives, thereby substantially reducing reliance on high-latency semantic inference during closed-loop control. By decoupling perception (10 Hz) from control (50 Hz) via an asynchronous dual-stream architecture, the system effectively mitigates the frequency mismatch inherent in edge-based robot learning. Experimental results on a standard 6-DoF manipulator demonstrate that Agile-VLA achieves robust rectification of complex, irregular workpieces using only 5-shot demonstrations through extrinsic dexterity.
Abstract（参考訳）: リソース制約されたエッジプラットフォーム上でのビジョン・ランゲージ・アクション(VLA)モデルの展開は、動的操作に必要な高遅延セマンティック推論と高周波制御の根本的な対立に直面する。この課題に対処するために,NVIDIA Jetson Orin Nanoのようなエッジデバイス上での産業的ポーズ調整タスク用に設計された階層型フレームワークであるAgile-VLAを提案する。中心となるイノベーションはImplicit Affordance Anchoringメカニズムで、幾何学的視覚的手がかり、特にセントロイドとリムキーポイントアンカーを直接構造化されたパラメトリックアクションプリミティブにマッピングすることで、クローズドループ制御における高遅延セマンティック推論への依存を大幅に低減する。非同期なデュアルストリームアーキテクチャにより、知覚(10 Hz)を制御(50 Hz)から切り離すことにより、エッジベースのロボット学習に固有の周波数ミスマッチを効果的に軽減する。標準的な6-DoFマニピュレータの実験結果から、アジャイル-VLAは、外在的なデキスタリティを通した5ショットのデモのみを使用して、複雑な不規則なワークピースの堅牢な修正を実現している。

関連論文リスト

Shape Control of a Planar Hyper-Redundant Robot via Hybrid Kinematics-Informed and Learning-based Approach [42.55947704321053]
ハイパー冗長ロボットは、厳密で非構造的な環境での操作をうまく行うことができる。到達可能な作業空間を拡張するために,多段式フレキシブルラック作動型平面ロボットを開発した。本研究では,SpatioCoupledNet というハイブリッドキネマティクス・インフォームド・学習型形状制御手法を提案する。
論文参考訳（メタデータ） (2026-03-11T04:35:06Z)
AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge [49.66156306240961]
高レイテンシは制御ループを壊し、リアルタイムデプロイメントでは安全でない強力なモデルをレンダリングする。リアクティブ実行からセマンティック推論を分離する非同期制御フレームワークであるAsyncVLAを提案する。 AsyncVLAは、最先端のベースラインよりも40%高い成功率を達成する。
論文参考訳（メタデータ） (2026-02-13T21:31:19Z)
UniManip: General-Purpose Zero-Shot Robotic Manipulation with Agentic Operational Graph [23.060488218180936]
We present UniManip, a framework based on a Bi-level Agentic Operational Graph (AOG) タスクオーケストレーションのための高レベルのエージェント層と、動的状態表現のための低レベルのScene Layerを結合することにより、システムは、抽象的な計画と幾何学的制約を継続的に整合させる。実験では、未確認のオブジェクトやタスクに対するシステムの堅牢なゼロショット能力を評価し、最先端のVLAや階層的なベースラインと比較して22.5%と25.0%の成功率を示した。
論文参考訳（メタデータ） (2026-02-13T16:47:26Z)
TIDAL: Temporally Interleaved Diffusion and Action Loop for High-Frequency VLA Control [15.534182843429043]
大規模なVision-Language-Action(VLA)モデルはセマンティックな一般化を提供するが、高い推論遅延に悩まされる。本稿では,高頻度動作から意味論的推論を分離する階層型フレームワークであるTIDALを提案する。 TIDALは、二重周波数アーキテクチャを用いて拡散ベースのVLAのためのバックボーンに依存しないモジュールとして動作する。
論文参考訳（メタデータ） (2026-01-21T12:43:11Z)
SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文参考訳（メタデータ） (2025-06-15T05:04:17Z)
Monocular Obstacle Avoidance Based on Inverse PPO for Fixed-wing UAVs [29.207513994002202]
固定翼無人航空機(英語: Fixed-wing Unmanned Aerial Vehicles、UAV)は、低高度経済(LAE)と都市空運(UAM)のための最も一般的なプラットフォームの一つである。従来の地図や高度なセンサーに依存する古典的な障害物回避システムは、未知の低高度環境や小型UAVプラットフォームにおいて制限に直面している。本稿では,DRLに基づくUAV衝突回避システムを提案する。
論文参考訳（メタデータ） (2024-11-27T03:03:37Z)
Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文参考訳（メタデータ） (2024-06-09T05:57:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。