論文の概要: AnyPos: Automated Task-Agnostic Actions for Bimanual Manipulation
- arxiv url: http://arxiv.org/abs/2507.12768v1
- Date: Thu, 17 Jul 2025 03:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.335662
- Title: AnyPos: Automated Task-Agnostic Actions for Bimanual Manipulation
- Title(参考訳): AnyPos: 双方向操作のためのタスク非依存アクションの自動化
- Authors: Hengkai Tan, Yao Feng, Xinyi Mao, Shuhe Huang, Guodong Liu, Zhongkai Hao, Hang Su, Jun Zhu,
- Abstract要約: 本稿では,タスク固有の条件からアクション実行を分離するタスク非依存のアクションパラダイムを提案する。
ATARAはスケーラブルなセルフ教師付きフレームワークで、人間の遠隔操作と比較して30倍以上のコレクションを高速化する。
我々はArm-Decoupled EstimationとDirection-Aware Decoderを備えた逆動的モデルであるAnyPosを提案する。
- 参考スコア(独自算出の注目度): 24.199522837278128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models have shown promise on task-conditioned control in complex settings such as bimanual manipulation. However, the heavy reliance on task-specific human demonstrations limits their generalization and incurs high data acquisition costs. In this work, we present a new notion of task-agnostic action paradigm that decouples action execution from task-specific conditioning, enhancing scalability, efficiency, and cost-effectiveness. To address the data collection challenges posed by this paradigm -- such as low coverage density, behavioral redundancy, and safety risks -- we introduce ATARA (Automated Task-Agnostic Random Actions), a scalable self-supervised framework that accelerates collection by over $ 30\times $ compared to human teleoperation. To further enable effective learning from task-agnostic data, which often suffers from distribution mismatch and irrelevant trajectories, we propose AnyPos, an inverse dynamics model equipped with Arm-Decoupled Estimation and a Direction-Aware Decoder (DAD). We additionally integrate a video-conditioned action validation module to verify the feasibility of learned policies across diverse manipulation tasks. Extensive experiments show that the AnyPos-ATARA pipeline yields a 51% improvement in test accuracy and achieves 30-40% higher success rates in downstream tasks such as lifting, pick-and-place, and clicking, using replay-based video validation. Project Page: https://embodiedfoundation.github.io/vidar_anypos
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、バイマニュアル操作のような複雑な設定でタスク条件制御を約束している。
しかし、タスク固有の人間によるデモンストレーションへの依存は、その一般化を制限し、高いデータ取得コストを発生させる。
本研究では,タスク固有の条件からアクション実行を分離し,拡張性,効率,コスト効率を向上するタスク非依存行動パラダイムを提案する。
我々はATARA(Automated Task-Agnostic Random Actions、自動タスク非依存ランダムアクション)を紹介します。これは、人間の遠隔操作と比較して、コレクションを30ドル以上加速するスケーラブルな自己管理フレームワークです。
そこで本研究では,Arm-Decoupled Estimation と Direction-Aware Decoder (DAD) を備えた逆ダイナミクスモデルであるAnyPosを提案する。
さらに、ビデオ条件付きアクション検証モジュールを統合し、多様な操作タスクにおける学習ポリシーの実現可能性を検証する。
大規模な実験によると、AnyPos-ATARAパイプラインは、テスト精度が51%向上し、リプレイベースのビデオ検証を使用して、リフト、ピック・アンド・プレース、クリックといった下流タスクで30~40%高い成功率を達成する。
Project Page: https://embodiedfoundation.github.io/vidar_anypos
関連論文リスト
- Group Relative Augmentation for Data Efficient Action Detection [11.169883977958454]
アクション検出にVLM(Big Video-Language Models)を適応させるには、いくつかの例が課題となっている。
パラメータ係数チューニング(LoRA)と新たな学習可能な内部特徴拡張を組み合わせた効率的な適応戦略を提案する。
複雑なマルチラベル・マルチパーソン動作検出データセットに対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2025-07-28T21:46:05Z) - Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization [19.32522292907096]
AGNOSTOSは、操作においてクロスタスクゼロショットの一般化を厳格に評価するために設計された新しいシミュレーションベンチマークである。
X-ICMは、コンテキスト内デモで大きな言語モデルを条件付け、目に見えないタスクに対するアクションシーケンスを予測する手法である。
我々はAGNOSTOSとX-ICMが汎用的なロボット操作を促進する貴重なツールになると信じている。
論文 参考訳(メタデータ) (2025-05-21T15:35:57Z) - STAMP: Scalable Task And Model-agnostic Collaborative Perception [24.890993164334766]
STAMPは、異種エージェントのためのタスクおよびモデルに依存しない協調認識パイプラインである。
計算オーバーヘッドを最小限に抑え、スケーラビリティを高め、モデルのセキュリティを維持する。
第一種フレームワークとしてSTAMPは,スケーラブルでセキュアなモビリティシステムの研究を,レベル5の自律性に向けて進めることを目指している。
論文 参考訳(メタデータ) (2025-01-24T16:27:28Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。
GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。
GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文 参考訳(メタデータ) (2024-11-28T18:30:10Z) - Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - Localizing Task Information for Improved Model Merging and Compression [61.16012721460561]
我々は,各タスクの重み付けが重なり合わないことが多いため,各タスクがマージされた後も,各タスクの解決に必要な情報が保存されていることを示す。
本稿では,そのような重みを排除し,既存のモデルマージ手法の一般的な性能を改善するアルゴリズムであるConsensus Mergingを提案する。
論文 参考訳(メタデータ) (2024-05-13T14:54:37Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Hierarchical Side-Tuning for Vision Transformers [33.536948382414316]
微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。
PETLは、完全な微調整に比べてパラメータ更新が少なく、高いパフォーマンスを実現する可能性がある。
本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Conditional Channel Gated Networks for Task-Aware Continual Learning [44.894710899300435]
畳み込みニューラルネットワークは、一連の学習問題に最適化された場合、破滅的な忘れを経験する。
本稿では,この問題に条件付き計算で対処する新しい枠組みを提案する。
提案手法を4つの連続学習データセットで検証する。
論文 参考訳(メタデータ) (2020-03-31T19:35:07Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。