論文の概要: Visual Prompting for Robotic Manipulation with Annotation-Guided Pick-and-Place Using ACT
- arxiv url: http://arxiv.org/abs/2508.08748v1
- Date: Tue, 12 Aug 2025 08:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.355579
- Title: Visual Prompting for Robotic Manipulation with Annotation-Guided Pick-and-Place Using ACT
- Title(参考訳): ACTを用いたアノテーションガイドを用いたロボットマニピュレーションのための視覚プロンプト
- Authors: Muhammad A. Muttaqien, Tomohiro Motoda, Ryo Hanai, Yukiyasu Domae,
- Abstract要約: 本稿では,アノテーションを用いた視覚的プロンプトを利用した知覚行動パイプラインを提案する。
我々は、ロボットアームが人間のデモンストレーションからチャンクされたアクションシーケンスを予測することができる模倣学習アルゴリズムとして、Action Chunking with Transformers (ACT)を採用している。
本システムは,小売環境における把握行動の成功率と視覚的分析に基づいて評価し,把握精度と適応性の向上を実証した。
- 参考スコア(独自算出の注目度): 3.281128493853064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic pick-and-place tasks in convenience stores pose challenges due to dense object arrangements, occlusions, and variations in object properties such as color, shape, size, and texture. These factors complicate trajectory planning and grasping. This paper introduces a perception-action pipeline leveraging annotation-guided visual prompting, where bounding box annotations identify both pickable objects and placement locations, providing structured spatial guidance. Instead of traditional step-by-step planning, we employ Action Chunking with Transformers (ACT) as an imitation learning algorithm, enabling the robotic arm to predict chunked action sequences from human demonstrations. This facilitates smooth, adaptive, and data-driven pick-and-place operations. We evaluate our system based on success rate and visual analysis of grasping behavior, demonstrating improved grasp accuracy and adaptability in retail environments.
- Abstract(参考訳): コンビニエンスストアにおけるロボットピック・アンド・プレイス・タスクは、密集したオブジェクトの配置、隠蔽、色、形状、サイズ、テクスチャなどのオブジェクト特性の変化による課題を提起する。
これらの要因は軌道計画と把握を複雑にする。
本稿では,アノテーション誘導型視覚的プロンプトを利用した知覚行動パイプラインを提案する。この場合,境界ボックスアノテーションは選択可能なオブジェクトと配置位置の両方を識別し,空間的ガイダンスを構造化する。
従来のステップバイステップ計画に代えて、ロボットアームが人間のデモからチャンクされたアクションシーケンスを予測するための模倣学習アルゴリズムとして、Action Chunking with Transformers(ACT)を採用している。
これにより、スムーズで適応的で、データ駆動のピック・アンド・プレイス操作が容易になる。
本システムは,小売環境における把握行動の成功率と視覚的分析に基づいて評価し,把握精度と適応性の向上を実証した。
関連論文リスト
- Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Planning-Guided Diffusion Policy Learning for Generalizable Contact-Rich Bimanual Manipulation [16.244250979166214]
Generalizable Planning-Guided Diffusion Policy Learning (GLIDE)は、コンタクトリッチな双方向操作タスクを解決するためのアプローチである。
本稿では,特徴抽出,タスク表現,行動予測,データ拡張における重要な設計オプションのセットを提案する。
本手法は, 多様な地形, 寸法, 物理的特性の物体を効果的に操作することができる。
論文 参考訳(メタデータ) (2024-12-03T18:51:39Z) - Semantic-Geometric-Physical-Driven Robot Manipulation Skill Transfer via Skill Library and Tactile Representation [6.324290412766366]
操作知識を整理するための知識グラフに基づくスキルライブラリ構築手法を提案する。
また,スキルライブラリと触覚表現に基づく新しい階層型スキル伝達フレームワークを提案する。
提案手法のスキル伝達と適応性について実験を行った。
論文 参考訳(メタデータ) (2024-11-18T16:42:07Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [57.942404069484134]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - A Robotics-Inspired Scanpath Model Reveals the Importance of Uncertainty and Semantic Object Cues for Gaze Guidance in Dynamic Scenes [8.64158103104882]
本稿では,物体のセグメンテーションと視線挙動を相互接続的にシミュレーションする計算モデルを提案する。
このモデルでは,サスカディック・モーメントや事前サカディック・アテンションなどの拡張が可能であることを示す。
論文 参考訳(メタデータ) (2024-08-02T15:20:34Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。