論文の概要: Visual Prompting for Robotic Manipulation with Annotation-Guided Pick-and-Place Using ACT
- arxiv url: http://arxiv.org/abs/2508.08748v1
- Date: Tue, 12 Aug 2025 08:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.355579
- Title: Visual Prompting for Robotic Manipulation with Annotation-Guided Pick-and-Place Using ACT
- Title(参考訳): ACTを用いたアノテーションガイドを用いたロボットマニピュレーションのための視覚プロンプト
- Authors: Muhammad A. Muttaqien, Tomohiro Motoda, Ryo Hanai, Yukiyasu Domae,
- Abstract要約: 本稿では,アノテーションを用いた視覚的プロンプトを利用した知覚行動パイプラインを提案する。
我々は、ロボットアームが人間のデモンストレーションからチャンクされたアクションシーケンスを予測することができる模倣学習アルゴリズムとして、Action Chunking with Transformers (ACT)を採用している。
本システムは,小売環境における把握行動の成功率と視覚的分析に基づいて評価し,把握精度と適応性の向上を実証した。
- 参考スコア(独自算出の注目度): 3.281128493853064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic pick-and-place tasks in convenience stores pose challenges due to dense object arrangements, occlusions, and variations in object properties such as color, shape, size, and texture. These factors complicate trajectory planning and grasping. This paper introduces a perception-action pipeline leveraging annotation-guided visual prompting, where bounding box annotations identify both pickable objects and placement locations, providing structured spatial guidance. Instead of traditional step-by-step planning, we employ Action Chunking with Transformers (ACT) as an imitation learning algorithm, enabling the robotic arm to predict chunked action sequences from human demonstrations. This facilitates smooth, adaptive, and data-driven pick-and-place operations. We evaluate our system based on success rate and visual analysis of grasping behavior, demonstrating improved grasp accuracy and adaptability in retail environments.
- Abstract(参考訳): コンビニエンスストアにおけるロボットピック・アンド・プレイス・タスクは、密集したオブジェクトの配置、隠蔽、色、形状、サイズ、テクスチャなどのオブジェクト特性の変化による課題を提起する。
これらの要因は軌道計画と把握を複雑にする。
本稿では,アノテーション誘導型視覚的プロンプトを利用した知覚行動パイプラインを提案する。この場合,境界ボックスアノテーションは選択可能なオブジェクトと配置位置の両方を識別し,空間的ガイダンスを構造化する。
従来のステップバイステップ計画に代えて、ロボットアームが人間のデモからチャンクされたアクションシーケンスを予測するための模倣学習アルゴリズムとして、Action Chunking with Transformers(ACT)を採用している。
これにより、スムーズで適応的で、データ駆動のピック・アンド・プレイス操作が容易になる。
本システムは,小売環境における把握行動の成功率と視覚的分析に基づいて評価し,把握精度と適応性の向上を実証した。
関連論文リスト
- Towards an Accurate and Effective Robot Vision (The Problem of Topological Localization for Mobile Robots) [0.43064121494080315]
本研究は,ロボットプラットフォームに搭載された視点カラーカメラで取得した画像のみを用いて,オフィス環境におけるトポロジカルローカライゼーションに対処する。
テキスト検索にヒントを得たColor Histograms, SIFT, ASIFT, RGB-SIFT, Bag-of-Visual-Wordsアプローチなど,最先端のビジュアル記述子の評価を行った。
論文 参考訳(メタデータ) (2025-09-05T09:14:59Z) - What to Do Next? Memorizing skills from Egocentric Instructional Video [43.59787683244105]
本稿では,新しいタスクである対話型アクションプランニングを提案し,トポロジカルアプライアンスメモリとトランスフォーマーアーキテクチャを組み合わせたアプローチを提案する。
実験の結果,提案手法は意味のある表現を学習し,その結果,行動偏差が発生すると性能が向上し,頑健になることが示された。
論文 参考訳(メタデータ) (2025-07-01T22:53:41Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Planning-Guided Diffusion Policy Learning for Generalizable Contact-Rich Bimanual Manipulation [16.244250979166214]
Generalizable Planning-Guided Diffusion Policy Learning (GLIDE)は、コンタクトリッチな双方向操作タスクを解決するためのアプローチである。
本稿では,特徴抽出,タスク表現,行動予測,データ拡張における重要な設計オプションのセットを提案する。
本手法は, 多様な地形, 寸法, 物理的特性の物体を効果的に操作することができる。
論文 参考訳(メタデータ) (2024-12-03T18:51:39Z) - Semantic-Geometric-Physical-Driven Robot Manipulation Skill Transfer via Skill Library and Tactile Representation [6.324290412766366]
操作知識を整理するための知識グラフに基づくスキルライブラリ構築手法を提案する。
また,スキルライブラリと触覚表現に基づく新しい階層型スキル伝達フレームワークを提案する。
提案手法のスキル伝達と適応性について実験を行った。
論文 参考訳(メタデータ) (2024-11-18T16:42:07Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [57.942404069484134]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - A Robotics-Inspired Scanpath Model Reveals the Importance of Uncertainty and Semantic Object Cues for Gaze Guidance in Dynamic Scenes [8.64158103104882]
本稿では,物体のセグメンテーションと視線挙動を相互接続的にシミュレーションする計算モデルを提案する。
このモデルでは,サスカディック・モーメントや事前サカディック・アテンションなどの拡張が可能であることを示す。
論文 参考訳(メタデータ) (2024-08-02T15:20:34Z) - Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - Towards Explainable Motion Prediction using Heterogeneous Graph
Representations [3.675875935838632]
動き予測システムは、自動運転車が安全かつ効率的な計画を実行できるようにする交通シナリオの将来の挙動を捉えることを目的としている。
GNNベースのアプローチは、これらの相互作用を自然にモデル化するのに適しているため、近年注目を集めている。
本研究では,異なるアプローチを用いて動作予測システムの説明可能性を向上させることを目的とする。
論文 参考訳(メタデータ) (2022-12-07T17:43:42Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Latent Space Roadmap for Visual Action Planning of Deformable and Rigid
Object Manipulation [74.88956115580388]
プランニングは、イメージを埋め込んだ低次元の潜在状態空間で行われる。
我々のフレームワークは2つの主要なコンポーネントで構成されており、画像のシーケンスとして視覚的な計画を生成するビジュアル・フォレスト・モジュール(VFM)と、それら間のアクションを予測するアクション・プロポーザル・ネットワーク(APN)である。
論文 参考訳(メタデータ) (2020-03-19T18:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。