論文の概要: Towards Exploratory and Focused Manipulation with Bimanual Active Perception: A New Problem, Benchmark and Strategy
- arxiv url: http://arxiv.org/abs/2602.01939v1
- Date: Mon, 02 Feb 2026 10:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.087793
- Title: Towards Exploratory and Focused Manipulation with Bimanual Active Perception: A New Problem, Benchmark and Strategy
- Title(参考訳): バイマティック・アクティブ・パーセプションによる探索的・集中的操作に向けて--新しい問題,ベンチマーク,戦略
- Authors: Yuxin He, Ruihao Zhang, Tianao Shen, Cheng Liu, Qiang Nie,
- Abstract要約: 探索・集中操作(EFM)の課題を思いついた。
提案する課題は,課題解決のための情報収集を積極的に行うことである。
両腕を能動視覚に、もう片方の腕を操りながら力覚を与えるBAP戦略を考案した。
- 参考スコア(独自算出の注目度): 13.317793595888253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, active vision has reemerged as an important concept for manipulation, since visual occlusion occurs more frequently when main cameras are mounted on the robot heads. We reflect on the visual occlusion issue and identify its essence as the absence of information useful for task completion. Inspired by this, we come up with the more fundamental problem of Exploratory and Focused Manipulation (EFM). The proposed problem is about actively collecting information to complete challenging manipulation tasks that require exploration or focus. As an initial attempt to address this problem, we establish the EFM-10 benchmark that consists of 4 categories of tasks that align with our definition (10 tasks in total). We further come up with a Bimanual Active Perception (BAP) strategy, which leverages one arm to provide active vision and another arm to provide force sensing while manipulating. Based on this idea, we collect a dataset named BAPData for the tasks in EFM-10. With the dataset, we successfully verify the effectiveness of the BAP strategy in an imitation learning manner. We hope that the EFM-10 benchmark along with the BAP strategy can become a cornerstone that facilitates future research towards this direction. Project website: EFManipulation.github.io.
- Abstract(参考訳): 近年,ロボットの頭部にメインカメラを装着した場合,視覚閉塞が頻繁に発生するため,能動視覚が操作の重要な概念として再燃している。
本稿では,視覚的閉塞問題について考察し,その本質をタスク完了に有用な情報の欠如として認識する。
これに触発された我々は、より基本的なExploratory and Focused Manipulation (EFM) の問題を思いついた。
提案する課題は、探索や集中を必要とする困難な操作タスクを完了するために、積極的に情報を収集することである。
この問題に対処するための最初の試みとして,定義に適合する4つのタスク(合計10タスク)からなるEMF-10ベンチマークを構築した。
さらに、両腕を使ってアクティブな視覚と別の腕を提供し、操作中に力覚を提供するBAP(Bimanual Active Perception)戦略を考案した。
このアイデアに基づいて,EMF-10のタスクに対して,BAPDataというデータセットを収集する。
このデータセットを用いて,BAP戦略の有効性を模倣学習方式で検証した。
EFM-10ベンチマークとBAP戦略が今後この方向に向けた研究の基盤になることを期待している。
プロジェクトウェブサイト: EFManipulation.github.io
関連論文リスト
- Object-Centric Latent Action Learning [70.3173534658611]
本稿では,画素ではなくオブジェクトを対象とする,オブジェクト中心の潜在動作学習フレームワークを提案する。
我々は、自己教師対象中心の事前学習を利用して、行動関連や注意をそらすダイナミクスを歪めている。
その結果, 物体中心の事前学習は, トラクタの負の効果を50%軽減することがわかった。
論文 参考訳(メタデータ) (2025-02-13T11:27:05Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z) - Task-Focused Few-Shot Object Detection for Robot Manipulation [1.8275108630751844]
本研究では,検出のみに基づく操作手法を開発し,タスク中心の少数ショット検出を導入し,新しいオブジェクトや設定を学習する。
数ショット学習へのインタラクティブなアプローチの実験では、ロボットに検出からオブジェクトを直接操作するように訓練する(ClickBot)。
論文 参考訳(メタデータ) (2022-01-28T21:52:05Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - POMP: Pomcp-based Online Motion Planning for active visual search in
indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。
提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。
提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文 参考訳(メタデータ) (2020-09-17T08:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。