論文の概要: See and Switch: Vision-Based Branching for Interactive Robot-Skill Programming
- arxiv url: http://arxiv.org/abs/2603.08057v1
- Date: Mon, 09 Mar 2026 07:47:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.631016
- Title: See and Switch: Vision-Based Branching for Interactive Robot-Skill Programming
- Title(参考訳): See and Switch:対話型ロボットスキルプログラミングのためのビジョンベース分岐
- Authors: Petr Vanc, Jan Kristof Behrens, Václav Hlaváč, Karla Stepanova,
- Abstract要約: See & Switchは、タスクを意思決定状態(DS)を介して接続されたスキル部品のユーザ拡張可能なグラフとして表現する対話型指導・実行フレームワークである。
我々の視覚ベースのSwitcherは、視線画像(高次元)を使用して、競合する後継スキル部品を選択し、配布外のコンテキストを検出する。
提案手法は,576個の実ロボットロールアウトに対して,それぞれ90.7%,87.9%の精度で分岐選択と異常検出を確実に行うことを示す。
- 参考スコア(独自算出の注目度): 2.099922236065961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Programming robots by demonstration (PbD) is an intuitive concept, but scaling it to real-world variability remains a challenge for most current teaching frameworks. Conditional task graphs are very expressive and can be defined incrementally, which fits very well with the PbD idea. However, acting using conditional task graphs requires reliable perception-grounded online branch selection. In this paper, we present See & Switch, an interactive teaching-and-execution framework that represents tasks as user-extendable graphs of skill parts connected via decision states (DS), enabling conditional branching during replay. Unlike prior approaches that rely on manual branching or low-dimensional signals (e.g., proprioception), our vision-based Switcher uses eye-in-hand images (high-dimensional) to select among competing successor skill parts and to detect out-of-distribution contexts that require new demonstrations. We integrate kinesthetic teaching, joystick control, and hand gestures via an input-modality-abstraction layer and demonstrate that our proposed method is teaching modality-independent, enabling efficient in-situ recovery demonstrations. The system is validated in experiments on three challenging dexterous manipulation tasks. We evaluate our method under diverse conditions and furthermore conduct user studies with 8 participants. We show that the proposed method reliably performs branch selection and anomaly detection for novice users, achieving 90.7 % and 87.9 % accuracy, respectively, across 576 real-robot rollouts. We provide all code and data required to reproduce our experiments at http://imitrob.ciirc.cvut.cz/publications/seeandswitch.
- Abstract(参考訳): デモによるロボットプログラミング(PbD)は直感的な概念だが、現実の多様性に拡張することは、現在のほとんどの教育フレームワークにとって課題である。
条件付きタスクグラフは非常に表現力があり、漸進的に定義することができる。
しかし,条件付きタスクグラフを用いた行動には,信頼度の高いオンラインブランチ選択が必要である。
本稿では,タスクを意思決定状態(DS)を介して接続されたスキル部品のユーザ拡張可能なグラフとして表現し,リプレイ中の条件分岐を可能にする対話型指導・実行フレームワークであるSeee & Switchを提案する。
手動分岐や低次元信号(例えば、プロプレセプション)に依存する従来のアプローチとは異なり、我々の視覚ベースのスイッチングは、アイ・イン・ハンド・イメージ(高次元)を使用して、競合する後継スキル部品を選択し、新しいデモンストレーションを必要とするアウト・オブ・ディストリビューションコンテキストを検出する。
我々は,入力モダリティ・アブストラクション・レイヤを通じて,体感指導,ジョイスティックコントロール,手動作を統合し,提案手法がモダリティ非依存の教育であり,効率的なインサイト・リカバリ・デモを可能にすることを実証した。
このシステムは3つの困難な操作タスクの実験で検証されている。
本手法を様々な条件下で評価し,さらに8名の被験者を対象にユーザスタディを実施している。
提案手法は,576個の実ロボットロールアウトに対して,それぞれ90.7%,87.9%の精度で分岐選択と異常検出を確実に行うことを示す。
実験を再現するのに必要なコードとデータはすべてhttp://imitrob.ciirc.cvut.cz/publications/seeandswitch.comで提供します。
関連論文リスト
- Touch in the Wild: Learning Fine-Grained Manipulation with a Portable Visuo-Tactile Gripper [7.618517580705364]
触覚センサーを内蔵した携帯型軽量グリップについて述べる。
視覚信号と触覚信号を統合するクロスモーダル表現学習フレームワークを提案する。
試験管挿入や管状流体移動などの細粒度タスクに対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-07-20T17:53:59Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Compositional Servoing by Recombining Demonstrations [32.23118166912325]
本稿では,視覚サーボタスクをグラフトラバーサルとして定式化するフレームワークを提案する。
既存のデモを分割して再結合することで、デモグラフを構築します。
また, 実演の組換えにより, タスク・振り返りが向上することを示した。
論文 参考訳(メタデータ) (2023-10-06T14:16:49Z) - Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。
提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。
ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文 参考訳(メタデータ) (2021-06-07T17:13:59Z) - A Multi-resolution Approach to Expression Recognition in the Wild [9.118706387430883]
顔認識タスクを解決するためのマルチリゾリューション手法を提案する。
私たちは、しばしば異なる解像度で画像が取得されるという観察を直感的に根拠としています。
我々は、Affect-in-the-Wild 2データセットに基づいてトレーニングされたSqueeze-and-Excitationブロックを備えたResNetのようなアーキテクチャを使用する。
論文 参考訳(メタデータ) (2021-03-09T21:21:02Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Online Bag-of-Visual-Words Generation for Unsupervised Representation
Learning [59.29452780994169]
本研究では,コンベネットを訓練して画像のバッフル・オブ・ビジュアルワード(bow)表現を再構築し,表現を学習する教師・学生計画を提案する。
私たちの戦略は、教師ネットワーク(BoWターゲットを生成する役割)と学生ネットワーク(表現を学ぶ役割)の両方のオンライントレーニングと、ビジュアルワード語彙のオンライン更新を実行します。
論文 参考訳(メタデータ) (2020-12-21T18:31:21Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。