論文の概要: Behavior Cloning for Active Perception with Low-Resolution Egocentric Vision
- arxiv url: http://arxiv.org/abs/2605.14106v1
- Date: Wed, 13 May 2026 20:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.500885
- Title: Behavior Cloning for Active Perception with Low-Resolution Egocentric Vision
- Title(参考訳): 低解像度エゴセントリックビジョンを用いた能動知覚のための行動クローニング
- Authors: Anthony Bilic, Chen Chen, Ladislau Bölöni,
- Abstract要約: 本研究では, 対象物探索作業において, 行動のクローン化が能動的知覚を生み出すのに十分かどうかを考察する。
手首に搭載された自家用RGBカメラを装備した低コストのロボットアームは、把握信号をトリガーする前に、部分的に見える植物を中央に配置する必要がある。
低解像度の自己中心型視覚は、信頼性の高いタスク完了に十分であることを示す。
- 参考スコア(独自算出の注目度): 6.097464845651317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate whether behavior cloning is sufficient to produce active perception in a structured object-finding task. A low-cost robot arm equipped with a wrist-mounted egocentric RGB camera must reposition to center a partially visible plant before triggering a grasp signal, requiring actions that improve future observations. The model predicts joint commands directly from low-resolution RGB images under closed-loop control. We show that low-resolution egocentric vision is sufficient for reliable task completion and that predicting relative joint deltas substantially outperforms absolute joint position prediction in our setting. These results demonstrate that visually grounded active perception can emerge from behavior cloning in a reproducible setting.
- Abstract(参考訳): 本研究では, 対象物探索作業において, 行動のクローン化が能動的知覚を生み出すのに十分かどうかを考察する。
手首に搭載された自我中心のRGBカメラを備えた低コストのロボットアームは、握り信号を起こす前に部分的に見える植物を中央に配置する必要がある。
このモデルは閉ループ制御下での低解像度RGB画像から直接ジョイントコマンドを予測する。
低分解能な自我中心視はタスク完了に十分であり、相対的な関節デルタの予測は我々の設定において絶対的な関節位置予測を著しく上回ることを示す。
これらの結果は,再現可能な環境下での行動のクローン化から,視覚的に基盤付けられた能動的知覚が出現することを示した。
関連論文リスト
- Temporally Consistent Object 6D Pose Estimation for Robot Control [16.973122634563314]
我々は、オブジェクトの時間的一貫性を強制する因子グラフアプローチを開発する。
フィードバックに基づくロボット制御タスクにおける提案手法の安定性を実験的に検証する。
論文 参考訳(メタデータ) (2026-05-04T15:15:09Z) - MSACT: Multistage Spatial Alignment for Stable Low-Latency Fine Manipulation [4.439585594082787]
実世界の微視的操作、特に双方向操作では、低レイテンシ制御と安定した視覚的位置決めが必要となる。
ACTのようなアクションチャンキングポリシーは、低レイテンシの実行とデータ効率を可能にするが、空間的一貫性を明示することなく、密集した視覚的特徴に依存している。
安定な2次元アテンションポイントを抽出し,時間的アライメントロスを伴う将来のアテンションシーケンスを共同で予測する多段階空間アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2026-05-01T07:35:15Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - ROPES: Robotic Pose Estimation via Score-Based Causal Representation Learning [28.88442456907043]
因果表現学習(CRL)は、高次元データに基づく潜在的生成因子を分散させる強力な教師なしフレームワークとして登場した。
本稿では,CRLをロボット工学に導入することにより,理論と実世界の実践のギャップを埋める。
具体的には,Score-based CRLによるロボットのポーズ推定を導入することで,ロボットのポーズ推定について述べる。
論文 参考訳(メタデータ) (2025-10-23T17:42:26Z) - Color-Pair Guided Robust Zero-Shot 6D Pose Estimation and Tracking of Cluttered Objects on Edge Devices [4.261261166281339]
本稿では,エッジデバイス上での効率的な実行を目的とした統合フレームワークを提案する。
当社のアプローチの鍵は、ライトと不変なカラーペアの特徴表現の共有です。
最初の見積のために、この機能はライブRGB-Dビューとオブジェクトの3Dメッシュの間の堅牢な登録を容易にする。
追跡に関しては、同じ特徴論理が時間的対応を検証し、軽量モデルが物体の動きを確実に回帰させることができる。
論文 参考訳(メタデータ) (2025-09-28T05:07:49Z) - Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-12-11T06:35:18Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Occupancy Planes for Single-view RGB-D Human Reconstruction [120.5818162569105]
暗黙的な機能を持つシングルビューRGB-Dヒト再構成は、しばしばポイント単位の分類として定式化される。
本稿では,カメラの視野フラストラムをスライスする平面上での占有率予測として,一視点のRGB-D人間の再構成を定式化できる占有面(OPlanes)表現を提案する。
論文 参考訳(メタデータ) (2022-08-04T17:59:56Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - SporeAgent: Reinforced Scene-level Plausibility for Object Pose
Refinement [28.244027792644097]
深度とRGBに基づくポーズ改善アプローチは、結果のポーズ推定の精度を高めるが、視覚的アライメントを考慮するとあいまいさの影響を受けやすい。
可視性を考慮するとあいまいさが減少し、その結果、乱雑な環境でより正確にポーズを予測できることが示される。
LINEMOD および YCB-VIDEO データセットを用いた実験により, 深度に基づく精錬手法の最先端性能が実証された。
論文 参考訳(メタデータ) (2022-01-01T20:26:19Z) - Spatial Attention Improves Iterative 6D Object Pose Estimation [52.365075652976735]
本稿では,RGB画像を用いた6次元ポーズ推定の改良手法を提案する。
私たちの主な洞察力は、最初のポーズ推定の後、オブジェクトの異なる空間的特徴に注意を払うことが重要です。
実験により,このアプローチが空間的特徴に順応することを学び,被写体の一部を無視することを学び,データセット間でのポーズ推定を改善することを実証した。
論文 参考訳(メタデータ) (2021-01-05T17:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。