論文の概要: Viewpoint Matters: Dynamically Optimizing Viewpoints with Masked Autoencoder for Visual Manipulation
- arxiv url: http://arxiv.org/abs/2602.04243v2
- Date: Thu, 05 Mar 2026 14:34:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.162456
- Title: Viewpoint Matters: Dynamically Optimizing Viewpoints with Masked Autoencoder for Visual Manipulation
- Title(参考訳): 視点事項:視覚操作のためのマスク付きオートエンコーダによる視点の動的最適化
- Authors: Pengfei Yi, Yifan Han, Junyan Li, Litao Liu, Wenzhao Lian,
- Abstract要約: 単一カメラロボットシステムにおけるアクティブ視点選択のための新しいフレームワークであるMAE-Selectを提案する。
MaE-Selectは、事前訓練されたマルチビューマスク付きオートエンコーダ表現をフル活用し、各タイムチャンクにおける次の最も情報性の高い視点を動的に選択する。
実験により、MAE-Selectはシングルカメラシステムの能力を向上し、場合によってはマルチカメラのセットアップを超越することを示した。
- 参考スコア(独自算出の注目度): 9.420906356149874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic manipulation continues to be a challenge, and imitation learning (IL) enables robots to learn tasks from expert demonstrations. Current IL methods typically rely on fixed camera setups, where cameras are manually positioned in static locations, imposing significant limitations on adaptability and coverage. Inspired by human active perception, where humans dynamically adjust their viewpoint to capture the most relevant and least noisy information, we propose MAE-Select, a novel framework for active viewpoint selection in single-camera robotic systems. MAE-Select fully leverages pre-trained multi-view masked autoencoder representations and dynamically selects the next most informative viewpoint at each time chunk without requiring labeled viewpoints. Extensive experiments demonstrate that MAE-Select improves the capabilities of single-camera systems and, in some cases, even surpasses multi-camera setups. The project will be available at https://mae-select.github.io.
- Abstract(参考訳): ロボット操作は引き続き課題であり、模倣学習(IL)はロボットが専門家によるデモンストレーションからタスクを学習することを可能にする。
現在のIL方式は固定カメラのセットアップに依存しており、カメラは静的な位置に手動で配置され、適応性とカバー範囲に大きな制限が課される。
人間の能動知覚にインスパイアされ、人間は視線を動的に調整し、最も関連性が高く、ノイズの少ない情報を捉え、単眼ロボットシステムにおいてアクティブな視線選択のための新しいフレームワークであるMAE-Selectを提案する。
MAE-Selectは、事前訓練されたマルチビューマスク付きオートエンコーダ表現をフル活用し、ラベル付き視点を必要とせずに、各タイムチャンクにおける次の最も情報性の高い視点を動的に選択する。
大規模な実験により、MAE-Selectはシングルカメラシステムの能力を向上し、場合によってはマルチカメラのセットアップを超えている。
プロジェクトはhttps://mae-select.github.ioで公開される。
関連論文リスト
- Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Instructional Videos [66.1935609072708]
LangViewは、ビュー依存のキャプション予測の相対的精度を、擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークである。
推論中、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として、各タイミングで見るのに最適な視点を返します。
論文 参考訳(メタデータ) (2024-11-13T16:31:08Z) - Learning to Select Camera Views: Efficient Multiview Understanding at
Few Glances [59.34619548026885]
本稿では,対象物やシナリオを所定のビューから分析し,処理に最適なビューを選択するビュー選択手法を提案する。
提案手法は,MVSelectという強化学習に基づくカメラ選択モジュールを備えており,ビューの選択だけでなく,タスクネットワークとの協調トレーニングも容易である。
論文 参考訳(メタデータ) (2023-03-10T18:59:10Z) - Multi-View Masked World Models for Visual Robotic Manipulation [132.97980128530017]
ランダムにマスキングされた視点の画素を再構成するマルチビューマスキングオートエンコーダを訓練する。
提案手法の有効性を様々なシナリオで示す。
また、複数のランダム化視点で訓練された多視点マスク付きオートエンコーダは、強い視点ランダム化を持つポリシーを訓練することができることを示した。
論文 参考訳(メタデータ) (2023-02-05T15:37:02Z) - Look Closer: Bridging Egocentric and Third-Person Views with
Transformers for Robotic Manipulation [15.632809977544907]
視覚フィードバックから精度に基づく操作タスクを解くことは、従来のロボットシステムに必要なエンジニアリング労力を大幅に削減する可能性がある。
ロボットの手首に装着した3人称カメラと自我中心カメラの両方から視覚フィードバックを受けるロボット操作のための設定を提案する。
また,両カメラの視覚情報を効果的に融合するために,クロスビューアテンション機構を備えたトランスフォーマーを提案する。
論文 参考訳(メタデータ) (2022-01-19T18:39:03Z) - Multi-Sensor Next-Best-View Planning as Matroid-Constrained Submodular
Maximization [42.2136160962607]
複数のロボットのチームが捉えた深度画像を用いて3次元モデルを作成することの問題点を考察する。
次回のビュープランニングでは、現在のシーンモデルを使用して次の視点を選択します。
このユーティリティ関数を用いたマルチセンサの次ベクタービュープランニングは,マットロイド制約の下でのサブモジュラーの例であることを示す。
論文 参考訳(メタデータ) (2020-07-04T12:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。