Fugu-MT 論文翻訳(概要): Rethinking Camera Choice: An Empirical Study on Fisheye Camera Properties in Robotic Manipulation

論文の概要: Rethinking Camera Choice: An Empirical Study on Fisheye Camera Properties in Robotic Manipulation

arxiv url: http://arxiv.org/abs/2603.02139v1
Date: Mon, 02 Mar 2026 18:00:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:57.018526
Title: Rethinking Camera Choice: An Empirical Study on Fisheye Camera Properties in Robotic Manipulation
Title（参考訳）: カメラ選択の再考:ロボットマニピュレーションにおける魚眼カメラ特性に関する実証的研究
Authors: Han Xue, Nan Min, Xiaotong Liu, Wendi Chen, Yuan Fang, Jun Lv, Cewu Lu, Chuan Wen,
Abstract要約: 我々は,手首に装着した魚眼カメラの特性を模倣学習のために厳密に分析した。魚眼で訓練された政策は、十分な環境多様性で訓練された場合、優れた場面の一般化を解放する。本研究は,ロボット学習における魚眼データセットの大規模収集と有効活用のための具体的かつ実用的なガイダンスを提供する。
参考スコア（独自算出の注目度）: 53.27191803311681
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The adoption of fisheye cameras in robotic manipulation, driven by their exceptionally wide Field of View (FoV), is rapidly outpacing a systematic understanding of their downstream effects on policy learning. This paper presents the first comprehensive empirical study to bridge this gap, rigorously analyzing the properties of wrist-mounted fisheye cameras for imitation learning. Through extensive experiments in both simulation and the real world, we investigate three critical research questions: spatial localization, scene generalization, and hardware generalization. Our investigation reveals that: (1) The wide FoV significantly enhances spatial localization, but this benefit is critically contingent on the visual complexity of the environment. (2) Fisheye-trained policies, while prone to overfitting in simple scenes, unlock superior scene generalization when trained with sufficient environmental diversity. (3) While naive cross-camera transfer leads to failures, we identify the root cause as scale overfitting and demonstrate that hardware generalization performance can be improved with a simple Random Scale Augmentation (RSA) strategy. Collectively, our findings provide concrete, actionable guidance for the large-scale collection and effective use of fisheye datasets in robotic learning. More results and videos are available on https://robo-fisheye.github.io/
Abstract（参考訳）: ロボット操作における魚眼カメラの採用は、極めて広い視野(FoV)によって推進され、政策学習における下流の影響についての体系的な理解を急速に上回っている。本稿では,このギャップを埋める最初の総合的実証実験を行い,手首に装着した魚眼カメラの特性を模倣学習のために厳密に分析した。シミュレーションと実世界における広範な実験を通じて,空間的局所化,シーンの一般化,ハードウェアの一般化という3つの重要な研究課題を考察する。 1)広帯域のFoVは空間的局所化を著しく促進するが,この利点は環境の視覚的複雑さに重大な影響を及ぼす。 2) 魚眼訓練方針は, 簡単な場面で過度に適合する傾向にあるが, 十分な環境多様性の訓練を行うと, 優れた場面の一般化が期待できる。 3) 直感的なクロスカメラ転送は失敗につながるが,根本原因はスケールオーバーフィットであり,ハードウェアの一般化性能はRandom Scale Augmentation (RSA) 戦略で改善可能であることを示す。本研究は,ロボット学習における魚眼データセットの大規模収集と有効活用のための,具体的かつ実用的なガイダンスを提供するものである。さらなる結果とビデオはhttps://robo-fisheye.github.io/で公開されている。

関連論文リスト

R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。 R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文参考訳（メタデータ） (2025-10-09T17:55:44Z)
Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots [55.43376513158555]
カメラ深度モデル (CDMs) は日用深度カメラの単純なプラグインである。我々は,ディープカメラのノイズパターンをモデル化することにより,シミュレーションから高品質なペアデータを生成するニューラルデータエンジンを開発した。私たちの実験では、ノイズや現実世界の微調整を必要とせず、生のシミュレートされた深さで訓練されたポリシーが、現実のロボットにシームレスに一般化されることを初めて実証しました。
論文参考訳（メタデータ） (2025-09-02T17:29:38Z)
FisheyeDepth: A Real Scale Self-Supervised Depth Estimation Model for Fisheye Camera [8.502741852406904]
魚眼カメラに適した自己監督深度推定モデルである魚眼深度について述べる。魚眼カメラモデルを訓練中の投射と再投射の段階に組み込んで画像歪みの処理を行う。また、連続するフレーム間の幾何学的投影に実際のポーズ情報を組み込んで、従来のポーズネットワークで推定されたポーズを置き換える。
論文参考訳（メタデータ） (2024-09-23T14:31:42Z)
The Treachery of Images: Bayesian Scene Keypoints for Deep Policy Learning in Robotic Manipulation [28.30126109684119]
スケール不変なキーポイントを時間とともに追跡するベイズ的手法であるBASKを提案する。我々は,手首カメラの観察から多目的ロボット操作の課題を学習するために,本手法を用いた。
論文参考訳（メタデータ） (2023-05-08T14:05:38Z)
Visual-Policy Learning through Multi-Camera View to Single-Camera View Knowledge Distillation for Robot Manipulation Tasks [4.820787231200527]
本稿では,ロボット操作タスクのための視覚に基づく強化学習(RL)アルゴリズムの一般化性能を高めるための新しい手法を提案する。提案手法は,複数のカメラ視点で訓練された教師の政策が,一台のカメラ視点から学習する際の生徒の方針を導出する知識蒸留と呼ばれる手法を活用することである。その結果、単一視点の視覚的学生政策は、単一視点の政策だけでは不可能な課題を把握し、持ち上げることをうまく学べることを示した。
論文参考訳（メタデータ） (2023-03-13T11:42:38Z)
Deep Learning for Event-based Vision: A Comprehensive Survey and Benchmarks [55.81577205593956]
イベントカメラはバイオインスパイアされたセンサーで、ピクセルごとの強度の変化を非同期に捉える。深層学習(DL)はこの新興分野に導入され、その可能性のマイニングに活発な研究努力にインスピレーションを与えている。
論文参考訳（メタデータ） (2023-02-17T14:19:28Z)
Learning Active Camera for Multi-Object Navigation [94.89618442412247]
ロボットアプリケーションでは、ロボットが複数のオブジェクトに自律的にナビゲートすることが不可欠だが、難しい。既存のナビゲーション手法は主に固定カメラに焦点を当てており、アクティブカメラでナビゲートする試みはほとんど行われていない。本稿では,アクティブカメラを用いて,複数の物体へのナビゲーションをより効率的に行うことを検討する。
論文参考訳（メタデータ） (2022-10-14T04:17:30Z)
Neural Camera Models [0.0]
機械学習支援深度推定または深度推定は、画像中の各画素が撮像されたシーンポイントまでの距離を予測する。この論文では、これらの仮定を緩和することに集中し、カメラを真に汎用的な深度センサーに変えるという究極の目標への貢献について述べる。
論文参考訳（メタデータ） (2022-08-27T01:28:46Z)
Exploiting Raw Images for Real-Scene Super-Resolution [105.18021110372133]
本稿では,合成データと実撮影画像とのギャップを埋めるために,実シーンにおける単一画像の超解像化の問題について検討する。本稿では,デジタルカメラの撮像過程を模倣して,よりリアルなトレーニングデータを生成する手法を提案する。また、原画像に記録された放射情報を活用するために、2分岐畳み込みニューラルネットワークを開発した。
論文参考訳（メタデータ） (2021-02-02T16:10:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。