論文の概要: How Robot Dogs See the Unseeable
- arxiv url: http://arxiv.org/abs/2511.16262v1
- Date: Thu, 20 Nov 2025 11:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.591591
- Title: How Robot Dogs See the Unseeable
- Title(参考訳): ロボット犬に見当たらないもの(動画)
- Authors: Oliver Bimber, Karl Dietrich von Ellenrieder, Michael Haller, Rakesh John Amala Arokia Nathan, Gianni Lunardi, Marco Camurri, Mohamed Youssef, Santos Miguel Orozco Soto, Jeremy E. Niven,
- Abstract要約: ピアリング(英: Peering)は、動物が運動視差を通して距離を推定するために使用する左右の運動である。
従来のロボットカメラは、前景の障害物と背景の物体の両方を鋭い焦点でレンダリングする。
この研究は、動物のピアリングと光画像からの合成開口センシングの正式な関係を確立する。
- 参考スコア(独自算出の注目度): 5.462667251616583
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Peering, a side-to-side motion used by animals to estimate distance through motion parallax, offers a powerful bio-inspired strategy to overcome a fundamental limitation in robotic vision: partial occlusion. Conventional robot cameras, with their small apertures and large depth of field, render both foreground obstacles and background objects in sharp focus, causing occluders to obscure critical scene information. This work establishes a formal connection between animal peering and synthetic aperture (SA) sensing from optical imaging. By having a robot execute a peering motion, its camera describes a wide synthetic aperture. Computational integration of the captured images synthesizes an image with an extremely shallow depth of field, effectively blurring out occluding elements while bringing the background into sharp focus. This efficient, wavelength-independent technique enables real-time, high-resolution perception across various spectral bands. We demonstrate that this approach not only restores basic scene understanding but also empowers advanced visual reasoning in large multimodal models, which fail with conventionally occluded imagery. Unlike feature-dependent multi-view 3D vision methods or active sensors like LiDAR, SA sensing via peering is robust to occlusion, computationally efficient, and immediately deployable on any mobile robot. This research bridges animal behavior and robotics, suggesting that peering motions for synthetic aperture sensing are a key to advanced scene understanding in complex, cluttered environments.
- Abstract(参考訳): Peeringは、動物が運動視差を通して距離を推定するために使うサイド・ツー・サイドの動きで、ロボットビジョンの基本的な限界を克服する強力なバイオインスパイアされた戦略を提供する。
従来のロボットカメラは、小さな開口部と広い視野を持ち、前景の障害物と背景の物体の両方を鋭い焦点でレンダリングする。
この研究は、動物ピアリングと光学画像からの合成開口(SA)の正式な接続を確立する。
ロボットがピアリング動作を実行することで、そのカメラは広い合成開口部を記述する。
撮像された画像の計算的統合は、非常に浅い被写界深度で画像を合成し、背景を鋭い焦点にしながら、咬合要素を効果的にぼかす。
この効率的で波長に依存しない技術は、様々なスペクトル帯域でリアルタイム、高分解能の知覚を可能にする。
提案手法は,基本的なシーン理解を復元するだけでなく,従来は無視されていた画像に失敗する大規模マルチモーダルモデルにおいて,高度な視覚的推論を可能にする。
機能に依存した多視点3D視覚法やLiDARのようなアクティブなセンサーとは異なり、ピアリングによるSAセンシングは、閉塞に対して堅牢で、計算効率が良く、どの移動ロボットにも即座に展開できる。
この研究は動物行動とロボット工学を橋渡しし、複雑な、散らばった環境において、合成開口センシングのためのピアリング動作が高度なシーン理解の鍵となることを示唆している。
関連論文リスト
- ArtReg: Visuo-Tactile based Pose Tracking and Manipulation of Unseen Articulated Objects [2.9793019246605676]
視認できない物体の視触覚に基づく追跡のための新しい手法を提案する。
提案手法は,無意味なカルマンフィルタの定式化において,ビジュオ触点雲を統合する。
我々は,実際のロボット実験を通じて,様々な種類の未知物体に対するアプローチを広く評価してきた。
論文 参考訳(メタデータ) (2025-11-09T13:30:51Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Incorporating dense metric depth into neural 3D representations for view synthesis and relighting [25.028859317188395]
ロボット応用では、密度の深い距離の深さをステレオで直接測定することができ、照明を制御できる。
本研究は,ニューラルネットワークによる3次元表現のトレーニングに高密度な距離深度を組み込む手法を実証する。
また、パイプラインに必要なデータを取得し、リライティングとビュー合成の結果を示すために開発されたマルチフラッシュステレオカメラシステムについても論じる。
論文 参考訳(メタデータ) (2024-09-04T20:21:13Z) - MSI-NeRF: Linking Omni-Depth with View Synthesis through Multi-Sphere Image aided Generalizable Neural Radiance Field [1.3162012586770577]
深層学習全方位深度推定と新しいビュー合成を組み合わせたMSI-NeRFを提案する。
入力画像の特徴抽出とワープにより,コストボリュームとして多面体画像を構築する。
ネットワークには,4つの画像のみを用いて未知のシーンを効率的に再構築する一般化機能がある。
論文 参考訳(メタデータ) (2024-03-16T07:26:50Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。