論文の概要: MARVIS: Motion & Geometry Aware Real and Virtual Image Segmentation
- arxiv url: http://arxiv.org/abs/2403.09850v2
- Date: Thu, 03 Oct 2024 14:44:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:29:41.124466
- Title: MARVIS: Motion & Geometry Aware Real and Virtual Image Segmentation
- Title(参考訳): MARVIS: リアルと仮想イメージのセグメンテーションを意識したモーション・アンド・ジオメトリ
- Authors: Jiayi Wu, Xiaomin Lin, Shahriar Negahdaripour, Cornelia Fermüller, Yiannis Aloimonos,
- Abstract要約: 実画像領域と仮想画像領域のセグメンテーションのための新しい手法を提案する。
水面の複雑さを模倣するリアルな合成画像を作成することで、我々はネットワークにきめ細かいトレーニングデータを提供する。
我々は、目に見えない実世界の領域において、最先端の仮想画像分割性能を実現する。
- 参考スコア(独自算出の注目度): 19.464362358936906
- License:
- Abstract: Tasks such as autonomous navigation, 3D reconstruction, and object recognition near the water surfaces are crucial in marine robotics applications. However, challenges arise due to dynamic disturbances, e.g., light reflections and refraction from the random air-water interface, irregular liquid flow, and similar factors, which can lead to potential failures in perception and navigation systems. Traditional computer vision algorithms struggle to differentiate between real and virtual image regions, significantly complicating tasks. A virtual image region is an apparent representation formed by the redirection of light rays, typically through reflection or refraction, creating the illusion of an object's presence without its actual physical location. This work proposes a novel approach for segmentation on real and virtual image regions, exploiting synthetic images combined with domain-invariant information, a Motion Entropy Kernel, and Epipolar Geometric Consistency. Our segmentation network does not need to be re-trained if the domain changes. We show this by deploying the same segmentation network in two different domains: simulation and the real world. By creating realistic synthetic images that mimic the complexities of the water surface, we provide fine-grained training data for our network (MARVIS) to discern between real and virtual images effectively. By motion & geometry-aware design choices and through comprehensive experimental analysis, we achieve state-of-the-art real-virtual image segmentation performance in unseen real world domain, achieving an IoU over 78% and a F1-Score over 86% while ensuring a small computational footprint. MARVIS offers over 43 FPS (8 FPS) inference rates on a single GPU (CPU core). Our code and dataset are available here https://github.com/jiayi-wu-umd/MARVIS.
- Abstract(参考訳): 自律航法や3D再構成、水面近傍での物体認識といったタスクは、海洋ロボット工学の応用において不可欠である。
しかし、例えば、ランダムな空気-水界面からの反射や屈折、不規則な液体の流れ、それに類似した要因がダイナミックな障害を引き起こし、認識システムやナビゲーションシステムに潜在的な障害を引き起こす可能性がある。
従来のコンピュータビジョンアルゴリズムは、実際の画像領域と仮想画像領域を区別するのに苦労し、タスクをかなり複雑にしている。
仮想画像領域 (Virtual image region) は、反射や屈折によって、光線のリダイレクトによって形成される明らかな表現であり、実際の物理的な位置のない物体の存在を錯覚させる。
本研究では, 領域不変情報, 運動エントロピーカーネル, エピポーラ幾何整合性を組み合わせた合成画像を利用して, 実画像領域と仮想画像領域のセグメンテーションを行う手法を提案する。
ドメインが変更された場合、セグメンテーションネットワークを再トレーニングする必要はありません。
シミュレーションと実世界という2つの異なる領域に同じセグメンテーションネットワークを配置することで、これを実証する。
水面の複雑さを模倣したリアルな合成画像を作成することにより、実画像と仮想画像の識別を効果的に行うために、ネットワーク(MARVIS)のきめ細かいトレーニングデータを提供する。
動きと幾何学的設計の選択と総合的な実験分析により、未確認の現実世界領域における最先端の仮想画像セグメンテーション性能を達成し、IoUを78%以上、F1スコアを86%以上達成し、小さな計算フットプリントを確保した。
MARVISは1つのGPU(CPUコア)上で43 FPS(8 FPS)の推論レートを提供する。
私たちのコードとデータセットは、https://github.com/jiayi-wu-umd/MARVIS.comで利用可能です。
関連論文リスト
- Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs [59.12526668734703]
本稿では,オブジェクト合成可能なNeRFモデルであるComposable Object Volume NeRF(COV-NeRF)を紹介する。
COV-NeRFは、実際の画像からオブジェクトを抽出し、それらを新しいシーンに合成し、フォトリアリスティックなレンダリングと多くのタイプの2Dおよび3D監視を生成する。
論文 参考訳(メタデータ) (2024-03-07T00:00:02Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - MPI-Flow: Learning Realistic Optical Flow with Multiplane Images [18.310665144874775]
実世界の画像からリアルな光フローデータセットを生成する。
高度に現実的な新しい画像を生成するため,単視点画像から多平面画像(MPI)と呼ばれる層状深度表現を構築した。
動きの現実性を確保するため,MPI内のカメラと動的物体の動きを分離できる独立な物体運動モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-13T04:31:00Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Progressive Transformation Learning for Leveraging Virtual Images in
Training [21.590496842692744]
本稿では,PTL(Progressive Transformation Learning)を導入し,リアル性を高めた仮想画像を追加することにより,トレーニングデータセットを増強する。
1) 領域ギャップに応じて仮想イメージのプールからサブセットを選択する,2) 選択した仮想イメージを変換してリアリズムを向上する,3) 変換された仮想イメージをトレーニングセットに追加する,という3つのステップを段階的に繰り返す。
実験により、PTLは、特に小さなデータとクロスドメインシステムにおいて、ベースラインよりも大幅にパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-11-03T13:04:15Z) - Photo-realistic Neural Domain Randomization [37.42597274391271]
ニューラルレンダリングの最近の進歩は、フォトリアリスティック・ニューラルドメインランダム化(PNDR)と呼ばれる新しい統一アプローチを可能にしていることを示す。
我々のアプローチはモジュラーであり、材料、照明、レンダリングのための異なるニューラルネットワークで構成されており、異なるキー画像生成コンポーネントを異なるパイプラインでランダム化することが可能である。
実験の結果,PNDRを用いたトレーニングにより,新たなシーンへの一般化が可能であり,実世界移動の面では芸術の状況を大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-23T09:45:27Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - GeoSim: Photorealistic Image Simulation with Geometry-Aware Composition [81.24107630746508]
GeoSimは、新しい都市の運転シーンを合成するジオメトリ認識の画像合成プロセスです。
まず、センサーデータからリアルな形状と外観の両方を備えた多様な3Dオブジェクトのバンクを構築します。
得られた合成画像は、フォトリアリズム、トラフィック認識、幾何学的一貫性があり、画像シミュレーションが複雑なユースケースにスケールできる。
論文 参考訳(メタデータ) (2021-01-16T23:00:33Z) - Domain Adaptation with Morphologic Segmentation [8.0698976170854]
本稿では,任意の入力領域(実領域と合成領域)の画像を一様出力領域に変換するために,形態的セグメンテーションを用いた新しいドメイン適応フレームワークを提案する。
私たちのゴールは、複数のソースからのデータを共通の表現に統一する前処理のステップを確立することです。
都市景観のシミュレートと実データの4つのデータ集合上で, 定性的に定量的に評価し, 提案手法の有効性を示す。
論文 参考訳(メタデータ) (2020-06-16T17:06:02Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。