論文の概要: PixRO: Pixel-Distributed Rotational Odometry with Gaussian Belief Propagation
- arxiv url: http://arxiv.org/abs/2406.09726v1
- Date: Fri, 14 Jun 2024 05:28:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 15:03:43.253630
- Title: PixRO: Pixel-Distributed Rotational Odometry with Gaussian Belief Propagation
- Title(参考訳): PixRO:Gaussian Belief Propagationを用いた画素分散回転オドメトリー
- Authors: Ignacio Alzugaray, Riku Murai, Andrew Davison,
- Abstract要約: 本稿では,フレーム間回転推定の課題に対処する。
フレーム間の相対的な動きをフルイメージで推論する代わりに、ピクセルレベルで推定を分散する。
このパラダイムでは、各ピクセルは、局所的な情報と近隣のピクセルとの局所的なメッセージパッシングにのみ依存することで、グローバルな動きを推定する。
- 参考スコア(独自算出の注目度): 8.049531918823758
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual sensors are not only becoming better at capturing high-quality images but also they have steadily increased their capabilities in processing data on their own on-chip. Yet the majority of VO pipelines rely on the transmission and processing of full images in a centralized unit (e.g. CPU or GPU), which often contain much redundant and low-quality information for the task. In this paper, we address the task of frame-to-frame rotational estimation but, instead of reasoning about relative motion between frames using the full images, distribute the estimation at pixel-level. In this paradigm, each pixel produces an estimate of the global motion by only relying on local information and local message-passing with neighbouring pixels. The resulting per-pixel estimates can then be communicated to downstream tasks, yielding higher-level, informative cues instead of the original raw pixel-readings. We evaluate the proposed approach on real public datasets, where we offer detailed insights about this novel technique and open-source our implementation for the future benefit of the community.
- Abstract(参考訳): 視覚センサーは、高品質な画像をキャプチャするだけでなく、独自のオンチップでデータを処理する能力も着実に向上している。
しかし、VOパイプラインの大多数は、中央集権単位(CPUやGPUなど)におけるフルイメージの送信と処理に依存しており、タスクに対して非常に冗長で低品質な情報を含んでいることが多い。
本稿では,フレーム間回転推定の課題に対処するが,フルイメージを用いてフレーム間の相対的な動きを推論する代わりに,ピクセルレベルで推定を分散する。
このパラダイムでは、各ピクセルは、局所的な情報と近隣のピクセルとの局所的なメッセージパッシングにのみ依存することで、グローバルな動きの推定を生成する。
結果のピクセル当たりの見積もりは下流のタスクに伝達され、元の生のピクセル読み取りではなく、より高いレベルの情報的手がかりが得られる。
提案したアプローチを実際の公開データセットで評価し、この新技術に関する詳細な知見を提供し、コミュニティの将来的な利益のために我々の実装をオープンソース化する。
関連論文リスト
- Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。
PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Superpixel Transformers for Efficient Semantic Segmentation [32.537400525407186]
本稿では,画像の過剰部分化というスーパーピクセルの考え方を活用し,近代的なトランスフォーマーフレームワークでそれらを適用することによって,その解決策を提案する。
提案手法は,グローバルな自己認識機構によって生成されるリッチなスーパーピクセル特徴により,セマンティックセマンティックセグメンテーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-28T23:09:30Z) - Learn how to Prune Pixels for Multi-view Neural Image-based Synthesis [10.571582038258443]
本稿では,ピクセルプルーニングの手法であるLeHoPPを提案する。
レンダリングビューにおける各入力ピクセルの重要性について検討し、無関係なピクセルの使用を避ける。
画像ベースのレンダリングネットワークを再トレーニングしなくても,合成品質と画素レートのトレードオフは良好である。
論文 参考訳(メタデータ) (2023-05-05T14:29:24Z) - Probabilistic Deep Metric Learning for Hyperspectral Image
Classification [91.5747859691553]
本稿では,ハイパースペクトル画像分類のための確率論的深度学習フレームワークを提案する。
ハイパースペクトルセンサーが捉えた画像に対して、各ピクセルのカテゴリを予測することを目的としている。
我々のフレームワークは、既存のハイパースペクトル画像分類法に容易に適用できる。
論文 参考訳(メタデータ) (2022-11-15T17:57:12Z) - Enhancing Multi-Scale Implicit Learning in Image Super-Resolution with
Integrated Positional Encoding [4.781615891172263]
画像超解像コンテキストにおいて,各画素を局所領域からの信号の集約とみなす。
画素領域上の周波数情報を集約することで従来の位置符号化を拡張した位置符号化(IPE)を提案する。
IPE-LIIFの定量的および定性的評価による有効性を示し、さらに画像スケールへのIPEの一般化能力を示す。
論文 参考訳(メタデータ) (2021-12-10T06:09:55Z) - A Novel Upsampling and Context Convolution for Image Semantic
Segmentation [0.966840768820136]
最近のセマンティックセグメンテーションの方法は、しばしば深い畳み込みニューラルネットワークを用いたエンコーダデコーダ構造を採用している。
ネットワーク内の画像の空間情報を効率的に保存するために,ガイドフィルタに基づく高密度アップサンプリング畳み込み法を提案する。
ADE20KとPascal-Contextのベンチマークデータセットでは,それぞれ82.86%,81.62%の画素精度を記録した。
論文 参考訳(メタデータ) (2021-03-20T06:16:42Z) - AINet: Association Implantation for Superpixel Segmentation [82.21559299694555]
今回提案する新しいtextbfAssociation textbfImplantation(AI)モジュールは、ネットワークがピクセルとその周辺グリッド間の関係を明示的にキャプチャすることを可能にする。
本手法は最先端性能を実現するだけでなく,十分な推論効率を維持することができた。
論文 参考訳(メタデータ) (2021-01-26T10:40:13Z) - Personal Privacy Protection via Irrelevant Faces Tracking and Pixelation
in Video Live Streaming [61.145467627057194]
我々は、ビデオライブストリーミングにおいて、自動プライバシーフィルタリングを生成するためのFace Pixelationと呼ばれる新しい方法を開発した。
無関係な人々の顔の高速かつ正確なピクセル化のために、FPVLSは2つのコアステージのフレームツービデオ構造で構成されています。
収集したビデオライブストリーミングデータセットにおいて、FPVLSは満足度の高い精度、リアルタイム効率を取得し、オーバーピクセル問題を含む。
論文 参考訳(メタデータ) (2021-01-04T16:18:26Z) - A U-Net Based Discriminator for Generative Adversarial Networks [86.67102929147592]
GAN(Generative Adversarial Network)のための代替U-Netベースの識別器アーキテクチャを提案する。
提案アーキテクチャにより,合成画像のグローバルコヒーレンスを維持しつつ,画素単位の詳細なフィードバックを生成元に提供することができる。
斬新な判別器は、標準分布と画像品質の指標の観点から、最先端の技術を向上する。
論文 参考訳(メタデータ) (2020-02-28T11:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。