Fugu-MT 論文翻訳(概要): PixVOD: Pixel-Distributed Direct Visual Odometry and Depth Estimation

論文の概要: PixVOD: Pixel-Distributed Direct Visual Odometry and Depth Estimation

arxiv url: http://arxiv.org/abs/2606.03989v1
Date: Tue, 02 Jun 2026 17:59:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-03 22:00:05.247666
Title: PixVOD: Pixel-Distributed Direct Visual Odometry and Depth Estimation
Title（参考訳）: PixVOD: ピクセル分散直接視覚計測と深さ推定
Authors: Shinjeong Kim, Ignacio Alzugaray, Callum Rhodes, Paul H. J. Kelly, Andrew J. Davison,
Abstract要約: 我々は、高レベルの信号を局所的に合成し、下流の負荷を低減し、高レベルの視覚タスクに対してよりリッチな入力を提供するピクセルを想定する。そこで本研究では,全画素にまたがるビジュアル・オドメトリーと深度推定の完全並列化方式を提案する。提案手法は現実的なデータセットを用いて評価し,GBPに基づく画素レベルの分散計測と深度推定の実現可能性を示す。
参考スコア（独自算出の注目度）: 28.375541390903603
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Images composed of 2D pixel arrays are the standard input to computer vision algorithms, yet many underlying computations can be distributed across pixels. Transmitting raw, redundant, and noisy pixel data off the sensor remains inefficient, motivating a shift toward focal-plane sensor-processors that perform a significant part of the computation directly within each pixel. We envision pixels synthesizing higher-level signals locally, reducing downstream load, and providing richer inputs for higher-level vision tasks. We propose a fully parallelizable form of visual odometry and depth estimation across pixels, where sensor-processors exchange information through Gaussian Belief Propagation (GBP) to achieve consensus about camera motion and infer depth from per-pixel photometric observations and a surface normal prior. To maintain geometric stability during optimization, we introduce a keyframe-like anchoring mechanism that regulates the effective baseline between frames, enabling consistent motion and depth updates. Our method is evaluated on realistic datasets, demonstrating the feasibility of GBP-based pixel-level distributed odometry and depth estimation with keyframe anchoring on-sensor. Project Page: https://www.shinjeongkim.com/pixvod/
Abstract（参考訳）: 2Dピクセルアレイからなる画像はコンピュータビジョンアルゴリズムの標準的な入力であるが、多くの基礎となる計算はピクセル間で分散することができる。センサーから生の、冗長な、ノイズの多いピクセルデータを送信することは、依然として非効率であり、各ピクセル内で計算のかなりの部分を実行する焦点面センサープロセッサへのシフトを動機付けている。我々は、高レベルの信号を局所的に合成し、下流の負荷を低減し、高レベルの視覚タスクに対してよりリッチな入力を提供するピクセルを想定する。本稿では,ガウシアン・リーフ・プロパゲーション (GBP) を通じてセンサ・プロセッサが情報を交換し,画素ごとの光度観測から奥行きを推定する,ピクセル間距離の並列化と画素間深度推定法を提案する。最適化中の幾何安定性を維持するために,フレーム間の効果的なベースラインを制御し,一貫した動きと深さの更新を可能にするキーフレーム型アンカー機構を導入する。提案手法は現実的なデータセットを用いて評価し,GBPを用いた画素レベルの分散オドメトリーの実現可能性と,キーフレームアンカーによる奥行き推定を実現する。 Project Page: https://www.shinjeongkim.com/pixvod/

関連論文リスト

Square Superpixel Generation and Representation Learning via Granular Ball Computing [97.99956628286243]
スーパーピクセルは、オブジェクト境界と局所構造を保存する、コンパクトな領域ベースの表現を提供する。既存のスーパーピクセルアルゴリズムの多くは不規則な形状の領域を生成しており、畳み込みのような通常の演算子とうまく一致しない。グラニュラル・ボール・コンピューティングの適応表現とカバレッジ特性に動機付けられて,正方形スーパーピクセル・ジェネレーション・アプローチを開発した。
論文参考訳（メタデータ） (2026-03-31T09:06:58Z)
FreqPDE: Rethinking Positional Depth Embedding for Multi-View 3D Object Detection Transformers [91.59069344768858]
周波数対応位置深度埋め込み (FreqPDE) を導入し, 空間情報と2次元画像特徴を付加して3次元検出変換器デコーダを提案する。 FreqPDEは2D画像特徴と3D位置埋め込みを組み合わせることで、クエリデコーディングのための3D深度認識機能を生成する。
論文参考訳（メタデータ） (2025-10-17T07:36:54Z)
Leveraging Motion Estimation for Efficient Bayer-Domain Computer Vision [12.940116042097847]
既存のコンピュータビジョン処理パイプラインは、バイエルパターンの画素情報をキャプチャする画像センサを用いて視覚情報を取得する。次に、まずバイヤー画素データを画素ベースでRGBに変換し、次いでフレームベースでビデオ畳み込みネットワーク(VCN)処理を行う画像信号処理装置(ISP)を用いて生センサデータを処理する。本稿では,ISPを排除し,モーション推定を利用してバイエル領域の映像ビジョンタスクを直接高速化する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-25T08:09:54Z)
Data-Driven Pixel Control: Challenges and Prospects [13.158333009169418]
本稿では,画素レベルでのダイナミックセンシングと映像レベルでのコンピュータビジョン分析を組み合わせたデータ駆動システムについて検討する。本システムでは, 帯域幅を10倍に減らし, 省エネ製品(EDP)の15～30倍改善を実現している。
論文参考訳（メタデータ） (2024-08-08T21:49:19Z)
PixRO: Pixel-Distributed Rotational Odometry with Gaussian Belief Propagation [12.942063363292888]
画素レベルで分布する新しい測光回転推定アルゴリズムを提案する。各画素は、他の画素と情報を交換することで、カメラのグローバルな動きを推定し、グローバルなコンセンサスを達成する。
論文参考訳（メタデータ） (2024-06-14T05:28:45Z)
Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。 PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-06T17:59:10Z)
Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文参考訳（メタデータ） (2023-09-30T02:54:51Z)
Fully Embedding Fast Convolutional Networks on Pixel Processor Arrays [16.531637803429277]
本稿では,PPA(Pixel processor array)視覚センサのための新しいCNN推論手法を提案する。提案手法は, 畳み込み層, 最大プーリング, ReLu, およびPPAセンサ上に完全に接続された最終層を実現する。これは、外部処理を必要としないPPA視覚センサデバイスのプロセッサアレイで完全に行われたCNN推論を示す最初の研究である。
論文参考訳（メタデータ） (2020-04-27T01:00:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。