論文の概要: Policy-based Foveated Imaging and Perception
- arxiv url: http://arxiv.org/abs/2606.02565v1
- Date: Mon, 01 Jun 2026 17:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.561888
- Title: Policy-based Foveated Imaging and Perception
- Title(参考訳): 政策に基づくFoveated Imaging and Perception
- Authors: Howard Xiao, Jan Ackermann, Boyang Deng, Gordon Wetzstein,
- Abstract要約: 本稿では,画像取得時に直接動作するリアルタイム,予測的,タスク対応のファベードイメージングシステムを提案する。
本研究では,センサアテンションポリシー学習問題として,過去の観測行動が将来の測定値を決定することを導いた。
我々は,200メガピクセルのデュアルストリームセンサを用いて,現実的な帯域幅とレイテンシの制約下で実世界の映像をキャプチャするシステムの有効性を検証した。
- 参考スコア(独自算出の注目度): 36.66638469283988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ultra-high-resolution image sensors offer the potential to capture fine spatial details critical for many visual perception tasks, but acquiring and processing all pixels at full resolution is often infeasible under realistic bandwidth, latency, and power constraints. Existing approaches address this challenge through acquisition strategies such as spatial or temporal downsampling, which irrevocably discard information before task relevance can be assessed. In this work, we introduce a real-time, predictive, and task-aware foveated imaging system that operates directly at image acquisition time. Leveraging emerging dual-stream sensor architectures, our method dynamically allocates limited pixel bandwidth to task-relevant regions of interest while maintaining a low-resolution global context. We formulate foveated acquisition as a sensor attention policy-learning problem, in which past observations guide actions that determine future measurements, closing the perception-acquisition loop. Through extensive simulation across multiple perception tasks, we demonstrate that our approach achieves high task performance under strict pixel budgets and significantly outperforms relevant baselines operating at the same bandwidth. We further validate our system on a 200-megapixel dual-stream sensor, capturing real-world videos under realistic bandwidth and latency constraints, demonstrating the practical feasibility of task-driven, acquisition-time foveated imaging.
- Abstract(参考訳): 超高解像度画像センサは、多くの視覚的知覚タスクにおいて重要な空間的詳細を捉えることができるが、全解像度ですべてのピクセルを取得・処理することは、現実的な帯域幅、レイテンシ、電力制約の下では不可能であることが多い。
既存のアプローチでは、タスク関連性が評価される前に情報を捨ててしまうような、空間的あるいは時間的ダウンサンプリングのような買収戦略を通じて、この問題に対処している。
本研究では,画像取得時に直接動作するリアルタイム,予測的,タスク対応のFoveated Imagingシステムを提案する。
新たなデュアルストリームセンサアーキテクチャを活用することで、低解像度のグローバルコンテキストを維持しながら、タスク関連領域の限られたピクセル帯域幅を動的に割り当てる。
本研究では,センサ・アテンション・ポリシー・ラーニングの課題として,センサ・アテンション・アセスメント・アセスメント・アセスメント・ラーニングを定式化した。
本手法は,複数の知覚タスクにわたる広範囲なシミュレーションにより,厳格な画素予算の下で高いタスク性能を実現し,同一帯域で動作するベースラインを著しく上回ることを示す。
さらに,200メガピクセルのデュアルストリームセンサを用いて,実世界の映像をリアルな帯域幅とレイテンシの制約下でキャプチャし,タスク駆動・取得時間フェーブイメージングの実現可能性を示す。
関連論文リスト
- Event-based SLAM Benchmark for High-Speed Maneuvers [68.148886127117]
イベントベースのカメラはバイオインスパイアされたセンサーで、独立して、マイクロ秒の解像度で明るさの変化に非同期に反応する。
既存のイベントベースのアプローチは、高速操作による動きのぼかしを緩和することに成功したが、多くの制限に悩まされた。
イベントベースの状態推定のためのベンチマークフレームワークであるEvSLAMを導入する。
論文 参考訳(メタデータ) (2026-04-27T04:36:41Z) - SaccadeDet: A Novel Dual-Stage Architecture for Rapid and Accurate Detection in Gigapixel Images [50.742420049839474]
SaccadeDetは、人間の目の動きにインスパイアされた、ギガピクセルレベルの物体検出のための革新的なアーキテクチャである。
PANDAデータセットを用いて評価した本手法は,最先端手法の8倍の高速化を実現する。
また、全スライドイメージングへの応用を通じて、ギガピクセルレベルの病理解析に有意な可能性を示す。
論文 参考訳(メタデータ) (2024-07-25T11:22:54Z) - Research, Applications and Prospects of Event-Based Pedestrian Detection: A Survey [10.494414329120909]
生物学的網膜にインスパイアされたイベントベースのカメラは、最小限の電力要求、無視できるレイテンシ、時間分解能、拡張可能なダイナミックレンジによって区別される最先端のセンサーへと進化してきた。
イベントベースのカメラは、高速撮像のシナリオにおいて、外部データ伝送を誘発し、動きのぼやけをなくすことによって制限に対処する。
本稿では,特に自律運転における研究と応用について概観する。
論文 参考訳(メタデータ) (2024-07-05T06:17:00Z) - Gear-NeRF: Free-Viewpoint Rendering and Tracking with Motion-aware Spatio-Temporal Sampling [70.34875558830241]
本研究では,シーンをレンダリングする動的領域の階層化モデリングを可能にする意味的セマンティックギアに基づく,時間的(4D)埋め込みの学習方法を提案する。
同時に、ほぼ無償で、当社のトラッキングアプローチは、既存のNeRFベースのメソッドでまだ達成されていない機能である、自由視点(free-view of interest)を可能にします。
論文 参考訳(メタデータ) (2024-06-06T03:37:39Z) - Resource Efficient Perception for Vision Systems [0.0]
本研究では,高解像度画像に対するメモリ効率のパッチベース処理を活用することにより,これらの課題を軽減するためのフレームワークを提案する。
ローカルなパッチ情報と共にグローバルなコンテキスト表現が組み込まれており、画像の内容の包括的な理解を可能にする。
分類,オブジェクト検出,セグメンテーションにまたがる7つのベンチマークにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-05-12T05:33:00Z) - Generalizing Event-Based Motion Deblurring in Real-World Scenarios [62.995994797897424]
イベントベースの動作遅延は、低レイテンシイベントを活用することで、有望な結果を示している。
本研究では,フレキシブルな入力空間スケールを実現するとともに,時間スケールの異なる動きのぼかしから学習できるスケール対応ネットワークを提案する。
次に,実世界のデータ分布に適合する2段階の自己教師型学習手法を開発した。
論文 参考訳(メタデータ) (2023-08-11T04:27:29Z) - Efficient Human Vision Inspired Action Recognition using Adaptive
Spatiotemporal Sampling [13.427887784558168]
本稿では,効率的な行動認識処理のための適応型視覚システムを提案する。
本システムでは,グローバルコンテキストサンプリング方式を低解像度で事前スキャンし,高精細な領域で高精細な特徴をスキップしたり,要求したりすることを決定した。
動作認識のためのEPIC-KENSとUCF-101データセットを用いたシステムの有効性を検証するとともに,提案手法により,最先端のベースラインに比べて精度の低下を許容し,推論を大幅に高速化できることを示す。
論文 参考訳(メタデータ) (2022-07-12T01:18:58Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - Real-time single image depth perception in the wild with handheld
devices [45.26484111468387]
主な2つの問題は、電球内のハンドヘルドデバイスからの深さ推定を制限している。
適切なネットワーク設計とトレーニング戦略を採用する上で,どちらも対処可能な方法を示す。
実時間深度認識型拡張現実とスマートフォンによる画像ぼやけに関する実験結果について報告する。
論文 参考訳(メタデータ) (2020-06-10T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。