論文の概要: DISeR: Designing Imaging Systems with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2309.13851v1
- Date: Mon, 25 Sep 2023 03:35:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 17:13:41.198303
- Title: DISeR: Designing Imaging Systems with Reinforcement Learning
- Title(参考訳): DISeR:強化学習によるイメージングシステムの設計
- Authors: Tzofi Klinghoffer, Kushagra Tiwary, Nikhil Behari, Bhavya Agrawalla,
Ramesh Raskar
- Abstract要約: 我々は、文脈自由文法(CFG)として、画像システムの4つの構成要素を定式化し、学習カメラデザイナと自動的に検索することができる。
本稿では、カメラデザイナを強化学習で実装し、画像システム構成の可能な空間をインテリジェントに探索する方法を示す。
- 参考スコア(独自算出の注目度): 13.783685993646738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imaging systems consist of cameras to encode visual information about the
world and perception models to interpret this encoding. Cameras contain (1)
illumination sources, (2) optical elements, and (3) sensors, while perception
models use (4) algorithms. Directly searching over all combinations of these
four building blocks to design an imaging system is challenging due to the size
of the search space. Moreover, cameras and perception models are often designed
independently, leading to sub-optimal task performance. In this paper, we
formulate these four building blocks of imaging systems as a context-free
grammar (CFG), which can be automatically searched over with a learned camera
designer to jointly optimize the imaging system with task-specific perception
models. By transforming the CFG to a state-action space, we then show how the
camera designer can be implemented with reinforcement learning to intelligently
search over the combinatorial space of possible imaging system configurations.
We demonstrate our approach on two tasks, depth estimation and camera rig
design for autonomous vehicles, showing that our method yields rigs that
outperform industry-wide standards. We believe that our proposed approach is an
important step towards automating imaging system design.
- Abstract(参考訳): 撮像システムは、世界の視覚情報をエンコードするカメラと、このエンコーディングを解釈する知覚モデルで構成される。
カメラは(1)照明源、(2)光学素子、(3)センサーを含み、一方で知覚モデルは(4)アルゴリズムを使用する。
これら4つのビルディングブロックの組み合わせを全て直接検索してイメージングシステムを設計することは、探索空間のサイズのため困難である。
さらに、カメラと知覚モデルはしばしば独立して設計され、準最適タスク性能をもたらす。
本稿では,これら4つの構築ブロックを文脈自由文法(CFG)として定式化し,学習カメラデザイナと自動検索することで,タスク固有認識モデルと共同で撮像システムを最適化する。
cfgを状態動作空間に変換することで、カメラデザイナーが強化学習を用いてどのように実装され、可能な撮像システム構成の組合せ空間をインテリジェントに探索できるかを示す。
自動運転車の深度推定とカメラリグ設計という2つの課題に対する我々のアプローチを実証し、我々の手法が業界全体の基準を上回るリグを生み出すことを示した。
提案手法は画像システム設計の自動化に向けた重要なステップであると考えている。
関連論文リスト
- ChatCam: Empowering Camera Control through Conversational AI [67.31920821192323]
ChatCamは、ユーザーとの会話を通じてカメラの動きをナビゲートするシステムである。
そこで本研究では,テキスト条件付きカメラ軌道生成のためのGPTに基づく自己回帰モデルであるCineGPTを提案する。
また、正確なカメラ軌道配置を保証するアンカー決定器も開発した。
論文 参考訳(メタデータ) (2024-09-25T20:13:41Z) - Exploring Camera Encoder Designs for Autonomous Driving Perception [36.65794720685284]
ベースラインよりも8.79%のmAP向上を実現したAVカメラエンコーダに最適化されたアーキテクチャを開発した。
私たちは、私たちの努力がAV用のイメージエンコーダの甘いクックブックになり、次のレベルのドライブシステムへの道を歩むことができると考えています。
論文 参考訳(メタデータ) (2024-07-09T23:44:58Z) - Global Search Optics: Automatically Exploring Optimal Solutions to Compact Computational Imaging Systems [15.976326291076377]
モバイルビジョンの人気は、高度なコンパクト・コンピュート・イメージング・システムへの需要を生み出している。
共同設計パイプラインが最前線に現れ、2つの重要なコンポーネントがデータ駆動学習によって同時に最適化される。
本稿では,GSO(Global Search Optimization)を用いて,コンパクトな画像処理システムの設計を行う。
論文 参考訳(メタデータ) (2024-04-30T01:59:25Z) - Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Deep Optical Coding Design in Computational Imaging [16.615106763985942]
計算光学画像(COI)システムは、そのセットアップにおいて光学的符号化要素(CE)を利用して、1つまたは複数のスナップショットで高次元シーンを符号化し、計算アルゴリズムを用いて復号する。
COIシステムの性能は、CEパターンと与えられたタスクを実行するのに使用される計算方法という、主要なコンポーネントの設計に大きく依存する。
ディープニューラルネットワーク(DNN)は、光エンコーダと計算デコーダを共同で検討するCEデータ駆動設計において、新たな地平を開拓した。
論文 参考訳(メタデータ) (2022-06-27T04:41:48Z) - Twins: Revisiting Spatial Attention Design in Vision Transformers [81.02454258677714]
本稿では,注意深い空間的注意機構が最先端のスキームに対して好適に機能することを実証する。
Twins-PCPVTとTwins-SVTの2つのビジョントランスアーキテクチャを提案します。
提案するアーキテクチャは,現代のディープラーニングフレームワークに高度に最適化された行列乗算のみを含む,高効率かつ実装が容易である。
論文 参考訳(メタデータ) (2021-04-28T15:42:31Z) - Nothing But Geometric Constraints: A Model-Free Method for Articulated
Object Pose Estimation [89.82169646672872]
本稿では,ロボットアームの関節構成を,モデルに先入観を持たずにRGBまたはRGB-D画像のシーケンスから推定する,教師なし視覚ベースシステムを提案する。
我々は,古典幾何学的定式化と深層学習を組み合わせることで,この課題を解決するために,極性多剛体制約を拡張した。
論文 参考訳(メタデータ) (2020-11-30T20:46:48Z) - A Robotic 3D Perception System for Operating Room Environment Awareness [3.830091185868436]
手術室(OR)のシーン理解とコンテキスト認識を可能にするダ・ヴィンチ手術システムのための3次元多視点認識システムについて述べる。
このアーキテクチャに基づいて、マルチビュー3Dシーンセマンティックセマンティックセグメンテーションアルゴリズムを作成する。
提案アーキテクチャは、登録エラー(3.3%pm1.4%のオブジェクトカメラ距離)を許容し、シーンセグメンテーション性能を安定的に向上させることができる。
論文 参考訳(メタデータ) (2020-03-20T20:27:06Z) - Redesigning SLAM for Arbitrary Multi-Camera Systems [51.81798192085111]
SLAMシステムにより多くのカメラを追加することで、堅牢性と精度が向上するが、視覚的なフロントエンドの設計は大幅に複雑になる。
本研究では,任意のマルチカメラ装置で動作する適応SLAMシステムを提案する。
これらの修正を応用した最先端の視覚慣性計測装置を試作し, 改良したパイプラインが広い範囲のカメラ装置に適応可能であることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-03-04T11:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。