論文の概要: Raw or Cooked? Object Detection on RAW Images
- arxiv url: http://arxiv.org/abs/2301.08965v1
- Date: Sat, 21 Jan 2023 15:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 15:30:28.192367
- Title: Raw or Cooked? Object Detection on RAW Images
- Title(参考訳): 生肉か料理か?
RAW画像からの物体検出
- Authors: William Ljungbergh, Joakim Johnander, Christoffer Petersson, and
Michael Felsberg
- Abstract要約: 本稿では,映像の中間表現が下流コンピュータビジョンタスクに最適であるという仮説を考察する。
我々は,ISP の操作を,トレーニング中に共同で操作のパラメータを学習することで,エンドタスクに最適化するべきであることを示唆する。
本稿では,従来のRGB画像と比較して,物体検出装置が優れた性能を発揮するための学習可能な新たな操作を提案する。
- 参考スコア(独自算出の注目度): 11.991240159496833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Images fed to a deep neural network have in general undergone several
handcrafted image signal processing (ISP) operations, all of which have been
optimized to produce visually pleasing images. In this work, we investigate the
hypothesis that the intermediate representation of visually pleasing images is
sub-optimal for downstream computer vision tasks compared to the RAW image
representation. We suggest that the operations of the ISP instead should be
optimized towards the end task, by learning the parameters of the operations
jointly during training. We extend previous works on this topic and propose a
new learnable operation that enables an object detector to achieve superior
performance when compared to both previous works and traditional RGB images. In
experiments on the open PASCALRAW dataset, we empirically confirm our
hypothesis.
- Abstract(参考訳): ディープニューラルネットワークに供給される画像は、一般的に複数の手作り画像信号処理(ISP)処理を実行しており、これらすべてが視覚的に喜ばしい画像を生成するように最適化されている。
本研究では,RAW画像表現と比較して,映像の中間表現が下流コンピュータビジョンタスクに最適であるという仮説を検討する。
我々は,ISP の操作を,トレーニング中に共同で操作のパラメータを学習することで,エンドタスクに最適化することが提案される。
本稿では,従来のrgb画像と従来のrgb画像と比較して,物体検出器の性能が向上する新しい学習操作を提案する。
オープンPASCALRAWデータセットの実験では,仮説を実証的に確認した。
関連論文リスト
- Rethinking Image Super-Resolution from Training Data Perspectives [54.28824316574355]
画像超解像(SR)におけるトレーニングデータの効果について検討する。
そこで我々は,自動画像評価パイプラインを提案する。
その結果, (i) 圧縮アーチファクトの少ないデータセット, (ii) 被写体数によって判断される画像内多様性の高いデータセット, (iii) ImageNet や PASS からの大量の画像がSR性能に肯定的な影響を与えることがわかった。
論文 参考訳(メタデータ) (2024-09-01T16:25:04Z) - Source Identification: A Self-Supervision Task for Dense Prediction [8.744460886823322]
我々は、ソース識別(SI)と呼ばれる新しいセルフスーパービジョンタスクを提案する。
合成画像は、複数のソースイメージを融合させて生成され、融合された画像を考えると、ネットワークのタスクは元のイメージを再構築することである。
脳腫瘍分節と白質高強度分節という2つの医療画像分節課題に対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-07-05T12:27:58Z) - Learning to Detect Good Keypoints to Match Non-Rigid Objects in RGB
Images [7.428474910083337]
本稿では,非剛性画像対応タスクの正マッチ数を最大化するために,新しい学習キーポイント検出手法を提案する。
我々のトレーニングフレームワークは、アノテートされた画像対と予め定義された記述子抽出器をマッチングして得られる真の対応を利用して、畳み込みニューラルネットワーク(CNN)を訓練する。
実験の結果,本手法は平均整合精度で20時までに非剛体物体の実像に対して,最先端のキーポイント検出器よりも優れていた。
論文 参考訳(メタデータ) (2022-12-13T11:59:09Z) - Visual Radial Basis Q-Network [0.2148535041822524]
トレーニング可能なパラメータの少ない原画像からスパース特徴を抽出する汎用手法を提案する。
提案手法は、概念的に単純でありながら、トレーニング可能なパラメータが少ない場合もあれば、より優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2022-06-14T09:34:34Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z) - Task2Sim : Towards Effective Pre-training and Transfer from Synthetic
Data [74.66568380558172]
本稿では,グラフィックスシミュレータから下流タスクへの合成データに基づく事前学習モデルの転送可能性について検討する。
本稿では、最適なシミュレーションパラメータに対する下流タスク表現を統一したモデルマッピングであるTask2Simを紹介する。
このマッピングはトレーニングによって学習し、"見える"タスクのセットで最適なパラメータのセットを見つける。
トレーニングが完了すると、ワンショットで新しい"見えない"タスクの最適なシミュレーションパラメータを予測するために使用することができる。
論文 参考訳(メタデータ) (2021-11-30T19:25:27Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Towards Efficient Cross-Modal Visual Textual Retrieval using
Transformer-Encoder Deep Features [10.163477961551592]
クロスモーダル検索は、現代の検索エンジンにおいて重要な機能である。
本稿では,画像文検索に焦点をあてる。
我々は最近導入されたTERNアーキテクチャを画像文特徴抽出器として利用する。
論文 参考訳(メタデータ) (2021-06-01T10:11:46Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。