論文の概要: Leveraging Color Channel Independence for Improved Unsupervised Object Detection
- arxiv url: http://arxiv.org/abs/2412.15150v1
- Date: Thu, 19 Dec 2024 18:28:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:33:39.420854
- Title: Leveraging Color Channel Independence for Improved Unsupervised Object Detection
- Title(参考訳): 改良された教師なし物体検出のためのカラーチャネル独立性の活用
- Authors: Bastian Jäckl, Yannick Metz, Udo Schlegel, Daniel A. Keim, Maximilian T. Fischer,
- Abstract要約: コンピュータビジョンにおける教師なし学習において,RGB画像が最適な色空間であるという一般的な仮定に挑戦する。
新たなカラーチャネルの予測を行う場合には,モデルの改善が期待できる。
合成色空間の使用は、基本的に計算オーバーヘッドを伴わずに実装することができる。
- 参考スコア(独自算出の注目度): 7.030688465389997
- License:
- Abstract: Object-centric architectures can learn to extract distinct object representations from visual scenes, enabling downstream applications on the object level. Similarly to autoencoder-based image models, object-centric approaches have been trained on the unsupervised reconstruction loss of images encoded by RGB color spaces. In our work, we challenge the common assumption that RGB images are the optimal color space for unsupervised learning in computer vision. We discuss conceptually and empirically that other color spaces, such as HSV, bear essential characteristics for object-centric representation learning, like robustness to lighting conditions. We further show that models improve when requiring them to predict additional color channels. Specifically, we propose to transform the predicted targets to the RGB-S space, which extends RGB with HSV's saturation component and leads to markedly better reconstruction and disentanglement for five common evaluation datasets. The use of composite color spaces can be implemented with basically no computational overhead, is agnostic of the models' architecture, and is universally applicable across a wide range of visual computing tasks and training types. The findings of our approach encourage additional investigations in computer vision tasks beyond object-centric learning.
- Abstract(参考訳): オブジェクト中心アーキテクチャは、視覚的なシーンから異なるオブジェクト表現を抽出することを学び、オブジェクトレベルの下流アプリケーションを可能にする。
オートエンコーダに基づく画像モデルと同様に、RGB色空間で符号化された画像の教師なし再構成損失に対して、オブジェクト中心のアプローチが訓練されている。
本稿では,RGB画像がコンピュータビジョンにおける教師なし学習の最適色空間である,という一般的な仮定に挑戦する。
我々は、HSVのような他の色空間が、照明条件に対する堅牢性など、オブジェクト中心の表現学習に欠かせない特徴を持っていることを概念的かつ実証的に論じる。
さらに、カラーチャネルを追加して予測する必要がある場合、モデルが改善されることを示す。
具体的には、予測対象を RGB-S 空間に変換し、RGB を HSV の飽和成分で拡張し、5 つの共通評価データセットの再構成と歪みを著しく改善することを提案する。
複合色空間の使用は、基本的に計算オーバーヘッドを伴わずに実装することができ、モデルのアーキテクチャに依存せず、幅広いビジュアルコンピューティングタスクやトレーニングタイプに普遍的に適用可能である。
本研究の成果は,物体中心学習以外のコンピュータビジョンタスクのさらなる研究を奨励するものである。
関連論文リスト
- Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer [10.982521876026281]
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。
本研究では,デフォルマブルアテンション変換器をエンコーダとして利用し,奥行き画像から特徴を抽出することにより,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:23:01Z) - SEL-CIE: Knowledge-Guided Self-Supervised Learning Framework for CIE-XYZ Reconstruction from Non-Linear sRGB Images [7.932206255996779]
CIE-XYZ色空間は、カメラパイプラインの一部として使用されるデバイスに依存しない線形空間である。
画像は通常非線形状態に保存され、従来の方法でCIE-XYZカラー画像を実現することは必ずしも不可能である。
本稿では,CIE-XYZ 画像と sRGB 画像の再構成に SSL 手法を併用したフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-20T17:20:41Z) - Rethinking RGB Color Representation for Image Restoration Models [55.81013540537963]
各画素に局所的な近傍構造情報を保持するために表現を拡大する。
画素あたりの損失に対する表現空間の置換は、画像復元モデルのトレーニングを容易にする。
私たちの空間は、色と局所構造の両方を再構築することで、全体的なメトリクスを一貫して改善します。
論文 参考訳(メタデータ) (2024-02-05T06:38:39Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - ColorSense: A Study on Color Vision in Machine Visual Recognition [57.916512479603064]
視覚認識ベンチマークから,前景や背景色ラベルの非自明なアノテーション110,000点を収集する。
色識別のレベルがマシン認識モデルの性能に与える影響を実証することにより、データセットの使用を検証した。
その結果,分類や局所化などの物体認識タスクは,色覚バイアスの影響を受けやすいことが示唆された。
論文 参考訳(メタデータ) (2022-12-16T18:51:41Z) - Scale Invariant Semantic Segmentation with RGB-D Fusion [12.650574326251023]
RGB-D画像を用いたスケール不変セマンティックセグメンテーションのためのニューラルネットワークアーキテクチャを提案する。
画素単位のセマンティックセグメンテーションのためのRGBデータに深度情報を組み込んで,屋外シーンにおける異なるスケールオブジェクトに対処する。
我々のモデルはコンパクトであり、他のRGBモデルにも容易に適用できる。
論文 参考訳(メタデータ) (2022-04-10T12:54:27Z) - Colored Point Cloud to Image Alignment [15.828285556159026]
そこで本研究では,カラーマッチングと幾何マッチングにより,色付き点雲を所定の色画像に整列する微分最適化手法を提案する。
カメラ画像と点雲の色との変換は、点雲の相対的な位置と一致した色とのマッチングを繰り返すことによって行う。
論文 参考訳(メタデータ) (2021-10-07T08:12:56Z) - Semantic-embedded Unsupervised Spectral Reconstruction from Single RGB
Images in the Wild [48.44194221801609]
この課題に対処するため、我々は、新しい軽量でエンドツーエンドの学習ベースのフレームワークを提案する。
我々は、効率的なカメラスペクトル応答関数推定により、検索されたHS画像から入力されたRGB画像と再投影されたRGB画像の差を徐々に広げる。
提案手法は最先端の教師なし手法よりも優れており,いくつかの設定下では最新の教師付き手法よりも優れている。
論文 参考訳(メタデータ) (2021-08-15T05:19:44Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z) - Dynamic Object Removal and Spatio-Temporal RGB-D Inpainting via
Geometry-Aware Adversarial Learning [9.150245363036165]
動的物体はロボットの環境に対する認識に大きな影響を及ぼす。
本研究は,動的物体によって隠蔽された領域における可塑性色,テクスチャ,幾何学を合成することにより,この問題に対処する。
本研究は, 対人訓練を用いて建築を最適化し, オンラインで色と深度構造を幻覚できるような, 微妙な現実的なテクスチャを合成する。
論文 参考訳(メタデータ) (2020-08-12T01:23:21Z) - Learning RGB-D Feature Embeddings for Unseen Object Instance
Segmentation [67.88276573341734]
合成データからRGB-D特徴埋め込みを学習し,オブジェクトのインスタンスセグメンテーションを未確認する手法を提案する。
距離学習損失関数を用いて画素単位の機能埋め込みを学習する。
新たな2段階クラスタリングアルゴリズムにより,セグメンテーションの精度をさらに向上する。
論文 参考訳(メタデータ) (2020-07-30T00:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。