論文の概要: Many Perception Tasks are Highly Redundant Functions of their Input Data
- arxiv url: http://arxiv.org/abs/2407.13841v1
- Date: Thu, 18 Jul 2024 18:24:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 21:29:41.795964
- Title: Many Perception Tasks are Highly Redundant Functions of their Input Data
- Title(参考訳): 多くの知覚タスクは入力データの高冗長関数である
- Authors: Rahul Ramesh, Anthony Bisulco, Ronald W. DiTullio, Linran Wei, Vijay Balasubramanian, Kostas Daniilidis, Pratik Chaudhari,
- Abstract要約: 視覚認識からセマンティックセグメンテーションに至るまで、多くの知覚タスクが、入力データの非常に冗長な機能であることを示す。
異なる部分空間に投影された画像や分光図は、データが最も変化する最上位部分空間であるかどうかに関わらず、これらのタスクを著しくうまく解決することができる。
- 参考スコア(独自算出の注目度): 39.5732089542374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that many perception tasks, from visual recognition, semantic segmentation, optical flow, depth estimation to vocalization discrimination, are highly redundant functions of their input data. Images or spectrograms, projected into different subspaces, formed by orthogonal bases in pixel, Fourier or wavelet domains, can be used to solve these tasks remarkably well regardless of whether it is the top subspace where data varies the most, some intermediate subspace with moderate variability--or the bottom subspace where data varies the least. This phenomenon occurs because different subspaces have a large degree of redundant information relevant to the task.
- Abstract(参考訳): 視覚認識,セマンティックセグメンテーション,光流,深度推定,発声識別など,多くの知覚タスクが,入力データの極めて冗長な機能であることを示す。
画像またはスペクトログラムは、ピクセル、フーリエ、ウェーブレットドメインの直交基底によって形成された異なる部分空間に投影され、データが最も変化するトップ部分空間であるかどうかにかかわらず、これらのタスクを著しくうまく解決することができる。
この現象は、異なる部分空間がタスクに関連する大量の冗長な情報を持っているために起こる。
関連論文リスト
- Adversarial Learning for Feature Shift Detection and Correction [45.65548560695731]
機能シフトは、複数のセンサデータ、一部のセンサが機能不全である、あるいは構造化データ、欠陥のある標準化とデータ処理パイプラインが誤った機能につながる、など、多くのデータセットで起こりうる。
そこで本研究では,2つの分布を区別するために訓練された複数の識別器から得られる情報を用いて,破損した特徴を検知し,それらを修正することにより,データセット間の分布シフトを除去する。
論文 参考訳(メタデータ) (2023-12-07T18:58:40Z) - MDFL: Multi-domain Diffusion-driven Feature Learning [19.298491870280213]
マルチドメイン拡散駆動型特徴学習ネットワーク(MDFL)を提案する。
MDFLはモデルが本当に重視する効果的な情報領域を再定義します。
MDFLは高次元データの特徴抽出性能を著しく向上することを示した。
論文 参考訳(メタデータ) (2023-11-16T02:55:21Z) - Hodge-Aware Contrastive Learning [101.56637264703058]
単純コンプレックスは、マルチウェイ依存によるデータのモデリングに有効である。
我々は、単純なデータを処理するための対照的な自己教師付き学習手法を開発した。
論文 参考訳(メタデータ) (2023-09-14T00:40:07Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - A Contrastive Distillation Approach for Incremental Semantic
Segmentation in Aerial Images [15.75291664088815]
現在のディープニューラルアーキテクチャに関する大きな問題は、破滅的な忘れこととして知られている。
我々は、任意の入力を拡張バージョンと比較する、対照的な正則化を提案する。
私たちは、Potsdamデータセットにおけるソリューションの有効性を示し、各テストにおけるインクリメンタルベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-12-07T16:44:45Z) - Few-Shot Learning by Integrating Spatial and Frequency Representation [25.11147383752403]
本稿では,システムの識別能力を高めるために,周波数情報を学習モデルに統合することを提案する。
周波数表現を生成するために離散コサイン変換(dct)を用い,その特徴を空間領域と周波数領域の両方から統合して分類する。
論文 参考訳(メタデータ) (2021-05-11T21:44:31Z) - The Geometry of Distributed Representations for Better Alignment,
Attenuated Bias, and Improved Interpretability [9.215513608145994]
単語、テキスト、画像、知識グラフなどの構造化データに対する高次元表現は、機械学習やデータマイニングで一般的に使用される。
これらの表現は解釈可能性の度合いが異なり、効率的な分散表現は次元マッピングへの特徴の喪失の犠牲となる。
その影響は、多くの表現やタスクで見られ、特に問題のあるものは、基礎となるデータから学習された社会的偏見が未知の次元や部分空間で捕捉され、隠蔽される言語表現である。
この研究は、これらの表現の透明性と解釈可能性に関連するこれらの問題に対処する。
論文 参考訳(メタデータ) (2020-11-25T01:04:11Z) - Evidential Sparsification of Multimodal Latent Spaces in Conditional
Variational Autoencoders [63.46738617561255]
訓練された条件付き変分オートエンコーダの離散潜時空間をスパース化する問題を考察する。
顕在的理論を用いて、特定の入力条件から直接証拠を受け取る潜在クラスを特定し、そうでないクラスをフィルタリングする。
画像生成や人間の行動予測などの多様なタスクの実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-10-19T01:27:21Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。