論文の概要: Minimizing the Effect of Noise and Limited Dataset Size in Image
Classification Using Depth Estimation as an Auxiliary Task with Deep
Multitask Learning
- arxiv url: http://arxiv.org/abs/2208.10390v1
- Date: Mon, 22 Aug 2022 15:13:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:41:03.037985
- Title: Minimizing the Effect of Noise and Limited Dataset Size in Image
Classification Using Depth Estimation as an Auxiliary Task with Deep
Multitask Learning
- Title(参考訳): 深部マルチタスク学習支援タスクとしての奥行き推定を用いた画像分類におけるノイズとデータセットサイズ制限の影響の最小化
- Authors: Khashayar Namdar, Partoo Vafaeikia, Farzad Khalvati
- Abstract要約: 汎用性は機械学習(ML)画像分類器の最終的な目標であり、ノイズと限られたデータセットサイズが主な関心事である。
我々は、深層マルチタスク学習(dMTL)の枠組みを活用し、画像深度推定を補助課題として取り入れることで、これらの課題に取り組む。
MNISTとNYU-Depth-V2の実験では、データセットがノイズでサンプル数が限られている場合、dMTLは分類器の一般化性を向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizability is the ultimate goal of Machine Learning (ML) image
classifiers, for which noise and limited dataset size are among the major
concerns. We tackle these challenges through utilizing the framework of deep
Multitask Learning (dMTL) and incorporating image depth estimation as an
auxiliary task. On a customized and depth-augmented derivation of the MNIST
dataset, we show a) multitask loss functions are the most effective approach of
implementing dMTL, b) limited dataset size primarily contributes to
classification inaccuracy, and c) depth estimation is mostly impacted by noise.
In order to further validate the results, we manually labeled the NYU Depth V2
dataset for scene classification tasks. As a contribution to the field, we have
made the data in python native format publicly available as an open-source
dataset and provided the scene labels. Our experiments on MNIST and
NYU-Depth-V2 show dMTL improves generalizability of the classifiers when the
dataset is noisy and the number of examples is limited.
- Abstract(参考訳): 汎用性は機械学習(ML)画像分類器の最終的な目標であり、ノイズと限られたデータセットサイズが主な関心事である。
我々は、深層マルチタスク学習(dMTL)の枠組みを活用し、画像深度推定を補助課題として取り入れることで、これらの課題に取り組む。
MNISTデータセットのカスタマイズと深度拡張による導出について
a)マルチタスク損失関数は、dMTLを実装する最も効果的な方法である。
b) 限られたデータセットのサイズは、主に分類の正確性に寄与し、
c) 深度推定は、主に騒音の影響を受けます。
結果をさらに検証するため,シーン分類タスクのためのNYU Depth V2データセットを手作業でラベル付けした。
この分野への貢献として、我々はpythonネイティブフォーマットのデータをオープンソースデータセットとして公開し、シーンラベルを提供しました。
MNISTとNYU-Depth-V2の実験では、データセットがノイズでサンプル数が限られている場合、dMTLは分類器の一般化性を向上させる。
関連論文リスト
- Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation [31.34615135846137]
単眼深度推定に視覚言語モデルを適用することを学習する,数発のショットベース手法を提案する。
具体的には、異なるシーンに異なる深度ビンを割り当て、推論中にモデルによって選択できる。
トレーニング用シーンあたりのイメージが1つしかないため、NYU V2とKITTIデータセットによる大規模な実験結果から、我々の手法が従来の最先端の手法を最大10.6%上回っていることが示された。
論文 参考訳(メタデータ) (2023-11-02T06:56:50Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - DETA: Denoised Task Adaptation for Few-Shot Learning [135.96805271128645]
数ショット学習におけるテスト時間タスク適応は、訓練済みのタスク非依存モデルに適応してタスク固有の知識を取得することを目的としている。
少数のサンプルしか得られないため、支持試料からのイメージノイズ(Xノイズ)またはラベルノイズ(Yノイズ)の悪影響を著しく増幅することができる。
Denoized Task Adaptation (DETA) は、既存のタスク適応アプローチに対して、最初に統合された画像とラベルをデノベートするフレームワークである。
論文 参考訳(メタデータ) (2023-03-11T05:23:20Z) - Large-scale Unsupervised Semantic Segmentation [163.3568726730319]
本稿では, 大規模無教師付きセマンティックセマンティックセグメンテーション (LUSS) の新たな課題を提案する。
ImageNetデータセットに基づいて、120万のトレーニング画像と40万の高品質なセマンティックセグメンテーションアノテーションを用いた画像Net-Sデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-06T15:02:11Z) - Exploring the Impacts from Datasets to Monocular Depth Estimation (MDE)
Models with MineNavi [5.689127984415125]
ディープラーニングに基づく現在のコンピュータビジョンタスクは、モデルトレーニングやテストのためのアノテーションを備えた大量のデータを必要とする。
実際には、高密度推定タスクのための手動ラベリングは非常に困難または不可能であり、データセットのシーンは小さな範囲に制限されることが多い。
本稿では,手作業の負担を伴わない拡張可能なデータセットを得るための合成データセット生成手法を提案する。
論文 参考訳(メタデータ) (2020-08-19T14:03:17Z) - Deep Learning based Segmentation of Fish in Noisy Forward Looking MBES
Images [1.5469452301122177]
セマンティックセグメンテーションのためのディープラーニング(DL)と畳み込みニューラルネットワーク(CNN)の最近の進歩に基づいて構築する。
画像ソナーによって投影される全ての射程方位位置に対する魚・魚・魚の確率予測のためのエンドツーエンドのアプローチを実証する。
我々は,本モデルが所望のパフォーマンスを証明し,意味的文脈の重要性を活用することを学習したことを示す。
論文 参考訳(メタデータ) (2020-06-16T09:57:38Z) - An Attention-Based Deep Learning Model for Multiple Pedestrian
Attributes Recognition [4.6898263272139795]
本稿では,監視映像における歩行者の自動特徴付け問題に対する新しい解決策を提供する。
本稿では,より包括的な特徴表現を抽出するために,要素ワイド乗算層を用いたマルチタスクディープモデルを提案する。
実験は,2つのよく知られたデータセット (RAP と PETA) を用いて実施し,提案手法の最先端性に着目した。
論文 参考訳(メタデータ) (2020-04-02T16:21:14Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。