論文の概要: Weakly-supervised multi-class object localization using only object
counts as labels
- arxiv url: http://arxiv.org/abs/2102.11743v1
- Date: Tue, 23 Feb 2021 15:14:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 14:10:05.902256
- Title: Weakly-supervised multi-class object localization using only object
counts as labels
- Title(参考訳): オブジェクトカウントのみをラベルとして用いるWeakly-supervised Multi-class Object Localization
- Authors: Kyle Mills and Isaac Tamblyn
- Abstract要約: 画像内のオブジェクトのインスタンスをローカライズするための、広範なディープニューラルネットワークの使用例を示す。
EDNNは当然、基底真理カウント値のみをラベルとして、マルチクラスカウントを正確に行うことができる。
訓練されたEDNNは、訓練されたものよりもはるかに大きな画像中のオブジェクトを数えるのに使用できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate the use of an extensive deep neural network to localize
instances of objects in images. The EDNN is naturally able to accurately
perform multi-class counting using only ground truth count values as labels.
Without providing any conceptual information, object annotations, or pixel
segmentation information, the neural network is able to formulate its own
conceptual representation of the items in the image. Using images labelled with
only the counts of the objects present,the structure of the extensive deep
neural network can be exploited to perform localization of the objects within
the visual field. We demonstrate that a trained EDNN can be used to count
objects in images much larger than those on which it was trained. In order to
demonstrate our technique, we introduce seven new data sets: five progressively
harder MNIST digit-counting data sets, and two datasets of 3d-rendered rubber
ducks in various situations. On most of these datasets, the EDNN achieves
greater than 99% test set accuracy in counting objects.
- Abstract(参考訳): 画像内のオブジェクトのインスタンスをローカライズするための、広範なディープニューラルネットワークの使用例を示す。
EDNNは当然、基底真理カウント値のみをラベルとして、マルチクラスカウントを正確に行うことができる。
概念情報、オブジェクトアノテーション、またはピクセル分割情報を提供せずに、ニューラルネットワークは画像内のアイテムの独自の概念表現を定式化することができます。
既存のオブジェクトのカウントのみをラベル付けした画像を使用することで、広範囲のディープニューラルネットワークの構造を利用して、視野内のオブジェクトのローカライズを行うことができる。
訓練されたEDNNは、訓練された画像よりもはるかに大きい画像のオブジェクトをカウントするために使用できることを実証します。
そこで本研究では,MNISTの数値計算データ5点と3次元レンダリングゴムアヒルのデータセット2点を,新たな7つのデータセットとして導入した。
これらのデータセットの大部分では、EDNNはオブジェクトのカウントで99%以上のテストセット精度を実現します。
関連論文リスト
- Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D
Image Representations [92.88108411154255]
本稿では,3次元シーンとして再構成可能な複数画像の解析に後者を適用する際に,高密度な2次元画像特徴抽出器を改善する手法を提案する。
本手法は,手動ラベルを使わずに,シーン固有のニューラルネットワークの文脈における意味理解を可能にするだけでなく,自己監督型2Dベースラインよりも一貫して改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-07T23:24:09Z) - Object Detection in Aerial Images with Uncertainty-Aware Graph Network [61.02591506040606]
本稿では,ノードとエッジがオブジェクトによって表現される構造化グラフを用いた,新しい不確実性を考慮したオブジェクト検出フレームワークを提案する。
我々は我々のモデルをオブジェクトDETection(UAGDet)のための不確実性対応グラフネットワークと呼ぶ。
論文 参考訳(メタデータ) (2022-08-23T07:29:03Z) - S$^2$Contact: Graph-based Network for 3D Hand-Object Contact Estimation
with Semi-Supervised Learning [70.72037296392642]
モノクロ画像から接触を学習できる新しい半教師付きフレームワークを提案する。
具体的には、大規模データセットにおける視覚的および幾何学的整合性制約を利用して擬似ラベルを生成する。
より正確な再構築を行うために手動インタラクションを規定するコンタクトマップを使用することの利点を示す。
論文 参考訳(メタデータ) (2022-08-01T14:05:23Z) - Single Image Object Counting and Localizing using Active-Learning [4.56877715768796]
単一画像シナリオにおける反復オブジェクトのカウントとローカライズのための新しい手法を提案する。
本手法は,少数のアクティブ・ラーニング・イテレーションにおいて,入力画像から注意深く収集したラベルの小さなセットに対してCNNを訓練する。
既存のユーザ支援カウント法と比較すると,ユーザマウスのクリック数,ランニングタイムの計測と位置決めの精度の観点から,能動的学習が最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2021-11-16T11:29:21Z) - Dataset for eye-tracking tasks [0.0]
本稿では、視線追跡タスクのための畳み込みニューラルネットワークのカスタムモデルのトレーニングに適したデータセットを提案する。
このデータセットは1万枚の眼画像を416ピクセルから416ピクセルに拡張している。
この原稿は、視線追跡装置用のデータセットを作成するためのガイドとみなすことができる。
論文 参考訳(メタデータ) (2021-06-01T23:54:23Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Self-supervised Learning of 3D Object Understanding by Data Association
and Landmark Estimation for Image Sequence [15.815583594196488]
2D画像から下降する3Dオブジェクトは、減次元情報から副次元を推測する挑戦的なタスクです。
3Dアノテーションの達成は高価かつ時間を要するため、大量の3Dデータセットを得ることは困難である。
本研究では, 自己性能を克服するために, 画像シーケンス内の物体の多重観測を利用する戦略を提案する。
論文 参考訳(メタデータ) (2021-04-14T18:59:08Z) - Object Localization Through a Single Multiple-Model Convolutional Neural
Network with a Specific Training Approach [0.0]
光畳み込みニューラルネットワーク(cnn)に対して,画像に対する関心領域を決定するための特別訓練手法を提案する。
ほぼ全てのCNNベースの検出器は、固定された入力サイズ画像を使用し、様々なオブジェクトサイズを扱う場合、性能が低下する可能性がある。
論文 参考訳(メタデータ) (2021-03-24T16:52:01Z) - Supervised Training of Dense Object Nets using Optimal Descriptors for
Industrial Robotic Applications [57.87136703404356]
Florence、Manuelli、TedrakeによるDense Object Nets(DON)は、ロボットコミュニティのための新しいビジュアルオブジェクト表現として高密度オブジェクト記述子を導入した。
本稿では, 物体の3次元モデルを考えると, 記述子空間画像を生成することができ, DON の教師付きトレーニングが可能であることを示す。
産業用物体の6次元グリップ生成のためのトレーニング手法を比較し,新しい教師付きトレーニング手法により,産業関連タスクのピック・アンド・プレイス性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T11:40:12Z) - Rapid Pose Label Generation through Sparse Representation of Unknown
Objects [7.32172860877574]
本研究は、未知のオブジェクトに対する実世界のポーズアノテートされたRGB-Dデータを高速に生成するためのアプローチを提案する。
我々はまず、RGB-Dビデオのセット上で任意に選択されたキーポイントの順序付きセットの最小限のラベルを出力する。
最適化問題を解くことにより、これらのラベルをワールドフレームの下に組み合わせ、スパースでキーポイントに基づくオブジェクトの表現を復元する。
論文 参考訳(メタデータ) (2020-11-07T15:14:03Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。