論文の概要: Weakly Supervised Foreground Learning for Weakly Supervised Localization
and Detection
- arxiv url: http://arxiv.org/abs/2108.01785v1
- Date: Tue, 3 Aug 2021 23:33:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 23:42:23.280468
- Title: Weakly Supervised Foreground Learning for Weakly Supervised Localization
and Detection
- Title(参考訳): 弱教師付き位置検出のための弱教師付き前景学習
- Authors: Chen-Lin Zhang, Yin Li, Jianxin Wu
- Abstract要約: 近年,コンピュータビジョンコミュニティにおいて,弱教師付きオブジェクトローカライゼーション (WSOL) と検出 (WSOD) が注目されている。
計算コストの低い完全WSFLパイプラインを提案し、擬似ボックスを生成し、前景マスクを学習し、ローカライズアノテーションを必要としない。
WSFLモデルにより予測される前景マスクの助けを借りて、WSOLのCUBにおける72.97%、WSODにおけるVOC07の平均精度は55.7%となる。
- 参考スコア(独自算出の注目度): 49.46996818236739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern deep learning models require large amounts of accurately annotated
data, which is often difficult to satisfy. Hence, weakly supervised tasks,
including weakly supervised object localization~(WSOL) and detection~(WSOD),
have recently received attention in the computer vision community. In this
paper, we motivate and propose the weakly supervised foreground learning (WSFL)
task by showing that both WSOL and WSOD can be greatly improved if groundtruth
foreground masks are available. More importantly, we propose a complete WSFL
pipeline with low computational cost, which generates pseudo boxes, learns
foreground masks, and does not need any localization annotations. With the help
of foreground masks predicted by our WSFL model, we achieve 72.97% correct
localization accuracy on CUB for WSOL, and 55.7% mean average precision on
VOC07 for WSOD, thereby establish new state-of-the-art for both tasks. Our WSFL
model also shows excellent transfer ability.
- Abstract(参考訳): 現代のディープラーニングモデルは、大量の正確な注釈データを必要とするため、満足するのは難しい。
したがって、弱教師付きオブジェクトローカライゼーション~(WSOL)と検出〜(WSOD)を含む弱い教師付きタスクは、コンピュータビジョンコミュニティで最近注目を集めている。
本稿では,WSOL と WSOD のどちらも,基礎となる前景マスクが利用可能であれば大幅に改善可能であることを示すことにより,弱教師付き前景学習(WSFL)タスクのモチベーションと提案を行う。
さらに,疑似ボックスを生成し,前景マスクを学習し,ローカライズアノテーションを必要としない,計算コストの低い完全WSFLパイプラインを提案する。
我々は,WSFLモデルにより予測される前景マスクを用いて,WSOLのCUBにおける72.97%,WSODにおけるVOC07の平均精度55.7%を実現し,両タスクの新たな最先端性を確立する。
当社のWSFLモデルも優れた転送能力を示している。
関連論文リスト
- MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models [91.4190318047519]
この研究は、大規模言語モデルにおける半構造化(あるいはN:M'')のスパーシティを確立する学習可能なプルーニング手法であるMaskLLMを紹介した。
MaskLLMはGumbel Softmaxサンプリングを通じて学習可能な分布としてN:Mパターンを明示的にモデル化する。
論文 参考訳(メタデータ) (2024-09-26T02:37:41Z) - Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation [42.020470627552136]
Open-vocabulary Panoptic segmentationは、イメージを意味のあるマスクに正確に分割することを目的とした、新たなタスクである。
マスク分類は、オープンボキャブ・パノプティクスのセグメンテーションにおける主要なパフォーマンスボトルネックである。
オープンボキャブ・パノプティクスのセグメンテーションを大幅に強化する新しいフレームワークであるセマンティック・リフォーカス・タニングを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - LMGT: Optimizing Exploration-Exploitation Balance in Reinforcement Learning through Language Model Guided Trade-offs [27.014415210732103]
強化学習のための新しいサンプル効率フレームワークである textbfLanguage textbfModel textbfGuided textbfTrade-offs (textbfLMGT) を紹介する。
論文 参考訳(メタデータ) (2024-09-07T07:40:43Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Adaptive Sparse Convolutional Networks with Global Context Enhancement
for Faster Object Detection on Drone Images [26.51970603200391]
本稿では,スパース畳み込みに基づく検出ヘッドの最適化について検討する。
これは、小さなオブジェクトのコンテキスト情報の不十分な統合に悩まされる。
本稿では,グローバルな文脈拡張型適応スパース畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-25T14:42:50Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。