論文の概要: Deep Learning in Concealed Dense Prediction
- arxiv url: http://arxiv.org/abs/2504.10979v1
- Date: Tue, 15 Apr 2025 08:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:09:55.000743
- Title: Deep Learning in Concealed Dense Prediction
- Title(参考訳): 密集度予測における深層学習
- Authors: Pancheng Zhao, Deng-Ping Fan, Shupeng Cheng, Salman Khan, Fahad Shahbaz Khan, David Clifton, Peng Xu, Jufeng Yang,
- Abstract要約: 本稿では,農業,産業等において大きな価値を持つ,複雑な課題のファミリーであるCDP(Concealed Dense Prediction)を紹介し,レビューする。
CDPの本質的な特徴は、ターゲットが周囲に隠されているため、それらを完全に知覚するには、きめ細かい表現、事前の知識、補助的推論などが必要であることである。
- 参考スコア(独自算出の注目度): 83.89736735583935
- License:
- Abstract: Deep learning is developing rapidly and handling common computer vision tasks well. It is time to pay attention to more complex vision tasks, as model size, knowledge, and reasoning capabilities continue to improve. In this paper, we introduce and review a family of complex tasks, termed Concealed Dense Prediction (CDP), which has great value in agriculture, industry, etc. CDP's intrinsic trait is that the targets are concealed in their surroundings, thus fully perceiving them requires fine-grained representations, prior knowledge, auxiliary reasoning, etc. The contributions of this review are three-fold: (i) We introduce the scope, characteristics, and challenges specific to CDP tasks and emphasize their essential differences from generic vision tasks. (ii) We develop a taxonomy based on concealment counteracting to summarize deep learning efforts in CDP through experiments on three tasks. We compare 25 state-of-the-art methods across 12 widely used concealed datasets. (iii) We discuss the potential applications of CDP in the large model era and summarize 6 potential research directions. We offer perspectives for the future development of CDP by constructing a large-scale multimodal instruction fine-tuning dataset, CvpINST, and a concealed visual perception agent, CvpAgent.
- Abstract(参考訳): ディープラーニングは急速に発展し、一般的なコンピュータビジョンタスクをうまく処理している。
モデルのサイズ、知識、推論能力が改善し続けるにつれて、より複雑なビジョンタスクに注意を払う時が来た。
本稿では,農業,産業等において大きな価値を持つCDP(Concealed Dense Prediction)と呼ばれる,複雑なタスクのファミリーを紹介し,レビューする。
CDPの本質的な特徴は、ターゲットが周囲に隠されているため、それらを完全に知覚するには、きめ細かい表現、事前の知識、補助的推論などが必要であることである。
このレビューの貢献は3つあります。
i) CDPタスクに特有のスコープ,特徴,課題を導入し,汎用視覚タスクとの重要な相違を強調した。
二 隠蔽対策に基づく分類法を開発し、三つの課題の実験を通してCDPにおける深層学習の取り組みを要約する。
12の広く使われている隠蔽データセットに対して25の最先端手法を比較した。
3) 大規模モデル時代におけるCDPの可能性について考察し, 6つの研究方向について概説する。
我々は,大規模マルチモーダル命令微調整データセットCvpINSTと隠蔽視覚認識エージェントCvpAgentを構築することで,CDPの今後の発展を展望する。
関連論文リスト
- End-to-end Graph Learning Approach for Cognitive Diagnosis of Student Tutorial [11.670969577565774]
本稿では,エンド・ツー・エンドグラフニューラルネットワークを用いた認知診断(EGNN-CD)モデルを提案する。
EGNN-CDは、知識概念ネットワーク(KCN)、グラフニューラルネットワークに基づく特徴抽出(GNNFE)、認知能力予測(CAP)の3つの主要部分から構成される。
論文 参考訳(メタデータ) (2024-10-30T06:18:47Z) - Deep Learning for Video Anomaly Detection: A Review [52.74513211976795]
ビデオ異常検出(VAD)は、ビデオの正常性から逸脱する行動や事象を発見することを目的としている。
ディープラーニングの時代には、VADタスクには、さまざまなディープラーニングベースの方法が常に現れています。
このレビューでは、半教師付き、弱教師付き、完全教師付き、非教師付き、オープンセットの5つのカテゴリのスペクトルについて取り上げる。
論文 参考訳(メタデータ) (2024-09-09T07:31:16Z) - Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models [24.579822095003685]
下流視覚質問応答(VQA)における表現学習に関する実証的研究を行った。
我々はOCモデルと代替アプローチの利点とトレードオフを徹底的に検討する。
両パラダイムの強みを活用するための,有望な道を見つける。
論文 参考訳(メタデータ) (2024-07-22T12:26:08Z) - Recent Advances of Deep Robotic Affordance Learning: A Reinforcement
Learning Perspective [44.968170318777105]
ディープ・ロボティクス・アベイランス・ラーニング(DRAL)は、ロボットのタスクを支援するために、アベイランスの概念を使用するデータ駆動の手法を開発することを目的としている。
まず、これらの論文を強化学習(RL)の観点から分類し、RLと余裕の関連性を引き出す。
最後に、任意のアクション結果の予測を含むために、RLに基づくアベイランス定義の将来的な方向性を提案する。
論文 参考訳(メタデータ) (2023-03-09T15:42:01Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Pre-Trained Models: Past, Present and Future [126.21572378910746]
大規模事前訓練モデル(PTM)は近年大きな成功を収め、人工知能(AI)分野におけるマイルストーンとなった。
知識を巨大なパラメータに格納し、特定のタスクを微調整することで、巨大なパラメータに暗黙的にエンコードされた豊富な知識は、さまざまな下流タスクの恩恵を受けることができる。
AIコミュニティが、モデルをスクラッチから学習するのではなく、下流タスクのバックボーンとしてPTMを採用することは、今、コンセンサスになっている。
論文 参考訳(メタデータ) (2021-06-14T02:40:32Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z) - Bootstrap Latent-Predictive Representations for Multitask Reinforcement
Learning [8.207331495215506]
The Prediction of Latents (PBL) is a self-supervised representation learning algorithm for Deep RL。
DMLab-30およびAtari-57設定における深部RLエージェントの状態よりも優れた性能を実現する実験を行った。
論文 参考訳(メタデータ) (2020-04-30T09:09:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。