論文の概要: Deep Learning in Concealed Dense Prediction
- arxiv url: http://arxiv.org/abs/2504.10979v1
- Date: Tue, 15 Apr 2025 08:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 04:20:24.646619
- Title: Deep Learning in Concealed Dense Prediction
- Title(参考訳): 密集度予測における深層学習
- Authors: Pancheng Zhao, Deng-Ping Fan, Shupeng Cheng, Salman Khan, Fahad Shahbaz Khan, David Clifton, Peng Xu, Jufeng Yang,
- Abstract要約: 本稿では,農業,産業等において大きな価値を持つ,複雑な課題のファミリーであるCDP(Concealed Dense Prediction)を紹介し,レビューする。
CDPの本質的な特徴は、ターゲットが周囲に隠されているため、それらを完全に知覚するには、きめ細かい表現、事前の知識、補助的推論などが必要であることである。
- 参考スコア(独自算出の注目度): 83.89736735583935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning is developing rapidly and handling common computer vision tasks well. It is time to pay attention to more complex vision tasks, as model size, knowledge, and reasoning capabilities continue to improve. In this paper, we introduce and review a family of complex tasks, termed Concealed Dense Prediction (CDP), which has great value in agriculture, industry, etc. CDP's intrinsic trait is that the targets are concealed in their surroundings, thus fully perceiving them requires fine-grained representations, prior knowledge, auxiliary reasoning, etc. The contributions of this review are three-fold: (i) We introduce the scope, characteristics, and challenges specific to CDP tasks and emphasize their essential differences from generic vision tasks. (ii) We develop a taxonomy based on concealment counteracting to summarize deep learning efforts in CDP through experiments on three tasks. We compare 25 state-of-the-art methods across 12 widely used concealed datasets. (iii) We discuss the potential applications of CDP in the large model era and summarize 6 potential research directions. We offer perspectives for the future development of CDP by constructing a large-scale multimodal instruction fine-tuning dataset, CvpINST, and a concealed visual perception agent, CvpAgent.
- Abstract(参考訳): ディープラーニングは急速に発展し、一般的なコンピュータビジョンタスクをうまく処理している。
モデルのサイズ、知識、推論能力が改善し続けるにつれて、より複雑なビジョンタスクに注意を払う時が来た。
本稿では,農業,産業等において大きな価値を持つCDP(Concealed Dense Prediction)と呼ばれる,複雑なタスクのファミリーを紹介し,レビューする。
CDPの本質的な特徴は、ターゲットが周囲に隠されているため、それらを完全に知覚するには、きめ細かい表現、事前の知識、補助的推論などが必要であることである。
このレビューの貢献は3つあります。
i) CDPタスクに特有のスコープ,特徴,課題を導入し,汎用視覚タスクとの重要な相違を強調した。
二 隠蔽対策に基づく分類法を開発し、三つの課題の実験を通してCDPにおける深層学習の取り組みを要約する。
12の広く使われている隠蔽データセットに対して25の最先端手法を比較した。
3) 大規模モデル時代におけるCDPの可能性について考察し, 6つの研究方向について概説する。
我々は,大規模マルチモーダル命令微調整データセットCvpINSTと隠蔽視覚認識エージェントCvpAgentを構築することで,CDPの今後の発展を展望する。
関連論文リスト
- Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は349万の質問と332万の画像からなる総合的なきめ細かい評価ベンチマーク、すなわちFG-BMKを導入する。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - Can LLMs Assist Computer Education? an Empirical Case Study of DeepSeek [38.30073108450149]
本研究は,中国のネットワーク技術者によるコンピュータネットワークセキュリティに関するシミュレーション質問と実世界調査の両方を用いている。
これらの結果は、プロンプトがロール定義を含むか否かに関わらず、モデルが一貫して機能することを示す。
DeepSeek-V3はネットワークセキュリティ教育にかなりの実用的価値を提供するが、マルチモーダルデータを処理する能力には課題がある。
論文 参考訳(メタデータ) (2025-04-01T04:58:16Z) - End-to-end Graph Learning Approach for Cognitive Diagnosis of Student Tutorial [11.670969577565774]
本稿では,エンド・ツー・エンドグラフニューラルネットワークを用いた認知診断(EGNN-CD)モデルを提案する。
EGNN-CDは、知識概念ネットワーク(KCN)、グラフニューラルネットワークに基づく特徴抽出(GNNFE)、認知能力予測(CAP)の3つの主要部分から構成される。
論文 参考訳(メタデータ) (2024-10-30T06:18:47Z) - Deep Learning for Video Anomaly Detection: A Review [52.74513211976795]
ビデオ異常検出(VAD)は、ビデオの正常性から逸脱する行動や事象を発見することを目的としている。
ディープラーニングの時代には、VADタスクには、さまざまなディープラーニングベースの方法が常に現れています。
このレビューでは、半教師付き、弱教師付き、完全教師付き、非教師付き、オープンセットの5つのカテゴリのスペクトルについて取り上げる。
論文 参考訳(メタデータ) (2024-09-09T07:31:16Z) - Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models [24.579822095003685]
下流視覚質問応答(VQA)における表現学習に関する実証的研究を行った。
我々はOCモデルと代替アプローチの利点とトレードオフを徹底的に検討する。
両パラダイムの強みを活用するための,有望な道を見つける。
論文 参考訳(メタデータ) (2024-07-22T12:26:08Z) - Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。
私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。
我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - WHU-Synthetic: A Synthetic Perception Dataset for 3-D Multitask Model Research [9.945833036861892]
WHU-Syntheticは、マルチタスク学習用に設計された大規模3D合成認識データセットである。
我々は,現実のシナリオにおいて実現が困難である特定のアイデアを実現するために,いくつかの新しい設定を実装している。
論文 参考訳(メタデータ) (2024-02-29T11:38:44Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。