論文の概要: GMC: A General Framework of Multi-stage Context Learning and Utilization for Visual Detection Tasks
- arxiv url: http://arxiv.org/abs/2407.05566v1
- Date: Mon, 8 Jul 2024 02:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 17:10:02.910586
- Title: GMC: A General Framework of Multi-stage Context Learning and Utilization for Visual Detection Tasks
- Title(参考訳): GMC:視覚検出タスクのための多段階コンテキスト学習と活用のための汎用フレームワーク
- Authors: Xuan Wang, Hao Tang, Zhigang Zhu,
- Abstract要約: 多段階のコンテキスト学習と利用のための一般的なフレームワークが提案され、様々な視覚的検出タスクのための様々なディープネットワークアーキテクチャが提案されている。
提案するフレームワークは、視覚的検出シナリオにおけるコンテキスト学習と利用のための包括的で適応可能なソリューションを提供する。
- 参考スコア(独自算出の注目度): 10.840556935747784
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Various contextual information has been employed by many approaches for visual detection tasks. However, most of the existing approaches only focus on specific context for specific tasks. In this paper, GMC, a general framework is proposed for multistage context learning and utilization, with various deep network architectures for various visual detection tasks. The GMC framework encompasses three stages: preprocessing, training, and post-processing. In the preprocessing stage, the representation of local context is enhanced by utilizing commonly used labeling standards. During the training stage, semantic context information is fused with visual information, leveraging prior knowledge from the training dataset to capture semantic relationships. In the post-processing stage, general topological relations and semantic masks for stuff are incorporated to enable spatial context reasoning between objects. The proposed framework provides a comprehensive and adaptable solution for context learning and utilization in visual detection scenarios. The framework offers flexibility with user-defined configurations and provide adaptability to diverse network architectures and visual detection tasks, offering an automated and streamlined solution that minimizes user effort and inference time in context learning and reasoning. Experimental results on the visual detection tasks, for storefront object detection, pedestrian detection and COCO object detection, demonstrate that our framework outperforms previous state-of-the-art detectors and transformer architectures. The experiments also demonstrate that three contextual learning components can not only be applied individually and in combination, but can also be applied to various network architectures, and its flexibility and effectiveness in various detection scenarios.
- Abstract(参考訳): 様々なコンテキスト情報が視覚的検出タスクのための多くのアプローチで採用されている。
しかし、既存のアプローチのほとんどは、特定のタスクの特定のコンテキストのみに焦点を当てています。
本稿では,多段階の文脈学習と利用のための汎用フレームワーク GMC を提案する。
GMCフレームワークは前処理、トレーニング、後処理の3段階を含む。
前処理の段階では、一般的に使用されているラベル付け標準を利用することで、ローカルコンテキストの表現が強化される。
トレーニング段階では、セマンティックコンテキスト情報は視覚情報と融合し、トレーニングデータセットからの事前知識を活用してセマンティックな関係をキャプチャする。
後処理の段階では、オブジェクト間の空間的コンテキスト推論を可能にするため、一般的なトポロジカルな関係や、物のセマンティックマスクが組み込まれている。
提案するフレームワークは、視覚的検出シナリオにおけるコンテキスト学習と利用のための包括的で適応可能なソリューションを提供する。
このフレームワークは、ユーザ定義の構成による柔軟性を提供し、多様なネットワークアーキテクチャや視覚的検出タスクへの適応性を提供し、コンテキスト学習や推論におけるユーザの労力と推論時間を最小化する、自動化された、合理化されたソリューションを提供する。
店舗前物検出,歩行者検出,COCOオブジェクト検出などの視覚的検出タスクの実験結果から,我々のフレームワークが従来の最先端の検出器やトランスフォーマーアーキテクチャよりも優れていることを示す。
実験はまた、3つの文脈学習コンポーネントが個別に、かつ、組み合わせて適用できるだけでなく、様々なネットワークアーキテクチャにも適用可能であることを示し、その柔軟性と様々な検出シナリオにおける有効性を示した。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - More Pictures Say More: Visual Intersection Network for Open Set Object Detection [4.206612461069489]
オープンセットオブジェクト検出(VINO)のための強力なDETRモデルであるVisual Intersection Networkを導入する。
VINOは、すべての時間ステップにまたがるカテゴリのセマンティックな交差を保存するために、マルチイメージのビジュアルバンクを構築する。
提案手法は,対象カテゴリ意味論と領域意味論のより正確な一致を保証するとともに,事前学習時間とリソース要求を著しく低減する。
論文 参考訳(メタデータ) (2024-08-26T05:52:35Z) - Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - ProGEO: Generating Prompts through Image-Text Contrastive Learning for Visual Geo-localization [0.0]
そこで本稿では,視覚性能を向上させるための2段階学習手法を提案する。
提案手法の有効性を複数の大規模視覚的ジオローカライゼーションデータセットで検証する。
論文 参考訳(メタデータ) (2024-06-04T02:28:51Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - FindIt: Generalized Localization with Natural Language Queries [43.07139534653485]
FindItは、さまざまな視覚的グラウンドとローカライゼーションタスクを統合する、シンプルで汎用的なフレームワークである。
我々のアーキテクチャの鍵は、異なるローカライゼーション要求を統一する効率的なマルチスケール融合モジュールである。
エンドツーエンドのトレーニング可能なフレームワークは、幅広い参照表現、ローカライゼーション、検出クエリに柔軟かつ正確に対応します。
論文 参考訳(メタデータ) (2022-03-31T17:59:30Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。