論文の概要: Detect an Object At Once without Fine-tuning
- arxiv url: http://arxiv.org/abs/2411.02181v1
- Date: Mon, 04 Nov 2024 15:38:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:43:07.955428
- Title: Detect an Object At Once without Fine-tuning
- Title(参考訳): 微調整なしで一度にオブジェクトを検知する
- Authors: Junyu Hao, Jianheng Liu, Yongjia Zhao, Zuofan Chen, Qi Sun, Jinlong Chen, Jianguo Wei, Minghao Yang,
- Abstract要約: 1)シーンイメージと所定のオブジェクトイメージパッチ(es)を連結して、SDM内のハイライト領域が可能な場所を示すようにした類似度密度マップ(SDM)を生成すること、(2)リージョンアライメントネットワーク(RAN)を介してシーン内のオブジェクト占有領域を取得すること、の2つのフェーズで構成されている。
RANはディープ・シームズ・ネットワーク(DSN)のバックボーン上に構築されており、従来のDSNとは違って、SDMのハイライト領域で示される地上の真実と予測領域の場所と地域差を回帰することで、オブジェクトの正確な領域を得る。
- 参考スコア(独自算出の注目度): 24.580732053747568
- License:
- Abstract: When presented with one or a few photos of a previously unseen object, humans can instantly recognize it in different scenes. Although the human brain mechanism behind this phenomenon is still not fully understood, this work introduces a novel technical realization of this task. It consists of two phases: (1) generating a Similarity Density Map (SDM) by convolving the scene image with the given object image patch(es) so that the highlight areas in the SDM indicate the possible locations; (2) obtaining the object occupied areas in the scene through a Region Alignment Network (RAN). The RAN is constructed on a backbone of Deep Siamese Network (DSN), and different from the traditional DSNs, it aims to obtain the object accurate regions by regressing the location and area differences between the ground truths and the predicted ones indicated by the highlight areas in SDM. By pre-learning from labels annotated in traditional datasets, the SDM-RAN can detect previously unknown objects without fine-tuning. Experiments were conducted on the MS COCO, PASCAL VOC datasets. The results indicate that the proposed method outperforms state-of-the-art methods on the same task.
- Abstract(参考訳): これまで見たことのない物体の写真が1枚か数枚提示されると、人間はすぐに異なるシーンで認識できる。
この現象の背後にある人間の脳機構は、まだ完全には理解されていないが、この研究は、この課題の新たな技術的実現をもたらす。
1)シーンイメージと所定のオブジェクトイメージパッチ(es)を連結して、SDM内のハイライト領域が可能な場所を示すようにした類似度密度マップ(SDM)を生成し、(2)リージョンアライメントネットワーク(RAN)を介してシーン内のオブジェクト占有領域を取得する。
RANはディープ・シームズ・ネットワーク(DSN)のバックボーン上に構築されており、従来のDSNとは違って、SDMのハイライト領域で示される地上の真実と予測領域の場所と地域差を回帰することで、オブジェクトの正確な領域を得る。
従来のデータセットにアノテートされたラベルから事前学習することで、SDM-RANは微調整なしで、これまで未知のオブジェクトを検出することができる。
MS COCO, PASCALVOCデータセットを用いて実験を行った。
その結果,提案手法は同一タスクにおける最先端手法よりも優れていた。
関連論文リスト
- Enabling Local Editing in Diffusion Models by Joint and Individual Component Analysis [18.755311950243737]
拡散モデル(DM)の潜伏空間は、GAN(Generative Adversarial Networks)ほど理解されていない。
最近の研究は、DMの潜在領域における教師なし意味発見に焦点を当てている。
本稿では,事前学習したDMの認知ネットワークから学習した潜在意味論を分解する教師なし手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T18:21:50Z) - Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - PGNeXt: High-Resolution Salient Object Detection via Pyramid Grafting Network [24.54269823691119]
本稿では、データセットとネットワークフレームワークの両方の観点から、より難解な高分解能サルエントオブジェクト検出(HRSOD)について述べる。
HRSODデータセットの欠如を補うため、UHRSDと呼ばれる大規模高解像度の高分解能物体検出データセットを慎重に収集した。
すべての画像はピクセルレベルで微妙にアノテートされ、以前の低解像度のSODデータセットをはるかに上回っている。
論文 参考訳(メタデータ) (2024-08-02T09:31:21Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - From Global to Local: Multi-scale Out-of-distribution Detection [129.37607313927458]
アウト・オブ・ディストリビューション(OOD)検出は、イン・ディストリビューション(ID)トレーニングプロセス中にラベルが見られない未知のデータを検出することを目的としている。
近年の表現学習の進歩により,距離に基づくOOD検出がもたらされる。
グローバルな視覚情報と局所的な情報の両方を活用する第1のフレームワークであるマルチスケールOOD検出(MODE)を提案する。
論文 参考訳(メタデータ) (2023-08-20T11:56:25Z) - Can Deep Network Balance Copy-Move Forgery Detection and
Distinguishment? [3.7311680121118345]
コピーモーブ偽造検出は、デジタル画像鑑定において重要な研究領域である。
近年では、コピー・ムーブの偽造品で原本と複製物とを区別することへの関心が高まっている。
本稿では,エンド・ツー・エンドのディープ・ニューラル・ネットワークにおけるトランスフォーマー・アーキテクチャを用いた革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T14:35:56Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Complex Scene Image Editing by Scene Graph Comprehension [17.72638225034884]
シーングラフ(SGC-Net)による複雑なシーン画像編集を実現するための2段階手法を提案する。
第1段階では,シーングラフを用いた関心領域予測ネットワークを訓練し,対象物体の位置を推定する。
第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。
論文 参考訳(メタデータ) (2022-03-24T05:12:54Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z) - Detection and Retrieval of Out-of-Distribution Objects in Semantic
Segmentation [9.496524884855559]
本稿では,深層ニューラルネットワークの予測を用いて,分布外セグメント(OOD)を検出するセマンティックセグメンテーションのための新しいパイプラインを提案する。
実験では,デプロイされたOODアプローチがアウト・オブ・ディストリビューションの概念を検出するのに適していることを示した。
論文 参考訳(メタデータ) (2020-05-14T09:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。