Fugu-MT 論文翻訳(概要): Improving Detection of Person Class Using Dense Pooling

論文の概要: Improving Detection of Person Class Using Dense Pooling

arxiv url: http://arxiv.org/abs/2410.20966v1
Date: Mon, 28 Oct 2024 12:36:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.281971
Title: Improving Detection of Person Class Using Dense Pooling
Title（参考訳）: Dense Pooling を用いた個人クラスの検出の改善
Authors: Nouman Ahmad,
Abstract要約: FasterRCNN [32]はすでに、COCOデータセットに与えられる80の異なるオブジェクトの精度と検出を改善する、最先端のアプローチを提供しています。我々は、最先端の結論を与える別のアプローチを実行しました。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Lately, the continuous development of deep learning models by many researchers in the area of computer vision has attracted more researchers to further improve the accuracy of these models. FasterRCNN [32] has already provided a state-of-the-art approach to improve the accuracy and detection of 80 different objects given in the COCO dataset. To further improve the performance of person detection we have conducted a different approach which gives the state-of-the-art conclusion. An ROI is a step in FasterRCNN that extract the features from the given image with a fixed size and transfer into for further classification. To enhance the ROI performance, we have conducted an approach that implements dense pooling and converts the image into a 3D model to further transform into UV(ultra Violet) images which makes it easy to extract the right features from the images. To implement our approach we have approached the state-of-the-art COCO datasets and extracted 6982 images that include a person object and our final achievements conclude that using our approach has made significant results in detecting the person object in the given image
Abstract（参考訳）: 近年、コンピュータビジョン分野の多くの研究者によるディープラーニングモデルの継続的な開発が、これらのモデルの精度をさらに向上させるために、より多くの研究者を惹きつけている。 FasterRCNN [32]はすでに、COCOデータセットに与えられる80の異なるオブジェクトの精度と検出を改善する、最先端のアプローチを提供しています。人物検出の性能をさらに向上するため、我々は、最先端の結論を与える異なるアプローチを実行した。 ROIは、FasterRCNNにおけるステップであり、与えられた画像から特定のサイズで特徴を抽出し、さらなる分類のために転送する。 ROI性能を向上させるために,高密度プーリングを実装し,画像を3次元モデルに変換してUV(ultra Violet)画像に変換することで,画像から適切な特徴を容易に抽出するアプローチを行った。提案手法を実現するため,最先端のCOCOデータセットにアプローチし,対象物を含む6982画像を抽出した。

関連論文リスト

Distillation of Diffusion Features for Semantic Correspondence [23.54555663670558]
本稿では,効率の低下を克服する新しい知識蒸留手法を提案する。本稿では,2つの大きな視覚基盤モデルを用いて,これらの補足モデルの性能を,計算コストの低減で高精度に維持する1つの小さなモデルに蒸留する方法を示す。実験結果から,3次元データ拡張による蒸留モデルにより,計算負荷を大幅に削減し,セマンティックビデオ対応などの実世界のアプリケーションの実現性を向上させるとともに,現在の最先端手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-12-04T17:55:33Z)
Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文参考訳（メタデータ） (2024-08-01T07:40:00Z)
Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。 CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文参考訳（メタデータ） (2024-07-29T18:00:10Z)
Improving Interpretability and Robustness for the Detection of AI-Generated Images [6.116075037154215]
凍結したCLIP埋め込みに基づいて、既存の最先端AIGI検出手法を解析する。さまざまなAIジェネレータが生成する画像が実際の画像とどのように異なるかを示す。
論文参考訳（メタデータ） (2024-06-21T10:33:09Z)
Towards More General Video-based Deepfake Detection through Facial Feature Guided Adaptation for Foundation Model [15.61920157541529]
内部にリッチな情報をエンコードしたファンデーションモデルを適用することにより,新しいディープフェイク検出手法を提案する。近年のパラメータ効率の良い微調整技術に触発されて,新しいサイドネットワーク型デコーダを提案する。提案手法は,見知らぬディープフェイクサンプルの同定に優れた有効性を示し,顕著な性能向上を実現している。
論文参考訳（メタデータ） (2024-04-08T14:58:52Z)
IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-03-17T17:07:36Z)
DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。 DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-05-28T16:18:08Z)
Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文参考訳（メタデータ） (2022-04-06T17:54:46Z)
Learning Efficient Representations for Enhanced Object Detection on Large-scene SAR Images [16.602738933183865]
SAR(Synthetic Aperture Radar)画像のターゲットの検出と認識は難しい問題である。近年開発されたディープラーニングアルゴリズムは,SAR画像の固有の特徴を自動的に学習することができる。本稿では,効率的かつ堅牢なディープラーニングに基づくターゲット検出手法を提案する。
論文参考訳（メタデータ） (2022-01-22T03:25:24Z)
Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。 AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文参考訳（メタデータ） (2021-04-23T17:59:28Z)
Learning to Recognize Patch-Wise Consistency for Deepfake Detection [39.186451993950044]
パッチワイド一貫性学習(PCL)という,このタスクのための表現学習手法を提案する。 PCLは、画像のソース機能の一貫性を測定し、複数の偽造方法に対する優れた解釈性と堅牢性で表現することを学びます。 7つの一般的なDeepfake検出データセットに対するアプローチを評価します。
論文参考訳（メタデータ） (2020-12-16T23:06:56Z)
se(3)-TrackNet: Data-driven 6D Pose Tracking by Calibrating Image Residuals in Synthetic Domains [12.71983073907091]
本研究では,長期6次元ポーズトラッキングのためのデータ駆動型最適化手法を提案する。本研究の目的は、現在のRGB-D観測と、前回の推定値と対象物のモデルに基づいて条件付けされた合成画像から、最適な相対的なポーズを特定することである。提案手法は, 実画像を用いて訓練した場合でも, 常に頑健な評価を達成し, 代替品よりも優れる。
論文参考訳（メタデータ） (2020-07-27T21:09:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。