論文の概要: YOLO-Former: YOLO Shakes Hand With ViT
- arxiv url: http://arxiv.org/abs/2401.06244v1
- Date: Thu, 11 Jan 2024 20:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 20:55:42.797571
- Title: YOLO-Former: YOLO Shakes Hand With ViT
- Title(参考訳): yolo-former: vitで握手するyolo
- Authors: Javad Khoramdel, Ahmad Moori, Yasamin Borhani, Armin Ghanbarzadeh, and
Esmaeil Najafi
- Abstract要約: 提案したYOLO-Former法は,変換器とYOLOv4のアイデアをシームレスに統合し,高精度で効率的な物体検出システムを実現する。
その結果,Pascal VOCデータセットの平均平均精度(mAP)は85.76%であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proposed YOLO-Former method seamlessly integrates the ideas of
transformer and YOLOv4 to create a highly accurate and efficient object
detection system. The method leverages the fast inference speed of YOLOv4 and
incorporates the advantages of the transformer architecture through the
integration of convolutional attention and transformer modules. The results
demonstrate the effectiveness of the proposed approach, with a mean average
precision (mAP) of 85.76\% on the Pascal VOC dataset, while maintaining high
prediction speed with a frame rate of 10.85 frames per second. The contribution
of this work lies in the demonstration of how the innovative combination of
these two state-of-the-art techniques can lead to further improvements in the
field of object detection.
- Abstract(参考訳): 提案するyolo-former法はtransformerとyolov4のアイデアをシームレスに統合し,高精度かつ効率的な物体検出システムを構築する。
この方法は、YOLOv4の高速推論速度を活用し、畳み込みアテンションとトランスフォーマーモジュールの統合により、トランスフォーマーアーキテクチャの利点を取り入れている。
その結果,提案手法の有効性を実証し,平均平均精度85.76\%のパスカルVOCデータセットを用いて,フレームレート10.85フレーム/秒で高い予測速度を維持した。
この研究の貢献は、この2つの最先端技術の革新的な組み合わせが、オブジェクト検出の分野におけるさらなる改善につながることを実証することにある。
関連論文リスト
- Lightweight Object Detection: A Study Based on YOLOv7 Integrated with
ShuffleNetv2 and Vision Transformer [0.0]
本研究は、モバイルプラットフォーム上での運用効率と速度を向上させるために、YOLOv7アルゴリズムの最適化をゼロにする。
実験結果から, 改良されたYOLOモデルは優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-04T05:29:32Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z) - Latency Adjustable Transformer Encoder for Language Understanding [0.9790236766474201]
本稿では,提案する推論遅延の高速化により,推論コストを適応的に調整する効率的なトランスフォーマーアーキテクチャを提案する。
提案手法は,重要でないシークエンス要素(ワードベクター)を検出し,Actent Context Contribution (ACC) メトリックを用いて,各エンコーダ層でそれらを除去する。
提案手法は,BERTベースとGPT-2の推論遅延を最大4.8倍,3.72倍に改善し,0.75%の精度低下と平均パープレキシティが得られた。
論文 参考訳(メタデータ) (2022-01-10T13:04:39Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - YOLO-ReT: Towards High Accuracy Real-time Object Detection on Edge GPUs [14.85882314822983]
ディープニューラルネットワーク(DNN)ベースのオブジェクト検出モデルをエッジデバイスにマップするには、通常、そのようなモデルを著しく圧縮する必要がある。
本稿では,マルチスケール機能インタラクションのためのエッジGPUフレンドリなモジュールを提案する。
また,様々なタスク間の翻訳情報の流れの変化にインスパイアされた,新たな学習バックボーンの導入を提案する。
論文 参考訳(メタデータ) (2021-10-26T14:02:59Z) - PP-YOLO: An Effective and Efficient Implementation of Object Detector [44.189808709103865]
本稿では, 相対的に効率と効率のバランスの取れた物体検出器を実装した。
YOLOv3が実際に広く利用されていることを踏まえ, YOLOv3に基づく新しい物体検出器を開発した。
本論文のすべての実験はPaddlePaddleに基づいて行われるので、PP-YOLOと呼ぶ。
論文 参考訳(メタデータ) (2020-07-23T16:06:16Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。