Fugu-MT 論文翻訳(概要): YOLO-Former: YOLO Shakes Hand With ViT

論文の概要: YOLO-Former: YOLO Shakes Hand With ViT

arxiv url: http://arxiv.org/abs/2401.06244v1
Date: Thu, 11 Jan 2024 20:10:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 20:55:42.797571
Title: YOLO-Former: YOLO Shakes Hand With ViT
Title（参考訳）: yolo-former: vitで握手するyolo
Authors: Javad Khoramdel, Ahmad Moori, Yasamin Borhani, Armin Ghanbarzadeh, and Esmaeil Najafi
Abstract要約: 提案したYOLO-Former法は,変換器とYOLOv4のアイデアをシームレスに統合し,高精度で効率的な物体検出システムを実現する。その結果,Pascal VOCデータセットの平均平均精度(mAP)は85.76%であった。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The proposed YOLO-Former method seamlessly integrates the ideas of transformer and YOLOv4 to create a highly accurate and efficient object detection system. The method leverages the fast inference speed of YOLOv4 and incorporates the advantages of the transformer architecture through the integration of convolutional attention and transformer modules. The results demonstrate the effectiveness of the proposed approach, with a mean average precision (mAP) of 85.76\% on the Pascal VOC dataset, while maintaining high prediction speed with a frame rate of 10.85 frames per second. The contribution of this work lies in the demonstration of how the innovative combination of these two state-of-the-art techniques can lead to further improvements in the field of object detection.
Abstract（参考訳）: 提案するyolo-former法はtransformerとyolov4のアイデアをシームレスに統合し,高精度かつ効率的な物体検出システムを構築する。この方法は、YOLOv4の高速推論速度を活用し、畳み込みアテンションとトランスフォーマーモジュールの統合により、トランスフォーマーアーキテクチャの利点を取り入れている。その結果,提案手法の有効性を実証し,平均平均精度85.76\%のパスカルVOCデータセットを用いて,フレームレート10.85フレーム/秒で高い予測速度を維持した。この研究の貢献は、この2つの最先端技術の革新的な組み合わせが、オブジェクト検出の分野におけるさらなる改善につながることを実証することにある。

関連論文リスト

YOLOv12: A Breakdown of the Key Architectural Features [0.5639904484784127]
YOLOv12は、単一ステージのリアルタイム物体検出において重要な進歩である。最適化されたバックボーン(R-ELAN)、分離可能な7x7の畳み込み、およびFlashAttention駆動のエリアベースアテンションが組み込まれている。レイテンシに敏感なアプリケーションと高精度なアプリケーションの両方にスケーラブルなソリューションを提供する。
論文参考訳（メタデータ） (2025-02-20T17:08:43Z)
YOLO-Vehicle-Pro: A Cloud-Edge Collaborative Framework for Object Detection in Autonomous Driving under Adverse Weather Conditions [8.820126303110545]
本稿では, YOLO-VehicleとYOLO-Vehicle-Proの2つの革新的なディープラーニングモデルを提案する。 YOLO-Vehicleは、自動運転シナリオに特化したオブジェクト検出モデルである。 YOLO-Vehicle-Proはこの基盤の上に構築されており、改良されたイメージデハージングアルゴリズムを導入している。
論文参考訳（メタデータ） (2024-10-23T10:07:13Z)
YOLO-TS: Real-Time Traffic Sign Detection with Enhanced Accuracy Using Optimized Receptive Fields and Anchor-Free Fusion [15.571409945909243]
本稿では,新しいリアルタイムかつ効率的な道路標識検出ネットワーク YOLO-TS を提案する。このネットワークは,マルチスケール特徴写像の受容場を最適化することにより,性能を著しく向上させる。我々の革新的な機能融合戦略は、アンカーフリー手法の柔軟性を活用し、精度と速度の両面で顕著な向上を実現している。
論文参考訳（メタデータ） (2024-10-22T16:19:55Z)
YOLOv5, YOLOv8 and YOLOv10: The Go-To Detectors for Real-time Vision [0.6662800021628277]
本稿では、YOLOv5, YOLOv8, YOLOv10に着目し、YOLO(You Only Look Once)オブジェクト検出アルゴリズムの進化に焦点を当てた。これらのバージョンにまたがるエッジデプロイメントのアーキテクチャの進歩、パフォーマンスの改善、適合性を分析します。
論文参考訳（メタデータ） (2024-07-03T10:40:20Z)
YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。 YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文参考訳（メタデータ） (2024-05-23T11:44:29Z)
Lightweight Object Detection: A Study Based on YOLOv7 Integrated with ShuffleNetv2 and Vision Transformer [0.0]
本研究は、モバイルプラットフォーム上での運用効率と速度を向上させるために、YOLOv7アルゴリズムの最適化をゼロにする。実験結果から, 改良されたYOLOモデルは優れた性能を示した。
論文参考訳（メタデータ） (2024-03-04T05:29:32Z)
YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。 YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文参考訳（メタデータ） (2024-01-30T18:59:38Z)
StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文参考訳（メタデータ） (2022-07-21T12:03:02Z)
Joint Spatial-Temporal and Appearance Modeling with Transformer for Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文参考訳（メタデータ） (2022-05-31T01:19:18Z)
A lightweight and accurate YOLO-like network for small target detection in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。 YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。 YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文参考訳（メタデータ） (2022-04-05T16:29:49Z)
An Empirical Study of Training End-to-End Vision-and-Language Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文参考訳（メタデータ） (2021-11-03T17:55:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。