論文の概要: YotoR-You Only Transform One Representation
- arxiv url: http://arxiv.org/abs/2405.19629v1
- Date: Thu, 30 May 2024 02:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 18:36:41.404183
- Title: YotoR-You Only Transform One Representation
- Title(参考訳): YotoR-Youは1つの表現だけを変換する
- Authors: José Ignacio Díaz Villa, Patricio Loncomilla, Javier Ruiz-del-Solar,
- Abstract要約: YotoR(You Only Transform One Representation)は、Swin TransformerとYoloRアーキテクチャを組み合わせた、オブジェクト検出のための新しいディープラーニングモデルである。
自然言語処理の革命的技術であるTransformersは、コンピュータビジョンにも大きな影響を与え、精度と計算効率を高める可能性を提供している。
- 参考スコア(独自算出の注目度): 2.990411348977783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces YotoR (You Only Transform One Representation), a novel deep learning model for object detection that combines Swin Transformers and YoloR architectures. Transformers, a revolutionary technology in natural language processing, have also significantly impacted computer vision, offering the potential to enhance accuracy and computational efficiency. YotoR combines the robust Swin Transformer backbone with the YoloR neck and head. In our experiments, YotoR models TP5 and BP4 consistently outperform YoloR P6 and Swin Transformers in various evaluations, delivering improved object detection performance and faster inference speeds than Swin Transformer models. These results highlight the potential for further model combinations and improvements in real-time object detection with Transformers. The paper concludes by emphasizing the broader implications of YotoR, including its potential to enhance transformer-based models for image-related tasks.
- Abstract(参考訳): 本稿では,スウィントランスフォーマーとYoloRアーキテクチャを組み合わせたオブジェクト検出のための新しいディープラーニングモデルであるYotoRを紹介する。
自然言語処理の革命的技術であるTransformersは、コンピュータビジョンにも大きな影響を与え、精度と計算効率を高める可能性を提供している。
YotoRは頑丈なSwin TransformerのバックボーンとYoloRのネックとヘッドを組み合わせている。
実験では, YotoR モデル TP5 と BP4 は YoloR P6 と Swin Transformer を一貫して上回り,オブジェクト検出性能の向上と, Swin Transformer モデルよりも高速な推論速度を実現している。
これらの結果は、トランスフォーマーを用いたリアルタイムオブジェクト検出のさらなるモデル組み合わせと改善の可能性を強調している。
この論文は、画像関連タスクのトランスフォーマーベースモデルを強化する可能性を含む、YotoRの幅広い意味を強調して、結論付けている。
関連論文リスト
- IO Transformer: Evaluating SwinV2-Based Reward Models for Computer Vision [0.0]
本稿では,SwinV2 ベースの報酬モデルである IO Transformer と Output Transformer について検討する。
本実験では,入力に完全に依存する領域間でのモデル出力品質評価を高精度に行う。
論文 参考訳(メタデータ) (2024-10-31T23:16:09Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - SSformer: A Lightweight Transformer for Semantic Segmentation [7.787950060560868]
Swin Transformerは階層アーキテクチャとシフトウィンドウを使用して、様々な視覚タスクで新しい記録を樹立した。
我々はSSformerと呼ばれる軽量で効果的なトランスモデルを設計する。
実験の結果,提案したSSformerは最先端モデルと同等のmIoU性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-08-03T12:57:00Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Gaze Estimation using Transformer [14.26674946195107]
我々は、純粋変換器とハイブリッド変換器の2種類の視覚変換器について考察する。
私たちはまず、人気の高いViTに従い、画像から視線を推定するために純粋なトランスフォーマーを使用します。
一方、我々は畳み込み層を保存し、CNNとトランスフォーマーを統合する。
論文 参考訳(メタデータ) (2021-05-30T04:06:29Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z) - Transformer on a Diet [81.09119185568296]
トランスフォーマーは、効率よくシーケンス情報をキャプチャできる能力のおかげで、広く使われている。
BERT や GPT-2 のような最近の開発は、有効性を重視した重いアーキテクチャしか提供していない。
計算量が少ないトランスフォーマーが競合する結果をもたらすかどうかを調べるために, 慎重に設計された3つの光トランスフォーマーアーキテクチャを探索する。
論文 参考訳(メタデータ) (2020-02-14T18:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。