論文の概要: Out of Distribution Performance of State of Art Vision Model
- arxiv url: http://arxiv.org/abs/2301.10750v2
- Date: Sun, 30 Jul 2023 00:55:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 23:45:52.114895
- Title: Out of Distribution Performance of State of Art Vision Model
- Title(参考訳): state of art visionモデルにおける分散性能の欠如
- Authors: Md Salman Rahman and Wonkwon Lee
- Abstract要約: ViTの自己保持機構は、CNNよりも堅牢である。
58の最先端コンピュータビジョンモデルの性能を統一的なトレーニング設定で検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The vision transformer (ViT) has advanced to the cutting edge in the visual
recognition task. Transformers are more robust than CNN, according to the
latest research. ViT's self-attention mechanism, according to the claim, makes
it more robust than CNN. Even with this, we discover that these conclusions are
based on unfair experimental conditions and just comparing a few models, which
did not allow us to depict the entire scenario of robustness performance. In
this study, we investigate the performance of 58 state-of-the-art computer
vision models in a unified training setup based not only on attention and
convolution mechanisms but also on neural networks based on a combination of
convolution and attention mechanisms, sequence-based model, complementary
search, and network-based method. Our research demonstrates that robustness
depends on the training setup and model types, and performance varies based on
out-of-distribution type. Our research will aid the community in better
understanding and benchmarking the robustness of computer vision models.
- Abstract(参考訳): 視覚変換器(ViT)は、視覚認識タスクの最先端に進歩した。
最新の研究によると、トランスフォーマーはCNNよりも堅牢だ。
ViTの自己保持機構は、CNNよりも堅牢である。
それにもかかわらず、これらの結論は不公平な実験条件に基づいており、いくつかのモデルを比較するだけで、ロバストネス性能の全シナリオを表現できないことがわかった。
本研究では,注意と畳み込みのメカニズムだけでなく,畳み込みと注意の機構,シーケンスベースモデル,補足探索,ネットワークベース手法を組み合わせたニューラルネットワークによる統一学習環境において,58種類の最先端コンピュータビジョンモデルの性能について検討する。
本研究は,ロバスト性がトレーニング設定とモデルタイプに依存し,分散型によって性能が異なることを実証する。
私たちの研究は、コンピュータビジョンモデルの堅牢性をよりよく理解し、ベンチマークするのに役立ちます。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition [49.14350399025926]
本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。
CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
論文 参考訳(メタデータ) (2024-07-28T11:52:36Z) - Distilling Knowledge from CNN-Transformer Models for Enhanced Human
Action Recognition [1.8722948221596285]
本研究の目的は、より大規模な教師モデルから知識を伝達することで、より小さな学生モデルの性能と効率を向上させることである。
提案手法では,生徒モデルとしてトランスフォーマー・ビジョン・ネットワークを使用し,教師モデルとして畳み込みネットワークが機能する。
Vision Transformer (ViT) アーキテクチャは、画像のグローバルな依存関係をキャプチャするための堅牢なフレームワークとして導入された。
論文 参考訳(メタデータ) (2023-11-02T14:57:58Z) - Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。
既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。
我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:15:57Z) - Interpretable Computer Vision Models through Adversarial Training:
Unveiling the Robustness-Interpretability Connection [0.0]
解釈可能性は、モデルを現実世界にデプロイする際には、堅牢性と同じくらい不可欠です。
標準モデルは、ロバストと比較して敵の攻撃に対してより感受性が高く、その学習された表現は人間にはあまり意味がない。
論文 参考訳(メタデータ) (2023-07-04T13:51:55Z) - Large-scale Robustness Analysis of Video Action Recognition Models [10.017292176162302]
我々は6つの最先端動作認識モデルの90種類の摂動に対する堅牢性について検討した。
1) トランスフォーマーベースモデルはCNNベースモデルと比較して一貫して堅牢であり、2) 事前トレーニングはCNNベースモデルよりもトランスフォーマーベースモデルのロバスト性を改善し、3) 研究されたモデルはすべて、SSv2以外のすべてのデータセットに対して時間的摂動に対して堅牢である。
論文 参考訳(メタデータ) (2022-07-04T13:29:34Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - A Comprehensive Study of Vision Transformers on Dense Prediction Tasks [10.013443811899466]
畳み込みニューラルネットワーク(CNN)がビジョンタスクの標準選択である。
近年の研究では、オブジェクト検出やセマンティックセグメンテーションといった課題において、視覚変換器(VT)が同等の性能を発揮することが示されている。
このことは、それらの一般化可能性、堅牢性、信頼性、複雑なタスクの特徴を抽出するときにテクスチャバイアスについていくつかの疑問を投げかける。
論文 参考訳(メタデータ) (2022-01-21T13:18:16Z) - Inducing Causal Structure for Interpretable Neural Networks [23.68246698789134]
インターチェンジ・インターチェンジ・トレーニング(IIT)について紹介する。
In IIT, (1)align variables in the causal model with representations in the Neural model and (2) training a neural model to match the counterfactual behavior of the causal model on a base input。
IITは完全に微分可能で、柔軟に他の目的と組み合わせ、ターゲット因果モデルがニューラルネットワークの因果抽象化であることを保証します。
論文 参考訳(メタデータ) (2021-12-01T21:07:01Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。