論文の概要: Features extraction for image identification using computer vision
- arxiv url: http://arxiv.org/abs/2507.18650v1
- Date: Tue, 22 Jul 2025 10:43:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.683073
- Title: Features extraction for image identification using computer vision
- Title(参考訳): コンピュータビジョンを用いた画像識別のための特徴抽出
- Authors: Venant Niyonkuru, Sylla Sekou, Jimmy Jackson Sinzinkayo,
- Abstract要約: この研究は、視覚変換器(ViT)およびジェネレーティブ・ディバイザ・ネットワーク(GAN)などのアプローチに焦点を当てている。
実験により,両手法のメリットと限界,およびコンピュータビジョンの進歩における実用的応用について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This study examines various feature extraction techniques in computer vision, the primary focus of which is on Vision Transformers (ViTs) and other approaches such as Generative Adversarial Networks (GANs), deep feature models, traditional approaches (SIFT, SURF, ORB), and non-contrastive and contrastive feature models. Emphasizing ViTs, the report summarizes their architecture, including patch embedding, positional encoding, and multi-head self-attention mechanisms with which they overperform conventional convolutional neural networks (CNNs). Experimental results determine the merits and limitations of both methods and their utilitarian applications in advancing computer vision.
- Abstract(参考訳): 本研究では、コンピュータビジョンにおける様々な特徴抽出手法について検討し、その主な焦点は視覚変換器(ViT)と、GAN(Generative Adversarial Networks)、ディープ特徴モデル、従来のアプローチ(SIFT, SURF, ORB)、非コントラスト特徴モデルである。
レポートはViTを強調し、パッチ埋め込み、位置符号化、従来の畳み込みニューラルネットワーク(CNN)をオーバーパフォーマンスするマルチヘッド自己保持機構を含むアーキテクチャを要約している。
実験により,両手法のメリットと限界,およびコンピュータビジョンの進歩における実用的応用について検討した。
関連論文リスト
- Modality-Aware Feature Matching: A Comprehensive Review of Single- and Cross-Modality Techniques [91.26187560114381]
特徴マッチングはコンピュータビジョンにおける基礎的な課題であり、画像検索、ステレオマッチング、3D再構成、SLAMなどのアプリケーションに必須である。
本調査は,モダリティに基づく特徴マッチングを包括的にレビューし,従来の手作り手法と現代のディープラーニングアプローチについて検討する。
論文 参考訳(メタデータ) (2025-07-30T15:56:36Z) - Convolution goes higher-order: a biologically inspired mechanism empowers image classification [0.8999666725996975]
本稿では,複雑な非線形生物学的視覚処理に着想を得た画像分類手法を提案する。
我々のモデルは、Volterraのような畳み込み演算子の拡張を組み込み、乗法的相互作用をキャプチャする。
私たちの仕事は神経科学とディープラーニングを橋渡しし、より効果的で生物学的にインスパイアされたコンピュータビジョンモデルへの道筋を提供します。
論文 参考訳(メタデータ) (2024-12-09T18:33:09Z) - Inverting Transformer-based Vision Models [0.8124699127636158]
本研究では,検出変換器と視覚変換器の中間層から入力画像を再構成するために,逆モデルのモジュラー手法を適用する。
我々の分析は、これらの特性がモデル内でどのように現れるかを示し、トランスフォーマーベースの視覚モデルに対する深い理解に寄与する。
論文 参考訳(メタデータ) (2024-12-09T14:43:06Z) - A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships [0.5639904484784127]
トランスフォーマーモデルによる自然言語処理(NLP)の展望の変化
これらのモデルは、長距離依存やコンテキスト情報をキャプチャする能力で有名である。
コンピュータビジョンにおけるトランスフォーマーモデルの研究の方向性と応用について論じる。
論文 参考訳(メタデータ) (2024-08-27T16:22:18Z) - Automatic Discovery of Visual Circuits [66.99553804855931]
本稿では,視覚モデルにおける視覚的概念の認識の基盤となる計算グラフのサブグラフを抽出するスケーラブルな手法について検討する。
提案手法は, モデル出力に因果的に影響を及ぼす回路を抽出し, これらの回路を編集することで, 敵攻撃から大きな事前学習モデルを守ることができることがわかった。
論文 参考訳(メタデータ) (2024-04-22T17:00:57Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Manipulating Feature Visualizations with Gradient Slingshots [53.94925202421929]
特徴可視化(FV)は、ディープニューラルネットワーク(DNN)で学んだ概念を解釈するための広く使われている手法である。
本稿では,モデルアーキテクチャを変更したり,性能を著しく劣化させたりすることなくFVの操作を可能にする新しい手法,Gradient Slingshotsを提案する。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Multimodal Adaptive Fusion of Face and Gait Features using Keyless
attention based Deep Neural Networks for Human Identification [67.64124512185087]
歩行のような軟式生体認証は、人物認識や再識別といった監視作業において顔に広く使われている。
本稿では,キーレス注意深層ニューラルネットワークを活用することで,歩行と顔のバイオメトリック・キューを動的に組み込むための適応型マルチバイオメトリック・フュージョン戦略を提案する。
論文 参考訳(メタデータ) (2023-03-24T05:28:35Z) - Out of Distribution Performance of State of Art Vision Model [0.0]
ViTの自己保持機構は、CNNよりも堅牢である。
58の最先端コンピュータビジョンモデルの性能を統一的なトレーニング設定で検証する。
論文 参考訳(メタデータ) (2023-01-25T18:14:49Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Deep Features for training Support Vector Machine [16.795405355504077]
本稿では,訓練済みcnnから抽出した特徴に基づく汎用コンピュータビジョンシステムを開発した。
複数の学習特徴を単一の構造に組み合わせ、異なる画像分類タスクに取り組んでいます。
論文 参考訳(メタデータ) (2021-04-08T03:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。