論文の概要: Integrating Human Vision Perception in Vision Transformers for
Classifying Waste Items
- arxiv url: http://arxiv.org/abs/2312.12143v2
- Date: Wed, 20 Dec 2023 18:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 12:25:34.092015
- Title: Integrating Human Vision Perception in Vision Transformers for
Classifying Waste Items
- Title(参考訳): 廃棄物分類のための視覚トランスフォーマにおける人間の視覚知覚の統合
- Authors: Akshat Kishore Shrivastava, Tapan Kumar Gandhi
- Abstract要約: 本稿では,データセットに差分ぼかしを適用し,ニスタグラムの学習現象をシミュレートする手法を提案する。
提案したフレームワークは2つのモジュールから構成されており、第2のモジュールは元のVision Transformerによく似ている。
このアプローチの背後にある主な動機は、人間の視覚システムが実行している実環境を反映して、モデルの精度と適応性を高めることである。
- 参考スコア(独自算出の注目度): 0.4143603294943439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose an novel methodology aimed at simulating the
learning phenomenon of nystagmus through the application of differential
blurring on datasets. Nystagmus is a biological phenomenon that influences
human vision throughout life, notably by diminishing head shake from infancy to
adulthood. Leveraging this concept, we address the issue of waste
classification, a pressing global concern. The proposed framework comprises two
modules, with the second module closely resembling the original Vision
Transformer, a state-of-the-art model model in classification tasks. The
primary motivation behind our approach is to enhance the model's precision and
adaptability, mirroring the real-world conditions that the human visual system
undergoes. This novel methodology surpasses the standard Vision Transformer
model in waste classification tasks, exhibiting an improvement with a margin of
2%. This improvement underscores the potential of our methodology in improving
model precision by drawing inspiration from human vision perception. Further
research in the proposed methodology could yield greater performance results,
and can be extrapolated to other global issues.
- Abstract(参考訳): 本稿では,データセットに差分ぼかしを適用し,ニスタグラムの学習現象をシミュレートすることを目的とした新しい手法を提案する。
ナイスタガムス(英語: nystagmus)は、人間の視覚に影響を及ぼす生物学的現象であり、特に幼児から成人までの頭部揺らぎを減少させる。
この概念を生かして, 廃棄物分類の問題に対処し, 世界的な懸念が高まっている。
提案するフレームワークは2つのモジュールから構成され,第2のモジュールは分類タスクの最先端モデルであるビジョントランスフォーマーによく似ている。
このアプローチの背後にある主な動機は、人間の視覚システムが実行している実環境を反映して、モデルの精度と適応性を高めることである。
この手法は, 廃棄物分類作業における標準ビジョントランスフォーマーモデルを超え, 2%のマージンで改善を示す。
この改良は,人間の視覚知覚からインスピレーションを得ることによって,モデル精度を向上させる手法の可能性を示している。
提案手法のさらなる研究により、パフォーマンスが向上し、他のグローバルな問題への外挿が可能となる。
関連論文リスト
- ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。
本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。
医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文 参考訳(メタデータ) (2024-06-17T01:49:27Z) - Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Diffusion Models for Image Restoration and Enhancement -- A
Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。
我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。
本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文 参考訳(メタデータ) (2023-08-18T08:40:38Z) - Unified Framework for Histopathology Image Augmentation and Classification via Generative Models [6.404713841079193]
本稿では,データ生成とモデルトレーニングの段階を統一プロセスに統合する,革新的な統一フレームワークを提案する。
提案手法では、画像合成と分類の両方を同時に扱うために、純粋視覚変換器(ViT)ベースの条件付き生成適応ネットワーク(cGAN)モデルを用いる。
本実験により,我々の統合合成増強フレームワークは,病理組織像分類モデルの性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2022-12-20T03:40:44Z) - Efficient Representation of Natural Image Patches [1.2179089070956926]
初期視覚システムの2つの目的 - 効率的な情報伝達と正確なセンサ確率分布モデル - の達成方法について検討する。
我々のモデルは、初期の視覚系の計算理論に関する新しい洞察と、ディープラーニングモデルの効率を高めるための潜在的新しいアプローチを提供する。
論文 参考訳(メタデータ) (2022-10-24T07:50:02Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z) - A Visual Navigation Perspective for Category-Level Object Pose
Estimation [41.60364392204057]
本稿では,単一の単眼画像に基づくカテゴリレベルのオブジェクトポーズ推定について検討する。
ポーズ認識生成モデルの最近の進歩は、分析バイシンセシスを用いてこの課題に対処する方法を舗装している。
論文 参考訳(メタデータ) (2022-03-25T10:57:37Z) - FoveaTer: Foveated Transformer for Image Classification [8.207403859762044]
本研究では,プール領域とサスカディック動作を用いてオブジェクト分類タスクを行うFoveaTerモデルを提案する。
本研究では,提案モデルと未発見モデルを用いてアンサンブルモデルを構築し,未発見モデルよりも精度1.36%の精度で計算コストを22%削減した。
論文 参考訳(メタデータ) (2021-05-29T01:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。