論文の概要: Integrating Human Vision Perception in Vision Transformers for
Classifying Waste Items
- arxiv url: http://arxiv.org/abs/2312.12143v2
- Date: Wed, 20 Dec 2023 18:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 12:25:34.092015
- Title: Integrating Human Vision Perception in Vision Transformers for
Classifying Waste Items
- Title(参考訳): 廃棄物分類のための視覚トランスフォーマにおける人間の視覚知覚の統合
- Authors: Akshat Kishore Shrivastava, Tapan Kumar Gandhi
- Abstract要約: 本稿では,データセットに差分ぼかしを適用し,ニスタグラムの学習現象をシミュレートする手法を提案する。
提案したフレームワークは2つのモジュールから構成されており、第2のモジュールは元のVision Transformerによく似ている。
このアプローチの背後にある主な動機は、人間の視覚システムが実行している実環境を反映して、モデルの精度と適応性を高めることである。
- 参考スコア(独自算出の注目度): 0.4143603294943439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose an novel methodology aimed at simulating the
learning phenomenon of nystagmus through the application of differential
blurring on datasets. Nystagmus is a biological phenomenon that influences
human vision throughout life, notably by diminishing head shake from infancy to
adulthood. Leveraging this concept, we address the issue of waste
classification, a pressing global concern. The proposed framework comprises two
modules, with the second module closely resembling the original Vision
Transformer, a state-of-the-art model model in classification tasks. The
primary motivation behind our approach is to enhance the model's precision and
adaptability, mirroring the real-world conditions that the human visual system
undergoes. This novel methodology surpasses the standard Vision Transformer
model in waste classification tasks, exhibiting an improvement with a margin of
2%. This improvement underscores the potential of our methodology in improving
model precision by drawing inspiration from human vision perception. Further
research in the proposed methodology could yield greater performance results,
and can be extrapolated to other global issues.
- Abstract(参考訳): 本稿では,データセットに差分ぼかしを適用し,ニスタグラムの学習現象をシミュレートすることを目的とした新しい手法を提案する。
ナイスタガムス(英語: nystagmus)は、人間の視覚に影響を及ぼす生物学的現象であり、特に幼児から成人までの頭部揺らぎを減少させる。
この概念を生かして, 廃棄物分類の問題に対処し, 世界的な懸念が高まっている。
提案するフレームワークは2つのモジュールから構成され,第2のモジュールは分類タスクの最先端モデルであるビジョントランスフォーマーによく似ている。
このアプローチの背後にある主な動機は、人間の視覚システムが実行している実環境を反映して、モデルの精度と適応性を高めることである。
この手法は, 廃棄物分類作業における標準ビジョントランスフォーマーモデルを超え, 2%のマージンで改善を示す。
この改良は,人間の視覚知覚からインスピレーションを得ることによって,モデル精度を向上させる手法の可能性を示している。
提案手法のさらなる研究により、パフォーマンスが向上し、他のグローバルな問題への外挿が可能となる。
関連論文リスト
- Data Quality Aware Approaches for Addressing Model Drift of Semantic
Segmentation Models [1.6385815610837167]
本研究では,戦闘モデルドリフトに対する2つの顕著な品質意識戦略について検討した。
前者は画像品質評価の指標を活用して、厳密に高品質なトレーニングデータを選択し、モデルの堅牢性を向上させる。
後者は、既存のモデルから学んだベクトル機能を利用して、将来のデータの選択をガイドし、モデルの以前の知識と整合させる。
論文 参考訳(メタデータ) (2024-02-11T18:01:52Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Diffusion Models for Image Restoration and Enhancement -- A
Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。
我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。
本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文 参考訳(メタデータ) (2023-08-18T08:40:38Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Efficient Representation of Natural Image Patches [1.2179089070956926]
初期視覚システムの2つの目的 - 効率的な情報伝達と正確なセンサ確率分布モデル - の達成方法について検討する。
我々のモデルは、初期の視覚系の計算理論に関する新しい洞察と、ディープラーニングモデルの効率を高めるための潜在的新しいアプローチを提供する。
論文 参考訳(メタデータ) (2022-10-24T07:50:02Z) - A Visual Navigation Perspective for Category-Level Object Pose
Estimation [41.60364392204057]
本稿では,単一の単眼画像に基づくカテゴリレベルのオブジェクトポーズ推定について検討する。
ポーズ認識生成モデルの最近の進歩は、分析バイシンセシスを用いてこの課題に対処する方法を舗装している。
論文 参考訳(メタデータ) (2022-03-25T10:57:37Z) - FoveaTer: Foveated Transformer for Image Classification [8.207403859762044]
本研究では,プール領域とサスカディック動作を用いてオブジェクト分類タスクを行うFoveaTerモデルを提案する。
本研究では,提案モデルと未発見モデルを用いてアンサンブルモデルを構築し,未発見モデルよりも精度1.36%の精度で計算コストを22%削減した。
論文 参考訳(メタデータ) (2021-05-29T01:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。