Fugu-MT 論文翻訳(概要): Integrating Human Vision Perception in Vision Transformers for Classifying Waste Items

論文の概要: Integrating Human Vision Perception in Vision Transformers for Classifying Waste Items

arxiv url: http://arxiv.org/abs/2312.12143v2
Date: Wed, 20 Dec 2023 18:58:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 12:25:34.092015
Title: Integrating Human Vision Perception in Vision Transformers for Classifying Waste Items
Title（参考訳）: 廃棄物分類のための視覚トランスフォーマにおける人間の視覚知覚の統合
Authors: Akshat Kishore Shrivastava, Tapan Kumar Gandhi
Abstract要約: 本稿では,データセットに差分ぼかしを適用し,ニスタグラムの学習現象をシミュレートする手法を提案する。提案したフレームワークは2つのモジュールから構成されており、第2のモジュールは元のVision Transformerによく似ている。このアプローチの背後にある主な動機は、人間の視覚システムが実行している実環境を反映して、モデルの精度と適応性を高めることである。
参考スコア（独自算出の注目度）: 0.4143603294943439
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose an novel methodology aimed at simulating the learning phenomenon of nystagmus through the application of differential blurring on datasets. Nystagmus is a biological phenomenon that influences human vision throughout life, notably by diminishing head shake from infancy to adulthood. Leveraging this concept, we address the issue of waste classification, a pressing global concern. The proposed framework comprises two modules, with the second module closely resembling the original Vision Transformer, a state-of-the-art model model in classification tasks. The primary motivation behind our approach is to enhance the model's precision and adaptability, mirroring the real-world conditions that the human visual system undergoes. This novel methodology surpasses the standard Vision Transformer model in waste classification tasks, exhibiting an improvement with a margin of 2%. This improvement underscores the potential of our methodology in improving model precision by drawing inspiration from human vision perception. Further research in the proposed methodology could yield greater performance results, and can be extrapolated to other global issues.
Abstract（参考訳）: 本稿では,データセットに差分ぼかしを適用し,ニスタグラムの学習現象をシミュレートすることを目的とした新しい手法を提案する。ナイスタガムス(英語: nystagmus)は、人間の視覚に影響を及ぼす生物学的現象であり、特に幼児から成人までの頭部揺らぎを減少させる。この概念を生かして, 廃棄物分類の問題に対処し, 世界的な懸念が高まっている。提案するフレームワークは2つのモジュールから構成され,第2のモジュールは分類タスクの最先端モデルであるビジョントランスフォーマーによく似ている。このアプローチの背後にある主な動機は、人間の視覚システムが実行している実環境を反映して、モデルの精度と適応性を高めることである。この手法は, 廃棄物分類作業における標準ビジョントランスフォーマーモデルを超え, 2%のマージンで改善を示す。この改良は,人間の視覚知覚からインスピレーションを得ることによって,モデル精度を向上させる手法の可能性を示している。提案手法のさらなる研究により、パフォーマンスが向上し、他のグローバルな問題への外挿が可能となる。

関連論文リスト

LVLM-Aided Alignment of Task-Specific Vision Models [49.96265491629163]
タスク固有の視覚モデルは、高い領域において不可欠である。本稿では,タスク固有の視覚モデルと人間のドメイン知識を協調する,新しい,効率的な手法を提案する。提案手法は, モデル動作と人間の仕様との整合性を大幅に向上させる。
論文参考訳（メタデータ） (2025-12-26T11:11:25Z)
Simulated Cortical Magnification Supports Self-Supervised Object Learning [8.07351541700131]
近年の自己教師型学習モデルでは,幼児と同様の視覚的体験を訓練することで,意味オブジェクト表現の発達をシミュレートしている。本稿では,オブジェクト表現の発達において,この様々な解決法が果たす役割について考察する。
論文参考訳（メタデータ） (2025-09-19T08:28:06Z)
UniViTAR: Unified Vision Transformer with Native Resolution [37.63387029787732]
UniViTARは、視覚の統一性とネイティブ解像度のシナリオに適した、均質な視覚基盤モデルのファミリーである。 2つのコアメカニズムを戦略的に組み合わせたプログレッシブトレーニングパラダイムが導入された。並行して、ハイブリッドトレーニングフレームワークは、凍結教師モデルからの特徴蒸留に伴うシグモイドに基づくコントラスト損失をさらにシナジする。
論文参考訳（メタデータ） (2025-04-02T14:59:39Z)
Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文参考訳（メタデータ） (2025-03-26T16:05:01Z)
AniGaussian: Animatable Gaussian Avatar with Pose-guided Deformation [51.61117351997808]
SMPLポーズガイダンスを用いて動的ガウスアバターを拘束する革新的ポーズ誘導変形戦略を導入する。我々は、ガウスモデルの動的変換能力を高めるために、以前の研究から厳密な事前を取り入れた。既存の手法との比較により、AniGaussianは定性的結果と定量的指標の両方において優れた性能を示す。
論文参考訳（メタデータ） (2025-02-24T06:53:37Z)
ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文参考訳（メタデータ） (2024-09-23T17:47:59Z)
Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文参考訳（メタデータ） (2024-06-17T01:49:27Z)
Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文参考訳（メタデータ） (2024-06-13T17:59:20Z)
Bridging Generative and Discriminative Models for Unified Visual Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文参考訳（メタデータ） (2024-01-29T10:36:57Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
Diffusion Models for Image Restoration and Enhancement -- A Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文参考訳（メタデータ） (2023-08-18T08:40:38Z)
Unified Framework for Histopathology Image Augmentation and Classification via Generative Models [6.404713841079193]
本稿では,データ生成とモデルトレーニングの段階を統一プロセスに統合する,革新的な統一フレームワークを提案する。提案手法では、画像合成と分類の両方を同時に扱うために、純粋視覚変換器(ViT)ベースの条件付き生成適応ネットワーク(cGAN)モデルを用いる。本実験により,我々の統合合成増強フレームワークは,病理組織像分類モデルの性能を一貫して向上させることが示された。
論文参考訳（メタデータ） (2022-12-20T03:40:44Z)
Efficient Representation of Natural Image Patches [1.2179089070956926]
初期視覚システムの2つの目的 - 効率的な情報伝達と正確なセンサ確率分布モデル - の達成方法について検討する。我々のモデルは、初期の視覚系の計算理論に関する新しい洞察と、ディープラーニングモデルの効率を高めるための潜在的新しいアプローチを提供する。
論文参考訳（メタデータ） (2022-10-24T07:50:02Z)
Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文参考訳（メタデータ） (2022-06-15T03:44:42Z)
A Visual Navigation Perspective for Category-Level Object Pose Estimation [41.60364392204057]
本稿では,単一の単眼画像に基づくカテゴリレベルのオブジェクトポーズ推定について検討する。ポーズ認識生成モデルの最近の進歩は、分析バイシンセシスを用いてこの課題に対処する方法を舗装している。
論文参考訳（メタデータ） (2022-03-25T10:57:37Z)
FoveaTer: Foveated Transformer for Image Classification [8.207403859762044]
本研究では,プール領域とサスカディック動作を用いてオブジェクト分類タスクを行うFoveaTerモデルを提案する。本研究では,提案モデルと未発見モデルを用いてアンサンブルモデルを構築し,未発見モデルよりも精度1.36%の精度で計算コストを22%削減した。
論文参考訳（メタデータ） (2021-05-29T01:54:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。