論文の概要: A degree of image identification at sub-human scales could be possible
with more advanced clusters
- arxiv url: http://arxiv.org/abs/2308.05092v1
- Date: Wed, 9 Aug 2023 17:40:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 12:43:44.616722
- Title: A degree of image identification at sub-human scales could be possible
with more advanced clusters
- Title(参考訳): より高度なクラスターを用いてサブヒューマンスケールでの画像識別が可能となる
- Authors: Prateek Y J
- Abstract要約: 最大20万枚の画像を256ppiまでトレーニングしたビジョントランスフォーマーによるスケーリング実験を実施しました。
データのボリュームと画像の解像度を同時にスケールアップすることで、人間レベルのアイテム検出性能が人以下のサイズで向上することを発見した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The purpose of the research is to determine if currently available
self-supervised learning techniques can accomplish human level comprehension of
visual images using the same degree and amount of sensory input that people
acquire from. Initial research on this topic solely considered data volume
scaling. Here, we scale both the volume of data and the quality of the image.
This scaling experiment is a self-supervised learning method that may be done
without any outside financing. We find that scaling up data volume and picture
resolution at the same time enables human-level item detection performance at
sub-human sizes.We run a scaling experiment with vision transformers trained on
up to 200000 images up to 256 ppi.
- Abstract(参考訳): 本研究の目的は、現在利用可能な自己教師型学習技術が、人々が取得した感覚入力の程度と量を用いて、視覚画像の人間レベルの理解を達成できるかどうかを判断することである。
このトピックに関する初期の研究は、データボリュームのスケーリングのみを考慮していた。
ここでは、データのボリュームと画像の品質の両方をスケールします。
このスケーリング実験は、外部資金なしで行うことができる自己教師付き学習手法である。
データボリュームと画像解像度を同時にスケールアップすることで、人間以下のサイズでの人間レベルのアイテム検出性能を実現し、最大20万枚の画像を256ppiまでトレーニングしたビジョントランスフォーマーによるスケーリング実験を実施した。
関連論文リスト
- MoLE: Enhancing Human-centric Text-to-image Diffusion via Mixture of Low-rank Experts [61.274246025372044]
顔と手の文脈における人間中心のテキスト・ツー・イメージ生成について検討する。
そこで我々は,手近画像と顔画像で訓練した低ランクモジュールをそれぞれ専門家として考慮し,Mixture of Low-rank Experts (MoLE) という手法を提案する。
この概念は、カスタマイズされたクローズアップデータセットによって訓練された低ランクモジュールが、適切なスケールで適用された場合、対応する画像部分を強化する可能性があるという、低ランクリファインメント(low-rank refinement)の観察から着想を得たものである。
論文 参考訳(メタデータ) (2024-10-30T17:59:57Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Scaling may be all you need for achieving human-level object recognition
capacity with human-like visual experience [21.067139116005592]
データサイズ、モデルサイズ、画像解像度の同時スケーリングについて検討する。
サブヒューマンスケールで人間レベルの物体認識能力に到達することが可能であることが判明した。
論文 参考訳(メタデータ) (2023-08-07T16:31:38Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Self-similarity Driven Scale-invariant Learning for Weakly Supervised
Person Search [66.95134080902717]
自己相似性駆動型スケール不変学習(SSL)という新しいワンステップフレームワークを提案する。
本稿では,ネットワークを前景と学習スケール不変の機能に集中させるための,マルチスケール・エクステンプラー・ブランチを提案する。
PRWおよびCUHK-SYSUデータベースの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-02-25T04:48:11Z) - Semantic Segmentation Enhanced Transformer Model for Human Attention
Prediction [8.47446520519624]
唾液度予測は、RGB画像が与えられた人間の眼の注意分布を予測することを目的としている。
最近の最先端手法のほとんどは、従来のCNNのディープイメージ特徴表現に基づいている。
意味的セグメンテーションを学習目的とするトランスフォーマーに基づく手法を提案する。
論文 参考訳(メタデータ) (2023-01-26T10:27:51Z) - Self-supervised Learning for Sonar Image Classification [6.1947705963945845]
自己教師付き学習は、大きなラベル付きデータセットを必要とせずに画像表現を学習するための強力なアプローチであることが証明された。
実生活ソナー画像データセットの事前学習および転送学習結果について述べる。
論文 参考訳(メタデータ) (2022-04-20T08:58:35Z) - How much "human-like" visual experience do current self-supervised
learning algorithms need to achieve human-level object recognition? [13.198689566654108]
その答えは、100万年にわたる自然視体験の順番、つまり、人間の寿命よりも数桁長い順序にあると推定する。
我々は、我々の見積もりと、このかなり驚くべき結果の意味にまつわる主な注意点について論じる。
論文 参考訳(メタデータ) (2021-09-23T17:45:36Z) - Factors of Influence for Transfer Learning across Diverse Appearance
Domains and Task Types [50.1843146606122]
現在の最新のコンピュータビジョンモデルでは、簡単な転送学習が一般的です。
転校学習に関するこれまでの体系的な研究は限られており、作業が期待される状況は十分に理解されていない。
本論文では,非常に異なる画像領域にまたがる転送学習の広範な実験的研究を行う。
論文 参考訳(メタデータ) (2021-03-24T16:24:20Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。