論文の概要: ChatGPT and general-purpose AI count fruits in pictures surprisingly well
- arxiv url: http://arxiv.org/abs/2404.08515v1
- Date: Fri, 12 Apr 2024 14:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 14:47:19.131154
- Title: ChatGPT and general-purpose AI count fruits in pictures surprisingly well
- Title(参考訳): ChatGPTと汎用AIは、絵の中の果物を驚くほどよく数える
- Authors: Konlavach Mengsuwan, Juan Camilo Rivera Palacio, Masahiro Ryo,
- Abstract要約: 数ショットの学習を伴う基礎モデルは、従来のアプローチに比べて、時間と労力を大幅に節約することができる。
どちらのアプローチもコーディングスキルは必要とせず、AI教育と普及を促進することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Object counting is a popular task in deep learning applications in various domains, including agriculture. A conventional deep learning approach requires a large amount of training data, often a logistic problem in a real-world application. To address this issue, we examined how well ChatGPT (GPT4V) and a general-purpose AI (foundation model for object counting, T-Rex) can count the number of fruit bodies (coffee cherries) in 100 images. The foundation model with few-shot learning outperformed the trained YOLOv8 model (R2 = 0.923 and 0.900, respectively). ChatGPT also showed some interesting potential, especially when few-shot learning with human feedback was applied (R2 = 0.360 and 0.460, respectively). Moreover, we examined the time required for implementation as a practical question. Obtaining the results with the foundation model and ChatGPT were much shorter than the YOLOv8 model (0.83 hrs, 1.75 hrs, and 161 hrs). We interpret these results as two surprises for deep learning users in applied domains: a foundation model with few-shot domain-specific learning can drastically save time and effort compared to the conventional approach, and ChatGPT can reveal a relatively good performance. Both approaches do not need coding skills, which can foster AI education and dissemination.
- Abstract(参考訳): オブジェクトカウントは、農業を含む様々な分野のディープラーニングアプリケーションにおいて一般的なタスクである。
従来のディープラーニングアプローチでは大量のトレーニングデータが必要で、現実のアプリケーションではロジスティックな問題が多い。
この問題に対処するために,ChatGPT(GPT4V)と汎用AI(オブジェクトカウントのための基礎モデル,T-Rex)が,100枚の画像で果実(コーヒーチェリー)を数えるかを検討した。
数ショットの学習による基礎モデルは、訓練されたYOLOv8モデル(それぞれR2 = 0.923と0.900)より優れていた。
また、ChatGPTは興味深い可能性を示し、特に人間のフィードバックによる少数ショット学習(R2 = 0.360 と 0.460)が適用された。
さらに,実践的な問題として実装に要する時間についても検討した。
基礎モデルとChatGPTはYOLOv8モデル(0.83 hr, 1.75 hr, 161 hr)よりもはるかに短かった。
ドメイン固有の学習がほとんどない基礎モデルは、従来のアプローチに比べて、時間と労力を大幅に節約することができ、ChatGPTは比較的優れたパフォーマンスを示すことができます。
どちらのアプローチもコーディングスキルは必要とせず、AI教育と普及を促進することができる。
関連論文リスト
- EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。
テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。
大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文 参考訳(メタデータ) (2023-05-24T01:40:57Z) - Curriculum-Based Imitation of Versatile Skills [15.97723808124603]
模倣による学習スキルは、ロボットの直感的な教育にとって有望な概念である。
このようなスキルを学ぶ一般的な方法は、デモが与えられた可能性の最大化によってパラメトリックモデルを学ぶことである。
しかし、人間のデモンストレーションはしばしばマルチモーダルであり、同じタスクは複数の方法で解決される。
論文 参考訳(メタデータ) (2023-04-11T12:10:41Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - Vision Based Machine Learning Algorithms for Out-of-Distribution
Generalisation [3.236217153362305]
ドメインシフトに対処しなければならない場合、単純な畳み込みニューラルネットワーク(CNN)ベースのディープラーニング手法が不十分であることを示す。
PACSとOffice-Homeの2つの人気のあるビジョンベースのベンチマークで実験が行われている。
論文 参考訳(メタデータ) (2023-01-17T15:58:29Z) - Efficient Self-supervised Learning with Contextualized Target
Representations for Vision, Speech and Language [60.12197397018094]
data2vecは学習目標であり、いくつかのモダリティにまたがって一般化します。
マスクされたトークンをエンコードしたり、高速な畳み込みデコーダを使ったり、教師表現の構築に力を注いだりはしません。
ImageNet-1K画像分類の実験では、Data2vec 2.0は16.4倍低いトレーニング時間でMasked Autoencodersの精度と一致している。
論文 参考訳(メタデータ) (2022-12-14T22:13:11Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文 参考訳(メタデータ) (2022-05-27T07:36:29Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。