論文の概要: Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2311.09247v1
- Date: Tue, 14 Nov 2023 04:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 18:35:10.028723
- Title: Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks
- Title(参考訳): 抽象・推論課題におけるヒト, GPT-4, GPT-4Vの比較
- Authors: Melanie Mitchell, Alessandro B. Palmarini, Arseny Moskvichev
- Abstract要約: GPT-4のテキストのみおよびマルチモーダル版による推論能力の評価を行った。
実験結果から,GPT-4のどちらのバージョンも人間に近いレベルで頑健な抽象化能力を開発していないという結論が得られた。
- 参考スコア(独自算出の注目度): 53.936643052339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the abstract reasoning abilities of text-only and multimodal
versions of GPT-4, using the ConceptARC benchmark [10], which is designed to
evaluate robust understanding and reasoning with core-knowledge concepts. We
extend the work of Moskvichev et al. [10] by evaluating GPT-4 on more detailed,
one-shot prompting (rather than simple, zero-shot prompts) with text versions
of ConceptARC tasks, and by evaluating GPT-4V, the multimodal version of GPT-4,
on zero- and one-shot prompts using image versions of the simplest tasks. Our
experimental results support the conclusion that neither version of GPT-4 has
developed robust abstraction abilities at humanlike levels.
- Abstract(参考訳): GPT-4のテキストのみおよびマルチモーダル版の抽象的推論能力について,コア知識の概念による堅牢な理解と推論の評価を目的としたConceptARCベンチマーク[10]を用いて検討する。
我々はmoskvichevらの仕事を拡大する。
[10]概念ARCタスクのテキストバージョンでGPT-4をより詳細に評価し(単純なゼロショットプロンプトではなく)、最も単純なタスクの画像バージョンを用いてGPT-4のマルチモーダルバージョンであるGPT-4Vを評価する。
実験結果から,GPT-4のどちらのバージョンも人間に近いレベルで頑健な抽象化能力を開発していないという結論が得られた。
関連論文リスト
- Notes on Applicability of GPT-4 to Document Understanding [0.0]
文書理解分野に関するすべての公開GPT-4ファミリーモデルを評価する。
GPT-4 Vision Turboは,外部のOCRエンジンで認識されたテキストと入力上の文書イメージの両方を提供する場合,テキストのみのモデルでは良好な結果が得られない。
論文 参考訳(メタデータ) (2024-05-28T17:59:53Z) - Exploiting GPT-4 Vision for Zero-shot Point Cloud Understanding [114.4754255143887]
私たちは、ポイントクラウドでオブジェクトカテゴリを分類する課題に取り組みます。
我々はこれらの課題を克服するためにGPT-4 Vision (GPT-4V) を用いる。
ゼロショットポイントクラウド分類の新しいベンチマークを設定しました。
論文 参考訳(メタデータ) (2024-01-15T10:16:44Z) - GPT-4V with Emotion: A Zero-shot Benchmark for Generalized Emotion Recognition [38.2581985358104]
GPT-4 with Vision (GPT-4V) は、様々なタスクにおいて顕著な視覚能力を示すが、その感情認識性能は十分に評価されていない。
6つのタスクをカバーする21のベンチマークデータセットに対して,GPT-4Vの定量的評価結果を示す。
論文 参考訳(メタデータ) (2023-12-07T13:27:37Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - An Early Evaluation of GPT-4V(ision) [40.866323649060696]
我々は,GPT-4Vの視覚的理解,言語理解,視覚パズルの解法,深度,熱,映像,音声などの他のモダリティの理解など,様々な能力を評価する。
GPT-4Vの性能を評価するため、656の試験インスタンスを手動で構築し、GPT-4Vの結果を慎重に評価する。
論文 参考訳(メタデータ) (2023-10-25T10:33:17Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。