論文の概要: Text Understanding in GPT-4 vs Humans
- arxiv url: http://arxiv.org/abs/2403.17196v3
- Date: Fri, 20 Dec 2024 17:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:20:52.145026
- Title: Text Understanding in GPT-4 vs Humans
- Title(参考訳): GPT-4と人間とのテキスト理解
- Authors: Thomas R. Shultz, Jamie M. Wise, Ardavan Salehi Nobandegani,
- Abstract要約: 我々は、主要なAIシステムであるGPT4が、人間と同様にテキストも理解しているかどうかを検討する。
まず、よく確立された談話理解の標準化テストを使用します。
次に、GPT4と人間の間に大きな違いがあるかどうかを判断するために、より難しいパスを使用します。
- 参考スコア(独自算出の注目度): 2.024925013349319
- License:
- Abstract: We examine whether a leading AI system GPT4 understands text as well as humans do, first using a well-established standardized test of discourse comprehension. On this test, GPT4 performs slightly, but not statistically significantly, better than humans given the very high level of human performance. Both GPT4 and humans make correct inferences about information that is not explicitly stated in the text, a critical test of understanding. Next, we use more difficult passages to determine whether that could allow larger differences between GPT4 and humans. GPT4 does considerably better on this more difficult text than do the high school and university students for whom these the text passages are designed, as admission tests of student reading comprehension. Deeper exploration of GPT4 performance on material from one of these admission tests reveals generally accepted signatures of genuine understanding, namely generalization and inference.
- Abstract(参考訳): 先進的なAIシステムであるGPT4は、まず、会話理解の標準化テストを用いて、テキストだけでなく、人間も理解しているかどうかを検討する。
このテストでは、GPT4はわずかながら統計的に有意ではないが、人間よりも高いレベルの人間のパフォーマンスを与えられる。
GPT4と人間はどちらも、テキストに明記されていない情報についての正確な推測を行う。
次に、GPT4と人間の間に大きな違いがあるかどうかを判断するために、より難しいパスを使用します。
GPT4は、これらのテキストパスを設計した高校生や大学生よりも、この難易度の高いテキストに対して、学生読解の受け入れテストとして、かなり優れている。
これらの試験の1つからGPT4の性能についてより深く調べると、真の理解、すなわち一般化と推論のサインが一般に受け入れられていることが分かる。
関連論文リスト
- ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability [62.285407189502216]
LLM(Large Language Models)によって生成されたテキストの検出は、誤った判断によって致命的な誤りを引き起こす可能性がある。
本稿では,人間の意思決定プロセスに根ざした解釈可能な検出手法であるExaGPTを紹介する。
以上の結果から,ExaGPTは従来の強力な検出器よりも最大で40.9ポイントの精度を1%の偽陽性率で大きく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T01:15:07Z) - Generative AI Takes a Statistics Exam: A Comparison of Performance between ChatGPT3.5, ChatGPT4, and ChatGPT4o-mini [0.0]
小学校1年生を対象に, GPT バージョン3.5, 4.0, 4o-mini の16質問統計試験において, GPT バージョン3.5, 4.0, 4o-mini の成績を検討した。
その結果, GPT3.5と4o-miniはいずれもGPT4と類似していることがわかった。
論文 参考訳(メタデータ) (2025-01-15T21:46:01Z) - Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - GPT-4o System Card [211.87336862081963]
GPT-4oは自動回帰オムニモデルであり、テキスト、オーディオ、画像、ビデオの組み合わせを入力として受け入れる。
テキスト、ビジョン、オーディオでエンドツーエンドにトレーニングされており、すべての入力と出力は同じニューラルネットワークで処理される。
GPT-4は、英語とコードのテキスト上でのTurboのパフォーマンスと一致し、非英語のテキストでは大幅に改善された。
論文 参考訳(メタデータ) (2024-10-25T17:43:01Z) - Evaluating the capability of large language models to personalize science texts for diverse middle-school-age learners [0.0]
GPT-4は、トレーニングセッション中に選択した選択に基づいて、学生の学習嗜好をプロファイルするために使用された。
実験グループでは,GPT-4を用いて,学生の予測プロファイルに適合する科学テキストの書き直しを行い,制御グループでは,学習嗜好に反する文章の書き直しを行った。
論文 参考訳(メタデータ) (2024-08-09T17:53:35Z) - "ChatGPT Is Here to Help, Not to Replace Anybody" -- An Evaluation of Students' Opinions On Integrating ChatGPT In CS Courses [0.0]
GPTやBardのような大規模言語モデル(LLM)は、テキスト記述に基づいてコードを生成することができる。
LLMは、コンピュータ教育に深く影響し、不正行為や過度な依存、計算思考スキルの低下への懸念を高めます。
論文 参考訳(メタデータ) (2024-04-26T14:29:16Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - An Early Evaluation of GPT-4V(ision) [40.866323649060696]
我々は,GPT-4Vの視覚的理解,言語理解,視覚パズルの解法,深度,熱,映像,音声などの他のモダリティの理解など,様々な能力を評価する。
GPT-4Vの性能を評価するため、656の試験インスタンスを手動で構築し、GPT-4Vの結果を慎重に評価する。
論文 参考訳(メタデータ) (2023-10-25T10:33:17Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。