論文の概要: Text Understanding in GPT-4 vs Humans
- arxiv url: http://arxiv.org/abs/2403.17196v3
- Date: Fri, 20 Dec 2024 17:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:20:52.145026
- Title: Text Understanding in GPT-4 vs Humans
- Title(参考訳): GPT-4と人間とのテキスト理解
- Authors: Thomas R. Shultz, Jamie M. Wise, Ardavan Salehi Nobandegani,
- Abstract要約: 我々は、主要なAIシステムであるGPT4が、人間と同様にテキストも理解しているかどうかを検討する。
まず、よく確立された談話理解の標準化テストを使用します。
次に、GPT4と人間の間に大きな違いがあるかどうかを判断するために、より難しいパスを使用します。
- 参考スコア(独自算出の注目度): 2.024925013349319
- License:
- Abstract: We examine whether a leading AI system GPT4 understands text as well as humans do, first using a well-established standardized test of discourse comprehension. On this test, GPT4 performs slightly, but not statistically significantly, better than humans given the very high level of human performance. Both GPT4 and humans make correct inferences about information that is not explicitly stated in the text, a critical test of understanding. Next, we use more difficult passages to determine whether that could allow larger differences between GPT4 and humans. GPT4 does considerably better on this more difficult text than do the high school and university students for whom these the text passages are designed, as admission tests of student reading comprehension. Deeper exploration of GPT4 performance on material from one of these admission tests reveals generally accepted signatures of genuine understanding, namely generalization and inference.
- Abstract(参考訳): 先進的なAIシステムであるGPT4は、まず、会話理解の標準化テストを用いて、テキストだけでなく、人間も理解しているかどうかを検討する。
このテストでは、GPT4はわずかながら統計的に有意ではないが、人間よりも高いレベルの人間のパフォーマンスを与えられる。
GPT4と人間はどちらも、テキストに明記されていない情報についての正確な推測を行う。
次に、GPT4と人間の間に大きな違いがあるかどうかを判断するために、より難しいパスを使用します。
GPT4は、これらのテキストパスを設計した高校生や大学生よりも、この難易度の高いテキストに対して、学生読解の受け入れテストとして、かなり優れている。
これらの試験の1つからGPT4の性能についてより深く調べると、真の理解、すなわち一般化と推論のサインが一般に受け入れられていることが分かる。
関連論文リスト
- Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - GPT-4o reads the mind in the eyes [33.2650796309076]
GPT-4oは直立顔からの精神状態の解釈において人間よりも優れていた。
GPT-4oの誤りはランダムではなかったが、高度に一貫性があり、不正確な精神状態情報の処理が明らかにされた。
これらの知見は, GPT-4oに共存する逆効果のような, 高度な精神状態推論能力と人間の顔処理のサインが如何に重要であるかを明らかにする。
論文 参考訳(メタデータ) (2024-10-29T17:53:10Z) - GPT-4o System Card [211.87336862081963]
GPT-4oは自動回帰オムニモデルであり、テキスト、オーディオ、画像、ビデオの組み合わせを入力として受け入れる。
テキスト、ビジョン、オーディオでエンドツーエンドにトレーニングされており、すべての入力と出力は同じニューラルネットワークで処理される。
GPT-4は、英語とコードのテキスト上でのTurboのパフォーマンスと一致し、非英語のテキストでは大幅に改善された。
論文 参考訳(メタデータ) (2024-10-25T17:43:01Z) - GPT-4 is judged more human than humans in displaced and inverted Turing tests [0.7437224586066946]
毎日のAI検出は、オンライン会話における人とAIの差別化を必要とする。
我々は、Turingテストの2つの修正版(反転と置換)を使って、人や大きな言語モデルがいかに差別化できるかを測定した。
論文 参考訳(メタデータ) (2024-07-11T20:28:24Z) - People cannot distinguish GPT-4 from a human in a Turing test [0.913127392774573]
GPT-4はヒトの54%と判断され、ELIZA(22%)を上回ったが、実際のヒト(67%)よりも遅れていた。
結果は、マシンインテリジェンスに関する議論に影響を及ぼし、より緊急に、現在のAIシステムによる騙しが検出されない可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-05-09T04:14:09Z) - Holistic Analysis of Hallucination in GPT-4V(ision): Bias and
Interference Challenges [54.42256219010956]
このベンチマークは、視覚言語モデルにおける2つの一般的な幻覚、すなわちバイアスと干渉を評価するために設計されている。
偏見はモデルがある種の反応を幻覚させる傾向を示すもので、おそらくはトレーニングデータの不均衡によるものである。
干渉とは、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判定が破壊されるシナリオである。
論文 参考訳(メタデータ) (2023-11-06T17:26:59Z) - Does GPT-4 pass the Turing test? [0.913127392774573]
最高パフォーマンスのGPT-4プロンプトは49.7%のゲームで通過し、ELIZA(22%)とGPT-3.5(20%)を上回った。
我々は、チューリングテストは、自然主義的なコミュニケーションと騙しの評価として、引き続き関係していると論じる。
論文 参考訳(メタデータ) (2023-10-31T06:27:52Z) - How is ChatGPT's behavior changing over time? [72.79311931941876]
2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。
GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
論文 参考訳(メタデータ) (2023-07-18T06:56:08Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - Overinformative Question Answering by Humans and Machines [26.31070412632125]
人間の回答における過剰な表現性は、質問者の目標に対する関連性を考えることによって引き起こされることを示す。
本研究は, GPT-3が, 実例と認知動機のある説明によって導かれるときの, 刺激的かつ人間的な回答パターンの形式に非常に敏感であることを示す。
論文 参考訳(メタデータ) (2023-05-11T21:41:41Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。