論文の概要: GPT-4 Understands Discourse at Least as Well as Humans Do
- arxiv url: http://arxiv.org/abs/2403.17196v2
- Date: Sun, 20 Oct 2024 14:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:46.450863
- Title: GPT-4 Understands Discourse at Least as Well as Humans Do
- Title(参考訳): GPT-4、人間と同じくらいの速さで会話を理解
- Authors: Thomas Shultz, Jamie Wise, Ardavan Salehi Nobandegani,
- Abstract要約: GPT-4は、非常に高いレベルの人的性能を与えられたヒトよりも、わずかに、統計的に有意ではない。
GPT-4と人間は共に、物語に明記されていない情報について推論する強力な能力を示しており、これは理解の批判的なテストである。
- 参考スコア(独自算出の注目度): 1.3499500088995462
- License:
- Abstract: We test whether a leading AI system GPT-4 understands discourse as well as humans do, using a standardized test of discourse comprehension. Participants are presented with brief stories and then answer eight yes/no questions probing their comprehension of the story. The questions are formatted to assess the separate impacts of directness (stated vs. implied) and salience (main idea vs. details). GPT-4 performs slightly, but not statistically significantly, better than humans given the very high level of human performance. Both GPT-4 and humans exhibit a strong ability to make inferences about information that is not explicitly stated in a story, a critical test of understanding.
- Abstract(参考訳): 我々は,指導的AIシステムであるGPT-4が,言論理解の標準化テストを用いて,人間と同様に言論を理解するかどうかを検証した。
参加者には短いストーリーが提示され、8つのイエス/ノーの質問に答えて、ストーリーの理解を深める。
質問は、直接性(暗示と暗示)とサリエンス(主観と詳細)の異なる影響を評価するためにフォーマットされる。
GPT-4は、非常に高いレベルの人的性能を与えられたヒトよりも、わずかに、統計的に有意ではない。
GPT-4と人間は共に、物語に明記されていない情報について推論する強力な能力を示しており、これは理解の批判的なテストである。
関連論文リスト
- GPT-4o reads the mind in the eyes [33.2650796309076]
GPT-4oは直立顔からの精神状態の解釈において人間よりも優れていた。
GPT-4oの誤りはランダムではなかったが、高度に一貫性があり、不正確な精神状態情報の処理が明らかにされた。
これらの知見は, GPT-4oに共存する逆効果のような, 高度な精神状態推論能力と人間の顔処理のサインが如何に重要であるかを明らかにする。
論文 参考訳(メタデータ) (2024-10-29T17:53:10Z) - GPT-4o System Card [211.87336862081963]
GPT-4oは自動回帰オムニモデルであり、テキスト、オーディオ、画像、ビデオの組み合わせを入力として受け入れる。
テキスト、ビジョン、オーディオでエンドツーエンドにトレーニングされており、すべての入力と出力は同じニューラルネットワークで処理される。
GPT-4は、英語とコードのテキスト上でのTurboのパフォーマンスと一致し、非英語のテキストでは大幅に改善された。
論文 参考訳(メタデータ) (2024-10-25T17:43:01Z) - GPT-4 is judged more human than humans in displaced and inverted Turing tests [0.7437224586066946]
毎日のAI検出は、オンライン会話における人とAIの差別化を必要とする。
我々は、Turingテストの2つの修正版(反転と置換)を使って、人や大きな言語モデルがいかに差別化できるかを測定した。
論文 参考訳(メタデータ) (2024-07-11T20:28:24Z) - People cannot distinguish GPT-4 from a human in a Turing test [0.913127392774573]
GPT-4はヒトの54%と判断され、ELIZA(22%)を上回ったが、実際のヒト(67%)よりも遅れていた。
結果は、マシンインテリジェンスに関する議論に影響を及ぼし、より緊急に、現在のAIシステムによる騙しが検出されない可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-05-09T04:14:09Z) - Holistic Analysis of Hallucination in GPT-4V(ision): Bias and
Interference Challenges [54.42256219010956]
このベンチマークは、視覚言語モデルにおける2つの一般的な幻覚、すなわちバイアスと干渉を評価するために設計されている。
偏見はモデルがある種の反応を幻覚させる傾向を示すもので、おそらくはトレーニングデータの不均衡によるものである。
干渉とは、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判定が破壊されるシナリオである。
論文 参考訳(メタデータ) (2023-11-06T17:26:59Z) - Does GPT-4 pass the Turing test? [0.913127392774573]
最高パフォーマンスのGPT-4プロンプトは49.7%のゲームで通過し、ELIZA(22%)とGPT-3.5(20%)を上回った。
我々は、チューリングテストは、自然主義的なコミュニケーションと騙しの評価として、引き続き関係していると論じる。
論文 参考訳(メタデータ) (2023-10-31T06:27:52Z) - From Sparse to Dense: GPT-4 Summarization with Chain of Density
Prompting [57.25154420382581]
優れた要約は、過度に密集し、従うのが難しいことなく、詳細でエンティティ中心であるべきです。
我々はより密度の高い GPT-4 のサマリーを、密度の連鎖(Chain of Density)のプロンプト(英語版)と呼ぶものと比較する。
我々は,100件のCNN DailyMail記事に対する人間の嗜好調査を行い,バニラプロンプトが生成したものよりもGPT-4の要約の方が好まれていることを発見した。
論文 参考訳(メタデータ) (2023-09-08T11:31:08Z) - How is ChatGPT's behavior changing over time? [72.79311931941876]
2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。
GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
論文 参考訳(メタデータ) (2023-07-18T06:56:08Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - Overinformative Question Answering by Humans and Machines [26.31070412632125]
人間の回答における過剰な表現性は、質問者の目標に対する関連性を考えることによって引き起こされることを示す。
本研究は, GPT-3が, 実例と認知動機のある説明によって導かれるときの, 刺激的かつ人間的な回答パターンの形式に非常に敏感であることを示す。
論文 参考訳(メタデータ) (2023-05-11T21:41:41Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。