Fugu-MT 論文翻訳(概要): GPT-4 Understands Discourse at Least as Well as Humans Do

論文の概要: GPT-4 Understands Discourse at Least as Well as Humans Do

arxiv url: http://arxiv.org/abs/2403.17196v2
Date: Sun, 20 Oct 2024 14:11:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.554779
Title: GPT-4 Understands Discourse at Least as Well as Humans Do
Title（参考訳）: GPT-4、人間と同じくらいの速さで会話を理解
Authors: Thomas Shultz, Jamie Wise, Ardavan Salehi Nobandegani,
Abstract要約: GPT-4は、非常に高いレベルの人的性能を与えられたヒトよりも、わずかに、統計的に有意ではない。 GPT-4と人間は共に、物語に明記されていない情報について推論する強力な能力を示しており、これは理解の批判的なテストである。
参考スコア（独自算出の注目度）: 1.3499500088995462
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We test whether a leading AI system GPT-4 understands discourse as well as humans do, using a standardized test of discourse comprehension. Participants are presented with brief stories and then answer eight yes/no questions probing their comprehension of the story. The questions are formatted to assess the separate impacts of directness (stated vs. implied) and salience (main idea vs. details). GPT-4 performs slightly, but not statistically significantly, better than humans given the very high level of human performance. Both GPT-4 and humans exhibit a strong ability to make inferences about information that is not explicitly stated in a story, a critical test of understanding.
Abstract（参考訳）: 我々は,指導的AIシステムであるGPT-4が,言論理解の標準化テストを用いて,人間と同様に言論を理解するかどうかを検証した。参加者には短いストーリーが提示され、8つのイエス/ノーの質問に答えて、ストーリーの理解を深める。質問は、直接性(暗示と暗示)とサリエンス(主観と詳細)の異なる影響を評価するためにフォーマットされる。 GPT-4は、非常に高いレベルの人的性能を与えられたヒトよりも、わずかに、統計的に有意ではない。 GPT-4と人間は共に、物語に明記されていない情報について推論する強力な能力を示しており、これは理解の批判的なテストである。

関連論文リスト

ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability [62.285407189502216]
LLM(Large Language Models)によって生成されたテキストの検出は、誤った判断によって致命的な誤りを引き起こす可能性がある。本稿では,人間の意思決定プロセスに根ざした解釈可能な検出手法であるExaGPTを紹介する。以上の結果から,ExaGPTは従来の強力な検出器よりも最大で40.9ポイントの精度を1%の偽陽性率で大きく上回っていることが明らかとなった。
論文参考訳（メタデータ） (2025-02-17T01:15:07Z)
Generative AI Takes a Statistics Exam: A Comparison of Performance between ChatGPT3.5, ChatGPT4, and ChatGPT4o-mini [0.0]
小学校1年生を対象に, GPT バージョン3.5, 4.0, 4o-mini の16質問統計試験において, GPT バージョン3.5, 4.0, 4o-mini の成績を検討した。その結果, GPT3.5と4o-miniはいずれもGPT4と類似していることがわかった。
論文参考訳（メタデータ） (2025-01-15T21:46:01Z)
Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文参考訳（メタデータ） (2024-11-07T22:51:47Z)
GPT-4o reads the mind in the eyes [33.2650796309076]
GPT-4oは直立顔からの精神状態の解釈において人間よりも優れていた。 GPT-4oの誤りはランダムではなかったが、高度に一貫性があり、不正確な精神状態情報の処理が明らかにされた。これらの知見は, GPT-4oに共存する逆効果のような, 高度な精神状態推論能力と人間の顔処理のサインが如何に重要であるかを明らかにする。
論文参考訳（メタデータ） (2024-10-29T17:53:10Z)
GPT-4o System Card [211.87336862081963]
GPT-4oは自動回帰オムニモデルであり、テキスト、オーディオ、画像、ビデオの組み合わせを入力として受け入れる。テキスト、ビジョン、オーディオでエンドツーエンドにトレーニングされており、すべての入力と出力は同じニューラルネットワークで処理される。 GPT-4は、英語とコードのテキスト上でのTurboのパフォーマンスと一致し、非英語のテキストでは大幅に改善された。
論文参考訳（メタデータ） (2024-10-25T17:43:01Z)
Evaluating the capability of large language models to personalize science texts for diverse middle-school-age learners [0.0]
GPT-4は、トレーニングセッション中に選択した選択に基づいて、学生の学習嗜好をプロファイルするために使用された。実験グループでは,GPT-4を用いて,学生の予測プロファイルに適合する科学テキストの書き直しを行い,制御グループでは,学習嗜好に反する文章の書き直しを行った。
論文参考訳（メタデータ） (2024-08-09T17:53:35Z)
GPT-4 is judged more human than humans in displaced and inverted Turing tests [0.7437224586066946]
毎日のAI検出は、オンライン会話における人とAIの差別化を必要とする。我々は、Turingテストの2つの修正版(反転と置換)を使って、人や大きな言語モデルがいかに差別化できるかを測定した。
論文参考訳（メタデータ） (2024-07-11T20:28:24Z)
People cannot distinguish GPT-4 from a human in a Turing test [0.913127392774573]
GPT-4はヒトの54%と判断され、ELIZA(22%)を上回ったが、実際のヒト(67%)よりも遅れていた。結果は、マシンインテリジェンスに関する議論に影響を及ぼし、より緊急に、現在のAIシステムによる騙しが検出されない可能性があることを示唆している。
論文参考訳（メタデータ） (2024-05-09T04:14:09Z)
"ChatGPT Is Here to Help, Not to Replace Anybody" -- An Evaluation of Students' Opinions On Integrating ChatGPT In CS Courses [0.0]
GPTやBardのような大規模言語モデル(LLM)は、テキスト記述に基づいてコードを生成することができる。 LLMは、コンピュータ教育に深く影響し、不正行為や過度な依存、計算思考スキルの低下への懸念を高めます。
論文参考訳（メタデータ） (2024-04-26T14:29:16Z)
GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文参考訳（メタデータ） (2023-11-27T11:29:10Z)
Holistic Analysis of Hallucination in GPT-4V(ision): Bias and Interference Challenges [54.42256219010956]
このベンチマークは、視覚言語モデルにおける2つの一般的な幻覚、すなわちバイアスと干渉を評価するために設計されている。偏見はモデルがある種の反応を幻覚させる傾向を示すもので、おそらくはトレーニングデータの不均衡によるものである。干渉とは、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判定が破壊されるシナリオである。
論文参考訳（メタデータ） (2023-11-06T17:26:59Z)
Does GPT-4 pass the Turing test? [0.913127392774573]
最高パフォーマンスのGPT-4プロンプトは49.7%のゲームで通過し、ELIZA(22%)とGPT-3.5(20%)を上回った。我々は、チューリングテストは、自然主義的なコミュニケーションと騙しの評価として、引き続き関係していると論じる。
論文参考訳（メタデータ） (2023-10-31T06:27:52Z)
An Early Evaluation of GPT-4V(ision) [40.866323649060696]
我々は,GPT-4Vの視覚的理解,言語理解,視覚パズルの解法,深度,熱,映像,音声などの他のモダリティの理解など,様々な能力を評価する。 GPT-4Vの性能を評価するため、656の試験インスタンスを手動で構築し、GPT-4Vの結果を慎重に評価する。
論文参考訳（メタデータ） (2023-10-25T10:33:17Z)
How is ChatGPT's behavior changing over time? [72.79311931941876]
2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。 GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
論文参考訳（メタデータ） (2023-07-18T06:56:08Z)
Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文参考訳（メタデータ） (2023-05-24T11:26:59Z)
Overinformative Question Answering by Humans and Machines [26.31070412632125]
人間の回答における過剰な表現性は、質問者の目標に対する関連性を考えることによって引き起こされることを示す。本研究は, GPT-3が, 実例と認知動機のある説明によって導かれるときの, 刺激的かつ人間的な回答パターンの形式に非常に敏感であることを示す。
論文参考訳（メタデータ） (2023-05-11T21:41:41Z)
Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文参考訳（メタデータ） (2023-03-22T16:51:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。