論文の概要: Does GPT-4 surpass human performance in linguistic pragmatics?
- arxiv url: http://arxiv.org/abs/2312.09545v2
- Date: Sun, 24 Aug 2025 21:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:44.934101
- Title: Does GPT-4 surpass human performance in linguistic pragmatics?
- Title(参考訳): GPT-4は言語プラグマティクスにおいて人的性能を上回っているか?
- Authors: Ljubisa Bojic, Predrag Kovacevic, Milan Cabarkapa,
- Abstract要約: 大規模言語モデル(LLM)は、汎用マルチモーダルAIシステムとして日々の生活にますます統合されている。
本研究では,文脈的意味と暗黙的意味を含む言語プラグマティクスをLLMで解釈する能力について検討した。
Grice 通信の原理を用いて,対話型タスクにおける LLMs (GPT-2, GPT-3, GPT-3.5, GPT-4, Bard) と人間の両方の評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As Large Language Models (LLMs) become increasingly integrated into everyday life as general purpose multimodal AI systems, their capabilities to simulate human understanding are under examination. This study investigates LLMs ability to interpret linguistic pragmatics, which involves context and implied meanings. Using Grice communication principles, we evaluated both LLMs (GPT-2, GPT-3, GPT-3.5, GPT-4, and Bard) and human subjects (N = 147) on dialogue-based tasks. Human participants included 71 primarily Serbian students and 76 native English speakers from the United States. Findings revealed that LLMs, particularly GPT-4, outperformed humans. GPT4 achieved the highest score of 4.80, surpassing the best human score of 4.55. Other LLMs performed well: GPT 3.5 scored 4.10, Bard 3.75, and GPT-3 3.25. GPT-2 had the lowest score of 1.05. The average LLM score was 3.39, exceeding the human cohorts averages of 2.80 (Serbian students) and 2.34 (U.S. participants). In the ranking of all 155 subjects (including LLMs and humans), GPT-4 secured the top position, while the best human ranked second. These results highlight significant progress in LLMs ability to simulate understanding of linguistic pragmatics. Future studies should confirm these findings with more dialogue-based tasks and diverse participants. This research has important implications for advancing general-purpose AI models in various communication-centered tasks, including potential application in humanoid robots in the future.
- Abstract(参考訳): 汎用マルチモーダルAIシステムとして,Large Language Models (LLMs) が日々の生活に組み入れられるようになるにつれ,人間の理解をシミュレートする能力が検討されている。
本研究では,文脈的意味と暗黙的意味を含む言語プラグマティクスをLLMで解釈する能力について検討した。
Grice 通信の原理を用いて,対話型タスクにおいて LLMs (GPT-2, GPT-3, GPT-3.5, GPT-4, Bard) とヒト (N = 147) の両方を評価した。
人間には、主にセルビア人学生71人と、アメリカから来た76人のネイティブ・イングリッシュ・スピーカーが含まれていた。
LLM、特にGPT-4は人間よりも優れていた。
GPT4の最高スコアは4.80で、人間の最高スコアは4.55を上回った。
GPT3.5は4.10点、Bard 3.75点、GPT-3 3.25点であった。
GPT-2のスコアは1.05。
LLMの平均スコアは3.39で、人間のコホートの平均は2.80人(セルビア人学生)と2.34人(米国学生)を上回った。
全155人の被験者(LSMと人間を含む)のランキングでは、GPT-4が最高位、最高の人間が2位だった。
これらの結果は,言語プラグマティクスの理解をシミュレートするLLMの能力の著しい進歩を浮き彫りにした。
今後の研究は、これらの発見をより多く対話ベースのタスクと多様な参加者で確認する必要がある。
この研究は、将来ヒューマノイドロボットの潜在的な応用を含む、様々なコミュニケーション中心のタスクにおいて汎用AIモデルを前進させる上で重要な意味を持つ。
関連論文リスト
- Using AI to replicate human experimental results: a motion study [0.11838866556981258]
本稿では,言語研究における信頼性の高い解析ツールとして,大規模言語モデル(LLM)の可能性について検討する。
動作動詞の行儀を含む時間表現における感情的意味の出現に焦点を当てる。
論文 参考訳(メタデータ) (2025-07-14T14:47:01Z) - Exploring Multimodal Perception in Large Language Models Through Perceptual Strength Ratings [2.539879170527831]
本研究は, GPT-3.5, GPT-4o, GPT-4o, GPT-4o-miniを比較し, 接地および言語的推論に対するマルチモーダル入力の影響を強調した。
GPT-4 と GPT-4o は、人間による評価と、より小さなモデルに対する顕著な進歩を示す。
GPT-4oはGPT-4よりも優れた接地率を示しなかった。
論文 参考訳(メタデータ) (2025-03-10T06:52:35Z) - Putting GPT-4o to the Sword: A Comprehensive Evaluation of Language, Vision, Speech, and Multimodal Proficiency [3.161954199291541]
本研究は, GPT-4oの言語, 視覚, 音声, マルチモーダル能力を包括的に評価する。
GPT-4oは、言語と推論能力において、複数のドメインにわたる高い精度と効率を示す。
モデルは可変性を示し、複雑であいまいな入力を扱う際の制限に直面している。
論文 参考訳(メタデータ) (2024-06-19T19:00:21Z) - Whose LLM is it Anyway? Linguistic Comparison and LLM Attribution for
GPT-3.5, GPT-4 and Bard [3.419330841031544]
LLM(Large Language Model)は、人間の品質に類似したテキストを生成する能力を持つ。
我々は,最もポピュラーな3つのLLMから生成されるテキストの語彙,部分音声(POS)分布,依存性分布,感情を多様な入力と比較した。
その結果、言語学的に有意な変化を示し、88%の精度で所与のテキストをLLM起源とみなすことができた。
論文 参考訳(メタデータ) (2024-02-22T13:25:17Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - GLoRE: Evaluating Logical Reasoning of Large Language Models [29.914546407784552]
GLoREは3種類のタスクにまたがる12のデータセットからなるベンチマークである。
ChatGPTとGPT-4は論理的推論の強い能力を示し、GPT-4はChatGPTをはるかに上回っている。
本稿では,ChatGPTの精度を高める自己整合性探索法と,オープンLLMの性能を向上させる微調整法を提案する。
論文 参考訳(メタデータ) (2023-10-13T13:52:15Z) - Metacognitive Prompting Improves Understanding in Large Language Models [12.112914393948415]
メタ認知プロンプト(MP)は,人間の内省的推論プロセスにインスパイアされた戦略である。
我々は10の自然言語理解(NLU)データセットにまたがる4つの先行するLarge Language Model(LLM)の実験を行った。
MPは、一般的なNLUタスクとドメイン固有のNLUタスクの両方において、既存のプロンプトメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2023-08-10T05:10:17Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。