論文の概要: GPT-4 Surpassing Human Performance in Linguistic Pragmatics
- arxiv url: http://arxiv.org/abs/2312.09545v1
- Date: Fri, 15 Dec 2023 05:40:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 17:01:46.571278
- Title: GPT-4 Surpassing Human Performance in Linguistic Pragmatics
- Title(参考訳): GPT-4 言語プラグマティクスにおける人的パフォーマンスの回避
- Authors: Ljubisa Bojic, Predrag Kovacevic and Milan Cabarkapa
- Abstract要約: 本研究では,Large Language Models (LLMs) の言語プラグマティクスの理解と解釈能力について検討した。
Grice のコミュニケーション原理を用いて,LLM とヒトの被験者を対話型タスクに対する応答に基づいて評価した。
以上の結果より, LLM, 特にGPT4は, 実用的解釈において, 人体よりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As Large Language Models (LLMs) become increasingly integrated into everyday
life, their capabilities to understand and emulate human cognition are under
steady examination. This study investigates the ability of LLMs to comprehend
and interpret linguistic pragmatics, an aspect of communication that considers
context and implied meanings. Using Grice's communication principles, LLMs and
human subjects (N=76) were evaluated based on their responses to various
dialogue-based tasks. The findings revealed the superior performance and speed
of LLMs, particularly GPT4, over human subjects in interpreting pragmatics.
GPT4 also demonstrated accuracy in the pre-testing of human-written samples,
indicating its potential in text analysis. In a comparative analysis of LLMs
using human individual and average scores, the models exhibited significant
chronological improvement. The models were ranked from lowest to highest score,
with GPT2 positioned at 78th place, GPT3 ranking at 23rd, Bard at 10th, GPT3.5
placing 5th, Best Human scoring 2nd, and GPT4 achieving the top spot. The
findings highlight the remarkable progress made in the development and
performance of these LLMs. Future studies should consider diverse subjects,
multiple languages, and other cognitive aspects to fully comprehend the
capabilities of LLMs. This research holds significant implications for the
development and application of AI-based models in communication-centered
sectors.
- Abstract(参考訳): 大規模言語モデル(LLM)が日常生活にますます統合されるにつれて、人間の認知を理解し、エミュレートする能力は着実に検証されている。
本研究は,文脈と意味を考慮したコミュニケーションの側面である言語プラグマティクスを理解・解釈するLLMの能力について考察する。
Grice のコミュニケーション原理を用いて,様々な対話型タスクに対する回答に基づいて LLM と人体 (N=76) を評価した。
以上の結果から,llm,特にgpt4は実用的解釈においてヒトよりも優れた性能と速度を示した。
GPT4はまた、人間の手書きサンプルの事前検査において精度を示し、テキスト解析におけるその可能性を示した。
ヒトの個人と平均スコアを用いたLCMの比較分析では,時間的改善が顕著であった。
GPT2は78位、GPT3は23位、Bardは10位、GPT3.5は5位、Best Humanは2位、GPT4は4位だった。
この結果は, これらのLCMの開発と性能の著しい進歩を浮き彫りにした。
今後の研究は、LLMの能力を完全に理解するために、多様な主題、複数の言語、その他の認知的側面を検討するべきである。
この研究は、コミュニケーション中心セクターにおけるAIベースのモデルの開発と応用に大きな影響を与える。
関連論文リスト
- Putting GPT-4o to the Sword: A Comprehensive Evaluation of Language, Vision, Speech, and Multimodal Proficiency [3.161954199291541]
本研究は, GPT-4oの言語, 視覚, 音声, マルチモーダル能力を包括的に評価する。
GPT-4oは、言語と推論能力において、複数のドメインにわたる高い精度と効率を示す。
モデルは可変性を示し、複雑であいまいな入力を扱う際の制限に直面している。
論文 参考訳(メタデータ) (2024-06-19T19:00:21Z) - Whose LLM is it Anyway? Linguistic Comparison and LLM Attribution for
GPT-3.5, GPT-4 and Bard [3.419330841031544]
LLM(Large Language Model)は、人間の品質に類似したテキストを生成する能力を持つ。
我々は,最もポピュラーな3つのLLMから生成されるテキストの語彙,部分音声(POS)分布,依存性分布,感情を多様な入力と比較した。
その結果、言語学的に有意な変化を示し、88%の精度で所与のテキストをLLM起源とみなすことができた。
論文 参考訳(メタデータ) (2024-02-22T13:25:17Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - GLoRE: Evaluating Logical Reasoning of Large Language Models [29.914546407784552]
GLoREは3種類のタスクにまたがる12のデータセットからなるベンチマークである。
ChatGPTとGPT-4は論理的推論の強い能力を示し、GPT-4はChatGPTをはるかに上回っている。
本稿では,ChatGPTの精度を高める自己整合性探索法と,オープンLLMの性能を向上させる微調整法を提案する。
論文 参考訳(メタデータ) (2023-10-13T13:52:15Z) - Metacognitive Prompting Improves Understanding in Large Language Models [12.112914393948415]
メタ認知プロンプト(MP)は,人間の内省的推論プロセスにインスパイアされた戦略である。
我々は10の自然言語理解(NLU)データセットにまたがる4つの先行するLarge Language Model(LLM)の実験を行った。
MPは、一般的なNLUタスクとドメイン固有のNLUタスクの両方において、既存のプロンプトメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2023-08-10T05:10:17Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。