論文の概要: How Old is GPT?: The HumBEL Framework for Evaluating Language Models
using Human Demographic Data
- arxiv url: http://arxiv.org/abs/2305.14195v2
- Date: Wed, 24 May 2023 02:55:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 10:45:41.026036
- Title: How Old is GPT?: The HumBEL Framework for Evaluating Language Models
using Human Demographic Data
- Title(参考訳): GPTはいくつあるか?
人間のデモグラフィーデータを用いた言語モデル評価のためのHumBELフレームワーク
- Authors: Anthony Sicilia, Jennifer C. Gates, and Malihe Alikhani
- Abstract要約: 我々は、事前学習言語モデル(LM)を人間のサブ人口と比較し、どのように測定するかを検討する。
私たちのフレームワークは、コード、データ、およびpythonパッケージを介して公開されます。
- 参考スコア(独自算出の注目度): 11.374487003189467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large pre-trained language models (LMs) find greater use across NLP,
existing evaluation protocols do not consider how LM language use aligns with
particular human demographic groups, which can be an important consideration in
conversational AI applications. To remedy this gap, we consider how LM language
skills can be measured and compared to human sub-populations. We suggest
clinical techniques from Speech Language Pathology, which has well-established
norms for acquisition of language skills, organized by (human) age. We conduct
evaluation with a domain expert (i.e., a clinically licensed speech language
pathologist), and also propose automated techniques to substitute clinical
evaluation at scale. We find LM capability varies widely depending on task with
GPT-3.5 mimicking the ability of a typical 6-9 year old at tasks requiring
inference about word meanings and simultaneously outperforming a typical 21
year old at memorization. GPT-3.5 (InstructGPT) also has trouble with social
language use, exhibiting less than 50\% of the tested pragmatic skills. It
shows errors in understanding particular word parts-of-speech and associative
word relations, among other lexical features. Ultimately, findings reiterate
the importance of considering demographic alignment and conversational goals
when using these models as public-facing tools. Our framework will be publicly
available via code, data, and a python package.
- Abstract(参考訳): 大規模な事前学習型言語モデル(LM)は、NLP全体にわたって広く使用されるが、既存の評価プロトコルでは、LM言語の使用が特定の人間の人口統計群とどのように一致しているかは考慮していない。
このギャップを補うために、人間のサブ人口と比較し、LM言語スキルをどのように測定するかを検討する。
本稿では,(人間)年齢によって組織される言語スキル獲得基準が確立された音声言語病理からの臨床技術を提案する。
ドメインの専門家(すなわち臨床ライセンスの言語病理学者)による評価を行い、また、大規模に臨床評価を代用する自動化手法を提案する。
gpt-3.5では,単語の意味を推測する必要のあるタスクにおいて,典型的な6~9歳児の能力を模倣し,記憶時では21歳児を上回っていた。
GPT-3.5(InstructGPT)も社会語の使用に支障を来しており、テストされた実用的スキルの50%以下である。
特定の単語のパート・オブ・音声や連想的な単語関係を理解する際の誤りを示す。
最終的には、これらのモデルをパブリックなツールとして使用する場合、人口統計アライメントと会話目標を検討することの重要性を再考する。
私たちのフレームワークはコード、データ、pythonパッケージを通じて公開されます。
関連論文リスト
- Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Large Language Models Can Infer Psychological Dispositions of Social Media Users [1.0923877073891446]
GPT-3.5とGPT-4は、ゼロショット学習シナリオにおいて、ユーザのFacebookステータス更新からビッグファイブの性格特性を導出できるかどうかを検証する。
その結果, LLM-inferred と self-reported trait score の間には r =.29 (range = [.22,.33]) の相関が認められた。
予測は、いくつかの特徴について、女性と若い個人にとってより正確であることが判明し、基礎となるトレーニングデータやオンライン自己表現の違いから生じる潜在的なバイアスが示唆された。
論文 参考訳(メタデータ) (2023-09-13T01:27:48Z) - Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech
Emotion Recognition [48.29355616574199]
我々は、英語、中国語、カントン語という3つの異なる言語における感情認識の伝達可能性を分析する。
本研究は,異なる言語群と年齢群が特定の音声特徴を必要とすることを結論し,言語間推論を不適切な方法とする。
論文 参考訳(メタデータ) (2023-06-26T08:48:08Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - Assessing Language Disorders using Artificial Intelligence: a Paradigm
Shift [0.13393465195776774]
言語障害、言語障害、コミュニケーション障害は、ほとんどの神経変性症候群にみられる。
我々は,機械学習手法,自然言語処理,現代人工知能(AI)を言語評価に活用することは,従来の手作業による評価よりも優れていると論じている。
論文 参考訳(メタデータ) (2023-05-31T17:20:45Z) - Computational Language Acquisition with Theory of Mind [84.2267302901888]
我々は、心の理論(ToM)を備えた言語学習エージェントを構築し、その学習過程への影響を測定する。
重み付けされたToMリスナーコンポーネントを用いた学習話者は,画像参照ゲームの設定において,性能向上につながることがわかった。
論文 参考訳(メタデータ) (2023-03-02T18:59:46Z) - Can Demographic Factors Improve Text Classification? Revisiting
Demographic Adaptation in the Age of Transformers [34.768337465321395]
従来のNLPモデルでは,階層的要因を組み込むことで,様々なNLPタスクのパフォーマンスが一貫して向上することが示された。
事前学習したトランスフォーマーに外部知識を組み込むのに有効な3つの共通特殊化手法を用いる。
我々は、連続言語モデリングと動的マルチタスク学習を用いて、性別と年齢の人口動態の表現に適応する。
論文 参考訳(メタデータ) (2022-10-13T21:16:27Z) - Predicting Human Psychometric Properties Using Computational Language
Models [5.806723407090421]
トランスフォーマーベース言語モデル(LM)は、自然言語処理(NLP)ベンチマークにおける最先端のパフォーマンスを引き続き達成している。
LMは、これらの項目がヒトの被験者に与えられるとき、テスト項目の心理測定特性を予測するのに利用できるか?
我々は,言語能力の幅広い診断試験において,多数の人やLMからの回答を収集する。
次に,ヒトの反応とLMの反応を別々に利用して,診断試験における項目の標準的な心理測定特性を計算する。
論文 参考訳(メタデータ) (2022-05-12T16:40:12Z) - A Multi-modal Machine Learning Approach and Toolkit to Automate
Recognition of Early Stages of Dementia among British Sign Language Users [5.8720142291102135]
タイムリーな診断は、必要なサポートと適切な薬を得るのに役立つ。
画像とビデオの分析と理解のためのディープラーニングベースのアプローチは有望である。
このアプローチは過度に適合せず、スケールアップの可能性を秘めています。
論文 参考訳(メタデータ) (2020-10-01T16:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。