論文の概要: HumBEL: A Human-in-the-Loop Approach for Evaluating Demographic Factors
of Language Models in Human-Machine Conversations
- arxiv url: http://arxiv.org/abs/2305.14195v3
- Date: Mon, 5 Feb 2024 17:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 06:29:33.607606
- Title: HumBEL: A Human-in-the-Loop Approach for Evaluating Demographic Factors
of Language Models in Human-Machine Conversations
- Title(参考訳): HumBEL:人間と機械の会話における言語モデルの復号化要因の評価手法
- Authors: Anthony Sicilia, Jennifer C. Gates, and Malihe Alikhani
- Abstract要約: LM言語スキルの人口統計学的要因を計測して,対象とする人口動態との整合性を決定する方法について検討する。
ヒトにおける言語スキル獲得の基準を持つ音声言語病理の臨床的手法を提案する。
本稿では,専門医(臨床認可言語病理医)と共同で評価を行い,臨床評価を大規模に補完する自動手法を提案する。
- 参考スコア(独自算出の注目度): 26.59671463642373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While demographic factors like age and gender change the way people talk, and
in particular, the way people talk to machines, there is little investigation
into how large pre-trained language models (LMs) can adapt to these changes. To
remedy this gap, we consider how demographic factors in LM language skills can
be measured to determine compatibility with a target demographic. We suggest
clinical techniques from Speech Language Pathology, which has norms for
acquisition of language skills in humans. We conduct evaluation with a domain
expert (i.e., a clinically licensed speech language pathologist), and also
propose automated techniques to complement clinical evaluation at scale.
Empirically, we focus on age, finding LM capability varies widely depending on
task: GPT-3.5 mimics the ability of humans ranging from age 6-15 at tasks
requiring inference, and simultaneously, outperforms a typical 21 year old at
memorization. GPT-3.5 also has trouble with social language use, exhibiting
less than 50% of the tested pragmatic skills. Findings affirm the importance of
considering demographic alignment and conversational goals when using LMs as
public-facing tools. Code, data, and a package will be available.
- Abstract(参考訳): 年齢や性別などの人口統計要因は、人々の話し方、特に機械との話し方を変えるが、これらの変化にどの程度大きな事前訓練された言語モデル(LM)が適応できるかは、ほとんど調査されていない。
このギャップを是正するために,lm言語スキルの人口統計学的要因を計測し,対象集団との適合度を判断する方法を検討する。
ヒトにおける言語スキル獲得の基準を持つ音声言語病理の臨床的手法を提案する。
本稿では,専門医(臨床認可言語病理医)と共同で評価を行い,臨床評価を大規模に補完する自動手法を提案する。
GPT-3.5は、推論を必要とするタスクにおいて、6~15歳までの人間の能力を模倣し、同時に、記憶化時に典型的な21歳以上の能力より優れています。
GPT-3.5は社会語の使用にも問題があり、テストされた実用的スキルの50%以下である。
LMを公的なツールとして使用する場合、人口統計アライメントと会話目標を検討することが重要であることを確認する。
コード、データ、パッケージが利用可能になる。
関連論文リスト
- Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Large Language Models Can Infer Psychological Dispositions of Social Media Users [1.0923877073891446]
GPT-3.5とGPT-4は、ゼロショット学習シナリオにおいて、ユーザのFacebookステータス更新からビッグファイブの性格特性を導出できるかどうかを検証する。
その結果, LLM-inferred と self-reported trait score の間には r =.29 (range = [.22,.33]) の相関が認められた。
予測は、いくつかの特徴について、女性と若い個人にとってより正確であることが判明し、基礎となるトレーニングデータやオンライン自己表現の違いから生じる潜在的なバイアスが示唆された。
論文 参考訳(メタデータ) (2023-09-13T01:27:48Z) - Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech
Emotion Recognition [48.29355616574199]
我々は、英語、中国語、カントン語という3つの異なる言語における感情認識の伝達可能性を分析する。
本研究は,異なる言語群と年齢群が特定の音声特徴を必要とすることを結論し,言語間推論を不適切な方法とする。
論文 参考訳(メタデータ) (2023-06-26T08:48:08Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - Assessing Language Disorders using Artificial Intelligence: a Paradigm
Shift [0.13393465195776774]
言語障害、言語障害、コミュニケーション障害は、ほとんどの神経変性症候群にみられる。
我々は,機械学習手法,自然言語処理,現代人工知能(AI)を言語評価に活用することは,従来の手作業による評価よりも優れていると論じている。
論文 参考訳(メタデータ) (2023-05-31T17:20:45Z) - Computational Language Acquisition with Theory of Mind [84.2267302901888]
我々は、心の理論(ToM)を備えた言語学習エージェントを構築し、その学習過程への影響を測定する。
重み付けされたToMリスナーコンポーネントを用いた学習話者は,画像参照ゲームの設定において,性能向上につながることがわかった。
論文 参考訳(メタデータ) (2023-03-02T18:59:46Z) - Can Demographic Factors Improve Text Classification? Revisiting
Demographic Adaptation in the Age of Transformers [34.768337465321395]
従来のNLPモデルでは,階層的要因を組み込むことで,様々なNLPタスクのパフォーマンスが一貫して向上することが示された。
事前学習したトランスフォーマーに外部知識を組み込むのに有効な3つの共通特殊化手法を用いる。
我々は、連続言語モデリングと動的マルチタスク学習を用いて、性別と年齢の人口動態の表現に適応する。
論文 参考訳(メタデータ) (2022-10-13T21:16:27Z) - Predicting Human Psychometric Properties Using Computational Language
Models [5.806723407090421]
トランスフォーマーベース言語モデル(LM)は、自然言語処理(NLP)ベンチマークにおける最先端のパフォーマンスを引き続き達成している。
LMは、これらの項目がヒトの被験者に与えられるとき、テスト項目の心理測定特性を予測するのに利用できるか?
我々は,言語能力の幅広い診断試験において,多数の人やLMからの回答を収集する。
次に,ヒトの反応とLMの反応を別々に利用して,診断試験における項目の標準的な心理測定特性を計算する。
論文 参考訳(メタデータ) (2022-05-12T16:40:12Z) - A Multi-modal Machine Learning Approach and Toolkit to Automate
Recognition of Early Stages of Dementia among British Sign Language Users [5.8720142291102135]
タイムリーな診断は、必要なサポートと適切な薬を得るのに役立つ。
画像とビデオの分析と理解のためのディープラーニングベースのアプローチは有望である。
このアプローチは過度に適合せず、スケールアップの可能性を秘めています。
論文 参考訳(メタデータ) (2020-10-01T16:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。