論文の概要: Assessing Personalized AI Mentoring with Large Language Models in the Computing Field
- arxiv url: http://arxiv.org/abs/2412.08430v1
- Date: Wed, 11 Dec 2024 14:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:51.833148
- Title: Assessing Personalized AI Mentoring with Large Language Models in the Computing Field
- Title(参考訳): コンピューティング分野における大規模言語モデルを用いたパーソナライズAIメンタリングの評価
- Authors: Xiao Luo, Sean O'Connell, Shamima Mithun,
- Abstract要約: GPT-4, LLaMA 3およびPalm 2は, 人間の介入を伴わないゼロショット学習手法を用いて評価した。
GPT-4はよりパーソナライズされたメンタリングを提供することを示している。
- 参考スコア(独自算出の注目度): 3.855858854481047
- License:
- Abstract: This paper provides an in-depth evaluation of three state-of-the-art Large Language Models (LLMs) for personalized career mentoring in the computing field, using three distinct student profiles that consider gender, race, and professional levels. We evaluated the performance of GPT-4, LLaMA 3, and Palm 2 using a zero-shot learning approach without human intervention. A quantitative evaluation was conducted through a custom natural language processing analytics pipeline to highlight the uniqueness of the responses and to identify words reflecting each student's profile, including race, gender, or professional level. The analysis of frequently used words in the responses indicates that GPT-4 offers more personalized mentoring compared to the other two LLMs. Additionally, a qualitative evaluation was performed to see if human experts reached similar conclusions. The analysis of survey responses shows that GPT-4 outperformed the other two LLMs in delivering more accurate and useful mentoring while addressing specific challenges with encouragement languages. Our work establishes a foundation for developing personalized mentoring tools based on LLMs, incorporating human mentors in the process to deliver a more impactful and tailored mentoring experience.
- Abstract(参考訳): 本稿では、性別、人種、職業レベルを考慮した3つの異なる学生プロファイルを用いて、コンピュータ分野における個人化されたキャリアメンタリングのために、最先端の3つの大規模言語モデル(LLM)を詳細に評価する。
GPT-4, LLaMA 3およびPalm 2の性能を, 人間の介入を伴わないゼロショット学習手法を用いて評価した。
独自の自然言語処理分析パイプラインを用いて定量的評価を行い、反応の独特さを強調し、各学生のプロフィールを反映する単語(人種、性別、職業レベルなど)を識別した。
これらの結果から, GPT-4は, 他の2つのLPMに比べて, よりパーソナライズされたメンタリングを提供することが示された。
さらに、人間の専門家が同様の結論に達したかどうかを質的な評価を行った。
調査回答の分析では、GPT-4は他の2つのLLMよりも優れており、より正確で有用なメンタリングを提供しながら、励まし言語による特定の課題に対処している。
我々の研究は、LLMに基づいてパーソナライズされたメンタリングツールを開発するための基盤を確立し、人間メンタリングをプロセスに組み込んで、よりインパクトがあり、カスタマイズされたメンタリング体験を提供する。
関連論文リスト
- Beyond Profile: From Surface-Level Facts to Deep Persona Simulation in LLMs [50.0874045899661]
本稿では,キャラクタの言語パターンと特徴的思考過程の両方を再現するモデルであるキャラクタボットを紹介する。
ケーススタディとしてLu Xunを用いて、17冊のエッセイコレクションから得られた4つのトレーニングタスクを提案する。
これには、外部の言語構造と知識を習得することに焦点を当てた事前訓練タスクと、3つの微調整タスクが含まれる。
言語的正確性と意見理解の3つのタスクにおいて、キャラクタボットを評価し、適応されたメトリクスのベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-02-18T16:11:54Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Can GPT-4 do L2 analytic assessment? [34.445391091278786]
第二言語(L2)の習熟度を評価するための自動エッセイスコア(AES)は、何十年にもわたって教育の文脈で使われている、しっかりと確立された技術である。
本稿では,GPT-4をゼロショット方式で,総合的なスコアを付加したデータセット上で,一連の実験を行う。
自動予測された分析スコアと,個々の習熟度成分に関連する複数の特徴との間に有意な相関関係が認められた。
論文 参考訳(メタデータ) (2024-04-29T10:00:00Z) - GPT-4 Surpassing Human Performance in Linguistic Pragmatics [0.0]
本研究では,Large Language Models (LLMs) の言語プラグマティクスの理解と解釈能力について検討した。
Grice のコミュニケーション原理を用いて,LLM とヒトの被験者を対話型タスクに対する応答に基づいて評価した。
以上の結果より, LLM, 特にGPT4は, 実用的解釈において, 人体よりも優れていた。
論文 参考訳(メタデータ) (2023-12-15T05:40:15Z) - From Voices to Validity: Leveraging Large Language Models (LLMs) for
Textual Analysis of Policy Stakeholder Interviews [14.135107583299277]
本研究では,米国内におけるK-12教育政策に関するステークホルダインタビューのテキスト分析を強化するために,大規模言語モデル(LLM)と人間の専門知識の統合について検討する。
混合メソッドのアプローチを用いて、ドメイン知識や教師なしトピックモデリングの結果から情報を得たコードブックとコーディングプロセスを開発した。
結果、GPT-4のテーマは、特定のテーマで77.89%の精度で人間のコーディングと一致しているが、より広いテーマが一致し96.02%に拡大し、従来の自然言語処理(NLP)の手法を25%以上上回った。
論文 参考訳(メタデータ) (2023-12-02T18:55:14Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - A Large Language Model Approach to Educational Survey Feedback Analysis [0.0]
本稿では,大規模言語モデル(LLM) GPT-4 と GPT-3.5 が教育フィードバック調査から洞察を得るのに役立つ可能性について検討する。
論文 参考訳(メタデータ) (2023-09-29T17:57:23Z) - Are Large Language Model-based Evaluators the Solution to Scaling Up
Multilingual Evaluation? [20.476500441734427]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクに優れる。
彼らの評価、特に上位20ドルを超える言語では、既存のベンチマークとメトリクスの制限のため、依然として不十分である。
論文 参考訳(メタデータ) (2023-09-14T06:41:58Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。