論文の概要: Leveraging LLM-Respondents for Item Evaluation: a Psychometric Analysis
- arxiv url: http://arxiv.org/abs/2407.10899v1
- Date: Mon, 15 Jul 2024 16:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 14:10:37.709035
- Title: Leveraging LLM-Respondents for Item Evaluation: a Psychometric Analysis
- Title(参考訳): LLM-Respondents for Item Evaluation: a Psychometric Analysis
- Authors: Yunting Liu, Shreya Bhandari, Zachary A. Pardos,
- Abstract要約: 我々は6種類のLDM(GPT-3.5, GPT-4, Llama 2, Llama 3, Gemini-Pro, Cohere Command R Plus)を用いて、人間の答えに類似した心理測定特性を持つ応答を生成する。
その結果,一部のLLMは大学生に比べて,カレッジ・アルジェブラの習熟度が高いことが示唆された。
- 参考スコア(独自算出の注目度): 4.59804401179409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective educational measurement relies heavily on the curation of well-designed item pools (i.e., possessing the right psychometric properties). However, item calibration is time-consuming and costly, requiring a sufficient number of respondents for the response process. We explore using six different LLMs (GPT-3.5, GPT-4, Llama 2, Llama 3, Gemini-Pro, and Cohere Command R Plus) and various combinations of them using sampling methods to produce responses with psychometric properties similar to human answers. Results show that some LLMs have comparable or higher proficiency in College Algebra than college students. No single LLM mimics human respondents due to narrow proficiency distributions, but an ensemble of LLMs can better resemble college students' ability distribution. The item parameters calibrated by LLM-Respondents have high correlations (e.g. > 0.8 for GPT-3.5) compared to their human calibrated counterparts, and closely resemble the parameters of the human subset (e.g. 0.02 Spearman correlation difference). Several augmentation strategies are evaluated for their relative performance, with resampling methods proving most effective, enhancing the Spearman correlation from 0.89 (human only) to 0.93 (augmented human).
- Abstract(参考訳): 効果的な教育測定は、適切に設計されたアイテムプールのキュレーションに大きく依存している(つまり、適切な心理測定特性を持つ)。
しかし、アイテムのキャリブレーションには時間と費用がかかり、レスポンスプロセスに十分な数の回答者が必要である。
我々は6種類のLDM(GPT-3.5, GPT-4, Llama 2, Llama 3, Gemini-Pro, Cohere Command R Plus)とそれらの組み合わせをサンプリング法を用いて探索し、人間の答えに類似した心理学的特性を持つ応答を生成する。
その結果,一部のLLMは大学生に比べて,カレッジ・アルジェブラの習熟度が高いことが示唆された。
熟練度分布が狭いため,一人のLLMが人間の答えを模倣することはないが,LLMのアンサンブルは大学生の能力分布によく似ている。
LLM-Respondents で校正された項目のパラメータは、人間の校正された項目と比較して高い相関(eg > 0.8 for GPT-3.5)を持ち、人間のサブセットのパラメータ(eg 0.02 スピアマン相関差)とよく似ている。
いくつかの強化戦略が相対的な性能で評価され、再サンプリング法が最も効果的であることが証明され、スピアマンの相関は0.89(人間のみ)から0.93(人間のみ)に向上した。
関連論文リスト
- LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Cognitive phantoms in LLMs through the lens of latent variables [0.3441021278275805]
大規模言語モデル(LLM)はますます現実のアプリケーションに到達し、それらの振る舞いをよりよく理解する必要がある。
近年のLCMに対する心理測定調査では、LLMの人間らしい特徴が報告されており、潜在的に影響する可能性がある。
このアプローチは有効性の問題に悩まされており、これらの特性がLLMに存在し、人間用に設計されたツールで測定可能であることを前提としている。
本研究では,人間と3人のLDMの潜在的性格構造を2つの評価されたパーソナリティアンケートを用いて比較することにより,この問題を考察する。
論文 参考訳(メタデータ) (2024-09-06T12:42:35Z) - Psychometric Alignment: Capturing Human Knowledge Distributions via Language Models [41.324679754114165]
言語モデル(LM)は、人口の振る舞いを正確に模倣することで意思決定を導くシナリオにおいて、人間のような反応をシミュレートするためにますます使われる。
本研究では,人間の知識分布の程度を計測する指標である「心理学的アライメント」を導入する。
人格に基づくプロンプトを用いることでアライメントが向上するが, LMとヒトの集団の間には重大な不一致が生じる。
論文 参考訳(メタデータ) (2024-07-22T14:02:59Z) - Unveiling Scoring Processes: Dissecting the Differences between LLMs and Human Graders in Automatic Scoring [21.7782670140939]
大規模言語モデル(LLM)は、構築された応答評価のための自動スコアリングを行う上で、強力な可能性を示している。
人間によってランク付けされた構築された応答は、通常、与えられた格付けされたルーリックに基づいているが、LSMがスコアを割り当てる方法はほとんど不明である。
本稿では,理科の課題に対する学生の書面回答と人間のスコアとの整合性を評価するために,LLMが用いたグレーディングルーブリックを明らかにする。
論文 参考訳(メタデータ) (2024-07-04T22:26:20Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Are Large Language Models Good Statisticians? [10.42853117200315]
StatQAは統計解析タスク用に設計された新しいベンチマークである。
GPT-4oのような最先端モデルでさえ、64.83%の最高の性能を実現していることを示す。
オープンソースのLLMは限られた能力を示すが、細調整されたものは顕著に改善されている。
論文 参考訳(メタデータ) (2024-06-12T02:23:51Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本稿では,様々な大きさの報酬モデルに対する実験スケーリング法則の定量的解析を行った。
分析の結果,ヒトの嗜好の多様化による影響は,モデルサイズとデータサイズの両方に依存することが明らかとなった。
十分なキャパシティを持つ大きなモデルでは、さまざまな好みによるネガティブな影響が軽減される一方、より小さなモデルはそれらに対応するのに苦労する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。
我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文 参考訳(メタデータ) (2023-06-30T09:07:37Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。