論文の概要: Leveraging Prompts in LLMs to Overcome Imbalances in Complex Educational Text Data
- arxiv url: http://arxiv.org/abs/2407.01551v1
- Date: Sun, 28 Apr 2024 00:24:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 22:28:39.831855
- Title: Leveraging Prompts in LLMs to Overcome Imbalances in Complex Educational Text Data
- Title(参考訳): 複雑な教育用テキストデータにおける不均衡を克服するLLMの活用
- Authors: Jeanne McClure, Machi Shimmei, Noboru Matsuda, Shiyan Jiang,
- Abstract要約: 本稿では,Large Language Models (LLMs) の可能性を探究する。
この問題は、学生の認知的エンゲージメントレベルがオープンな反応に有意な変化を示す教育分野において特に顕著である。
- 参考スコア(独自算出の注目度): 1.8280573037181356
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we explore the potential of Large Language Models (LLMs) with assertions to mitigate imbalances in educational datasets. Traditional models often fall short in such contexts, particularly due to the complexity and nuanced nature of the data. This issue is especially prominent in the education sector, where cognitive engagement levels among students show significant variation in their open responses. To test our hypothesis, we utilized an existing technology for assertion-based prompt engineering through an 'Iterative - ICL PE Design Process' comparing traditional Machine Learning (ML) models against LLMs augmented with assertions (N=135). Further, we conduct a sensitivity analysis on a subset (n=27), examining the variance in model performance concerning classification metrics and cognitive engagement levels in each iteration. Our findings reveal that LLMs with assertions significantly outperform traditional ML models, particularly in cognitive engagement levels with minority representation, registering up to a 32% increase in F1-score. Additionally, our sensitivity study indicates that incorporating targeted assertions into the LLM tested on the subset enhances its performance by 11.94%. This improvement primarily addresses errors stemming from the model's limitations in understanding context and resolving lexical ambiguities in student responses.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) の可能性を検討する。
伝統的なモデルは、特にデータの複雑さとニュアンスの性質のために、そのような文脈では不足することが多い。
この問題は、学生の認知的エンゲージメントレベルがオープンな反応に有意な変化を示す教育分野において特に顕著である。
従来の機械学習(ML)モデルとアサーションを付加したLLM(N=135。
さらに、サブセット(n=27)の感度分析を行い、各イテレーションにおける分類指標と認知エンゲージメントレベルに関するモデル性能のばらつきについて検討する。
以上の結果から,従来のMLモデル,特にマイノリティ表現を伴う認知的エンゲージメントレベルにおいて,アサーションを持つLLMの方が有意に優れ,F1スコアが最大32%増加したことが判明した。
さらに, 本研究は, ターゲットアサーションをサブセット上で試験したLDMに組み込むことで, 11.94%の性能向上を図っている。
この改善は、主に、文脈を理解し、学生の反応における語彙的曖昧さを解消するモデルの限界から生じるエラーに対処する。
関連論文リスト
- Information Anxiety in Large Language Models [21.574677910096735]
大規模言語モデル(LLM)は知識リポジトリとして高いパフォーマンスを示している。
本研究は, LLMの内部推論と検索機構を包括的に分析することにより, さらなる調査を行う。
我々の研究は、エンティティの人気の影響、クエリの定式化における語彙変化に対するモデルの感度、隠された状態表現の進行という3つの重要な側面に焦点を当てている。
論文 参考訳(メタデータ) (2024-11-16T14:28:33Z) - Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting [40.78026627009521]
強化学習(Reinforcement Learning、RL)は、大規模言語モデル(LLM)知識を逐次意思決定タスクと整合させるための有望なアプローチである。
テキスト環境下でのRL学習後の定式化を促進するために,LLMの感度を解析するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T18:25:35Z) - Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。
GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文 参考訳(メタデータ) (2024-06-16T17:26:44Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - EpiK-Eval: Evaluation for Language Models as Epistemic Models [16.485951373967502]
セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。
これらの欠点は、一般的な訓練目的の本質的な性質に起因していると論じる。
本研究の成果は,より堅牢で信頼性の高いLCMを開発する上での洞察を与えるものである。
論文 参考訳(メタデータ) (2023-10-23T21:15:54Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。