論文の概要: Leveraging Small LLMs for Argument Mining in Education: Argument Component Identification, Classification, and Assessment
- arxiv url: http://arxiv.org/abs/2502.14389v1
- Date: Thu, 20 Feb 2025 09:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:27:02.010842
- Title: Leveraging Small LLMs for Argument Mining in Education: Argument Component Identification, Classification, and Assessment
- Title(参考訳): 論証マイニングにおける小規模LLMの活用--論証成分の同定・分類・評価
- Authors: Lucile Favero, Juan Antonio Pérez-Ortiz, Tanja Käser, Nuria Oliver,
- Abstract要約: 本稿では,オープンソースの小型大言語モデル(LLM)を,数発のプロンプトと微調整による議論マイニングに活用することを提案する。
我々は,学生エッセイを議論に分割し,タイプ別に議論を分類し,その質を評価する3つの課題を遂行する。
我々は,小学校6-12年の学生エッセイのフィードバック賞 - 効果的なアグメンツデータセットのモデルを実証的に評価した。
- 参考スコア(独自算出の注目度): 7.673465837624366
- License:
- Abstract: Argument mining algorithms analyze the argumentative structure of essays, making them a valuable tool for enhancing education by providing targeted feedback on the students' argumentation skills. While current methods often use encoder or encoder-decoder deep learning architectures, decoder-only models remain largely unexplored, offering a promising research direction. This paper proposes leveraging open-source, small Large Language Models (LLMs) for argument mining through few-shot prompting and fine-tuning. These models' small size and open-source nature ensure accessibility, privacy, and computational efficiency, enabling schools and educators to adopt and deploy them locally. Specifically, we perform three tasks: segmentation of student essays into arguments, classification of the arguments by type, and assessment of their quality. We empirically evaluate the models on the Feedback Prize - Predicting Effective Arguments dataset of grade 6-12 students essays and demonstrate how fine-tuned small LLMs outperform baseline methods in segmenting the essays and determining the argument types while few-shot prompting yields comparable performance to that of the baselines in assessing quality. This work highlights the educational potential of small, open-source LLMs to provide real-time, personalized feedback, enhancing independent learning and writing skills while ensuring low computational cost and privacy.
- Abstract(参考訳): 論証マイニングアルゴリズムは、エッセイの議論構造を分析し、学生の議論スキルに対する目標フィードバックを提供することで、教育を強化するための貴重なツールとなる。
現在の手法ではエンコーダやエンコーダ・デコーダのディープラーニングアーキテクチャがよく使われているが、デコーダのみのモデルはほとんど探索されていない。
本稿では,オープンソースの小型大言語モデル(LLM)を,数発のプロンプトと微調整による議論マイニングに活用することを提案する。
これらのモデルの小さなサイズとオープンソースの性質により、アクセシビリティ、プライバシ、計算効率が保証され、学校や教育者がそれらをローカルに採用してデプロイすることができる。
具体的には、学生エッセイを議論に分割し、タイプ別に議論を分類し、その質を評価する3つのタスクを実行する。
我々は,6-12年の学生エッセイのフィードバック賞 - 効果的なアグメンツデータセットのモデルを実証的に評価し,エッセイのセグメンテーションや議論のタイプ決定において,微調整された小さなLDMが,品質評価におけるベースラインと同等のパフォーマンスをもたらすことを実証した。
この研究は、小規模でオープンソースのLLMの教育的可能性を強調し、リアルタイムでパーソナライズされたフィードバックを提供し、独立した学習と執筆スキルを向上し、計算コストとプライバシの低いことを保証する。
関連論文リスト
- A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - Persuasiveness of Generated Free-Text Rationales in Subjective Decisions: A Case Study on Pairwise Argument Ranking [4.1017420444369215]
主観的回答を伴うタスクにおいて生成した自由文論理を解析する。
我々は、現実世界のアプリケーションにとって大きな可能性を持つ、非常に主観的なタスクであるペアワイズ引数ランキングに焦点を当てる。
以上の結果から,Llama2-70B-chat のオープンソース LLM は高い説得力のある合理化を実現できることが示唆された。
論文 参考訳(メタデータ) (2024-06-20T00:28:33Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。
この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z) - Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。
BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文 参考訳(メタデータ) (2023-11-07T06:36:39Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Automated Evaluation for Student Argumentative Writing: A Survey [2.9466390764652415]
本稿では,学生論文の自動評価という,未研究領域における研究成果の調査と整理を行う。
全体論的なエッセイ評価に焦点を当てた従来の自動筆記評価とは異なり、この分野はより具体的であり、議論的なエッセイを評価し、特定のフィードバックを提供する。
論文 参考訳(メタデータ) (2022-05-09T07:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。