論文の概要: Automated Classification of Tutors' Dialogue Acts Using Generative AI: A Case Study Using the CIMA Corpus
- arxiv url: http://arxiv.org/abs/2509.09125v1
- Date: Thu, 11 Sep 2025 03:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.216681
- Title: Automated Classification of Tutors' Dialogue Acts Using Generative AI: A Case Study Using the CIMA Corpus
- Title(参考訳): 生成AIを用いた教師の対話行為の自動分類:CIMAコーパスを用いた事例研究
- Authors: Liqun He, Jiaqi Xu,
- Abstract要約: このケーススタディでは、教師の回答を4つのDAカテゴリに事前にアノテートしたオープンソースのCIMAコーパスを用いている。
その結果, GPT-4は80%の精度, F1スコア0.81, Cohen's Kappa0.74を得た。
- 参考スコア(独自算出の注目度): 10.325932865188514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study explores the use of generative AI for automating the classification of tutors' Dialogue Acts (DAs), aiming to reduce the time and effort required by traditional manual coding. This case study uses the open-source CIMA corpus, in which tutors' responses are pre-annotated into four DA categories. Both GPT-3.5-turbo and GPT-4 models were tested using tailored prompts. Results show that GPT-4 achieved 80% accuracy, a weighted F1-score of 0.81, and a Cohen's Kappa of 0.74, surpassing baseline performance and indicating substantial agreement with human annotations. These findings suggest that generative AI has strong potential to provide an efficient and accessible approach to DA classification, with meaningful implications for educational dialogue analysis. The study also highlights the importance of task-specific label definitions and contextual information in enhancing the quality of automated annotation. Finally, it underscores the ethical considerations associated with the use of generative AI and the need for responsible and transparent research practices. The script of this research is publicly available at https://github.com/liqunhe27/Generative-AI-for-educational-dialogue-act-tagging.
- Abstract(参考訳): 本研究では、教師の対話行為(DA)の分類を自動化するための生成AIの利用について検討し、従来の手作業によるコーディングに必要な時間と労力を削減することを目的とした。
このケーススタディでは、教師の回答を4つのDAカテゴリに事前にアノテートしたオープンソースのCIMAコーパスを用いている。
GPT-3.5-turboとGPT-4はどちらもプロンプトを調整して試験された。
その結果, GPT-4は80%の精度, 重み付きF1スコア0.81, コーエンカッパ0.74, ベースライン性能を超え, 人間のアノテーションとの相当な一致を示した。
これらの結果から, 生成型AIは, DA分類に対する効率的かつアクセシブルなアプローチを提供する可能性が高く, 教育対話分析に有意義な意味があることが示唆された。
また、自動アノテーションの品質を高める上で、タスク固有のラベル定義と文脈情報の重要性を強調した。
最後に、生成的AIの使用に関する倫理的考察と、責任と透明性のある研究プラクティスの必要性を強調します。
この研究のスクリプトはhttps://github.com/liqunhe27/Generative-AI-for-educational-dialogue-act-taggingで公開されている。
関連論文リスト
- Assessing instructor-AI cooperation for grading essay-type questions in an introductory sociology course [0.0]
生成前学習型トランスフォーマー(GPT)モデルの性能評価を行った。
グレードリングでは,GPTがヒトのグレードラースコアと強い相関を示し,特にテンプレート回答が提供された。
この研究は、教育におけるAIに関する文献の増大に寄与し、エッセイ型質問の質と効率を高める可能性を示す。
論文 参考訳(メタデータ) (2025-01-11T07:18:12Z) - Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance [0.8089605035945486]
本稿では,調査論文レビューの課題を分類問題として概念化するシステムであるRelevAI-Reviewerを提案する。
25,164のインスタンスからなる新しいデータセットを導入する。各インスタンスには1つのプロンプトと4つの候補論文があり、それぞれがプロンプトに関連している。
我々は,各論文の関連性を判断し,最も関連性の高い論文を識別できる機械学習(ML)モデルを開発した。
論文 参考訳(メタデータ) (2024-06-13T06:42:32Z) - Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities [48.922660354417204]
人間の関与なしにアシスタントのAPIコール能力を評価するために,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。
この枠組みでは,人間と機械の相互作用において,真の人間の会話パターンを忠実に反映するように努力する。
論文 参考訳(メタデータ) (2024-03-17T07:34:12Z) - Whodunit: Classifying Code as Human Authored or GPT-4 Generated -- A
case study on CodeChef problems [0.13124513975412253]
コードスタイメトリーと機械学習を用いて、GPT-4の生成したコードと人間によるコードとを区別する。
我々のデータセットは、CodeChefの人間認可ソリューションと、GPT-4で生成されたAI認可ソリューションから構成される。
本研究は, GPT-4生成コードと人為的なコードとを区別する上で, コードスタイメトリーは有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2024-03-06T19:51:26Z) - Large-Scale Text Analysis Using Generative Language Models: A Case Study
in Discovering Public Value Expressions in AI Patents [2.246222223318928]
本稿では,生成言語モデル(GPT-4)を用いて,大規模テキスト解析のためのラベルと論理式を生成する手法を提案する。
InnovationQ+に送信された高度なBooleanクエリを用いて、154,934件の特許文書からなるデータベースを収集する。
我々は、これらのAI特許文中の公開価値表現を識別し、ラベル付けするためのフレームワークを設計する。
論文 参考訳(メタデータ) (2023-05-17T17:18:26Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。