論文の概要: The BEA 2023 Shared Task on Generating AI Teacher Responses in
Educational Dialogues
- arxiv url: http://arxiv.org/abs/2306.06941v1
- Date: Mon, 12 Jun 2023 08:21:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 15:28:26.380003
- Title: The BEA 2023 Shared Task on Generating AI Teacher Responses in
Educational Dialogues
- Title(参考訳): BEA 2023 教育対話におけるAI教師の反応生成タスクの共有化
- Authors: Ana\"is Tack, Ekaterina Kochmar, Zheng Yuan, Serge Bibauw, Chris Piech
- Abstract要約: 本稿では,教育対話における教師の反応生成に関する最初の共有タスクの結果について述べる。
このタスクの目的は、生成言語モデルがAI教師として機能する能力をベンチマークすることであった。
NAISTeacherは自動評価と人的評価の両方で第1位にランクインした。
- 参考スコア(独自算出の注目度): 8.42777123765885
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper describes the results of the first shared task on the generation
of teacher responses in educational dialogues. The goal of the task was to
benchmark the ability of generative language models to act as AI teachers,
replying to a student in a teacher-student dialogue. Eight teams participated
in the competition hosted on CodaLab. They experimented with a wide variety of
state-of-the-art models, including Alpaca, Bloom, DialoGPT, DistilGPT-2,
Flan-T5, GPT-2, GPT-3, GPT- 4, LLaMA, OPT-2.7B, and T5-base. Their submissions
were automatically scored using BERTScore and DialogRPT metrics, and the top
three among them were further manually evaluated in terms of pedagogical
ability based on Tack and Piech (2022). The NAISTeacher system, which ranked
first in both automated and human evaluation, generated responses with GPT-3.5
using an ensemble of prompts and a DialogRPT-based ranking of responses for
given dialogue contexts. Despite the promising achievements of the
participating teams, the results also highlight the need for evaluation metrics
better suited to educational contexts.
- Abstract(参考訳): 本稿では,教育対話における教師応答生成に関する最初の共有課題について述べる。
このタスクの目的は、生成言語モデルがAI教師として機能する能力をベンチマークし、教師と学生の対話で学生に返信することであった。
8チームがコダラボで開催された大会に参加した。
彼らは、Alpaca, Bloom, DialoGPT, DistilGPT-2, Flan-T5, GPT-2, GPT-3, GPT-4, LLaMA, OPT-2.7B, T5-baseなど、さまざまな最先端モデルを試した。
提案項目はBERTScoreとDialogRPTを使って自動的に評価され、上位3項目はTackとPiech(2022年)に基づく教育能力の観点からさらに手作業で評価された。
自動評価と人的評価の両方で第1位にランクインしたNAISTeacher systemは,GPT-3.5による応答を,プロンプトのアンサンブルと対話コンテキストに対するダイアログRPTに基づく応答ランキングを用いて生成した。
参加者の有望な成果にもかかわらず、結果は教育的コンテキストに適した評価メトリクスの必要性も強調している。
関連論文リスト
- Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems [57.16442740983528]
クラウドソースラベルは、タスク指向の対話システムを評価する上で重要な役割を果たす。
従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。
本研究では,対話文脈がアノテーション品質に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-04-15T17:56:39Z) - Japanese-English Sentence Translation Exercises Dataset for Automatic
Grading [16.564184260893946]
本稿では,文翻訳演習(STE)の自動評価タスクを提案する。
日本語と英語のSTEデータセットを作成し、21の質問と合計3,498人の学生回答(平均167件)を収録する。
このデータセットを用いて,テキスト内学習の少ない細調整BERTモデルやGPTモデルを含むベースラインの性能を実演する。
論文 参考訳(メタデータ) (2024-03-06T01:37:03Z) - LEEETs-Dial: Linguistic Entrainment in End-to-End Task-oriented Dialogue systems [0.0]
GPT-2に基づくエンドツーエンドのタスク指向対話システムにおいて,対話学習を実現する手法を提案する。
我々は、トレーニングインスタンスの重み付け、トレーニング固有の損失、およびユーザーと一致した応答を生成するための追加条件付けを実験した。
論文 参考訳(メタデータ) (2023-11-15T21:35:25Z) - Assessing the efficacy of large language models in generating accurate
teacher responses [0.5774786149181391]
本研究は,学生に情報的かつ有用な洞察を提供するために,大規模言語モデルの生成能力を評価することを目的とする。
GPT-4 (few-shot, in-context learning), fine-tuned GPT-2, fine-tuned DialoGPT。
教師・学生チャットルームにおける実験結果から, BERTScore と DialogRPT を用いて測定した他の微調整モデルに対する GPT-4 の有効性が示唆された。
論文 参考訳(メタデータ) (2023-07-09T22:32:46Z) - The ADAIO System at the BEA-2023 Shared Task on Generating AI Teacher
Responses in Educational Dialogues [0.0]
本稿では,Audio チームによる BEA (Building Educational Applications) 2023 におけるシステム導入について述べる。
この課題は,教師と教師の対話の中で,適切な応答を生み出すためのAI教師として,最先端の生成モデルの性能を評価することである。
論文 参考訳(メタデータ) (2023-06-08T17:05:38Z) - GersteinLab at MEDIQA-Chat 2023: Clinical Note Summarization from
Doctor-Patient Conversations through Fine-tuning and In-context Learning [4.2570830892708225]
本稿では,サブタスクAとサブタスクBの両方を含む,MEDIQA-2023 Dialogue2Note共有タスクへのコントリビューションについて述べる。
本稿では,対話要約問題としてタスクにアプローチし,a)事前学習した対話要約モデルとGPT-3の微調整,およびb)大規模言語モデルであるGPT-4を用いた少数ショットインコンテキスト学習(ICL)の2つのパイプラインを実装した。
どちらの方法もROUGE-1 F1、BERTScore F1(deberta-xlarge-mnli)、BLEURTで優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-08T19:16:26Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Structural Pre-training for Dialogue Comprehension [51.215629336320305]
本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。
対話のような特徴をシミュレートするために,元のLM目的に加えて,2つの訓練目標を提案する。
広く使われている対話ベンチマークの実験結果から,新たに導入した自己教師型タスクの有効性が検証された。
論文 参考訳(メタデータ) (2021-05-23T15:16:54Z) - Detecting and Classifying Malevolent Dialogue Responses: Taxonomy, Data
and Methodology [68.8836704199096]
コーパスベースの会話インタフェースは、テンプレートベースのエージェントや検索ベースのエージェントよりも多様な自然なレスポンスを生成することができる。
コーパスベースの会話エージェントの生成能力が増大すると、マレヴォレントな反応を分類し、フィルタリングする必要性が生じる。
不適切な内容の認識と分類に関するこれまでの研究は、主にある種のマレヴォレンスに焦点を絞っている。
論文 参考訳(メタデータ) (2020-08-21T22:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。