論文の概要: Overview of the Sensemaking Task at the ELOQUENT 2025 Lab: LLMs as Teachers, Students and Evaluators
- arxiv url: http://arxiv.org/abs/2507.12143v1
- Date: Wed, 16 Jul 2025 11:19:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.371222
- Title: Overview of the Sensemaking Task at the ELOQUENT 2025 Lab: LLMs as Teachers, Students and Evaluators
- Title(参考訳): ELOQUENT 2025 Labにおけるセンスメイキング課題の概要:教師・学生・評価者としてのLLM
- Authors: Pavel Šindelář, Ondřej Bojar,
- Abstract要約: ELOQUENTは、生成言語モデルを評価するための、容易にテスト可能な高レベルな基準を作成することを目的とした、共有タスクのセットである。
2025年版のセンスメイキングについて報告し、英語、ドイツ語、ウクライナ語、チェコ語にまたがる7つの試験資料を入手した。
完全自動評価手法を考案し,最小限の手作業による評価と比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ELOQUENT is a set of shared tasks that aims to create easily testable high-level criteria for evaluating generative language models. Sensemaking is one such shared task. In Sensemaking, we try to assess how well generative models ``make sense out of a given text'' in three steps inspired by exams in a classroom setting: (1) Teacher systems should prepare a set of questions, (2) Student systems should answer these questions, and (3) Evaluator systems should score these answers, all adhering rather strictly to a given set of input materials. We report on the 2025 edition of Sensemaking, where we had 7 sources of test materials (fact-checking analyses of statements, textbooks, transcribed recordings of a lecture, and educational videos) spanning English, German, Ukrainian, and Czech languages. This year, 4 teams participated, providing us with 2 Teacher submissions, 2 Student submissions, and 2 Evaluator submissions. We added baselines for Teacher and Student using commercial large language model systems. We devised a fully automatic evaluation procedure, which we compare to a minimalistic manual evaluation. We were able to make some interesting observations. For the first task, the creation of questions, better evaluation strategies will still have to be devised because it is difficult to discern the quality of the various candidate question sets. In the second task, question answering, the LLMs examined overall perform acceptably, but restricting their answers to the given input texts remains problematic. In the third task, evaluation of question answers, our adversarial tests reveal that systems using the LLM-as-a-Judge paradigm erroneously rate both garbled question-answer pairs and answers to mixed-up questions as acceptable.
- Abstract(参考訳): ELOQUENTは、生成言語モデルを評価するための、容易にテスト可能な高レベルな基準を作成することを目的とした、共有タスクのセットである。
センスメイキングはそのような共有タスクのひとつです。
センスメイキングでは,(1)教師システムは質問セットを作成し,(2)学生システムはこれらの質問に回答し,(3)評価者はこれらの回答をスコアリングし,それらがより厳密な入力素材の集合に固執する。
そこでは,英語,ドイツ語,ウクライナ語,チェコ語にまたがる7つの試験資料(文章,教科書,講義の書き起こし記録,教育ビデオ)について報告する。
今年は4チームが参加し、2人の教師が応募し、2人の学生が応募し、2人の評価官が応募した。
商業的な大規模言語モデルシステムを用いた教師と学生のベースラインを追加しました。
完全自動評価手法を考案し,最小限の手作業による評価と比較した。
私たちは興味深い観察をすることができた。
第1の課題として, 質問の作成, 評価戦略の改善が, 様々な質問セットの品質を識別することが困難であるため, いまだに考案されなければならない。
第2の課題である質問応答では、LLMは全体の性能を許容的に検証するが、与えられた入力テキストに対する回答を制限することは依然として問題である。
第3の課題は, 質問応答の評価において, LLM-as-a-Judgeパラダイムを用いたシステムでは, 疑似質問応答ペアと混合質問応答の両方を誤って評価し, 解答を許容できることを示した。
関連論文リスト
- Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - CoTAL: Human-in-the-Loop Prompt Engineering, Chain-of-Thought Reasoning, and Active Learning for Generalizable Formative Assessment Scoring [2.249916681499244]
チェーン・オブ・ソート(CoT)のような手法は、教師が科学の形式的評価を格付けできるようにする。
これらの手法が複数の領域でキュリキュラにまたがる一般化の程度は、まだほとんど証明されていない。
書式評価評価のための LLM ベースのアプローチである Chain-of-Thought Prompting + Active Learning (CoTAL) を導入する。
論文 参考訳(メタデータ) (2025-04-03T06:53:34Z) - Automatic Feedback Generation for Short Answer Questions using Answer Diagnostic Graphs [21.965223446869064]
短読的理解質問は、学生がテキスト構造を理解するのに役立つが、効果的なフィードバックがない。
学生は間違いの特定と修正に苦労するが、手動によるフィードバック作成は労働集約的である。
学生の反応に対するフィードバックを生成するシステムを提案する。
論文 参考訳(メタデータ) (2025-01-27T04:49:10Z) - The Potential of Answer Classes in Large-scale Written Computer-Science Exams -- Vol. 2 [0.0]
中等教育の教員養成では、試験ごとに評価ガイドラインが義務付けられている。
この概念を462名の学生と41名の課題を持つ大学試験に適用する。
各タスクに対して、インストラクターは、期待された応答のクラスである回答クラスを開発した。
論文 参考訳(メタデータ) (2024-12-12T10:20:39Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - KIWI: A Dataset of Knowledge-Intensive Writing Instructions for
Answering Research Questions [63.307317584926146]
ユーザ命令に従うように適応された大規模言語モデル(LLM)は、現在では会話エージェントとして広くデプロイされている。
そこで本研究では,より一般的な命令追従タスクとして,長文の回答作成を支援することを提案する。
我々は、科学領域における知識集約的な記述命令のデータセットKIWIを構築した。
論文 参考訳(メタデータ) (2024-03-06T17:16:44Z) - Automated Distractor and Feedback Generation for Math Multiple-choice
Questions via In-context Learning [43.83422798569986]
マルチチョイス質問(MCQ)は、管理しやすく、格付けし、信頼性の高い評価形式であるため、ほぼ全てのレベルの教育においてユビキタスである。
これまで、高品質なイントラクタを作るというタスクは、教師やコンテンツデザイナーを学ぶための労働集約的なプロセスのままだった。
本稿では,テキスト内学習をベースとした簡易な学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T01:03:04Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - R2DE: a NLP approach to estimating IRT parameters of newly generated
questions [3.364554138758565]
R2DEは、質問のテキストを見て、新しく生成された複数の選択の質問を評価することができるモデルである。
特に、各質問の難易度と識別度を推定することができる。
論文 参考訳(メタデータ) (2020-01-21T14:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。