論文の概要: Creating Large Language Model Resistant Exams: Guidelines and Strategies
- arxiv url: http://arxiv.org/abs/2304.12203v1
- Date: Tue, 18 Apr 2023 18:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-30 07:39:10.305787
- Title: Creating Large Language Model Resistant Exams: Guidelines and Strategies
- Title(参考訳): 大規模言語モデル耐性試験の作成:ガイドラインと戦略
- Authors: Simon kaare Larsen
- Abstract要約: 大規模言語モデル(LLM)は、学術的完全性への潜在的な影響について懸念を提起している。
本稿では,LLMの試験成績と評価への影響について考察する。
本稿では,コンテンツモデレーション,意図的不正確性,モデルの知識ベースを越えた現実シナリオ,効果的な気晴らしオプション,ソフトスキルの評価,非テキスト情報の導入など,LCM耐性試験を作成するためのガイドラインを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The proliferation of Large Language Models (LLMs), such as ChatGPT, has
raised concerns about their potential impact on academic integrity, prompting
the need for LLM-resistant exam designs. This article investigates the
performance of LLMs on exams and their implications for assessment, focusing on
ChatGPT's abilities and limitations. We propose guidelines for creating
LLM-resistant exams, including content moderation, deliberate inaccuracies,
real-world scenarios beyond the model's knowledge base, effective distractor
options, evaluating soft skills, and incorporating non-textual information. The
article also highlights the significance of adapting assessments to modern
tools and promoting essential skills development in students. By adopting these
strategies, educators can maintain academic integrity while ensuring that
assessments accurately reflect contemporary professional settings and address
the challenges and opportunities posed by artificial intelligence in education.
- Abstract(参考訳): ChatGPTのようなLarge Language Models(LLM)の普及は、学術的完全性への潜在的な影響を懸念し、LCM耐性試験設計の必要性を喚起している。
本稿は,チャットgptの能力と限界に着目し,試験におけるllmの性能とその評価への影響について検討する。
本稿では,コンテンツモデレーション,意図的不正確性,モデルの知識ベースを越えた現実シナリオ,効果的な気晴らしオプション,ソフトスキルの評価,非テキスト情報の導入など,LCM耐性試験を作成するためのガイドラインを提案する。
この記事は、現代のツールにアセスメントを適用し、学生の必須スキル開発を促進することの重要性も強調する。
これらの戦略を採用することで、教育者は学術的整合性を維持しつつ、アセスメントが現代の専門家の設定を正確に反映し、教育において人工知能がもたらす課題と機会に対処することを保証する。
関連論文リスト
- A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models [0.0]
本稿では,厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。
我々は、教育と教育の分野で新しいベンチマークを作成することで、このアプローチを説明する最初の試みを行う。
我々はブルームの分類学によってガイドされ、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計された新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-29T19:32:43Z) - Evaluating Copyright Takedown Methods for Language Models [100.38129820325497]
言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。
本稿では,LMの著作権削除の可能性と副作用を初めて評価する。
システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
論文 参考訳(メタデータ) (2024-06-26T18:09:46Z) - Disce aut Deficere: Evaluating LLMs Proficiency on the INVALSI Italian Benchmark [12.729687989535359]
大規模言語モデル(LLM)を英語以外の言語で評価することは、その言語的汎用性、文化的妥当性、そして多様なグローバルな文脈における適用性を保証するために不可欠である。
InVALSIテストは、イタリア全土の教育能力を測定するために設計された、確立された評価セットである。
論文 参考訳(メタデータ) (2024-06-25T13:20:08Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - Best Practices for Text Annotation with Large Language Models [11.421942894219901]
LLM(Large Language Models)は、新しいテキストアノテーションの時代を担っている。
本稿では, 信頼性, 再現性, 倫理的利用に関する包括的基準とベストプラクティスを提案する。
論文 参考訳(メタデータ) (2024-02-05T15:43:50Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - EpiK-Eval: Evaluation for Language Models as Epistemic Models [16.485951373967502]
セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。
これらの欠点は、一般的な訓練目的の本質的な性質に起因していると論じる。
本研究の成果は,より堅牢で信頼性の高いLCMを開発する上での洞察を与えるものである。
論文 参考訳(メタデータ) (2023-10-23T21:15:54Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - HowkGPT: Investigating the Detection of ChatGPT-generated University
Student Homework through Context-Aware Perplexity Analysis [13.098764928946208]
HowkGPTは学術的な課題と付随するメタデータのデータセットの上に構築されている。
生徒とChatGPTが生成する応答の難易度スコアを計算する。
さらに、カテゴリ固有のしきい値を定義することで分析を洗練させる。
論文 参考訳(メタデータ) (2023-05-26T11:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。