論文の概要: Trusting Language Models in Education
- arxiv url: http://arxiv.org/abs/2308.03866v1
- Date: Mon, 7 Aug 2023 18:27:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 15:14:18.418619
- Title: Trusting Language Models in Education
- Title(参考訳): 教育における信頼言語モデル
- Authors: Jogi Suda Neto, Li Deng, Thejaswi Raya, Reza Shahbazi, Nick Liu,
Adhitya Venkatesh, Miral Shah, Neeru Khosla, Rodrigo Capobianco Guido
- Abstract要約: 本稿では,BERT 上の XGBoost を用いて補正された確率を出力することを提案する。
我々の仮説は、注意の流れに含まれる不確実性のレベルは、モデルの応答自体の品質に関係している、というものである。
- 参考スコア(独自算出の注目度): 1.2578554943276923
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language Models are being widely used in Education. Even though modern deep
learning models achieve very good performance on question-answering tasks,
sometimes they make errors. To avoid misleading students by showing wrong
answers, it is important to calibrate the confidence - that is, the prediction
probability - of these models. In our work, we propose to use an XGBoost on top
of BERT to output the corrected probabilities, using features based on the
attention mechanism. Our hypothesis is that the level of uncertainty contained
in the flow of attention is related to the quality of the model's response
itself.
- Abstract(参考訳): 言語モデルは教育で広く使われている。
現代のディープラーニングモデルは、質問応答タスクにおいて非常に優れたパフォーマンスを達成するが、時にはエラーを起こす。
間違った答えを示すことによって誤解を招く生徒を避けるためには、これらのモデルの信頼度、すなわち予測確率を校正することが重要である。
本稿では,BERT 上の XGBoost を用いて,アテンション機構に基づく特徴量を用いて補正された確率を出力することを提案する。
我々の仮説は、注意の流れに含まれる不確実性のレベルはモデルの反応自体の品質に関係しているというものである。
関連論文リスト
- Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Beyond Confidence: Reliable Models Should Also Consider Atypicality [43.012818086415514]
サンプルやクラスが非典型的であるかとモデルの予測の信頼性との関係について検討する。
非定型入力や非定型クラスの予測は、より過信であり、精度が低いことを示す。
モデルの信頼性だけでなく,不確かさの定量化や性能向上にも非定型性を用いるべきである。
論文 参考訳(メタデータ) (2023-05-29T17:37:09Z) - Do Not Trust a Model Because It is Confident: Uncovering and
Characterizing Unknown Unknowns to Student Success Predictors in Online-Based
Learning [10.120425915106727]
学生の成功モデルは弱い点、すなわち正確に分類するのが難しい例を発達させる傾向がある。
この弱点は、モデル予測が、例えば、インストラクターが必要に応じて学生に介入しないように誘導するので、ユーザの信頼を損なう主要な要因の1つである。
本稿では,学生の成功予測における未知の未知の発見と特徴付けの必要性を明らかにする。
論文 参考訳(メタデータ) (2022-12-16T15:32:49Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。