論文の概要: Beyond Agreement: Diagnosing the Rationale Alignment of Automated Essay Scoring Methods based on Linguistically-informed Counterfactuals
- arxiv url: http://arxiv.org/abs/2405.19433v2
- Date: Tue, 08 Oct 2024 03:28:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:28:26.681969
- Title: Beyond Agreement: Diagnosing the Rationale Alignment of Automated Essay Scoring Methods based on Linguistically-informed Counterfactuals
- Title(参考訳): 合意を超えて:言語的インフォームド・カウンセリングに基づく自動評価手法の合理化
- Authors: Yupei Wang, Renfen Hu, Zhe Zhao,
- Abstract要約: 提案手法は,大規模言語モデルによって支援された対実的介入を用いて,BERTのようなモデルが主に文レベルの特徴に焦点を当てていることを明らかにする。
我々のアプローチは、ニューラルネットワークAES手法の理解を改善し、モデル駆動決定における透明性を求める他の領域にも適用できる。
- 参考スコア(独自算出の注目度): 5.565480386188035
- License:
- Abstract: While current Automated Essay Scoring (AES) methods demonstrate high scoring agreement with human raters, their decision-making mechanisms are not fully understood. Our proposed method, using counterfactual intervention assisted by Large Language Models (LLMs), reveals that BERT-like models primarily focus on sentence-level features, whereas LLMs such as GPT-3.5, GPT-4 and Llama-3 are sensitive to conventions & accuracy, language complexity, and organization, indicating a more comprehensive rationale alignment with scoring rubrics. Moreover, LLMs can discern counterfactual interventions when giving feedback on essays. Our approach improves understanding of neural AES methods and can also apply to other domains seeking transparency in model-driven decisions.
- Abstract(参考訳): 現在のAES(Automated Essay Scoring)手法は,ヒトのレーナーと高いスコアリングの一致を示すが,その決定機構は十分に理解されていない。
GPT-3.5, GPT-4, Llama-3 などの LLM は規則や正確さ, 言語複雑性, 組織に敏感であり, 筆跡とより包括的合理的な整合性を示す。
さらに、LLMはエッセイにフィードバックを与える際に、反ファクト的介入を識別することができる。
我々のアプローチは、ニューラルネットワークAES手法の理解を改善し、モデル駆動決定における透明性を求める他の領域にも適用できる。
関連論文リスト
- Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。
モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。
この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T06:19:47Z) - Factual Dialogue Summarization via Learning from Large Language Models [35.63037083806503]
大規模言語モデル(LLM)に基づく自動テキスト要約モデルは、より現実的に一貫した要約を生成する。
ゼロショット学習を用いて、LLMから記号的知識を抽出し、事実整合性(正)および矛盾性(負)の要約を生成する。
各種自動評価指標で確認したように,コヒーレンス,フラレンシ,関連性を保ちながら,より優れた事実整合性を実現する。
論文 参考訳(メタデータ) (2024-06-20T20:03:37Z) - An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。
本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。
ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文 参考訳(メタデータ) (2024-03-30T08:42:10Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Noise-Robust Fine-Tuning of Pretrained Language Models via External
Guidance [61.809732058101304]
ノイズラベルを用いた微調整PLMの革新的な手法を提案する。
このアプローチにはChatGPTのようなLarge Language Models(LLM)のガイダンスが組み込まれている。
このガイダンスは、クリーンサンプルとノイズサンプルを正確に区別するのに役立つ。
論文 参考訳(メタデータ) (2023-11-02T09:20:38Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Towards LLM-based Autograding for Short Textual Answers [4.853810201626855]
この写本は、自動階調のための大きな言語モデルの評価である。
のLCMは貴重なツールであるが、独立した自動グルーピングのための準備がまだ進行中であることを示唆している。
論文 参考訳(メタデータ) (2023-09-09T22:25:56Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。