論文の概要: Operationalizing Automated Essay Scoring: A Human-Aware Approach
- arxiv url: http://arxiv.org/abs/2506.21603v1
- Date: Thu, 19 Jun 2025 17:06:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.321269
- Title: Operationalizing Automated Essay Scoring: A Human-Aware Approach
- Title(参考訳): 自動エッセイスコーリングの運用 - 人間の意識によるアプローチ-
- Authors: Yenisel Plasencia-Calaña,
- Abstract要約: 機械学習に基づくアプローチをLarge Language Models(LLM)アプローチと比較し、その強み、類似点、相違点を同定する。
MLに基づくAESモデルでは,LSMの精度は向上するが,説明可能性に苦慮する一方,LSMはよりリッチな説明を提供する。
これらの次元を解析することにより、異なる方法間の課題とトレードオフを特定し、より信頼性が高く信頼性の高いAES手法に寄与することを目的とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the human-centric operationalization of Automated Essay Scoring (AES) systems, addressing aspects beyond accuracy. We compare various machine learning-based approaches with Large Language Models (LLMs) approaches, identifying their strengths, similarities and differences. The study investigates key dimensions such as bias, robustness, and explainability, considered important for human-aware operationalization of AES systems. Our study shows that ML-based AES models outperform LLMs in accuracy but struggle with explainability, whereas LLMs provide richer explanations. We also found that both approaches struggle with bias and robustness to edge scores. By analyzing these dimensions, the paper aims to identify challenges and trade-offs between different methods, contributing to more reliable and trustworthy AES methods.
- Abstract(参考訳): 本稿では,AES(Automated Essay Scoring)システムの人間中心の運用について検討し,精度以上の側面に対処する。
機械学習に基づくアプローチをLarge Language Models(LLM)アプローチと比較し、その強み、類似点、相違点を同定する。
本研究では,AESシステムの人為的運用において重要であると考えられる,バイアス,堅牢性,説明可能性などの重要な側面について検討した。
MLに基づくAESモデルでは,LSMの精度は向上するが,説明可能性に苦慮する一方,LSMはよりリッチな説明を提供する。
また、両方のアプローチが、エッジスコアに対するバイアスと堅牢性に苦労していることもわかりました。
これらの次元を解析することにより、異なる方法間の課題とトレードオフを特定し、より信頼性が高く信頼性の高いAES手法に寄与することを目的とする。
関連論文リスト
- Advances in LLMs with Focus on Reasoning, Adaptability, Efficiency and Ethics [0.46174569259495524]
本稿では,Large Language Models(LLMs)の分野における重要な展開について概説する。
人間と機械のコミュニケーションのギャップを埋めるのに最も効果的なテクニックには、Chain-of-Thought prompting、Instruction Tuning、Reinforcement Learning from Human Feedbackなどがある。
効率性、スケーリング戦略、最適化テクニック、および影響力のあるMixture-of-Experts(MoE)アーキテクチャについて、重要な焦点が当てられている。
論文 参考訳(メタデータ) (2025-06-14T05:55:19Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - Fairness-Driven LLM-based Causal Discovery with Active Learning and Dynamic Scoring [1.5498930424110338]
因果発見(英: Causal discovery, CD)は、様々な分野において観測される現象の根底にある因果関係を明らかにすることで、多くの科学分野において重要な役割を担っている。
CDアルゴリズムの大幅な進歩にもかかわらず、その応用は大規模データの高い計算要求と複雑さのために困難に直面している。
本稿では,CDにLarge Language Models(LLM)を活用するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-21T22:58:26Z) - An Overview of Large Language Models for Statisticians [109.38601458831545]
大規模言語モデル(LLM)は人工知能(AI)の変換ツールとして登場した。
本稿では, 統計学者がLLMの開発に重要な貢献できる可能性について考察する。
我々は不確実性定量化、解釈可能性、公正性、プライバシー、透かし、モデル適応といった問題に焦点を当てる。
論文 参考訳(メタデータ) (2025-02-25T03:40:36Z) - EssayJudge: A Multi-Granular Benchmark for Assessing Automated Essay Scoring Capabilities of Multimodal Large Language Models [19.271790170055375]
EssayJudgeは、手動のフィーチャエンジニアリングなしで、正確でコンテキストに富んだ評価を提供し、長年のAES制限に対処する。
18種類のMLLMを用いた実験では,特に談話レベルの特性において,人的評価と比較してAES性能の差が明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T15:31:59Z) - Survey on AI-Generated Media Detection: From Non-MLLM to MLLM [51.91311158085973]
AI生成メディアを検出する方法は急速に進化してきた。
MLLMに基づく汎用検出器は、信頼性検証、説明可能性、ローカライゼーション機能を統合する。
倫理的・セキュリティ的な配慮が、重要な世界的な懸念として浮上している。
論文 参考訳(メタデータ) (2025-02-07T12:18:20Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Social Debiasing for Fair Multi-modal LLMs [55.8071045346024]
MLLM(Multi-modal Large Language Models)は、強力な視覚言語理解機能を提供する。
しかしながら、これらのモデルはトレーニングデータセットから深刻な社会的偏見を継承することが多く、人種や性別といった属性に基づいた不公平な予測につながります。
本稿では,MLLMにおける社会的バイアスの問題に対処する。i)多元的社会的概念(CMSC)を用いた包括的対実的データセットの導入,i)アンチステレオタイプデバイアス戦略(ASD)を提案する。
論文 参考訳(メタデータ) (2024-08-13T02:08:32Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - A Review on Discriminative Self-supervised Learning Methods in Computer Vision [5.5547914920738]
自己教師付き学習(SSL)はコンピュータビジョンにおける変革的アプローチとして急速に発展してきた。
本稿では,人間のラベルを必要としないプレテキストタスクを解くことによって,表現の学習に焦点を当てた識別的SSL手法の包括的分析を行う。
論文 参考訳(メタデータ) (2024-05-08T11:15:20Z) - Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs [13.262711792955377]
本研究では,Large Language Models (LLMs) のエッセイ自動評価における有効性について検討した。
本稿では,デュアルプロセス理論にインスパイアされたオープンソースのLLMベースのAESシステムを提案する。
本システムでは, 学習過程の自動化だけでなく, 成績や効率の向上も図っている。
論文 参考訳(メタデータ) (2024-01-12T07:50:10Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。