Fugu-MT 論文翻訳(概要): Beyond Agreement: Diagnosing the Rationale Alignment of Automated Essay Scoring Methods based on Linguistically-informed Counterfactuals

論文の概要: Beyond Agreement: Diagnosing the Rationale Alignment of Automated Essay Scoring Methods based on Linguistically-informed Counterfactuals

arxiv url: http://arxiv.org/abs/2405.19433v2
Date: Tue, 08 Oct 2024 03:28:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 22:04:17.366347
Title: Beyond Agreement: Diagnosing the Rationale Alignment of Automated Essay Scoring Methods based on Linguistically-informed Counterfactuals
Title（参考訳）: 合意を超えて:言語的インフォームド・カウンセリングに基づく自動評価手法の合理化
Authors: Yupei Wang, Renfen Hu, Zhe Zhao,
Abstract要約: 提案手法は,大規模言語モデルによって支援された対実的介入を用いて,BERTのようなモデルが主に文レベルの特徴に焦点を当てていることを明らかにする。我々のアプローチは、ニューラルネットワークAES手法の理解を改善し、モデル駆動決定における透明性を求める他の領域にも適用できる。
参考スコア（独自算出の注目度）: 5.565480386188035
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While current Automated Essay Scoring (AES) methods demonstrate high scoring agreement with human raters, their decision-making mechanisms are not fully understood. Our proposed method, using counterfactual intervention assisted by Large Language Models (LLMs), reveals that BERT-like models primarily focus on sentence-level features, whereas LLMs such as GPT-3.5, GPT-4 and Llama-3 are sensitive to conventions & accuracy, language complexity, and organization, indicating a more comprehensive rationale alignment with scoring rubrics. Moreover, LLMs can discern counterfactual interventions when giving feedback on essays. Our approach improves understanding of neural AES methods and can also apply to other domains seeking transparency in model-driven decisions.
Abstract（参考訳）: 現在のAES(Automated Essay Scoring)手法は,ヒトのレーナーと高いスコアリングの一致を示すが,その決定機構は十分に理解されていない。 GPT-3.5, GPT-4, Llama-3 などの LLM は規則や正確さ, 言語複雑性, 組織に敏感であり, 筆跡とより包括的合理的な整合性を示す。さらに、LLMはエッセイにフィードバックを与える際に、反ファクト的介入を識別することができる。我々のアプローチは、ニューラルネットワークAES手法の理解を改善し、モデル駆動決定における透明性を求める他の領域にも適用できる。

関連論文リスト

The Pragmatic Mind of Machines: Tracing the Emergence of Pragmatic Competence in Large Language Models [6.187227278086245]
大規模言語モデル(LLM)は、不規則な解決や推論の理論を含む社会的知性に新たな能力を示す。本研究では,異なる学習段階におけるLLMが話者意図を正確に推測できるかどうかを評価する。プレトレーニング後, 教師付き微調整(SFT), 選好最適化の3段階にわたる22個のLDMを系統的に評価した。
論文参考訳（メタデータ） (2025-05-24T04:24:59Z)
Adversarial Testing in LLMs: Insights into Decision-Making Vulnerabilities [5.0778942095543576]
本稿では,大規模言語モデルの意思決定過程を体系的にストレステストする逆評価フレームワークを提案する。我々は、GPT-3.5、GPT-4、Gemini-1.5、DeepSeek-V3など、最先端のLLMに適用する。我々の研究は、モデル間で異なる行動パターンを強調し、信頼できるAIデプロイメントにおける適応性と公平性認識の重要性を強調した。
論文参考訳（メタデータ） (2025-05-19T14:50:44Z)
A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文参考訳（メタデータ） (2025-04-12T01:27:49Z)
LLM-based Automated Grading with Human-in-the-Loop [32.14015215819979]
大規模言語モデル (LLM) は、自動短応答グレーディング (ASAG) にますます使われている。本研究では,Human-in-the-loop (HITL) アプローチを用いて,ASAGタスクにおけるLLMの可能性を探究する。提案するフレームワークである GradeHITL は LLM の生成特性を利用して人間の専門家に質問を投げかける。
論文参考訳（メタデータ） (2025-04-07T16:23:07Z)
Exploring the Potential of Large Language Models for Estimating the Reading Comprehension Question Difficulty [2.335292678914151]
本研究では,Large Language Models (LLMs) の有効性を検討した。また,OpenAI の GPT-4o と o1 を用いて,学習支援・読解評価 (SARA) データセットを用いた理解的質問の読解の難しさを推定する。その結果, モデルがIRTパラメータと有意に一致した難易度推定値を生成する一方で, 極端項目特性に対する感度に顕著な差があることが示唆された。
論文参考訳（メタデータ） (2025-02-25T02:28:48Z)
SCENE: Evaluating Explainable AI Techniques Using Soft Counterfactuals [0.0]
本稿では,新たな評価手法であるSCENE(Soft Counterfactual Evaluation for Natural Language Explainability)を紹介する。トークンベースの置換に焦点を当てることで、SCENEは文脈的に適切で意味論的に意味のあるソフトカウンタブルを作成する。 SCENEは様々なXAI技法の強みと限界についての貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-08-08T16:36:24Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文参考訳（メタデータ） (2024-06-16T20:41:44Z)
Unifying Perspectives: Plausible Counterfactual Explanations on Global, Group-wise, and Local Levels [2.494108084558292]
本稿では,微分可能なモデルに対する勾配に基づく最適化手法を提案する。インスタンスグループ化と逆ファクト生成を1つの効率的なプロセスに組み合わせることで,GWCF生成を特に強化する。本研究は, グループ粒度を最適化しつつ, 妥当性, 近接性, 妥当性のバランスをとる方法の有効性を示すものである。
論文参考訳（メタデータ） (2024-05-27T20:32:09Z)
Exploring the Potential of the Large Language Models (LLMs) in Identifying Misleading News Headlines [2.0330684186105805]
本研究では、誤解を招くニュースの見出しと誤解を招くニュースの見出しを識別する上で、LLM(Large Language Models)の有効性について検討する。解析の結果,ChatGPT-4の精度は良好であった。
論文参考訳（メタデータ） (2024-05-06T04:06:45Z)
Reasoning Abilities of Large Language Models: In-Depth Analysis on the Abstraction and Reasoning Corpus [4.569421189811511]
大規模言語モデル(LLM)の推論と文脈理解能力を評価する新しい手法を提案する。思考仮説言語(LoTH:Logical Coherence, compositionality, Productivity)の3つの重要なコンポーネントに注目します。実験の結果,LSMは推論能力を示す一方で,これらの3つの側面において,人間レベルの推論に遅れが生じることが判明した。
論文参考訳（メタデータ） (2024-03-18T13:50:50Z)
Tuning-Free Accountable Intervention for LLM Deployment -- A Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文参考訳（メタデータ） (2024-03-08T19:18:53Z)
Sparsity-Guided Holistic Explanation for LLMs with Interpretable Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。 LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文参考訳（メタデータ） (2023-12-22T19:55:58Z)
Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。 BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文参考訳（メタデータ） (2023-11-07T06:36:39Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-05-04T17:59:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。