論文の概要: Activations as Features: Probing LLMs for Generalizable Essay Scoring Representations
- arxiv url: http://arxiv.org/abs/2512.19456v1
- Date: Mon, 22 Dec 2025 15:01:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.798812
- Title: Activations as Features: Probing LLMs for Generalizable Essay Scoring Representations
- Title(参考訳): 機能としての活性化: 一般化可能な評価表現のためのLLMの提案
- Authors: Jinwei Chi, Ke Wang, Yu Chen, Xuanye Lin, Qiang Xu,
- Abstract要約: 横断的エッセイ評価課題において,大規模言語モデルのアクティベーションの識別能力を評価する。
その結果,エッセイの質を評価する上で,アクティベーションは強い差別力を有することが明らかとなった。
- 参考スコア(独自算出の注目度): 8.332035939817976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated essay scoring (AES) is a challenging task in cross-prompt settings due to the diversity of scoring criteria. While previous studies have focused on the output of large language models (LLMs) to improve scoring accuracy, we believe activations from intermediate layers may also provide valuable information. To explore this possibility, we evaluated the discriminative power of LLMs' activations in cross-prompt essay scoring task. Specifically, we used activations to fit probes and further analyzed the effects of different models and input content of LLMs on this discriminative power. By computing the directions of essays across various trait dimensions under different prompts, we analyzed the variation in evaluation perspectives of large language models concerning essay types and traits. Results show that the activations possess strong discriminative power in evaluating essay quality and that LLMs can adapt their evaluation perspectives to different traits and essay types, effectively handling the diversity of scoring criteria in cross-prompt settings.
- Abstract(参考訳): 自動エッセイスコアリング(AES)は、スコアリング基準の多様性のため、クロスプロンプト設定において難しい課題である。
従来の研究では、評価精度を向上させるため、大規模言語モデル(LLM)の出力に焦点が当てられていたが、中間層からのアクティベーションも貴重な情報を提供する可能性があると信じている。
この可能性を探るため, クロスプロンプトエッセイ評価課題において, LLMのアクティベーションの識別能力について検討した。
具体的には、アクティベーションを用いてプローブを適合させ、異なるモデルとLLMの入力内容が、この識別力に与える影響をさらに分析した。
異なるプロンプト下での様々な特徴次元におけるエッセイの方向を計算することにより,エッセイの種類や特徴に関する大規模言語モデルの評価視点の変化を分析した。
その結果, アクティベーションはエッセイの質を評価する上で強い差別力を有しており, LLMは評価視点を異なる特徴やエッセイタイプに適応させ, クロスプロンプト設定における評価基準の多様性を効果的に扱えることがわかった。
関連論文リスト
- Investigating the Effects of Cognitive Biases in Prompts on Large Language Model Outputs [3.7302076138352205]
本稿では,認知バイアスがLarge Language Models(LLM)出力に及ぼす影響について検討する。
確認や可用性バイアスなどの認知バイアスは、プロンプトを通じてユーザーの入力を歪ませる。
論文 参考訳(メタデータ) (2025-06-14T04:18:34Z) - No LLM is Free From Bias: A Comprehensive Study of Bias Evaluation in Large Language Models [0.9620910657090186]
大規模言語モデル(LLM)は、異なる自然言語理解と生成タスクの性能を高めている。
我々は,中小LLMの集合を用いてベンチマークを統一的に評価する。
バイアス検出タスクをバイアスの異なる側面で行うための5つのプロンプト手法を提案する。
その結果, 選択したLLMは, Phi-3.5Bモデルが最も偏りが少ないため, いずれか一方あるいは他方の偏りに悩まされることが示唆された。
論文 参考訳(メタデータ) (2025-03-15T03:58:14Z) - EssayJudge: A Multi-Granular Benchmark for Assessing Automated Essay Scoring Capabilities of Multimodal Large Language Models [19.271790170055375]
EssayJudgeは、手動のフィーチャエンジニアリングなしで、正確でコンテキストに富んだ評価を提供し、長年のAES制限に対処する。
18種類のMLLMを用いた実験では,特に談話レベルの特性において,人的評価と比較してAES性能の差が明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T15:31:59Z) - Do Large Language Models Possess Sensitive to Sentiment? [18.88126980975737]
大規模言語モデル(LLM)は、最近、言語理解における異常な能力を示した。
本稿では,LLMがテキストモーダルの感情を検知し,反応する能力について検討する。
論文 参考訳(メタデータ) (2024-09-04T01:40:20Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。