Fugu-MT 論文翻訳(概要): Generative-Evaluative Agreement: A Necessary Validity Criterion for LLM-Enabled Adaptive Assessment

論文の概要: Generative-Evaluative Agreement: A Necessary Validity Criterion for LLM-Enabled Adaptive Assessment

arxiv url: http://arxiv.org/abs/2605.19529v1
Date: Tue, 19 May 2026 08:30:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-20 15:03:09.207365
Title: Generative-Evaluative Agreement: A Necessary Validity Criterion for LLM-Enabled Adaptive Assessment
Title（参考訳）: ジェネレーティブ・評価協定:LLM適用適応評価に必要な妥当性基準
Authors: Grandee Lee, Yue Wang, Che Yee Lye, Luke Peh,
Abstract要約: 本稿では,LLMのスコアリング機能が生成機能に指示されたスキルレベルを回復させるかどうかを評価するための妥当性基準であるジェネラティブ・評価合意(GEA)を紹介する。我々は, GEAを強化し, 相補的緩和を概説する主要なメカニズムとして, 粒度, 熟練分解性ルーリックが提案されていることを論じる。
参考スコア（独自算出の注目度）: 2.8217668849101405
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: When the same LLM generates assessment items, simulates student responses, and scores them, the validation loop is self-referential. We introduce Generative-Evaluative Agreement (GEA), a validity criterion measuring whether an LLM's scoring function recovers the skill levels its generative function was instructed to produce. In the first direct measurement of GEA on a two-stage adaptive assessment, the model recovers roughly half the intended variance r = 0.698 with systematic positive bias. GEA is strong r > 0.7 for syntactically verifiable skills but near zero for design-level skills, and low-skill overestimation inflates scores near the routing threshold. We argue that granular, skill-decomposed rubrics are the principal proposed mechanism for strengthening GEA and outline complementary mitigations.
Abstract（参考訳）: 同じLCMが評価項目を生成し、学生の反応をシミュレートし、評価すると、検証ループは自己参照となる。本稿では,LLMのスコアリング機能が生成機能に指示されたスキルレベルを回復させるかどうかを評価するための妥当性基準であるジェネラティブ・評価合意(GEA)を紹介する。 2段階アダプティブアセスメントによるGAAの最初の直接測定では、モデルが意図する分散 r = 0.698 の約半分を体系的な正のバイアスで回復する。 GEA は、構文的に検証可能なスキルに対して r > 0.7 と強いが、設計レベルのスキルでは 0 に近づき、低スキルな過小評価は、ルーティングしきい値付近でスコアを膨らませる。我々は, GEAを強化し, 相補的緩和を概説する主要なメカニズムとして, 粒度, 熟練分解性ルーリックが提案されていることを論じる。

関連論文リスト

Utilizing and Calibrating Hindsight Process Rewards via Reinforcement with Mutual Information Self-Evaluation [50.696688705287755]
我々は、強化学習におけるスパース報酬課題を克服するために、相互情報自己評価を提案する。 MISEにより、エージェントは、疎外的信号を補う高密度な内部報酬から自律的に学習することができる。我々は、後見自己評価報酬を利用することは、政策と代行報酬政策の間のKL分散項と相互情報を組み合わせた目的を最小化することと等価であることを示す。
論文参考訳（メタデータ） (2026-04-13T15:18:51Z)
Reason Only When Needed: Efficient Generative Reward Modeling via Model-Internal Uncertainty [33.04999074297977]
E-GRMはモデル内不確実性に基づく効率的な生成報酬モデリングフレームワークである。 E-GRMは推論コストを大幅に削減し,解答精度を継続的に向上することを示した。
論文参考訳（メタデータ） (2026-04-11T07:35:08Z)
R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging [69.96389360650072]
解析精度は, 標準ラベルの精度を超えて, 下流RLHFの結果を高い精度で予測できることが示される。我々は,金の判断でトレーニングを増強し,合理的アライメントを明示的に監督するR-Alignを提案する。
論文参考訳（メタデータ） (2026-02-06T15:17:11Z)
Context-Adaptive Requirements Defect Prediction through Human-LLM Collaboration [1.4499356176178066]
本稿では,欠陥予測を静的な分類タスクではなく適応プロセスとして扱うHuman-LLM Collaboration(HLC)アプローチを提案する。メルセデス・ベンツの要求条件である1,266のQuREベンチマークの弱い単語の匂いを用いて,本手法の評価を行った。
論文参考訳（メタデータ） (2026-01-05T10:00:14Z)
OneRec-Think: In-Text Reasoning for Generative Recommendation [55.53292983432484]
OneRec-Thinkは、対話、推論、パーソナライズされたレコメンデーションをシームレスに統合する統合フレームワークである。提案した"Think-Ahead"アーキテクチャは,クアイショーの産業展開を効果的に実現し,app Stay Timeの0.159%のアップを実現している。
論文参考訳（メタデータ） (2025-10-13T17:20:13Z)
RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
LLMs are Biased Evaluators But Not Biased for Retrieval Augmented Generation [28.61326111959728]
大規模言語モデル(LLM)は評価タスク、特に優先的に評価し、自己生成したコンテンツを好む場合に重大なバイアスを示す。本研究では,この知識ギャップを,検索強化世代(RAG)フレームワークの2つの重要なフェーズをシミュレートすることによって解決する。以上の結果とは対照的に,RAGフレームワークに有意な自己選好効果は認められなかった。
論文参考訳（メタデータ） (2024-10-28T08:32:09Z)
Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models [65.8478860180793]
イベント抽出は広範囲の応用により、広範囲の研究が注目されている。イベント抽出の現在の評価法はトークンレベルの正確な一致に依存している。イベント抽出のための信頼性とセマンティックな評価フレームワークであるRAEEを提案する。
論文参考訳（メタデータ） (2024-10-12T07:54:01Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。