論文の概要: CRACQ: A Multi-Dimensional Approach To Automated Document Assessment
- arxiv url: http://arxiv.org/abs/2510.02337v1
- Date: Fri, 26 Sep 2025 17:01:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.011944
- Title: CRACQ: A Multi-Dimensional Approach To Automated Document Assessment
- Title(参考訳): CRACQ: 自動文書評価のための多次元的アプローチ
- Authors: Ishak Soltani, Francisco Belo, Bernardo Tavares,
- Abstract要約: CRACQは、コヒーレンス、リゴール、適切性、完全性、品質といった、f i v e特有の特性で文書を評価するのに適した多次元評価フレームワークである。
言語的、意味的、構造的なシグナルを累積評価に統合し、全体的および特性レベルの分析を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents CRACQ, a multi-dimensional evaluation framework tailored to evaluate documents across f i v e specific traits: Coherence, Rigor, Appropriateness, Completeness, and Quality. Building on insights from traitbased Automated Essay Scoring (AES), CRACQ expands its fo-cus beyond essays to encompass diverse forms of machine-generated text, providing a rubricdriven and interpretable methodology for automated evaluation. Unlike singlescore approaches, CRACQ integrates linguistic, semantic, and structural signals into a cumulative assessment, enabling both holistic and trait-level analysis. Trained on 500 synthetic grant pro-posals, CRACQ was benchmarked against an LLM-as-a-judge and further tested on both strong and weak real applications. Preliminary results in-dicate that CRACQ produces more stable and interpretable trait-level judgments than direct LLM evaluation, though challenges in reliability and domain scope remain
- Abstract(参考訳): 本稿では,コヒーレンス,リゴール,適切性,完全性,品質など, f i v e 特有の特徴にまたがる文書を評価するための多次元評価フレームワークである CRACQ を提案する。
トレイトベースのAutomated Essay Scoring (AES)からの洞察に基づいて、CRACQはエッセイを超えて、さまざまなマシン生成テキストの形式を網羅し、自動評価のためのルーリック駆動で解釈可能な方法論を提供する。
シングルスコアアプローチとは異なり、CRACQは言語信号、意味信号、構造信号を累積評価に統合し、全体的および特性レベルの解析を可能にする。
CRACQは500種類の合成補助薬で訓練され、LSM-as-a-judgeとベンチマークされ、より強力な実物と弱い実物の両方で試験された。
CRACQは直接LLM評価よりも安定かつ解釈可能な特性レベルの判断を導出するが、信頼性と領域範囲の課題は残る。
関連論文リスト
- AllSummedUp: un framework open-source pour comparer les metriques d'evaluation de resume [2.2153783542347805]
本稿では,自動要約評価における課題について検討する。
6つの代表的な指標で実施した実験に基づいて,文献における報告結果と実験環境における観察結果との間に有意な相違点が認められた。
SummEvalデータセットに適用された統一されたオープンソースフレームワークを導入し、評価指標の公平かつ透明な比較をサポートするように設計されている。
論文 参考訳(メタデータ) (2025-08-29T08:05:00Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。