論文の概要: SAGE: Hierarchical LLM-Based Literary Evaluation through Ontology-Grounded Interpretive Dimensions
- arxiv url: http://arxiv.org/abs/2605.07102v1
- Date: Fri, 08 May 2026 01:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.718067
- Title: SAGE: Hierarchical LLM-Based Literary Evaluation through Ontology-Grounded Interpretive Dimensions
- Title(参考訳): SAGE: オントロジーを包含した解釈次元による階層的LCMに基づく文学的評価
- Authors: Tianyu Wang, Nianjun Zhou,
- Abstract要約: 文学的品質を評価するには、文化的表現、感情的な深さ、哲学的洗練などの解釈的な側面を評価する必要がある。
本稿では,文学的品質を分かりやすい解釈次元に分解する階層的評価フレームワークであるSAGEを紹介する。
- 参考スコア(独自算出の注目度): 6.2431177303574295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating literary quality requires assessing interpretive dimensions such as cultural representation, emotional depth, and philosophical sophistication that resist straightforward computational measurement. We introduce SAGE, a hierarchical evaluation framework that decomposes literary quality into ontology-grounded interpretive dimensions assessed through structured large language model evaluation with multi-round iterative reflection and independent validation. We validate the framework on 100 short stories (50 canonical works, 30 pulp fiction, 20 LLM-generated narratives) across three analytical layers (cultural, emotional-psychological, existential-philosophical) using dual-mode assessment. Across 600 evaluations, the framework achieves 98.8% score convergence and greater than 94% inter-rater agreement, with near-perfect mode invariance between content-based and metadata-based evaluation. Statistical analysis reveals a consistent genre hierarchy (Canonical > Pulp > LLM, all p<0.001) with layer-specific discrimination: cultural critique and philosophical depth exhibit very large effect sizes (Cohen's d>2.4), while emotional representation shows smaller gaps (d=1.68), suggesting that affective patterns are more learnable from training data than critical stance or philosophical depth. Cross-layer correlations (r=0.649-0.683) confirm the three dimensions capture empirically distinguishable quality facets. These findings demonstrate that theory-driven LLM evaluation can achieve measurement-grade reliability and support systematic identification of where current generative models fall short of human literary production, with direct implications for scalable automated evaluation of open-ended text generation.
- Abstract(参考訳): 文学的品質を評価するには、文化的表現、感情深度、単純な計算測定に抵抗する哲学的洗練などの解釈的次元を評価する必要がある。
文質をオントロジーに基づく解釈次元に分解する階層的評価フレームワークであるSAGEを,多ラウンド反復反射と独立検証による構造化大言語モデル評価により導入する。
両モード評価を用いて,100の短編小説(50作品,30のパルプ・フィクション,20のLLM生成物語)を3つの分析層(文化的,感情的,実存的-哲学的)で検証した。
600以上の評価において、このフレームワークは98.8%のスコア収束と、コンテンツベースとメタデータベースの評価のほぼ完全なモード不変性により、レイター間合意の94%以上を達成している。
統計的分析では、一貫したジャンル階層 (Canonical > Pulp > LLM, all p<0.001) と層固有の識別: 文化的批評と哲学的深度は非常に大きな効果の大きさ(Cohen's d>2.4)を示し、感情的表現はより小さなギャップ (d=1.68) を示し、感情的パターンは批判的姿勢や哲学的深度よりも訓練データからより学習しやすいことを示唆している。
層間相関(r=0.649-0.683)は、3次元が経験的に区別可能な品質の面を捉えていることを確認する。
これらの結果から,理論駆動型LCM評価は,従来の生成モデルが文学作品の制作に欠落している場所の系統的同定と,オープンエンドテキスト生成のスケーラブルな自動評価に直接的な意味があることが示唆された。
関連論文リスト
- Beyond Holistic Scores: Automatic Trait-Based Quality Scoring of Argumentative Essays [15.895792302323883]
教育の文脈では、教師と学習者は解釈可能な特性レベルのフィードバックを必要とする。
本稿では,2つの相補的モデリングパラダイムを用いた特徴量に基づく自動弁別評価手法について検討する。
スコア・オーディナリティを明示的にモデル化することは、人間のレーダとの合意を著しく改善することを示します。
論文 参考訳(メタデータ) (2026-02-04T14:30:52Z) - Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries [13.104408059072457]
本稿では,大言語モデル(LLM)生成言語における意味を研究するための学際的枠組みを提案する。
本稿では,言語記号が静的および文脈的埋め込みモデルにおいて,ベクトル化表現にどのように変換されるかを検討する。
次に、LCM出力における意味的精度と意味的アライメントを評価するために設計されたICR(Inductive Conceptual Rating)メトリクスを紹介する。
論文 参考訳(メタデータ) (2026-02-03T18:05:09Z) - HeartBench: Probing Core Dimensions of Anthropomorphic Intelligence in LLMs [20.794341575633503]
HeartBenchは、中国の大規模言語モデル(LLM)の総合的な感情的、文化的、倫理的次元を評価するために設計されたフレームワークである。
先行モデルでさえ、専門家が定義した理想スコアの60%しか達成できない。
難易度階層化された「ハードセット」を用いた分析では、微妙な感情的な文章や複雑な倫理的トレードオフを含むシナリオにおいて、顕著な性能低下が見られる。
論文 参考訳(メタデータ) (2025-12-26T03:54:56Z) - The Linguistic Architecture of Reflective Thought: Evaluation of a Large Language Model as a Tool to Isolate the Formal Structure of Mentalization [0.0]
メンタライゼーションは認知的、感情的、他者間のコンポーネントを統合する。
大きな言語モデル(LLM)は、反射テキストを生成する能力の増大を示す。
論文 参考訳(メタデータ) (2025-11-20T23:51:34Z) - Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - Assessing the Reliability and Validity of Large Language Models for Automated Assessment of Student Essays in Higher Education [0.30158609733245967]
高等教育環境におけるエッセイ自動評価において,5つの高度な大規模言語モデル (LLM) , Claude 3.5, DeepSeek v2, Gemini 2.5, GPT-4, Mistral 24B について検討した。
イタリア語の学生エッセイは、合計67点が4基準ルーブリックを用いて評価された。
人間とLLMの合意は一貫して低く、非重要であり、複製間のモデル内信頼性も同様に弱かった。
論文 参考訳(メタデータ) (2025-08-04T14:02:12Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。