論文の概要: Context is Enough: Empirical Validation of $\textit{Sequentiality}$ on Essays
- arxiv url: http://arxiv.org/abs/2511.09185v1
- Date: Thu, 13 Nov 2025 01:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.4528
- Title: Context is Enough: Empirical Validation of $\textit{Sequentiality}$ on Essays
- Title(参考訳): Context is Enough: Empirical Validation of $\textit{Sequentiality}$ on Essays
- Authors: Amal Sunny, Advay Gupta, Vishnu Sreekumar,
- Abstract要約: コンテクスト版の連続性は, 談話レベルの特徴の人間による評価とより密接に一致していることを示す。
本研究は,自動エッセイ評価および関連するNLPタスクの検証,解釈,補完機能としてコンテキストベースのシーケンシャル性の利用を支援する。
- 参考スコア(独自算出の注目度): 1.338174941551702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has proposed using Large Language Models (LLMs) to quantify narrative flow through a measure called sequentiality, which combines topic and contextual terms. A recent critique argued that the original results were confounded by how topics were selected for the topic-based component, and noted that the metric had not been validated against ground-truth measures of flow. That work proposed using only the contextual term as a more conceptually valid and interpretable alternative. In this paper, we empirically validate that proposal. Using two essay datasets with human-annotated trait scores, ASAP++ and ELLIPSE, we show that the contextual version of sequentiality aligns more closely with human assessments of discourse-level traits such as Organization and Cohesion. While zero-shot prompted LLMs predict trait scores more accurately than the contextual measure alone, the contextual measure adds more predictive value than both the topic-only and original sequentiality formulations when combined with standard linguistic features. Notably, this combination also outperforms the zero-shot LLM predictions, highlighting the value of explicitly modeling sentence-to-sentence flow. Our findings support the use of context-based sequentiality as a validated, interpretable, and complementary feature for automated essay scoring and related NLP tasks.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)を用いて,話題と文脈の言葉を組み合わせた逐次性(Sequenceity)と呼ばれる尺度による物語の流れの定量化が提案されている。
最近の批判は、元の結果はトピックベースのコンポーネントのトピックの選択方法によって構築されたものであり、その指標がフローの地道的測定に対して検証されていないことを指摘した。
この研究は文脈項のみを用いて、より概念的に妥当で解釈可能な代替案として提案された。
本稿では,その提案を実証的に検証する。
AsAP++とELLIPSEの2つのエッセイデータセットを用いて、逐次性の文脈バージョンは、組織や凝集のような談話レベルの特性の人間評価とより密接に一致していることを示す。
ゼロショットのLLMは、文脈的測度だけでは特徴のスコアを正確に予測するが、文脈的測度は、標準的な言語的特徴と組み合わせた場合、トピックのみとオリジナルシーケンシャルな定式化の両方よりも予測的な値を与える。
特に、この組み合わせはゼロショットLLM予測よりも優れており、文から文へのフローを明示的にモデル化する価値を強調している。
本研究は,自動エッセイ評価および関連するNLPタスクの検証,解釈,補完機能としてコンテキストベースのシーケンシャル性の利用を支援する。
関連論文リスト
- A Straightforward Pipeline for Targeted Entailment and Contradiction Detection [0.15229257192293197]
主要な課題は、どの文が特定のクレームの前提または矛盾として機能するかを特定することである。
対象分析のための両手法の強みを組み合わせた手法を提案する。
本手法は,NLIが同定した関係を注目度スコアとフィルタリングすることにより,テキスト中の任意のクレームに対する最も重要なセマンティックな関係を効率的に抽出する。
論文 参考訳(メタデータ) (2025-08-23T19:59:24Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.040736633675136]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z) - Extending Text Informativeness Measures to Passage Interestingness
Evaluation (Language Model vs. Word Embedding) [1.2998637003026272]
本稿では、インフォマティヴネスの概念をインフォマティヴネスの一般化として定義する。
次に、この一般化に対応するために、アートインフォーマティヴネス対策の状態を調査する。
CLEF-INEX Tweet Contextualization 2012 Logarithm similarity measure が最適であることを示す。
論文 参考訳(メタデータ) (2020-04-14T18:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。