論文の概要: KRISTEVA: Close Reading as a Novel Task for Benchmarking Interpretive Reasoning
- arxiv url: http://arxiv.org/abs/2505.09825v2
- Date: Tue, 03 Jun 2025 15:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 06:43:18.594918
- Title: KRISTEVA: Close Reading as a Novel Task for Benchmarking Interpretive Reasoning
- Title(参考訳): KRISTEVA: 解釈推論のベンチマークのための新しいタスクとしてのクローズリーディング
- Authors: Peiqi Sui, Juan Diego Rodriguez, Philippe Laban, Dean Murphy, Joseph P. Dexter, Richard Jean So, Samuel Baker, Pramit Chaudhuri,
- Abstract要約: KRISTEVAは、解釈的推論を評価するための最初のクローズドリーディングベンチマークである。
授業データから適応した1331の多重選択質問で構成されている。
以上の結果から,11タスク中10タスクで経験した人間評価士の成績に追随する傾向がみられた。
- 参考スコア(独自算出の注目度): 9.927958243208952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Each year, tens of millions of essays are written and graded in college-level English courses. Students are asked to analyze literary and cultural texts through a process known as close reading, in which they gather textual details to formulate evidence-based arguments. Despite being viewed as a basis for critical thinking and widely adopted as a required element of university coursework, close reading has never been evaluated on large language models (LLMs), and multi-discipline benchmarks like MMLU do not include literature as a subject. To fill this gap, we present KRISTEVA, the first close reading benchmark for evaluating interpretive reasoning, consisting of 1331 multiple-choice questions adapted from classroom data. With KRISTEVA, we propose three progressively more difficult sets of tasks to approximate different elements of the close reading process, which we use to test how well LLMs may seem to understand and reason about literary works: 1) extracting stylistic features, 2) retrieving relevant contextual information from parametric knowledge, and 3) multi-hop reasoning between style and external contexts. Our baseline results find that, while state-of-the-art LLMs possess some college-level close reading competency (accuracy 49.7% - 69.7%), their performances still trail those of experienced human evaluators on 10 out of our 11 tasks.
- Abstract(参考訳): 毎年、何千万ものエッセイが大学レベルの英語コースで書かれ、評価されている。
学生は、証拠に基づく議論を定式化するためにテキストの詳細を収集する「クローズリーディング」と呼ばれるプロセスを通じて、文学や文化のテキストを分析するよう求められている。
批判的思考の基礎と見なされ、大学コースワークの必須要素として広く採用されているにもかかわらず、大規模言語モデル(LLM)ではクローズリーディングは評価されておらず、MMLUのような複数分野のベンチマークでは文学を主題として含まない。
このギャップを埋めるために、教室データから適応した1331の複数選択質問からなる解釈的推論を評価するための最初のクローズドリーディングベンチマークであるKRISTEVAを提示する。
KRISTEVAでは、密読プロセスの異なる要素を近似するために、段階的に難しい3つのタスクセットを提案する。
1) 様式的特徴の抽出
2)パラメトリック知識から関連する文脈情報を取得すること、
3) スタイルと外部コンテキストのマルチホップ推論。
我々の基礎的な結果は、最先端のLLMにはいくつかのカレッジレベルのクローズドリーディング能力(精度49.7% - 69.7%)があるのに対して、そのパフォーマンスは11タスク中10タスクで経験した人間評価者のパフォーマンスに追随していることを示している。
関連論文リスト
- Beyond Profile: From Surface-Level Facts to Deep Persona Simulation in LLMs [50.0874045899661]
本稿では,キャラクタの言語パターンと特徴的思考過程の両方を再現するモデルであるキャラクタボットを紹介する。
ケーススタディとしてLu Xunを用いて、17冊のエッセイコレクションから得られた4つのトレーニングタスクを提案する。
これには、外部の言語構造と知識を習得することに焦点を当てた事前訓練タスクと、3つの微調整タスクが含まれる。
言語的正確性と意見理解の3つのタスクにおいて、キャラクタボットを評価し、適応されたメトリクスのベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-02-18T16:11:54Z) - Can AI grade your essays? A comparative analysis of large language models and teacher ratings in multidimensional essay scoring [8.71931996488953]
大規模言語モデルは、教師のためのエッセイ・スコーリング作業を容易にする潜在的なソリューションを提供する。
大規模言語モデルのようなジェネレーティブAIの最近の発展は、教師にとってエッセイ・スコリング・タスクを促進する潜在的なソリューションを提供する。
我々は,ドイツの学生エッセイの評価において,オープンソースとクローズドソースの両方のLCMの性能と信頼性を評価した。
論文 参考訳(メタデータ) (2024-11-25T12:33:14Z) - DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [86.93099925711388]
長い文脈内での物語的推論に特化したデータセットである textbfDetectiveQA を提案する。
100万以上のトークンを平均化する探偵小説を活用して、中国語と英語の両方で1200人の注釈付き質問を含むデータセットを作成します。
論文 参考訳(メタデータ) (2024-09-04T06:28:22Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
我々は,大規模言語モデル(LLM)を複雑で拡張された物語で評価するためのベンチマークであるNovellQAを紹介する。
NovelQAは、複雑さ、長さ、物語のコヒーレンスをユニークなブレンドとして提供し、深いテキスト理解を評価するのに理想的なツールである。
ノベルQAにおける長文LLMの評価は,長文LLMの長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文の長文長文長文長文長文の長文
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - Can Large Language Models Identify Authorship? [16.35265384114857]
大規模言語モデル(LLM)は、推論と問題解決の特別な能力を示している。
1) LLM はゼロショット・エンド・ツー・エンドのオーサシップ検証を効果的に行うことができるか?
2) LLM は,複数の候補作家(例えば,10,20)の著者を正確に帰属させることができるか?
論文 参考訳(メタデータ) (2024-03-13T03:22:02Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - Natural Language Inference in Context -- Investigating Contextual
Reasoning over Long Texts [19.894104911338353]
ConTRoLは、Longテキスト上のConTextual Reasoningのための新しいデータセットである。
8,325人の専門家が設計した"context-hypothesis"ペアとゴールドラベルで構成されている。
これは、警察の徴兵のための競争的選択と採用試験(言語推論テスト)から派生し、専門家レベルの品質を持つ。
論文 参考訳(メタデータ) (2020-11-10T02:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。