論文の概要: Argument Rarity-based Originality Assessment for AI-Assisted Writing
- arxiv url: http://arxiv.org/abs/2602.01560v1
- Date: Mon, 02 Feb 2026 02:54:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.853777
- Title: Argument Rarity-based Originality Assessment for AI-Assisted Writing
- Title(参考訳): AIによる文章作成のためのarity-based Originalityアセスメント
- Authors: Keito Inoshita, Michiaki Omura, Tsukasa Yamanaka, Go Maeda, Kentaro Tsuji,
- Abstract要約: 本研究では,学生エッセイにおける論証的独創性を自動評価するフレームワークであるArgument Rarity-based Originality Assessment (AROA)を提案する。
AROAは、原産地を基準コーパス内の希薄性と定義し、構造的希薄性、主張的希薄性、証拠的希薄性、認知的深度という4つの相補的構成要素を通して評価する。
- 参考スコア(独自算出の注目度): 0.09786690381850356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) have become capable of effortlessly generating high-quality text, traditional quality-focused writing assessment is losing its significance. If the essential goal of education is to foster critical thinking and original perspectives, assessment must also shift its paradigm from quality to originality. This study proposes Argument Rarity-based Originality Assessment (AROA), a framework for automatically evaluating argumentative originality in student essays. AROA defines originality as rarity within a reference corpus and evaluates it through four complementary components: structural rarity, claim rarity, evidence rarity, and cognitive depth. The framework quantifies the rarity of each component using density estimation and integrates them with a quality adjustment mechanism, thereby treating quality and originality as independent evaluation axes. Experiments using human essays and AI-generated essays revealed a strong negative correlation between quality and claim rarity, demonstrating a quality-originality trade-off where higher-quality texts tend to rely on typical claim patterns. Furthermore, while AI essays achieved comparable levels of structural complexity to human essays, their claim rarity was substantially lower than that of humans, indicating that LLMs can reproduce the form of argumentation but have limitations in the originality of content.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高品質なテキストを生成することができるようになり、従来の品質重視の書き込みアセスメントは、その重要性を失いつつある。
批判的思考と独創的な視点を育むことが教育の本質的な目標であるならば、評価はパラダイムを質から独創性へとシフトさせる必要がある。
本研究では,学生エッセイにおける論証的独創性を自動評価するフレームワークであるArgument Rarity-based Originality Assessment (AROA)を提案する。
AROAは、原産地を基準コーパス内の希薄性と定義し、構造的希薄性、主張的希薄性、証拠的希薄性、認知的深度という4つの相補的構成要素を通して評価する。
このフレームワークは、密度推定を用いて各成分の希少性を定量化し、品質調整機構と一体化することにより、品質と独創性を独立評価軸として扱う。
人間のエッセイとAIによるエッセイを使った実験では、品質とクレームのラリティの間に強い負の相関が示され、高品質のテキストが典型的なクレームパターンに依存する傾向にある品質固有のトレードオフが示された。
さらに、AIエッセイは人間のエッセイに匹敵する構造的複雑さを達成したが、彼らの主張は人間の主張よりもかなり低かった。
関連論文リスト
- ScholarPeer: A Context-Aware Multi-Agent Framework for Automated Peer Review [48.60540055009675]
ScholarPeerは、上級研究者の認知過程をエミュレートするために設計された、検索可能なマルチエージェントフレームワークである。
We evaluate ScholarPeer on DeepReview-13K and the results showed that ScholarPeer achieve significant win-rates against state-of-the-art approach in side-side-side evaluations。
論文 参考訳(メタデータ) (2026-01-30T06:54:55Z) - Assessing the Reliability and Validity of Large Language Models for Automated Assessment of Student Essays in Higher Education [0.30158609733245967]
高等教育環境におけるエッセイ自動評価において,5つの高度な大規模言語モデル (LLM) , Claude 3.5, DeepSeek v2, Gemini 2.5, GPT-4, Mistral 24B について検討した。
イタリア語の学生エッセイは、合計67点が4基準ルーブリックを用いて評価された。
人間とLLMの合意は一貫して低く、非重要であり、複製間のモデル内信頼性も同様に弱かった。
論文 参考訳(メタデータ) (2025-08-04T14:02:12Z) - How do Humans and Language Models Reason About Creativity? A Comparative Analysis [12.398832289718703]
評価を用いた例を含む2つの実験が創造性評価にどのように影響するかを検討した。
研究1では、フォーマルな科学や工学のトレーニングで72人の専門家の創造性評価を分析した。
研究2では、最先端のLCMを用いた並列解析により、モデルが独創性を評価する際に、アイデアの非日常性と遠隔性を優先していることが判明した。
論文 参考訳(メタデータ) (2025-02-05T15:08:43Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Contextualizing Argument Quality Assessment with Relevant Knowledge [11.367297319588411]
SPARKは、関連する知識による文脈化に基づく議論品質を評価するための新しい手法である。
我々は、大きな言語モデルを利用してフィードバックを提供したり、隠れた仮定を推測したり、同様の品質の議論を提供したり、あるいは反論をしたりする4つの拡張を考案する。
論文 参考訳(メタデータ) (2023-05-20T21:04:58Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Measuring Association Between Labels and Free-Text Rationales [60.58672852655487]
解釈可能なNLPでは、説明された例に対するモデルの意思決定プロセスを反映した忠実な理性が必要です。
情報抽出型タスクに対する忠実な抽出合理化のための既存のモデルであるパイプラインは、自由テキスト合理化を必要とするタスクに確実に拡張されないことを示す。
我々は、信頼が確立されていない自由文合理化のための、広く使われている高性能モデルのクラスである、共同予測と合理化のモデルに目を向ける。
論文 参考訳(メタデータ) (2020-10-24T03:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。