論文の概要: Assisting Research Proposal Writing with Large Language Models: Evaluation and Refinement
- arxiv url: http://arxiv.org/abs/2509.09709v1
- Date: Sun, 07 Sep 2025 10:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.834249
- Title: Assisting Research Proposal Writing with Large Language Models: Evaluation and Refinement
- Title(参考訳): 大規模言語モデルを用いた研究論文作成支援:評価と再検討
- Authors: Jing Ren, Weiqi Wang,
- Abstract要約: 本稿では,この2つの指標から得られたスコアに基づいて,コンテンツ品質と参照妥当性の2つの重要な評価指標と反復的プロンプト手法を提案する。
実験の結果,提案手法はChatGPTの書き込み性能を評価するための客観的,定量的な枠組みを提供することがわかった。
- 参考スコア(独自算出の注目度): 12.13985600260574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) like ChatGPT are increasingly used in academic writing, yet issues such as incorrect or fabricated references raise ethical concerns. Moreover, current content quality evaluations often rely on subjective human judgment, which is labor-intensive and lacks objectivity, potentially compromising the consistency and reliability. In this study, to provide a quantitative evaluation and enhance research proposal writing capabilities of LLMs, we propose two key evaluation metrics--content quality and reference validity--and an iterative prompting method based on the scores derived from these two metrics. Our extensive experiments show that the proposed metrics provide an objective, quantitative framework for assessing ChatGPT's writing performance. Additionally, iterative prompting significantly enhances content quality while reducing reference inaccuracies and fabrications, addressing critical ethical challenges in academic contexts.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、学術的な執筆にますます使われているが、誤った参照や偽造参照などの問題は倫理的懸念を引き起こす。
さらに、現在のコンテンツ品質評価は、労働集約的で客観性に欠ける主観的人間の判断に依存し、一貫性と信頼性を損なう可能性がある。
本研究では, LLMの量的評価と研究提案能力の向上を目的として, この2つの指標から得られたスコアに基づいて, 基準品質と基準妥当性の2つの重要な評価指標と反復的プロンプト手法を提案する。
提案手法は,ChatGPTの書き込み性能を評価するための客観的かつ定量的なフレームワークを提供することを示す。
さらに、反復的なプロンプトは内容の質を著しく向上させ、参照の不正確さや製造を減らし、学術的文脈における批判的な倫理的課題に対処する。
関連論文リスト
- Objective Metrics for Evaluating Large Language Models Using External Data Sources [4.574672973076743]
本稿では,異なるセメータにまたがるクラステキスト資料から得られた主観的指標を活用するための枠組みを提案する。
このフレームワークは、スコアリングにおける自動化と透明性を強調し、人間の解釈への依存を減らす。
本手法は, 主観評価手法の限界に対処し, 教育, 科学, その他の高度な分野のパフォーマンス評価のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-08-01T02:24:19Z) - DeepCRCEval: Revisiting the Evaluation of Code Review Comment Generation [11.010557279355885]
本研究は,先行研究や開発者インタビューから得られた新しい基準を用いて,ベンチマークコメントを実証的に分析する。
評価フレームワークであるDeepCRCEvalは、人間の評価器とLarge Language Models(LLM)を統合し、現在の手法を総合的に再評価する。
論文 参考訳(メタデータ) (2024-12-24T08:53:54Z) - Optimizing the role of human evaluation in LLM-based spoken document summarization systems [0.0]
生成AIコンテンツに適した音声文書要約のための評価パラダイムを提案する。
実験設計における堅牢性, 再現性, 信頼性を確保するために, 詳細な評価基準とベストプラクティスガイドラインを提供する。
論文 参考訳(メタデータ) (2024-10-23T18:37:14Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores [23.568883428947494]
本研究は,LMに基づく評価指標が,要約タスクの文脈において,それぞれの基盤となるLMに対して有利なバイアスを示すかどうかを考察する。
以上の結果から, 金のサマリーを活用せずに, 基準のない手法で評価指標を用いた場合, 特に有意なバイアスがみられた。
これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質を超える要因に影響される可能性があることを裏付けている。
論文 参考訳(メタデータ) (2023-11-16T10:43:26Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。