論文の概要: Automated Novelty Evaluation of Academic Paper: A Collaborative Approach Integrating Human and Large Language Model Knowledge
- arxiv url: http://arxiv.org/abs/2507.11330v2
- Date: Wed, 16 Jul 2025 14:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 12:30:11.790314
- Title: Automated Novelty Evaluation of Academic Paper: A Collaborative Approach Integrating Human and Large Language Model Knowledge
- Title(参考訳): 学術論文の新規性自動評価:人間と大言語モデルの知識を融合した協調的アプローチ
- Authors: Wenqing Wu, Chengzhi Zhang, Yi Zhao,
- Abstract要約: 学術論文における最も一般的なノベルティの1つは、新しい方法の導入である。
本稿では,論文の手法の新規性を予測するための事前学習言語モデル(PLM)を支援するために,人間の知識とLLMを活用することを提案する。
- 参考スコア(独自算出の注目度): 9.208744138848765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Novelty is a crucial criterion in the peer review process for evaluating academic papers. Traditionally, it's judged by experts or measure by unique reference combinations. Both methods have limitations: experts have limited knowledge, and the effectiveness of the combination method is uncertain. Moreover, it's unclear if unique citations truly measure novelty. The large language model (LLM) possesses a wealth of knowledge, while human experts possess judgment abilities that the LLM does not possess. Therefore, our research integrates the knowledge and abilities of LLM and human experts to address the limitations of novelty assessment. One of the most common types of novelty in academic papers is the introduction of new methods. In this paper, we propose leveraging human knowledge and LLM to assist pretrained language models (PLMs, e.g. BERT etc.) in predicting the method novelty of papers. Specifically, we extract sentences related to the novelty of the academic paper from peer review reports and use LLM to summarize the methodology section of the academic paper, which are then used to fine-tune PLMs. In addition, we have designed a text-guided fusion module with novel Sparse-Attention to better integrate human and LLM knowledge. We compared the method we proposed with a large number of baselines. Extensive experiments demonstrate that our method achieves superior performance.
- Abstract(参考訳): ノベルティは学術論文を評価するための査読過程において重要な基準である。
伝統的に、専門家によって判断されるか、ユニークな参照の組み合わせによって測定される。
どちらの方法にも限界があり、専門家は知識が限られており、組み合わせ方法の有効性は不確実である。
また、独特な引用が真に斬新さを測るかどうかは定かではない。
大きな言語モデル(LLM)は豊富な知識を持ち、人間の専門家はLLMが持っていない判断能力を持っている。
そこで本研究では,LLMと人間専門家の知識と能力を統合し,新規性評価の限界に対処する。
学術論文における最も一般的なノベルティの1つは、新しい方法の導入である。
本稿では、人間の知識とLLMを活用して、事前学習された言語モデル(PLMs、eg BERTなど)を用いて、論文の手法の新規性を予測することを提案する。
具体的には、学術論文の新規性に関する文章をピアレビューレポートから抽出し、LSMを用いて学術論文の方法論セクションを要約し、PLMを微調整する。
また,人間の知識とLLMの知識をよりよく統合するために,新規なスパース・アテンションを用いたテキスト誘導型融合モジュールを設計した。
我々は提案した手法を多数のベースラインと比較した。
大規模な実験により,本手法が優れた性能を発揮することが示された。
関連論文リスト
- Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文 参考訳(メタデータ) (2025-03-28T14:08:40Z) - MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。
MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。
LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文 参考訳(メタデータ) (2025-03-26T11:09:21Z) - Large Language Models Penetration in Scholarly Writing and Peer Review [43.600778691549706]
学術的な視点と次元にまたがる大規模言語モデルの浸透を評価する。
本実験は,学術的プロセスにおけるLLMの役割の増大を明らかにするために,textttLLMetricaの有効性を実証した。
これらの知見は、学術的信頼性を維持するために、LLMの使用における透明性、説明責任、倫理的実践の必要性を強調した。
論文 参考訳(メタデータ) (2025-02-16T16:37:34Z) - The Alternative Annotator Test for LLM-as-a-Judge: How to Statistically Justify Replacing Human Annotators with LLMs [21.97227334180969]
LLM-as-an-judge」パラダイムは、人間が伝統的に行ってきたタスクにおいて、アノテータ、審査員、評価役としてLarge Language Models(LLM)を用いる。
研究結果や洞察を形成する上での役割にもかかわらず、LLMがヒトのアノテーターを置き換えることができるかどうかを判断するための標準的あるいは厳格な手順は存在しない。
LLMアノテーションの使用を正当化するために、アノテーション付きサンプルの控えめなサブセットだけを必要とする新しい統計手法である代替アノテーションテスト(alt-test)を提案する。
論文 参考訳(メタデータ) (2025-01-19T07:09:11Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - How to Make the Most of LLMs' Grammatical Knowledge for Acceptability Judgments [22.76776244036282]
言語モデル(LM)の文法的知識は、言語的最小対のベンチマークを用いてしばしば測定される。
最近の大規模言語モデル(LLM)は、プロンプトによってタスクを実行するように訓練されているため、それらが割り当てる生の確率は文法的知識を完全に反映していないかもしれない。
本研究は, プロンプトとテンプレートを用いて, LLMからより正確な判断を導出する試みである。
論文 参考訳(メタデータ) (2024-08-19T01:53:47Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [77.72128397088409]
本研究は,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。
また,モデルが積極的に複合推論を行うように促す新しい強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - Exploring the landscape of large language models: Foundations, techniques, and challenges [8.042562891309414]
この記事では、コンテキスト内学習の力学と微調整アプローチのスペクトルについて光を当てている。
革新的な強化学習フレームワークを通じて、LLMが人間の好みとより緊密に連携する方法について検討する。
LLMデプロイメントの倫理的側面は議論され、マインドフルで責任あるアプリケーションの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-18T08:01:20Z) - Comuniqa : Exploring Large Language Models for improving speaking skills [2.8227892155844088]
本稿では,Large Language Models (LLMs) の英語能力向上の可能性について検討する。
人工知能(AI)の最近の進歩は、限界を克服する有望なソリューションを提供する。
我々は,英語のスキル向上を目的とした,新しいLLMベースのシステムであるComuniqaを提案する。
論文 参考訳(メタデータ) (2024-01-28T07:37:33Z) - Little Giants: Exploring the Potential of Small LLMs as Evaluation
Metrics in Summarization in the Eval4NLP 2023 Shared Task [53.163534619649866]
本稿では,大規模言語モデルに品質評価の課題を扱えるように,プロンプトベースの手法の有効性を評価することに焦点を当てる。
我々は,標準的なプロンプト,アノテータ命令によって通知されるプロンプト,イノベーティブなチェーン・オブ・シークレットプロンプトなど,様々なプロンプト技術を用いて,系統的な実験を行った。
我々の研究は、これらのアプローチを"小さな"オープンソースモデル(orca_mini_v3_7B)を使って組み合わせることで、競争結果が得られることを示した。
論文 参考訳(メタデータ) (2023-11-01T17:44:35Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。