Fugu-MT 論文翻訳(概要): Can Smaller Large Language Models Evaluate Research Quality?

論文の概要: Can Smaller Large Language Models Evaluate Research Quality?

arxiv url: http://arxiv.org/abs/2508.07196v1
Date: Sun, 10 Aug 2025 06:18:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-12 21:23:28.748571
Title: Can Smaller Large Language Models Evaluate Research Quality?
Title（参考訳）: より小さな言語モデルは研究品質を評価することができるか?
Authors: Mike Thelwall,
Abstract要約: この記事では、ダウンロード可能な LLM (60Gb) である Google の Gemma-3-27b-it を評価する。 104,187件の論文の結果から, Gemma-3-27b-itスコアは, UK Research Excellence Framework 2021の34単位(広視野)すべてに対して, 専門的な研究品質スコアプロキシと正の相関を示した。
参考スコア（独自算出の注目度）: 3.9627148816681284
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although both Google Gemini (1.5 Flash) and ChatGPT (4o and 4o-mini) give research quality evaluation scores that correlate positively with expert scores in nearly all fields, and more strongly that citations in most, it is not known whether this is true for smaller Large Language Models (LLMs). In response, this article assesses Google's Gemma-3-27b-it, a downloadable LLM (60Gb). The results for 104,187 articles show that Gemma-3-27b-it scores correlate positively with an expert research quality score proxy for all 34 Units of Assessment (broad fields) from the UK Research Excellence Framework 2021. The Gemma-3-27b-it correlations have 83.8% of the strength of ChatGPT 4o and 94.7% of the strength of ChatGPT 4o-mini correlations. Differently from the two larger LLMs, the Gemma-3-27b-it correlations do not increase substantially when the scores are averaged across five repetitions, its scores tend to be lower, and its reports are relatively uniform in style. Overall, the results show that research quality score estimation can be conducted by offline LLMs, so this capability is not an emergent property of the largest LLMs. Moreover, score improvement through repetition is not a universal feature of LLMs. In conclusion, although the largest LLMs still have the highest research evaluation score estimation capability, smaller ones can also be used for this task, and this can be helpful for cost saving or when secure offline processing is needed.
Abstract（参考訳）: Google Gemini (1.5 Flash) と ChatGPT (4o と 4o-mini) はどちらも、ほぼすべての分野のエキスパートスコアと正に相関する研究品質評価スコアを提供しているが、より強い引用は、これがより小さな大規模言語モデル(LLM)に当てはまるかどうかは不明である。これに対し、この記事では、ダウンロード可能なLCM (60Gb) である Google の Gemma-3-27b-it を評価します。 104,187件の論文の結果から, Gemma-3-27b-itスコアは, UK Research Excellence Framework 2021の34単位(広視野)すべてに対して, 専門的な研究品質スコアプロキシと正の相関を示した。 Gemma-3-27b-it相関はChatGPT 4oの強度の83.8%、ChatGPT 4o-mini相関の強度の94.7%である。 2つの大きなLCMとは異なり、Gemma-3-27b-it相関は5回の繰り返しでスコアが平均されるときに大きくは増加せず、スコアは低くなり、報告は比較的均一である。その結果,研究の質評価はオフラインLLMで行うことが可能であり,最大のLLMの創発的特性ではないことがわかった。さらに、繰り返しによるスコア改善はLLMの普遍的な特徴ではない。結論として、最大のLCMは依然として研究評価スコア推定能力が最も高いが、小型のLCMもこのタスクに使用できるため、コスト削減やセキュアなオフライン処理が必要な場合にも有効である。

関連論文リスト

PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。 LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文参考訳（メタデータ） (2026-03-02T00:50:39Z)
Can Small and Reasoning Large Language Models Score Journal Articles for Research Quality and Do Averaging and Few-shot Help? [3.920564895363768]
LLMと推論モデルが類似する能力を持つかどうかは不明である。より大きなモデルは、いくつかの状況では遅く非現実的であり、推論モデルは異なるパフォーマンスを示す可能性があるため、これは重要である。関連する4つの質問は、Gemma3の亜種であるLlama4 Scout、Qwen3、Magistral Small、DeepSeek R1で対処されている。結果は、より小さい (オープンウェイト) と推論 LLM が ChatGPT 4o-mini や Gemini 2.0 Flash と同等の性能を持つことを示唆している。
論文参考訳（メタデータ） (2025-10-25T18:12:41Z)
Code Generation with Small Language Models: A Codeforces-Based Study [1.728619497446087]
大きな言語モデル(LLM)はコード生成の機能を示し、開発者の生産性を高める可能性がある。しかし、それらの採用は高い計算コストなどによって制限されている。小型言語モデル(SLM)は軽量な代替案である。
論文参考訳（メタデータ） (2025-04-09T23:57:44Z)
GLIDER: Grading LLM Interactions and Decisions using Explainable Ranking [0.9614204956530676]
我々は,任意のユーザ定義基準に基づいて任意のテキスト入力および関連するコンテキストをスコアできる,強力な3B評価用LLMであるGLIDERを紹介する。 GLIDERは、FLASK上のGPT-4oよりもピアソンの相関が高く、事前評価モデルよりも大幅に優れていた。きめ細かいスコア付け、多言語推論、強調表示をサポートし、685のドメインと183の基準でトレーニングされた。
論文参考訳（メタデータ） (2024-12-18T18:41:12Z)
A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文参考訳（メタデータ） (2024-11-13T01:12:35Z)
Evaluating Research Quality with Large Language Models: An Analysis of ChatGPT's Effectiveness with Different Settings and Inputs [3.9627148816681284]
本稿では、どのChatGPT入力がより良い品質スコア推定をもたらすかを評価する。最適な入力は記事のタイトルと抽象であり、平均的なChatGPTスコアは人間のスコアと0.67と相関している。
論文参考訳（メタデータ） (2024-08-13T09:19:21Z)
Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。 GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文参考訳（メタデータ） (2024-07-05T12:30:02Z)
Distortions in Judged Spatial Relations in Large Language Models [45.875801135769585]
GPT-4は55%の精度で優れた性能を示し、GPT-3.5は47%、Llama-2は45%であった。モデルは、ほとんどの場合において最も近い基数方向を同定し、その連想学習機構を反映した。
論文参考訳（メタデータ） (2024-01-08T20:08:04Z)
"Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。本研究は,Halucination rate,Halucination rate,Halucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sr。
論文参考訳（メタデータ） (2023-12-18T17:18:04Z)
Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文参考訳（メタデータ） (2023-11-12T17:18:21Z)
A Closer Look into Automatic Evaluation Using Large Language Models [75.49360351036773]
評価プロセスの細部が、LLMが与える評価と人間の評価との相関性をどのように変化させるかについて議論する。 G-Evalで使用されるAuto Chain-of-Thought (CoT)は、必ずしもG-Evalを人間の評価に適合させるものではない。また、LLMにG-Evalのように、数値評価のみを出力させることが、最適以下であることも示している。
論文参考訳（メタデータ） (2023-10-09T12:12:55Z)
Split and Merge: Aligning Position Biases in LLM-based Evaluators [22.265542509143756]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。 GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文参考訳（メタデータ） (2023-09-29T14:38:58Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。