論文の概要: LLM-Metrics: Measuring Research Impact Through Large Language Model Memory
- arxiv url: http://arxiv.org/abs/2605.22176v1
- Date: Thu, 21 May 2026 08:45:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.170551
- Title: LLM-Metrics: Measuring Research Impact Through Large Language Model Memory
- Title(参考訳): LLM-Metrics:大規模言語モデルメモリによる研究インパクトの測定
- Authors: Si Shen, Wenhua Zhao, Danhao Zhu,
- Abstract要約: 大規模言語モデル(LLM)のパラメトリックメモリから導出した研究・インパクト評価指標であるLLM-Metricsを提案する。
2023-2024年に発行された549のコンピュータサイエンス論文を,6つのベンダーから0.5Bから72Bのパラメータにまたがる17のLLMで評価した。
17モデルのうち15モデルが肯定的な予測を行い、そのうち9モデルが0.05未満のpで有意であり、rho = 0.1495 と p = 0.0004 のスピアマンの総合的な相関は引用数に対して有意であった。
- 参考スコア(独自算出の注目度): 0.09685837672183746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Citation counts remain the dominant metric for assessing research impact, yet they suffer from well-documented limitations: temporal lag, disciplinary bias, and Matthew effects. Here we propose LLM-Metrics, a research-impact assessment metric derived from the parametric memory of large language models (LLMs). The central hypothesis is that high-impact papers receive greater exposure in the academic community, that this exposure enters LLM training data in textual form, and that models consequently form stronger parametric memory of these papers. We designed four types of multiple-choice probes, covering title recognition, author recognition, method recognition, and venue recognition, and evaluated 549 computer science papers published in 2023-2024 across 17 LLMs spanning 0.5B to 72B parameters from six vendors. Of the 17 models, 15 produced positive predictions, 9 of which were significant at p less than 0.05, with an overall Spearman correlation of rho = 0.1495 and p = 0.0004 against citation counts. Three additional findings support the proposed mechanism. First, the predictive signal was stronger for 2024 papers, rho = 0.1880, whose citation counts were near zero at model-training time, reducing the plausibility of a simple reverse-causality explanation. Second, author-recognition probes showed the strongest discriminative power, consistent with an exposure-driven memory mechanism. Third, model scale and predictive power were non-monotonic: a 3B-parameter model, Llama-3.2-3B-Instruct, with rho = 0.1829, outperformed most larger models, supporting a selective-memory hypothesis in which the limited capacity of smaller models can serve as an effective information filter. LLM-Metrics offers a real-time, cross-disciplinary, citation-independent paradigm for research assessment.
- Abstract(参考訳): サイテーションは依然として研究効果を評価する主要な指標であるが、それらは時間的遅延、懲戒的偏見、マシュー効果など、十分に文書化された限界に悩まされている。
本稿では,大規模言語モデル (LLM) のパラメトリックメモリから導出した研究・インパクト評価指標 LLM-Metrics を提案する。
中心的な仮説は、高インパクト論文は学術界でより多く暴露され、この暴露がLLMトレーニングデータをテキスト形式で入力し、結果としてこれらの論文のより強力なパラメトリックメモリを形成するというものである。
我々は、タイトル認識、著者認識、メソッド認識、会場認識の4種類のマルチチョイスプローブを設計し、6つのベンダーから0.5Bから72Bのパラメータにまたがる17 LLMに対して、2023-2024年に発行された549のコンピュータサイエンス論文を評価した。
17モデルのうち15モデルが肯定的な予測を行い、そのうち9モデルが0.05未満のpで有意であり、rho = 0.1495 と p = 0.0004 のスピアマンの総合的な相関は引用数に対して有意であった。
さらに3つの発見が提案されたメカニズムを支持している。
第一に、予測信号は2024の論文ではより強く、rho = 0.1880であり、その引用数はモデル学習時にゼロに近いため、単純な逆因性説明の妥当性は低下した。
第2に、著者認識プローブは、露光駆動型メモリ機構と整合して、最も強い識別力を示した。
第3に、モデルスケールと予測能力はモノトニックではない: 3Bパラメータモデル、Llama-3.2-3B-Instruct、rho = 0.1829で、より大きなモデルよりも優れており、より小さなモデルの限られた能力が効果的な情報フィルタとして機能する選択記憶仮説を支持している。
LLM-Metricsは、リアルタイム、クロスディシプリナリー、引用非依存のパラダイムを研究評価のために提供している。
関連論文リスト
- SciImpact: A Multi-Dimensional, Multi-Field Benchmark for Scientific Impact Prediction [10.526822187607658]
SciImpactは19分野にわたる科学的影響予測のための大規模多次元ベンチマークである。
215,928枚のコントラスト紙で構成され、短期と長期の両方で有意義な影響差を反映している。
我々は、SciImpact上で広く使われている11の大規模言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2026-04-18T20:33:31Z) - How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations [1.0829694003408499]
大規模言語モデル(LLM)は、学術的な引用を作るために注目されているが、この振る舞いの範囲はいまだに定量化されていない。
これまでに,4つの学術領域に10のLLMを商業展開させた,最も大きな幻覚誘発検査の1つを報告した。
以上の結果から,観察された幻覚率は5倍の範囲(11.4%から56.8%)で,モデル,ドメイン,迅速なフレーミングによって強く形成されていることが明らかとなった。
論文 参考訳(メタデータ) (2026-02-07T00:14:00Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation [66.84286617519258]
大規模言語モデルは、データアノテーションやテキスト分析といった労働集約的なタスクの自動化を可能にすることで、社会科学の研究を変革している。
このような変異は、系統的なバイアスやランダムなエラーを導入し、下流の分析に伝播し、タイプI(偽陽性)、タイプII(偽陰性)、タイプS(重み付け効果)、タイプM(誇張効果)のエラーを引き起こす。
意図的なLSMハッキングは驚くほど単純であることがわかった。21の社会科学研究から37のデータアノテーションタスクを複製することで、ほんのわずかのプロンプトの言い回しで、事実上何であれ統計的に重要なものとして表現できることがわかりました。
論文 参考訳(メタデータ) (2025-09-10T17:58:53Z) - Attribution in Scientific Literature: New Benchmark and Methods [41.64918533152914]
大規模言語モデル(LLM)は、科学的コミュニケーションにおいて、自動ソース引用のための有望だが挑戦的なフロンティアを提供する。
本稿では、arXivから12の科学領域にまたがる文レベルのアノテーションを備えた新しいデータセットREASONSを紹介する。
我々は、GPT-O1、GPT-4O、GPT-3.5、DeepSeekなどのモデルや、Perplexity AI (7B)のような他の小さなモデルで広範な実験を行う。
論文 参考訳(メタデータ) (2024-05-03T16:38:51Z) - Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。