Fugu-MT 論文翻訳(概要): How Do LLMs Encode Scientific Quality? An Empirical Study Using Monosemantic Features from Sparse Autoencoders

論文の概要: How Do LLMs Encode Scientific Quality? An Empirical Study Using Monosemantic Features from Sparse Autoencoders

arxiv url: http://arxiv.org/abs/2602.19115v1
Date: Sun, 22 Feb 2026 10:12:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.488225
Title: How Do LLMs Encode Scientific Quality? An Empirical Study Using Monosemantic Features from Sparse Autoencoders
Title（参考訳）: LLMはどのようにして科学的品質を符号化するか : スパースオートエンコーダの単意味特徴を用いた実証的研究
Authors: Michael McCoubrey, Angelo Salatino, Francesco Osborne, Enrico Motta,
Abstract要約: 本稿では,大規模言語モデル (LLM) が科学的品質の概念をどう符号化するかを検討する。我々は、異なる実験条件下でこれらの特徴を導き、予測器として機能する能力を評価する。研究品質の表現のキーとなる側面を捉えた4種類の特徴を同定する。
参考スコア（独自算出の注目度）: 0.8633013637160062
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, there has been a growing use of generative AI, and large language models (LLMs) in particular, to support both the assessment and generation of scientific work. Although some studies have shown that LLMs can, to a certain extent, evaluate research according to perceived quality, our understanding of the internal mechanisms that enable this capability remains limited. This paper presents the first study that investigates how LLMs encode the concept of scientific quality through relevant monosemantic features extracted using sparse autoencoders. We derive such features under different experimental settings and assess their ability to serve as predictors across three tasks related to research quality: predicting citation count, journal SJR, and journal h-index. The results indicate that LLMs encode features associated with multiple dimensions of scientific quality. In particular, we identify four recurring types of features that capture key aspects of how research quality is represented: 1) features reflecting research methodologies; 2) features related to publication type, with literature reviews typically exhibiting higher impact; 3) features associated with high-impact research fields and technologies; and 4) features corresponding to specific scientific jargons. These findings represent an important step toward understanding how LLMs encapsulate concepts related to research quality.
Abstract（参考訳）: 近年、科学研究の評価と生成を支援するために、生成的AI、特に大規模言語モデル(LLM)の利用が増加している。いくつかの研究は、LLMがある程度は、知覚された品質で研究を評価することができることを示したが、この能力を実現する内部メカニズムの理解は限られている。本稿では, スパースオートエンコーダを用いて抽出したモノセマンティックな特徴を用いて, LLMが科学的品質の概念をエンコードする方法について検討した。本研究では,これらの特徴を異なる実験条件下で導き,研究品質に関連する3つのタスク(引用数予測,ジャーナルSJR,ジャーナルh-index)にまたがる予測機能を評価する。その結果,LLMは科学的品質の多次元に関連付けられた特徴を符号化していることがわかった。特に,研究の質を表す上で重要な側面を捉えた4つの特徴を同定する。 1) 研究方法論を反映した特徴 2 出版形態に関する特色で、文献評論は、典型的には、高い影響を示す。 3)高インパクト研究分野及び技術に関連する特徴,及び 4) 特定の科学的用語に対応する特徴。これらの知見は、LLMが研究品質に関する概念をカプセル化する方法を理解するための重要なステップである。

関連論文リスト

HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery [50.8841471967624]
HiSciBenchは、完全な科学的ワークフローを反映した5つのレベルにわたる基礎モデルを評価するために設計された階層的なベンチマークである。 HiSciBenchには、6つの主要な科学分野にまたがる8,735件の慎重に管理された事例が含まれている。
論文参考訳（メタデータ） (2025-12-28T12:08:05Z)
Let's Use ChatGPT To Write Our Paper! Benchmarking LLMs To Write the Introduction of a Research Paper [64.50822834679101]
SciIGは、タイトル、抽象、および関連する作品からコヒーレントな紹介を生成するLLMの能力を評価するタスクである。オープンソース (DeepSeek-v3, Gemma-3-12B, LLaMA 4-Maverick, MistralAI Small 3.1) およびクローズドソース GPT-4o システムを含む5つの最先端モデルを評価する。結果は、特に意味的類似性と忠実性において、ほとんどのメトリクスにおいて、LLaMA-4 Maverickの優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2025-08-19T21:11:11Z)
Reproducibility of Machine Learning-Based Fault Detection and Diagnosis for HVAC Systems in Buildings: An Empirical Study [7.852209218432359]
本稿では,建築エネルギーシステムにおける機械学習アプリケーションの透明性と標準について分析する。その結果、ほとんど全ての記事は、開示が不十分なため再現できないことが示唆された。これらの知見は、ガイドライン、研究者のためのトレーニング、雑誌や会議による政策など、対象とする介入の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-07-23T07:35:58Z)
LMR-BENCH: Evaluating LLM Agent's Ability on Reproducing Language Modeling Research [32.35279830326718]
大規模言語モデル(LLM)エージェントは、科学的発見の進展に顕著な可能性を証明している。しかし、研究論文、特にNLPドメインからコードを再生する能力は、いまだ解明されていない。本稿ではLMR-BENCHについて述べる。LMR-BENCHは言語モデリング研究におけるLLMエージェントのコード再生能力を評価するためのベンチマークである。
論文参考訳（メタデータ） (2025-06-19T07:04:16Z)
Large Language Model-Based Agents for Automated Research Reproducibility: An Exploratory Study in Alzheimer's Disease [1.9938547353667109]
我々は、National Alzheimer's Coordinating Centerの“Quick Access”データセットを使用しました。 NACCデータを用いて,高度に引用された論文を同定した。コードの記述と実行を担当するLLMベースの自律エージェントのシミュレーション研究チームを作成しました。
論文参考訳（メタデータ） (2025-05-29T01:31:55Z)
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文参考訳（メタデータ） (2025-03-27T08:09:15Z)
MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction [44.27112553103388]
分子特性予測を拡張した大規模言語モデル(LLM)の最初の包括的なベンチマークである分子キャプションアリーナを提示する。汎用分子キャプタとドメイン特異的分子キャプタを含む20以上のLDMを,様々な予測タスクで評価した。以上の結果から,LLM抽出した知識が最先端の分子表現を向上する可能性が示唆された。
論文参考訳（メタデータ） (2024-11-01T17:03:16Z)
A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文参考訳（メタデータ） (2024-06-16T08:03:24Z)
Evaluating Large Language Models for Structured Science Summarization in the Open Research Knowledge Graph [18.41743815836192]
本稿では,構造化科学要約のプロパティを自動提案するために,Large Language Models (LLMs) を提案する。本研究は,ORKGが手作業でキュレートした特性と,前述の最先端のLCMによって生成された特性とを総合的に比較した。全体として、LLMは科学を構造化するためのレコメンデーションシステムとしての可能性を示しているが、科学的タスクや人間の専門知識の模倣との整合性を改善するために、さらなる微調整が推奨されている。
論文参考訳（メタデータ） (2024-05-03T14:03:04Z)
ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。 ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文参考訳（メタデータ） (2024-04-11T13:36:29Z)
Exploring the Cognitive Knowledge Structure of Large Language Models: An Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文参考訳（メタデータ） (2023-10-12T09:55:45Z)
SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research [11.816426823341134]
これらの問題に対処するための総合的・多分野評価ベンチマークSciEvalを提案する。ブルームの分類に基づいて、SciEvalは科学的研究能力を体系的に評価する4つの次元をカバーしている。主観的質問も主観的質問もSciEvalに含まれる。
論文参考訳（メタデータ） (2023-08-25T03:05:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。