論文の概要: A Hierarchical Framework for Measuring Scientific Paper Innovation via Large Language Models
- arxiv url: http://arxiv.org/abs/2504.14620v2
- Date: Fri, 24 Oct 2025 13:28:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:14.86159
- Title: A Hierarchical Framework for Measuring Scientific Paper Innovation via Large Language Models
- Title(参考訳): 大規模言語モデルによる科学論文のイノベーション計測のための階層的枠組み
- Authors: Hongming Tan, Shaoxiong Zhan, Fengwei Jia, Hai-Tao Zheng, Wai Kin Chan,
- Abstract要約: 大規模言語モデル(LLM)に基づく階層的かつトレーニング不要なフレームワークであるHSPIMを提案する。
セクションタイトルでテキストをセグメンテーションし、ゼロショットLCMを使用して、セクション分類、質問回答(QA)拡張、および重み付けされたイノベーションスコアを実装する。
そこで本研究では,共通質問とセクション固有の質問からなる2層質問構造を提案し,遺伝的アルゴリズムを用いて質問と提案の組合せを最適化する。
- 参考スコア(独自算出の注目度): 10.056045413390587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Measuring scientific paper innovation is both important and challenging. Existing content-based methods often overlook the full-paper context, fail to capture the full scope of innovation, and lack generalization. We propose HSPIM, a hierarchical and training-free framework based on large language models (LLMs). It introduces a Paper-to-Sections-to-QAs decomposition to assess innovation. We segment the text by section titles and use zero-shot LLM prompting to implement section classification, question-answering (QA) augmentation, and weighted innovation scoring. The generated QA pair focuses on section-level innovation and serves as additional context to improve the LLM scoring. For each chunk, the LLM outputs a novelty score and a confidence score. We use confidence scores as weights to aggregate novelty scores into a paper-level innovation score. To further improve performance, we propose a two-layer question structure consisting of common and section-specific questions, and apply a genetic algorithm to optimize the question-prompt combinations. Furthermore, under the fine-grained structure of innovation, we extend HSPIM to an HSPIM$^+$ that generates novelty, contribution, and feasibility scores with respective confidence scores. Comprehensive experiments on scientific conference paper datasets show that HSPIM outperforms baseline methods in effectiveness, generalization, and interpretability. Demo code is available at https://github.com/Jasaxion/HSPIM.
- Abstract(参考訳): 科学論文の革新を測定することは重要かつ困難である。
既存のコンテンツベースのメソッドは、多くの場合、フルペーパーのコンテキストを見落とし、イノベーションの完全なスコープを捉えず、一般化を欠いている。
本稿では,大規模言語モデル(LLM)に基づく階層的かつトレーニング不要なフレームワークであるHSPIMを提案する。
イノベーションを評価するためにPaper-to-Sections-to-QAs分解を導入する。
セクションタイトルでテキストをセグメンテーションし、ゼロショットLCMを使用して、セクション分類、質問回答(QA)拡張、および重み付けされたイノベーションスコアを実装する。
生成されたQAペアは、セクションレベルのイノベーションに焦点を当て、LLMスコアを改善するための追加のコンテキストとして機能します。
各チャンクに対して、LLMは新規性スコアと信頼スコアを出力する。
信頼スコアを重みとして、ノベルティスコアを紙レベルのイノベーションスコアに集約します。
そこで本研究では,共通質問とセクション固有の質問からなる2層質問構造を提案し,遺伝的アルゴリズムを用いて質問と提案の組合せを最適化する。
さらに,HSPIMをHSPIM$^+$に拡張することで,新規性,貢献性,実現可能性のスコアを各信頼度スコアで生成する。
学術会議論文データセットの総合的な実験により、HSPIMは、有効性、一般化、解釈可能性において、ベースライン法より優れていることが示された。
デモコードはhttps://github.com/Jasaxion/HSPIMで公開されている。
関連論文リスト
- Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。
学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。
我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文 参考訳(メタデータ) (2025-04-14T14:52:28Z) - CATER: Leveraging LLM to Pioneer a Multidimensional, Reference-Independent Paradigm in Translation Quality Evaluation [0.0]
Comprehensive AI-assisted Translation Edit Ratio (CATER)は、機械翻訳(MT)の品質を評価するための新しいフレームワークである。
大きな言語モデル(LLM)は、慎重に設計されたプロンプトベースのプロトコルによって使用される。
論文 参考訳(メタデータ) (2024-12-15T17:45:34Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - SciPIP: An LLM-based Scientific Paper Idea Proposer [30.670219064905677]
SciPIPは,文献検索とアイデア生成の両面での改善を通じて,科学的アイデアの提案を強化するために設計された,革新的なフレームワークである。
自然言語処理やコンピュータビジョンなど,さまざまな領域で実施した実験では,SciPIPが革新的で有用なアイデアを多数生成する能力を示した。
論文 参考訳(メタデータ) (2024-10-30T16:18:22Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Taxonomy Tree Generation from Citation Graph [15.188580557890942]
HiGTLは、人為的な指示や好みのトピックによってガイドされる、新しいエンドツーエンドフレームワークである。
我々は,各クラスタに中心的な概念を反復的に生成する,新しい分類ノード言語化戦略を開発した。
実験により、HiGTLはコヒーレントで高品質な概念を効果的に生成することが示された。
論文 参考訳(メタデータ) (2024-10-02T13:02:03Z) - Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。
本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。
我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文 参考訳(メタデータ) (2024-07-04T16:41:08Z) - HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context Learning in Factuality Evaluation [20.178644251662316]
本稿では,文脈内学習における関連する文節の検索を促進するために,階層的思考グラフ(HGOT)を導入する。
このフレームワークは、複雑なクエリを管理可能なサブクエリに分割する、分割/クエリ戦略を採用している。
それは、最近提案された引用リコールと精度の指標を取り入れた、回答の選択のための自己一貫性の過半数投票を洗練する。
論文 参考訳(メタデータ) (2024-02-14T18:41:19Z) - Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution [48.86322922826514]
本稿では,知識認識型言語モデル属性(KaLMA)の新たな課題について述べる。
まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。
第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。
第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文 参考訳(メタデータ) (2023-10-09T11:45:59Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。