論文の概要: Automating Categorization of Scientific Texts with In-Context Learning and Prompt-Chaining in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.23430v1
- Date: Sat, 25 Apr 2026 19:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.332178
- Title: Automating Categorization of Scientific Texts with In-Context Learning and Prompt-Chaining in Large Language Models
- Title(参考訳): 大規模言語モデルにおける文脈学習とPrompt-Chainingによる科学テキストの自動分類
- Authors: Gautam Kishore Shahi, Oliver Hummel,
- Abstract要約: 本研究は,科学的テキストの分析において,既成の大規模言語モデル(LLM)の性能を体系的に評価する。
In-Context Learning (ICL) と Prompt Chaining の先進的なエンジニアリング戦略の有効性を検討した。
実験の結果, プロンプト連鎖は純粋なICLに比べ, 分類精度が優れていることがわかった。
- 参考スコア(独自算出の注目度): 4.1824815480811806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The relentless expansion of scientific literature presents significant challenges for navigation and knowledge discovery. Within Research Information Retrieval, established tasks such as text summarization and classification remain crucial for enabling researchers and practitioners to effectively navigate this vast landscape, so that efforts have increasingly been focused on developing advanced research information systems. These systems aim not only to provide standard keyword-based search functionalities but also to incorporate capabilities for automatic content categorization within knowledge-intensive organizations across academia and industry. This study systematically evaluates the performance of off-the-shelf Large Language Models (LLMs) in analyzing scientific texts according to a given classification scheme. We utilized the hierarchical ORKG taxonomy as a classification framework, employing the FORC dataset as ground truth. We investigated the effectiveness of advanced prompt engineering strategies, namely In-Context Learning (ICL) and Prompt Chaining, and experimentally explored the influence of the LLMs' temperature hyperparameter on classification accuracy. Our experiments demonstrate that Prompt Chaining yields superior classification accuracy compared to pure ICL, particularly when applied to the nested structure of the ORKG taxonomy. LLMs with prompt chaining outperform the state-of-the-art models for domain (1st level) prediction and show even better performance for subject (2nd level) prediction compared to the older BERT model. However, LLMs are not yet able to perform well in classifying the topic (3rd level) of research areas based on this specific hierarchical taxonomy, as they only reach about 50% accuracy even with prompt chaining.
- Abstract(参考訳): 科学文献の絶え間ない拡大は、ナビゲーションと知識発見に重大な課題をもたらす。
研究情報検索の中では、研究者や実践者がこの広大な景観を効果的にナビゲートするためには、テキスト要約や分類などの確立されたタスクが不可欠であり、高度な研究情報システムの開発に力を入れている。
これらのシステムは,標準的なキーワードベースの検索機能の提供だけでなく,学術・産業の知識集約型組織におけるコンテンツの自動分類機能の導入も目指している。
本研究は, 既成の大規模言語モデル(LLM)の性能を, 与えられた分類体系に従って分析する手法として, 系統的に評価する。
我々は、階層的なORKG分類を分類の枠組みとして利用し、FORCデータセットを基礎的真理として利用した。
本研究では,ICL(In-Context Learning)とPrompt Chaining(Prompt Chaining)の高度な技術戦略の有効性について検討し,LLMの温度ハイパーパラメータが分類精度に与える影響を実験的に検討した。
以上の結果から,Pmpt Chainingは純粋なICLよりも高い分類精度を示し,特にORKG分類のネスト構造に適用した場合に有効であることがわかった。
即時連鎖によるLLMは、ドメイン(第1レベル)予測のための最先端モデルよりも優れており、古いBERTモデルよりも被写体(第2レベル)予測の方が優れた性能を示している。
しかし、LLMは、この特定の階層的な分類に基づいて研究領域のトピック(第3レベル)を分類する上で、まだうまく機能していない。
関連論文リスト
- Lost in Tokenization: Context as the Key to Unlocking Biomolecular Understanding in Scientific LLMs [78.18336140706471]
Sci-LLMは、生物発見を加速するための有望なフロンティアとして登場した。
現在の戦略では生の生体分子配列を処理する際にSci-LLMの推論能力を制限する。
より効果的な戦略は、Sci-LLMに高レベルな構造化コンテキストを提供することである。
論文 参考訳(メタデータ) (2025-10-27T09:03:21Z) - Advances in Pre-trained Language Models for Domain-Specific Text Classification: A Systematic Review [0.42970700836450487]
大規模言語モデル(LLM)は、NLPにおいて顕著な成功を収めた。
それらの精度は、特殊語彙、一意の文法構造、不均衡なデータ分布によって、ドメイン固有の文脈で悩まされる。
ドメイン固有テキスト分類における事前学習言語モデル(PLM)の利用について検討する。
論文 参考訳(メタデータ) (2025-10-18T22:46:53Z) - Context-Aware Hierarchical Taxonomy Generation for Scientific Papers via LLM-Guided Multi-Aspect Clustering [59.54662810933882]
既存の分類体系の構築手法は、教師なしクラスタリングや大きな言語モデルの直接的プロンプトを利用しており、コヒーレンスと粒度の欠如が多かった。
LLM誘導型マルチアスペクト符号化と動的クラスタリングを統合したコンテキスト対応階層型階層型分類生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T15:12:58Z) - How Do LLM-Generated Texts Impact Term-Based Retrieval Models? [76.92519309816008]
本稿では,大規模言語モデル(LLM)が項ベース検索モデルに与える影響について検討する。
言語学的解析により,LLM生成テキストはよりスムーズで低周波なZipf勾配を示すことが明らかとなった。
本研究は,項分布がクエリと密接に一致した文書を優先して,項ベース検索モデルがソースバイアスを示すかどうかを考察する。
論文 参考訳(メタデータ) (2025-08-25T06:43:27Z) - On the Effectiveness of Large Language Models in Automating Categorization of Scientific Texts [5.831737970661138]
我々は,学術論文を階層型分類システムに分類する能力において,Large Language Models (LLMs) を評価する。
FORCデータセットを基底真理データとして使用することにより、最近のLCMでは、従来のBERTモデルよりも最大0.08の精度で、最大0.82の精度を達成できることがわかった。
論文 参考訳(メタデータ) (2025-02-08T20:37:21Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Enriched BERT Embeddings for Scholarly Publication Classification [0.13654846342364302]
NSLP 2024 FoRC Task Iは、競争として組織されたこの課題に対処する。
目的は、ある論文に対する研究分野の分類法であるOpen Research Knowledge Graph (ORKG) から、123の事前定義されたクラスのうちの1つを予測することができる分類器を開発することである。
論文 参考訳(メタデータ) (2024-05-07T09:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。