論文の概要: SC4ANM: Identifying Optimal Section Combinations for Automated Novelty Prediction in Academic Papers
- arxiv url: http://arxiv.org/abs/2505.16330v1
- Date: Thu, 22 May 2025 07:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.12255
- Title: SC4ANM: Identifying Optimal Section Combinations for Automated Novelty Prediction in Academic Papers
- Title(参考訳): SC4ANM:学術論文における自動新規性予測のための最適部分組合せの同定
- Authors: Wenqing Wu, Chengzhi Zhang, Tong Bao, Yi Zhao,
- Abstract要約: 論文の新規性を評価するためのセクションの最適組み合わせについて検討する。
学術論文から異なるセクションの組み合わせを入力として使用し、新奇性スコアを予測するために言語モデルを駆動する。
その結果, 論文の新規性を評価する上で, 導入, 結果, 議論が最適であることが示唆された。
- 参考スコア(独自算出の注目度): 8.429610725816321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Novelty is a core component of academic papers, and there are multiple perspectives on the assessment of novelty. Existing methods often focus on word or entity combinations, which provide limited insights. The content related to a paper's novelty is typically distributed across different core sections, e.g., Introduction, Methodology and Results. Therefore, exploring the optimal combination of sections for evaluating the novelty of a paper is important for advancing automated novelty assessment. In this paper, we utilize different combinations of sections from academic papers as inputs to drive language models to predict novelty scores. We then analyze the results to determine the optimal section combinations for novelty score prediction. We first employ natural language processing techniques to identify the sectional structure of academic papers, categorizing them into introduction, methods, results, and discussion (IMRaD). Subsequently, we used different combinations of these sections (e.g., introduction and methods) as inputs for pretrained language models (PLMs) and large language models (LLMs), employing novelty scores provided by human expert reviewers as ground truth labels to obtain prediction results. The results indicate that using introduction, results and discussion is most appropriate for assessing the novelty of a paper, while the use of the entire text does not yield significant results. Furthermore, based on the results of the PLMs and LLMs, the introduction and results appear to be the most important section for the task of novelty score prediction. The code and dataset for this paper can be accessed at https://github.com/njust-winchy/SC4ANM.
- Abstract(参考訳): ノベルティは学術論文の中核的な要素であり、ノベルティの評価には様々な視点がある。
既存の手法はしばしば単語や実体の組み合わせに焦点を合わせ、限られた洞察を与える。
論文の新規性に関連するコンテンツは、通常、異なるコアセクション、例えば、導入、方法論、結果に分散されます。
したがって, 紙の新規性評価に最適なセクションの組み合わせを検討することは, 自動新規性評価の推進に重要である。
本稿では,学術論文からのセクションの組み合わせを入力として利用し,言語モデルによる新規性評価の予測を行う。
次に,実験結果を解析して,新規性スコア予測のための最適部分組合せを決定する。
まず、自然言語処理技術を用いて学術論文の断面構造を特定し、それらを導入、方法、結果、議論(IMRaD)に分類する。
その後、これらのセクション(例えば、導入と方法)を事前学習言語モデル(PLM)と大規模言語モデル(LLM)の入力として使用し、人間の専門家による新規性スコアを基礎的真理ラベルとして使用し、予測結果を得た。
その結果, 導入, 結果, 議論は, 論文の新規性を評価するのに最も適しており, テキスト全体の使用は, 有意な結果を出さないことが明らかとなった。
さらに, PLMs と LLMs の結果から, 新規性スコア予測の課題において, 導入と結果が最も重要な部分であることが示唆された。
この論文のコードとデータセットはhttps://github.com/njust-winchy/SC4ANMでアクセスできます。
関連論文リスト
- Efficient Scientific Full Text Classification: The Case of EICAT Impact Assessments [8.883534683127415]
我々は,入力文のサブセットを選択する手法の開発に注力し,入力サイズを削減する。
我々は、侵略生物学の分野から全文科学論文からなる新しいデータセットをコンパイルする。
論文 参考訳(メタデータ) (2025-02-10T15:19:22Z) - On the Sequence Evaluation based on Stochastic Processes [17.497842325320825]
負の対数型エンコーダを用いて長文列のダイナミクスを学習するための新しい手法を提案する。
また、シーケンスコヒーレンスを測定する長文評価のための確率に基づく評価指標も導入する。
論文 参考訳(メタデータ) (2024-05-28T02:33:38Z) - Document Provenance and Authentication through Authorship Classification [5.2545206693029884]
本稿では,単一文書と複数文書の分類のためのアンサンブルベースのテキスト処理フレームワークを提案する。
提案するフレームワークには,最先端のテキスト分類アルゴリズムがいくつか組み込まれている。
フレームワークは大規模なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-02T12:26:03Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Predicting the Humorousness of Tweets Using Gaussian Process Preference
Learning [56.18809963342249]
本稿では,人間の嗜好判断と言語アノテーションの自動生成を利用して,短文のユーモラスさのランク付けと評価を学習する確率論的アプローチを提案する。
本研究は, HAHA@IberLEF 2019データにおける数値スコアの変換と, 提案手法に必要な判定アノテーションの相互変換から生じる問題点について報告する。
論文 参考訳(メタデータ) (2020-08-03T13:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。