論文の概要: Harnessing Large Language Models for Scientific Novelty Detection
- arxiv url: http://arxiv.org/abs/2505.24615v1
- Date: Fri, 30 May 2025 14:08:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.987037
- Title: Harnessing Large Language Models for Scientific Novelty Detection
- Title(参考訳): 科学的ノベルティ検出のための大規模言語モデルのハーネス化
- Authors: Yan Liu, Zonglin Yang, Soujanya Poria, Thanh-Son Nguyen, Erik Cambria,
- Abstract要約: 科学的ノベルティ検出(ND)のための大規模言語モデル(LLM)を提案する。
そこで本研究では,LLMからアイデアレベルの知識を抽出し,ライトウェイトなレトリバーを訓練することを提案する。
実験の結果,提案手法は,アイデア検索やNDタスクのためのベンチマークデータセットにおいて,常に他よりも優れていた。
- 参考スコア(独自算出の注目度): 49.10608128661251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In an era of exponential scientific growth, identifying novel research ideas is crucial and challenging in academia. Despite potential, the lack of an appropriate benchmark dataset hinders the research of novelty detection. More importantly, simply adopting existing NLP technologies, e.g., retrieving and then cross-checking, is not a one-size-fits-all solution due to the gap between textual similarity and idea conception. In this paper, we propose to harness large language models (LLMs) for scientific novelty detection (ND), associated with two new datasets in marketing and NLP domains. To construct the considerate datasets for ND, we propose to extract closure sets of papers based on their relationship, and then summarize their main ideas based on LLMs. To capture idea conception, we propose to train a lightweight retriever by distilling the idea-level knowledge from LLMs to align ideas with similar conception, enabling efficient and accurate idea retrieval for LLM novelty detection. Experiments show our method consistently outperforms others on the proposed benchmark datasets for idea retrieval and ND tasks. Codes and data are available at https://anonymous.4open.science/r/NoveltyDetection-10FB/.
- Abstract(参考訳): 指数的な科学的成長の時代において、新しい研究のアイデアの特定は学術において極めて重要かつ困難である。
可能性にもかかわらず、適切なベンチマークデータセットの欠如は、新規性検出の研究を妨げる。
さらに重要なのは、テキストの類似性とアイデア概念のギャップのため、既存のNLP技術(例えば、検索、そしてクロスチェック)を採用するだけでは、オールサイズのソリューションではありません。
本稿では,マーケティング領域とNLP領域における2つの新しいデータセットに関連付けて,大規模言語モデル(LLM)を科学的ノベルティ検出(ND)に活用することを提案する。
そこで我々は,NDのための考察データセットを構築するために,それらの関係に基づいて論文の閉鎖集合を抽出し,その主案をLLMに基づいて要約することを提案する。
そこで本研究では,LLMからアイデアレベルの知識を抽出し,アイデアを類似した概念と整合させることにより,LLMの新規性検出のための効率的かつ正確なアイデア検索を可能にする軽量レトリバーの学習を提案する。
実験の結果,提案手法は,アイデア検索やNDタスクのためのベンチマークデータセットにおいて,常に他よりも優れていた。
コードとデータはhttps://anonymous.4open.science/r/NoveltyDetection-10FB/で公開されている。
関連論文リスト
- Improving Research Idea Generation Through Data: An Empirical Investigation in Social Science [25.857554476782827]
本稿では, アイデア生成過程において, 関連データを用いた大規模言語モデルの拡張が, 生成したアイデアの品質をいかに向上させるかを検討する。
我々は,社会科学領域,特に気候交渉のテーマで実験を行い,メタデータが生成したアイデアの実現可能性を20%向上させることを見出した。
人間の研究では、LCMが生成したアイデアと関連するデータと検証プロセスが、研究者により高い品質で研究アイデアを提案するよう促すことが示されている。
論文 参考訳(メタデータ) (2025-05-27T16:23:42Z) - LANID: LLM-assisted New Intent Discovery [18.15557766598695]
新しいIntent Discovery(NID)は、既存のものを認識する能力を維持しながら、新しい意図を識別することを目的とした重要なタスクである。
TODSを新しい意図に適応しようとするこれまでの努力は、意味表現の不十分さに悩まされてきた。
我々は,大規模言語モデルを用いた軽量NIDエンコーダのセマンティック表現を強化するフレームワークであるLANIDを提案する。
論文 参考訳(メタデータ) (2025-03-31T05:34:32Z) - Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - IdeaBench: Benchmarking Large Language Models for Research Idea Generation [19.66218274796796]
大規模言語モデル(LLM)は、人々が人工知能(AI)システムと対話する方法を変革した。
包括的データセットと評価フレームワークを含むベンチマークシステムであるIdeanBenchを提案する。
私たちのデータセットは、さまざまな影響力のある論文のタイトルと要約と、参照された作品で構成されています。
まず、GPT-4oを用いて、新規性や実現可能性などのユーザ固有の品質指標に基づいて、アイデアをランク付けし、スケーラブルなパーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-10-31T17:04:59Z) - SciPIP: An LLM-based Scientific Paper Idea Proposer [30.670219064905677]
SciPIPは,文献検索とアイデア生成の両面での改善を通じて,科学的アイデアの提案を強化するために設計された,革新的なフレームワークである。
自然言語処理やコンピュータビジョンなど,さまざまな領域で実施した実験では,SciPIPが革新的で有用なアイデアを多数生成する能力を示した。
論文 参考訳(メタデータ) (2024-10-30T16:18:22Z) - Chain of Ideas: Revolutionizing Research Via Novel Idea Development with LLM Agents [64.64280477958283]
科学文献の急激な増加は、研究者が最近の進歩と意義ある研究方向を見極めるのを困難にしている。
大規模言語モデル(LLM)の最近の発展は、新しい研究のアイデアを自動生成するための有望な道のりを示唆している。
本研究では, チェーン構造に関連文献を整理し, 研究領域の進展を効果的に反映する, LLMベースのエージェントであるChain-of-Ideas(CoI)エージェントを提案する。
論文 参考訳(メタデータ) (2024-10-17T03:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。