論文の概要: NoveltyAgent: Autonomous Novelty Reporting Agent with Point-wise Novelty Analysis and Self-Validation
- arxiv url: http://arxiv.org/abs/2603.20884v1
- Date: Sat, 21 Mar 2026 17:19:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.133036
- Title: NoveltyAgent: Autonomous Novelty Reporting Agent with Point-wise Novelty Analysis and Self-Validation
- Title(参考訳): ノベルティジェント:ポイントワイドノベルティ分析と自己検証による自律的ノベルティ報告エージェント
- Authors: Jiajun Hou, Hexuan Deng, Wenxiang Jiao, Xuebo Liu, Xiaopeng Ke, Min Zhang,
- Abstract要約: 包括的で忠実なノベルティレポートを生成するために設計されたマルチエージェントシステムであるNovetyAgentを紹介する。
写本を細かな検索と比較のために離散的な新規点に分解し、総合的な関連論文データベースを構築する。
実験の結果、NovetyAgentは最先端のパフォーマンスを達成し、GPT-5 DeepResearchを10.15%上回った。
- 参考スコア(独自算出の注目度): 34.18769961207746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exponential growth of academic publications has led to a surge in papers of varying quality, increasing the cost of paper screening. Current approaches either use novelty assessment within general AI Reviewers or repurpose DeepResearch, which lacks domain-specific mechanisms and thus delivers lower-quality results. To bridge this gap, we introduce NoveltyAgent, a multi-agent system designed to generate comprehensive and faithful novelty reports, enabling thorough evaluation of a paper's originality. It decomposes manuscripts into discrete novelty points for fine-grained retrieval and comparison, and builds a comprehensive related-paper database while cross-referencing claims to ensure faithfulness. Furthermore, to address the challenge of evaluating such open-ended generation tasks, we propose a checklist-based evaluation framework, providing an unbiased paradigm for building reliable evaluations. Extensive experiments show that NoveltyAgent achieves state-of-the-art performance, outperforming GPT-5 DeepResearch by 10.15%. We hope this system will provide reliable, high-quality novelty analysis and help researchers quickly identify novel papers. Code and demo are available at https://github.com/SStan1/NoveltyAgent.
- Abstract(参考訳): 学術出版物の指数的な成長により、様々な品質の論文が急増し、紙のスクリーニングコストが上昇した。
現在のアプローチでは、一般的なAIレビュアー内でノベルティアセスメントを使用するか、ドメイン固有のメカニズムを欠いたDeepResearchを再使用することで、低品質な結果をもたらす。
このギャップを埋めるために,包括的で忠実なノベルティレポートを生成するためのマルチエージェントシステムであるNovetyAgentを導入する。
写本を細かな検索と比較のために個別の新規点に分解し、総合的な関連紙データベースを構築し、相互参照により忠実性を確保する。
さらに、このようなオープンな生成タスクを評価する上での課題に対処するため、チェックリストに基づく評価フレームワークを提案し、信頼性の高い評価を構築するための未バイアスのパラダイムを提供する。
大規模な実験により、NovetyAgentは最先端のパフォーマンスを達成し、GPT-5 DeepResearchを10.15%上回った。
このシステムは、信頼性が高く高品質なノベルティ分析を提供し、研究者が新しい論文を素早く特定するのに役立つことを期待している。
コードとデモはhttps://github.com/SStan1/NoveltyAgent.comで公開されている。
関連論文リスト
- PaperRepro: Automated Computational Reproducibility Assessment for Social Science Papers [33.12402746591649]
PaperReproは、自動評価のための新しい2段階のマルチエージェントアプローチである。
実行段階では、エージェントが複製パッケージを実行し、コードを編集して再生結果を明示的な成果物としてキャプチャする。
評価段階では、エージェントは明確な証拠を用いてエージェントを評価する。
論文 参考訳(メタデータ) (2026-02-10T09:04:59Z) - Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification [71.98473277917962]
近年のDeep Research Agents (DRA) の進歩は、自動知識発見と問題解決に変化をもたらしている。
本稿では,政策モデルのアウトプットを反復的に検証することで,エージェントの能力を自己進化させる手法を提案する。
検証の非対称性を生かしたルーブリックスに基づく結果報酬検証器であるDeepVerifierを提案する。
論文 参考訳(メタデータ) (2026-01-22T09:47:31Z) - OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment [63.662126457336534]
OpenNoveltyは、透明で証拠に基づく新規性分析のためのエージェントシステムである。
回収された実論文のすべての評価を根拠にし、検証可能な判断を確実にする。
OpenNoveltyは、公正で一貫性があり、エビデンスに支えられたピアレビューを促進するスケーラブルなツールで、研究コミュニティに力を与えることを目指している。
論文 参考訳(メタデータ) (2026-01-04T15:48:51Z) - NoveltyRank: Estimating Conceptual Novelty of AI Papers [8.218640708170119]
このプロジェクトの目的は、AI論文の概念的新奇性を推定し、ランク付けするモデルを開発することである。
本稿では,論文の題名,抽象的,意味的類似性から新奇性を評価する。
両タスクに対してQwen3-4B-Instruct-2507とSciBERTを微調整し、GPT-5.1に対してベンチマークを行い、タスクの定式化とモデリングの選択がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2025-12-12T03:33:32Z) - ARISE: Agentic Rubric-Guided Iterative Survey Engine for Automated Scholarly Paper Generation [7.437989615069771]
ARISEは、学術調査論文の自動生成と継続的改善のためのエージェント誘導反復調査エンジンである。
ARISEは、特定の大規模言語モデルエージェントで構成されたモジュラーアーキテクチャを採用し、それぞれがトピック拡張、引用キュレーション、文学要約、原稿の草稿作成、ピアレビューに基づく評価などの学術的な役割を反映している。
ARISEは、包括性、正確性、フォーマッティング、総合的な学術的厳密さの指標にまたがる基準的手法を一貫して超越している。
論文 参考訳(メタデータ) (2025-11-21T14:14:35Z) - LiRA: A Multi-Agent Framework for Reliable and Readable Literature Review Generation [66.09346158850308]
文献レビュープロセスをエミュレートする多エージェント協調ワークフローLiRA(Literature Review Agents)を提案する。
LiRAは、コンテンツアウトライン、サブセクションの執筆、編集、レビュー、コヒーシブで包括的なレビュー記事の作成に特殊エージェントを使用している。
実世界のシナリオにおいて文書検索を用いてLiRAを評価し,そのロバスト性を評価する。
論文 参考訳(メタデータ) (2025-10-01T12:14:28Z) - Learning to Summarize by Learning to Quiz: Adversarial Agentic Collaboration for Long Document Summarization [86.98098988779809]
SummQは長期文書要約のための新しい逆多重エージェントフレームワークである。
提案手法では,包括的な要約を作成し,評価するために協調作業を行う要約ジェネレータとレビュアーを用いる。
広範に使用されている3つの文書要約ベンチマーク上でSummQを評価する。
論文 参考訳(メタデータ) (2025-09-25T08:36:19Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks [14.371010711040304]
ReportBenchは、大規模言語モデル(LLM)によって生成された研究レポートの内容品質を評価するために設計されたベンチマークである。
本評価は,(1)引用文献の質と妥当性,(2)報告内容の忠実さと妥当性の2つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-14T03:33:43Z) - Literature-Grounded Novelty Assessment of Scientific Ideas [23.481266336046833]
LLMに基づく検索拡張生成フレームワークであるIdean Novelty Checkerを提案する。
実験の結果,新規性チェッカーは既存手法よりも約13%高い一致を達成できた。
論文 参考訳(メタデータ) (2025-06-27T08:47:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。