論文の概要: SciSage: A Multi-Agent Framework for High-Quality Scientific Survey Generation
- arxiv url: http://arxiv.org/abs/2506.12689v2
- Date: Mon, 21 Jul 2025 03:49:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 14:33:32.198308
- Title: SciSage: A Multi-Agent Framework for High-Quality Scientific Survey Generation
- Title(参考訳): SciSage: 高品質な科学的サーベイ生成のためのマルチエージェントフレームワーク
- Authors: Xiaofeng Shi, Qian Kou, Yuduo Li, Ning Tang, Jinxin Xie, Longbin Yu, Songjing Wang, Hua Zhou,
- Abstract要約: SciSageはリフレクション・ワン・ユー・ライト・パラダイムを使ったマルチエージェント・フレームワークである。
アウトライン、セクション、ドキュメントレベルでのドラフトを批判的に評価し、クエリの解釈、コンテンツ検索、洗練のための特別なエージェントと協調する。
また、11のコンピュータサイエンス領域にわたる46のハイインパクト論文(2020-2025)のベンチマークであるSurveyScopeをリリースしています。
- 参考スコア(独自算出の注目度): 2.985620880452744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of scientific literature demands robust tools for automated survey-generation. However, current large language model (LLM)-based methods often lack in-depth analysis, structural coherence, and reliable citations. To address these limitations, we introduce SciSage, a multi-agent framework employing a reflect-when-you-write paradigm. SciSage features a hierarchical Reflector agent that critically evaluates drafts at outline, section, and document levels, collaborating with specialized agents for query interpretation, content retrieval, and refinement. We also release SurveyScope, a rigorously curated benchmark of 46 high-impact papers (2020-2025) across 11 computer science domains, with strict recency and citation-based quality controls. Evaluations demonstrate that SciSage outperforms state-of-the-art baselines (LLM x MapReduce-V2, AutoSurvey), achieving +1.73 points in document coherence and +32% in citation F1 scores. Human evaluations reveal mixed outcomes (3 wins vs. 7 losses against human-written surveys), but highlight SciSage's strengths in topical breadth and retrieval efficiency. Overall, SciSage offers a promising foundation for research-assistive writing tools.
- Abstract(参考訳): 科学文献の急速な成長は、自動的な調査生成のための堅牢なツールを必要としている。
しかし、現在の大規模言語モデル(LLM)に基づく手法は、深い分析、構造的コヒーレンス、信頼できる引用を欠いていることが多い。
これらの制約に対処するため,リフレクション・ワン・ユー・ライト・パラダイムを用いたマルチエージェント・フレームワークであるSciSageを紹介した。
SciSageには階層的なリフレクタエージェントがあり、アウトライン、セクション、ドキュメントのレベルでドラフトを批判的に評価し、クエリの解釈、コンテンツ検索、洗練のための特別なエージェントと協調する。
また、11のコンピュータサイエンス領域にわたる46のハイインパクト論文(2020-2025)を厳格にキュレートしたベンチマークであるSurveyScopeをリリースしました。
評価の結果、SciSageは最先端のベースライン(LLM x MapReduce-V2, AutoSurvey)を上回り、文書コヒーレンスで+1.73点、引用F1スコアで+32%を達成した。
人的評価は、人手による調査に対して3勝と7敗の混合結果を示すが、トピックの広さと検索効率におけるSciSageの強みを強調している。
全体として、SciSageは研究補助的な筆記ツールの有望な基盤を提供する。
関連論文リスト
- ScholarPeer: A Context-Aware Multi-Agent Framework for Automated Peer Review [48.60540055009675]
ScholarPeerは、上級研究者の認知過程をエミュレートするために設計された、検索可能なマルチエージェントフレームワークである。
We evaluate ScholarPeer on DeepReview-13K and the results showed that ScholarPeer achieve significant win-rates against state-of-the-art approach in side-side-side evaluations。
論文 参考訳(メタデータ) (2026-01-30T06:54:55Z) - Can Deep Research Agents Find and Organize? Evaluating the Synthesis Gap with Expert Taxonomies [57.11324429385405]
72のコンピュータサイエンスサーベイから得られた診断ベンチマークであるTaxoBenchを紹介する。
我々は,3,815個の引用を根本的真理として正確に分類した分類木を手作業で抽出した。
ベストエージェントは、専門家が選択した論文の20.9%しかリコールせず、完璧なインプットであっても、最高のモデルは組織の0.31 ARIしか達成していない。
論文 参考訳(メタデータ) (2026-01-18T11:57:09Z) - RPC-Bench: A Fine-grained Benchmark for Research Paper Comprehension [65.81339691942757]
RPC-Bench(RPC-Bench)は、高品質なコンピュータサイエンス論文のレビュー・リビューの交換から構築された大規模質問応答ベンチマークである。
我々は、科学研究の流れに沿ったきめ細かい分類を設計し、モデルがなぜ、何、どのように学術的な文脈で質問するかを理解し、答える能力を評価する。
論文 参考訳(メタデータ) (2026-01-14T11:37:00Z) - SciFig: Towards Automating Scientific Figure Generation [41.73701976318102]
SciFigは研究論文のテキストから直接出版可能なパイプライン図を生成するエンドツーエンドのAIエージェントシステムである。
本稿では,2,219個の実科学図を解析し,評価ルーブを抽出するルーブリックに基づく評価フレームワークを提案する。
SciFigは、データセットレベルの評価で70.1$%、紙固有の評価で66.2$%の全体的な品質を達成した。
論文 参考訳(メタデータ) (2026-01-07T20:56:58Z) - OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment [63.662126457336534]
OpenNoveltyは、透明で証拠に基づく新規性分析のためのエージェントシステムである。
回収された実論文のすべての評価を根拠にし、検証可能な判断を確実にする。
OpenNoveltyは、公正で一貫性があり、エビデンスに支えられたピアレビューを促進するスケーラブルなツールで、研究コミュニティに力を与えることを目指している。
論文 参考訳(メタデータ) (2026-01-04T15:48:51Z) - SurveyBench: Can LLM(-Agents) Write Academic Surveys that Align with Reader Needs? [37.28508850738341]
調査書は労働集約的で知的に要求されるタスクである。
一般的なDeepResearchエージェントやサーベイ特殊化手法のような最近のアプローチは、自動的にサーベイを生成することができる。
しかし、そのアウトプットは人間の基準に欠けることが多く、厳格で読者対応のベンチマークが欠けている。
本稿では,詳細なクイズ駆動評価フレームワークであるSurveyBenchを提案する。
論文 参考訳(メタデータ) (2025-10-03T15:49:09Z) - LiRA: A Multi-Agent Framework for Reliable and Readable Literature Review Generation [66.09346158850308]
文献レビュープロセスをエミュレートする多エージェント協調ワークフローLiRA(Literature Review Agents)を提案する。
LiRAは、コンテンツアウトライン、サブセクションの執筆、編集、レビュー、コヒーシブで包括的なレビュー記事の作成に特殊エージェントを使用している。
実世界のシナリオにおいて文書検索を用いてLiRAを評価し,そのロバスト性を評価する。
論文 参考訳(メタデータ) (2025-10-01T12:14:28Z) - Agentic AutoSurvey: Let LLMs Survey LLMs [31.13281166545961]
自動サーベイ生成のためのマルチエージェントフレームワークである textbfAgentic AutoSurvey を提案する。
本システムでは, 総合的な文献調査を優れた合成品質で作成するために, 共同作業を行う専門エージェント(ページ検索スペシャリスト, トピックマイニング・クラスタリング, アカデミックサーベイライター, 品質評価者)を4名採用している。
論文 参考訳(メタデータ) (2025-09-23T05:28:43Z) - SurveyGen: Quality-Aware Scientific Survey Generation with Large Language Models [14.855783196702191]
さまざまな科学的領域にわたる4,200以上の人手による調査からなる大規模データセットであるSurveyGenを提示する。
調査生成のための新しい品質認識フレームワークであるQUIL-SGを構築した。
論文 参考訳(メタデータ) (2025-08-25T04:22:23Z) - SurGE: A Benchmark and Evaluation Framework for Scientific Survey Generation [37.921524136479825]
SurGE(Survey Generation Evaluation)は、コンピュータ科学における科学的サーベイ生成の新しいベンチマークである。
SurGEは,(1)トピック記述,専門家による調査,(2)100万以上の論文からなる大規模学術コーパスを含む,一連のテストインスタンスから構成される。
さらに,4次元にわたって生成した調査の質を計測する自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-21T15:45:10Z) - Automated Thematic Analyses Using LLMs: Xylazine Wound Management Social Media Chatter Use Case [2.583403860629219]
大規模言語モデル(LLM)は、帰納的テーマ分析において課題に直面している。
専門家主導によるソーシャルメディアデータのテーマ分析を再現するために, LLM を用いた可能性について検討した。
論文 参考訳(メタデータ) (2025-07-14T20:57:52Z) - SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks [87.29946641069068]
我々は,学術文献タスクの基礎モデルを評価するための,オープンで協調的なプラットフォームであるSciArenaを紹介する。
集合的知性を活用することで、SciArenaはコミュニティ主導の、オープンな科学的タスクにおけるモデルパフォーマンスの評価を提供する。
収集した嗜好データに基づいたメタ評価ベンチマークであるSciArena-Evalをリリースする。
論文 参考訳(メタデータ) (2025-07-01T17:51:59Z) - LLM-Based Compact Reranking with Document Features for Scientific Retrieval [30.341167520613197]
我々は,CoRankと呼ばれる科学検索のためのトレーニング不要な,モデルに依存しないセマンティックリグレードフレームワークを提案する。
CoRankには3つのステージがある: ドキュメントレベルの機能のオフライン抽出、これらのコンパクト表現を使用した粗いリランク、そしてステージから上位候補のフルテキストに微妙なリランク。
LitSearchとCSFCubeの実験によると、CoRankは異なるLLMバックボーン間でのリランク性能を大幅に改善している。
論文 参考訳(メタデータ) (2025-05-19T22:10:27Z) - XtraGPT: LLMs for Human-AI Collaboration on Controllable Academic Paper Revision [41.44785777328187]
XtraGPTはオープンソースの大規模言語モデル(LLM)の最初のスイートである。
我々は140,000以上の命令-応答ペアで注釈付けされたトップレベルの会場から7,040件の研究論文のデータセットを紹介した。
XtraGPTは、同じスケールのベースラインを著しく上回り、プロプライエタリなシステムの品質にアプローチする。
論文 参考訳(メタデータ) (2025-05-16T15:02:19Z) - SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing [13.101632066188532]
本研究では,人間の記述したアウトラインの論理構造を解析し,アウトラインを生成するサーベイサーベイForgeを紹介する。
総合的な評価を実現するために,100件の人書き調査論文を含むSurveyBenchを構築した。
実験では、SurveyはAutoSurveyのような以前の作業より優れていることが示されている。
論文 参考訳(メタデータ) (2025-03-06T17:15:48Z) - TrustRAG: An Information Assistant with Retrieval Augmented Generation [73.84864898280719]
TrustRAGは、インデックス付け、検索、生成という3つの視点から、acRAGを強化する新しいフレームワークである。
我々はTrustRAGフレームワークをオープンソース化し、抜粋ベースの質問応答タスク用に設計されたデモスタジオを提供する。
論文 参考訳(メタデータ) (2025-02-19T13:45:27Z) - Automating Bibliometric Analysis with Sentence Transformers and Retrieval-Augmented Generation (RAG): A Pilot Study in Semantic and Contextual Search for Customized Literature Characterization for High-Impact Urban Research [2.1728621449144763]
文献分析は、都市科学における研究動向、スコープ、影響を理解するために不可欠である。
キーワード検索に依存する伝統的な手法は、記事のタイトルやキーワードに明記されていない価値ある洞察を明らかにするのに失敗することが多い。
我々は、生成AIモデル、特にトランスフォーマーとレトリーバル拡張生成(RAG)を活用して、バイオロメトリ分析の自動化と強化を行う。
論文 参考訳(メタデータ) (2024-10-08T05:13:27Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents [21.17856299966841]
本研究では,学術調査における大規模言語モデル(LLM)の評価のためのベンチマークであるResearchArenaを紹介する。
これらの機会を養うため、12万のフルテキスト学術論文と7.9Kのサーベイ論文の環境を構築した。
論文 参考訳(メタデータ) (2024-06-13T03:26:30Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。
本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。
1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。