論文の概要: SciSage: A Multi-Agent Framework for High-Quality Scientific Survey Generation
- arxiv url: http://arxiv.org/abs/2506.12689v1
- Date: Sun, 15 Jun 2025 02:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.697551
- Title: SciSage: A Multi-Agent Framework for High-Quality Scientific Survey Generation
- Title(参考訳): SciSage: 高品質な科学的サーベイ生成のためのマルチエージェントフレームワーク
- Authors: Xiaofeng Shi, Qian Kou, Yuduo Li, Ning Tang, Jinxin Xie, Longbin Yu, Songjing Wang, Hua Zhou,
- Abstract要約: SciSageはリフレクション・ワン・ユー・ライト・パラダイムを使ったマルチエージェント・フレームワークである。
アウトライン、セクション、ドキュメントレベルでのドラフトを批判的に評価し、クエリの解釈、コンテンツ検索、洗練のための特別なエージェントと協調する。
また、11のコンピュータサイエンス領域にわたる46のハイインパクト論文(2020-2025)のベンチマークであるSurveyScopeをリリースしています。
- 参考スコア(独自算出の注目度): 2.985620880452744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of scientific literature demands robust tools for automated survey-generation. However, current large language model (LLM)-based methods often lack in-depth analysis, structural coherence, and reliable citations. To address these limitations, we introduce SciSage, a multi-agent framework employing a reflect-when-you-write paradigm. SciSage features a hierarchical Reflector agent that critically evaluates drafts at outline, section, and document levels, collaborating with specialized agents for query interpretation, content retrieval, and refinement. We also release SurveyScope, a rigorously curated benchmark of 46 high-impact papers (2020-2025) across 11 computer science domains, with strict recency and citation-based quality controls. Evaluations demonstrate that SciSage outperforms state-of-the-art baselines (LLM x MapReduce-V2, AutoSurvey), achieving +1.73 points in document coherence and +32% in citation F1 scores. Human evaluations reveal mixed outcomes (3 wins vs. 7 losses against human-written surveys), but highlight SciSage's strengths in topical breadth and retrieval efficiency. Overall, SciSage offers a promising foundation for research-assistive writing tools.
- Abstract(参考訳): 科学文献の急速な成長は、自動的な調査生成のための堅牢なツールを必要としている。
しかし、現在の大規模言語モデル(LLM)に基づく手法は、深い分析、構造的コヒーレンス、信頼できる引用を欠いていることが多い。
これらの制約に対処するため,リフレクション・ワン・ユー・ライト・パラダイムを用いたマルチエージェント・フレームワークであるSciSageを紹介した。
SciSageには階層的なリフレクタエージェントがあり、アウトライン、セクション、ドキュメントのレベルでドラフトを批判的に評価し、クエリの解釈、コンテンツ検索、洗練のための特別なエージェントと協調する。
また、11のコンピュータサイエンス領域にわたる46のハイインパクト論文(2020-2025)を厳格にキュレートしたベンチマークであるSurveyScopeをリリースしました。
評価の結果、SciSageは最先端のベースライン(LLM x MapReduce-V2, AutoSurvey)を上回り、文書コヒーレンスで+1.73点、引用F1スコアで+32%を達成した。
人的評価は、人手による調査に対して3勝と7敗の混合結果を示すが、トピックの広さと検索効率におけるSciSageの強みを強調している。
全体として、SciSageは研究補助的な筆記ツールの有望な基盤を提供する。
関連論文リスト
- LLM-Based Compact Reranking with Document Features for Scientific Retrieval [30.341167520613197]
我々は,CoRankと呼ばれる科学検索のためのトレーニング不要な,モデルに依存しないセマンティックリグレードフレームワークを提案する。
CoRankには3つのステージがある: ドキュメントレベルの機能のオフライン抽出、これらのコンパクト表現を使用した粗いリランク、そしてステージから上位候補のフルテキストに微妙なリランク。
LitSearchとCSFCubeの実験によると、CoRankは異なるLLMバックボーン間でのリランク性能を大幅に改善している。
論文 参考訳(メタデータ) (2025-05-19T22:10:27Z) - XtraGPT: LLMs for Human-AI Collaboration on Controllable Academic Paper Revision [41.44785777328187]
XtraGPTはオープンソースの大規模言語モデル(LLM)の最初のスイートである。
我々は140,000以上の命令-応答ペアで注釈付けされたトップレベルの会場から7,040件の研究論文のデータセットを紹介した。
XtraGPTは、同じスケールのベースラインを著しく上回り、プロプライエタリなシステムの品質にアプローチする。
論文 参考訳(メタデータ) (2025-05-16T15:02:19Z) - SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing [13.101632066188532]
本研究では,人間の記述したアウトラインの論理構造を解析し,アウトラインを生成するサーベイサーベイForgeを紹介する。
総合的な評価を実現するために,100件の人書き調査論文を含むSurveyBenchを構築した。
実験では、SurveyはAutoSurveyのような以前の作業より優れていることが示されている。
論文 参考訳(メタデータ) (2025-03-06T17:15:48Z) - TrustRAG: An Information Assistant with Retrieval Augmented Generation [73.84864898280719]
TrustRAGは、インデックス付け、検索、生成という3つの視点から、acRAGを強化する新しいフレームワークである。
我々はTrustRAGフレームワークをオープンソース化し、抜粋ベースの質問応答タスク用に設計されたデモスタジオを提供する。
論文 参考訳(メタデータ) (2025-02-19T13:45:27Z) - Automating Bibliometric Analysis with Sentence Transformers and Retrieval-Augmented Generation (RAG): A Pilot Study in Semantic and Contextual Search for Customized Literature Characterization for High-Impact Urban Research [2.1728621449144763]
文献分析は、都市科学における研究動向、スコープ、影響を理解するために不可欠である。
キーワード検索に依存する伝統的な手法は、記事のタイトルやキーワードに明記されていない価値ある洞察を明らかにするのに失敗することが多い。
我々は、生成AIモデル、特にトランスフォーマーとレトリーバル拡張生成(RAG)を活用して、バイオロメトリ分析の自動化と強化を行う。
論文 参考訳(メタデータ) (2024-10-08T05:13:27Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents [21.17856299966841]
本研究では,学術調査における大規模言語モデル(LLM)の評価のためのベンチマークであるResearchArenaを紹介する。
これらの機会を養うため、12万のフルテキスト学術論文と7.9Kのサーベイ論文の環境を構築した。
論文 参考訳(メタデータ) (2024-06-13T03:26:30Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。