論文の概要: FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents
- arxiv url: http://arxiv.org/abs/2602.01566v1
- Date: Mon, 02 Feb 2026 03:00:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.85759
- Title: FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents
- Title(参考訳): FS-Researcher:ファイルベースエージェントを用いた長期研究タスクのテスト時間スケーリング
- Authors: Chiwei Zhu, Benfeng Xu, Mingxuan Du, Shaohan Wang, Xiaorui Wang, Zhendong Mao, Yongdong Zhang,
- Abstract要約: 我々はFS-Researcherを紹介した。FS-Researcherはファイルシステムベースのフレームワークで、永続的なワークスペースを通じてコンテキストウィンドウを超えて深い研究をスケールする。
Context Builderエージェントはインターネットを閲覧し、構造化されたノートを書き、ソースを階層的な知識ベースにアーカイブする。
その後、レポートライターエージェントが最終レポートセクションをセクションごとに構成し、知識ベースを事実のソースとして扱う。
- 参考スコア(独自算出の注目度): 53.03492387564392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep research is emerging as a representative long-horizon task for large language model (LLM) agents. However, long trajectories in deep research often exceed model context limits, compressing token budgets for both evidence collection and report writing, and preventing effective test-time scaling. We introduce FS-Researcher, a file-system-based, dual-agent framework that scales deep research beyond the context window via a persistent workspace. Specifically, a Context Builder agent acts as a librarian which browses the internet, writes structured notes, and archives raw sources into a hierarchical knowledge base that can grow far beyond context length. A Report Writer agent then composes the final report section by section, treating the knowledge base as the source of facts. In this framework, the file system serves as a durable external memory and a shared coordination medium across agents and sessions, enabling iterative refinement beyond the context window. Experiments on two open-ended benchmarks (DeepResearch Bench and DeepConsult) show that FS-Researcher achieves state-of-the-art report quality across different backbone models. Further analyses demonstrate a positive correlation between final report quality and the computation allocated to the Context Builder, validating effective test-time scaling under the file-system paradigm. The code and data are anonymously open-sourced at https://github.com/Ignoramus0817/FS-Researcher.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントの代表的ロングホライゾンタスクとして、ディープリサーチが登場している。
しかし、ディープリサーチにおける長い軌跡は、しばしばモデルコンテキスト限界を超え、エビデンス収集とレポート作成の両方のトークン予算を圧縮し、効果的なテストタイムスケーリングを防ぐ。
我々はFS-Researcherを紹介した。FS-Researcherはファイルシステムベースのデュアルエージェントフレームワークで、永続的なワークスペースを通じてコンテキストウィンドウを越えてディープリサーチをスケールする。
具体的には、Context Builderエージェントは、インターネットを閲覧し、構造化されたノートを書き、ソースを階層的な知識ベースにアーカイブするライブラリアンとして機能する。
その後、レポートライターエージェントが最終レポートセクションをセクションごとに構成し、知識ベースを事実のソースとして扱う。
このフレームワークでは、ファイルシステムは耐久性のある外部メモリとして機能し、エージェントやセッションをまたいだ共有調整媒体として機能し、コンテキストウィンドウを超えて反復的な洗練を可能にする。
2つのオープンエンドベンチマーク(DeepResearch BenchとDeepConsult)の実験は、FS-Researcherがさまざまなバックボーンモデルで最先端のレポート品質を達成することを示している。
さらに、最終報告の品質とContext Builderに割り当てられた計算との正の相関を示し、ファイルシステムのパラダイムの下で効果的なテスト時間スケーリングを検証する。
コードとデータはhttps://github.com/Ignoramus0817/FS-Researcherで匿名で公開されている。
関連論文リスト
- InfiAgent: An Infinite-Horizon Framework for General-Purpose Autonomous Agents [36.740230738304525]
InfiAgentは、タスクの持続時間に関係なく、エージェントの推論コンテキストを厳密に拘束する。
20Bのオープンソースモデルを持つInfiAgentは、より大きなプロプライエタリなシステムと競合する。
論文 参考訳(メタデータ) (2026-01-06T17:35:57Z) - LongDA: Benchmarking LLM Agents for Long-Document Data Analysis [55.32211515932351]
LongDAは、長いドキュメントと複雑なデータをナビゲートする実際の設定をターゲットとしています。
LongTAは、ドキュメントアクセス、検索、コード実行を可能にするツール拡張されたエージェントフレームワークである。
実験の結果, 最先端モデルにおいても, かなりの性能差が認められた。
論文 参考訳(メタデータ) (2026-01-05T23:23:16Z) - BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents [11.158307125677375]
Retrieval-Augmented Generation (RAG)は、外部の複雑なドキュメントから非常に関連性の高い情報をクエリする。
本稿では,階層構造を持つ文書を対象とした新しいRAG手法であるBookRAGを紹介する。
BookRAGは最先端のパフォーマンスを実現し、検索リコールとQA精度の両方において、ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-03T03:40:49Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - SurveyG: A Multi-Agent LLM Framework with Hierarchical Citation Graph for Automated Survey Generation [4.512335376984058]
大規模言語モデル(LLM)は、調査用紙の自動生成にますます採用されている。
LLMに基づくエージェントフレームワークである textbfSurveyG を提案する。
textbfFoundation、textbfDevelopment、textbfFrontierの3つのレイヤで構成されており、セミナルな作品から漸進的な進歩、新たな方向性までの研究の進化を捉えている。
論文 参考訳(メタデータ) (2025-10-09T03:14:20Z) - WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。
私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。