論文の概要: Human-Agent Collaborative Paper-to-Page Crafting for Under $0.1
- arxiv url: http://arxiv.org/abs/2510.19600v1
- Date: Wed, 22 Oct 2025 13:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.844008
- Title: Human-Agent Collaborative Paper-to-Page Crafting for Under $0.1
- Title(参考訳): 0.1ドル以下の人為的協力型紙パルプ工法
- Authors: Qianli Ma, Siyu Wang, Yilin Chen, Yinhao Tang, Yixiang Yang, Chang Guo, Bingjie Gao, Zhening Xing, Yanan Sun, Zhipeng Zhang,
- Abstract要約: AutoPageは、ナラティブプランニングからマルチモーダルコンテンツ生成、インタラクティブレンダリングに至るまで、ページ間作成を粗いパイプラインに分解する。
テストによると、AutoPageは高品質で視覚的に魅力的なページを生成するだけでなく、15分未満で0.1ドル未満で驚くほど効率が良い。
- 参考スコア(独自算出の注目度): 27.277038925857173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the quest for scientific progress, communicating research is as vital as the discovery itself. Yet, researchers are often sidetracked by the manual, repetitive chore of building project webpages to make their dense papers accessible. While automation has tackled static slides and posters, the dynamic, interactive nature of webpages has remained an unaddressed challenge. To bridge this gap, we reframe the problem, arguing that the solution lies not in a single command, but in a collaborative, hierarchical process. We introduce $\textbf{AutoPage}$, a novel multi-agent system that embodies this philosophy. AutoPage deconstructs paper-to-page creation into a coarse-to-fine pipeline from narrative planning to multimodal content generation and interactive rendering. To combat AI hallucination, dedicated "Checker" agents verify each step against the source paper, while optional human checkpoints ensure the final product aligns perfectly with the author's vision, transforming the system from a mere tool into a powerful collaborative assistant. To rigorously validate our approach, we also construct $\textbf{PageBench}$, the first benchmark for this new task. Experiments show AutoPage not only generates high-quality, visually appealing pages but does so with remarkable efficiency in under 15 minutes for less than \$0.1. Code and dataset will be released at $\href{https://mqleet.github.io/AutoPage_ProjectPage/}{Webpage}$.
- Abstract(参考訳): 科学的進歩の探求において、コミュニケーション研究は発見そのものと同じくらい不可欠である。
しかし研究者たちは、密集した文書をアクセスできるようにするために、プロジェクトのWebページを手動で反復的に作成する作業によって、しばしば副次的に追跡される。
自動化は静的なスライドやポスターに取り組んできたが、Webページの動的でインタラクティブな性質は相変わらず問題となっている。
このギャップを埋めるために、ソリューションは単一のコマンドではなく、協調的で階層的なプロセスにある、と論じて、問題を再構築しました。
この哲学を具現化した新しいマルチエージェントシステムである$\textbf{AutoPage}$を紹介する。
AutoPageは、ナラティブプランニングからマルチモーダルコンテンツ生成、インタラクティブレンダリングに至るまで、ページ間作成を粗いパイプラインに分解する。
AI幻覚と戦うために、専用の"Checker"エージェントがソースペーパーに対して各ステップを検証する一方で、オプションの人間チェックポイントによって最終製品が著者のビジョンと完全に整合し、システムを単なるツールから強力な協調アシスタントに変換する。
このアプローチを厳格に検証するために、この新しいタスクの最初のベンチマークである$\textbf{PageBench}$も構築します。
実験によると、AutoPageは高品質で視覚的に魅力的なページを生成するだけでなく、15分未満で0.1ドル以下で驚くほど効率が良い。
コードとデータセットは$\href{https://mqleet.github.io/AutoPage_ProjectPage/}{Webpage}$でリリースされる。
関連論文リスト
- Demonstrating ViviDoc: Generating Interactive Documents through Human-Agent Collaboration [4.751545995185441]
本稿では,1つのトピック入力から対話型教育文書を生成する人間エージェント協調システムViviDocを提案する。
ViviDocはマルチエージェントパイプライン(Planner, Executor, Evaluator)とドキュメント仕様(DocSpec)を導入している。
専門家による評価とユーザスタディにより、ViviDocは単純エージェント生成を著しく上回り、直感的な編集体験を提供することが示された。
論文 参考訳(メタデータ) (2026-03-02T14:27:49Z) - Enhancing Automated Paper Reproduction via Prompt-Free Collaborative Agents [8.185402940269794]
本稿では,コード生成の品質を自動的に向上する,プロンプトフリーな協調エージェントフレームワークを提案する。
提案手法では,各ステップの出力が対応するシステムプロンプトに規定された要求を満たすかどうかを検証する検証エージェントと,識別された問題に基づいて出力を更新する精査エージェントの2つを用いている。
論文 参考訳(メタデータ) (2025-12-02T14:24:23Z) - Paper2Web: Let's Make Your Paper Alive! [51.75896846964824]
学術Webページ生成を評価するためのベンチマークデータセットとフレームワークであるPaper2Webを紹介する。
PWAgentは、科学論文をインタラクティブでマルチメディアに富んだ学術ホームページに変換する自律パイプラインである。
論文 参考訳(メタデータ) (2025-10-17T17:35:58Z) - WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。
私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z) - ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。
当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。
結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文 参考訳(メタデータ) (2025-09-01T11:32:24Z) - UICopilot: Automating UI Synthesis via Hierarchical Code Generation from Webpage Designs [43.006316221657904]
本稿では,Webページの設計から階層的なコード生成によってユーザインタフェース(UI)を自動生成する手法を提案する。
UICopilotの基本的な考え方は、生成プロセスを2つのステージに分解することである。
実験の結果、UICopilotは、自動評価と人的評価の両方において、既存のベースラインを大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2025-05-15T02:09:54Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping [57.024913536420264]
MLLM(Multimodal Large Language Models)は、設計からコードへのタスクにおいて顕著な性能を示す。
本稿では,インタラクティブなWebページを生成する上で,MLLMを初めて体系的に研究する。
論文 参考訳(メタデータ) (2024-11-05T17:40:03Z) - Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism [12.289101189321181]
Document Visual Question Answering (Document VQA)は、文書理解と自然言語処理のコミュニティから大きな関心を集めている。
最先端の単一ページのDocument VQAメソッドは、素晴らしいパフォーマンスを示しているが、マルチページのシナリオでは、これらのメソッドは苦労している。
マルチページ文書VQAタスクのための新しい手法と効率的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-04-29T18:07:47Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - GRAM: Global Reasoning for Multi-Page VQA [14.980413646626234]
本稿では,事前学習したシングルページモデルをマルチページ設定にシームレスに拡張するGRAMを提案する。
そのため、ローカルページレベルの理解にシングルページエンコーダを活用し、文書レベルの指定層と学習可能なトークンで拡張する。
復号化時に計算量を増やすため、任意の圧縮段階を導入する。
論文 参考訳(メタデータ) (2024-01-07T08:03:06Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。