論文の概要: PaperBanana: Automating Academic Illustration for AI Scientists
- arxiv url: http://arxiv.org/abs/2601.23265v1
- Date: Fri, 30 Jan 2026 18:33:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.615416
- Title: PaperBanana: Automating Academic Illustration for AI Scientists
- Title(参考訳): PaperBanana:AI科学者のための学術図面の自動化
- Authors: Dawei Zhu, Rui Meng, Yale Song, Xiyu Wei, Sujian Li, Tomas Pfister, Jinsung Yoon,
- Abstract要約: PaperBananaは、出版可能な学術イラストの自動生成のためのエージェントフレームワークである。
最先端のVLMと画像生成モデルによって駆動されるPaperBananaは、参照を検索し、コンテンツとスタイルを計画し、画像をレンダリングし、自己批判を通じて反復的に洗練する特別エージェントを編成する。
- 参考スコア(独自算出の注目度): 58.120067704652314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite rapid advances in autonomous AI scientists powered by language models, generating publication-ready illustrations remains a labor-intensive bottleneck in the research workflow. To lift this burden, we introduce PaperBanana, an agentic framework for automated generation of publication-ready academic illustrations. Powered by state-of-the-art VLMs and image generation models, PaperBanana orchestrates specialized agents to retrieve references, plan content and style, render images, and iteratively refine via self-critique. To rigorously evaluate our framework, we introduce PaperBananaBench, comprising 292 test cases for methodology diagrams curated from NeurIPS 2025 publications, covering diverse research domains and illustration styles. Comprehensive experiments demonstrate that PaperBanana consistently outperforms leading baselines in faithfulness, conciseness, readability, and aesthetics. We further show that our method effectively extends to the generation of high-quality statistical plots. Collectively, PaperBanana paves the way for the automated generation of publication-ready illustrations.
- Abstract(参考訳): 言語モデルを利用した自律型AI科学者の急速な進歩にもかかわらず、出版可能なイラストを生成することは、研究ワークフローにおける労働集約的なボトルネックである。
この負担を軽減すべく,出版可能な学術イラストの自動作成のためのエージェントフレームワークであるPaperBananaを紹介した。
最先端のVLMと画像生成モデルによって駆動されるPaperBananaは、参照を検索し、コンテンツとスタイルを計画し、画像をレンダリングし、自己批判を通じて反復的に洗練する特別エージェントを編成する。
本稿では,NeurIPS 2025の出版物からキュレートされた方法論図の292の試験ケースを含むPaperBananaBenchを紹介し,多様な研究領域とイラストレーションスタイルについて紹介する。
包括的実験により、PaperBananaは忠実さ、簡潔さ、可読性、美学の基準線を一貫して上回っていることが示された。
さらに,提案手法は,高品質な統計プロットの生成に有効であることを示す。
集合的に、PaperBananaは出版可能なイラストの自動生成の道を開いた。
関連論文リスト
- Self-Evaluation Unlocks Any-Step Text-to-Image Generation [65.7088507945307]
本稿では,テキスト・画像生成のための自己評価モデル(Self-E)について紹介する。
Self-Eは、フローマッチングモデルと同様のデータから学習し、同時に新しい自己評価メカニズムを使用する。
大規模なテキストと画像のベンチマークの実験では、Self-Eは数ステップの世代で優れているだけでなく、50ステップで最先端のFlow Matchingモデルと競合している。
論文 参考訳(メタデータ) (2025-12-26T20:42:11Z) - NoveltyRank: Estimating Conceptual Novelty of AI Papers [8.218640708170119]
このプロジェクトの目的は、AI論文の概念的新奇性を推定し、ランク付けするモデルを開発することである。
本稿では,論文の題名,抽象的,意味的類似性から新奇性を評価する。
両タスクに対してQwen3-4B-Instruct-2507とSciBERTを微調整し、GPT-5.1に対してベンチマークを行い、タスクの定式化とモデリングの選択がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2025-12-12T03:33:32Z) - KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models [88.58758610679762]
KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark) は、認知的なレンズを通してモデルを評価するための診断ベンチマークである。
本研究は,3つの基礎知識タイプ(実例,概念,手続き)にまたがる編集タスクを分類する。
詳細な評価を支援するため,人間の研究により知識ヒントによって強化され,校正された新しい知識プラウザビリティ指標を組み込んだプロトコルを提案する。
論文 参考訳(メタデータ) (2025-05-22T14:08:59Z) - Advancing AI Research Assistants with Expert-Involved Learning [84.30323604785646]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、生物医学的な発見を促進することを約束するが、その信頼性は未定である。
ARIEL(AI Research Assistant for Expert-in-the-Loop Learning)は,オープンソースの評価・最適化フレームワークである。
LMMは詳細な視覚的推論に苦しむのに対し、最先端のモデルでは流動性はあるが不完全な要約を生成する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - Generative AI in Evidence-Based Software Engineering: A White Paper [10.489725182789885]
1年足らずで、実践者や研究者は、生成人工知能の迅速かつ広範な実装を目撃した。
テキストGAI機能により、研究者は世界中で新しい生成シナリオを探索し、すべての時間を要するテキスト生成と分析タスクを簡素化し、急ぐことができる。
現在の調査に基づいて、EBSE研究者を効果的に支援する包括的モデルスイートの作成と実証検証を行う。
論文 参考訳(メタデータ) (2024-07-24T17:16:17Z) - Automatic Geo-alignment of Artwork in Children's Story Books [0.0]
このプロジェクトは、機械学習アルゴリズムの一般化とスケーラビリティを活用することで、同社のビジョンと一致している。
提案手法は,デジタルウェブブックにおける新しいイラストレーションのためのビデオおよび3D彫刻生成にも適用可能である。
論文 参考訳(メタデータ) (2023-03-16T06:23:06Z) - Neural Language Modeling for Contextualized Temporal Graph Generation [49.21890450444187]
本稿では,大規模事前学習言語モデルを用いた文書のイベントレベル時間グラフの自動生成に関する最初の研究について述べる。
論文 参考訳(メタデータ) (2020-10-20T07:08:00Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。