論文の概要: SciDraw-6K: A Multilingual Scientific Illustration Dataset Generated by Google Gemini
- arxiv url: http://arxiv.org/abs/2604.17206v1
- Date: Sun, 19 Apr 2026 02:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.389006
- Title: SciDraw-6K: A Multilingual Scientific Illustration Dataset Generated by Google Gemini
- Title(参考訳): SciDraw-6K:Google Geminiが作成した多言語科学イラストレーションデータセット
- Authors: Davie Chen,
- Abstract要約: SciDraw-6Kは、Google Geminiの画像生成モデルによって合成された6,291の科学的イラストレーションのキュレートされたデータセットである。
画像は、バイオメディカル、化学、材料、エレクトロニクス、環境、AIシステム、物理学、そして長い「他の」尾の8つの幅広い科学カテゴリにまたがる。
このデータセットは、多言語によるテキスト・ツー・イメージの研究、ドメイン・ハブ拡散の微調整、科学的な視覚化のための迅速な研究をサポートするためにリリースされている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SciDraw-6K, a curated dataset of 6,291 scientific illustrations synthesized by Google Gemini image-generation models, each paired with prompts in eleven languages (English, Simplified Chinese, Traditional Chinese, Japanese, Korean, German, French, Spanish, Brazilian Portuguese, Italian, and Russian). Images span eight broad scientific categories -- biomedical, chemistry, materials, electronics, environment, AI systems, physics, and a long "other" tail -- and are produced primarily by the gemini-2.5-flash-image and gemini-3-pro-image-preview model families. In contrast to general-purpose text-to-image corpora that dominate the literature, SciDraw-6K is purpose-built for the scientific illustration genre: schematic diagrams, mechanism figures, table-of-contents graphics, and conceptual posters. We describe the construction pipeline, report dataset statistics, and document its use as the substrate of sci-draw.com, a public scientific drawing service. The dataset is released to support multilingual text-to-image research, domain-adapted diffusion fine-tuning, and prompt-engineering studies for scientific visualization. Dataset: https://huggingface.co/datasets/SciDrawAI/SciDraw-6K Code: https://github.com/SciDrawAI/scidraw-6k
- Abstract(参考訳): SciDraw-6Kは、Google Geminiの画像生成モデルによって合成された6,291の科学的イラストのキュレートされたデータセットで、それぞれ11の言語(英語、簡体字中国語、伝統中国語、日本語、韓国語、ドイツ語、フランス語、スペイン語、ブラジルポルトガル語、イタリア語、ロシア語)でプロンプトとペアリングした。
画像は、バイオメディカル、化学、材料、エレクトロニクス、環境、AIシステム、物理学、そして長い「他の」尾翼の8つの幅広い科学カテゴリにまたがっており、主にgemini-2.5-flash-imageとgemini-3-pro-image-previewモデルファミリによって作成されている。
SciDraw-6Kは、文学を支配している汎用のテキスト・ツー・イメージコーパスとは対照的に、図式図、メカニズム図、テーブル・オブ・コンテント・グラフィック、概念ポスターといった科学イラストのジャンルのために開発された。
建設パイプラインについて記述し、データセット統計を報告し、公開科学描画サービスであるsci-draw.comの基盤としての利用を文書化する。
このデータセットは、多言語によるテキスト・ツー・イメージの研究、ドメイン適応拡散微調整、科学的可視化のための即時エンジニアリング研究をサポートするためにリリースされた。
データセット:https://huggingface.co/datasets/SciDrawAI/SciDraw-6Kコード:https://github.com/SciDrawAI/Scidraw-6k
関連論文リスト
- S1-MMAlign: A Large-Scale, Multi-Disciplinary Dataset for Scientific Figure-Text Understanding [16.351123624587384]
S1-MMAlignは1550万以上の高品質の画像テキストペアからなる大規模で多分野のマルチモーダルデータセットである。
本稿では,Qwen-VL多モード大モデル系列を用いたAI対応セマンティックエンハンスメントパイプラインを提案する。
論文 参考訳(メタデータ) (2026-01-01T08:54:51Z) - From Panel to Pixel: Zoom-In Vision-Language Pretraining from Biomedical Scientific Literature [86.7745150269054]
パネル2パッチ(Panel2Patch)は、既存のバイオメディカル科学文献から階層構造をマイニングする新しいデータパイプラインである。
科学的数字とキャプションが与えられた場合、Panel2Patchはレイアウト、パネル、ビジュアルマーカーを解析し、フィギュア、パネル、パッチレベルにおいて階層的に協調した視覚言語ペアを構築する。
我々は,不均一な目的を粗いドクティックな記述から細かな領域に焦点を絞ったフレーズに統一する,粒度を考慮した事前学習戦略を開発した。
論文 参考訳(メタデータ) (2025-12-02T09:37:51Z) - Graphics4Science: Computer Graphics for Scientific Impacts [69.54528197718207]
このコースはコンピュータグラフィックスと科学の関係を探求する。
幾何学的推論や物理モデリングといった中核的な手法が,両分野の課題に対処するための帰納的バイアスをもたらすことを示す。
我々は,2つのコミュニティ間の語彙ギャップを埋めることで,科学のモデリング言語としてのグラフィクスを再構築することを目指している。
論文 参考訳(メタデータ) (2025-06-18T18:06:58Z) - ScImage: How Good Are Multimodal Large Language Models at Scientific Text-to-Image Generation? [26.133995243580028]
マルチモーダル大言語モデル(LLM)は、テキスト命令から高品質な画像を生成する際、印象的な能力を示した。
この研究は、テキスト記述から科学画像を生成する際のLLMのマルチモーダル能力を評価するために設計されたベンチマークであるScImageを紹介する。
論文 参考訳(メタデータ) (2024-12-03T10:52:06Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - SciInstruct: a Self-Reflective Instruction Annotated Dataset for Training Scientific Language Models [57.96527452844273]
我々はSciInstructを紹介した。SciInstructは、大学レベルの科学的推論が可能な科学言語モデルを訓練するための科学指導スイートである。
我々は、物理学、化学、数学、公式な証明を含む多種多様な高品質なデータセットをキュレートした。
SciInstructの有効性を検証するため、SciInstruct、すなわちChatGLM3(6Bと32B)、Llama3-8B-Instruct、Mistral-7B: MetaMathを用いて言語モデルを微調整した。
論文 参考訳(メタデータ) (2024-01-15T20:22:21Z) - SciCap+: A Knowledge Augmented Dataset to Study the Challenges of
Scientific Figure Captioning [18.94446071846939]
図のキャプション生成は、科学文書のモデル理解をテキストを超えて移動させるのに役立つ。
大規模なSciCapデータセットを拡張し、参照パラグラフ(図を参照するパラグラフ)とOCRトークンを含む。
以上の結果から,参照パラグラフが文脈知識として機能し,画像の自動キャプション評価スコアが大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-06-06T08:16:16Z) - SciCap: Generating Captions for Scientific Figures [20.696070723932866]
SCICAPは,2010年から2020年にかけて発行されたコンピュータサイエンスarXiv論文をベースとした大規模フィギュアキャプションデータセットである。
前処理後、SCICAPは290,000件以上の論文から200万件以上を抽出した。
グラフプロットをキャプションするベースラインモデルを構築した(19.2%)。
論文 参考訳(メタデータ) (2021-10-22T07:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。