論文の概要: Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility
- arxiv url: http://arxiv.org/abs/2601.17027v1
- Date: Sat, 17 Jan 2026 14:18:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.005433
- Title: Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility
- Title(参考訳): 科学的画像合成 : ベンチマーク,方法論,下流ユーティリティ
- Authors: Honglin Lin, Chonghan Qin, Zheng Liu, Qizhi Pei, Yu Li, Zhanping Zhong, Xin Gao, Yanfeng Wang, Conghui He, Lijun Wu,
- Abstract要約: 生成パラダイム,評価,下流利用における科学的画像合成について検討する。
本稿では,情報の有用性と論理的妥当性に基づいて生成した画像を評価するSciGenBenchを紹介する。
厳密に検証された合成科学画像上の微調整された大規模マルチモーダルモデルにより、一貫した推論ゲインが得られることを示す。
- 参考スコア(独自算出の注目度): 57.83550091882176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While synthetic data has proven effective for improving scientific reasoning in the text domain, multimodal reasoning remains constrained by the difficulty of synthesizing scientifically rigorous images. Existing Text-to-Image (T2I) models often produce outputs that are visually plausible yet scientifically incorrect, resulting in a persistent visual-logic divergence that limits their value for downstream reasoning. Motivated by recent advances in next-generation T2I models, we conduct a systematic study of scientific image synthesis across generation paradigms, evaluation, and downstream use. We analyze both direct pixel-based generation and programmatic synthesis, and propose ImgCoder, a logic-driven framework that follows an explicit "understand - plan - code" workflow to improve structural precision. To rigorously assess scientific correctness, we introduce SciGenBench, which evaluates generated images based on information utility and logical validity. Our evaluation reveals systematic failure modes in pixel-based models and highlights a fundamental expressiveness-precision trade-off. Finally, we show that fine-tuning Large Multimodal Models (LMMs) on rigorously verified synthetic scientific images yields consistent reasoning gains, with potential scaling trends analogous to the text domain, validating high-fidelity scientific synthesis as a viable path to unlocking massive multimodal reasoning capabilities.
- Abstract(参考訳): 合成データはテキスト領域における科学的推論を改善するのに有効であることが証明されているが、科学的に厳密な画像の合成が困難であるため、マルチモーダル推論は制約を受け続けている。
既存のテキスト・トゥ・イメージ(T2I)モデルは、しばしば視覚的に可視であるが科学的に誤りのある出力を生成し、その結果、下流の推論に価値を限定する永続的な視覚的論理的発散をもたらす。
次世代T2Iモデルの最近の進歩に触発されて、我々は、世代パラダイム、評価、下流使用における科学的画像合成の体系的研究を行う。
我々は,直接ピクセルベースの生成とプログラム合成の両方を分析し,構造精度を向上させるために,明示的な"理解 - 計画 - コード"ワークフローに従う論理駆動フレームワークであるImgCoderを提案する。
科学的正確性を評価するために,情報の有用性と論理的妥当性に基づいて生成した画像を評価するSciGenBenchを紹介する。
本評価では,画素モデルにおける系統的故障モードを明らかにし,基本的な表現性-精度トレードオフを明らかにする。
最後に、厳密に検証された合成科学画像上の微調整大型マルチモーダルモデル(LMM)は、テキスト領域に類似した潜在的なスケーリング傾向を生かし、巨大なマルチモーダル推論能力を解き放つための有効な経路として、高忠実な科学合成を検証する。
関連論文リスト
- SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning [54.390403684665834]
視覚刺激が皮質反応にどのように変換されるかを理解することは、計算神経科学の基本的な課題である。
視覚的意味論から神経反応への変換を確率的かつ生物学的に解釈可能な方法でシミュレートする生成フレームワークであるSynBrainを提案する。
実験結果から,SynBrainは被写体特異的視覚-fMRI符号化性能において最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2025-08-14T03:01:05Z) - SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model [21.81341169834812]
SridBenchは、科学フィギュア生成のための最初のベンチマークである。
これは13の自然科学とコンピュータ科学の分野にわたる主要な科学論文から1,120の事例で構成されている。
その結果、GPT-4o画像のような最上位モデルでさえ、人間のパフォーマンスに遅れがあることが判明した。
論文 参考訳(メタデータ) (2025-05-28T08:51:01Z) - Bi-modality medical images synthesis by a bi-directional discrete process matching method [2.7309692684728617]
本稿では,二方向離散プロセスマッチング(Bi-DPM)というフローベースモデルを提案する。
Bi-DPMは、他の最先端のフローベースのバイモーダリティ画像合成法よりも優れており、正確な解剖学的領域で高い画質を実現する。
論文 参考訳(メタデータ) (2024-09-06T01:54:35Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Scaling Rectified Flow Transformers for High-Resolution Image Synthesis [22.11487736315616]
整流流(rectified flow)は、データとノイズを直線で接続する最近の生成モデルである。
我々は,既存のノイズサンプリング手法を改良し,それらを知覚的に関係のあるスケールに偏りを持たせることにより,整流モデルの訓練を行う。
本稿では,2つのモードの重みを分離したテキスト・画像生成のためのトランスフォーマー・ベースアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-05T18:45:39Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。