Fugu-MT 論文翻訳(概要): UniEM-3M: A Universal Electron Micrograph Dataset for Microstructural Segmentation and Generation

論文の概要: UniEM-3M: A Universal Electron Micrograph Dataset for Microstructural Segmentation and Generation

arxiv url: http://arxiv.org/abs/2508.16239v1
Date: Fri, 22 Aug 2025 09:20:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-25 16:42:36.333926
Title: UniEM-3M: A Universal Electron Micrograph Dataset for Microstructural Segmentation and Generation
Title（参考訳）: UniEM-3M: マイクロセグメンテーションと生成のためのユニバーサル電子マイクログラフデータセット
Authors: Nan wang, Zhiyi Xia, Yiming Li, Shi Tang, Zuxin Fan, Xi Fang, Haoyi Tao, Xiaochen Cai, Guolin Ke, Linfeng Zhang, Yanhui Hong,
Abstract要約: インスタンスレベルの理解のための,最初の大規模かつマルチモーダルなEMデータセットUniEM-3Mを紹介する。 5,091個の高解像度EM、約300万個のインスタンスセグメンテーションラベル、画像レベルの属性不整合テキスト記述で構成されている。コレクション全体に基づいてトレーニングされたテキスト間拡散モデルは、強力なデータ拡張ツールと、完全なデータ分散のためのプロキシの両方として機能する。
参考スコア（独自算出の注目度）: 19.67541048907923
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Quantitative microstructural characterization is fundamental to materials science, where electron micrograph (EM) provides indispensable high-resolution insights. However, progress in deep learning-based EM characterization has been hampered by the scarcity of large-scale, diverse, and expert-annotated datasets, due to acquisition costs, privacy concerns, and annotation complexity. To address this issue, we introduce UniEM-3M, the first large-scale and multimodal EM dataset for instance-level understanding. It comprises 5,091 high-resolution EMs, about 3 million instance segmentation labels, and image-level attribute-disentangled textual descriptions, a subset of which will be made publicly available. Furthermore, we are also releasing a text-to-image diffusion model trained on the entire collection to serve as both a powerful data augmentation tool and a proxy for the complete data distribution. To establish a rigorous benchmark, we evaluate various representative instance segmentation methods on the complete UniEM-3M and present UniEM-Net as a strong baseline model. Quantitative experiments demonstrate that this flow-based model outperforms other advanced methods on this challenging benchmark. Our multifaceted release of a partial dataset, a generative model, and a comprehensive benchmark -- available at huggingface -- will significantly accelerate progress in automated materials analysis.
Abstract（参考訳）: 物質科学では、電子マイクログラフ(EM)が必須の高分解能な洞察を提供する。しかし、ディープラーニングに基づくEMの特徴付けの進歩は、取得コスト、プライバシの懸念、アノテーションの複雑さにより、大規模で多様で専門家が注釈付けしたデータセットの不足によって妨げられている。この問題に対処するために、インスタンスレベルの理解のために、最初の大規模かつマルチモーダルなEMデータセットUniEM-3Mを導入する。 5,091個の高解像度EM、約300万個のインスタンスセグメンテーションラベル、および画像レベルの属性不整形テキスト記述で構成されており、そのサブセットが公開される予定である。さらに、コレクション全体に基づいてトレーニングされたテキスト・ツー・イメージの拡散モデルもリリースし、強力なデータ拡張ツールと完全なデータ分散のためのプロキシとして機能します。厳密なベンチマークを確立するため,UniEM-3MとUniEM-Netをベースラインモデルとして評価した。定量的実験により、このフローベースモデルは、この挑戦的なベンチマークにおいて、他の高度な手法よりも優れていることが示された。部分的データセット、生成モデル、および包括的なベンチマークの多面的リリース -- ハグフェイスで利用可能な -- は、自動材料分析の進歩を著しく加速します。

関連論文リスト

SAM 3D Body: Robust Full-Body Human Mesh Recovery [65.0108906331903]
シングルイメージフルボディ3Dヒューマンメッシュリカバリ(HMR)のためのアクセラブルモデルSAM 3D Body (3DB)を紹介する。 3DBは、身体、足、手の人間のポーズを推定します。骨格構造と表面形状を分離する新しいパラメトリックメッシュ表現であるMomentum Human Rig(MHR)を使用した最初のモデルである。
論文参考訳（メタデータ） (2026-02-17T20:26:37Z)
Large-scale EM Benchmark for Multi-Organelle Instance Segmentation in the Wild [8.670858548670742]
本研究では, 多様なセルタイプにまたがる10万以上の2次元EM画像と, 実世界の変動を捉えた5つのオルガネラクラスからなる, マルチオルガネラインスタンスセグメンテーションのベンチマークを開発する。現在のモデルでは、異種EMデータの一般化に苦慮し、グローバルな分散形態を持つオルガネラでは性能が悪くなっている。これらの知見は,局所文脈モデルと実世界の変動性の存在下での長距離構造的連続性をモデル化する課題との根本的なミスマッチを浮き彫りにした。
論文参考訳（メタデータ） (2026-01-18T16:09:27Z)
Reconstruction-Driven Multimodal Representation Learning for Automated Media Understanding [0.1411701037241356]
本稿では,テキスト,音声,視覚データ間の統一表現を学習するマルチモーダルオートエンコーダを提案する。線形ベースラインに比べてクラスタリングとアライメントの指標が大幅に改善された。その結果、現代放送の自動化、検索可能性、コンテンツ管理効率を高めるために、再構成駆動型マルチモーダル学習の可能性を浮き彫りにした。
論文参考訳（メタデータ） (2025-11-17T19:13:51Z)
Beyond Atomic Geometry Representations in Materials Science: A Human-in-the-Loop Multimodal Framework [2.172419551358714]
MultiCrystalSpectrumSet(MCS-Set)は、原子構造と2Dプロジェクションと構造化テキストアノテーションを統合することで、材料データセットを拡張するキュレートされたフレームワークである。 MCS-Setは,(1)マルチモーダル特性と要約予測,(2)部分クラスタ管理による制約結晶生成の2つの重要なタスクを実現する。
論文参考訳（メタデータ） (2025-05-30T23:18:42Z)
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文参考訳（メタデータ） (2025-02-21T03:05:45Z)
MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。本稿では,データ合成における生成モデルの利用について検討する。本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文参考訳（メタデータ） (2024-12-04T16:34:22Z)
Revealing the Evolution of Order in Materials Microstructures Using Multi-Modal Computer Vision [4.6481041987538365]
マイクロエレクトロニクス用高性能材料の開発は, マイクロ構造秩序を記述し, 直接的に定義する能力に依存している。本稿では, 複合酸化物La$_1-x$Sr$_x$FeO$_3$の電子顕微鏡解析の順序を記述するためのマルチモーダル機械学習(ML)手法を実証する。我々は、ユニモーダルモデルとマルチモーダルモデルの性能の違いを観察し、コンピュータビジョンを用いて結晶の秩序を記述する一般的な教訓を導いた。
論文参考訳（メタデータ） (2024-11-15T02:44:32Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文参考訳（メタデータ） (2024-08-08T17:10:16Z)
MatSAM: Efficient Extraction of Microstructures of Materials via Visual Large Model [11.130574172301365]
Segment Anything Model (SAM)は、強力な深い特徴表現とゼロショットの一般化機能を備えた大きなビジュアルモデルである。本稿では,SAMに基づく汎用的で効率的なマイクロ構造抽出法であるMatSAMを提案する。簡単なが効果的な点ベースのプロンプト生成戦略が設計され、ミクロ構造の分布と形状に基づいている。
論文参考訳（メタデータ） (2024-01-11T03:18:18Z)
Learning Multiscale Consistency for Self-supervised Electron Microscopy Instance Segmentation [48.267001230607306]
本稿では,EMボリュームのマルチスケール一貫性を高める事前学習フレームワークを提案する。当社のアプローチでは,強力なデータ拡張と弱いデータ拡張を統合することで,Siameseネットワークアーキテクチャを活用している。効果的にボクセルと機能の一貫性をキャプチャし、EM分析のための転送可能な表現を学習する。
論文参考訳（メタデータ） (2023-08-19T05:49:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。