論文の概要: Context Determines Optimal Architecture in Materials Segmentation
- arxiv url: http://arxiv.org/abs/2602.04154v1
- Date: Wed, 04 Feb 2026 02:44:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.345763
- Title: Context Determines Optimal Architecture in Materials Segmentation
- Title(参考訳): 材料セグメンテーションにおける最適アーキテクチャの文脈決定
- Authors: Mingjian Lu, Pawan K. Tripathi, Mark Shteyn, Debargha Ganguly, Roger H. French, Vipin Chaudhary, Yinghui Wu,
- Abstract要約: 本稿では,SEM,AFM,XCT,光学顕微鏡にまたがる材料画像分割のためのクロスモーダル評価フレームワークを提案する。
7つのデータセットにまたがる6つのエンコーダとデコーダの組み合わせを評価した結果,最適アーキテクチャは文脈によって体系的に異なることがわかった。
- 参考スコア(独自算出の注目度): 9.00774701371649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Segmentation architectures are typically benchmarked on single imaging modalities, obscuring deployment-relevant performance variations: an architecture optimal for one modality may underperform on another. We present a cross-modal evaluation framework for materials image segmentation spanning SEM, AFM, XCT, and optical microscopy. Our evaluation of six encoder-decoder combinations across seven datasets reveals that optimal architectures vary systematically by context: UNet excels for high-contrast 2D imaging while DeepLabv3+ is preferred for the hardest cases. The framework also provides deployment feedback via out-of-distribution detection and counterfactual explanations that reveal which microstructural features drive predictions. Together, the architecture guidance, reliability signals, and interpretability tools address a practical gap in materials characterization, where researchers lack tools to select architectures for their specific imaging setup or assess when models can be trusted on new samples.
- Abstract(参考訳): セグメンテーションアーキテクチャは、通常、単一の画像モダリティでベンチマークされ、デプロイメントと関連するパフォーマンスのバリエーションを隠蔽する。
本稿では,SEM,AFM,XCT,光学顕微鏡にまたがる材料画像分割のためのクロスモーダル評価フレームワークを提案する。
UNetは高コントラスト2Dイメージングに優れており、DeepLabv3+は最も難しいケースに好まれる。
フレームワークはまた、アウト・オブ・ディストリビューションの検出と、どのマイクロ構造的特徴が予測を駆動しているかを示す反ファクト的説明を通じて、デプロイメントフィードバックを提供する。
同時に、アーキテクチャガイダンス、信頼性信号、解釈可能性ツールが材料特性の実践的なギャップに対処し、研究者は特定の画像設定のためのアーキテクチャを選択したり、新しいサンプルにモデルを信頼できるかどうかを評価するツールを欠いている。
関連論文リスト
- How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing [56.60465182650588]
我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。
本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。
プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2026-02-02T09:24:45Z) - CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval [54.15776146365823]
Composed Image Retrieval (CIR)では、ユーザーは参照画像と操作テキストの両方を使用してターゲットイメージを検索できる。
CSMCIRは3つの相乗的コンポーネントを通して効率的なクエリターゲットアライメントを実現する統一表現フレームワークである。
論文 参考訳(メタデータ) (2026-01-07T09:21:38Z) - Multimodal Benchmarking and Recommendation of Text-to-Image Generation Models [0.0]
本研究は,テキスト・ツー・イメージ・ジェネレーション・モデルのためのオープンソースの統一ベンチマーク・評価フレームワークを提案する。
本フレームワークは,モデル選択のためのタスク固有のレコメンデーションと,評価指標に基づく設計の促進を可能にする。
論文 参考訳(メタデータ) (2025-05-06T18:53:34Z) - MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism [67.56918651825056]
並列マルチ時間問い合わせ(MI)機構を備えた新しいデコーダアーキテクチャを提案する。
我々のMIベースモデルであるMI-DETRはCOCOベンチマークで既存のDETRライクなモデルよりも優れています。
診断と可視化の一連の実験は、MIの有効性、合理性、解釈可能性を示している。
論文 参考訳(メタデータ) (2025-03-03T12:19:06Z) - Flemme: A Flexible and Modular Learning Platform for Medical Images [5.086862917025204]
Flemmeは、MedicalイメージのためのFLExible and Modular Learningプラットフォームである。
コンボリューション,トランスフォーマー,状態空間モデル(SSM)に基づくビルディングブロックを用いてエンコーダを構築し,2次元画像パッチと3次元画像パッチの両処理を行う。
論文 参考訳(メタデータ) (2024-08-18T05:47:33Z) - Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for
Complex Visual Reasoning Tasks [4.093474663507322]
ブリッジアーキテクチャは、VQA、キャプション、画像検索といったタスクを解決するために、画像空間からテキスト空間へのプロジェクトである。
我々はNLVR2データセットの従来のブリッジアーキテクチャを拡張し、細粒度オブジェクト推論をファシリケートするためにオブジェクトレベル機能を追加する。
我々の分析では、ブリッジアーキテクチャにオブジェクトレベル機能を追加しても役に立ちませんし、NLVR2のような複雑な推論タスクにおいて、マルチモーダルデータでの事前トレーニングが良いパフォーマンスの鍵であることを示しています。
論文 参考訳(メタデータ) (2023-07-31T03:57:31Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。