論文の概要: FMS$^2$: Unified Flow Matching for Segmentation and Synthesis of Thin Structures
- arxiv url: http://arxiv.org/abs/2603.13659v1
- Date: Sat, 14 Mar 2026 00:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.320729
- Title: FMS$^2$: Unified Flow Matching for Segmentation and Synthesis of Thin Structures
- Title(参考訳): FMS$^2$:Segmentation and Synthesis of Thin Structures
- Authors: Babak Asadi, Peiyang Wu, Mani Golparvar-Fard, Viraj Shah, Ramez Hajj,
- Abstract要約: 2つのモジュールを持つフローマッチングフレームワークであるFMS$2$を提案する。
SegFlowは標準的なエンコーダ/デコーダのバックボーン上に構築された2.96Mパラメータセグメンテーションモデルである。
SynFlowはマスク付きマスク$rightarrow$イメージジェネレータで、ピクセル対応の合成イメージマスクペアを生成する。
- 参考スコア(独自算出の注目度): 1.3111058225843968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmenting thin structures like infrastructure cracks and anatomical vessels is a task hampered by topology-sensitive geometry, high annotation costs, and poor generalization across domains. Existing methods address these challenges in isolation. We propose FMS$^2$, a flow-matching framework with two modules. (1) SegFlow is a 2.96M-parameter segmentation model built on a standard encoder-decoder backbone that recasts prediction as continuous image $\rightarrow$ mask transport. It learns a time-indexed velocity field with a flow-matching regression loss and outputs the mask via ODE integration, rather than supervising only end-state logits. This trajectory-level supervision improves thin-structure continuity and sharpness, compared with tuned topology-aware loss baselines, without auxiliary topology heads, post-processing, or multi-term loss engineering. (2) SynFlow is a mask-conditioned mask $\rightarrow$ image generator that produces pixel-aligned synthetic image-mask pairs. It injects mask geometry at multiple scales and emphasizes boundary bands via edge-aware gating, while a controllable mask generator expands sparsity, width, and branching regimes. On five crack and vessel benchmarks, SegFlow alone outperforms strong CNN, Transformer, Mamba, and generative baselines, improving the volumetric metric (mean IoU) from 0.511 to 0.599 (+17.2%) and reducing the topological metric (Betti matching error) from 82.145 to 51.524 (-37.3%). When training with limited labels, augmenting SegFlow with SynFlow-generated pairs recovers near-full performance using 25% of real annotations and improves cross-domain IoU by 0.11 on average. Unlike classical data augmentation that promotes invariance via label-preserving transforms, SynFlow provides pixel-aligned paired supervision with controllable structural shifts (e.g., sparsity, width, branching), which is particularly effective under domain shift.
- Abstract(参考訳): インフラストラクチャひび割れや解剖学的容器のような細い構造を分割することは、トポロジに敏感な幾何学、高いアノテーションコスト、ドメイン間の一般化の欠如によって妨げられる課題である。
既存のメソッドは、これらの課題を分離して解決する。
2つのモジュールを持つフローマッチングフレームワークであるFMS$^2$を提案する。
SegFlowは標準的なエンコーダ/デコーダのバックボーン上に構築された2.96Mパラメータのセグメンテーションモデルで、予測を連続イメージ$\rightarrow$マスクトランスポートとして再キャストする。
フローマッチングレグレッションロスを伴う時間インデックス付速度場を学習し、エンドステートロジットのみを監督するのではなく、ODE統合を介してマスクを出力する。
この軌道レベルの監督は、補助的なトポロジヘッドや後処理、複数長期のロスエンジニアリングを使わずに、調整されたトポロジ対応の損失ベースラインと比較して、薄膜の連続性とシャープネスを改善する。
2) SynFlow はマスク条件のマスク $\rightarrow$ イメージジェネレータで,ピクセル対応の合成イメージマスクペアを生成する。
マスク幾何学を複数のスケールで注入し、エッジ認識ゲーティングによって境界バンドを強調する一方、制御可能なマスクジェネレータは幅、幅、分岐レジームを拡大する。
5つのクラックと容器のベンチマークでは、SegFlowは強力なCNN、Transformer、Mamba、および生成ベースラインよりも優れており、ボリュームメトリック(平均IoU)を0.511から0.599(+17.2%)に改善し、トポロジメトリック(ベッチマッチングエラー)を82.145から51.524(-37.3%)に削減している。
限られたラベルでトレーニングする場合、SegFlowとSynFlow生成ペアを併用することで、実際のアノテーションの25%を使用してほぼフルに近いパフォーマンスを回復し、ドメイン間のIoUを平均0.11改善する。
ラベル保存変換による不変性を促進する古典的なデータ拡張とは異なり、SynFlowは、特にドメインシフトの下で有効である、制御可能な構造シフト(例えば、間隔、幅、分岐)を備えたピクセル整合型監視を提供する。
関連論文リスト
- One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers [80.19461768457622]
Elastic Latent Interface Transformer (ELIT) は、入力画像サイズを計算から切り離すための、ドロップインでDiT互換のメカニズムである。
読み取りと書き込み クロスアテンション・レイヤは空間トークンとラテントの間で情報を移動し、重要な入力領域を優先する。
ImageNet-1K 512pxでは、ELITの平均利得は35.3%、FIDおよびFDDスコアは39.6%である。
論文 参考訳(メタデータ) (2026-03-12T17:57:04Z) - StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models [57.674757786328236]
StructSAMは、Segment Anything Model(SAM)に適した解像度保存型マージアンマージフレームワークである
また,StructSAMはエンコーダFLOPsを25~30%削減し,mIoU/Diceに少量の低下を認めた。
また、スペクトルグラフ粗大化ビューでは、スコア誘導マージにより、ランダムまたはウィンドウ制限ベースラインと比較して、ラプラシアスペクトル歪みが有界となることを示す。
論文 参考訳(メタデータ) (2026-03-07T18:30:58Z) - ECHO: Encoding Communities via High-order Operators [8.970269049715933]
トポロジ的アルゴリズムは意味的特徴を無視し、グラフニューラルネットワーク(GNN)は壊滅的な計算ボトルネックに直面している。
コミュニティ検出を適応的でマルチスケールの拡散プロセスとして再構成する,スケーラブルで自己管理型のアーキテクチャであるECHOを紹介する。
ECHOは、グローバル勾配の数学的精度を犠牲にすることなく、従来のO(N2)メモリボトルネックを完全にバイパスする。
論文 参考訳(メタデータ) (2026-02-25T22:14:29Z) - Hyperbolic Busemann Neural Networks [100.27390895360753]
本研究では,ニューラルネットワークの中核となる2つの要素,MLR(Multinomial Logistic Regression)層とFC(Fully Connected)層をブセマン関数を介して双曲空間に持ち上げる。
BMLRはコンパクトパラメータ、対空距離解釈、バッチ効率計算、ユークリッド極限を提供する。
画像分類、ゲノムシークエンス学習、ノード分類、リンク予測の実験は、以前の双曲層よりも有効性と効率が向上したことを示している。
論文 参考訳(メタデータ) (2026-02-21T14:45:40Z) - CrackSegFlow: Controllable Flow Matching Synthesis for Generalizable Crack Segmentation with a 50K Image-Mask Benchmark [0.27998963147546135]
CrackSegFlowは、マスクからの亀裂の合成画像をピクセルレベルのアライメントで描画する制御可能な合成法である。
以上の結果から,合成ペアの追加により,+5.37 mIoUと+5.13 F1のドメイン性能が向上し,ターゲットマスク統計によって誘導されるターゲット誘導クロスドメイン合成では+13.12 mIoUと+14.82 F1のドメイン性能が向上した。
論文 参考訳(メタデータ) (2026-01-07T06:28:16Z) - MLPMoE: Zero-Shot Architectural Metamorphosis of Dense LLM MLPs into Static Mixture-of-Experts [0.0]
大規模言語モデル(LLM)は、主に高密度トランスフォーマーとしてデプロイされ、すべてのトークンに対してフィードフォワードブロック内の全てのパラメータがアクティブになる。
MoEfication、CMoE、ToMoE、MoOREといった最近のアップサイクリング手法は、高密度フィードフォワードネットワーク内の疎小で半モジュラーなサブ構造に有用な計算の大部分が存在していることを明らかにしている。
本稿では,高密度の変圧器ブロックを静的な高心性混合体に再構成する学習自由変換であるMoE(MLP-Experts)を紹介する。
論文 参考訳(メタデータ) (2025-11-26T06:14:26Z) - High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。
本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。
本手法は,最先端モデルのFLOPを24~43%削減する。
論文 参考訳(メタデータ) (2025-05-11T13:18:03Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - A^2-FPN: Attention Aggregation based Feature Pyramid Network for
Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。
A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文 参考訳(メタデータ) (2021-05-07T11:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。