論文の概要: Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization
- arxiv url: http://arxiv.org/abs/2412.13753v1
- Date: Wed, 18 Dec 2024 11:43:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:03.148967
- Title: Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization
- Title(参考訳): メソスコピックインサイト:画像操作のローカライゼーションのためのマルチスケールハイブリッドアーキテクチャのオーケストレーション
- Authors: Xuekang Zhu, Xiaochen Ma, Lei Su, Zhuohang Jiang, Bo Du, Xiwen Wang, Zeyu Lei, Wentao Feng, Chi-Man Pun, Jizhe Zhou,
- Abstract要約: メソスコピックレベルは、マクロと顕微鏡の世界の間の橋渡しとして機能し、両者が見落としているギャップに対処する。
そこで本研究では,IMLのためのマイクロおよびマクロ情報のメソスコピック表現を同時に構築する方法について検討する。
私たちのモデルは、パフォーマンス、計算複雑性、堅牢性の観点から、現在の最先端のモデルを超えています。
- 参考スコア(独自算出の注目度): 45.99713338249702
- License:
- Abstract: The mesoscopic level serves as a bridge between the macroscopic and microscopic worlds, addressing gaps overlooked by both. Image manipulation localization (IML), a crucial technique to pursue truth from fake images, has long relied on low-level (microscopic-level) traces. However, in practice, most tampering aims to deceive the audience by altering image semantics. As a result, manipulation commonly occurs at the object level (macroscopic level), which is equally important as microscopic traces. Therefore, integrating these two levels into the mesoscopic level presents a new perspective for IML research. Inspired by this, our paper explores how to simultaneously construct mesoscopic representations of micro and macro information for IML and introduces the Mesorch architecture to orchestrate both. Specifically, this architecture i) combines Transformers and CNNs in parallel, with Transformers extracting macro information and CNNs capturing micro details, and ii) explores across different scales, assessing micro and macro information seamlessly. Additionally, based on the Mesorch architecture, the paper introduces two baseline models aimed at solving IML tasks through mesoscopic representation. Extensive experiments across four datasets have demonstrated that our models surpass the current state-of-the-art in terms of performance, computational complexity, and robustness.
- Abstract(参考訳): メソスコピックレベルは、マクロと顕微鏡の世界の間の橋渡しとして機能し、両者が見落としているギャップに対処する。
偽画像から真理を追求する重要な技術である画像操作ローカライゼーション(IML)は、長年、低レベルの(顕微鏡レベルの)トレースに依存してきた。
しかし、実際には、ほとんどの改ざんは、イメージセマンティクスを変更することによって観客を欺くことを目的としている。
結果として、オブジェクトレベルでの操作(マクロレベル)が一般的であり、これは顕微鏡的トレースとしても同様に重要である。
したがって、これらの2つのレベルをメソスコピックレベルに統合することは、IML研究の新たな視点を示す。
そこで本研究では,IMLのためのマイクロおよびマクロ情報のメソスコピック表現を同時に構築する方法について検討し,メソルチアーキテクチャを導入して両者を編成する。
特に この建築は
i)トランスフォーマーとCNNを並列に組み合わせ、マクロ情報を抽出し、CNNがマイクロディテールをキャプチャし、
二 マイクロ・マクロ情報をシームレスに評価し、様々なスケールで探索すること。
さらに,メソスコピックアーキテクチャに基づいて,メソスコピック表現によるAIMタスクの解決を目的とした2つのベースラインモデルを提案する。
4つのデータセットにわたる大規模な実験により、我々のモデルは、パフォーマンス、計算複雑性、ロバストネスの点で現在の最先端を超越していることが証明された。
関連論文リスト
- Macro2Micro: Cross-modal Magnetic Resonance Imaging Synthesis Leveraging Multi-scale Brain Structures [6.2458748518915135]
我々は、GAN(Generative Adversarial Network)を用いて、マクロ構造から脳の微細構造を予測するディープラーニングフレームワークであるMacro2Microを紹介する。
以上の結果から,Macro2MicroはT1強調MRIをFA画像に忠実に変換し,従来法と比較して構造類似度指数測定(Structure similarity Index Measure, SSIM)を6.8%改善した。
論文 参考訳(メタデータ) (2024-12-15T18:49:20Z) - Microscopic-Mamba: Revealing the Secrets of Microscopic Images with Just 4M Parameters [12.182070604073585]
CNNは、画像のセマンティック情報を完全に活用する能力を制限して、長距離依存のモデリングに苦労する。
変換器は二次計算の複雑さによって妨げられる。
本稿では,Mambaアーキテクチャに基づくモデルを提案する。
論文 参考訳(メタデータ) (2024-09-12T10:01:33Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - Mini-Monkey: Alleviating the Semantic Sawtooth Effect for Lightweight MLLMs via Complementary Image Pyramid [87.09900996643516]
本稿では,高分解能画像処理における意味的不連続性を軽減するための補完画像ピラミッド(CIP)を提案する。
また、冗長な視覚トークンを圧縮することにより、計算オーバーヘッドを増大させるスケール圧縮機構(SCM)を導入する。
我々の実験は、CIPが様々なアーキテクチャで継続的に性能を向上できることを示した。
論文 参考訳(メタデータ) (2024-08-04T13:55:58Z) - MatSAM: Efficient Extraction of Microstructures of Materials via Visual
Large Model [11.130574172301365]
Segment Anything Model (SAM)は、強力な深い特徴表現とゼロショットの一般化機能を備えた大きなビジュアルモデルである。
本稿では,SAMに基づく汎用的で効率的なマイクロ構造抽出法であるMatSAMを提案する。
簡単なが効果的な点ベースのプロンプト生成戦略が設計され、ミクロ構造の分布と形状に基づいている。
論文 参考訳(メタデータ) (2024-01-11T03:18:18Z) - Optimizations of Autoencoders for Analysis and Classification of
Microscopic In Situ Hybridization Images [68.8204255655161]
同様のレベルの遺伝子発現を持つ顕微鏡画像の領域を検出・分類するためのディープラーニングフレームワークを提案する。
分析するデータには教師なし学習モデルが必要です。
論文 参考訳(メタデータ) (2023-04-19T13:45:28Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Guided-deconvolution for Correlative Light and Electron Microscopy [0.0]
相関光と電子顕微鏡は細胞の内部構造を研究する強力なツールである。
これは、光(LM)と電子(EM)顕微鏡情報の相互利益を組み合わせたものである。
EM画像上にLMをオーバーレイして機能的情報を構造的情報に割り当てるという古典的なアプローチは、LM画像に見られる構造的詳細の大きな相違によって妨げられる。
論文 参考訳(メタデータ) (2022-08-19T17:12:15Z) - Semi-Supervised Segmentation of Mitochondria from Electron Microscopy
Images Using Spatial Continuity [3.631638087834872]
ミトコンドリアの構造的・形態的・文脈的情報の空間的連続性を利用してミトコンドリアをセグメント化する半教師付き深層学習モデルを提案する。
我々のモデルは、最先端の完全教師付きモデルと同じような性能を達成するが、アノテーション付きトレーニングデータの20%しか必要としない。
論文 参考訳(メタデータ) (2022-06-06T06:52:19Z) - A parameter refinement method for Ptychography based on Deep Learning
concepts [55.41644538483948]
伝播距離、位置誤差、部分的コヒーレンスにおける粗いパラメトリゼーションは、しばしば実験の生存性を脅かす。
最新のDeep Learningフレームワークは、セットアップの不整合を自律的に補正するために使用され、ポチコグラフィーの再構築の質が向上する。
我々は,elettra シンクロトロン施設のツインミックビームラインで取得した合成データセットと実データの両方でシステムをテストした。
論文 参考訳(メタデータ) (2021-05-18T10:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。