Fugu-MT 論文翻訳(概要): Inharmonious Region Localization

論文の概要: Inharmonious Region Localization

arxiv url: http://arxiv.org/abs/2104.09453v1
Date: Mon, 19 Apr 2021 17:12:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-20 13:46:08.167618
Title: Inharmonious Region Localization
Title（参考訳）: 不調和地域化
Authors: Jing Liang, Li Niu, Liqing Zhang
Abstract要約: 不調和な地域をローカライズすることは魅力的だが難しい課題だ。我々は,新しい双方向特徴統合(BFI)ブロックとグローバルコンテキストガイドデコーダ(GGD)ブロックを設計し,エンコーダとデコーダのマルチスケール機能を融合する。画像調和データセットの実験により,不調和領域の局所化に対する競合性能が得られた。
参考スコア（独自算出の注目度）: 17.862459937346365
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advance of image editing techniques allows users to create artistic works, but the manipulated regions may be incompatible with the background. Localizing the inharmonious region is an appealing yet challenging task. Realizing that this task requires effective aggregation of multi-scale contextual information and suppression of redundant information, we design novel Bi-directional Feature Integration (BFI) block and Global-context Guided Decoder (GGD) block to fuse multi-scale features in the encoder and decoder respectively. We also employ Mask-guided Dual Attention (MDA) block between the encoder and decoder to suppress the redundant information. Experiments on the image harmonization dataset demonstrate that our method achieves competitive performance for inharmonious region localization. The source code is available at https://github.com/bcmi/DIRL.
Abstract（参考訳）: 画像編集技術の進歩により、ユーザーは芸術作品を作成することができるが、操作された領域は背景と互換性がない可能性がある。不調和な地域をローカライズすることは魅力的だが難しい課題だ。このタスクには, マルチスケールのコンテキスト情報の効果的な集約と冗長情報の抑制が必要であることを認識し, エンコーダとデコーダのマルチスケール機能を融合させるために, 双方向特徴統合(BFI)ブロックとグローバルコンテキストガイドデコーダ(GGD)ブロックを設計する。また、エンコーダとデコーダの間にマスク誘導デュアルアテンション(MDA)ブロックを用いて冗長情報を抑圧する。画像調和データセットの実験により,不調和領域の局所化に対する競合性能が得られた。ソースコードはhttps://github.com/bcmi/DIRL.comで入手できる。

関連論文リスト

PosDiffAE: Position-aware Diffusion Auto-encoder For High-Resolution Brain Tissue Classification Incorporating Artifact Restoration [0.5442686600296733]
脳画像における領域特異的な細胞パターンを認識するために,拡散自己符号化モデルの潜時空間を構造化する機構を考案する。また,非教師付き催涙物復元手法を考案し,推論時の潜伏表現と拡散モデルの制約付き生成能力を利用した。
論文参考訳（メタデータ） (2025-07-03T07:58:53Z)
Magnifier: A Multi-grained Neural Network-based Architecture for Burned Area Delineation [4.833815605196964]
危機管理とリモートセンシングでは、イメージセグメンテーションが重要な役割を担い、災害対応や緊急計画といったタスクを可能にする。同社の開発における問題は、データ不足と広範なベンチマークデータセットの欠如であり、大規模なニューラルネットワークモデルをトレーニングする能力を制限している。本稿では,データ可用性を制限したセグメンテーション性能向上のための新しい手法,Magnifierを提案する。
論文参考訳（メタデータ） (2025-04-28T08:51:54Z)
Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。 MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文参考訳（メタデータ） (2024-10-29T03:49:40Z)
FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models [16.737419222106308]
本稿では,FakeShieldの設計とIFDLタスクを提案する。 FakeShieldは、画像の信頼性を評価し、改ざんされた領域マスクを生成し、画素レベルおよび画像レベルの改ざんヒントに基づいた判断ベースを提供するマルチモーダルフレームワークである。実験では、FakeShieldは様々な改ざん手法を効果的に検出し、ローカライズし、従来のIFDL法と比較して説明可能で優れた解を提供する。
論文参考訳（メタデータ） (2024-10-03T17:59:34Z)
Addressing Domain Discrepancy: A Dual-branch Collaborative Model to Unsupervised Dehazing [1.6624384368855527]
本稿では、この問題に対処する新しい二分岐協調脱ハージングモデル(DCM-dehaze)を提案する。具体的には,DDSCM (Double Deepwise Separable Convolutional Module) を設計し,より深い特徴の情報を強化する。さらに、画像のエッジ特徴を最適化し、画像の明瞭度と忠実度を高めるために、双方向の輪郭関数を構築した。
論文参考訳（メタデータ） (2024-07-14T14:47:32Z)
R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文参考訳（メタデータ） (2023-10-13T05:48:42Z)
Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文参考訳（メタデータ） (2023-05-17T14:30:11Z)
Divided Attention: Unsupervised Multi-Object Discovery with Contextually Separated Slots [78.23772771485635]
本研究では,視覚領域を独立した移動領域に分割し,基礎的な真実や監督を伴わずに訓練する手法を提案する。 Slot Attentionに基づく逆条件エンコーダ・デコーダアーキテクチャで構成されている。
論文参考訳（メタデータ） (2023-04-04T00:26:13Z)
Region-Aware Diffusion for Zero-shot Text-driven Image Editing [78.58917623854079]
本稿では,エンティティレベルの画像編集のための領域認識拡散モデル(RDM)を提案する。画像の忠実度と推論速度のバランスをとるために,集中拡散パイプラインを設計する。その結果、RDMは、視覚的品質、全体的な調和、非編集領域のコンテンツ保存、テキストイメージのセマンティック一貫性において、従来のアプローチよりも優れていた。
論文参考訳（メタデータ） (2023-02-23T06:20:29Z)
Inharmonious Region Localization via Recurrent Self-Reasoning [18.963031309495005]
合成画像の品質向上のためには,不調和領域の局所化が重要でありながら課題である。古典的なクラスタリングアルゴリズムにインスパイアされた我々は、ピクセルを2つのクラスタ、すなわち不調和なクラスタとバックグラウンドクラスタにグループ化することを目指している。
論文参考訳（メタデータ） (2022-10-05T05:50:24Z)
Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文参考訳（メタデータ） (2020-10-29T14:46:05Z)
Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文参考訳（メタデータ） (2020-02-07T03:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。