論文の概要: Trash or Treasure? An Interactive Dual-Stream Strategy for Single Image
Reflection Separation
- arxiv url: http://arxiv.org/abs/2110.10546v1
- Date: Wed, 20 Oct 2021 13:05:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 16:34:27.398533
- Title: Trash or Treasure? An Interactive Dual-Stream Strategy for Single Image
Reflection Separation
- Title(参考訳): ゴミか宝物か?
単一画像反射分離のための対話型デュアルストリーム戦略
- Authors: Qiming Hu, Xiaojie Guo
- Abstract要約: この研究は、一般的な単純なインタラクティブな戦略を示し、つまり、$textityour trash is my treasure$ (YTMT) で二重ストリーム分解ネットワークを構築する。
2つのコンポーネント間の付加的な性質にインスパイアされたインタラクティブパスは、ReLUが一方のストリームからもう一方のストリームへ非活性化した情報を破棄する代わりに、転送によって簡単に構築できる。
- 参考スコア(独自算出の注目度): 8.707025631892202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single image reflection separation (SIRS), as a representative blind source
separation task, aims to recover two layers, $\textit{i.e.}$, transmission and
reflection, from one mixed observation, which is challenging due to the highly
ill-posed nature. Existing deep learning based solutions typically restore the
target layers individually, or with some concerns at the end of the output,
barely taking into account the interaction across the two streams/branches. In
order to utilize information more efficiently, this work presents a general yet
simple interactive strategy, namely $\textit{your trash is my treasure}$
(YTMT), for constructing dual-stream decomposition networks. To be specific, we
explicitly enforce the two streams to communicate with each other block-wisely.
Inspired by the additive property between the two components, the interactive
path can be easily built via transferring, instead of discarding, deactivated
information by the ReLU rectifier from one stream to the other. Both ablation
studies and experimental results on widely-used SIRS datasets are conducted to
demonstrate the efficacy of YTMT, and reveal its superiority over other
state-of-the-art alternatives. The implementation is quite simple and our code
is publicly available at
$\href{https://github.com/mingcv/YTMT-Strategy}{\textit{https://github.com/mingcv/YTMT-Strategy}}$.
- Abstract(参考訳): 単一画像反射分離(sirs、single image reflection separation)は、代表的なブラインドソース分離タスクとして、1つの混合観察から$\textit{i.e}$という2つの層を復元することを目的としている。
既存のディープラーニングベースのソリューションは、通常、ターゲット層を個別に復元するか、出力の最後にいくつかの懸念を持って、2つのストリーム/ブランチ間の相互作用をほとんど考慮しない。
情報をより効率的に活用するために、この研究は、二重ストリーム分解ネットワークを構築するための一般的な単純な対話戦略である$\textit{your trash is my treasure}$ (YTMT)を提示している。
具体的には、2つのストリームをブロックごとに通信するために明示的に強制します。
2つのコンポーネント間の付加特性にインスパイアされた対話パスは、ReLU整流器による非活性化情報を1つのストリームからもう1つのストリームへ転送することで簡単に構築できる。
広く使用されているSIRSデータセットに対するアブレーション研究と実験結果の両方を、YTMTの有効性を実証し、他の最先端の代替品よりもその優位性を明らかにするために実施した。
実装は非常にシンプルで、コードは$\href{https://github.com/mingcv/ytmt-strategy}{\textit{https://github.com/mingcv/ytmt-strategy}}$で公開されています。
関連論文リスト
- Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。
本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。
PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-01T15:14:58Z) - Rethinking the Paradigm of Content Constraints in Unpaired
Image-to-Image Translation [9.900050049833986]
本稿では,パッチレベルの特徴の潜在空間における表現的類似性を制約することにより,コンテンツ管理のシンプルかつ効率的な方法であるEnCoを提案する。
類似性関数に対しては、I2Iタスクで広く使われている対照的な損失ではなく、単純なMSE損失を用いる。
さらに, 識別者によるサンプリングにおける役割を再考し, ランダムサンプリングの代替として, DAG(Disdisnative attention-guided)パッチサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-11-20T04:39:57Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - ResT V2: Simpler, Faster and Stronger [18.610152288982288]
本稿では,よりシンプルで高速で強力なマルチスケール視覚変換器であるResTv2を提案する。
我々は、ImageNet分類、COCO検出、ADE20KセマンティックセグメンテーションのResTv2を検証する。
実験結果から、提案されたResTv2は、最近の最先端のバックボーンよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-04-15T07:57:40Z) - GEN-VLKT: Simplify Association and Enhance Interaction Understanding for
HOI Detection [17.92210977820113]
本稿では,2分岐パイプラインをポストマッチングなしで実現するためのガイド埋め込みネットワーク(GEN)を提案する。
協会にとって、以前の2枝の手法は複雑でコストのかかるポストマッチングに悩まされる。
相互作用理解のために、従来の手法は長い尾の分布とゼロショット発見に悩まされていた。
論文 参考訳(メタデータ) (2022-03-26T01:04:13Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Multi-Scale Hourglass Hierarchical Fusion Network for Single Image
Deraining [8.964751500091005]
雨のひもはサイズ、方向および密度で頻繁に変わる深刻なぼやけおよび視覚質の低下をもたらします。
現在のCNN方式は, 降雨特性の描写や, 可視性に乏しい環境下でのイメージの復元に限られている。
本稿では,マルチスケール抽出,階層蒸留,情報集約による雨天の特徴を正確に把握するために,マルチスケールのHH2F-Netを提案する。
論文 参考訳(メタデータ) (2021-04-25T08:27:01Z) - Multi-object Tracking with a Hierarchical Single-branch Network [31.680667324595557]
階層的な単一ブランチネットワークに基づくオンライン多目的追跡フレームワークを提案する。
新たなiHOIM損失関数は,2つのサブタスクの目的を統一し,より優れた検出性能を実現する。
MOT16とMOT20データセットの実験結果から,最先端のトラッキング性能が達成できた。
論文 参考訳(メタデータ) (2021-01-06T12:14:58Z) - Two-Stage Single Image Reflection Removal with Reflection-Aware Guidance [78.34235841168031]
シングルイメージリフレクション除去(SIRR)のためのリフレクション・アウェア・ガイダンス(RAGNet)を用いた新しい2段階ネットワークを提案する。
RAGは、(i)観測からの反射の効果を緩和するために、(ii)線形結合仮説から逸脱する効果を緩和するための部分畳み込みにおいてマスクを生成するために用いられる。
5つの一般的なデータセットの実験は、最先端のSIRR法と比較して、RAGNetの量的および質的な優位性を実証している。
論文 参考訳(メタデータ) (2020-12-02T03:14:57Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。