論文の概要: Light Field Saliency Detection with Dual Local Graph Learning
andReciprocative Guidance
- arxiv url: http://arxiv.org/abs/2110.00698v1
- Date: Sat, 2 Oct 2021 00:54:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:34:55.873631
- Title: Light Field Saliency Detection with Dual Local Graph Learning
andReciprocative Guidance
- Title(参考訳): デュアル局所グラフ学習と相互誘導による光場残差検出
- Authors: Nian Liu, Wangbo Zhao, Dingwen Zhang, Junwei Han, Ling Shao
- Abstract要約: 我々は、グラフネットワークを介して焦点スタック内のインフォメーション融合をモデル化する。
我々は、全焦点パタンを用いて焦点スタック融合過程をガイドする新しいデュアルグラフモデルを構築した。
- 参考スコア(独自算出の注目度): 148.9832328803202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of light field data in salient object de-tection is becoming
increasingly popular recently. The diffi-culty lies in how to effectively fuse
the features within the fo-cal stack and how to cooperate them with the feature
of theall-focus image. Previous methods usually fuse focal stackfeatures via
convolution or ConvLSTM, which are both lesseffective and ill-posed. In this
paper, we model the infor-mation fusion within focal stack via graph networks.
Theyintroduce powerful context propagation from neighbouringnodes and also
avoid ill-posed implementations. On the onehand, we construct local graph
connections thus avoidingprohibitive computational costs of traditional graph
net-works. On the other hand, instead of processing the twokinds of data
separately, we build a novel dual graph modelto guide the focal stack fusion
process using all-focus pat-terns. To handle the second difficulty, previous
methods usu-ally implement one-shot fusion for focal stack and
all-focusfeatures, hence lacking a thorough exploration of their sup-plements.
We introduce a reciprocative guidance schemeand enable mutual guidance between
these two kinds of in-formation at multiple steps. As such, both kinds of
featurescan be enhanced iteratively, finally benefiting the saliencyprediction.
Extensive experimental results show that theproposed models are all beneficial
and we achieve signif-icantly better results than state-of-the-art methods.
- Abstract(参考訳): 静電対検出における光場データの適用は近年ますます人気が高まっている。
差分能力は、フォカルスタック内の機能を効果的に融合する方法と、全焦点画像の特徴と協調する方法にある。
従来の方法では通常、畳み込み(convolution)またはconvlstm(convlstm)を介してfocal stackfeaturesを融合する。
本稿では,フォカルスタック内のインフォーメーション融合をグラフネットワークを用いてモデル化する。
近隣ノードから強力なコンテキスト伝搬を導入し、不適切な実装を避ける。
一方,従来のグラフ網の計算コストを抑えるため,局所的なグラフ接続を構築する。
一方,2種類のデータを別々に処理する代わりに,全焦点パタンを用いた局所スタック融合プロセスのガイドとして,新しいデュアルグラフモデルを構築した。
第2の難題に対処するため、従来の手法では焦点スタックと全焦点ファインダのワンショット核融合を簡易に実装していた。
本稿では,この2種類のインフォーム間の相互指導を複数のステップで実現する。
そのため、両方の特徴を反復的に拡張することが可能であり、最終的にサリエンシ予測の恩恵を受けることができる。
実験結果から,提案モデルが有用であり,最先端手法よりも有意な結果が得られた。
関連論文リスト
- Enhanced Multi-Scale Cross-Attention for Person Image Generation [140.90068397518655]
課題のある人物画像生成タスクに対して,新たにGAN(cross-attention-based generative adversarial network)を提案する。
クロスアテンション(Cross-attention)は、異なるモードの2つの特徴写像間で注意/相関行列を計算する、新しく直感的なマルチモーダル融合法である。
異なる段階における外観・形状特徴を効果的に融合させるために, 密結合型コアテンションモジュールを新たに導入する。
論文 参考訳(メタデータ) (2025-01-15T16:08:25Z) - DreamMover: Leveraging the Prior of Diffusion Models for Image Interpolation with Large Motion [35.60459492849359]
本研究では,大きな動きを持つ画像対から中間画像を生成する問題について検討する。
大きな動きのため、中間的な意味情報は入力画像に欠落する可能性がある。
3つの主要コンポーネントを持つ新しいイメージフレームワークであるDreamMoverを提案する。
論文 参考訳(メタデータ) (2024-09-15T04:09:12Z) - Pose-Guided Self-Training with Two-Stage Clustering for Unsupervised Landmark Discovery [17.455841673719625]
オブジェクトカテゴリの教師なしランドマーク発見(ULD)は、コンピュータビジョンの問題である。
堅牢な ULD フレームワークの開発を追求するために,拡散モデルとして知られる,近年の自己教師型学習アルゴリズムの可能性を探る。
提案手法は, AFLW, MAFL, CatHeads, LS3Dの4つの挑戦的ベンチマークにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-03-24T15:24:04Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Trading-off Mutual Information on Feature Aggregation for Face
Recognition [12.803514943105657]
本稿では、2つの最先端(SOTA)深層顔認識(FR)モデルの出力を集約する手法を提案する。
提案手法では,2つの特徴写像の異なる部分間の関係を利用するために,変圧器の注意機構を利用する。
提案手法の有効性を評価するため,一般的なベンチマーク実験を行い,その結果を最先端のアルゴリズムと比較した。
論文 参考訳(メタデータ) (2023-09-22T18:48:38Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Grounded Text-to-Image Synthesis with Attention Refocusing [16.9170825951175]
拡散モデルのクロスアテンション層と自己アテンション層の潜在的な原因を明らかにする。
そこで本研究では,サンプリング中の空間配置に応じて注目マップを再焦点化するための2つの新たな損失を提案する。
提案手法は,既存手法の制御性を効果的に向上することを示す。
論文 参考訳(メタデータ) (2023-06-08T17:59:59Z) - Bi-level Dynamic Learning for Jointly Multi-modality Image Fusion and
Beyond [50.556961575275345]
補完特性とカスケード二重タスク関連モジュールを融合する画像融合モジュールを構築した。
本研究では, 高速な1次近似により対応する勾配を計算し, 融合学習のための勾配のバランスをとるための動的重み付けアグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-05-11T10:55:34Z) - Learning to Agree on Vision Attention for Visual Commonsense Reasoning [50.904275811951614]
VCRモデルは、画像に関する質問に答えることを目的としており、続いて、前の回答プロセスの合理性予測が続く。
既存の手法は2つのプロセス間の重要な関係を無視し、最適化されたモデルの性能をもたらす。
本稿では,これら2つのプロセスを統一的な枠組みで効果的に処理する新しい視覚的アライメント手法を提案する。
論文 参考訳(メタデータ) (2023-02-04T07:02:29Z) - Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。
入力元画像間の画素の接続を計測するグローバルマップを構築した。
本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-25T07:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。