Fugu-MT 論文翻訳(概要): Language-guided Image Reflection Separation

論文の概要: Language-guided Image Reflection Separation

arxiv url: http://arxiv.org/abs/2402.11874v3
Date: Sun, 2 Jun 2024 07:44:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-04 18:33:51.102164
Title: Language-guided Image Reflection Separation
Title（参考訳）: 言語誘導型イメージリフレクション分離
Authors: Haofeng Zhong, Yuchen Hong, Shuchen Weng, Jinxiu Liang, Boxin Shi,
Abstract要約: この問題を解決するための統一的な枠組みを提案する。ゲートネットワーク設計とランダムなトレーニング戦略を用いて、認識可能な層あいまいさに対処する。
参考スコア（独自算出の注目度）: 48.06512741731805
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper studies the problem of language-guided reflection separation, which aims at addressing the ill-posed reflection separation problem by introducing language descriptions to provide layer content. We propose a unified framework to solve this problem, which leverages the cross-attention mechanism with contrastive learning strategies to construct the correspondence between language descriptions and image layers. A gated network design and a randomized training strategy are employed to tackle the recognizable layer ambiguity. The effectiveness of the proposed method is validated by the significant performance advantage over existing reflection separation methods on both quantitative and qualitative comparisons.
Abstract（参考訳）: 本稿では, 言語記述を導入し, 層間コンテンツ提供による不適切な反射分離問題に対処することを目的とした, 言語誘導反射分離の問題について検討する。本稿では,言語記述と画像層との対応性を構築するために,コントラスト学習戦略を用いたクロスアテンション機構を活用した統合フレームワークを提案する。ゲートネットワーク設計とランダムなトレーニング戦略を用いて、認識可能な層あいまいさに対処する。提案手法の有効性は,既存の反射分離法に比べて定量的および定性的な比較において有意な性能上の優位性によって検証された。

関連論文リスト

Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文参考訳（メタデータ） (2024-02-18T12:43:38Z)
Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文参考訳（メタデータ） (2023-11-30T10:36:19Z)
CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation [56.58365347854647]
私たちは、視覚言語基盤モデル、特にCLIPを適応するためのコストベースの新しいアプローチを導入します。エンコーダの微調整により,CLIPをセグメント化,未確認のクラスに適応させる手法を提案する。
論文参考訳（メタデータ） (2023-03-21T12:28:21Z)
Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文参考訳（メタデータ） (2022-04-01T13:55:44Z)
Two-Level Supervised Contrastive Learning for Response Selection in Multi-Turn Dialogue [18.668723854662584]
本稿では,教師付きコントラスト損失を用いたコントラスト学習を課題に適用する。我々は,2段階の教師付きコントラスト学習と呼ばれる,教師付きコントラスト学習の新しい手法を開発した。
論文参考訳（メタデータ） (2022-03-01T23:43:36Z)
Contrastive Video-Language Segmentation [41.1635597261304]
本稿では,ビデオコンテンツ中の自然言語文によって参照される特定のオブジェクトをセグメント化する問題に焦点をあてる。本研究では, 視覚的・言語的モダリティを, 対照的な学習目的を通した明示的な方法で解釈することを提案する。
論文参考訳（メタデータ） (2021-09-29T01:40:58Z)
Unsupervised Word Translation Pairing using Refinement based Point Set Registration [8.568050813210823]
単語埋め込みの言語間アライメントは、言語間の知識伝達において重要な役割を果たす。現在の教師なしのアプローチは、言語にまたがる単語埋め込み空間の幾何学的構造における類似性に依存している。本稿では,バイリンガル単語の共有ベクトル空間への埋め込みを教師なしでマッピングするBioSpereを提案する。
論文参考訳（メタデータ） (2020-11-26T09:51:29Z)
Contextual Modulation for Relation-Level Metaphor Identification [3.2619536457181075]
本稿では,ある文法的関係の関連レベルの比喩表現を識別するための新しいアーキテクチャを提案する。視覚的推論の研究にインスパイアされた方法論では、我々のアプローチは、深い文脈化された特徴にニューラルネットワークの計算を条件付けすることに基づいている。提案したアーキテクチャは,ベンチマークデータセット上で最先端の結果が得られることを示す。
論文参考訳（メタデータ） (2020-10-12T12:07:02Z)
Learning to See Through Obstructions with Layered Decomposition [117.77024641706451]
移動画像から不要な障害を取り除くための学習に基づくアプローチを提案する。本手法は背景要素と閉塞要素の運動差を利用して両方の層を復元する。本研究では,合成データから得られた提案手法が実画像に対して良好に動作することを示す。
論文参考訳（メタデータ） (2020-08-11T17:59:31Z)
Learning to See Through Obstructions [117.77024641706451]
本稿では,移動カメラで撮影した短い画像列から不要な障害物を除去するための学習に基づくアプローチを提案する。本手法は背景要素と障害物要素の運動差を利用して両方の層を復元する。合成データ転送のトレーニングは実画像に対して良好であることを示す。
論文参考訳（メタデータ） (2020-04-02T17:59:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。