Fugu-MT 論文翻訳(概要): Robust Fusion Controller: Degradation-aware Image Fusion with Fine-grained Language Instructions

論文の概要: Robust Fusion Controller: Degradation-aware Image Fusion with Fine-grained Language Instructions

arxiv url: http://arxiv.org/abs/2504.05795v2
Date: Wed, 09 Apr 2025 10:05:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-17 12:14:22.934878
Title: Robust Fusion Controller: Degradation-aware Image Fusion with Fine-grained Language Instructions
Title（参考訳）: ロバスト・フュージョン・コントローラ:微粒な言語命令による劣化認識画像フュージョン
Authors: Hao Zhang, Yanping Zha, Qingwei Zhuang, Zhenfeng Shao, Jiayi Ma,
Abstract要約: 現在の画像融合法は、空間的に異なる特徴を持つ多様な劣化を含む現実世界環境への適応に苦慮している。微細な言語命令を通した分解認識画像融合を実現する頑健な融合制御器を提案する。私たちのRFCは、特に非常に困難なフレアシナリオにおいて、様々な複合劣化に対して堅牢です。
参考スコア（独自算出の注目度）: 26.269399073437903
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current image fusion methods struggle to adapt to real-world environments encompassing diverse degradations with spatially varying characteristics. To address this challenge, we propose a robust fusion controller (RFC) capable of achieving degradation-aware image fusion through fine-grained language instructions, ensuring its reliable application in adverse environments. Specifically, RFC first parses language instructions to innovatively derive the functional condition and the spatial condition, where the former specifies the degradation type to remove, while the latter defines its spatial coverage. Then, a composite control priori is generated through a multi-condition coupling network, achieving a seamless transition from abstract language instructions to latent control variables. Subsequently, we design a hybrid attention-based fusion network to aggregate multi-modal information, in which the obtained composite control priori is deeply embedded to linearly modulate the intermediate fused features. To ensure the alignment between language instructions and control outcomes, we introduce a novel language-feature alignment loss, which constrains the consistency between feature-level gains and the composite control priori. Extensive experiments on publicly available datasets demonstrate that our RFC is robust against various composite degradations, particularly in highly challenging flare scenarios.
Abstract（参考訳）: 現在の画像融合法は、空間的に異なる特徴を持つ多様な劣化を含む現実世界環境への適応に苦慮している。この課題に対処するため、我々は、細粒度言語命令による劣化認識画像融合を実現する頑健な融合制御器(RFC)を提案し、その悪環境における信頼性を保証する。具体的には、RFCがまず言語命令を解析し、機能条件と空間条件を革新的に導出する。そして、多条件結合ネットワークを介して複合制御優先度を生成し、抽象言語命令から潜在制御変数へのシームレスな遷移を実現する。その後,得られた複合制御事前条件が深く埋め込まれたマルチモーダル情報を集約し,中間融合特性を線形に変調するハイブリッドアテンションベース融合ネットワークを設計する。言語命令と制御結果の整合性を確保するために,特徴レベルゲインと合成制御優先値との整合性を制限する新しい言語機能アライメント損失を導入する。公開データセットに関する大規模な実験は、RFCが様々な複合劣化、特に非常に困難なフレアシナリオに対して堅牢であることを示している。

関連論文リスト

ControlFusion: A Controllable Image Fusion Framework with Language-Vision Degradation Prompts [58.99648692413168]
現在の画像融合法は、現実の撮像シナリオで発生する複合劣化に対処するのに苦労している。複合劣化を適応的に中和する制御フュージョンを提案する。実験では、制御フュージョンは、融合品質と劣化処理においてSOTA融合法より優れている。
論文参考訳（メタデータ） (2025-03-30T08:18:53Z)
Constrained Language Generation with Discrete Diffusion Models [61.81569616239755]
本稿では,離散拡散モデルと微分可能最適化を統合し,自然言語に制約を課す新しい手法であるConstrained Discrete Diffusion (CDD)を提案する。本手法は, 有害な内容の出現防止による毒性軽減, (ii) 形質および配列レベルの語彙的制約, (iii) 特定の性質に順応した新規分子配列生成など, 様々な自然言語制約を満たすために適用可能であることを示す。
論文参考訳（メタデータ） (2025-03-12T19:48:12Z)
PixelPonder: Dynamic Patch Adaptation for Enhanced Multi-Conditional Text-to-Image Generation [24.964136963713102]
単一制御構造下で複数の視覚条件を効果的に制御できる新しい統一制御フレームワークであるPixelPonderを提案する。具体的には、サブリージョンレベルで空間的に関連する制御信号を動的に優先順位付けするパッチレベル適応条件選択機構を設計する。大規模な実験では、PixelPonderがさまざまなベンチマークデータセットにまたがる従来のメソッドを上回ることが示されている。
論文参考訳（メタデータ） (2025-03-09T16:27:02Z)
PICASO: Permutation-Invariant Context Composition with State Space Models [98.91198288025117]
State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文参考訳（メタデータ） (2025-02-24T19:48:00Z)
Reconciling Semantic Controllability and Diversity for Remote Sensing Image Synthesis with Hybrid Semantic Embedding [12.330893658398042]
本稿では,HySEGGAN(Hybrid Semantic Embedding Guided Geneversarative Adversarial Network)を提案する。特徴記述をベースとして,局所的セマンティックレイアウトの微粒化を調整するハイブリッドセマンティック・エンベディング法を提案する。セマンティック・リファインメント・ネットワーク(SRN)が導入された。
論文参考訳（メタデータ） (2024-11-22T07:51:36Z)
HAAP: Vision-context Hierarchical Attention Autoregressive with Adaptive Permutation for Scene Text Recognition [17.412985505938508]
内部言語モデル(LM)に基づく手法は、外部のLMに基づく手法で条件独立性に起因する誤り訂正を解決するために置換言語モデリング(PLM)を用いる。本稿では,アダプティブ・パーミューテーション(Adaptive Permutation, HAAP)を用いた階層的注意自己回帰モデルを提案する。
論文参考訳（メタデータ） (2024-05-15T06:41:43Z)
Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文参考訳（メタデータ） (2024-05-15T00:17:48Z)
Learning Disentangled Semantic Spaces of Explanations via Invertible Neural Networks [10.880057430629126]
切り離された潜在空間は、通常、より良い意味分離性と幾何学的性質を持ち、より良い解釈可能性とより制御可能なデータ生成をもたらす。本研究では,より一般的な文意味的特徴の局所的な修正と制御を目的とした,文の絡み合いのより一般的な形態に着目した。本稿では,トランスフォーマベース言語であるオートエンコーダ(AE)と統合されたフローベース可逆ニューラルネットワーク(INN)機構を導入し,より分離性に優れた潜在空間を実現する。
論文参考訳（メタデータ） (2023-05-02T18:27:13Z)
An Extensible Plug-and-Play Method for Multi-Aspect Controllable Text Generation [70.77243918587321]
複数の側面で生成されたテキストを制御するマルチアスペクト制御可能なテキスト生成が注目されている。干渉に対する理論的な下界を提供し、プレフィックスが挿入される層の数に応じて干渉が増加することを経験的に見出した。トレーニング可能なゲートを用いてプレフィックスの介入を正規化し、増大する干渉を抑制することを提案する。
論文参考訳（メタデータ） (2022-12-19T11:53:59Z)
Improve Variational Autoencoder for Text Generationwith Discrete Latent Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。 VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文参考訳（メタデータ） (2020-04-22T14:41:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。