論文の概要: CoLA: Conditional Dropout and Language-driven Robust Dual-modal Salient Object Detection
- arxiv url: http://arxiv.org/abs/2407.06780v1
- Date: Tue, 9 Jul 2024 11:49:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 18:17:01.361492
- Title: CoLA: Conditional Dropout and Language-driven Robust Dual-modal Salient Object Detection
- Title(参考訳): CoLA:条件付きドロップアウトと言語駆動のロバストなデュアルモーダル・サリアン・オブジェクト検出
- Authors: Shuang Hao, Chunlin Zhong, He Tang,
- Abstract要約: 我々はtextbfConditional Dropout と textbfLAnguage-driven(textbfCoLA) フレームワークを紹介する。
このフレームワークは、ノイズの多い入力の影響を軽減し、その性能を完全なモダリティで保存する。
モダリティ完全条件とモダリティ欠如条件の両方の下で、最先端のデュアルモーダルSODモデルより優れている。
- 参考スコア(独自算出の注目度): 12.780661306169474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The depth/thermal information is beneficial for detecting salient object with conventional RGB images. However, in dual-modal salient object detection (SOD) model, the robustness against noisy inputs and modality missing is crucial but rarely studied. To tackle this problem, we introduce \textbf{Co}nditional Dropout and \textbf{LA}nguage-driven(\textbf{CoLA}) framework comprising two core components. 1) Language-driven Quality Assessment (LQA): Leveraging a pretrained vision-language model with a prompt learner, the LQA recalibrates image contributions without requiring additional quality annotations. This approach effectively mitigates the impact of noisy inputs. 2) Conditional Dropout (CD): A learning method to strengthen the model's adaptability in scenarios with missing modalities, while preserving its performance under complete modalities. The CD serves as a plug-in training scheme that treats modality-missing as conditions, strengthening the overall robustness of various dual-modal SOD models. Extensive experiments demonstrate that the proposed method outperforms state-of-the-art dual-modal SOD models, under both modality-complete and modality-missing conditions. We will release source code upon acceptance.
- Abstract(参考訳): この深度・熱的情報は,従来のRGB画像を用いた有能な物体の検出に有用である。
しかし、デュアルモーダル・サリエント物体検出(SOD)モデルでは、ノイズ入力とモダリティの欠如に対する頑健性は不可欠であるが、まれに研究される。
この問題に対処するために,2つのコアコンポーネントからなる \textbf{Co}nditional Dropout と \textbf{LA}nguage-driven(\textbf{CoLA}) フレームワークを紹介する。
1) 言語駆動品質アセスメント(LQA): 事前学習した視覚言語モデルを学習者によって活用し、LQAは付加的な品質アノテーションを必要とせずに画像のコントリビューションを再検討する。
このアプローチは、ノイズ入力の影響を効果的に緩和する。
2) 条件付きドロップアウト(CD: Conditional Dropout) - 完全モダリティでモデルの性能を保ちながら、モダリティを欠いたシナリオにおけるモデルの適応性を高める学習手法。
CDは、モダリティミスを条件として扱うプラグイントレーニングスキームとして機能し、様々なデュアルモーダルSODモデルの全体的な堅牢性を強化する。
拡張実験により, 提案手法はモダリティ完全条件とモダリティ欠落条件の両方で, 最先端のデュアルモーダルSODモデルより優れていることが示された。
私たちは受け入れに応じてソースコードをリリースします。
関連論文リスト
- Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - Stealing Stable Diffusion Prior for Robust Monocular Depth Estimation [33.140210057065644]
本稿では, 単分子深度推定に先立って, ステアリング安定拡散 (SSD) という新しい手法を提案する。
このアプローチは、安定拡散を利用して、挑戦的な条件を模倣した合成画像を生成することにより、この制限に対処する。
このアプローチの有効性は、nuScenesとOxford RobotCarで評価されている。
論文 参考訳(メタデータ) (2024-03-08T05:06:31Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Dynamic Weighted Combiner for Mixed-Modal Image Retrieval [8.683144453481328]
フレキシブル検索パラダイムとしてのMixed-Modal Image Retrieval (MMIR) が注目されている。
以前のアプローチは常に2つの重要な要因のため、限られたパフォーマンスを達成する。
以上の課題に対処するための動的重み付け結合器(DWC)を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:36:45Z) - What Makes for Robust Multi-Modal Models in the Face of Missing
Modalities? [35.19295402483624]
我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。
UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。
UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
論文 参考訳(メタデータ) (2023-10-10T07:47:57Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Towards Improving Faithfulness in Abstractive Summarization [37.19777407790153]
本稿では,抽象的な要約における忠実度を改善するために,FES(Fithfulness Enhanced Summarization Model)を提案する。
我々のモデルはCNN/DMとXSumの実験において強いベースラインを上回ります。
論文 参考訳(メタデータ) (2022-10-04T19:52:09Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。