論文の概要: Instruction-Driven Fusion of Infrared-Visible Images: Tailoring for Diverse Downstream Tasks
- arxiv url: http://arxiv.org/abs/2411.09387v1
- Date: Thu, 14 Nov 2024 12:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:24:32.183696
- Title: Instruction-Driven Fusion of Infrared-Visible Images: Tailoring for Diverse Downstream Tasks
- Title(参考訳): 赤外線可視画像のインストラクション駆動融合: 下流タスクの調整
- Authors: Zengyi Yang, Yafei Zhang, Huafeng Li, Yu Liu,
- Abstract要約: 赤外線と可視光融合技術の主な価値は、下流のタスクに融合結果を適用することである。
既存の手法では、トレーニングの複雑さが増し、個々のタスクのパフォーマンスが著しく損なわれるといった課題に直面している。
本稿では,タスク指向適応制御(T-OAR)を提案する。
- 参考スコア(独自算出の注目度): 9.415977819944246
- License:
- Abstract: The primary value of infrared and visible image fusion technology lies in applying the fusion results to downstream tasks. However, existing methods face challenges such as increased training complexity and significantly compromised performance of individual tasks when addressing multiple downstream tasks simultaneously. To tackle this, we propose Task-Oriented Adaptive Regulation (T-OAR), an adaptive mechanism specifically designed for multi-task environments. Additionally, we introduce the Task-related Dynamic Prompt Injection (T-DPI) module, which generates task-specific dynamic prompts from user-input text instructions and integrates them into target representations. This guides the feature extraction module to produce representations that are more closely aligned with the specific requirements of downstream tasks. By incorporating the T-DPI module into the T-OAR framework, our approach generates fusion images tailored to task-specific requirements without the need for separate training or task-specific weights. This not only reduces computational costs but also enhances adaptability and performance across multiple tasks. Experimental results show that our method excels in object detection, semantic segmentation, and salient object detection, demonstrating its strong adaptability, flexibility, and task specificity. This provides an efficient solution for image fusion in multi-task environments, highlighting the technology's potential across diverse applications.
- Abstract(参考訳): 赤外線と可視光融合技術の主な価値は、下流のタスクに融合結果を適用することである。
しかし、既存の手法では、トレーニングの複雑さの増加や、複数の下流タスクに同時に対処する際の個々のタスクのパフォーマンスが著しく損なわれている。
そこで本研究では,タスク指向適応制御(T-OAR)を提案する。
さらに,タスク関連動的プロンプトインジェクション(T-DPI)モジュールを導入し,ユーザ入力テキスト命令からタスク固有の動的プロンプトを生成し,ターゲット表現に統合する。
これは、下流タスクの特定の要求とより密に一致した表現を生成するために、機能抽出モジュールをガイドする。
T-DPIモジュールをT-OARフレームワークに組み込むことで,個別のトレーニングやタスク固有の重み付けを必要とせずに,タスク固有の要件に合わせた融合画像を生成する。
これは計算コストを削減するだけでなく、複数のタスクにまたがる適応性とパフォーマンスを向上させる。
実験結果から,本手法はオブジェクト検出,セマンティックセグメンテーション,健全なオブジェクト検出に優れ,その適応性,柔軟性,タスク特異性を示す。
これはマルチタスク環境における画像融合の効率的なソリューションを提供し、多様なアプリケーションにまたがる技術の可能性を強調している。
関連論文リスト
- AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。
複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。
最先端の刈り取り法に比べて優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T17:19:15Z) - Task-Adapter: Task-specific Adaptation of Image Models for Few-shot Action Recognition [34.88916568947695]
簡単なタスク固有適応法(Task-Adapter)を提案する。
提案したTask-Adapterをバックボーンの最後のいくつかのレイヤに導入することで、フル微調整によるオーバーフィッティング問題を軽減します。
実験結果から,提案したタスクアダプタが標準の4つのアクション認識データセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2024-08-01T03:06:56Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - Video Task Decathlon: Unifying Image and Video Tasks in Autonomous
Driving [85.62076860189116]
Video Task Decathlon (VTD)には、分類、セグメンテーション、ローカライゼーション、オブジェクトとピクセルの関連にまたがる10の代表的な画像とビデオタスクが含まれている。
我々は、単一の構造と10タスクすべてに一組の重みを持つ統合ネットワークVTDNetを開発した。
論文 参考訳(メタデータ) (2023-09-08T16:33:27Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - Task Aware Feature Extraction Framework for Sequential Dependence
Multi-Task Learning [1.0765359420035392]
我々は厳密な数学的観点から逐次依存型MLLを解析する。
逐次依存型MLLのためのタスク認識特徴抽出(TAFE)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-06T13:12:59Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - CompositeTasking: Understanding Images by Spatial Composition of Tasks [85.95743368954233]
CompositeTaskingは、複数の空間分散タスクの融合である。
提案するネットワークは,画像のペアと画素単位の高密度なタスクのセットを入力として取り,各ピクセルに対するタスク関連予測を行う。
マルチタスクのためのコンパクトなネットワークを提供するだけでなく、タスク編集も可能です。
論文 参考訳(メタデータ) (2020-12-16T15:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。