論文の概要: Efficient Controllable Multi-Task Architectures
- arxiv url: http://arxiv.org/abs/2308.11744v1
- Date: Tue, 22 Aug 2023 19:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 16:59:32.506429
- Title: Efficient Controllable Multi-Task Architectures
- Title(参考訳): 効率的な制御可能なマルチタスクアーキテクチャ
- Authors: Abhishek Aich, Samuel Schulter, Amit K. Roy-Chowdhury, Manmohan
Chandraker, Yumin Suh
- Abstract要約: 本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
- 参考スコア(独自算出の注目度): 85.76598445904374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We aim to train a multi-task model such that users can adjust the desired
compute budget and relative importance of task performances after deployment,
without retraining. This enables optimizing performance for dynamically varying
user needs, without heavy computational overhead to train and save models for
various scenarios. To this end, we propose a multi-task model consisting of a
shared encoder and task-specific decoders where both encoder and decoder
channel widths are slimmable. Our key idea is to control the task importance by
varying the capacities of task-specific decoders, while controlling the total
computational cost by jointly adjusting the encoder capacity. This improves
overall accuracy by allowing a stronger encoder for a given budget, increases
control over computational cost, and delivers high-quality slimmed
sub-architectures based on user's constraints. Our training strategy involves a
novel 'Configuration-Invariant Knowledge Distillation' loss that enforces
backbone representations to be invariant under different runtime width
configurations to enhance accuracy. Further, we present a simple but effective
search algorithm that translates user constraints to runtime width
configurations of both the shared encoder and task decoders, for sampling the
sub-architectures. The key rule for the search algorithm is to provide a larger
computational budget to the higher preferred task decoder, while searching a
shared encoder configuration that enhances the overall MTL performance. Various
experiments on three multi-task benchmarks (PASCALContext, NYUDv2, and
CIFAR100-MTL) with diverse backbone architectures demonstrate the advantage of
our approach. For example, our method shows a higher controllability by ~33.5%
in the NYUD-v2 dataset over prior methods, while incurring much less compute
cost.
- Abstract(参考訳): 我々は、ユーザが必要な計算予算と、デプロイ後のタスクパフォーマンスの相対的重要性を再トレーニングすることなく調整できるように、マルチタスクモデルをトレーニングすることを目指している。
これにより、さまざまなシナリオのモデルをトレーニングおよび保存するための重い計算オーバーヘッドなしに、動的に変化するユーザニーズに対するパフォーマンスの最適化が可能になる。
そこで本研究では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変えることでタスクの重要性を制御し、エンコーダの容量を共同調整することで計算コストを制御することである。
これにより、与えられた予算でより強力なエンコーダを許容し、計算コストの制御を増加させ、ユーザの制約に基づいた高品質なスリム化サブアーキテクチャを提供することにより、全体的な精度が向上する。
異なるランタイム幅設定の下でバックボーン表現を不変にし、精度を向上させる新しい「構成-不変知識蒸留」損失を含む。
さらに,ユーザ制約を共有エンコーダとタスクデコーダの両方のランタイム幅設定に変換し,サブアーキテクチャをサンプリングする簡易かつ効果的な検索アルゴリズムを提案する。
探索アルゴリズムの重要なルールは、mtl全体の性能を向上させる共有エンコーダ構成を探索しながら、より望ましいタスクデコーダにより大きな計算予算を提供することである。
多様なバックボーンアーキテクチャを持つ3つのマルチタスクベンチマーク(PASCALContext, NYUDv2, CIFAR100-MTL)に対する様々な実験は、我々のアプローチの利点を示している。
例えば、従来の方法に比べてnyud-v2データセットの制御性は33.5%向上し、計算コストは大幅に低減した。
関連論文リスト
- RTF-Q: Efficient Unsupervised Domain Adaptation with Retraining-free Quantization [14.447148108341688]
ReTraining-Free Quantization (RTF-Q) を用いた効率的な非教師なし領域適応法を提案する。
提案手法では,計算コストの異なる低精度量子化アーキテクチャを用い,動的予算を持つデバイスに適用する。
提案するネットワークは,3つのベンチマークにおける最先端手法との競合精度を実証する。
論文 参考訳(メタデータ) (2024-08-11T11:53:29Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。
他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。
マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文 参考訳(メタデータ) (2024-04-19T11:24:34Z) - Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Efficient Retrieval Optimized Multi-task Learning [16.189136169520424]
本稿では,自己指導型タスク,知識検索,抽出質問応答を共同で訓練するための新しい検索最適化マルチタスク(ROM)フレームワークを提案する。
我々のROMアプローチは、複数のタスクに効率的にスケーリングできる統一的で一般化可能なフレームワークを提供する。
当社のフレームワークでは,近年のQAメソッドよりも同等あるいは優れたパフォーマンスを実現していますが,パラメータの数を大幅に削減しています。
論文 参考訳(メタデータ) (2021-04-20T17:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。