論文の概要: One-Time Model Adaptation to Heterogeneous Clients: An Intra-Client and
Inter-Image Attention Design
- arxiv url: http://arxiv.org/abs/2211.06276v1
- Date: Fri, 11 Nov 2022 15:33:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 16:39:41.440633
- Title: One-Time Model Adaptation to Heterogeneous Clients: An Intra-Client and
Inter-Image Attention Design
- Title(参考訳): 異種クライアントへのワンタイムモデル適応--クライアント内および画像間アテンション設計
- Authors: Yikai Yan, Chaoyue Niu, Fan Wu, Qinya Li, Shaojie Tang, Chengfei Lyu,
Guihai Chen
- Abstract要約: 既存のバックボーン認識モデルに新たなICIIAモジュールを提案する。
特に、特定のクライアントからのターゲット画像が与えられた場合、ICIIAはクライアントの歴史的未ラベル画像から関連画像を取得するために、マルチヘッド自己アテンションを導入する。
ICIIAを5つの代表的なデータセットに対して9つのバックボーンモデルを用いて3つの異なる認識タスクを用いて評価した。
- 参考スコア(独自算出の注目度): 40.97593636235116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The mainstream workflow of image recognition applications is first training
one global model on the cloud for a wide range of classes and then serving
numerous clients, each with heterogeneous images from a small subset of classes
to be recognized. From the cloud-client discrepancies on the range of image
classes, the recognition model is desired to have strong adaptiveness,
intuitively by concentrating the focus on each individual client's local
dynamic class subset, while incurring negligible overhead. In this work, we
propose to plug a new intra-client and inter-image attention (ICIIA) module
into existing backbone recognition models, requiring only one-time cloud-based
training to be client-adaptive. In particular, given a target image from a
certain client, ICIIA introduces multi-head self-attention to retrieve relevant
images from the client's historical unlabeled images, thereby calibrating the
focus and the recognition result. Further considering that ICIIA's overhead is
dominated by linear projection, we propose partitioned linear projection with
feature shuffling for replacement and allow increasing the number of partitions
to dramatically improve efficiency without scarifying too much accuracy. We
finally evaluate ICIIA using 3 different recognition tasks with 9 backbone
models over 5 representative datasets. Extensive evaluation results demonstrate
the effectiveness and efficiency of ICIIA. Specifically, for ImageNet-1K with
the backbone models of MobileNetV3-L and Swin-B, ICIIA can improve the testing
accuracy to 83.37% (+8.11%) and 88.86% (+5.28%), while adding only 1.62% and
0.02% of FLOPs, respectively.
- Abstract(参考訳): 画像認識アプリケーションのメインストリームのワークフローは、まずクラウド上の1つのグローバルモデルを幅広いクラスでトレーニングし、その後、認識すべきクラスの小さなサブセットからの異種イメージを持つ多数のクライアントにサービスすることである。
画像クラスの範囲に関するクラウドクライアントの相違から、認識モデルは、各クライアントのローカルな動的クラスのサブセットに集中し、必然的なオーバーヘッドを伴いながら、直感的に強い適応性を持つことが望まれる。
本稿では,既存のバックボーン認識モデルに新しいクライアント内およびイメージ間アテンション(iciia)モジュールを接続することを提案する。
特に、特定のクライアントからのターゲット画像が与えられた場合、ICIIAは、クライアントの過去の未ラベル画像から関連画像を取得するためのマルチヘッド自己アテンションを導入し、フォーカスと認識結果を校正する。
さらに,シチリアのオーバーヘッドが線形射影に支配されていることを考慮し,置換のための特徴シャッフルによる分割線形射影を提案し,分割数の増加を可能とし,精度を損なうことなく効率を劇的に向上させる。
5つの代表的なデータセットに対して9つのバックボーンモデルを持つ3つの異なる認識タスクを用いてICIIAを評価する。
ICIIAの有効性と有効性を示した。
具体的には、mobilenetv3-l と swin-b のバックボーンモデルを持つ imagenet-1k では、iciia はテスト精度を 83.37% (+8.11%) と 88.86% (+5.28%) に向上できる。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Scalable Federated Learning for Clients with Different Input Image Sizes
and Numbers of Output Categories [34.22635158366194]
フェデレートラーニング(Federated Learning)とは、複数のクライアントからトレーニングを受けるが、機密データを共有しないプライバシー保護トレーニング手法である。
本稿では,クライアントの入力画像サイズと出力カテゴリ数に応じて,各クライアントのローカルモデルの深さと幅を調節する,ScalableFLという効果的なフェデレーション学習手法を提案する。
論文 参考訳(メタデータ) (2023-11-15T05:43:14Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - CFR-ICL: Cascade-Forward Refinement with Iterative Click Loss for
Interactive Image Segmentation [2.482735440750151]
本稿では,3つの新しいコンポーネントを含むクリックベースおよびマスク誘導型インタラクティブ画像分割フレームワークを提案する。
提案フレームワークは,セグメント化結果を粗い方法で生成する統合推論フレームワークを提供する。
我々のモデルは33.2%減少し、15.5%は従来の最先端のアプローチで0.95のIoUを超えるのに必要なクリック数である。
論文 参考訳(メタデータ) (2023-03-09T23:20:35Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Federated Multi-Target Domain Adaptation [99.93375364579484]
フェデレートされた学習手法により、プライバシを保護しながら、分散ユーザデータ上で機械学習モデルをトレーニングすることが可能になります。
分散クライアントデータがラベル付けされず、集中型ラベル付きデータセットがサーバ上で利用可能となる、より実用的なシナリオを考えます。
本稿では,新しい課題に対処する効果的なDualAdapt法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:53:05Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。