論文の概要: Simple parameter-free self-attention approximation
- arxiv url: http://arxiv.org/abs/2307.12018v1
- Date: Sat, 22 Jul 2023 08:37:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 18:29:40.313295
- Title: Simple parameter-free self-attention approximation
- Title(参考訳): 簡易パラメータフリー自己注意近似
- Authors: Yuwen Zhai, Jing Hao, Liang Gao, Xinyu Li, Yiping Gao, Shumin Han
- Abstract要約: 本研究では, 線形複雑度で空間的特徴を捉えたSPSAと呼ばれる, 学習パラメータを含まない自己注意近似を提案する。
畳み込みと組み合わされたSPSAの有効性を検証するため,画像分類と物体検出タスクについて広範な実験を行った。
- 参考スコア(独自算出の注目度): 15.131503427052685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The hybrid model of self-attention and convolution is one of the methods to
lighten ViT. The quadratic computational complexity of self-attention with
respect to token length limits the efficiency of ViT on edge devices. We
propose a self-attention approximation without training parameters, called
SPSA, which captures global spatial features with linear complexity. To verify
the effectiveness of SPSA combined with convolution, we conduct extensive
experiments on image classification and object detection tasks.
- Abstract(参考訳): 自己アテンションと畳み込みのハイブリッドモデルは、ViTを軽める方法の1つである。
トークン長に対する自己注意の2次計算複雑性は、エッジデバイス上でのViTの効率を制限する。
学習パラメータを持たない自己アテンション近似であるspsaを提案し,線形複雑性を持つ大域的な空間的特徴を捉えた。
spsaと畳み込みの併用効果を検証するため,画像分類と物体検出タスクに関する広範な実験を行った。
関連論文リスト
- Mono2Stereo: Monocular Knowledge Transfer for Enhanced Stereo Matching [7.840781070208874]
ステレオマッチング,すなわちMono2Stereoを強化するために,モノラルな知識伝達を活用することを提案する。
合成データ事前学習と実世界のデータ微調整を併用した2段階の学習プロセスによる知識伝達を導入する。
実験の結果,事前学習したモデルでは強いゼロショット能力を示すことがわかった。
論文 参考訳(メタデータ) (2024-11-14T03:01:36Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV &
CribsTV [50.616892315086574]
本稿では,SlowTV と CribsTV の2つの新しいデータセットを提案する。
これらは、一般公開されているYouTubeビデオから収集された大規模なデータセットで、合計200万のトレーニングフレームが含まれている。
我々はこれらのデータセットを活用し、ゼロショット一般化の難しい課題に取り組む。
論文 参考訳(メタデータ) (2024-03-03T17:29:03Z) - Glass Segmentation with Multi Scales and Primary Prediction Guiding [2.66512000865131]
ガラスのような物体は、日々の生活の中でどこにでも見えます。
本稿では,FineRescaling and Merging Module (FRM) から構成されるMGNetを提案する。
高信頼セグメンテーションマップを作成するために,不確実性を考慮した新たな損失関数を用いてモデルを監督する。
論文 参考訳(メタデータ) (2024-02-13T16:14:32Z) - GEM: Boost Simple Network for Glass Surface Segmentation via Segment
Anything Model and Data Synthesis [3.97478982737167]
ガラス表面をより高精度に分割する方法を,Segment Anything (SAM) と Stable Diffusion の2つの視覚基盤モデルを用いて示す。
また,S-GSDと呼ばれる4つのスケールの拡散モデルを用いて,S-GSDと呼ばれる大規模なガラス表面検出データセットを提案する。
このデータセットは、転送学習のための実現可能な情報源である。合成データの規模は、転送学習に肯定的な影響を与える一方で、データの量が増えるにつれて徐々に改善される。
論文 参考訳(メタデータ) (2024-01-27T03:36:47Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models [7.452422412106768]
リモートセマンティックセマンティックセグメンテーションのためのText2Segという新しい手法を提案する。
自動プロンプト生成プロセスを使用することで、広範なアノテーションへの依存を克服する。
我々は,Text2SegがバニラSAMモデルと比較してゼロショット予測性能を著しく向上することを示した。
論文 参考訳(メタデータ) (2023-04-20T18:39:41Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Enhanced Boundary Learning for Glass-like Object Segmentation [55.45473926510806]
本稿では,拡張境界学習によるガラス状物体分割問題を解くことを目的とする。
特に,より微細な境界キューを生成するための改良された微分モジュールを最初に提案する。
境界に沿った大域的な形状表現をモデル化するために,エッジ対応のグラフ畳み込みネットワークモジュールを提案する。
論文 参考訳(メタデータ) (2021-03-29T16:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。