論文の概要: Group Communication with Context Codec for Ultra-Lightweight Source
Separation
- arxiv url: http://arxiv.org/abs/2012.07291v1
- Date: Mon, 14 Dec 2020 06:57:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:38:50.049217
- Title: Group Communication with Context Codec for Ultra-Lightweight Source
Separation
- Title(参考訳): 超軽量光源分離のためのコンテキストコーデックを用いたグループ通信
- Authors: Yi Luo, Cong Han, Nima Mesgarani
- Abstract要約: モデル性能を犠牲にすることなく、モデルサイズと複雑さの両方を減らすために、コンテキスト(GC3)設計によるグループコミュニケーションを提案します。
GC3は2.5%のモデルサイズで、幅広いベースラインアーキテクチャよりも同等または優れた性能を達成できる。
- 参考スコア(独自算出の注目度): 32.975741399690214
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Ultra-lightweight model design is an important topic for the deployment of
existing speech enhancement and source separation techniques on low-resource
platforms. Various lightweight model design paradigms have been proposed in
recent years; however, most models still suffer from finding a balance between
model size, model complexity, and model performance. In this paper, we propose
the group communication with context codec (GC3) design to decrease both model
size and complexity without sacrificing the model performance. Group
communication splits a high-dimensional feature into groups of low-dimensional
features and applies a module to capture the inter-group dependency. A model
can then be applied to the groups in parallel with a significantly smaller
width. A context codec is applied to decrease the length of a sequential
feature, where a context encoder compresses the temporal context of local
features into a single feature representing the global characteristics of the
context, and a context decoder decompresses the transformed global features
back to the context features. Experimental results show that GC3 can achieve on
par or better performance than a wide range of baseline architectures with as
small as 2.5% model size.
- Abstract(参考訳): 超軽量モデル設計は、既存の音声強調とソース分離技術を低リソースプラットフォームに展開する上で重要なトピックである。
近年、様々な軽量モデル設計パラダイムが提案されているが、ほとんどのモデルはまだモデルのサイズ、モデルの複雑さ、およびモデル性能のバランスを見つけるのに苦労している。
本稿では,文脈コーデック(GC3)設計によるグループコミュニケーションを提案し,モデル性能を犠牲にすることなく,モデルサイズと複雑性を両立させる。
グループコミュニケーションは、高次元の特徴を低次元の特徴のグループに分割し、グループ間の依存関係を捉えるモジュールを適用する。
するとモデルは、非常に小さな幅で並列にグループに適用できる。
コンテキストコーデックは、コンテキストエンコーダがローカル特徴の時間的文脈を、コンテキストのグローバル特性を表す単一の特徴に圧縮し、コンテキストデコーダが変換されたグローバル特徴をコンテキスト特徴に逆圧縮する、シーケンシャル特徴の長さを減少させる。
実験の結果、gc3は2.5%のモデルサイズで幅広いベースラインアーキテクチャと同等かそれ以上の性能を達成できることがわかった。
関連論文リスト
- Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane
Networks [63.84589410872608]
本研究では,長期的空間的および時間的依存に対処する新しい非条件ビデオ生成モデルを提案する。
提案手法は計算複雑性をFLOPの測定値として2ドル程度削減する。
我々のモデルは高精細度ビデオクリップを256時間256ドルピクセルの解像度で合成でき、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Dynamic Retrieval-Augmented Generation [4.741884506444161]
動的検索・拡張生成(DRAG)のための新しい手法を提案する。
DRAGは、取得したエンティティの圧縮埋め込みを生成モデルに注入する。
提案手法は,(1)コンテキストウィンドウの長さ制限を解除し,迅速なサイズを節約すること,(2)コンテキストに利用可能な検索エンティティの数を膨大に拡張すること,(3)ミススペルや関連エンティティ名検索の失敗を緩和すること,の3つの目標を達成する。
論文 参考訳(メタデータ) (2023-12-14T14:26:57Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - Sparsity-guided Network Design for Frame Interpolation [39.828644638174225]
フレームベースアルゴリズムのための圧縮駆動型ネットワーク設計を提案する。
モデルサイズを大幅に削減するために、スパーシリティ誘導最適化によるモデルプルーニングを活用する。
原型AdaCoFの4分の1の大きさで大幅な性能向上を実現しています。
論文 参考訳(メタデータ) (2022-09-09T23:13:25Z) - SUNet: Scale-aware Unified Network for Panoptic Segmentation [25.626882426111198]
様々なスケールのオブジェクト分割の問題を軽減するために,2つの軽量モジュールを提案する。
マルチスケールオブジェクトに適応可能な、エンドツーエンドのスケール対応統一ネットワーク(SUNet)を提案する。
論文 参考訳(メタデータ) (2022-09-07T01:40:41Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文 参考訳(メタデータ) (2021-07-28T03:46:57Z) - Coreference Resolution without Span Representations [20.84150608402576]
我々は,スパン表現や手作り機能,NLPへの依存を取り除く軽量なコア参照モデルを導入する。
我々のモデルは現行のエンドツーエンドモデルと競合するが、よりシンプルで効率的である。
論文 参考訳(メタデータ) (2021-01-02T11:46:51Z) - Model Patching: Closing the Subgroup Performance Gap with Data
Augmentation [50.35010342284508]
機械学習モデルの堅牢性を改善するためのフレームワークであるモデルパッチを導入する。
モデルパッチは、サブグループの違いに対してモデルを不変にすることを奨励し、サブグループによって共有されるクラス情報にフォーカスする。
CAMELは,(1)CycleGANを用いてクラス内およびサブグループ間拡張を学習し,(2)理論上動機付けられた整合性正規化器を用いてサブグループ性能のバランスをとる。
CAMELの有効性を3つのベンチマークデータセットで示し、最高のベースラインに対して、ロバストなエラーを最大33%削減した。
論文 参考訳(メタデータ) (2020-08-15T20:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。