Fugu-MT 論文翻訳(概要): Group Communication with Context Codec for Ultra-Lightweight Source Separation

論文の概要: Group Communication with Context Codec for Ultra-Lightweight Source Separation

arxiv url: http://arxiv.org/abs/2012.07291v1
Date: Mon, 14 Dec 2020 06:57:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-08 14:38:50.049217
Title: Group Communication with Context Codec for Ultra-Lightweight Source Separation
Title（参考訳）: 超軽量光源分離のためのコンテキストコーデックを用いたグループ通信
Authors: Yi Luo, Cong Han, Nima Mesgarani
Abstract要約: モデル性能を犠牲にすることなく、モデルサイズと複雑さの両方を減らすために、コンテキスト(GC3)設計によるグループコミュニケーションを提案します。 GC3は2.5%のモデルサイズで、幅広いベースラインアーキテクチャよりも同等または優れた性能を達成できる。
参考スコア（独自算出の注目度）: 32.975741399690214
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Ultra-lightweight model design is an important topic for the deployment of existing speech enhancement and source separation techniques on low-resource platforms. Various lightweight model design paradigms have been proposed in recent years; however, most models still suffer from finding a balance between model size, model complexity, and model performance. In this paper, we propose the group communication with context codec (GC3) design to decrease both model size and complexity without sacrificing the model performance. Group communication splits a high-dimensional feature into groups of low-dimensional features and applies a module to capture the inter-group dependency. A model can then be applied to the groups in parallel with a significantly smaller width. A context codec is applied to decrease the length of a sequential feature, where a context encoder compresses the temporal context of local features into a single feature representing the global characteristics of the context, and a context decoder decompresses the transformed global features back to the context features. Experimental results show that GC3 can achieve on par or better performance than a wide range of baseline architectures with as small as 2.5% model size.
Abstract（参考訳）: 超軽量モデル設計は、既存の音声強調とソース分離技術を低リソースプラットフォームに展開する上で重要なトピックである。近年、様々な軽量モデル設計パラダイムが提案されているが、ほとんどのモデルはまだモデルのサイズ、モデルの複雑さ、およびモデル性能のバランスを見つけるのに苦労している。本稿では,文脈コーデック(GC3)設計によるグループコミュニケーションを提案し,モデル性能を犠牲にすることなく,モデルサイズと複雑性を両立させる。グループコミュニケーションは、高次元の特徴を低次元の特徴のグループに分割し、グループ間の依存関係を捉えるモジュールを適用する。するとモデルは、非常に小さな幅で並列にグループに適用できる。コンテキストコーデックは、コンテキストエンコーダがローカル特徴の時間的文脈を、コンテキストのグローバル特性を表す単一の特徴に圧縮し、コンテキストデコーダが変換されたグローバル特徴をコンテキスト特徴に逆圧縮する、シーケンシャル特徴の長さを減少させる。実験の結果、gc3は2.5%のモデルサイズで幅広いベースラインアーキテクチャと同等かそれ以上の性能を達成できることがわかった。

関連論文リスト

GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching [41.96482857947199]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。 LLMは通常、相当なモデルサイズを持ち、デプロイメントと推論において大きな課題をもたらします。そこで我々は, モデルモデルから層を戦略的に組み合わせたり, マージしたりすることで, モデルを圧縮するための新しい戦略を開発した。
論文参考訳（メタデータ） (2025-06-25T14:24:59Z)
Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文参考訳（メタデータ） (2025-06-13T14:29:40Z)
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
X-Fusion: Introducing New Modality to Frozen Large Language Models [82.3508830643655]
マルチモーダルタスクのための事前訓練された大規模言語モデルを拡張するフレームワークであるX-Fusionを提案する。 X-フュージョンは、モダリティ固有の重みを持つデュアルトウワー設計を採用し、LLMのパラメータを凍結させながら、理解と生成の両方に視覚特有の情報を統合する。実験の結果,X-Fusionは画像・テキスト・テキスト・画像の両タスクにおいて,代替アーキテクチャを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2025-04-29T17:59:45Z)
Merging Feed-Forward Sublayers for Compressed Transformers [16.746335565636976]
モデル内の類似パラメータ群をマージすることで,モデル圧縮に対する新しいアプローチを提案する。具体的には、Transformerモデルでフィードフォワードサブレイヤを分離し、アライメントし、マージする。モデルフィードフォワードサブレイヤの3分の1以上を組み合わせながら、元のモデルに匹敵する性能を示す。
論文参考訳（メタデータ） (2025-01-10T17:25:11Z)
Towards Unifying Feature Interaction Models for Click-Through Rate Prediction [19.149554121852724]
我々は、既存のモデルを統一する、IPAと呼ばれる一般的なフレームワークを提案する。これらの3つのコンポーネントに対して特定の選択を行うことで、既存のモデルの大部分をフレームワーク内で分類できることを実証します。我々は,最先端のCTRモデルと比較して,競争力のある結果が得られる新しいモデルを提案する。
論文参考訳（メタデータ） (2024-11-19T12:04:02Z)
Collective Model Intelligence Requires Compatible Specialization [29.590052023903457]
モデルが専門化するにつれて、特徴空間構造における類似性が減少し、集合的使用能力の妨げとなることを示す。我々は、互換性のある特殊化と呼ばれるものを通して、集合モデルインテリジェンスを達成するための新しい方向を提案する。
論文参考訳（メタデータ） (2024-11-04T15:59:16Z)
Two are better than one: Context window extension with multi-grained self-injection [111.1376461868317]
SharedLLMは、多粒度コンテキスト圧縮とクエリ対応情報検索の設計哲学に基づく新しいアプローチである。本研究では,テキストチャンクの多粒度コンテキスト情報を効率的にエンコードし,保存し,検索するための木構造データ構造を提案する。
論文参考訳（メタデータ） (2024-10-25T06:08:59Z)
HM3: Heterogeneous Multi-Class Model Merging [0.0]
本研究では,補助ガードレールモデルを単一多機能モデルに統合するためのトレーニングフリーモデルマージ手法について検討する。異種ラベル空間とマルチクラス分類器をマージする簡単な手法として、異種多クラスモデルマージ(HM3)を提案する。 BERTをベースとしたガードモデルをマージする有望な結果が報告され、その一部はソースモデルよりも平均F1スコア高くなり、推論時間を最大44%削減する。
論文参考訳（メタデータ） (2024-09-27T22:42:45Z)
GrootVL: Tree Topology is All You Need in State Space Model [66.36757400689281]
GrootVLは、視覚的タスクとテキストタスクの両方に適用できる多目的マルチモーダルフレームワークである。本手法は, 画像分類, オブジェクト検出, セグメンテーションにおいて, 既存の構造化状態空間モデルよりも大幅に優れる。大規模言語モデルの微調整により,本手法は訓練コストの少ない複数のテキストタスクにおいて一貫した改善を実現する。
論文参考訳（メタデータ） (2024-06-04T15:09:29Z)
Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。 CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。 CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文参考訳（メタデータ） (2024-02-05T03:25:04Z)
Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。 NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文参考訳（メタデータ） (2023-02-15T18:55:29Z)
Sparsity-guided Network Design for Frame Interpolation [39.828644638174225]
フレームベースアルゴリズムのための圧縮駆動型ネットワーク設計を提案する。モデルサイズを大幅に削減するために、スパーシリティ誘導最適化によるモデルプルーニングを活用する。原型AdaCoFの4分の1の大きさで大幅な性能向上を実現しています。
論文参考訳（メタデータ） (2022-09-09T23:13:25Z)
SUNet: Scale-aware Unified Network for Panoptic Segmentation [25.626882426111198]
様々なスケールのオブジェクト分割の問題を軽減するために,2つの軽量モジュールを提案する。マルチスケールオブジェクトに適応可能な、エンドツーエンドのスケール対応統一ネットワーク(SUNet)を提案する。
論文参考訳（メタデータ） (2022-09-07T01:40:41Z)
Multi-Scale Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。 MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-11-07T03:50:50Z)
Model Patching: Closing the Subgroup Performance Gap with Data Augmentation [50.35010342284508]
機械学習モデルの堅牢性を改善するためのフレームワークであるモデルパッチを導入する。モデルパッチは、サブグループの違いに対してモデルを不変にすることを奨励し、サブグループによって共有されるクラス情報にフォーカスする。 CAMELは,(1)CycleGANを用いてクラス内およびサブグループ間拡張を学習し,(2)理論上動機付けられた整合性正規化器を用いてサブグループ性能のバランスをとる。 CAMELの有効性を3つのベンチマークデータセットで示し、最高のベースラインに対して、ロバストなエラーを最大33%削減した。
論文参考訳（メタデータ） (2020-08-15T20:01:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。