論文の概要: Generalized Operating Procedure for Deep Learning: an Unconstrained
Optimal Design Perspective
- arxiv url: http://arxiv.org/abs/2012.15391v1
- Date: Thu, 31 Dec 2020 01:37:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 16:56:28.817185
- Title: Generalized Operating Procedure for Deep Learning: an Unconstrained
Optimal Design Perspective
- Title(参考訳): 深層学習のための汎用的な操作手順--制約のない最適設計の視点から
- Authors: Shen Chen, Mingwei Zhang, Jiamin Cui, Wei Yao
- Abstract要約: 本稿では,ディープラーニング(DL)の一般化運用手順について述べる。
マルチストリームのエンドツーエンド話者検証システムを構築し、複数の並列ストリームで入力音声の発話を処理する。
VoxCelebデータセットを用いて学習し,提案手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 4.570823264643028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) has brought about remarkable breakthrough in processing
images, video and speech due to its efficacy in extracting highly abstract
representation and learning very complex functions. However, there is seldom
operating procedure reported on how to make it for real use cases. In this
paper, we intend to address this problem by presenting a generalized operating
procedure for DL from the perspective of unconstrained optimal design, which is
motivated by a simple intension to remove the barrier of using DL, especially
for those scientists or engineers who are new but eager to use it. Our proposed
procedure contains seven steps, which are project/problem statement, data
collection, architecture design, initialization of parameters, defining loss
function, computing optimal parameters, and inference, respectively. Following
this procedure, we build a multi-stream end-to-end speaker verification system,
in which the input speech utterance is processed by multiple parallel streams
within different frequency range, so that the acoustic modeling can be more
robust resulting from the diversity of features. Trained with VoxCeleb dataset,
our experimental results verify the effectiveness of our proposed operating
procedure, and also show that our multi-stream framework outperforms
single-stream baseline with 20 % relative reduction in minimum decision cost
function (minDCF).
- Abstract(参考訳): 深層学習(DL)は、非常に抽象的な表現を抽出し、非常に複雑な関数を学習する効果により、画像、ビデオ、音声の処理において顕著なブレークスルーをもたらした。
しかし、実際のユースケースで行う方法については、手術手順が報告されることはめったにない。
本稿では,dlの使用の障壁を取り除くための簡単なインテンションによって動機付けられた,制約のない最適設計の観点から,dlの汎用的な運用手順を提示することで,この問題に対処することを目的とする。
提案手法は,プロジェクト/プロブレム文,データ収集,アーキテクチャ設計,パラメータの初期化,損失関数の定義,最適パラメータの計算,推論の7つのステップを含む。
そこで本研究では,入力音声発話を周波数範囲の異なる複数の並列ストリームで処理することにより,特徴の多様性から音響モデルがより堅牢になるように,マルチストリームのエンド・ツー・エンドの話者照合システムを構築する。
VoxCelebデータセットを用いて学習し,提案手法の有効性を検証するとともに,マルチストリームフレームワークが最小決定コスト関数(minDCF)を20%削減してシングルストリームベースラインを上回っていることを示す。
関連論文リスト
- Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - InterroGate: Learning to Share, Specialize, and Prune Representations
for Multi-task Learning [17.66308231838553]
推論計算効率を最適化しつつ,タスク干渉を緩和する新しいマルチタスク学習(MTL)アーキテクチャを提案する。
学習可能なゲーティング機構を用いて、すべてのタスクのパフォーマンスを保ちながら、共有表現とタスク固有の表現を自動的にバランスさせる。
論文 参考訳(メタデータ) (2024-02-26T18:59:52Z) - Parameterized Projected Bellman Operator [64.129598593852]
近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。
本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。
逐次決定問題に対するPBO学習のための最適化問題を定式化する。
論文 参考訳(メタデータ) (2023-12-20T09:33:16Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Efficient Cross-Task Prompt Tuning for Few-Shot Conversational Emotion
Recognition [6.988000604392974]
Emotion Recognition in Conversation (ERC) は感情認識型共感機械の開発において重要であるため、広く研究されている。
対話型感情認識のためのCTPT(Cross-Task Prompt Tuning)と呼ばれる微分自由度最適化手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T06:46:03Z) - Scalable Bayesian optimization with high-dimensional outputs using
randomized prior networks [3.0468934705223774]
本稿では,確率化された先行するニューラルネットワークの自己ストラップ型アンサンブルに基づくBOとシーケンシャル意思決定のためのディープラーニングフレームワークを提案する。
提案手法は,高次元ベクトル空間や無限次元関数空間の値を取る場合においても,設計変数と関心量の関数的関係を近似することができることを示す。
提案手法をBOの最先端手法に対して検証し,高次元出力の課題に対して優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-14T18:55:21Z) - SparCA: Sparse Compressed Agglomeration for Feature Extraction and
Dimensionality Reduction [0.0]
本稿では,新しい次元縮小法としてスパース圧縮凝集法(SparCA)を提案する。
SparCAは、幅広いデータタイプに適用でき、高度に解釈可能な機能を生成し、下流の教師あり学習タスクで魅力的なパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-01-26T13:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。