論文の概要: Generalized Operating Procedure for Deep Learning: an Unconstrained
Optimal Design Perspective
- arxiv url: http://arxiv.org/abs/2012.15391v1
- Date: Thu, 31 Dec 2020 01:37:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 16:56:28.817185
- Title: Generalized Operating Procedure for Deep Learning: an Unconstrained
Optimal Design Perspective
- Title(参考訳): 深層学習のための汎用的な操作手順--制約のない最適設計の視点から
- Authors: Shen Chen, Mingwei Zhang, Jiamin Cui, Wei Yao
- Abstract要約: 本稿では,ディープラーニング(DL)の一般化運用手順について述べる。
マルチストリームのエンドツーエンド話者検証システムを構築し、複数の並列ストリームで入力音声の発話を処理する。
VoxCelebデータセットを用いて学習し,提案手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 4.570823264643028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) has brought about remarkable breakthrough in processing
images, video and speech due to its efficacy in extracting highly abstract
representation and learning very complex functions. However, there is seldom
operating procedure reported on how to make it for real use cases. In this
paper, we intend to address this problem by presenting a generalized operating
procedure for DL from the perspective of unconstrained optimal design, which is
motivated by a simple intension to remove the barrier of using DL, especially
for those scientists or engineers who are new but eager to use it. Our proposed
procedure contains seven steps, which are project/problem statement, data
collection, architecture design, initialization of parameters, defining loss
function, computing optimal parameters, and inference, respectively. Following
this procedure, we build a multi-stream end-to-end speaker verification system,
in which the input speech utterance is processed by multiple parallel streams
within different frequency range, so that the acoustic modeling can be more
robust resulting from the diversity of features. Trained with VoxCeleb dataset,
our experimental results verify the effectiveness of our proposed operating
procedure, and also show that our multi-stream framework outperforms
single-stream baseline with 20 % relative reduction in minimum decision cost
function (minDCF).
- Abstract(参考訳): 深層学習(DL)は、非常に抽象的な表現を抽出し、非常に複雑な関数を学習する効果により、画像、ビデオ、音声の処理において顕著なブレークスルーをもたらした。
しかし、実際のユースケースで行う方法については、手術手順が報告されることはめったにない。
本稿では,dlの使用の障壁を取り除くための簡単なインテンションによって動機付けられた,制約のない最適設計の観点から,dlの汎用的な運用手順を提示することで,この問題に対処することを目的とする。
提案手法は,プロジェクト/プロブレム文,データ収集,アーキテクチャ設計,パラメータの初期化,損失関数の定義,最適パラメータの計算,推論の7つのステップを含む。
そこで本研究では,入力音声発話を周波数範囲の異なる複数の並列ストリームで処理することにより,特徴の多様性から音響モデルがより堅牢になるように,マルチストリームのエンド・ツー・エンドの話者照合システムを構築する。
VoxCelebデータセットを用いて学習し,提案手法の有効性を検証するとともに,マルチストリームフレームワークが最小決定コスト関数(minDCF)を20%削減してシングルストリームベースラインを上回っていることを示す。
関連論文リスト
- InterroGate: Learning to Share, Specialize, and Prune Representations
for Multi-task Learning [17.66308231838553]
推論計算効率を最適化しつつ,タスク干渉を緩和する新しいマルチタスク学習(MTL)アーキテクチャを提案する。
学習可能なゲーティング機構を用いて、すべてのタスクのパフォーマンスを保ちながら、共有表現とタスク固有の表現を自動的にバランスさせる。
論文 参考訳(メタデータ) (2024-02-26T18:59:52Z) - Compositional Generative Inverse Design [69.22782875567547]
入力変数を設計して目的関数を最適化する逆設計は重要な問題である。
拡散モデルにより得られた学習エネルギー関数を最適化することにより、そのような逆例を避けることができることを示す。
N-body 相互作用タスクと2次元多面体設計タスクにおいて,実験時に学習した拡散モデルを構成することにより,初期状態と境界形状を設計できることを示す。
論文 参考訳(メタデータ) (2024-01-24T01:33:39Z) - Parameterized Projected Bellman Operator [64.129598593852]
近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。
本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。
逐次決定問題に対するPBO学習のための最適化問題を定式化する。
論文 参考訳(メタデータ) (2023-12-20T09:33:16Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - AdaptIR: Parameter Efficient Multi-task Adaptation for Pre-trained Image
Restoration Models [58.10797482129863]
本稿では,事前学習した復元モデルに適応するためのパラメータ効率の良い移動学習手法であるAdaptIRを提案する。
実験により,提案手法は0.6%しか使用せず,完全微調整よりも同等あるいはさらに優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-12T14:27:59Z) - Efficient Cross-Task Prompt Tuning for Few-Shot Conversational Emotion
Recognition [6.988000604392974]
Emotion Recognition in Conversation (ERC) は感情認識型共感機械の開発において重要であるため、広く研究されている。
対話型感情認識のためのCTPT(Cross-Task Prompt Tuning)と呼ばれる微分自由度最適化手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T06:46:03Z) - On the Effectiveness of LayerNorm Tuning for Continual Learning in
Vision Transformers [47.77328392236625]
最新のリハーサルなし連続学習手法は、視覚変換器の特異性を利用してタスク固有のプロンプトを学習する。
そこで、まずタスク固有のパラメータを最適化し、次に推論時間の同じ選択手順で分類器を訓練する。
提案手法は, 計算コストを抑えながら, より優れた結果が得られるか, あるいは, 技術水準に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-08-18T15:11:16Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Scalable Bayesian optimization with high-dimensional outputs using
randomized prior networks [3.0468934705223774]
本稿では,確率化された先行するニューラルネットワークの自己ストラップ型アンサンブルに基づくBOとシーケンシャル意思決定のためのディープラーニングフレームワークを提案する。
提案手法は,高次元ベクトル空間や無限次元関数空間の値を取る場合においても,設計変数と関心量の関数的関係を近似することができることを示す。
提案手法をBOの最先端手法に対して検証し,高次元出力の課題に対して優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-14T18:55:21Z) - SparCA: Sparse Compressed Agglomeration for Feature Extraction and
Dimensionality Reduction [0.0]
本稿では,新しい次元縮小法としてスパース圧縮凝集法(SparCA)を提案する。
SparCAは、幅広いデータタイプに適用でき、高度に解釈可能な機能を生成し、下流の教師あり学習タスクで魅力的なパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-01-26T13:59:15Z) - Efficient Neural Network Analysis with Sum-of-Infeasibilities [64.31536828511021]
凸最適化における総和係数法に着想を得て,広範な分岐関数を持つネットワーク上での検証クエリを解析するための新しい手法を提案する。
標準ケース分析に基づく完全探索手順の拡張は、各検索状態で実行される凸手順をDeepSoIに置き換えることによって達成できる。
論文 参考訳(メタデータ) (2022-03-19T15:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。