Fugu-MT 論文翻訳(概要): Generalized Operating Procedure for Deep Learning: an Unconstrained Optimal Design Perspective

論文の概要: Generalized Operating Procedure for Deep Learning: an Unconstrained Optimal Design Perspective

arxiv url: http://arxiv.org/abs/2012.15391v1
Date: Thu, 31 Dec 2020 01:37:56 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-17 16:56:28.817185
Title: Generalized Operating Procedure for Deep Learning: an Unconstrained Optimal Design Perspective
Title（参考訳）: 深層学習のための汎用的な操作手順--制約のない最適設計の視点から
Authors: Shen Chen, Mingwei Zhang, Jiamin Cui, Wei Yao
Abstract要約: 本稿では,ディープラーニング(DL)の一般化運用手順について述べる。マルチストリームのエンドツーエンド話者検証システムを構築し、複数の並列ストリームで入力音声の発話を処理する。 VoxCelebデータセットを用いて学習し,提案手法の有効性を検証した。
参考スコア（独自算出の注目度）: 4.570823264643028
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning (DL) has brought about remarkable breakthrough in processing images, video and speech due to its efficacy in extracting highly abstract representation and learning very complex functions. However, there is seldom operating procedure reported on how to make it for real use cases. In this paper, we intend to address this problem by presenting a generalized operating procedure for DL from the perspective of unconstrained optimal design, which is motivated by a simple intension to remove the barrier of using DL, especially for those scientists or engineers who are new but eager to use it. Our proposed procedure contains seven steps, which are project/problem statement, data collection, architecture design, initialization of parameters, defining loss function, computing optimal parameters, and inference, respectively. Following this procedure, we build a multi-stream end-to-end speaker verification system, in which the input speech utterance is processed by multiple parallel streams within different frequency range, so that the acoustic modeling can be more robust resulting from the diversity of features. Trained with VoxCeleb dataset, our experimental results verify the effectiveness of our proposed operating procedure, and also show that our multi-stream framework outperforms single-stream baseline with 20 % relative reduction in minimum decision cost function (minDCF).
Abstract（参考訳）: 深層学習(DL)は、非常に抽象的な表現を抽出し、非常に複雑な関数を学習する効果により、画像、ビデオ、音声の処理において顕著なブレークスルーをもたらした。しかし、実際のユースケースで行う方法については、手術手順が報告されることはめったにない。本稿では,dlの使用の障壁を取り除くための簡単なインテンションによって動機付けられた,制約のない最適設計の観点から,dlの汎用的な運用手順を提示することで,この問題に対処することを目的とする。提案手法は,プロジェクト/プロブレム文,データ収集,アーキテクチャ設計,パラメータの初期化,損失関数の定義,最適パラメータの計算,推論の7つのステップを含む。そこで本研究では,入力音声発話を周波数範囲の異なる複数の並列ストリームで処理することにより,特徴の多様性から音響モデルがより堅牢になるように,マルチストリームのエンド・ツー・エンドの話者照合システムを構築する。 VoxCelebデータセットを用いて学習し,提案手法の有効性を検証するとともに,マルチストリームフレームワークが最小決定コスト関数(minDCF)を20%削減してシングルストリームベースラインを上回っていることを示す。

関連論文リスト

ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。 OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文参考訳（メタデータ） (2025-07-01T16:01:08Z)
Learning Free Token Reduction for Multi-Modal Large Language Models [3.4026156483879517]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。しかし、それらの実践的な展開は、しばしば高い計算コストと長期の推論時間によって制約される。本稿では,空間次元と時間次元の両方で動作するトークン圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2025-01-29T02:52:32Z)
Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文参考訳（メタデータ） (2024-10-10T17:02:48Z)
PAR: Prompt-Aware Token Reduction Method for Efficient Large Multimodal Models [32.33892531885448]
MLLM(Multimodal large language model)は、視覚的タスクにまたがる強力なパフォーマンスを示す。しかし、それらの効率は、マルチモーダル入力で長いコンテキストを処理することによる計算とメモリの要求によって妨げられている。 PAR(Prompt-Aware Token Reduction)は,モデルの性能を損なうことなく,視覚トークンを効率よく削減する新しい,プラグアンドプレイ方式である。
論文参考訳（メタデータ） (2024-10-09T07:13:22Z)
Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文参考訳（メタデータ） (2024-08-21T06:48:38Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。 MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。 Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文参考訳（メタデータ） (2024-04-13T12:14:58Z)
InterroGate: Learning to Share, Specialize, and Prune Representations for Multi-task Learning [17.66308231838553]
推論計算効率を最適化しつつ,タスク干渉を緩和する新しいマルチタスク学習(MTL)アーキテクチャを提案する。学習可能なゲーティング機構を用いて、すべてのタスクのパフォーマンスを保ちながら、共有表現とタスク固有の表現を自動的にバランスさせる。
論文参考訳（メタデータ） (2024-02-26T18:59:52Z)
Parameterized Projected Bellman Operator [64.129598593852]
近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。逐次決定問題に対するPBO学習のための最適化問題を定式化する。
論文参考訳（メタデータ） (2023-12-20T09:33:16Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
Efficient Cross-Task Prompt Tuning for Few-Shot Conversational Emotion Recognition [6.988000604392974]
Emotion Recognition in Conversation (ERC) は感情認識型共感機械の開発において重要であるため、広く研究されている。対話型感情認識のためのCTPT(Cross-Task Prompt Tuning)と呼ばれる微分自由度最適化手法を提案する。
論文参考訳（メタデータ） (2023-10-23T06:46:03Z)
Scalable Bayesian optimization with high-dimensional outputs using randomized prior networks [3.0468934705223774]
本稿では,確率化された先行するニューラルネットワークの自己ストラップ型アンサンブルに基づくBOとシーケンシャル意思決定のためのディープラーニングフレームワークを提案する。提案手法は,高次元ベクトル空間や無限次元関数空間の値を取る場合においても,設計変数と関心量の関数的関係を近似することができることを示す。提案手法をBOの最先端手法に対して検証し,高次元出力の課題に対して優れた性能を示す。
論文参考訳（メタデータ） (2023-02-14T18:55:21Z)
SparCA: Sparse Compressed Agglomeration for Feature Extraction and Dimensionality Reduction [0.0]
本稿では,新しい次元縮小法としてスパース圧縮凝集法(SparCA)を提案する。 SparCAは、幅広いデータタイプに適用でき、高度に解釈可能な機能を生成し、下流の教師あり学習タスクで魅力的なパフォーマンスを示す。
論文参考訳（メタデータ） (2023-01-26T13:59:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。