Fugu-MT 論文翻訳(概要): DynaLay: An Introspective Approach to Dynamic Layer Selection for Deep Networks

論文の概要: DynaLay: An Introspective Approach to Dynamic Layer Selection for Deep Networks

arxiv url: http://arxiv.org/abs/2312.12781v1
Date: Wed, 20 Dec 2023 05:55:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 16:37:06.970364
Title: DynaLay: An Introspective Approach to Dynamic Layer Selection for Deep Networks
Title（参考訳）: DynaLay: ディープネットワークのための動的層選択のイントロスペクティブアプローチ
Authors: Mrinal Mathur, Sergey Plis
Abstract要約: textbfDynaLayは、各入力を処理するのに最適な層を適応的に選択するための意思決定エージェントを備えた代替アーキテクチャである。 DynaLayは推論中により複雑な入力を再評価し、パフォーマンスと効率の両方を最適化するために計算作業を調整する。実験により,DynaLayは従来のディープモデルに匹敵する精度を達成し,計算要求を大幅に低減することを示した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Deep learning models have become increasingly computationally intensive, requiring extensive computational resources and time for both training and inference. A significant contributing factor to this challenge is the uniform computational effort expended on each input example, regardless of its complexity. We introduce \textbf{DynaLay}, an alternative architecture that features a decision-making agent to adaptively select the most suitable layers for processing each input, thereby endowing the model with a remarkable level of introspection. DynaLay reevaluates more complex inputs during inference, adjusting the computational effort to optimize both performance and efficiency. The core of the system is a main model equipped with Fixed-Point Iterative (FPI) layers, capable of accurately approximating complex functions, paired with an agent that chooses these layers or a direct action based on the introspection of the models inner state. The model invests more time in processing harder examples, while minimal computation is required for easier ones. This introspective approach is a step toward developing deep learning models that "think" and "ponder", rather than "ballistically'' produce answers. Our experiments demonstrate that DynaLay achieves accuracy comparable to conventional deep models while significantly reducing computational demands.
Abstract（参考訳）: ディープラーニングモデルはますます計算集約化され、トレーニングと推論の両方に膨大な計算リソースと時間が必要である。この課題への重要な貢献要因は、その複雑さに関係なく、各入力例に展開される一様計算労力である。本稿では,各入力の処理に最も適した層を適応的に選択する決定エージェントを特徴とする代替アーキテクチャである‘textbf{DynaLay} を紹介する。 DynaLayは推論中により複雑な入力を再評価し、パフォーマンスと効率の両方を最適化するために計算作業を調整する。システムのコアは、固定点反復(fpi)層を備えたメインモデルであり、複雑な機能を正確に近似することができる。モデルはより難しい例を処理するのにより多くの時間を費やすが、簡単な例には最小の計算が必要である。この内省的なアプローチは、"弾道的な"解答ではなく、"思考"と"指示"の深層学習モデルを開発するためのステップである。実験により,DynaLayは従来のディープモデルに匹敵する精度を達成し,計算要求を大幅に低減することを示した。

関連論文リスト

LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
状態空間モデル(SSM)をベースとした世界モデルを提案する。長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
論文参考訳（メタデータ） (2024-10-11T15:10:40Z)
Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models [16.16372459671255]
大規模言語モデル(LLM)は通常、固定された計算予算を使用してトークンによって出力トークンを生成する。 LLMの各フィードフォワードネットワーク層に小さな補助モジュールを統合する新しいフレームワークを提案する。訓練されたルータがオーラクルと異なる動作をしており、しばしば準最適解が得られることを示す。
論文参考訳（メタデータ） (2024-10-01T16:10:21Z)
Self-STORM: Deep Unrolled Self-Supervised Learning for Super-Resolution Microscopy [55.2480439325792]
我々は、シーケンス固有のモデルベースのオートエンコーダをトレーニングすることで、そのようなデータの必要性を軽減する、深層無学習の自己教師付き学習を導入する。提案手法は, 監視対象の性能を超過する。
論文参考訳（メタデータ） (2024-03-25T17:40:32Z)
Learning to Optimize Permutation Flow Shop Scheduling via Graph-based Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文参考訳（メタデータ） (2022-10-31T09:46:26Z)
Benchmarking Learning Efficiency in Deep Reservoir Computing [23.753943709362794]
我々は、機械学習モデルがトレーニングデータからいかに早く学習するかを測定するために、データ効率の指標とともに、ますます困難なタスクのベンチマークを導入する。我々は、RNN、LSTM、Transformersなどの確立された逐次教師付きモデルの学習速度を、貯水池計算に基づく比較的知られていない代替モデルと比較する。
論文参考訳（メタデータ） (2022-09-29T08:16:52Z)
Efficient Sub-structured Knowledge Distillation [52.5931565465661]
定式化においてよりシンプルで,既存のアプローチよりもはるかに効率的にトレーニングできるアプローチを提案する。教師モデルから学生モデルへの知識の伝達は、出力空間全体ではなく、すべてのサブ構造上の予測を局所的に一致させることで行う。
論文参考訳（メタデータ） (2022-03-09T15:56:49Z)
Characterizing and overcoming the greedy nature of learning in multi-modal deep neural networks [62.48782506095565]
深層ニューラルネットワークにおける学習の欲張った性質から、モデルは一つのモダリティにのみ依存する傾向にあり、他のモダリティには不適合であることを示す。本稿では,学習中のモーダル間の条件付き学習速度のバランスをとるアルゴリズムを提案し,グリージー学習の問題に対処できることを実証する。
論文参考訳（メタデータ） (2022-02-10T20:11:21Z)
Consistency Training of Multi-exit Architectures for Sensor Data [0.07614628596146598]
本稿では,一貫した出口訓練(Continuous exit training)と呼ばれるマルチエクイットアーキテクチャの堅牢なトレーニングのための,新規かつアーキテクチャに依存しないアプローチを提案する。弱監督を利用して、モデルの出力を整合性トレーニングと整合させ、ネットワーク内の出口に対してマルチタスク学習方式で二重空間を協調的に最適化する。
論文参考訳（メタデータ） (2021-09-27T17:11:25Z)
Deep Reinforcement Learning for Combinatorial Optimization: Covering Salesman Problems [4.692304496312442]
本稿では,カバーセールスマン問題 (CSP) を大まかに解くための新しい深層学習手法を提案する。このアプローチでは、CSPの都市位置を入力として、ディープニューラルネットワークモデルがソリューションを直接出力するように設計されている。指導なしに深層強化学習を用いて訓練される。
論文参考訳（メタデータ） (2021-02-11T07:25:04Z)
Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文参考訳（メタデータ） (2020-11-14T09:51:51Z)
Computation on Sparse Neural Networks: an Inspiration for Future Hardware [20.131626638342706]
スパースニューラルネットワークの計算に関する研究の現状について述べる。本稿では,重みパラメータの数とモデル構造に影響されるモデルの精度について論じる。実際に複雑な問題に対して、重みが支配する領域において、大小のモデルを探索することはより有益であることを示す。
論文参考訳（メタデータ） (2020-04-24T19:13:50Z)
Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できるこのモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文参考訳（メタデータ） (2020-03-13T13:11:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。