論文の概要: Differentiable Adaptive Computation Time for Visual Reasoning
- arxiv url: http://arxiv.org/abs/2004.12770v3
- Date: Fri, 22 May 2020 16:57:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 04:27:18.008621
- Title: Differentiable Adaptive Computation Time for Visual Reasoning
- Title(参考訳): 視覚推論のための微分可能適応計算時間
- Authors: Cristobal Eyzaguirre, Alvaro Soto
- Abstract要約: 本稿では,DACTと呼ばれる適応計算を実現するための新しいアテンションベースアルゴリズムを提案する。
特に,広く知られているMACアーキテクチャへの応用について検討する。
CLEVRデータセットにおいて、使用するステップの最大数を増やすことで、最高の非適応MACであっても精度を上回ることを示す。
- 参考スコア(独自算出の注目度): 4.7518908453572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel attention-based algorithm for achieving adaptive
computation called DACT, which, unlike existing ones, is end-to-end
differentiable. Our method can be used in conjunction with many networks; in
particular, we study its application to the widely known MAC architecture,
obtaining a significant reduction in the number of recurrent steps needed to
achieve similar accuracies, therefore improving its performance to computation
ratio. Furthermore, we show that by increasing the maximum number of steps
used, we surpass the accuracy of even our best non-adaptive MAC in the CLEVR
dataset, demonstrating that our approach is able to control the number of steps
without significant loss of performance. Additional advantages provided by our
approach include considerably improving interpretability by discarding useless
steps and providing more insights into the underlying reasoning process.
Finally, we present adaptive computation as an equivalent to an ensemble of
models, similar to a mixture of expert formulation. Both the code and the
configuration files for our experiments are made available to support further
research in this area.
- Abstract(参考訳): 本稿では,dactと呼ばれる適応計算を実現するための新しい注意に基づくアルゴリズムを提案する。
提案手法は,多くのネットワークと組み合わせて使用することができ,特に広く知られているMACアーキテクチャへの応用について検討し,類似の精度を達成するために必要な繰り返しステップの数を著しく削減し,計算性能を向上する。
さらに,使用したステップの最大数を増やすことで,CLEVRデータセットにおいて最高の非適応MACであっても精度を上回り,我々のアプローチが性能を著しく損なうことなくステップ数を制御可能であることを示す。
このアプローチによって提供されるその他の利点は、無駄なステップを捨てることによる解釈可能性の大幅な改善と、基礎となる推論プロセスに関する洞察の提供である。
最後に,適応計算を,専門家による定式化の混合と同様,モデルのアンサンブルに相当するものとして提示する。
実験用のコードと構成ファイルの両方が、この分野のさらなる研究をサポートするために利用できます。
関連論文リスト
- Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Efficient Computation of Sparse and Robust Maximum Association
Estimators [0.5156484100374059]
高次元経験例は、この手順の有用性を裏付けるものである。
ラグランジアンアルゴリズムとスパース降下の組み合わせはスパース空間の誘導に適した制約を含むように実装されている。
論文 参考訳(メタデータ) (2023-11-29T11:57:50Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Federated Learning via Inexact ADMM [46.99210047518554]
本稿では,乗算器の不正確な交互方向法(ADMM)を提案する。
どちらも通信効率が高く、ストラグラー効果と戦うことができ、穏やかな条件下で収束する。
フェデレート学習のためのいくつかの最先端アルゴリズムと比較して高い数値性能を持つ。
論文 参考訳(メタデータ) (2022-04-22T09:55:33Z) - Large-scale Optimization of Partial AUC in a Range of False Positive
Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。
近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。
提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文 参考訳(メタデータ) (2022-03-03T03:46:18Z) - Dual Optimization for Kolmogorov Model Learning Using Enhanced Gradient
Descent [8.714458129632158]
コルモゴロフモデル(コルモゴロフモデル、英: Kolmogorov model、KM)は、確率変数の集合の基本的な確率構造を学ぶための解釈可能で予測可能な表現手法である。
正規化双対最適化と拡張勾配降下法(GD)を併用した計算スケーラブルなKM学習アルゴリズムを提案する。
提案したKM学習アルゴリズムを用いた論理的関係マイニングの精度は80%以上である。
論文 参考訳(メタデータ) (2021-07-11T10:33:02Z) - Efficient Learning of Generative Models via Finite-Difference Score
Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。
我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文 参考訳(メタデータ) (2020-07-07T10:05:01Z) - Adaptive Discretization for Model-Based Reinforcement Learning [10.21634042036049]
本稿では,適応離散化手法を導入し,効率的なモデルに基づくエピソード強化学習アルゴリズムを設計する。
我々のアルゴリズムは、空間の適応的な離散化を維持するために拡張された楽観的なワンステップ値反復に基づいている。
論文 参考訳(メタデータ) (2020-07-01T19:36:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。