このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210212となっている論文です。

PDF登録状況(公開日: 20210212)

TitleAuthorsAbstract論文公表日・翻訳日
# 改良El Ni\~no予測のためのグラフニューラルネットワーク

Graph Neural Networks for Improved El Ni\~no Forecasting ( http://arxiv.org/abs/2012.01598v3 )

ライセンス: Link先を確認
Salva R\"uhling Cachay, Emma Erickson, Arthur Fender C. Bucker, Ernest Pokropek, Willa Potosnak, Salomey Osei, Bj\"orn L\"utjens(参考訳) 深層学習に基づくモデルは、El Ni\~no-Southern Oscillation (ENSO)の予測など、最先端の季節予測モデルを上回っている。 しかし、現在のディープラーニングモデルは、解釈が困難で、遠隔接続と呼ばれる大規模な大気パターンをモデル化できない畳み込みニューラルネットワークに基づいている。 そこで本研究では,時空間グラフニューラルネットワーク(gnn)の長期リード時間におけるenso予測への応用,粒度の向上,予測スキルの向上について述べる。 エッジによる情報フローの明示的なモデリングは、より解釈可能な予測を可能にする。 予備的な成果は、1ヶ月前と3ヶ月後の投影のための最先端技術システムよりも有望で優れています。

Deep learning-based models have recently outperformed state-of-the-art seasonal forecasting models, such as for predicting El Ni\~no-Southern Oscillation (ENSO). However, current deep learning models are based on convolutional neural networks which are difficult to interpret and can fail to model large-scale atmospheric patterns called teleconnections. Hence, we propose the application of spatiotemporal Graph Neural Networks (GNN) to forecast ENSO at long lead times, finer granularity and improved predictive skill than current state-of-the-art methods. The explicit modeling of information flow via edges may also allow for more interpretable forecasts. Preliminary results are promising and outperform state-of-the art systems for projections 1 and 3 months ahead.
翻訳日:2021-05-25 04:07:32 公開日:2021-02-12
# 代数的不定型深層ネットワーク(aidn) : 代数構造を表現するディープラーニングアプローチ

Algebraically-Inform ed Deep Networks (AIDN): A Deep Learning Approach to Represent Algebraic Structures ( http://arxiv.org/abs/2012.01141v3 )

ライセンス: Link先を確認
Mustafa Hajij, Ghada Zamzmi, Matthew Dawson, Greg Muller(参考訳) 深層学習と数学のインターフェイスにおける中心的な問題の1つは、観測データから基礎となる数学的法則を自動的に解明できる学習システムを構築することである。 本稿では,代数構造と深層学習の橋梁構築に向けての一ステップを踏み出し,その上で,textbf{AIDN}, \textit{Algebraically-Inform ed Deep Networks}を紹介する。 \textbf{AIDN} は、ディープニューラルネットワークの集合を持つ有限表現代数オブジェクトを表現するディープラーニングアルゴリズムである。 textbf{aidn} によって得られる深層ネットワークは、アルゴリズムの入力として働く代数的構造の表現の代数的関係を満たすという意味では \textit{algebraically-inform ed} である。 提案したネットワークは、群、連想代数学、リー代数など、最も有限で表される代数構造の線型および非線形表現を頑健に計算することができる。 提案手法を評価し,低次元トポロジーにおいて重要な代数的および幾何学的対象への適用性を示す。 特に、ヤン・バクスター方程式の解とそのブレイド群への応用について研究する。 さらに、テンパーリー-リーブ代数の表現について研究する。 最後に,reshetikhin-turaev構成を用いて,提案する深層学習手法を用いて新たなリンク不変量を構築する方法を示す。 提案手法は、代数的および幾何学的構造に応用された深層学習における将来的な研究への道筋をたどると信じている。

One of the central problems in the interface of deep learning and mathematics is that of building learning systems that can automatically uncover underlying mathematical laws from observed data. In this work, we make one step towards building a bridge between algebraic structures and deep learning, and introduce \textbf{AIDN}, \textit{Algebraically-Inform ed Deep Networks}. \textbf{AIDN} is a deep learning algorithm to represent any finitely-presented algebraic object with a set of deep neural networks. The deep networks obtained via \textbf{AIDN} are \textit{algebraically-inform ed} in the sense that they satisfy the algebraic relations of the presentation of the algebraic structure that serves as the input to the algorithm. Our proposed network can robustly compute linear and non-linear representations of most finitely-presented algebraic structures such as groups, associative algebras, and Lie algebras. We evaluate our proposed approach and demonstrate its applicability to algebraic and geometric objects that are significant in low-dimensional topology. In particular, we study solutions for the Yang-Baxter equations and their applications on braid groups. Further, we study the representations of the Temperley-Lieb algebra. Finally, we show, using the Reshetikhin-Turaev construction, how our proposed deep learning approach can be utilized to construct new link invariants. We believe the proposed approach would tread a path toward a promising future research in deep learning applied to algebraic and geometric structures.
翻訳日:2021-05-25 03:39:50 公開日:2021-02-12
# (参考訳) ベイズ最適化における推定の実証的研究

An Empirical Study of Assumptions in Bayesian Optimisation ( http://arxiv.org/abs/2012.03826v3 )

ライセンス: CC BY 4.0
Alexander I. Cowen-Rivers, Wenlong Lyu, Rasul Tutunov, Zhi Wang, Antoine Grosnit, Ryan Rhys Griffiths, Hao Jianye, Jun Wang, Haitham Bou Ammar(参考訳) 機械学習のハイパーパラメータを効率的にチューニングしたいという欲求の高まりに触発され、ベイズ最適化に固有の従来的および非伝統的な仮定を厳格に分析する。 1) 超パラメータチューニングタスクの大部分はヘテロシステキティと非定常性を示し,2)パレートフロントソリューションを用いた多目的獲得アンサンブルはクエリ構成を大幅に改善し,3)ロバストでないタスクに比べてロバスト獲得の最大化は実証的な利点を与える。 これらの発見が実践者およびこの分野のさらなる研究の指針となることを願っている。

Inspired by the increasing desire to efficiently tune machine learning hyper-parameters, in this work we rigorously analyse conventional and non-conventional assumptions inherent to Bayesian optimisation. Across an extensive set of experiments we conclude that: 1) the majority of hyper-parameter tuning tasks exhibit heteroscedasticity and non-stationarity, 2) multi-objective acquisition ensembles with Pareto-front solutions significantly improve queried configurations, and 3) robust acquisition maximisation affords empirical advantages relative to its non-robust counterparts. We hope these findings may serve as guiding principles, both for practitioners and for further research in the field.
翻訳日:2021-05-18 10:14:25 公開日:2021-02-12
# 有限学習率確率勾配降下の雑音とゆらぎ

Noise and Fluctuation of Finite Learning Rate Stochastic Gradient Descent ( http://arxiv.org/abs/2012.03636v3 )

ライセンス: Link先を確認
Kangqiao Liu, Liu Ziyin, Masahito Ueda(参考訳) 消滅する学習率体制では、確率勾配降下(SGD)が比較的よく理解されている。 そこで本研究では,SGDの基本特性とその変種について,非消滅学習における検討を行う。 焦点は、正確に解決可能な結果を導き、その意味を議論することである。 この研究の主な貢献は、運動量のない二次損失関数における離散時間sgdの定常分布を導出することであり、特に、離散時間ダイナミクスによるゆらぎは歪んだ形をとっており、連続時間理論が予測できるよりも劇的に大きいことが示唆されている。 本研究における提案理論の適用例としては、SGDの変種近似誤差、ミニバッチノイズの効果、最適ベイズ推定、鋭い最小値からの脱出率、減衰ニュートン法や自然勾配勾配勾配を含むいくつかの2階法の定常分布などが挙げられる。

In the vanishing learning rate regime, stochastic gradient descent (SGD) is now relatively well understood. In this work, we propose to study the basic properties of SGD and its variants in the non-vanishing learning rate regime. The focus is on deriving exactly solvable results and discussing their implications. The main contributions of this work are to derive the stationary distribution for discrete-time SGD in a quadratic loss function with and without momentum; in particular, one implication of our result is that the fluctuation caused by discrete-time dynamics takes a distorted shape and is dramatically larger than a continuous-time theory could predict. Examples of applications of the proposed theory considered in this work include the approximation error of variants of SGD, the effect of minibatch noise, the optimal Bayesian inference, the escape rate from a sharp minimum, and the stationary distribution of a few second-order methods including damped Newton's method and natural gradient descent.
翻訳日:2021-05-16 21:47:07 公開日:2021-02-12
# 連続重力波候補のクラスタリングのための深層学習II:低SNR候補の同定

Deep learning for clustering of continuous gravitational wave candidates II: identification of low-SNR candidates ( http://arxiv.org/abs/2012.04381v2 )

ライセンス: Link先を確認
Banafsheh Beheshtipour, Maria Alessandra Papa(参考訳) 連続重力波信号の幅広い探索は、与えられた有意閾値を超える候補のフォローアップステージの階層に依存する。 これらのフォローアップを単純化し、計算コストを削減するための重要なステップは、1つのフォローアップ候補にまとめることである。 このステップはクラスタリングと呼ばれ、ディープラーニングネットワークで実行することを調査します。 最初の論文[1]では、大きな信号によるクラスタの正確な識別が可能なディープラーニングクラスタリングネットワークを実装した。 本稿では,多くの暗示信号によるクラスタ検出が可能なネットワークを実装した。 これら2つのネットワークは相補的であり、2つのネットワークのカスケードは、現在使われている手法と同等/より低い誤報率で、幅広い信号強度にわたって優れた検出効率を達成することを示す。

Broad searches for continuous gravitational wave signals rely on hierarchies of follow-up stages for candidates above a given significance threshold. An important step to simplify these follow-ups and reduce the computational cost is to bundle together in a single follow-up nearby candidates. This step is called clustering and we investigate carrying it out with a deep learning network. In our first paper [1], we implemented a deep learning clustering network capable of correctly identifying clusters due to large signals. In this paper, a network is implemented that can detect clusters due to much fainter signals. These two networks are complementary and we show that a cascade of the two networks achieves an excellent detection efficiency across a wide range of signal strengths, with a false alarm rate comparable/lower than that of methods currently in use.
翻訳日:2021-05-16 20:44:05 公開日:2021-02-12
# (参考訳) 分散化によるプライバシーの増幅 [全文訳有]

Privacy Amplification by Decentralization ( http://arxiv.org/abs/2012.05326v2 )

ライセンス: CC BY 4.0
Edwige Cyffers, Aur\'elien Bellet(参考訳) ユーティリティとプライバシの良好なトレードオフを達成する一方で、複数のパーティが所有するデータを分析することは、フェデレーション付き学習と分析において重要な課題である。 本研究では,ネットワークグラフのエッジに沿って通信することで情報交換を行う,完全分散プロトコルにおいて自然に発生する局所微分プライバシー(LDP)を緩和する手法を提案する。 ネットワークDPと呼ばれるこの緩和は、ユーザが分散システムのローカルビューしか持たないという事実を捉えます。 ネットワークdpの関連性を示すために,トークンがネットワークグラフ上でウォークを実行し,受信者によって順次更新される分散計算モデルについて検討する。 実和、ヒストグラム計算、勾配降下による最適化などのタスクに対しては、リングと完全位相に関する単純なアルゴリズムを提案する。 アルゴリズムのプライバシ・ユーティリティのトレードオフがLDPにおいて著しく改善されることを実証し、信頼/セキュアの集約とシャッフルに基づく手法で達成できるものさえも一致している。 本実験は,確率的勾配降下を伴う機械学習モデルの学習において,本手法の優れた有用性を示す。

Analyzing data owned by several parties while achieving a good trade-off between utility and privacy is a key challenge in federated learning and analytics. In this work, we introduce a novel relaxation of local differential privacy (LDP) that naturally arises in fully decentralized protocols, i.e., when participants exchange information by communicating along the edges of a network graph. This relaxation, that we call network DP, captures the fact that users have only a local view of the decentralized system. To show the relevance of network DP, we study a decentralized model of computation where a token performs a walk on the network graph and is updated sequentially by the party who receives it. For tasks such as real summation, histogram computation and optimization with gradient descent, we propose simple algorithms on ring and complete topologies. We prove that the privacy-utility trade-offs of our algorithms significantly improve upon LDP, and in some cases even match what can be achieved with methods based on trusted/secure aggregation and shuffling. Our experiments illustrate the superior utility of our approach when training a machine learning model with stochastic gradient descent.
翻訳日:2021-05-16 04:30:11 公開日:2021-02-12
# (参考訳) グラフィックバイリニアバンドにおけるベストアーム識別 [全文訳有]

Best Arm Identification in Graphical Bilinear Bandits ( http://arxiv.org/abs/2012.07641v2 )

ライセンス: CC BY 4.0
Geovani Rizk and Albert Thomas and Igor Colin and Rida Laraki and Yann Chevaleyre(参考訳) 本稿では,学習者(あるいは \emph{central entity})がグラフのノードにアームを割り当て,両端ノード間の相互作用を表す雑音の多いバイリニア報酬を各エッジで観測する,新しいグラフィカル双線形帯域問題を提案する。 両線形報酬の和を最大化するグラフ割り当てを学習者が求めている最適なアーム識別問題について検討する。 このバンドイット問題の幾何を効率的に利用することにより、理論的保証のあるランダムサンプリングに基づく 'emph{decentralized} 割り当て戦略を提案する。 特に、グラフ構造(例えば、グラフ構造)の影響を特徴付ける。 star, complete, circle) 収束率を計算し、この依存性を確認する実証実験を提案する。

We introduce a new graphical bilinear bandit problem where a learner (or a \emph{central entity}) allocates arms to the nodes of a graph and observes for each edge a noisy bilinear reward representing the interaction between the two end nodes. We study the best arm identification problem in which the learner wants to find the graph allocation maximizing the sum of the bilinear rewards. By efficiently exploiting the geometry of this bandit problem, we propose a \emph{decentralized} allocation strategy based on random sampling with theoretical guarantees. In particular, we characterize the influence of the graph structure (e.g. star, complete or circle) on the convergence rate and propose empirical experiments that confirm this dependency.
翻訳日:2021-05-08 23:43:11 公開日:2021-02-12
# redat:relabelingを用いたドメイン逆学習によるエンドツーエンドasrのアクセント不変表現

REDAT: Accent-Invariant Representation for End-to-End ASR by Domain Adversarial Training with Relabeling ( http://arxiv.org/abs/2012.07353v2 )

ライセンス: Link先を確認
Hu Hu, Xuesong Yang, Zeynab Raeesy, Jinxi Guo, Gokce Keskin, Harish Arsikere, Ariya Rastrow, Andreas Stolcke, Roland Maas(参考訳) アクセントのミスマッチは、エンドツーエンドのASRにとって重要な問題である。 本稿では,ドメイン逆行訓練(DAT)を用いたアクセントローバストRNN-Tシステムの構築により,この問題に対処することを目的とする。 DATの背後にある魔法を公開し、初めて、DATがアクセント不変表現を学ぶという理論的保証を提供する。 また、DATにおける勾配反転の実行は、領域出力分布間のジェンセン-シャノンのばらつきを最小化することと同値であることを示す。 等価性の証明に動機づけられたredatは,教師なしクラスタリングあるいはソフトラベルを使用してデータをリラベルする,datに基づく新しい手法である。 マルチアクセントデータを用いた23K時間の実験では、DATはネイティブおよび非ネイティブの英語アクセントのアクセント固有のベースラインよりも競争力のある結果を得るが、見知らぬアクセントに対するWERの相対的な減少は最大13%である。

Accents mismatching is a critical problem for end-to-end ASR. This paper aims to address this problem by building an accent-robust RNN-T system with domain adversarial training (DAT). We unveil the magic behind DAT and provide, for the first time, a theoretical guarantee that DAT learns accent-invariant representations. We also prove that performing the gradient reversal in DAT is equivalent to minimizing the Jensen-Shannon divergence between domain output distributions. Motivated by the proof of equivalence, we introduce reDAT, a novel technique based on DAT, which relabels data using either unsupervised clustering or soft labels. Experiments on 23K hours of multi-accent data show that DAT achieves competitive results over accent-specific baselines on both native and non-native English accents but up to 13% relative WER reduction on unseen accents; our reDAT yields further improvements over DAT by 3% and 8% relatively on non-native accents of American and British English.
翻訳日:2021-05-08 14:20:59 公開日:2021-02-12
# (参考訳) 胸部x線診断のための説明可能なモデルの構築と評価 [全文訳有]

Constructing and Evaluating an Explainable Model for COVID-19 Diagnosis from Chest X-rays ( http://arxiv.org/abs/2012.10787v2 )

ライセンス: CC BY 4.0
Rishab Khincha, Soundarya Krishnan, Tirtharaj Dash, Lovekesh Vig and Ashwin Srinivasan(参考訳) 本稿では,ctスキャンから得られたような高品質な画像を得るよりも,x線データを得ることが容易で安価である状況において,臨床医の診断を支援するモデルの構築に焦点をあてる。 深層ニューラルネットワークは、画像データから直接疾患検出のための高い予測モデルを構築することができることが繰り返し示されている。 しかし, そのブラックボックス性から, 臨床医の補助としての利用は, 何度も転落の一途をたどっている。 予測に臨床用語で表現された説明が伴っていれば、この難しさを和らげることができる。 本稿では,深層ニューラルネットワークを用いて,画像データからドメイン特有の特徴(グラウンドグラス不透明度や肺炎などの疾患表示などの形態学的特徴)を直接抽出する。 これらの特徴に関する予測は、胸部X線からCOVID-19を診断するためのシンボルモデル(決定木)を構築するために使用され、視覚(神経段階から派生した透明マップ)とテキスト(記号段階から派生した論理的記述)の2種類の説明を伴う。 放射線科医は、視覚的およびテキスト的説明の有用性を評価します。 以上の結果から,低レベル画像データからのドメイン固有特徴の同定にニューラルネットワークが有用であること,臨床的に関連のある特徴のテキスト的説明が有用であること,視覚的な説明が有用になるためには臨床的に有意義であること,などが分かる。

In this paper, our focus is on constructing models to assist a clinician in the diagnosis of COVID-19 patients in situations where it is easier and cheaper to obtain X-ray data than to obtain high-quality images like those from CT scans. Deep neural networks have repeatedly been shown to be capable of constructing highly predictive models for disease detection directly from image data. However, their use in assisting clinicians has repeatedly hit a stumbling block due to their black-box nature. Some of this difficulty can be alleviated if predictions were accompanied by explanations expressed in clinically relevant terms. In this paper, deep neural networks are used to extract domain-specific features(morphologic al features like ground-glass opacity and disease indications like pneumonia) directly from the image data. Predictions about these features are then used to construct a symbolic model (a decision tree) for the diagnosis of COVID-19 from chest X-rays, accompanied with two kinds of explanations: visual (saliency maps, derived from the neural stage), and textual (logical descriptions, derived from the symbolic stage). A radiologist rates the usefulness of the visual and textual explanations. Our results demonstrate that neural models can be employed usefully in identifying domain-specific features from low-level image data; that textual explanations in terms of clinically relevant features may be useful; and that visual explanations will need to be clinically meaningful to be useful.
翻訳日:2021-05-01 12:49:24 公開日:2021-02-12
# 少数のアンカーポイントからのデータ移動による輸送の堅牢化と解釈性の向上

Making transport more robust and interpretable by moving data through a small number of anchor points ( http://arxiv.org/abs/2012.11589v2 )

ライセンス: Link先を確認
Chi-Heng Lin, Mehdi Azabou, Eva L. Dyer(参考訳) 最適輸送(optimize transport, ot)は、機械学習、グラフィックス、視覚コミュニティ全体に適用可能な、分散アライメントのための広く使われている技術である。 しかし、トランスポートに関する構造的な仮定がなければ、OTは特に高次元において、外れ値やノイズに対して脆弱である。 本稿では,この構造を利用してデータの低次元構造を同時に学習し,アライメントタスクを解く構造OTの新たな形式を提案する。 OTと比較すると、結果として得られるトランスポートプランは構造的解釈性が向上し、個々のデータポイントと局所幾何学との間の接続が強調され、ノイズやサンプリングに対してより堅牢である。 提案手法は合成だけでなく,実際のデータセットにも適用し,ノイズの多い環境でのアライメントが容易であり,ドメインシフトの修正と解釈に使用できることを示す。

Optimal transport (OT) is a widely used technique for distribution alignment, with applications throughout the machine learning, graphics, and vision communities. Without any additional structural assumptions on trans-port, however, OT can be fragile to outliers or noise, especially in high dimensions. Here, we introduce a new form of structured OT that simultaneously learns low-dimensional structure in data while leveraging this structure to solve the alignment task. Compared with OT, the resulting transport plan has better structural interpretability, highlighting the connections between individual data points and local geometry, and is more robust to noise and sampling. We apply the method to synthetic as well as real datasets, where we show that our method can facilitate alignment in noisy settings and can be used to both correct and interpret domain shift.
翻訳日:2021-04-27 06:25:31 公開日:2021-02-12
# (参考訳) モジュール型ネットワークとタスク駆動型事前学習による効率的連続学習 [全文訳有]

Efficient Continual Learning with Modular Networks and Task-Driven Priors ( http://arxiv.org/abs/2012.12631v2 )

ライセンス: CC BY 4.0
Tom Veniat and Ludovic Denoyer and Marc'Aurelio Ranzato(参考訳) 継続学習(continual learning:cl)における既存の文献は、過去のタスクの実施方法を思い出せない破滅的な忘れを克服することに焦点を当てている。 しかし、clシステムの他の望ましい特性として、以前のタスクから知識を転送したり、メモリをスケールしたり、タスク数でサブ線形に計算したりできる。 現在のベンチマークはタスクの短いストリームを忘れることだけに焦点を当てているため、まず、これらの新しい軸をまたいでclアルゴリズムを調べるための新しいベンチマークスイートを提案します。 最後に、モジュールが特定のタスクを実行するために構成できるアトミックなスキルを表す新しいモジュールアーキテクチャを紹介します。 タスクの学習は、どの過去のモジュールを再利用するか、どの新しいモジュールをインスタンス化して現在のタスクを解決するかを判断するのを減らす。 学習アルゴリズムは,モジュールを結合するあらゆる方法の指数関数探索空間上でタスク駆動前処理を活用し,タスクの長いストリームでの効率的な学習を可能にする。 このモジュラーアーキテクチャと学習アルゴリズムは、広く使われているCLベンチマークで競争力を発揮しつつ、本研究で導入したより困難なベンチマークでは優れたパフォーマンスが得られることを示す。

Existing literature in Continual Learning (CL) has focused on overcoming catastrophic forgetting, the inability of the learner to recall how to perform tasks observed in the past. There are however other desirable properties of a CL system, such as the ability to transfer knowledge from previous tasks and to scale memory and compute sub-linearly with the number of tasks. Since most current benchmarks focus only on forgetting using short streams of tasks, we first propose a new suite of benchmarks to probe CL algorithms across these new axes. Finally, we introduce a new modular architecture, whose modules represent atomic skills that can be composed to perform a certain task. Learning a task reduces to figuring out which past modules to re-use, and which new modules to instantiate to solve the current task. Our learning algorithm leverages a task-driven prior over the exponential search space of all possible ways to combine modules, enabling efficient learning on long streams of tasks. Our experiments show that this modular architecture and learning algorithm perform competitively on widely used CL benchmarks while yielding superior performance on the more challenging benchmarks we introduce in this work.
翻訳日:2021-04-26 00:49:34 公開日:2021-02-12
# Cauchy-Schwarz正規化オートエンコーダ

Cauchy-Schwarz Regularized Autoencoder ( http://arxiv.org/abs/2101.02149v2 )

ライセンス: Link先を確認
Linh Tran, Maja Pantic, Marc Peter Deisenroth(参考訳) 教師なし学習における最近の研究は、潜在変数モデルの効率的な推論と学習に焦点を当てている。 証拠を最大化することでこれらのモデルを訓練することは、通常難解である。 したがって、共通の近似はエビデンスの下限(elbo)を最大化することである。 変分オートエンコーダ(VAE)は、大規模なデータセットに対してELBOを効率的に最適化する、強力で広く使われている生成モデルのクラスである。 しかしながら、VAEのデフォルトのガウス選択は、真の後部を表す能力に強い制約を課し、結果として全体的な性能が低下する。 ガウス混合モデル(GMM)はよりリッチなものとなるが、Kulback-LeiblerのGMMへの分散性のため、VAEフレームワーク内で効率的に扱うことはできない。 我々は,gaussian mixed に対する解析的解法を優先して,共通 vae フレームワークから逸脱した。 GMMの事前推定を効率的に行うために、GMMに対して解析的に計算できるコーシーシュワルツの発散に基づく新しい制約付き目的を導入する。 この新しい目的により、よりリッチでマルチモーダルなプリエントを自動エンコーディングフレームワークに組み込むことができます。 我々は,様々なデータセットに関する実証研究を行い,その目的は,密度推定,教師なしクラスタリング,半教師付き学習,顔分析における変分自動エンコーディングモデルにより改善することを示す。

Recent work in unsupervised learning has focused on efficient inference and learning in latent variables models. Training these models by maximizing the evidence (marginal likelihood) is typically intractable. Thus, a common approximation is to maximize the Evidence Lower BOund (ELBO) instead. Variational autoencoders (VAE) are a powerful and widely-used class of generative models that optimize the ELBO efficiently for large datasets. However, the VAE's default Gaussian choice for the prior imposes a strong constraint on its ability to represent the true posterior, thereby degrading overall performance. A Gaussian mixture model (GMM) would be a richer prior, but cannot be handled efficiently within the VAE framework because of the intractability of the Kullback-Leibler divergence for GMMs. We deviate from the common VAE framework in favor of one with an analytical solution for Gaussian mixture prior. To perform efficient inference for GMM priors, we introduce a new constrained objective based on the Cauchy-Schwarz divergence, which can be computed analytically for GMMs. This new objective allows us to incorporate richer, multi-modal priors into the autoencoding framework. We provide empirical studies on a range of datasets and show that our objective improves upon variational auto-encoding models in density estimation, unsupervised clustering, semi-supervised learning, and face analysis.
翻訳日:2021-04-11 00:13:28 公開日:2021-02-12
# (参考訳) エッジコンピューティング環境におけるaiopsに向けて [全文訳有]

Towards AIOps in Edge Computing Environments ( http://arxiv.org/abs/2102.09001v1 )

ライセンス: CC BY 4.0
Soeren Becker, Florian Schmidt, Anton Gulenko, Alexander Acker, Odej Kao(参考訳) エッジコンピューティングは、5gのような新しいネットワーク技術の要求に応える技術として導入された。 計算リソースをネットワークのエッジに分散して顧客に向けて分散することで、集中型クラウドコンピューティング環境に関連する課題を克服することを目指している。 新興インフラの複雑さは、自動運転車やヘルスケアといった重要なユースケースにおける障害の増加とともに、大幅に増加する。 ai(artificial intelligence for it operations)は、機械学習手法を使用して複雑なインフラストラクチャを管理する人手を支援することを目的としている。 本稿では,異種分散環境に適用可能なaiopsプラットフォームのシステム設計について述べる。 エッジデバイス上での高周波監視ソリューションのオーバーヘッドを評価し,エッジデバイス上での3つの異常検出アルゴリズムの適用性に関する性能実験を行った。 その結果、高い頻度でメトリクスを収集し、特定の異常検出アルゴリズムを直接エッジデバイス上で実行し、リソース利用に十分なオーバーヘッドを課すことが可能であることがわかった。

Edge computing was introduced as a technical enabler for the demanding requirements of new network technologies like 5G. It aims to overcome challenges related to centralized cloud computing environments by distributing computational resources to the edge of the network towards the customers. The complexity of the emerging infrastructures increases significantly, together with the ramifications of outages on critical use cases such as self-driving cars or health care. Artificial Intelligence for IT Operations (AIOps) aims to support human operators in managing complex infrastructures by using machine learning methods. This paper describes the system design of an AIOps platform which is applicable in heterogeneous, distributed environments. The overhead of a high-frequency monitoring solution on edge devices is evaluated and performance experiments regarding the applicability of three anomaly detection algorithms on edge devices are conducted. The results show, that it is feasible to collect metrics with a high frequency and simultaneously run specific anomaly detection algorithms directly on edge devices with a reasonable overhead on the resource utilization.
翻訳日:2021-04-06 05:19:31 公開日:2021-02-12
# コンテキストドロップアウトによるマルチモーダル句読点予測

Multimodal Punctuation Prediction with Contextual Dropout ( http://arxiv.org/abs/2102.11012v1 )

ライセンス: Link先を確認
Andrew Silva, Barry-John Theobald, Nicholas Apostoloff(参考訳) 自動音声認識(asr)は家電製品で広く使われている。 ASRは技術の有用性とアクセシビリティを大幅に改善するが、通常出力は句読点のないワードシーケンスのみである。 これにより、ユーザインテントを推測するあいまいさが生じる可能性がある。 まず,IWSLT 2012 TED Taskで8%改善した句読点予測のためのトランスフォーマーベースの手法を提案する。 次に,音声と音声の両方から学習するマルチモーダルモデルについて述べる。音声と書き起こしの両方を持つ内部データセット上で,テキストのみのアルゴリズムよりも8%向上する。 最後に,テスト時に可変量の将来のコンテキストを処理可能なコンテキストドロップアウトを用いたモデル学習手法を提案する。

Automatic speech recognition (ASR) is widely used in consumer electronics. ASR greatly improves the utility and accessibility of technology, but usually the output is only word sequences without punctuation. This can result in ambiguity in inferring user-intent. We first present a transformer-based approach for punctuation prediction that achieves 8% improvement on the IWSLT 2012 TED Task, beating the previous state of the art [1]. We next describe our multimodal model that learns from both text and audio, which achieves 8% improvement over the text-only algorithm on an internal dataset for which we have both the audio and transcriptions. Finally, we present an approach to learning a model using contextual dropout that allows us to handle variable amounts of future context at test time.
翻訳日:2021-04-05 00:38:45 公開日:2021-02-12
# リカレントニューラルネットワークを用いた位相回復とオートフォーカスによるホログラフィック画像再構成

Holographic image reconstruction with phase recovery and autofocusing using recurrent neural networks ( http://arxiv.org/abs/2102.12281v1 )

ライセンス: Link先を確認
Luzhe Huang, Tairan Liu, Xilin Yang, Yi Luo, Yair Rivenson, Aydogan Ozcan(参考訳) デジタルホログラフィーは、バイオメディカルイメージングにおいて最も広く使われているラベルなし顕微鏡技術の1つである。 ホログラムの欠落相情報の回復はホログラム画像再構成の重要なステップである。 本稿では,複数のホログラムを用いた畳み込み型リカレントニューラルネットワーク(rnn)に基づく位相復元手法を提案する。 深層学習型ホログラフィー法は,ヒト組織試料およびパパニコラオ(Pap)スミアの顕微鏡的特徴を画像化することにより,その成功を実証した。 これらの結果は, ホログラフィ画像と位相復元のための再帰的ニューラルネットワークを用いた最初の実証であり, 既存の手法と比較して, 再構成された画像品質を改善しつつ, 視野深度と推定速度も向上した。

Digital holography is one of the most widely used label-free microscopy techniques in biomedical imaging. Recovery of the missing phase information of a hologram is an important step in holographic image reconstruction. Here we demonstrate a convolutional recurrent neural network (RNN) based phase recovery approach that uses multiple holograms, captured at different sample-to-sensor distances to rapidly reconstruct the phase and amplitude information of a sample, while also performing autofocusing through the same network. We demonstrated the success of this deep learning-enabled holography method by imaging microscopic features of human tissue samples and Papanicolaou (Pap) smears. These results constitute the first demonstration of the use of recurrent neural networks for holographic imaging and phase recovery, and compared with existing methods, the presented approach improves the reconstructed image quality, while also increasing the depth-of-field and inference speed.
翻訳日:2021-04-05 00:38:23 公開日:2021-02-12
# 自己教師付きマルチセンサ変化検出

Self-supervised Multisensor Change Detection ( http://arxiv.org/abs/2103.05102v1 )

ライセンス: Link先を確認
Sudipan Saha, Patrick Ebel, Xiao Xiang Zhu(参考訳) マルチモーダルおよびマルチセンサーデータ分析は、機械学習研究の長年の目標である。 本稿では,バイタイム衛星画像における自己教師あり変化検出の文脈で,マルチセンサ解析を再考する。 ほとんどの変化検出方法は、前変化画像と後変化画像が同一のセンサによって取得されると仮定する。 しかし, 自然災害などの現実的なシナリオでは, 発生前後の最新の画像を使用する方が現実的であり, 異なるセンサを用いて取得することができる。 特に,光学式開口レーダと合成開口レーダ(SAR)センサーで得られた画像の組み合わせに関心がある。 光画像はコンピュータビジョンの自然なイメージに似ているが、同じシーンを撮影しても、SAR画像は大きく異なるように見える。 これに加えて、変更検出方法は、ターゲットイメージペアのみの使用、ラベル付きデータ、追加のラベル付きデータの使用に制限されることが多い。 このような制約は、従来の教師付き機械学習と、マルチセンサー変化検出のための教師なし生成アプローチの範囲を制限する。 近年の自己教師付き学習手法の急速な発展は、その一部がごく少数の画像で機能することさえ示している。 そこで本研究では,深層クラスタリングとコントラスト学習を用いて,ネットワークを自己教師付きで訓練するために使用されるラベルなし標的バイタイム画像のみを用いたマルチセンサ変化検出手法を提案する。 訓練されたネットワークは,変化を示すマルチモーダル衛星データを用いて評価され,自己監視手法の利点が実証された。

Multimodal and multisensor data analysis is a long-standing goal in machine learning research. In this paper we revisit multisensor analysis in context of self-supervised change detection in bi-temporal satellite images. Most change detection methods assume that pre-change and post-change images are acquired by the same sensor. However, in many real-life scenarios, e.g., natural disaster, it is more practical to use the latest available images before and after the occurrence of incidence, which may be acquired using different sensors. In particular, we are interested in the combination of the images acquired by optical and Synthetic Aperture Radar (SAR) sensors. While optical images are like the natural images dealt in computer vision, SAR images appear vastly different even when capturing the same scene. Adding to this, change detection methods are often constrained to use only target image-pair, no labeled data, and no additional unlabeled data. Such constraints limit the scope of traditional supervised machine learning and unsupervised generative approaches for multi-sensor change detection. Recent rapid development of self-supervised learning methods has shown that some of them can even work with only few images. Motivated by this, in this work we propose a method for multi-sensor change detection using only the unlabeled target bi-temporal images that are used for training a network in self-supervised fashion by using deep clustering and contrastive learning. The trained network is evaluated on multi-modal satellite data showing change and the benefits of our self-supervised approach are demonstrated.
翻訳日:2021-04-05 00:38:07 公開日:2021-02-12
# 多因子最適化におけるクラスタ化短絡木問題に対する二段階符号化方式

A bi-level encoding scheme for the clustered shortest-path tree problem in multifactorial optimization ( http://arxiv.org/abs/2102.09954v1 )

ライセンス: Link先を確認
Huynh Thi Thanh Binh, Ta Bao Thang, Nguyen Duc Thai, Pham Dinh Thanh(参考訳) CluSPT(Clustered Shortest-Path Tree Problem)は、実生活における様々な最適化問題において重要な役割を果たしている。 近年、CluSPTを扱うためにMFEA(Multifactorial Evolutionary Algorithm)がいくつか導入されているが、これらの研究には、進化演算子が完全なグラフ上でのみ動作すること、大規模な検索空間上で解を見つけるための膨大なリソース消費など、いくつかの欠点がある。 これらの限界を克服するため,本論文では,mfeaに基づく手法を提案する。 提案手法はジクストラのアルゴリズムを用いてクラスタ内のスパンディングツリーを構築し,また進化演算子を用いてスパンディングツリー接続クラスタを構築する。 このアプローチは正確なアルゴリズムと近似アルゴリズムの両方を利用するので、アルゴリズムは完全かつスパースなグラフでも効率的に機能することができる。 さらに、個々のエンコーディングやデコードといった進化的演算子も、パフォーマンスやメモリ使用について非常に考慮して設計されている。 我々は,すべてのソリューションが有効であることを保証するための補修方法の有効性の実証を行った。 提案手法の有効性を評価するため,様々な種類のユークリッドインスタンスについて実験を行った。 実験結果から,既存のヒューリスティックアルゴリズムの有効性が示唆された。 また,提案するmfeaの影響を解析し,今後の研究に有用である可能性が示唆された。

The Clustered Shortest-Path Tree Problem (CluSPT) plays an important role in various types of optimization problems in real-life. Recently, some Multifactorial Evolutionary Algorithm (MFEA) have been introduced to deal with the CluSPT, however these researches still have some shortcomings such as evolution operators only perform on complete graphs, huge resource consumption for finding the solution on large search spaces. To overcome these limitations, this paper describes a MFEA-based approach to solve the CluSPT. The proposed algorithm utilizes Dijkstra's algorithm to construct the spanning trees in clusters while using evolutionary operators for building the spanning tree connecting clusters. This approach takes advantage of both exact and approximate algorithms so it enables the algorithm to function efficiently on complete and sparse graphs alike. Furthermore, evolutionary operators such as individual encoding and decoding methods are also designed with great consideration regarding performance and memory usage. We have included a proof on the repairing method's efficacy in ensuring all solutions are valid. We have conducted tests on various types of Euclidean instances to assess the effectiveness of the proposed algorithm and methods. Experiment results point out the effectiveness of the proposed algorithm existing heuristic algorithms in most of the test cases. The impact of the proposed MFEA was analyzed and a possible influential factor that may be useful for further study was also pointed out.
翻訳日:2021-04-05 00:36:49 公開日:2021-02-12
# (参考訳) 胸部CTスキャンによるCOVID-19検出のための3次元ディープラーニングモデルの自動設計とベンチマーク [全文訳有]

Automated Model Design and Benchmarking of 3D Deep Learning Models for COVID-19 Detection with Chest CT Scans ( http://arxiv.org/abs/2101.05442v2 )

ライセンス: CC BY 4.0
Xin He, Shihao Wang, Xiaowen Chu, Shaohuai Shi, Jiangping Tang, Xin Liu, Chenggang Yan, Jiyong Zhang, Guiguang Ding(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、数カ月にわたって世界中に広がった。 その透過性と高い病原性は人々の生命を脅かすため、正確かつ迅速に新型コロナウイルスの感染を検知することが重要である。 近年の研究では、ディープラーニング(DL)ベースのソリューションが、胸部CTスキャンに基づく新型コロナウイルスの検出に役立つことが示されている。 しかし、既存の研究のほとんどは2Dデータセットに焦点を当てており、実際のCTスキャンは3D画像であるため、品質の低いモデルになる可能性がある。 さらに、報告された結果は、比較的不公平な比較で異なるデータセットの幅広いスペクトルにまたがっている。 本稿では,まず最先端3Dモデル(ResNet3D101,DenseNe t3D121,MC3\_18)を用いて,3つの胸部CTスキャンデータセットのベースライン性能を確立する。 そこで我々は,Gumbel Softmax法を用いて3次元胸部CTスキャンのための3次元DLモデルを自動的に検索し,探索効率を向上させるために,識別可能なニューラルアーキテクチャ探索(DNAS)フレームワークを提案する。 さらに、モデル上でのクラス活性化マッピング(CAM)技術を活用し、結果の解釈可能性を提供する。 実験の結果, 自動検索モデル(CovidNet3D)は, モデルサイズが数十倍小さく, 精度が高い3つのデータセット上で, ベースラインの人間設計モデルよりも優れていた。 さらに、CAMがCOVID-19データセットのCovidNet3Dにうまく適用でき、診断の解釈が可能であることも確認された。

The COVID-19 pandemic has spread globally for several months. Because its transmissibility and high pathogenicity seriously threaten people's lives, it is crucial to accurately and quickly detect COVID-19 infection. Many recent studies have shown that deep learning (DL) based solutions can help detect COVID-19 based on chest CT scans. However, most existing work focuses on 2D datasets, which may result in low quality models as the real CT scans are 3D images. Besides, the reported results span a broad spectrum on different datasets with a relatively unfair comparison. In this paper, we first use three state-of-the-art 3D models (ResNet3D101, DenseNet3D121, and MC3\_18) to establish the baseline performance on the three publicly available chest CT scan datasets. Then we propose a differentiable neural architecture search (DNAS) framework to automatically search for the 3D DL models for 3D chest CT scans classification with the Gumbel Softmax technique to improve the searching efficiency. We further exploit the Class Activation Mapping (CAM) technique on our models to provide the interpretability of the results. The experimental results show that our automatically searched models (CovidNet3D) outperform the baseline human-designed models on the three datasets with tens of times smaller model size and higher accuracy. Furthermore, the results also verify that CAM can be well applied in CovidNet3D for COVID-19 datasets to provide interpretability for medical diagnosis.
翻訳日:2021-03-29 09:52:25 公開日:2021-02-12
# GO-Finder:ハンドヘルド物体発見による失われた物体の発見を支援する登録不要ウェアラブルシステム

GO-Finder: A Registration-Free Wearable System for Assisting Users in Finding Lost Objects via Hand-Held Object Discovery ( http://arxiv.org/abs/2101.07314v2 )

ライセンス: Link先を確認
Takuma Yagi, Takumi Nishiyasu, Kunimasa Kawasaki, Moe Matsuki, Yoichi Sato(参考訳) 人々は失われたオブジェクトを探すのに膨大な時間と労力を費やします。 失われた物体の位置を人々に思い出させるため、その位置に関する情報を提供する様々な計算システムが開発されている。 しかし、オブジェクトを見つけるのを支援する以前のシステムは、ユーザーが事前にターゲットオブジェクトを登録する必要がある。 この要件はユーザーに厄介な負担を課し、システムが予期しないほど失われているオブジェクトを思い出させるのに役立ちません。 GO-Finder(ジェネリックオブジェクトファインダ)は,ハンドヘルドオブジェクトの自動検出と画像ベースの候補選択という2つの重要な特徴に基づいて,任意の数のオブジェクトを見つけるのを支援する,登録不要なウェアラブルカメラベースのシステムである。 ウェアラブルカメラから撮影したビデオから、Go-Finderは手持ちのオブジェクトを自動的に検出してグループ化し、オブジェクトの視覚的タイムラインを形成する。 ユーザーはスマートフォンアプリでタイムラインを閲覧することでオブジェクトの最後の外観を検索できる。 本研究では,GO-Finderの使用による利用者のメリットを調査し,オブジェクト検索作業における精度の向上と精神的負担の軽減を目標とした。

People spend an enormous amount of time and effort looking for lost objects. To help remind people of the location of lost objects, various computational systems that provide information on their locations have been developed. However, prior systems for assisting people in finding objects require users to register the target objects in advance. This requirement imposes a cumbersome burden on the users, and the system cannot help remind them of unexpectedly lost objects. We propose GO-Finder ("Generic Object Finder"), a registration-free wearable camera based system for assisting people in finding an arbitrary number of objects based on two key features: automatic discovery of hand-held objects and image-based candidate selection. Given a video taken from a wearable camera, Go-Finder automatically detects and groups hand-held objects to form a visual timeline of the objects. Users can retrieve the last appearance of the object by browsing the timeline through a smartphone app. We conducted a user study to investigate how users benefit from using GO-Finder and confirmed improved accuracy and reduced mental load regarding the object search task by providing clear visual cues on object locations.
翻訳日:2021-03-27 05:50:59 公開日:2021-02-12
# (参考訳) コントラストのない自己指導型学習ダイナミクスの理解 [全文訳有]

Understanding self-supervised Learning Dynamics without Contrastive Pairs ( http://arxiv.org/abs/2102.06810v1 )

ライセンス: CC BY 4.0
Yuandong Tian and Xinlei Chen and Surya Ganguli(参考訳) 自己監視学習(SSL)に対する対照的なアプローチは、同じデータポイント(正のペア)の2つの拡張ビュー間の距離を最小化し、異なるデータポイント(負のペア)から同じことを最大化することによって表現を学びます。 しかし、最近の byol や simsiam のようなアプローチは、負のペアを使わずに驚くべき性能を示し、基本的な理論的疑問を提起している。 単純線形ネットワークにおける非コントラストSSLの非線形学習ダイナミクスについて検討する。 私たちの分析は、非コントラストSSLメソッドがどのように学習し、表現の崩壊を避けるか、予測ネットワーク、停止勾配、指数移動平均、および重量崩壊などの複数の要因がどのように機能するかについての概念的な洞察を与えます。 この単純な理論は、stl-10とimagenetの両方における実世界のアブレーション研究の結果を再要約する。 さらに,本理論の動機付けとして,入力の統計値に基づいて予測器を設定する新しい手法を提案する。 線形予測器の場合、この手法は予測器の勾配トレーニングを5\%$で上回り、imagenetではバッチノルムを用いたより複雑な2層非線形予測器と比較可能である。 コードはhttps://github.com/f acebookresearch/luck matters/tree/master/ sslでリリースされる。

Contrastive approaches to self-supervised learning (SSL) learn representations by minimizing the distance between two augmented views of the same data point (positive pairs) and maximizing the same from different data points (negative pairs). However, recent approaches like BYOL and SimSiam, show remarkable performance {\it without} negative pairs, raising a fundamental theoretical question: how can SSL with only positive pairs avoid representational collapse? We study the nonlinear learning dynamics of non-contrastive SSL in simple linear networks. Our analysis yields conceptual insights into how non-contrastive SSL methods learn, how they avoid representational collapse, and how multiple factors, like predictor networks, stop-gradients, exponential moving averages, and weight decay all come into play. Our simple theory recapitulates the results of real-world ablation studies in both STL-10 and ImageNet. Furthermore, motivated by our theory we propose a novel approach that \emph{directly} sets the predictor based on the statistics of its inputs. In the case of linear predictors, our approach outperforms gradient training of the predictor by $5\%$ and on ImageNet it performs comparably with more complex two-layer non-linear predictors that employ BatchNorm. Code is released in https://github.com/f acebookresearch/luck matters/tree/master/ ssl.
翻訳日:2021-02-17 18:48:27 公開日:2021-02-12
# (参考訳) MIMIC-IF:MIMIC-IVデータセットを用いたディープラーニングモデルの解釈性と公平性評価 [全文訳有]

MIMIC-IF: Interpretability and Fairness Evaluation of Deep Learning Models on MIMIC-IV Dataset ( http://arxiv.org/abs/2102.06761v1 )

ライセンス: CC BY 4.0
Chuizheng Meng, Loc Trinh, Nan Xu, Yan Liu(参考訳) 最近の大規模医療データセットのリリースは、医療アプリケーションのためのデータ駆動ディープラーニングモデルの研究を大いに推進した。 しかし、このような深いブラックボックスモデルの性質から、人間の命がかかっている医療シナリオにおける解釈可能性、公平性、偏見に対する懸念は、データセットとモデルの両方を慎重に徹底的に検査することを要求する。 本研究では、最大の公開医療データセットであるMIMIC-IV(Medical Information Mart for Intensive Care, Version IV)に焦点を当て、病院内死亡予測のためのディープラーニングモデルの解釈可能性および予測公平性だけでなく、データセット表現バイアスの包括的な分析を行う。 解釈可能性の観点からは,(1)最良な解釈方法が様々な予測モデルにおいて致命率予測の重要な特徴を同定し,(2)人口統計学的特徴が予測に重要であることを観察する。 公平性の観点からは,(1) 民族, 性別, 年齢を問わず, 患者集団に機械的換気を規定する異なる治療法が存在すること, (2) 調査対象の死亡予測器は概ね公平である一方で, IMV-LSTM(Interpretab le Multi-Variable Long Short-Term Memory)モデルでは, 全ての保護群で最も正確で偏りのない予測が提供される。 さらに,解釈可能性法と公正度指標との具体的な関係を,解釈可能性法による特徴の重要性が,死亡予測器の潜在的な相違の定量化に有効であることを示す。

The recent release of large-scale healthcare datasets has greatly propelled the research of data-driven deep learning models for healthcare applications. However, due to the nature of such deep black-boxed models, concerns about interpretability, fairness, and biases in healthcare scenarios where human lives are at stake call for a careful and thorough examinations of both datasets and models. In this work, we focus on MIMIC-IV (Medical Information Mart for Intensive Care, version IV), the largest publicly available healthcare dataset, and conduct comprehensive analyses of dataset representation bias as well as interpretability and prediction fairness of deep learning models for in-hospital mortality prediction. In terms of interpretabilty, we observe that (1) the best performing interpretability method successfully identifies critical features for mortality prediction on various prediction models; (2) demographic features are important for prediction. In terms of fairness, we observe that (1) there exists disparate treatment in prescribing mechanical ventilation among patient groups across ethnicity, gender and age; (2) all of the studied mortality predictors are generally fair while the IMV-LSTM (Interpretable Multi-Variable Long Short-Term Memory) model provides the most accurate and unbiased predictions across all protected groups. We further draw concrete connections between interpretability methods and fairness metrics by showing how feature importance from interpretability methods can be beneficial in quantifying potential disparities in mortality predictors.
翻訳日:2021-02-17 16:42:17 公開日:2021-02-12
# (参考訳) ラデマッハ複雑性とシャノンエントロピーに基づくAIの不確かさ [全文訳有]

AI Uncertainty Based on Rademacher Complexity and Shannon Entropy ( http://arxiv.org/abs/2102.07638v1 )

ライセンス: CC BY 4.0
Mingyong Zhou(参考訳) 本稿では,古典的ラデマッハ複雑性とシャノンエントロピーに基づくパターン分類におけるAIの不確実性,キャパシティ,進化に関する理論的および実践的な議論を,通信チャネル符号化の観点から提示する。 最初のAI能力は通信チャネルで定義されます。 古典的ラデマッハ複雑性とシャノンエントロピーは、ラデマッハ複雑性によって測定される複雑性のパターン分類問題を考えると、それらの定義と密接に関連していることが定性的に示される。 第2に、通信符号化に関するシャノンの数学的理論に基づいて、分類問題においてゼロに近づくAIの誤差率に十分な、必要な条件を導出する。 本稿では、Shannonエントロピーの1/2基準を導出し、エラー率がゼロに近づいたり、AIパターン分類問題でゼロになったりする。 最後に、誤り率がゼロに近い、またはゼロであるAIパターン分類の例を提供することで、分析と理論を示します。

In this paper from communication channel coding perspective we are able to present both a theoretical and practical discussion of AI's uncertainty, capacity and evolution for pattern classification based on the classical Rademacher complexity and Shannon entropy. First AI capacity is defined as in communication channels. It is shown qualitatively that the classical Rademacher complexity and Shannon entropy used in communication theory is closely related by their definitions, given a pattern classification problem with a complexity measured by Rademacher complexity. Secondly based on the Shannon mathematical theory on communication coding, we derive several sufficient and necessary conditions for an AI's error rate approaching zero in classifications problems. A 1/2 criteria on Shannon entropy is derived in this paper so that error rate can approach zero or is zero for AI pattern classification problems. Last but not least, we show our analysis and theory by providing examples of AI pattern classifications with error rate approaching zero or being zero.
翻訳日:2021-02-17 15:50:44 公開日:2021-02-12
# (参考訳) ニューラルネットワークライブラリ - エンジニアの視点から設計されたディープラーニングフレームワーク [全文訳有]

Neural Network Libraries: A Deep Learning Framework Designed from Engineers' Perspectives ( http://arxiv.org/abs/2102.06725v1 )

ライセンス: CC BY 4.0
Akio Hayakawa, Masato Ishii, Yoshiyuki Kobayashi, Akira Nakamura, Takuya Narihira, Yukio Obuchi, Andrew Shin, Takuya Yashima, Kazuki Yoshiyama(参考訳) ディープラーニングツールやフレームワークは数多く存在するが、この分野の急速に増加する複雑さは、より柔軟なネットワーク設計、分散設定の高速な計算、さまざまなツール間の互換性など、新たな要求と課題をもたらす。 本稿では,ニューラルネットワークライブラリ(https://nnabla.org) について,ユーザビリティと互換性を重視した,エンジニアの視点から設計されたディープラーニングフレームワークについて紹介する。 私たちはそれぞれの設計原則とそのメリットを詳しく説明し、実験を通じて試みを検証する。

While there exist a plethora of deep learning tools and frameworks, the fast-growing complexity of the field brings new demands and challenges, such as more flexible network design, speedy computation on distributed setting, and compatibility between different tools. In this paper, we introduce Neural Network Libraries (https://nnabla.org) , a deep learning framework designed from engineer's perspective, with emphasis on usability and compatibility as its core design principles. We elaborate on each of our design principles and its merits, and validate our attempts via experiments.
翻訳日:2021-02-17 10:43:38 公開日:2021-02-12
# (参考訳) グラフニューラルネットワークにおけるデータ中毒の強化学習 [全文訳有]

Reinforcement Learning For Data Poisoning on Graph Neural Networks ( http://arxiv.org/abs/2102.06800v1 )

ライセンス: CC0 1.0
Jacob Dineen, A S M Ahsan-Ul Haque, Matthew Bielskas(参考訳) 敵対的機械学習は、訓練するモデルの堅牢性の欠如と、攻撃者がデータを改ざんできるクラウドソーシングの実践により、コンピュータサイエンスの相当なサブフィールドとして登場した。 過去2年間、グラフに対する敵対的な攻撃で関心が高まってきたが、グラフ分類設定はほとんど触れられていない。 グラフ分類データセットはクラスラベルを持つ離散グラフで構成されているため、関連する研究は間接強化学習アプローチに有利な直接勾配最適化を禁じている。 強化学習エージェントを用いたグラフ分類のためのニューラルネットワークに対するデータポゾニング(訓練時間)攻撃の新たな問題について検討する。

Adversarial Machine Learning has emerged as a substantial subfield of Computer Science due to a lack of robustness in the models we train along with crowdsourcing practices that enable attackers to tamper with data. In the last two years, interest has surged in adversarial attacks on graphs yet the Graph Classification setting remains nearly untouched. Since a Graph Classification dataset consists of discrete graphs with class labels, related work has forgone direct gradient optimization in favor of an indirect Reinforcement Learning approach. We will study the novel problem of Data Poisoning (training time) attack on Neural Networks for Graph Classification using Reinforcement Learning Agents.
翻訳日:2021-02-17 09:41:14 公開日:2021-02-12
# (参考訳) モデル認識生成学習を用いたブラインド染色分離と蛍光顕微鏡画像への応用 [全文訳有]

Blind stain separation using model-aware generative learning and its applications on fluorescence microscopy images ( http://arxiv.org/abs/2102.06802v1 )

ライセンス: CC BY 4.0
Xingyu Li(参考訳) 多重染色は通常、生体画像解析において生体物質を強調するために用いられる。 共局在定量化のための複数の汚れを分解するには、通常ブラインドソース分離を行う。 先行モデルに基づく染色分離法は通常、画像上の汚れの空間分布に依存し、共局在問題を解くことができない。 機械学習の利点により、この目的のために深い生成モデルが使用される。 画像モデルの以前の知識は純粋にデータ駆動のソリューションでは無視されるため、これらの手法は準最適である。 本研究では,バイオメディカルイメージングの物理モデルを用いて学習プロセスの標準化を行う,新たな学習ベースブラインドソース分離フレームワークを提案する。 導入されたモデル関連敵対損失は、フレームワーク内のすべてのジェネレータを結合し、生成モデルの能力を制限する。 さらに,学習中の世代間混乱を回避するため,提案フレームワークの学習アルゴリズムを改良した。 本稿では, 蛍光顕微鏡画像における蛍光アンミキシングをフレームワークの応用例として取り上げる。 一般蛍光顕微鏡画像の定性的および定量的実験により,従来のモデルに基づく手法と学習に基づく手法の両方よりも提案手法が優れていることを示す。

Multiple stains are usually used to highlight biological substances in biomedical image analysis. To decompose multiple stains for co-localization quantification, blind source separation is usually performed. Prior model-based stain separation methods usually rely on stains' spatial distributions over an image and may fail to solve the co-localization problem. With the advantage of machine learning, deep generative models are used for this purpose. Since prior knowledge of imaging models is ignored in purely data-driven solutions, these methods may be sub-optimal. In this study, a novel learning-based blind source separation framework is proposed, where the physical model of biomedical imaging is incorporated to regularize the learning process. The introduced model-relevant adversarial loss couples all generators in the framework and limits the capacities of the generative models. Further more, a training algorithm is innovated for the proposed framework to avoid inter-generator confusion during learning. This paper particularly takes fluorescence unmixing in fluorescence microscopy images as an application example of the proposed framework. Qualitative and quantitative experimentation on a public fluorescence microscopy image set demonstrates the superiority of the proposed method over both prior model-based approaches and learning-based methods.
翻訳日:2021-02-17 06:52:04 公開日:2021-02-12
# (参考訳) They, Them, Theirs: Rewriting with Gender-Neutral English [全文訳有]

They, Them, Theirs: Rewriting with Gender-Neutral English ( http://arxiv.org/abs/2102.06788v1 )

ライセンス: CC BY 4.0
Tony Sun, Kellie Webster, Apu Shah, William Yang Wang, Melvin Johnson(参考訳) レスポンシブルな技術開発には、サポートを希望する多様なユーザセットを含むアプリケーションが関与する。 この重要な部分は、人を参照する多くの方法を理解し、必要に応じてさまざまな形態を柔軟に変更できるようにすることです。 私たちは、英語でジェンダーインクルージョンを促進する一般的な方法である特異点についてケーススタディを行います。 我々は、書き直しタスクを定義し、評価ベンチマークを作成し、人間のラベル付きデータなしで、1%の単語誤り率で性別中立の英語を生成するためにモデルをどのように訓練するかを示す。 本稿では,本課題の実践的応用と倫理的考察について論じ,今後の包括的自然言語システムへの取り組みの方向性について述べる。

Responsible development of technology involves applications being inclusive of the diverse set of users they hope to support. An important part of this is understanding the many ways to refer to a person and being able to fluently change between the different forms as needed. We perform a case study on the singular they, a common way to promote gender inclusion in English. We define a re-writing task, create an evaluation benchmark, and show how a model can be trained to produce gender-neutral English with <1% word error rate with no human-labeled data. We discuss the practical applications and ethical considerations of the task, providing direction for future work into inclusive natural language systems.
翻訳日:2021-02-17 06:25:54 公開日:2021-02-12
# (参考訳) 音声認識システムにおける音韻-ニューラルハイブリッドモデルによる補正 [全文訳有]

Hybrid phonetic-neural model for correction in speech recognition systems ( http://arxiv.org/abs/2102.06744v1 )

ライセンス: CC BY 4.0
Rafael Viana-C\'amara, Mario Campos-Soberanis, Diego Campos-Sobrino(参考訳) 自動音声認識(ASR)は、アプリケーションとユーザ間の自然なコミュニケーション機構を提供するため、複数の設定において関連分野である。 ASRは特定のアプリケーションドメイン固有の言語を使用する環境で失敗することが多い。 後処理、特に自動スペルチェック、ディープラーニングアプローチを通じて、クローズドASRのエラーを減らすための戦略が検討されている。 本稿では,テレセールス音声データベースに応用した音声補正アルゴリズムの結果を,ディープニューラルネットワークを用いて詳細に検討する。 その結果, 単語誤り率 (WER) は, 単語誤り率 (WER) と音声誤り率 (音韻補正) の両方で低下し, 特定の言語領域における閉ASRによる誤りを減らすための後処理補正戦略とともに深層学習モデルの実行可能性を示した。

Automatic speech recognition (ASR) is a relevant area in multiple settings because it provides a natural communication mechanism between applications and users. ASRs often fail in environments that use language specific to particular application domains. Some strategies have been explored to reduce errors in closed ASRs through post-processing, particularly automatic spell checking, and deep learning approaches. In this article, we explore using a deep neural network to refine the results of a phonetic correction algorithm applied to a telesales audio database. The results exhibit a reduction in the word error rate (WER), both in the original transcription and in the phonetic correction, which shows the viability of deep learning models together with post-processing correction strategies to reduce errors made by closed ASRs in specific language domains.
翻訳日:2021-02-17 01:40:08 公開日:2021-02-12
# (参考訳) 学生紛争グラフを最小化するエッジ [全文訳有]

Edge Minimizing the Student Conflict Graph ( http://arxiv.org/abs/2102.06743v1 )

ライセンス: CC BY 4.0
Joshua S. Friedman(参考訳) 多くの学校ではコースが設けられている。 時間指定の前に、各セクションに学生を割り当てる必要があります。 本稿では,学生競合グラフ(scg)におけるエッジ数(ポテンシャル競合)を最小化するハイブリッド近似分割アルゴリズムを提案する。 初期解を得るための欲望のあるアルゴリズムから始めて,エッジ数を減らす制約プログラミングベースアルゴリズム(cp-sat)を継続する。 この分割アルゴリズムを,高度に制約された時間分割モデルに適用する。

In many schools, courses are given in sections. Prior to timetabling students need to be assigned to individual sections. We give a hybrid approximation sectioning algorithm that minimizes the number of edges (potential conflicts) in the student conflict graph (SCG). We start with a greedy algorithm to obtain a starting solution and then continue with a constraint programming based algorithm (CP-SAT) that reduces the number of edges. We apply the sectioning algorithm to a highly constrained timetabling model which we specify.
翻訳日:2021-02-16 22:21:26 公開日:2021-02-12
# グラフニューラルネットワークのための一元化ロッキーチケット仮説

A Unified Lottery Ticket Hypothesis for Graph Neural Networks ( http://arxiv.org/abs/2102.06790v1 )

ライセンス: Link先を確認
Tianlong Chen, Yongduo Sui, Xuxi Chen, Aston Zhang, Zhangyang Wang(参考訳) グラフのサイズが急速に増加し、より深いグラフニューラルネットワーク(GNN)が出現するにつれ、GNNのトレーニングと推論はますます高価になる。 既存のネットワークウェイトプルーニングアルゴリズムは、グラフのサイズと接続性によって引き起こされるGNNの主空間と計算ボトルネックに対処できない。 本稿ではまず,グラフ隣接行列とモデル重みを同時に生成し,大規模グラフ上でのGNN推論を効果的に高速化する統一GNNスペーシフィケーション(UGS)フレームワークを提案する。 このツールを利用することで、グラフ抽選券(GLT)をコアサブデータセットとスパースサブネットワークのペアとして定義し、元のGNNと全密度グラフとを同時適用することで、最近人気になった宝くじチケット仮説を初めてGNNに一般化する。 畳み込みニューラルネットワークのそれと同様、GLTは、トレーニングのパフォーマンスをフルモデルとグラフに一致させるために、単独でトレーニングすることが可能で、ランダムに初期化および自己教師付きGNNから引き出すことができる。 提案手法は,大規模グラフデータセット(Cora, Citeseer, PubMed)と,難易度の高いOpen Graph Benchmark(OGB)の大規模データセットを用いて,さまざまなGNNアーキテクチャや多様なタスクに対して実験的に検証されている。 具体的には,ノード分類においてGLTは20%~98%のMACを小さなグラフで保存し,25%~85%のMACを大きなグラフで保存する。 リンク予測では、GLTは予測性能を損なうことなく、小さくて大きなグラフデータセットに48%〜97%、70%のMACを節約します。 コードはhttps://github.com/V ITA-Group/Unified-LT H-GNNで入手できる。

With graphs rapidly growing in size and deeper graph neural networks (GNNs) emerging, the training and inference of GNNs become increasingly expensive. Existing network weight pruning algorithms cannot address the main space and computational bottleneck in GNNs, caused by the size and connectivity of the graph. To this end, this paper first presents a unified GNN sparsification (UGS) framework that simultaneously prunes the graph adjacency matrix and the model weights, for effectively accelerating GNN inference on large-scale graphs. Leveraging this new tool, we further generalize the recently popular lottery ticket hypothesis to GNNs for the first time, by defining a graph lottery ticket (GLT) as a pair of core sub-dataset and sparse sub-network, which can be jointly identified from the original GNN and the full dense graph by iteratively applying UGS. Like its counterpart in convolutional neural networks, GLT can be trained in isolation to match the performance of training with the full model and graph, and can be drawn from both randomly initialized and self-supervised pre-trained GNNs. Our proposal has been experimentally verified across various GNN architectures and diverse tasks, on both small-scale graph datasets (Cora, Citeseer and PubMed), and large-scale datasets from the challenging Open Graph Benchmark (OGB). Specifically, for node classification, our found GLTs achieve the same accuracies with 20%~98% MACs saving on small graphs and 25%~85% MACs saving on large ones. For link prediction, GLTs lead to 48%~97% and 70% MACs saving on small and large graph datasets, respectively, without compromising predictive performance. Codes available at https://github.com/V ITA-Group/Unified-LT H-GNN.
翻訳日:2021-02-16 16:15:22 公開日:2021-02-12
# ディープラーニングとCADモデルを用いた新しい物体検出法

A novel method for object detection using deep learning and CAD models ( http://arxiv.org/abs/2102.06729v1 )

ライセンス: Link先を確認
Igor Garcia Ballhausen Sampaio and Luigy Machaca and Jos\'e Viterbo and Joris Gu\'erin(参考訳) オブジェクト検出(OD)は、他のアプリケーションの中で生産ラインの品質管理に使用することができる業界にとって重要なコンピュータビジョンの問題です。 近年,Deep Learning (DL) 手法により,複雑な実世界の画像上でのODモデルの訓練が可能になった。 しかし、これらのモデルの採用は、高品質のトレーニングデータセットの収集の難しさと大幅なコストによって、まだ制限されています。 一方、生産ラインのコンテキストにODを適用すると、検出対象のCADモデルが利用可能になることがよくあります。 本稿では,オブジェクトのCADモデルを用いた完全自動化手法を導入し,このオブジェクトを検出するための完全に訓練されたODモデルを返す。 そこで我々は、オブジェクトを含む画像のリアルなラベル付きデータセットを生成するBlenderスクリプトを作成し、ODモデルのトレーニングに使用した。 この手法は2つの実例で実験的に検証され、合成画像のみを訓練しながら実画像上でうまく機能するodモデルを生成することができることを示した。 提案手法は,新しいオブジェクトへの適応が容易で柔軟性が高いため,産業におけるオブジェクト検出モデルの採用を促進する可能性がある。 したがって、大幅なコスト削減、生産性の向上、製品品質の向上につながります。

Object Detection (OD) is an important computer vision problem for industry, which can be used for quality control in the production lines, among other applications. Recently, Deep Learning (DL) methods have enabled practitioners to train OD models performing well on complex real world images. However, the adoption of these models in industry is still limited by the difficulty and the significant cost of collecting high quality training datasets. On the other hand, when applying OD to the context of production lines, CAD models of the objects to be detected are often available. In this paper, we introduce a fully automated method that uses a CAD model of an object and returns a fully trained OD model for detecting this object. To do this, we created a Blender script that generates realistic labeled datasets of images containing the object, which are then used for training the OD model. The method is validated experimentally on two practical examples, showing that this approach can generate OD models performing well on real images, while being trained only on synthetic images. The proposed method has potential to facilitate the adoption of object detection models in industry as it is easy to adapt for new objects and highly flexible. Hence, it can result in significant costs reduction, gains in productivity and improved products quality.
翻訳日:2021-02-16 16:13:29 公開日:2021-02-12
# meta-learned subgoalsによるオプションの発見

Discovery of Options via Meta-Learned Subgoals ( http://arxiv.org/abs/2102.06741v1 )

ライセンス: Link先を確認
Vivek Veeriah, Tom Zahavy, Matteo Hessel, Zhongwen Xu, Junhyuk Oh, Iurii Kemaev, Hado van Hasselt, David Silver, Satinder Singh(参考訳) オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。 しかしながら、このトピックに関する以前の取り組みにもかかわらず、環境とのインタラクションを通じて選択肢を見つける問題は依然として課題である。 本稿では,マルチタスクRL環境で有用な選択肢を発見するための新しいメタグラデーション手法を提案する。 私たちのアプローチは、RLエージェントのマネージャ-ワーカーの分解に基づいており、マネージャはタスクに依存しない発見オプションとプリミティブアクションの両方でタスク依存ポリシーを学び、環境からの報酬を最大化します。 各オプションのサブゴールを定義するoption-reward関数とterminate関数はニューラルネットワークとしてパラメータ化され、その有用性を最大化するためにメタ勾配を通じてトレーニングされる。 グリッドワールドとDeepMind Labタスクに関する実証分析では,(1)マルチタスクRLドメインにおける有意義で多様な時間的拡張オプションを発見できる,(2)トレーニングタスクの学習中にエージェントが頻繁に使用する,(3)ランダムに初期化したマネージャがまったく新しいタスクでより早く学習できる,といったことが示されている。

Temporal abstractions in the form of options have been shown to help reinforcement learning (RL) agents learn faster. However, despite prior work on this topic, the problem of discovering options through interaction with an environment remains a challenge. In this paper, we introduce a novel meta-gradient approach for discovering useful options in multi-task RL environments. Our approach is based on a manager-worker decomposition of the RL agent, in which a manager maximises rewards from the environment by learning a task-dependent policy over both a set of task-independent discovered-options and primitive actions. The option-reward and termination functions that define a subgoal for each option are parameterised as neural networks and trained via meta-gradients to maximise their usefulness. Empirical analysis on gridworld and DeepMind Lab tasks show that: (1) our approach can discover meaningful and diverse temporally-extended options in multi-task RL domains, (2) the discovered options are frequently used by the agent while learning to solve the training tasks, and (3) that the discovered options help a randomly initialised manager learn faster in completely new tasks.
翻訳日:2021-02-16 16:12:08 公開日:2021-02-12
# 適応エントロピー木探索を用いたロバストで効率的な計画法

Robust and Efficient Planning using Adaptive Entropy Tree Search ( http://arxiv.org/abs/2102.06808v1 )

ライセンス: Link先を確認
Piotr Kozakowski, Miko{\l}aj Pacek, Piotr Mi{\l}o\'s(参考訳) 本稿では,Adaptive EntropyTree Search (ANTS)アルゴリズムを提案する。 ANTSは、温度設定に対する感度 - その間違いなく大きな欠点を緩和しながら、最大エントロピー計画の最近の成功に基づいています。 ANTSには、計画ツリーのノードで指定された範囲のアクション選択エントロピーに一致するように温度を適応させるメカニズムがあります。 このメカニズムにより、ANTSプランナーは目覚ましいハイパーパラメータの堅牢性を享受し、Atariベンチマークで高いスコアを獲得し、AlphaZeroに似た計画学習ループの有能なコンポーネントである。 これらの機能はすべて、複雑なタスクのための一般的なプランナーにとって魅力的な選択肢であると考えています。

In this paper, we present the Adaptive EntropyTree Search (ANTS) algorithm. ANTS builds on recent successes of maximum entropy planning while mitigating its arguably major drawback - sensitivity to the temperature setting. We endow ANTS with a mechanism, which adapts the temperature to match a given range of action selection entropy in the nodes of the planning tree. With this mechanism, the ANTS planner enjoys remarkable hyper-parameter robustness, achieves high scores on the Atari benchmark, and is a capable component of a planning-learning loop akin to AlphaZero. We believe that all these features make ANTS a compelling choice for a general planner for complex tasks.
翻訳日:2021-02-16 16:11:45 公開日:2021-02-12
# Demystifying Inductive Biases for $\beta$-VAE based Architectures

Demystifying Inductive Biases for $\beta$-VAE Based Architectures ( http://arxiv.org/abs/2102.06822v1 )

ライセンス: Link先を確認
Dominik Zietlow, Michal Rolinek, Georg Martius(参考訳) $\beta$-Variational- Autoencoders ($\beta$-VAEs)のパフォーマンスと、意味的に意味のある、非絡み合った表現の学習におけるそれらの変形は比類のないものである。 一方、非監視的な束縛の不可能を示唆する理論的な議論がある。 この研究では、VAEベースのアーキテクチャの成功に責任を持つ帰納バイアスに光を当てた。 古典的なデータセットでは, 生成因子によって誘導される分散構造は, VAEの目的によって促進される潜伏方向と都合よく一致していることを示す。 これは、VAEの解き放つ能力が依存する重要なバイアスを構築します。 既存のデータセットの小さく精巧な摂動によって、様々なアーキテクチャで容易に活用できる便利な相関構造を隠蔽する。 これを実証するために, (i) 生成因子が完全に保存された標準データセットの修正版を構築し, (ii) 画像はばらつきの小さな変化を引き起こす穏やかな変換を行う。 (iii) 先行する \textbf{vae-based disentanglement architectures は,非変数法の性能が変わらず, 異角表現を生成しない。 我々の修正の構成は自明で、$\beta$-vaes の機械的な理解と pca への接続の最近の進歩に依存している。 私たちは、独立した関心を持つ追加の洞察を提供することで、このつながりを強化します。

The performance of $\beta$-Variational- Autoencoders ($\beta$-VAEs) and their variants on learning semantically meaningful, disentangled representations is unparalleled. On the other hand, there are theoretical arguments suggesting the impossibility of unsupervised disentanglement. In this work, we shed light on the inductive bias responsible for the success of VAE-based architectures. We show that in classical datasets the structure of variance, induced by the generating factors, is conveniently aligned with the latent directions fostered by the VAE objective. This builds the pivotal bias on which the disentangling abilities of VAEs rely. By small, elaborate perturbations of existing datasets, we hide the convenient correlation structure that is easily exploited by a variety of architectures. To demonstrate this, we construct modified versions of standard datasets in which (i) the generative factors are perfectly preserved; (ii) each image undergoes a mild transformation causing a small change of variance; (iii) the leading \textbf{VAE-based disentanglement architectures fail to produce disentangled representations whilst the performance of a non-variational method remains unchanged}. The construction of our modifications is nontrivial and relies on recent progress on mechanistic understanding of $\beta$-VAEs and their connection to PCA. We strengthen that connection by providing additional insights that are of stand-alone interest.
翻訳日:2021-02-16 16:11:33 公開日:2021-02-12
# Agnostic Corrupted Supervision による深層ニューラルネットワークの学習

Learning Deep Neural Networks under Agnostic Corrupted Supervision ( http://arxiv.org/abs/2102.06735v1 )

ライセンス: Link先を確認
Boyang Liu, Mengying Sun, Ding Wang, Pang-Ning Tan, Jiayu Zhou(参考訳) 破損したデータポイントが一般化のパフォーマンスに大きく影響する可能性があるため、破損した監督の存在下で深い神経モデルを訓練することは困難です。 この問題を解決するために,汚職の種類を前提とせずに強力な保証を実現する効率的なロバストアルゴリズムを提案し,分類問題と回帰問題の両方に対する統一フレームワークを提供する。 データポイントの品質(例えば、個々の損失値に基づいて)を定量化し、それに従ってフィルタリングする既存のアプローチとは異なり、提案アルゴリズムは平均勾配に対するデータポイントの集合的影響を制御することに重点を置いている。 破損したデータポイントがアルゴリズムによって除外されない場合でも、データポイントは損失値に基づく最先端のフィルタリング手法と比較して、全体的な損失に非常に限定的な影響を与える。 複数のベンチマークデータセットに関する広範な実験は、異なる種類の破損下でのアルゴリズムの堅牢性を示した。

Training deep neural models in the presence of corrupted supervision is challenging as the corrupted data points may significantly impact the generalization performance. To alleviate this problem, we present an efficient robust algorithm that achieves strong guarantees without any assumption on the type of corruption and provides a unified framework for both classification and regression problems. Unlike many existing approaches that quantify the quality of the data points (e.g., based on their individual loss values), and filter them accordingly, the proposed algorithm focuses on controlling the collective impact of data points on the average gradient. Even when a corrupted data point failed to be excluded by our algorithm, the data point will have a very limited impact on the overall loss, as compared with state-of-the-art filtering methods based on loss values. Extensive experiments on multiple benchmark datasets have demonstrated the robustness of our algorithm under different types of corruption.
翻訳日:2021-02-16 16:06:56 公開日:2021-02-12
# INSTA-YOLO:リアルタイムインスタンスセグメンテーション

INSTA-YOLO: Real-Time Instance Segmentation ( http://arxiv.org/abs/2102.06777v1 )

ライセンス: Link先を確認
Eslam Mohamed, Abdelrahman Shaker, Hazem Rashed, Ahmad El-Sallab, Mayada Hadhoud(参考訳) インスタンスセグメンテーションは、さまざまなコンピュータビジョンアプリケーションで最近大きな注目を集めています。 同じクラスに属する場合でも、シーンのさまざまなオブジェクトに異なるIDを提供することを目指しています。 インスタンスセグメンテーションは通常、2段階のパイプラインとして実行される。 まず、オブジェクトを検出し、検出されたボックス領域内のセマンティックセグメンテーションを行い、コストのかかるアップサンプリングを行う。 本稿では,リアルタイムインスタンス分割のための一段階のエンドツーエンドディープラーニングモデルであるInsta-YOLOを提案する。 ピクセル単位で予測する代わりに、モデルはデカルト空間の2dポイントで表されるオブジェクトの輪郭としてインスタンスを予測する。 当社のモデルは,Carvana,Cityscapes, Airbusの3つのデータセットで評価する。 結果は、例のセグメンテーションの最先端モデルと比較します。 その結果,GTX-1080 GPUの2倍の速度でmAPの競合精度が得られた。

Instance segmentation has gained recently huge attention in various computer vision applications. It aims at providing different IDs to different objects of the scene, even if they belong to the same class. Instance segmentation is usually performed as a two-stage pipeline. First, an object is detected, then semantic segmentation within the detected box area is performed which involves costly up-sampling. In this paper, we propose Insta-YOLO, a novel one-stage end-to-end deep learning model for real-time instance segmentation. Instead of pixel-wise prediction, our model predicts instances as object contours represented by 2D points in Cartesian space. We evaluate our model on three datasets, namely, Carvana,Cityscapes and Airbus. We compare our results to the state-of-the-art models for instance segmentation. The results show our model achieves competitive accuracy in terms of mAP at twice the speed on GTX-1080 GPU.
翻訳日:2021-02-16 16:03:04 公開日:2021-02-12
# 公正なニューラルネットワークの訓練に関する技術的課題

Technical Challenges for Training Fair Neural Networks ( http://arxiv.org/abs/2102.06764v1 )

ライセンス: Link先を確認
Valeriia Cherepanova and Vedant Nanda and Micah Goldblum and John P. Dickerson and Tom Goldstein(参考訳) 機械学習アルゴリズムはアプリケーション間で広く展開されているため、その予測の公平性、特に高利害率設定(顔認識や医用画像など)に関して多くの懸念が持ち上がっている。 これらの懸念に対応するため、コミュニティは公平さの様々な概念と不公平な行動の是正方法を提案し、定式化した。 古典モデルでは公平性の制約が広く研究されているが、深層ニューラルネットワークに公平性を与える方法の有効性は不明である。 本稿では,これらのモデルが公平性目標に過度に適合し,意図しない,望ましくない結果をもたらすことを観察する。 最先端のアーキテクチャを用いて顔認識と自動診断データセットの実験を行っています。

As machine learning algorithms have been widely deployed across applications, many concerns have been raised over the fairness of their predictions, especially in high stakes settings (such as facial recognition and medical imaging). To respond to these concerns, the community has proposed and formalized various notions of fairness as well as methods for rectifying unfair behavior. While fairness constraints have been studied extensively for classical models, the effectiveness of methods for imposing fairness on deep neural networks is unclear. In this paper, we observe that these large models overfit to fairness objectives, and produce a range of unintended and undesirable consequences. We conduct our experiments on both facial recognition and automated medical diagnosis datasets using state-of-the-art architectures.
翻訳日:2021-02-16 16:01:44 公開日:2021-02-12
# ハイブリッドダイナミクスモデリングのためのラグランジアンニューラルネットワークとハミルトンニューラルネットワークの拡張可能な接触モデル

A Differentiable Contact Model to Extend Lagrangian and Hamiltonian Neural Networks for Modeling Hybrid Dynamics ( http://arxiv.org/abs/2102.06794v1 )

ライセンス: Link先を確認
Yaofeng Desmond Zhong, Biswadip Dey, Amit Chakraborty(参考訳) 適切な帰納バイアスの導入は、データからダイナミクスを学ぶ上で重要な役割を果たす。 ラグランジアンまたはハミルトン力学をニューラルネットワークアーキテクチャの設計に組み込むことにより、学習されたダイナミクスにおけるエネルギー保存を強制する方法を模索しています。 しかし、これらの既存のアプローチは微分方程式に基づいており、状態の連続性を許さないため、学習できるシステムのクラスが制限される。 レッグロボットやロボットマニピュレーターなどの実際のシステムは、接触と衝突を伴い、州内での不連続性をもたらします。 本論文では,非摩擦と摩擦,弾性と非弾性の両方の接触力学を捕捉できる微分可能な接触モデルを提案する。 このモデルは、関節角度の限界のような不等式制約も満たすことができる。 提案する接触モデルはラグランジアンとハミルトンのニューラルネットワークの範囲を広げ、接触特性とシステム特性の同時学習を可能にする。 この枠組みは, 再構成係数と摩擦係数の異なる, 一連の挑戦的な2次元および3次元物理系上で実証する。

The incorporation of appropriate inductive bias plays a critical role in learning dynamics from data. A growing body of work has been exploring ways to enforce energy conservation in the learned dynamics by incorporating Lagrangian or Hamiltonian dynamics into the design of the neural network architecture. However, these existing approaches are based on differential equations, which does not allow discontinuity in the states, and thereby limits the class of systems one can learn. Real systems, such as legged robots and robotic manipulators, involve contacts and collisions, which introduce discontinuities in the states. In this paper, we introduce a differentiable contact model, which can capture contact mechanics, both frictionless and frictional, as well as both elastic and inelastic. This model can also accommodate inequality constraints, such as limits on the joint angles. The proposed contact model extends the scope of Lagrangian and Hamiltonian neural networks by allowing simultaneous learning of contact properties and system properties. We demonstrate this framework on a series of challenging 2D and 3D physical systems with different coefficients of restitution and friction.
翻訳日:2021-02-16 16:01:32 公開日:2021-02-12
# Kronecker-factored Quasi-Newton Methods for Convolutional Neural Networks

Kronecker-factored Quasi-Newton Methods for Convolutional Neural Networks ( http://arxiv.org/abs/2102.06737v1 )

ライセンス: Link先を確認
Yi Ren, Donald Goldfarb(参考訳) 二階法は一階法よりも豊かな曲率情報を用いることで最適化を加速する能力を持つ。 しかしながら、トレーニングパラメータの数が非常に多い深層学習環境では、ほとんどが非現実的です。 本稿では,畳み込みニューラルネットワーク(cnns)を学習するための,kf-qn-cnnを提案する。ここでは,ヘシアンは層毎ブロック対角行列で近似し,各層の対角ブロックは,その層に制限されたヘシアンの構造に対応するクロネッカー積で近似する。 比較的穏やかな条件下でのKF-QN-CNNの変種に対して,BFGSの新しい減衰・ヘシアン作用技術は,CNNモデルにおけるKronecker行列の非凸性と特に大きなサイズを扱うように設計されている。 KF-QN-CNNは1次法に匹敵するメモリ要件を持ち、従来の2次法よりも時間単位の複雑さがはるかに少ない。 KF-QN-CNNは,いくつかのCNNモデルにおける最先端の1次・2次手法と比較して,全ての試験において優れた性能を示した。

Second-order methods have the capability of accelerating optimization by using much richer curvature information than first-order methods. However, most are impractical in a deep learning setting where the number of training parameters is huge. In this paper, we propose KF-QN-CNN, a new Kronecker-factored quasi-Newton method for training convolutional neural networks (CNNs), where the Hessian is approximated by a layer-wise block diagonal matrix and each layer's diagonal block is further approximated by a Kronecker product corresponding to the structure of the Hessian restricted to that layer. New damping and Hessian-action techniques for BFGS are designed to deal with the non-convexity and the particularly large size of Kronecker matrices in CNN models and convergence results are proved for a variant of KF-QN-CNN under relatively mild conditions. KF-QN-CNN has memory requirements comparable to first-order methods and much less per-iteration time complexity than traditional second-order methods. Compared with state-of-the-art first- and second-order methods on several CNN models, KF-QN-CNN consistently exhibited superior performance in all of our tests.
翻訳日:2021-02-16 15:59:06 公開日:2021-02-12
# 深層学習におけるランダム行列理論の適用性

Applicability of Random Matrix Theory in Deep Learning ( http://arxiv.org/abs/2102.06740v1 )

ライセンス: Link先を確認
Nicholas P Baskerville and Diego Granziol and Jonathan P Keating(参考訳) 人工ニューラルネットワークの損失面ヘッシアンの局所スペクトル統計を調査し、ガウス直交エンサンブル統計といくつかのネットワークアーキテクチャとデータセットの優れた一致を発見した。 これらの結果は、ニューラルネットワークのモデリングに対するランダム行列理論の適用可能性に新たな光を当て、ディープラーニングにおける損失面の研究において、これまで認識されていなかった役割を示唆している。 これらの観測から着想を得た本研究では,重み空間における距離関数としての損失勾配の増大を予測し,ヘッシアンスペクトル密度をランクデジェネラシーとアウトプライヤで実現する,ニューラルネットワークの真の損失面に関する新しいモデルを提案する。 我々はさらに,ニューラルネットワークにおける真の損失面の重要性を検証し,これまでの研究とは対照的に,グローバル最小の探索の指数的困難さは,芸術性能の達成に実際的な効果をもたらすことを見出した。

We investigate the local spectral statistics of the loss surface Hessians of artificial neural networks, where we discover excellent agreement with Gaussian Orthogonal Ensemble statistics across several network architectures and datasets. These results shed new light on the applicability of Random Matrix Theory to modelling neural networks and suggest a previously unrecognised role for it in the study of loss surfaces in deep learning. Inspired by these observations, we propose a novel model for the true loss surfaces of neural networks, consistent with our observations, which allows for Hessian spectral densities with rank degeneracy and outliers, extensively observed in practice, and predicts a growing independence of loss gradients as a function of distance in weight-space. We further investigate the importance of the true loss surface in neural networks and find, in contrast to previous work, that the exponential hardness of locating the global minimum has practical consequences for achieving state of the art performance.
翻訳日:2021-02-16 15:58:38 公開日:2021-02-12
# パラメータフリー局所加速条件勾配

Parameter-free Locally Accelerated Conditional Gradients ( http://arxiv.org/abs/2102.06806v1 )

ライセンス: Link先を確認
Alejandro Carderera, Jelena Diakonikolas, Cheuk Yin Lin, Sebastian Pokutta(参考訳) プロジェクションフリー条件勾配(CG)法は、プロジェクションがしばしば計算的に禁止されるが、制約セットに対する線形最適化が計算的に可能であるような制約付き最適化のアルゴリズムである。 プロジェクションベースの方法とは異なり、グローバルに加速された収束率は一般的にCGでは実現できない。 しかし, 局所加速CG (LaCG) に関する最近の研究は, CGの局所加速度が多くの興味ある設定で可能であることを実証している。 LaCGの主な欠点は、目的関数の滑らかさと強い凸性パラメータの知識を必要とすることである。 パラメータフリー局所加速CG(PF-LaCG)アルゴリズムを導入し,厳密な収束を保証することにより,この制限を解消する。 我々の理論結果は, 局所加速度を実証する数値実験によって補完され, 繰り返し回数とウォールクロック時間の両方において, 非加速アルゴリズムよりもPF-LaCGの実用的改善を示す。

Projection-free conditional gradient (CG) methods are the algorithms of choice for constrained optimization setups in which projections are often computationally prohibitive but linear optimization over the constraint set remains computationally feasible. Unlike in projection-based methods, globally accelerated convergence rates are in general unattainable for CG. However, a very recent work on Locally accelerated CG (LaCG) has demonstrated that local acceleration for CG is possible for many settings of interest. The main downside of LaCG is that it requires knowledge of the smoothness and strong convexity parameters of the objective function. We remove this limitation by introducing a novel, Parameter-Free Locally accelerated CG (PF-LaCG) algorithm, for which we provide rigorous convergence guarantees. Our theoretical results are complemented by numerical experiments, which demonstrate local acceleration and showcase the practical improvements of PF-LaCG over non-accelerated algorithms, both in terms of iteration count and wall-clock time.
翻訳日:2021-02-16 15:58:21 公開日:2021-02-12
# 分散確率非凸最適化のためのハイブリッド分散還元法

A hybrid variance-reduced method for decentralized stochastic non-convex optimization ( http://arxiv.org/abs/2102.06752v1 )

ライセンス: Link先を確認
Ran Xin and Usman A. Khan and Soummya Kar(参考訳) 本稿では,各ノードがスムーズな非凸局所コスト関数を持ち,ネットワークノードの目的が局所コストの和の−$\epsilon$-accurate 1次定常点を見つけることにある,−$n$ノードのネットワーク上の分散確率最適化について考察する。 我々は、各ノードが、正確な勾配のノイズバージョンを返す確率的な1次オラクルによってのみ、そのローカルコストにアクセスするオンライン設定に焦点を当てる。 そこで,本研究では,既存のアプローチを複雑性と実用性の両方で上回る,単一ループ分散分散型確率勾配法である \texttt{GT-HSGD} を提案する。 \texttt{GT-HSGD}アルゴリズムは、ネットワーク上に融合してグローバル勾配を追跡する特殊なローカルハイブリッド確率勾配推定器を実装している。 注目すべきことに、 \texttt{GT-HSGD} は、必要な誤差公差~$\epsilon$ が十分に小さい場合、ネットワークに依存しないオーラクル複雑性 _$O(n^{-1}\epsilon^{-3})$ を達成し、単一のノードで動作する集中型最適オンライン分散還元アプローチに関して線形速度アップをもたらす。 主な技術的結果を説明するために数値実験を行いました。

This paper considers decentralized stochastic optimization over a network of~$n$ nodes, where each node possesses a smooth non-convex local cost function and the goal of the networked nodes is to find an~$\epsilon$-accura te first-order stationary point of the sum of the local costs. We focus on an online setting, where each node accesses its local cost only by means of a stochastic first-order oracle that returns a noisy version of the exact gradient. In this context, we propose a novel single-loop decentralized hybrid variance-reduced stochastic gradient method, called \texttt{GT-HSGD}, that outperforms the existing approaches in terms of both the oracle complexity and practical implementation. The \texttt{GT-HSGD} algorithm implements specialized local hybrid stochastic gradient estimators that are fused over the network to track the global gradient. Remarkably, \texttt{GT-HSGD} achieves a network-independent oracle complexity of~$O(n^{-1}\epsilon^{-3})$ when the required error tolerance~$\epsilon$ is small enough, leading to a linear speedup with respect to the centralized optimal online variance-reduced approaches that operate on a single node. Numerical experiments are provided to illustrate our main technical results.
翻訳日:2021-02-16 15:53:42 公開日:2021-02-12
# グラフ-テキスト生成のための構造情報保存

Structural Information Preserving for Graph-to-Text Generation ( http://arxiv.org/abs/2102.06749v1 )

ライセンス: Link先を確認
Linfeng Song, Ante Wang, Jinsong Su, Yue Zhang, Kun Xu, Yubin Ge and Dong Yu(参考訳) グラフ・トゥ・テキスト生成の課題は、入力グラフの意味を保存した文を生成することである。 重要な欠陥として、現在の最先端モデルは出力を生成する際に入力グラフのコア構造情報を台無しにしたり、落としたりすることができる。 入力情報を保存するためのモデルとして,より豊かなトレーニング信号を活用することで,この問題に取り組むことを提案する。 特に,異なる側面に個別に焦点をあてた2種類の自動エンコーディングロスを導入する(a.k.a.)。 入力グラフのビュー)。 損失はバックプロパゲートされ、マルチタスクトレーニングを通じてモデルをよりよくキャリブレーションします。 グラフからテキストへの生成のための2つのベンチマークに関する実験は、最先端のベースラインに対するアプローチの有効性を示しています。 コードは \url{http://github.com/So istesimmer/AMR-multi view} で入手できます。

The task of graph-to-text generation aims at producing sentences that preserve the meaning of input graphs. As a crucial defect, the current state-of-the-art models may mess up or even drop the core structural information of input graphs when generating outputs. We propose to tackle this problem by leveraging richer training signals that can guide our model for preserving input information. In particular, we introduce two types of autoencoding losses, each individually focusing on different aspects (a.k.a. views) of input graphs. The losses are then back-propagated to better calibrate our model via multi-task training. Experiments on two benchmarks for graph-to-text generation show the effectiveness of our approach over a state-of-the-art baseline. Our code is available at \url{http://github.com/So istesimmer/AMR-multi view}.
翻訳日:2021-02-16 15:52:05 公開日:2021-02-12
# 私の言うとおりにせよ,私の言うとおりにせよ - 音声言語理解のためのシーケンス損失トレーニング

Do as I mean, not as I say: Sequence Loss Training for Spoken Language Understanding ( http://arxiv.org/abs/2102.06750v1 )

ライセンス: Link先を確認
Milind Rao, Pranav Dheram, Gautam Tiwari, Anirudh Raju, Jasha Droppo, Ariya Rastrow, Andreas Stolcke(参考訳) 音声言語理解(SLU)システムは、音声から意図または名前付き実体の意味だけでなく、転写を抽出し、音声活性化システムの不可欠なコンポーネントです。 SLUモデルは、音声から直接意味を抽出するか、パイプライン付き自動音声認識(ASR)と自然言語理解(NLU)モデルから構成されるが、典型的には、関連するパフォーマンス指標が単語またはセマンティックエラー率であっても、異なるエントロピーの損失によって訓練される。 本研究では,セマンティックエラーのプロキシとして,SLUメトリックに基づく非微分シーケンス損失を提案し,REINFORCEトリックを用いてASRモデルとSLUモデルの訓練を行う。 我々は、カスタムシーケンス損失トレーニングがオープンsluデータセットの最先端であり、大規模プロプライエタリデータセットにおけるasrとnluのパフォーマンスメトリクスの相対的に6%改善することを示す。 また, 意味的フィードバックのみを用いて, ASR と SLU モデルを転写せずに更新するために, セマンティックシーケンス損失訓練パラダイムをいかに利用できるかを示す。

Spoken language understanding (SLU) systems extract transcriptions, as well as semantics of intent or named entities from speech, and are essential components of voice activated systems. SLU models, which either directly extract semantics from audio or are composed of pipelined automatic speech recognition (ASR) and natural language understanding (NLU) models, are typically trained via differentiable cross-entropy losses, even when the relevant performance metrics of interest are word or semantic error rates. In this work, we propose non-differentiable sequence losses based on SLU metrics as a proxy for semantic error and use the REINFORCE trick to train ASR and SLU models with this loss. We show that custom sequence loss training is the state-of-the-art on open SLU datasets and leads to 6% relative improvement in both ASR and NLU performance metrics on large proprietary datasets. We also demonstrate how the semantic sequence loss training paradigm can be used to update ASR and SLU models without transcripts, using semantic feedback alone.
翻訳日:2021-02-16 15:42:57 公開日:2021-02-12
# 知識と文脈による検索エンジン支援

Supporting search engines with knowledge and context ( http://arxiv.org/abs/2102.06762v1 )

ライセンス: Link先を確認
Nikos Voskarides(参考訳) 検索エンジンは知識を活用して情報アクセスを改善する。 知識を効果的に活用するために、検索エンジンはコンテキスト、すなわちユーザに関する情報とクエリを考慮すべきである。 この論文では、コンテキストを考慮に入れながら、知識を活用する検索エンジンのサポートを目指しています。 本論文の第1部では,検索結果を豊かにするための文脈などの知識を検索エンジンが積極的に提供する場合に,構造化知識をユーザによりアクセスしやすくする方法について検討する。 第1の課題として,テキストコーパスから知識事実の記述を取得する方法を検討する。 次に,知識事実の記述を自動生成する方法を検討する。 最後に、知識事実、すなわち、クエリ事実に関連する事実を自動的に発見する方法について検討する。 本論文の第2部では,インタラクティブな知識収集を改善する方法について考察する。 ユーザが検索エンジンと対話して,構造化されていない巨大な知識リポジトリ上で知識を収集する会話型検索に注目する。 会話検索の例としてマルチターンパス検索に重点を置いています。 用語分類タスクとしてクエリ解決のモデル化を提案し,それに対処する方法を提案する。 本論文の最後のパートでは,ニュース分野のプロフェッショナルライターを対象とした検索エンジンサポートに注目した。 本研究では,ニュース記事のコーパスから知識を探究することで,イベントナラティブ作成を支援する方法について検討する。 本研究では,既存のニュース記事から不完全なナラティブや関連記事をシミュレートするデータセット構築手順を提案する。 本研究では,複数のランチャーのパフォーマンス,語彙と意味について検討し,このタスクの特徴について考察する。

Search engines leverage knowledge to improve information access. In order to effectively leverage knowledge, search engines should account for context, i.e., information about the user and query. In this thesis, we aim to support search engines in leveraging knowledge while accounting for context. In the first part of this thesis, we study how to make structured knowledge more accessible to the user when the search engine proactively provides such knowledge as context to enrich search results. As a first task, we study how to retrieve descriptions of knowledge facts from a text corpus. Next, we study how to automatically generate knowledge fact descriptions. And finally, we study how to contextualize knowledge facts, that is, to automatically find facts related to a query fact. In the second part of this thesis, we study how to improve interactive knowledge gathering. We focus on conversational search, where the user interacts with the search engine to gather knowledge over large unstructured knowledge repositories. We focus on multi-turn passage retrieval as an instance of conversational search. We propose to model query resolution as a term classification task and propose a method to address it. In the final part of this thesis, we focus on search engine support for professional writers in the news domain. We study how to support such writers create event-narratives by exploring knowledge from a corpus of news articles. We propose a dataset construction procedure for this task that relies on existing news articles to simulate incomplete narratives and relevant articles. We study the performance of multiple rankers, lexical and semantic, and provide insights into the characteristics of this task.
翻訳日:2021-02-16 15:42:36 公開日:2021-02-12
# 情報検索のための古典的および神経的語彙的翻訳モデルの検討 : 解釈可能性、有効性、効率上の利点

Exploring Classic and Neural Lexical Translation Models for Information Retrieval: Interpretability, Effectiveness, and Efficiency Benefits ( http://arxiv.org/abs/2102.06815v1 )

ライセンス: Link先を確認
Leonid Boytsov, Zico Kolter(参考訳) 辞書翻訳モデル(IBM Model 1)の英語テキスト検索における有用性,特にエンドツーエンドで訓練された神経変種について検討する。 ニューラルモデル1をアグリゲータ層として使用し,コンテキストフリーあるいはコンテキスト化されたクエリ/ドキュメント埋め込みに適用する。 ニューラルランキングシステムを設計するこの新しいアプローチは、有効性、効率性、解釈性に利点がある。 具体的には,既存のBERTモデルの最大シーケンス長の制限を克服するために,BERTをベースとしたコンテキスト型埋め込み(1)上に解釈可能なニューラルモデル1層を追加しても,精度や効率は低下しないことを示す。 コンテキストフリーのニューラルモデル1はBERTベースのランキングモデルよりも効果的ではありませんが、CPU上で効率的に実行できます(高価なインデックスタイムプリコンピューティングや大きなテンソルでのクエリタイム操作なしで)。 モデル1を使用して、2020年後半にMS MARCOドキュメントランキングリーダーボードで最高のニューラルおよび非ニューラルランを作成しました。

We study the utility of the lexical translation model (IBM Model 1) for English text retrieval, in particular, its neural variants that are trained end-to-end. We use the neural Model1 as an aggregator layer applied to context-free or contextualized query/document embeddings. This new approach to design a neural ranking system has benefits for effectiveness, efficiency, and interpretability. Specifically, we show that adding an interpretable neural Model 1 layer on top of BERT-based contextualized embeddings (1) does not decrease accuracy and/or efficiency; and (2) may overcome the limitation on the maximum sequence length of existing BERT models. The context-free neural Model 1 is less effective than a BERT-based ranking model, but it can run efficiently on a CPU (without expensive index-time precomputation or query-time operations on large tensors). Using Model 1 we produced best neural and non-neural runs on the MS MARCO document ranking leaderboard in late 2020.
翻訳日:2021-02-16 15:42:14 公開日:2021-02-12
# BERTを用いたソーシャルメディアコミュニティ間の英語変化の特徴付け

Characterizing English Variation across Social Media Communities with BERT ( http://arxiv.org/abs/2102.06820v1 )

ライセンス: Link先を確認
Li Lucy and David Bamman(参考訳) インターネット社会グループ間の言語変化を特徴付ける多くの先行研究は、これらのグループで使われる単語の種類に焦点を当ててきた。 本研究は,404 Reddit コミュニティにおける2ヶ月の英語コメントを分析し,単語感覚の変化を特徴付けるために BERT を用いて,このような研究を拡張した。 コミュニティに異なる感覚のクラスタの特異性は、コミュニティのユニークな単語タイプの特異性と組み合わさって、社会グループの言語が規範から逸脱するケースを特定するために使用されます。 利用者が作成した用語集を用いてメトリクスを検証し,社会言語理論を用いて言語変化とコミュニティ行動の傾向を結びつける。 高度に識別された言語を持つコミュニティは中規模であり、忠実で熱心なユーザは密集したネットワークで交流する。

Much previous work characterizing language variation across Internet social groups has focused on the types of words used by these groups. We extend this type of study by employing BERT to characterize variation in the senses of words as well, analyzing two months of English comments in 474 Reddit communities. The specificity of different sense clusters to a community, combined with the specificity of a community's unique word types, is used to identify cases where a social group's language deviates from the norm. We validate our metrics using user-created glossaries and draw on sociolinguistic theories to connect language variation with trends in community behavior. We find that communities with highly distinctive language are medium-sized, and their loyal and highly engaged users interact in dense networks.
翻訳日:2021-02-16 15:41:57 公開日:2021-02-12
# パークアウトイベントデータを用いた路上駐車スペースの自動抽出と検証

Towards automatic extraction and validation of on-street parking spaces using park-out events data ( http://arxiv.org/abs/2102.06758v1 )

ライセンス: Link先を確認
Martin Gebert and J.-Emeterio Navarro-B(参考訳) 本稿では,路上駐車場に有効な地図を自動作成するための2つのアプローチを提案する。 そのため、car2goのパークアウトイベントデータを使用します。 1つ目は空間アグリゲーション、もう1つは機械学習アルゴリズムを使用する。 前者はラスタ化と道路分割を選択し、後者は決定木を選択しました。 これらのアプローチの結果を比較し,そのメリットとデメリットについて論じる。 さらに,ベルリン市内の一地区での結果を示し,元の不均衡データから92%の分類精度を報告した。 最後に, 長期にわたるデータ収集から, 空間的ガウス密度をデータに適合させるまで, パーキングスペースを手作業で検証し, 注記し, 真理データを改善するためのアプリケーションの利用まで, さらなる作業について考察する。

This article proposes two different approaches to automatically create a map for valid on-street car parking spaces. For this, we use park-out events data from car2go. The first one uses spatial aggregation and the second a machine learning algorithm. For the former, we chose rasterization and road sectioning; for the latter we chose decision trees. We compare the results of these approaches and discuss their advantages and disadvantages. Furthermore, we show our results for a neighborhood in the city of Berlin and report a classification accuracy of 92% on the original imbalanced data. Finally, we discuss further work; from gathering more data over a longer period of time to fitting spatial Gaussian densities to the data and the usage of apps for manual validation and annotation of parking spaces to improve ground truth data.
翻訳日:2021-02-16 15:41:44 公開日:2021-02-12
# 深層強化学習を用いた不変環境表現による自動運転の一般化意思決定

Generalizing Decision Making for Automated Driving with an Invariant Environment Representation using Deep Reinforcement Learning ( http://arxiv.org/abs/2102.06765v1 )

ライセンス: Link先を確認
Karl Kurzer, Philip Sch\"orner, Alexander Albers, Hauke Thomsen, Karam Daaboul, J. Marius Z\"ollner(参考訳) 自動運転に適用する意思決定のためのデータ駆動アプローチは、世界の可変性に適用性を確保するために、適切な一般化戦略を必要とする。 現在のアプローチは、トレーニングデータを超えてよく一般化されないか、または可変数のトラフィック参加者を考慮することができない。 そこで我々は,エゴ車の観点から不変環境表現を提案する。 この表現は安全な意思決定に必要な情報を全て符号化する。 新規な環境表現の一般化能力を評価するために、エージェントをシナリオの小さなサブセットでトレーニングし、セット全体を評価します。 ここでは,エージェントが抽象化によって,未知のシナリオにうまく一般化できることを示す。 さらに、エージェントが性能を大きく変更することなく、閉塞を伴う交差点をナビゲートできるシンプルな閉塞モデルを提示します。

Data driven approaches for decision making applied to automated driving require appropriate generalization strategies, to ensure applicability to the world's variability. Current approaches either do not generalize well beyond the training data or are not capable to consider a variable number of traffic participants. Therefore we propose an invariant environment representation from the perspective of the ego vehicle. The representation encodes all necessary information for safe decision making. To assess the generalization capabilities of the novel environment representation, we train our agents on a small subset of scenarios and evaluate on the entire set. Here we show that the agents are capable to generalize successfully to unseen scenarios, due to the abstraction. In addition we present a simple occlusion model that enables our agents to navigate intersections with occlusions without a significant change in performance.
翻訳日:2021-02-16 15:41:31 公開日:2021-02-12
# 機械換気制御のための機械学習

Machine Learning for Mechanical Ventilation Control ( http://arxiv.org/abs/2102.06779v1 )

ライセンス: Link先を確認
Daniel Suo, Udaya Ghai, Edgar Minasyan, Paula Gradu, Xinyi Chen, Naman Agarwal, Cyril Zhang, Karan Singh, Julienne LaChance, Tom Zadjel, Manuel Schottdorf, Daniel Cohen, Elad Hazan(参考訳) 麻酔科医が指定する気道圧の軌跡に応じて, 麻酔科医は鎮静患者の肺内への空気の流入・排出を許可しなければならない。 ハンドチューニングのpidコントローラーや同様の派生機種は、数十年間業界標準を構成してきたが、目標を過度にあるいは過度に撮影したり、急速に振動させることで振る舞うことができない。 まず、人工肺から収集したデータに基づいてシミュレータを訓練します。 次に、これらのシミュレータでディープニューラルネットワークコントローラをトレーニングし、PIDコントローラよりも目標圧力波形をかなりよく追跡できることを示します。 さらに、学習したコントローラは、PIDコントローラよりも、様々な特性を持つ肺をまたいで一般化することを示す。

We consider the problem of controlling an invasive mechanical ventilator for pressure-controlled ventilation: a controller must let air in and out of a sedated patient's lungs according to a trajectory of airway pressures specified by a clinician. Hand-tuned PID controllers and similar variants have comprised the industry standard for decades, yet can behave poorly by over- or under-shooting their target or oscillating rapidly. We consider a data-driven machine learning approach: First, we train a simulator based on data we collect from an artificial lung. Then, we train deep neural network controllers on these simulators.We show that our controllers are able to track target pressure waveforms significantly better than PID controllers. We further show that a learned controller generalizes across lungs with varying characteristics much more readily than PID controllers do.
翻訳日:2021-02-16 15:41:19 公開日:2021-02-12
# Q-Value Weighted Regression: 限定データによる強化学習

Q-Value Weighted Regression: Reinforcement Learning with Limited Data ( http://arxiv.org/abs/2102.06782v1 )

ライセンス: Link先を確認
Piotr Kozakowski, {\L}ukasz Kaiser, Henryk Michalewski, Afroz Mohiuddin, Katarzyna Ka\'nska(参考訳) オフライン環境でのサンプル効率とパフォーマンスは、深層強化学習の重要な課題として現れている。 これらの点で優れた単純なRLアルゴリズムであるQ-Value Weighted Regression (QWR)を紹介します。 QWR(Advantage Weighted Regression, AWR)は、オフラインでも連続的な制御タスクで非常によく機能するが、サンプル効率は低く、高次元の観測空間と競合する、非政治的なアクター批判アルゴリズムである。 我々は、その欠点を説明し、これらの洞察を用いてQWRを動機付けるAWRの分析を行う。 本稿では,QWRがタスクにおける最先端のアルゴリズムと連続的および離散的な動作を一致させることを実験的に示した。 特にqwrは、mujocoスイートのsacと同等の結果と、atariゲームセットで高度に調整されたレインボー実装と同等のhyperparametersyield sセットを持つ結果が得られる。 また、QWRがオフラインのRL設定で良好に動作することを検証する。

Sample efficiency and performance in the offline setting have emerged as significant challenges of deep reinforcement learning. We introduce Q-Value Weighted Regression (QWR), a simple RL algorithm that excels in these aspects. QWR is an extension of Advantage Weighted Regression (AWR), an off-policy actor-critic algorithm that performs very well on continuous control tasks, also in the offline setting, but has low sample efficiency and struggles with high-dimensional observation spaces. We perform an analysis of AWR that explains its shortcomings and use these insights to motivate QWR. We show experimentally that QWR matches the state-of-the-art algorithms both on tasks with continuous and discrete actions. In particular, QWR yields results on par with SAC on the MuJoCo suite and - with the same set of hyperparameters - yields results on par with a highly tuned Rainbow implementation on a set of Atari games. We also verify that QWR performs well in the offline RL setting.
翻訳日:2021-02-16 15:40:44 公開日:2021-02-12
# ナレッジディルミネーションのための学生フレンドリーな教師ネットワーク学習

Learning Student-Friendly Teacher Networks for Knowledge Distillation ( http://arxiv.org/abs/2102.07650v1 )

ライセンス: Link先を確認
Dae Young Park, Moon-Hyun Cha, Changwook Jeong, Daesin Kim, Bohyung Han(参考訳) 本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。 事前教育を受けた教師に与えた学習モデルの効果的な学習に依拠する既存の方法のほとんどとは対照的に,生徒に親しみやすい教師モデルを学び,その結果,より知識伝達に適することを目指す。 言い換えれば、教師モデルを最適化する時点でも、提案されたアルゴリズムは学生のブランチを共同で学習し、学生に優しい表現を得る。 本手法の主な目的は教員モデルの訓練であり,それに続く知識蒸留手順は単純であるため,既存の知識蒸留アルゴリズムのほとんどは,精度と収束速度の観点から学生モデルの性能を向上させるためにこの手法を採用することができる。 提案アルゴリズムは,教師と学生のアーキテクチャの様々な組み合わせによる知識蒸留技術において,優れた精度を示す。

We propose a novel knowledge distillation approach to facilitate the transfer of dark knowledge from a teacher to a student. Contrary to most of the existing methods that rely on effective training of student models given pretrained teachers, we aim to learn the teacher models that are friendly to students and, consequently, more appropriate for knowledge transfer. In other words, even at the time of optimizing a teacher model, the proposed algorithm learns the student branches jointly to obtain student-friendly representations. Since the main goal of our approach lies in training teacher models and the subsequent knowledge distillation procedure is straightforward, most of the existing knowledge distillation algorithms can adopt this technique to improve the performance of the student models in terms of accuracy and convergence speed. The proposed algorithm demonstrates outstanding accuracy in several well-known knowledge distillation techniques with various combinations of teacher and student architectures.
翻訳日:2021-02-16 15:33:57 公開日:2021-02-12
# スパースの価格の決定:サブスペースオフセットによるスパース初期化ネットワークのパフォーマンス向上

Dense for the Price of Sparse: Improved Performance of Sparsely Initialized Networks via a Subspace Offset ( http://arxiv.org/abs/2102.07655v1 )

ライセンス: Link先を確認
Ilan Price, Jared Tanner(参考訳) ニューラルネットワークは高い空間に切断され、高い精度を維持することは十分に確立されている。 最近の研究は初期化直後の刈り込みに重点を置いており、スパルシティーによって得られる計算の節約を訓練プロセスに拡張できるようにしている。 本研究では,学習可能なカーネルパラメータを0.01%に抑えながら,情報伝達とトレーニング性を維持する新しい「DCT + Sparse」層アーキテクチャを提案する。 これらのレイヤで構築されたネットワークの標準的なトレーニングは、様々なベンチマークネットワークアーキテクチャやデータセット上で、最先端の精度を実現していることを示す。 さらに、これらの結果は、ネットワーク内のトレーニング可能なパラメータの位置を決定するための単純なヒューリスティックのみを使用して達成され、競合する prune-at-initializat ion アルゴリズムで要求されるように、最初に完全な未実行のネットワークで格納または計算する必要がない。 標準のスパース層からDCTとスパース層への切り替えは、ネットワークのストレージフットプリントを増大させず、小さな計算オーバーヘッドしか発生しません。

That neural networks may be pruned to high sparsities and retain high accuracy is well established. Recent research efforts focus on pruning immediately after initialization so as to allow the computational savings afforded by sparsity to extend to the training process. In this work, we introduce a new `DCT plus Sparse' layer architecture, which maintains information propagation and trainability even with as little as 0.01% trainable kernel parameters remaining. We show that standard training of networks built with these layers, and pruned at initialization, achieves state-of-the-art accuracy for extreme sparsities on a variety of benchmark network architectures and datasets. Moreover, these results are achieved using only simple heuristics to determine the locations of the trainable parameters in the network, and thus without having to initially store or compute with the full, unpruned network, as is required by competing prune-at-initializat ion algorithms. Switching from standard sparse layers to DCT plus Sparse layers does not increase the storage footprint of a network and incurs only a small additional computational overhead.
翻訳日:2021-02-16 15:33:42 公開日:2021-02-12
# マルウェアに対する普遍的対向的摂動

Universal Adversarial Perturbations for Malware ( http://arxiv.org/abs/2102.06747v1 )

ライセンス: Link先を確認
Raphael Labaca-Castro, Luis Mu\~noz-Gonz\'alez, Feargus Pendlebury, Gabi Dreo Rodosek, Fabio Pierazzi, Lorenzo Cavallaro(参考訳) 機械学習の分類モデルは、モデルの出力を操作できる効果的な入力固有の摂動に対して脆弱である。 universal adversarial perturbation (uaps)は、入力空間全体に一般化するノイズパターンを識別することで、攻撃者がこれらの攻撃例の生成を大幅に拡大することができる。 UAPは、コンピュータビジョンを超えてアプリケーション領域で検討されているが、攻撃者が困難な問題空間の制約を満たすことを理由にしなければならないマルウェアなどの実現可能な攻撃の特定の文脈における特性と影響についてはほとんど知られていない。 本稿では,マルウェア分類におけるUAPの課題と強みについて考察する。 課題空間変換のシーケンスを生成し、それに対応する特徴空間埋め込みにおいてUAPを誘導し、現実的な攻撃的知識の多様性を考慮した脅威モデル間での有効性を評価する。 さらに,問題空間変換から得られた知識を用いて,逆トレーニングに基づく緩和手法を提案し,代替の特徴空間防御法と比較する。 実験では,1 % FPRで3 % TPRのコストで,ホワイトボックスAndroid エスケープ攻撃の有効性を ~20 % に制限した。 また,本手法が Windows マルウェアなど,より制限のあるアプリケーションドメインにどのように適用できるかを示す。 特徴空間における敵対的トレーニングは、大規模かつしばしば制約のない領域を扱う必要があるが、問題空間におけるUAPは、分類器をより効果的に強化できる特定の脆弱性を特定し、新たな普遍的な敵対的変換を攻撃者に特定するための課題と関連するコストをシフトさせる。

Machine learning classification models are vulnerable to adversarial examples -- effective input-specific perturbations that can manipulate the model's output. Universal Adversarial Perturbations (UAPs), which identify noisy patterns that generalize across the input space, allow the attacker to greatly scale up the generation of these adversarial examples. Although UAPs have been explored in application domains beyond computer vision, little is known about their properties and implications in the specific context of realizable attacks, such as malware, where attackers must reason about satisfying challenging problem-space constraints. In this paper, we explore the challenges and strengths of UAPs in the context of malware classification. We generate sequences of problem-space transformations that induce UAPs in the corresponding feature-space embedding and evaluate their effectiveness across threat models that consider a varying degree of realistic attacker knowledge. Additionally, we propose adversarial training-based mitigations using knowledge derived from the problem-space transformations, and compare against alternative feature-space defenses. Our experiments limit the effectiveness of a white box Android evasion attack to ~20 % at the cost of 3 % TPR at 1 % FPR. We additionally show how our method can be adapted to more restrictive application domains such as Windows malware. We observe that while adversarial training in the feature space must deal with large and often unconstrained regions, UAPs in the problem space identify specific vulnerabilities that allow us to harden a classifier more effectively, shifting the challenges and associated cost of identifying new universal adversarial transformations back to the attacker.
翻訳日:2021-02-16 15:32:26 公開日:2021-02-12
# 統合拡散を用いたマルチモーダルデータ可視化・復調・クラスタリング

Multimodal data visualization, denoising and clustering with integrated diffusion ( http://arxiv.org/abs/2102.06757v1 )

ライセンス: Link先を確認
Manik Kuchroo, Abhinav Godavarthi, Guy Wolf, Smita Krishnaswamy(参考訳) 本稿では,マルチモーダルデータセット,あるいは同一システム上で複数の異なる測定値を用いて収集されたデータを組み合わせて,共同データ拡散演算子を作成する統合拡散法を提案する。 実世界のデータは局所雑音と大域雑音の両方に悩まされるため,両モードの複合情報を反映した拡散演算子を最適に計算する機構を導入する。 マルチモーダルデータを統合および分析する他の方法よりも優れた性能を発揮し、データ解読、可視化、クラスタリングにおけるこのジョイントオペレータの有用性を示します。 本手法を血液細胞から生成したマルチオムリックデータに適用し,遺伝子発現およびクロマチンアクセシビリティの測定を行った。 本手法は,共同データの幾何学をよりよく可視化し,既知の相互モダリティ関係を捉え,既知の細胞集団を同定する。 より一般に、統合拡散は、多くの医療および生物学的システムで生成されるマルチモーダルデータセットに広く適用できる。

We propose a method called integrated diffusion for combining multimodal datasets, or data gathered via several different measurements on the same system, to create a joint data diffusion operator. As real world data suffers from both local and global noise, we introduce mechanisms to optimally calculate a diffusion operator that reflects the combined information from both modalities. We show the utility of this joint operator in data denoising, visualization and clustering, performing better than other methods to integrate and analyze multimodal data. We apply our method to multi-omic data generated from blood cells, measuring both gene expression and chromatin accessibility. Our approach better visualizes the geometry of the joint data, captures known cross-modality associations and identifies known cellular populations. More generally, integrated diffusion is broadly applicable to multimodal datasets generated in many medical and biological systems.
翻訳日:2021-02-16 15:24:31 公開日:2021-02-12
# ばらつき低減を伴う確率勾配ランゲヴィンダイナミクス

Stochastic Gradient Langevin Dynamics with Variance Reduction ( http://arxiv.org/abs/2102.06759v1 )

ライセンス: Link先を確認
Zhishen Huang, Stephen Becker(参考訳) 確率勾配ランゲヴィンダイナミクス(SGLD)は、その大域的な最適化特性から最適化研究者の注目を集めている。 本稿では,分散化によって加速されたSGLDを用いた非凸客観的関数の局所最小化に対する収束性の改善を実証する。 さらに、SGLDスキームのエルゴジティ特性を証明し、非凸目標のグローバル最小化の可能性について洞察します。

Stochastic gradient Langevin dynamics (SGLD) has gained the attention of optimization researchers due to its global optimization properties. This paper proves an improved convergence property to local minimizers of nonconvex objective functions using SGLD accelerated by variance reductions. Moreover, we prove an ergodicity property of the SGLD scheme, which gives insights on its potential to find global minimizers of nonconvex objectives.
翻訳日:2021-02-16 15:24:15 公開日:2021-02-12
# Bi-APC:教師なしプレトレーニングのための双方向自動回帰予測符号化とその子どものASRへの応用

Bi-APC: Bidirectional Autoregressive Predictive Coding for Unsupervised Pre-training and Its Application to Children's ASR ( http://arxiv.org/abs/2102.06816v1 )

ライセンス: Link先を確認
Ruchao Fan, Amber Afshan and Abeer Alwan(参考訳) 本稿では,双方向非教師なしモデル事前学習 (upt) 法を提案し,児童自動音声認識 (asr) に適用する。 子供のASRを改善するための障害は、児童音声データベースの不足です。 この問題を緩和するための一般的なアプローチは、成人音声のデータを用いたモデル事前学習である。 事前トレーニングはアノテーションの可用性に応じて、教師付き(SPT)または教師なし(unsupervised)メソッドを使って行うことができる。 通常、sptはパフォーマンスが良くなる。 本稿では,事前学習データにラベルが付けられていない状況に対処するため,UTTに着目した。 UPT法であるオートレグレッシブ予測符号化(APC)は、1方向のみからフレームを予測し、一方向事前学習に限定します。 しかし、従来の双方向upt法はフレームのごく一部しか予測しない。 APCの利点を双方向事前学習に拡張するため,Bi-APCを提案する。 その後、適応技術を用いて、成人音声から学んだ知識(Librispeech corpus)を子供音声(OGI Kids corpus)に伝達します。 LSTMに基づくハイブリッドシステムについて検討した。 ユニLSTM構造では、APCはベースライン上のSPTに類似したWER改善を得る。 しかし、BLSTMに適用した場合、APCはSPTほど競争力はないが、提案したBi-APCはSPTに匹敵する改善がある。

We present a bidirectional unsupervised model pre-training (UPT) method and apply it to children's automatic speech recognition (ASR). An obstacle to improving child ASR is the scarcity of child speech databases. A common approach to alleviate this problem is model pre-training using data from adult speech. Pre-training can be done using supervised (SPT) or unsupervised methods, depending on the availability of annotations. Typically, SPT performs better. In this paper, we focus on UPT to address the situations when pre-training data are unlabeled. Autoregressive predictive coding (APC), a UPT method, predicts frames from only one direction, limiting its use to uni-directional pre-training. Conventional bidirectional UPT methods, however, predict only a small portion of frames. To extend the benefits of APC to bi-directional pre-training, Bi-APC is proposed. We then use adaptation techniques to transfer knowledge learned from adult speech (using the Librispeech corpus) to child speech (OGI Kids corpus). LSTM-based hybrid systems are investigated. For the uni-LSTM structure, APC obtains similar WER improvements to SPT over the baseline. When applied to BLSTM, however, APC is not as competitive as SPT, but our proposed Bi-APC has comparable improvements to SPT.
翻訳日:2021-02-16 15:24:09 公開日:2021-02-12
# ディープラーニングによる性能予測のための比較コード構造解析

Comparative Code Structure Analysis using Deep Learning for Performance Prediction ( http://arxiv.org/abs/2102.07660v1 )

ライセンス: Link先を確認
Nathan Pinnow, Tarek Ramadan, Tanzima Z. Islam, Chase Phelps, Jayaraman J. Thiagarajan(参考訳) パフォーマンス分析は、アプリケーション開発プロセスにおいて常に後発であり、アプリケーションの正確性に重点を置いています。 既存の静的および動的解析ツールの学習曲線は急勾配であり、実行可能最適化の結果を解釈するために低レベルの詳細を理解する必要がある。 さらに、アプリケーションのパフォーマンスは、アプリケーション、ランタイム、およびOSと基礎となるハードウェア間の相互作用から生じる無限の未知数の関数であり、特に大規模なラベル付きデータセットなしで、ディープラーニング技術を使用してモデル化することは困難です。 本稿では,これら2つの問題について,コミュニティに対してラベル付きデータセットの大規模コーパスを提示し,同じ問題の異なる正しい実装間のソースコードの相違を除いて,未知のすべてを軽減するための比較分析手法を提案する。 ソースコードを表現するために、抽象構文ツリーの階層構造から情報を自動抽出するテストにディープラーニングの力を入れます。 本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。 この研究は、アプリケーションのすべてのバージョンがモデルのパフォーマンスを向上させるコーポラに貢献し続けるので、パフォーマンスを意識したアプリケーション開発を可能にします。 組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。

Performance analysis has always been an afterthought during the application development process, focusing on application correctness first. The learning curve of the existing static and dynamic analysis tools are steep, which requires understanding low-level details to interpret the findings for actionable optimizations. Additionally, application performance is a function of an infinite number of unknowns stemming from the application-, runtime-, and interactions between the OS and underlying hardware, making it difficult, if not impossible, to model using any deep learning technique, especially without a large labeled dataset. In this paper, we address both of these problems by presenting a large corpus of a labeled dataset for the community and take a comparative analysis approach to mitigate all unknowns except their source code differences between different correct implementations of the same problem. We put the power of deep learning to the test for automatically extracting information from the hierarchical structure of abstract syntax trees to represent source code. This paper aims to assess the feasibility of using purely static information (e.g., abstract syntax tree or AST) of applications to predict performance change based on the change in code structure. This research will enable performance-aware application development since every version of the application will continue to contribute to the corpora, which will enhance the performance of the model. Our evaluations of several deep embedding learning methods demonstrate that tree-based Long Short-Term Memory (LSTM) models can leverage the hierarchical structure of source-code to discover latent representations and achieve up to 84% (individual problem) and 73% (combined dataset with multiple of problems) accuracy in predicting the change in performance.
翻訳日:2021-02-16 15:18:33 公開日:2021-02-12
# (参考訳) フルフレームビデオ安定化のためのニューラルリレンダリング [全文訳有]

Neural Re-rendering for Full-frame Video Stabilization ( http://arxiv.org/abs/2102.06205v2 )

ライセンス: CC BY 4.0
Yu-Lun Liu, Wei-Sheng Lai, Ming-Hsuan Yang, Yung-Yu Chuang, Jia-Bin Huang(参考訳) 既存のビデオ安定化手法では、フレーム境界のアグレッシブトリミングや、安定化フレーム上の歪みアーチファクトの生成が必要である。 本稿では,まず高密度ワープ場を推定し,フルフレーム映像安定化のためのアルゴリズムを提案する。 フルフレーム安定化フレームは、隣接するフレームから歪んだコンテンツを融合することで合成することができる。 学習ベースのハイブリッド空間融合は、光学フローの不正確さと高速移動オブジェクトによって引き起こされるアーティファクトを緩和します。 NUSおよび自撮りビデオデータセットに対する本手法の有効性を検証した。 広範に実験を行った結果,従来のビデオ安定化手法に対するアプローチのメリットが示された。

Existing video stabilization methods either require aggressive cropping of frame boundaries or generate distortion artifacts on the stabilized frames. In this work, we present an algorithm for full-frame video stabilization by first estimating dense warp fields. Full-frame stabilized frames can then be synthesized by fusing warped contents from neighboring frames. The core technical novelty lies in our learning-based hybrid-space fusion that alleviates artifacts caused by optical flow inaccuracy and fast-moving objects. We validate the effectiveness of our method on the NUS and selfie video datasets. Extensive experiment results demonstrate the merits of our approach over prior video stabilization methods.
翻訳日:2021-02-16 12:53:44 公開日:2021-02-12
# (参考訳) 正規化流れのヤコブ式決定因子 [全文訳有]

Jacobian Determinant of Normalizing Flows ( http://arxiv.org/abs/2102.06539v1 )

ライセンス: CC BY 4.0
Huadong Liao and Jiawei He(参考訳) 正規化フローはターゲットとベース分布の間の微分型写像を学習し、その写像のヤコブ行列は別の実値関数を形成する。 本稿では,ヤコビ行列型写像が与えられた分布に対して一意であることを示す。 特に、フローのクラスの可能性は、個々のデータポイントの自動相関行列の固有値によって明示的に表現され、確率目標の理論的最適値を提供し、確率的PCAに関連するニューラルネットワークのパラメータ化とは独立している。 さらに、ヤコビ行列式は局所的な体積変化の尺度であり、MLEを最適化に使用すると最大化される。 流れの正規化を安定させるためには、体積の膨張性と収縮のバランスを維持することが必要であり、これは二相写像とその逆写像に対するリプシッツ制約を意味する。 これらの理論により、正規化フローを設計するいくつかの原則が提案された。 また,高次元データセット(celeba-hq 1024x1024など)の数値実験を行い,トレーニングの安定性について検討した。

Normalizing flows learn a diffeomorphic mapping between the target and base distribution, while the Jacobian determinant of that mapping forms another real-valued function. In this paper, we show that the Jacobian determinant mapping is unique for the given distributions, hence the likelihood objective of flows has a unique global optimum. In particular, the likelihood for a class of flows is explicitly expressed by the eigenvalues of the auto-correlation matrix of individual data point, and independent of the parameterization of neural network, which provides a theoretical optimal value of likelihood objective and relates to probabilistic PCA. Additionally, Jacobian determinant is a measure of local volume change and is maximized when MLE is used for optimization. To stabilize normalizing flows training, it is required to maintain a balance between the expansiveness and contraction of volume, meaning Lipschitz constraint on the diffeomorphic mapping and its inverse. With these theoretical results, several principles of designing normalizing flow were proposed. And numerical experiments on highdimensional datasets (such as CelebA-HQ 1024x1024) were conducted to show the improved stability of training.
翻訳日:2021-02-16 00:54:04 公開日:2021-02-12
# (参考訳) cpu上でのトランスフォーマの最適化性能 [全文訳有]

Optimizing Inference Performance of Transformers on CPUs ( http://arxiv.org/abs/2102.06621v1 )

ライセンス: CC BY-SA 4.0
Dave Dice and Alex Kogan(参考訳) Transformerアーキテクチャは自然言語処理(NLP)の分野に革命をもたらした。 トランスフォーマーベースのモデル(BERTなど)は、検索、翻訳、質問応答など、多くの重要なWebサービスを支えている。 これらのモデルのトレーニングには膨大な研究の注意が払われているが、推論性能を改善するための取り組みは比較的少ない。 本稿では,cpu上でのトランスフォーマモデル参照のスケーラビリティと性能を実証的に分析することで,このギャップを解消する。 非常にポピュラーなBERTモデルに着目し,計算の大部分を行うTransformerアーキテクチャの主要なコンポーネントを特定し,高速化のための3つの最適化を提案する。 最適化はhughingfaceの推論ベンチマークを用いて評価され、x2.36までの高速化が示されている。 検討された最適化では、モデルの実装の変更は必要とせず、精度にも影響を与えない。

The Transformer architecture revolutionized the field of natural language processing (NLP). Transformers-based models (e.g., BERT) power many important Web services, such as search, translation, question-answering, etc. While enormous research attention is paid to the training of those models, relatively little efforts are made to improve their inference performance. This paper comes to address this gap by presenting an empirical analysis of scalability and performance of inferencing a Transformer-based model on CPUs. Focusing on the highly popular BERT model, we identify key components of the Transformer architecture where the bulk of the computation happens, and propose three optimizations to speed them up. The optimizations are evaluated using the inference benchmark from HuggingFace, and are shown to achieve the speedup of up to x2.36. The considered optimizations do not require any changes to the implementation of the models nor affect their accuracy.
翻訳日:2021-02-16 00:29:43 公開日:2021-02-12
# (参考訳) Min-Max-Plus Neural Networks [全文訳有]

Min-Max-Plus Neural Networks ( http://arxiv.org/abs/2102.06358v1 )

ライセンス: CC BY 4.0
Ye Luo and Shiqing Fan(参考訳) 熱帯算術における演算に基づくMin-Max-Plus Neural Networks (MMP-NNs) と呼ばれるニューラルネットワークの新しいモデルを提案する。 一般に、MMP-NNは3種類の交互に積み重ねられた層、すなわち線形層、マイナスプラスの層および最高プラスの層で構成されます。 具体的には、後者の2つの層は、従来のニューラルネットワークの非線形部分に比べて訓練可能で洗練されたネットワークの非線形部分を構成する。 さらに, MMP-NN は, 非線形性表現の能力が高いため, 乗算演算数を大幅に削減したとしても, 連続関数の普遍近似器であることを示す。 さらに、MMP-NNのトレーニングプロセスにおいてバックプロパゲーションアルゴリズムを策定し、トレーニングにおける収束率を改善するための正規化アルゴリズムを導入する。

We present a new model of neural networks called Min-Max-Plus Neural Networks (MMP-NNs) based on operations in tropical arithmetic. In general, an MMP-NN is composed of three types of alternately stacked layers, namely linear layers, min-plus layers and max-plus layers. Specifically, the latter two types of layers constitute the nonlinear part of the network which is trainable and more sophisticated compared to the nonlinear part of conventional neural networks. In addition, we show that with higher capability of nonlinearity expression, MMP-NNs are universal approximators of continuous functions, even when the number of multiplication operations is tremendously reduced (possibly to none in certain extreme cases). Furthermore, we formulate the backpropagation algorithm in the training process of MMP-NNs and introduce an algorithm of normalization to improve the rate of convergence in training.
翻訳日:2021-02-16 00:11:55 公開日:2021-02-12
# (参考訳) スタイル転送のみを用いたアート画像の物体検出の改善 [全文訳有]

Improving Object Detection in Art Images Using Only Style Transfer ( http://arxiv.org/abs/2102.06529v1 )

ライセンス: CC BY 4.0
David Kadish, Sebastian Risi, Anders Sundnes L{\o}vlie(参考訳) 近年のディープラーニングニューラルネットワークによる物体検出の進歩にもかかわらず、これらのニューラルネットワークは、絵画や図面などの美術画像中の物体の識別に苦慮している。 この課題はクロス描写問題として知られており、部分的には、物体のテクスチャの識別をその形状よりも優先するニューラルネットワークの傾向に起因している。 本稿では,物体(特に人)をアートイメージにローカライズするためのニューラルネットワークのトレーニングプロセスを提案し,評価する。 AdaInスタイルの転送を使用してCOCOデータセットの画像を変更し、トレーニングと検証のための大規模なデータセットを生成します。 このデータセットは、Faster R-CNNオブジェクト検出ネットワークを微調整するために使用され、既存のPeople-Artテストデータセットでテストされる。 その結果、最先端の技術が大幅に改善され、ニューラルネットワークをトレーニングしてアート画像を処理するデータセットを作成するための新しい方法が前進しました。

Despite recent advances in object detection using deep learning neural networks, these neural networks still struggle to identify objects in art images such as paintings and drawings. This challenge is known as the cross depiction problem and it stems in part from the tendency of neural networks to prioritize identification of an object's texture over its shape. In this paper we propose and evaluate a process for training neural networks to localize objects - specifically people - in art images. We generate a large dataset for training and validation by modifying the images in the COCO dataset using AdaIn style transfer. This dataset is used to fine-tune a Faster R-CNN object detection network, which is then tested on the existing People-Art testing dataset. The result is a significant improvement on the state of the art and a new way forward for creating datasets to train neural networks to process art images.
翻訳日:2021-02-15 23:36:47 公開日:2021-02-12
# (参考訳) 認定防衛:なぜリラクゼーションがトレーニングを損なうのか? [全文訳有]

Certified Defenses: Why Tighter Relaxations May Hurt Training? ( http://arxiv.org/abs/2102.06700v1 )

ライセンス: CC BY 4.0
Nikola Jovanovi\'c, Mislav Balunovi\'c, Maximilian Baader, Martin Vechev(参考訳) 凸リラクゼーションに基づく認定防御は、証明可能な堅牢なモデルを訓練するための確立された技術です。 主なコンポーネントは、単純な間隔からタイトなポリヘドラまで、リラクゼーションの選択です。 しかし、逆説的には、より厳しいリラクゼーションによるトレーニングが認定された堅牢性を悪化させる可能性があることが実証的に観察された。 いくつかの方法がこの問題を部分的に緩和するために設計されたが、根本原因はよく分かっていない。 本研究では,上記の現象を考察し,厳密性が認定ロバスト性低下の要因ではないことを示す。 具体的には、トレーニングダイナミクスに影響を与えるリラクゼーションの2つの重要な特徴を特定します。 次に,この2つの因子が,一般のリラクゼーション使用時のロバスト性の低下を説明することを実験的に証明した。 さらに、我々は初めて、より厳密な緩和(すなわち三角形)でうまくトレーニングできることを示し、これは我々の2つの性質によって支持される結果である。 全体として、この研究の洞察は、新しい効果的な認定防衛の体系的な発見を促進するのに役立つと考えています。

Certified defenses based on convex relaxations are an established technique for training provably robust models. The key component is the choice of relaxation, varying from simple intervals to tight polyhedra. Paradoxically, however, it was empirically observed that training with tighter relaxations can worsen certified robustness. While several methods were designed to partially mitigate this issue, the underlying causes are poorly understood. In this work we investigate the above phenomenon and show that tightness may not be the determining factor for reduced certified robustness. Concretely, we identify two key features of relaxations that impact training dynamics: continuity and sensitivity. We then experimentally demonstrate that these two factors explain the drop in certified robustness when using popular relaxations. Further, we show, for the first time, that it is possible to successfully train with tighter relaxations (i.e., triangle), a result supported by our two properties. Overall, we believe the insights of this work can help drive the systematic discovery of new effective certified defenses.
翻訳日:2021-02-15 23:07:42 公開日:2021-02-12
# (参考訳) MetaGrad:オンライン学習における複数学習率を用いた適応

MetaGrad: Adaptation using Multiple Learning Rates in Online Learning ( http://arxiv.org/abs/2102.06622v1 )

ライセンス: CC BY 4.0
Tim van Erven, Wouter M. Koolen, Dirk van der Hoeven(参考訳) 一般凸損失に対して頑健であるが,exp-concave や strong convex 関数を含む幅広い特殊関数に対してより高速な速度を実現するとともに,曲率を伴わない様々なタイプの確率的・非確率的関数を実現する,オンライン凸最適化のための新しい適応的手法 metagrad を提供する。 我々は、オフライン統計学習における速度を暗示することで知られるベルンシュタイン条件への接続を描いてこれを証明した。 metagradはさらに勾配のサイズに自動的に適応する。 その主な特徴は、複数の学習率を同時に考慮し、新しいメタアルゴリズムを用いてデータ上の経験的パフォーマンスに直接比例して重み付けされていることである。 MetaGradには3つのバージョンがあります。 フルマトリックスバージョンは完全な共分散行列を維持しており、次元の更新時間を2倍にすることができる学習タスクに適用できる。 他の2つのバージョンは、高次元学習タスクのスピードアップを提供し、その1つはスケッチに基づいており、もう1つは座標ごとに基本アルゴリズムのコピーを別々に実行している。 ベンチマークオンライン分類と回帰タスクでMetaGradのすべてのバージョンを評価し、オンライングラデーション下降とAdaGradの両方を一貫して上回ります。

We provide a new adaptive method for online convex optimization, MetaGrad, that is robust to general convex losses but achieves faster rates for a broad class of special functions, including exp-concave and strongly convex functions, but also various types of stochastic and non-stochastic functions without any curvature. We prove this by drawing a connection to the Bernstein condition, which is known to imply fast rates in offline statistical learning. MetaGrad further adapts automatically to the size of the gradients. Its main feature is that it simultaneously considers multiple learning rates, which are weighted directly proportional to their empirical performance on the data using a new meta-algorithm. We provide three versions of MetaGrad. The full matrix version maintains a full covariance matrix and is applicable to learning tasks for which we can afford update time quadratic in the dimension. The other two versions provide speed-ups for high-dimensional learning tasks with an update time that is linear in the dimension: one is based on sketching, the other on running a separate copy of the basic algorithm per coordinate. We evaluate all versions of MetaGrad on benchmark online classification and regression tasks, on which they consistently outperform both online gradient descent and AdaGrad.
翻訳日:2021-02-15 22:36:26 公開日:2021-02-12
# (参考訳) 効率的なコントラスト学習のためのセマンティカルコンディショニングネガティブサンプル [全文訳有]

Semantically-Conditi oned Negative Samples for Efficient Contrastive Learning ( http://arxiv.org/abs/2102.06603v1 )

ライセンス: CC BY 4.0
James O' Neill, Danushka Bollegala(参考訳) 負のサンプリングは制限係数 w.r.t である。 計量学習ニューラルネットワークの一般化。 その結果、一様負サンプリングはクラス境界に関する情報をほとんど提供せず、効率的な負サンプリングのための3つの新しい手法を提案する:(1)最も意味的に類似したクラスのトップから負のサンプルを抽出し、(2)最も意味的に類似したサンプルをトップ-$k$から抽出し、(3)対照的な潜在表現を補間して擬似負を生成する。 CIFAR-10, CIFAR-100, Tiny-ImageNet-200 で行った実験では,提案した \textit{Semantically Conditioned Negative Smpling} と Latent Mixup が一貫した性能向上をもたらすことが示された。 標準的な教師付き学習環境では、各種ネットワークアーキテクチャにおけるCIFAR-10におけるテスト精度を平均1.52 %向上させる。 知識蒸留では,(1)小イメージネット200では学生ネットワークのパフォーマンスが4.56\%,(2)教師がいない学生ネットワークでは3.29\%,(2)textit{hard-to-beat}ベースラインでは1.23\%,.72\%と,それぞれ4.56\%向上した(hinton et al., 2015)。

Negative sampling is a limiting factor w.r.t. the generalization of metric-learned neural networks. We show that uniform negative sampling provides little information about the class boundaries and thus propose three novel techniques for efficient negative sampling: drawing negative samples from (1) the top-$k$ most semantically similar classes, (2) the top-$k$ most semantically similar samples and (3) interpolating between contrastive latent representations to create pseudo negatives. Our experiments on CIFAR-10, CIFAR-100 and Tiny-ImageNet-200 show that our proposed \textit{Semantically Conditioned Negative Sampling} and Latent Mixup lead to consistent performance improvements. In the standard supervised learning setting, on average we increase test accuracy by 1.52\% percentage points on CIFAR-10 across various network architectures. In the knowledge distillation setting, (1) the performance of student networks increase by 4.56\% percentage points on Tiny-ImageNet-200 and 3.29\% on CIFAR-100 over student networks trained with no teacher and (2) 1.23\% and 1.72\% respectively over a \textit{hard-to-beat} baseline (Hinton et al., 2015).
翻訳日:2021-02-15 22:35:12 公開日:2021-02-12
# (参考訳) セキュアアグリゲーションを用いた連合学習のための分散離散ガウス機構

The Distributed Discrete Gaussian Mechanism for Federated Learning with Secure Aggregation ( http://arxiv.org/abs/2102.06387v1 )

ライセンス: CC BY 4.0
Peter Kairouz and Ziyu Liu and Thomas Steinke(参考訳) ユーザデバイスに分散したプライベートデータに関するトレーニングモデルを検討します。 プライバシーを確保するために、デバイス上のノイズを追加し、安全なアグリゲーションを使用して、騒々しい合計だけをサーバーに公開します。 本稿では,データを適切に識別し,セキュアアグリゲーションを行う前に離散ガウス雑音を付加する総合的なエンドツーエンドシステムを提案する。 我々は、離散ガウスの和に対する新しいプライバシー分析を提供する。 また,入力データの丸めとモジュラー和算術の効果も解析した。 私達の理論的保証はコミュニケーション、プライバシーおよび正確さ間の複雑な緊張を強調します。 広範な実験結果から,我々のソリューションは,1値あたり16ビットの精度で,セントラルディファレンシャルプライバシと同等の精度を達成できることが示されました。

We consider training models on private data that is distributed across user devices. To ensure privacy, we add on-device noise and use secure aggregation so that only the noisy sum is revealed to the server. We present a comprehensive end-to-end system, which appropriately discretizes the data and adds discrete Gaussian noise before performing secure aggregation. We provide a novel privacy analysis for sums of discrete Gaussians. We also analyze the effect of rounding the input data and the modular summation arithmetic. Our theoretical guarantees highlight the complex tension between communication, privacy, and accuracy. Our extensive experimental results demonstrate that our solution is essentially able to achieve a comparable accuracy to central differential privacy with 16 bits of precision per value.
翻訳日:2021-02-15 21:10:07 公開日:2021-02-12
# (参考訳) フローベースニューラル後部推定のためのグローバルパラメータの活用 [全文訳有]

Leveraging Global Parameters for Flow-based Neural Posterior Estimation ( http://arxiv.org/abs/2102.06477v1 )

ライセンス: CC BY 4.0
Pedro L. C. Rodrigues, Thomas Moreau, Gilles Louppe, Alexandre Gramfort(参考訳) 実験観測に基づく確率モデルのパラメータを推定することは、科学的方法の中心である。 特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。 これは、電波源の距離やパワーを推測する(ソースが近かったり弱かったり、遠かったり、強かったりする)など、多くの実用的な状況で発生する。 または電気生理学実験の増幅器の利益そして基礎頭脳の活動を推定するとき。 本研究では,グローバルパラメータを共有する観測の補助的集合によって伝達される付加情報を利用して,そのような不確定性を破る手法を提案する。 本手法はベイズ階層モデルへの正規化フローに基づくシミュレーションベース推論(SBI)の最近の発展を延長する。 分析解に適応可能な動機づけ例について,提案を定量的に検証し,計算神経科学からよく知られた非線形モデルに応用する。

Inferring the parameters of a stochastic model based on experimental observations is central to the scientific method. A particularly challenging setting is when the model is strongly indeterminate, i.e., when distinct sets of parameters yield identical observations. This arises in many practical situations, such as when inferring the distance and power of a radio source (is the source close and weak or far and strong?) or when estimating the amplifier gain and underlying brain activity of an electrophysiological experiment. In this work, we present a method for cracking such indeterminacy by exploiting additional information conveyed by an auxiliary set of observations sharing global parameters. Our method extends recent developments in simulation-based inference(SBI) based on normalizing flows to Bayesian hierarchical models. We validate quantitatively our proposal on a motivating example amenable to analytical solutions, and then apply it to invert a well known non-linear model from computational neuroscience.
翻訳日:2021-02-15 21:09:02 公開日:2021-02-12
# (参考訳) 確率自由パラメータ推論のためのロバストおよび積分ベイズニューラルネットワーク [全文訳有]

Robust and integrative Bayesian neural networks for likelihood-free parameter inference ( http://arxiv.org/abs/2102.06521v1 )

ライセンス: CC BY 4.0
Fredrik Wrede, Robin Eriksson, Richard Jiang, Linda Petzold, Stefan Engblom, Andreas Hellander, Prashant Singh(参考訳) 要約統計を学習するための最先端のニューラルネットワークベースの手法は、シミュレーションベースの確率自由パラメータ推論に有望な結果をもたらした。 既存のアプローチでは、決定論的ニューラルネットワークに基づく後処理ステップとして密度推定が必要であり、ネットワーク予測の不確実性を考慮していない。 本研究では,ベイズニューラルネットワークを用いて要約統計学を学習し,カテゴリー分布を用いて後部密度を直接推定する頑健な統合手法を提案する。 適応サンプリングスキームは、シミュレーション位置を選択し、観測により条件付けられたネットワークの予測後部を効率的かつ反復的に洗練する。 これにより、比較的大きな先行空間上でより効率的で堅牢な収束が可能になる。 ベンチマークの例にアプローチを示し、関連する手法と比較する。

State-of-the-art neural network-based methods for learning summary statistics have delivered promising results for simulation-based likelihood-free parameter inference. Existing approaches require density estimation as a post-processing step building upon deterministic neural networks, and do not take network prediction uncertainty into account. This work proposes a robust integrated approach that learns summary statistics using Bayesian neural networks, and directly estimates the posterior density using categorical distributions. An adaptive sampling scheme selects simulation locations to efficiently and iteratively refine the predictive posterior of the network conditioned on observations. This allows for more efficient and robust convergence on comparatively large prior spaces. We demonstrate our approach on benchmark examples and compare against related methods.
翻訳日:2021-02-15 20:47:55 公開日:2021-02-12
# (参考訳) Q-Learningのサンプル複雑度における水平依存性の強調

Tightening the Dependence on Horizon in the Sample Complexity of Q-Learning ( http://arxiv.org/abs/2102.06548v1 )

ライセンス: CC BY 4.0
Gen Li, Changxiao Cai, Yuxin Chen, Yuantao Gu, Yuting Wei, Yuejie Chi(参考訳) モデルフリーの方法でマルコフ決定プロセス(MDP)の最適なQ機能を学ぶことを目指すQ-ラーニングは、強化学習の中心にあります。 同期設定(全ての状態-作用ペアの独立サンプルが各イテレーションで生成モデルから引き出されるような)に関しては、最近Q-ラーニングのサンプル効率を理解するためにかなりの進歩がなされている。 最適Q関数の射影 $\varepsilon$-accura te 推定を得るためには、最先端の理論では、$\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^5\varepsilon^{2}}$ のサンプルを、状態空間 $\mathcal{S}$ とアクション空間 $\mathcal{A}$ を持つ $\gamma$-discounted infinite-horizon MDP の順に求める。 本研究では,任意の0<\varepsilon <1$ に対して,同期型q-ラーニングのサンプル複雑性を$\frac{|\mathcal{s}||\mathcal{a}|}{(1-\gamma)^4\varepsilon^2}$ (いくつかの対数係数まで) に鋭くし,実効的な地平線$\frac{1}{1-\gamma}$ の順に改善する。 解析結果は有限ホライゾン MDP にも導出される。 計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。 我々の分析の重要な要素は、新しい誤り分解と再帰の確立であり、他のQ-ラーニングの有限サンプル性能の分析方法に光を当てる可能性がある。

Q-learning, which seeks to learn the optimal Q-function of a Markov decision process (MDP) in a model-free fashion, lies at the heart of reinforcement learning. When it comes to the synchronous setting (such that independent samples for all state-action pairs are drawn from a generative model in each iteration), substantial progress has been made recently towards understanding the sample efficiency of Q-learning. To yield an entrywise $\varepsilon$-accura te estimate of the optimal Q-function, state-of-the-art theory requires at least an order of $\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^5\varepsilon^{2}}$ samples for a $\gamma$-discounted infinite-horizon MDP with state space $\mathcal{S}$ and action space $\mathcal{A}$. In this work, we sharpen the sample complexity of synchronous Q-learning to an order of $\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^4\varepsilon^2}$ (up to some logarithmic factor) for any $0<\varepsilon <1$, leading to an order-wise improvement in terms of the effective horizon $\frac{1}{1-\gamma}$. Analogous results are derived for finite-horizon MDPs as well. Our finding unveils the effectiveness of vanilla Q-learning, which matches that of speedy Q-learning without requiring extra computation and storage. A key ingredient of our analysis lies in the establishment of novel error decompositions and recursions, which might shed light on how to analyze finite-sample performance of other Q-learning variants.
翻訳日:2021-02-15 20:07:10 公開日:2021-02-12
# (参考訳) 小さな事前学習が長い道のりをたどる:低リソース形態素リッチ言語における依存構文解析タスクのケーススタディ [全文訳有]

A Little Pretraining Goes a Long Way: A Case Study on Dependency Parsing Task for Low-resource Morphologically Rich Languages ( http://arxiv.org/abs/2102.06551v1 )

ライセンス: CC BY 4.0
Jivnesh Sandhan, Amrith Krishna, Ashim Gupta, Laxmidhar Behera and Pawan Goyal(参考訳) 神経依存性解析は、多くのドメインや言語で顕著なパフォーマンスを達成している。 大量のラベル付きデータのボトルネックは、低リソース言語に対するこれらのアプローチの有効性を制限する。 本研究では,低リソース環境におけるMRL(モルフォロジカルリッチ言語)の依存性解析に焦点を当てる。 係り受け解析作業には形態情報が必要であるが、形態的曖昧さと強力なアナライザの欠如は、MRLに対してこの情報を得るための課題を提起する。 これらの課題に対処するために,プリトレーニングのための簡単な補助タスクを提案する。 低資源環境下で10MBLの実験を行い,提案した予備訓練法の有効性を測定し,平均2点(UAS)と3.6点(LAS)の絶対利得を観測する。 コードとデータ https://github.com/j ivnesh/LCM

Neural dependency parsing has achieved remarkable performance for many domains and languages. The bottleneck of massive labeled data limits the effectiveness of these approaches for low resource languages. In this work, we focus on dependency parsing for morphological rich languages (MRLs) in a low-resource setting. Although morphological information is essential for the dependency parsing task, the morphological disambiguation and lack of powerful analyzers pose challenges to get this information for MRLs. To address these challenges, we propose simple auxiliary tasks for pretraining. We perform experiments on 10 MRLs in low-resource settings to measure the efficacy of our proposed pretraining method and observe an average absolute gain of 2 points (UAS) and 3.6 points (LAS). Code and data available at: https://github.com/j ivnesh/LCM
翻訳日:2021-02-15 20:05:25 公開日:2021-02-12
# (参考訳) unseenドメイン上のロバストな白色物質ハイパーインテンシティセグメンテーション [全文訳有]

Robust White Matter Hyperintensity Segmentation on Unseen Domain ( http://arxiv.org/abs/2102.06650v1 )

ライセンス: CC BY 4.0
Xingchen Zhao, Anthony Sicilia, Davneet Minhas, Erin O'Connor, Howard Aizenstein, William Klunk, Dana Tudorascu, Seong Jae Hwang(参考訳) 典型的な機械学習フレームワークは、トレーニングとテストデータが同じ分布に従うという前提に大きく依存している。 複数のサイトやスキャナーからデータセットを取得し始めた医療画像では、この同じ分布の仮定は、サイトまたはスキャナ依存因子によって誘導される系統的変動のために保持されないことが多い。 したがって、与えられたデータセットでトレーニングされたモデルが、他のディストリビューションからデータセット上で一貫して動作し、あるいは一般化することを単に期待することはできない。 本研究では,この課題に対処し,医療画像データに対する機械学習モデルの適用について検討する。 具体的には、テスト分布を知らずにモデルをトレーニングするドメイン一般化(DG)の難問について考察する。 つまり、私たちは一連の分布(ソース)からサンプルをトレーニングし、新しい見えない分布(ターゲット)からサンプルをテストします。 マルチサイトWMHセグメンテーションチャレンジデータセットと当社のローカル社内データセットを用いて,ホワイトマターハイパーインテンシティ(WMH)予測の課題に焦点を当てた。 機械的に異なる2つのDGアプローチ、すなわちドメイン対比学習とミックスアップが理論的相乗効果を持つかを特定する。 そこで,WMH予測を未知のターゲット領域上で飛躍的に改善した。

Typical machine learning frameworks heavily rely on an underlying assumption that training and test data follow the same distribution. In medical imaging which increasingly begun acquiring datasets from multiple sites or scanners, this identical distribution assumption often fails to hold due to systematic variability induced by site or scanner dependent factors. Therefore, we cannot simply expect a model trained on a given dataset to consistently work well, or generalize, on a dataset from another distribution. In this work, we address this problem, investigating the application of machine learning models to unseen medical imaging data. Specifically, we consider the challenging case of Domain Generalization (DG) where we train a model without any knowledge about the testing distribution. That is, we train on samples from a set of distributions (sources) and test on samples from a new, unseen distribution (target). We focus on the task of white matter hyperintensity (WMH) prediction using the multi-site WMH Segmentation Challenge dataset and our local in-house dataset. We identify how two mechanically distinct DG approaches, namely domain adversarial learning and mix-up, have theoretical synergy. Then, we show drastic improvements of WMH prediction on an unseen target domain.
翻訳日:2021-02-15 19:52:20 公開日:2021-02-12
# (参考訳) クラス間の知識伝播による効率的な条件付きGAN転送 [全文訳有]

Efficient Conditional GAN Transfer with Knowledge Propagation across Classes ( http://arxiv.org/abs/2102.06696v1 )

ライセンス: CC BY 4.0
Mohamad Shahbazi, Zhiwu Huang, Danda Pani Paudel, Ajad Chhatkuli, Luc Van Gool(参考訳) GAN(Generative Adversarial Network)は,非条件画像生成と条件画像生成の両方において顕著な結果を示した。 近年の文献では、訓練済みのGANは、異なるデータセット上で、小さなターゲットデータから画像生成を改善するために転送可能であることが示されている。 しかし, 条件付きGAN(cGAN)では, 条件なしのセットアップに比べて, 知識伝達の新たな機会となることが確認されていない。 特に、新しいクラスは関連する古いクラスから知識を借りたり、トレーニングを改善するために知識を共有したりすることができる。 このことは、クラス間の知識伝播を伴う効率的な条件付きGAN転送の問題を研究する動機となっている。 この問題に対処するために,従来のクラスから新しいクラスへの知識を明示的に伝達する新しいGAN転送手法を提案する。 鍵となるアイデアは、広く使われている条件付きバッチ正規化(bn)を強制して、新しいクラスのクラス固有の情報を古いクラスから学び、新しいクラス間で暗黙の知識を共有することである。 これにより、古いクラスから新しいクラスへの効率的な知識伝達が可能になり、BNパラメータは新しいクラスの数と直線的に増加する。 提案手法は, 効率的な条件付きGAN転送タスクに対して, 最先端の競合相手よりも明らかに優れていることを示す。 コードは以下の通り。 https://github.com/m shahbazi72/cGANTrans fer

Generative adversarial networks (GANs) have shown impressive results in both unconditional and conditional image generation. In recent literature, it is shown that pre-trained GANs, on a different dataset, can be transferred to improve the image generation from a small target data. The same, however, has not been well-studied in the case of conditional GANs (cGANs), which provides new opportunities for knowledge transfer compared to unconditional setup. In particular, the new classes may borrow knowledge from the related old classes, or share knowledge among themselves to improve the training. This motivates us to study the problem of efficient conditional GAN transfer with knowledge propagation across classes. To address this problem, we introduce a new GAN transfer method to explicitly propagate the knowledge from the old classes to the new classes. The key idea is to enforce the popularly used conditional batch normalization (BN) to learn the class-specific information of the new classes from that of the old classes, with implicit knowledge sharing among the new ones. This allows for an efficient knowledge propagation from the old classes to the new classes, with the BN parameters increasing linearly with the number of new classes. The extensive evaluation demonstrates the clear superiority of the proposed method over state-of-the-art competitors for efficient conditional GAN transfer tasks. The code will be available at: https://github.com/m shahbazi72/cGANTrans fer
翻訳日:2021-02-15 19:40:34 公開日:2021-02-12
# (参考訳) 神経逆テキスト正規化 [全文訳有]

Neural Inverse Text Normalization ( http://arxiv.org/abs/2102.06380v1 )

ライセンス: CC BY 4.0
Monica Sunkara, Chaitanya Shivade, Sravan Bodapati, Katrin Kirchhoff(参考訳) テキスト正規化技術の現状を探る貢献はいくつかあるが、逆テキスト正規化(ITN)の問題はいまだに未解明のままである。 最もよく知られているアプローチは、手動でキュレーションされたルールに依存し、したがってスケーラブルではない有限状態トランスデューサ(FST)ベースのモデルを利用します。 トランスベースのseq2seqモデルとFSTベースのテキスト正規化技術を活用したITNのための効率的で堅牢なニューラルネットワークソリューションを提案します。 言語の専門家が手作業でカリキュラムを作成する必要なく、他の言語に簡単に拡張できることが示される。 次に、N Neural ITNとFSTを統合するためのハイブリッドフレームワークを提案し、本番環境における一般的な回復可能なエラーを克服する。 提案手法は,asr出力に対する不正確な摂動(インセプション,削除,置換)を最小化し,ドメインデータ外においても高品質を維持する。 事前トレーニングと融合したトランスフォーマーベースのモデルは、複数のデータセットにまたがって低いワールを達成し、英語、スペイン語、ドイツ語、イタリア語のデータセットのベースラインを上回ることができる。

While there have been several contributions exploring state of the art techniques for text normalization, the problem of inverse text normalization (ITN) remains relatively unexplored. The best known approaches leverage finite state transducer (FST) based models which rely on manually curated rules and are hence not scalable. We propose an efficient and robust neural solution for ITN leveraging transformer based seq2seq models and FST-based text normalization techniques for data preparation. We show that this can be easily extended to other languages without the need for a linguistic expert to manually curate them. We then present a hybrid framework for integrating Neural ITN with an FST to overcome common recoverable errors in production environments. Our empirical evaluations show that the proposed solution minimizes incorrect perturbations (insertions, deletions and substitutions) to ASR output and maintains high quality even on out of domain data. A transformer based model infused with pretraining consistently achieves a lower WER across several datasets and is able to outperform baselines on English, Spanish, German and Italian datasets.
翻訳日:2021-02-15 19:22:46 公開日:2021-02-12
# (参考訳) 言語モデルに関する多元的視点 [全文訳有]

Multiversal views on language models ( http://arxiv.org/abs/2102.06391v1 )

ライセンス: CC BY 4.0
Laria Reynolds and Kyle McDonell(参考訳) GPT-3のような言語モデルの好意性は、執筆における人間とAIのコラボレーションの可能性の新しい世界を開く。 本稿では,生成言語モデルがマルチバースジェネレータとして概念化される枠組みを提案する。 このフレームワークは、人間の想像力にも適用され、フィクションの読み書き方法の中心となります。 私たちは、人間の想像力とAIを組み合わせ、非線形フィクションを書き、探求し、理解することを可能にする新しい形のインターフェースを通じて、この共通点を探求することを求めます。 我々は,新しい多言語GPT-3支援書込みインタフェースを開発し,テストすることによって,このアプローチを積極的に進めることから得られた早期知見について論じる。

The virtuosity of language models like GPT-3 opens a new world of possibility for human-AI collaboration in writing. In this paper, we present a framework in which generative language models are conceptualized as multiverse generators. This framework also applies to human imagination and is core to how we read and write fiction. We call for exploration into this commonality through new forms of interfaces which allow humans to couple their imagination to AI to write, explore, and understand non-linear fiction. We discuss the early insights we have gained from actively pursuing this approach by developing and testing a novel multiversal GPT-3-assisted writing interface.
翻訳日:2021-02-15 19:10:59 公開日:2021-02-12
# (参考訳) EvoSplit: 複数ラベルデータセットを非結合なサブセットに分割する進化的アプローチ [全文訳有]

EvoSplit: An evolutionary approach to split a multi-label data set into disjoint subsets ( http://arxiv.org/abs/2102.06154v2 )

ライセンス: CC BY 4.0
Francisco Florez-Revuelta(参考訳) 本稿では、教師付き機械学習のための非結合サブセットにマルチラベルデータセットを分散するための新しい進化的アプローチであるEvoSplitを提案する。 現在、データセットプロバイダは、データセットをランダムに分割するか、あるいは元のデータセットのラベル(またはラベルペア)分布を異なるサブセットに維持することを目的とした反復成層法を用いている。 同じ目的に続き、本論文はまず、これらの分布の類似性を独立に最大化する分割を求める、単目的進化的アプローチを提案する。 次に,両分布(ラベルとラベルペア)を同時に考慮し,類似性を最大化するために,新たな多目的進化アルゴリズムを提案する。 どちらのアプローチも、よく知られたマルチラベルデータセットと、現在コンピュータビジョンや機械学習アプリケーションで使われている大規模な画像データセットを使用して検証される。 EvoSplitは、ラベル分布、ラベルペア分布、例分布、折り畳みおよび折り畳みラベルペアの0の例に従って反復的な階層化と比較して、データセットの分割を改善します。

This paper presents a new evolutionary approach, EvoSplit, for the distribution of multi-label data sets into disjoint subsets for supervised machine learning. Currently, data set providers either divide a data set randomly or using iterative stratification, a method that aims to maintain the label (or label pair) distribution of the original data set into the different subsets. Following the same aim, this paper first introduces a single-objective evolutionary approach that tries to obtain a split that maximizes the similarity between those distributions independently. Second, a new multi-objective evolutionary algorithm is presented to maximize the similarity considering simultaneously both distributions (label and label pair). Both approaches are validated using well-known multi-label data sets as well as large image data sets currently used in computer vision and machine learning applications. EvoSplit improves the splitting of a data set in comparison to the iterative stratification following different measures: Label Distribution, Label Pair Distribution, Examples Distribution, folds and fold-label pairs with zero positive examples.
翻訳日:2021-02-15 19:04:49 公開日:2021-02-12
# (参考訳) Broad-UNet: マルチスケールな機能学習 [全文訳有]

Broad-UNet: Multi-scale feature learning for nowcasting tasks ( http://arxiv.org/abs/2102.06442v1 )

ライセンス: CC BY-SA 4.0
Jesus Garcia Fernandez, Siamak Mehrkanoon(参考訳) 気象予報は、気象成分を短期的に高分解能で予測するものである。 多くの人間の活動に影響を与えているため、現在正確なキャスティングが注目されている。 本稿では,衛星画像を用いた画像から画像への変換問題として,nowcasting問題を扱う。 我々は,この問題を解決するために,コアUNetモデルに基づく新しいアーキテクチャであるBroad-UNetを紹介した。 特に、提案されたbroad-unetは、arous spatial pyramid pooling (aspp)モジュールと同様に、非対称な並列畳み込みを備える。 このように、Broad-UNetモデルは、コアUNetモデルよりも少ないパラメータを使用しながら、マルチスケール機能を組み合わせることで、より複雑なパターンを学習します。 提案モデルは2つの異なるnowcastingタスクに適用される。 降水マップおよび雲カバー今のキャスト。 その結果,導入したBroad-UNetモデルでは,他のアーキテクチャと比較して精度の高い予測が可能であった。

Weather nowcasting consists of predicting meteorological components in the short term at high spatial resolutions. Due to its influence in many human activities, accurate nowcasting has recently gained plenty of attention. In this paper, we treat the nowcasting problem as an image-to-image translation problem using satellite imagery. We introduce Broad-UNet, a novel architecture based on the core UNet model, to efficiently address this problem. In particular, the proposed Broad-UNet is equipped with asymmetric parallel convolutions as well as Atrous Spatial Pyramid Pooling (ASPP) module. In this way, The the Broad-UNet model learns more complex patterns by combining multi-scale features while using fewer parameters than the core UNet model. The proposed model is applied on two different nowcasting tasks, i.e. precipitation maps and cloud cover nowcasting. The obtained numerical results show that the introduced Broad-UNet model performs more accurate predictions compared to the other examined architectures.
翻訳日:2021-02-15 18:01:36 公開日:2021-02-12
# (参考訳) スケーラブルベイジアン逆強化学習 [全文訳有]

Scalable Bayesian Inverse Reinforcement Learning ( http://arxiv.org/abs/2102.06483v1 )

ライセンス: CC BY 4.0
Alex J. Chan and Mihaela van der Schaar(参考訳) 報酬に対するベイズ的推論は、逆強化学習問題の誤った性質に対する理想的な解である。 残念なことに、現在の手法は、インナーループのMDPソルバを必要とするため、一般に小さな表のセッティングをはるかに超えておらず、また、それ自体をスケールする非ベイズ的手法でさえ、環境との広範囲な相互作用を必要とし、高い利害関係や医療のようなコストのかかる応用には不適当である。 本論文では,これらの2つの問題に対して,任意に複雑な状態空間にスケールする報酬に対する近似的後方分布を,その中間報酬に対する変動的アプローチにより,完全にオフラインで学習する手法である,近似的変分報酬推定学習(Approximate Variational Reward Imitation Learning, AVRIL)を提案する。 本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論と,集中型オフライン模倣学習アルゴリズムと競合するタスクパフォーマンスを実証する。

Bayesian inference over the reward presents an ideal solution to the ill-posed nature of the inverse reinforcement learning problem. Unfortunately current methods generally do not scale well beyond the small tabular setting due to the need for an inner-loop MDP solver, and even non-Bayesian methods that do themselves scale often require extensive interaction with the environment to perform well, being inappropriate for high stakes or costly applications such as healthcare. In this paper we introduce our method, Approximate Variational Reward Imitation Learning (AVRIL), that addresses both of these issues by jointly learning an approximate posterior distribution over the reward that scales to arbitrarily complicated state spaces alongside an appropriate policy in a completely offline manner through a variational approach to said latent reward. Applying our method to real medical data alongside classic control simulations, we demonstrate Bayesian reward inference in environments beyond the scope of current methods, as well as task performance competitive with focused offline imitation learning algorithms.
翻訳日:2021-02-15 17:33:00 公開日:2021-02-12
# (参考訳) ロックフォール検出のためのエンドツーエンドインテリジェントフレームワーク [全文訳有]

End-to-End Intelligent Framework for Rockfall Detection ( http://arxiv.org/abs/2102.06491v1 )

ライセンス: CC BY 4.0
Thanasis Zoumpekas, Anna Puig, Maria Salam\'o, David Garc\'ia-Sell\'es, Laura Blanco Nu\~nez, Marta Guinau(参考訳) 岩石の検出は地質学の分野で重要な手順であり、関連するリスクを減らすのに役立ちます。 現在、地質学者は、地球レーザースキャナーやデジタルカメラなどのさまざまなキャプションデバイスから得られたポイントクラウドと画像データを使用して、ほぼ手動で岩石のイベントを特定します。 これらの技術で得られた点群の多時間的比較は、人間の専門知識やセンサーの感度などのいくつかの要因に依存する不正確さを示唆する岩石のイベントを識別するために面倒な視覚検査を必要とします。 本稿では,この課題に対処し,地質領域と意思決定支援システムの交差点で働く個人に対して,ロックフォールイベント検出のためのインテリジェントなフレームワークを提供する。 このような分析フレームワークの開発は、重要な研究課題を引き起こし、集中的な実験分析を正当化する。 特に,複数の機械学習アルゴリズムを用いて,ポイントクラウドデータのロックフォールクラスタを検出するインテリジェントシステムを提案する。 問題の極めて不均衡な性質から,複数のモデルと特徴選択手順を伴って,最先端の再サンプリング手法が数多く検討されている。 さまざまな機械学習パイプラインの組み合わせをベンチマークし、システムに組み込むためのよく知られたメトリクスを適用して比較した。 具体的には, 統計的および機械学習手法を開発し, 地上レーザースキャナから抽出した点雲データを, 地質学的文脈の異なる2つの異なるケーススタディ, スペインに分布するカステルフォリット・デ・ラ・ロカの玄武岩崖とコングロマリット・モンセラト・マッシフを用いて解析した。 実験データから,上述した機械学習パイプラインのいくつかは,山壁の落石事故を,実験的に証明された精度で検出できる可能性が示唆された。

Rockfall detection is a crucial procedure in the field of geology, which helps to reduce the associated risks. Currently, geologists identify rockfall events almost manually utilizing point cloud and imagery data obtained from different caption devices such as Terrestrial Laser Scanner or digital cameras. Multi-temporal comparison of the point clouds obtained with these techniques requires a tedious visual inspection to identify rockfall events which implies inaccuracies that depend on several factors such as human expertise and the sensibility of the sensors. This paper addresses this issue and provides an intelligent framework for rockfall event detection for any individual working in the intersection of the geology domain and decision support systems. The development of such an analysis framework poses significant research challenges and justifies intensive experimental analysis. In particular, we propose an intelligent system that utilizes multiple machine learning algorithms to detect rockfall clusters of point cloud data. Due to the extremely imbalanced nature of the problem, a plethora of state-of-the-art resampling techniques accompanied by multiple models and feature selection procedures are being investigated. Various machine learning pipeline combinations have been benchmarked and compared applying well-known metrics to be incorporated into our system. Specifically, we developed statistical and machine learning techniques and applied them to analyze point cloud data extracted from Terrestrial Laser Scanner in two distinct case studies, involving different geological contexts: the basaltic cliff of Castellfollit de la Roca and the conglomerate Montserrat Massif, both located in Spain. Our experimental data suggest that some of the above-mentioned machine learning pipelines can be utilized to detect rockfall incidents on mountain walls, with experimentally proven accuracy.
翻訳日:2021-02-15 17:14:56 公開日:2021-02-12
# (参考訳) 深部潜伏変動モデルによる因果効果の同定可能性に関する批判的考察 [全文訳有]

A Critical Look At The Identifiability of Causal Effects with Deep Latent Variable Models ( http://arxiv.org/abs/2102.06648v1 )

ライセンス: CC BY 4.0
Severi Rissanen, Pekka Marttinen(参考訳) 因果推論における深い潜在変数モデルの使用は、最近かなりの関心を集めているが、重要なオープンな質問は、それらの識別可能性である。 それらは有望な結果をもたらし、いくつかの単純なモデル定式化の識別可能性に理論が存在するが、因果効果が一般に潜伏変数と同一視できないことも分かっている。 本研究では, 因果効果変動オートエンコーダ(CEVAE)をケーススタディとして, 複数の合成および実世界のデータセットに基づく理論的考察と広範な実験により, 理論と実験結果のギャップについて検討する。 CEVAEはいくつかの単純なシナリオで確実に機能するように見えるが、モデルの本来の目的とは対照的に、不特定な潜在変数や複雑なデータ分布による正しい因果効果は特定できない。 その結果,識別可能性の問題は無視できないことが明らかとなり,今後の作業でさらに注意を払わなければならないと論じた。

Using deep latent variable models in causal inference has attracted considerable interest recently, but an essential open question is their identifiability. While they have yielded promising results and theory exists on the identifiability of some simple model formulations, we also know that causal effects cannot be identified in general with latent variables. We investigate this gap between theory and empirical results with theoretical considerations and extensive experiments under multiple synthetic and real-world data sets, using the causal effect variational autoencoder (CEVAE) as a case study. While CEVAE seems to work reliably under some simple scenarios, it does not identify the correct causal effect with a misspecified latent variable or a complex data distribution, as opposed to the original goals of the model. Our results show that the question of identifiability cannot be disregarded, and we argue that more attention should be paid to it in future work.
翻訳日:2021-02-15 16:39:43 公開日:2021-02-12
# (参考訳) Intelligent Software Web Agents: ギャップ分析

Intelligent Software Web Agents: A Gap Analysis ( http://arxiv.org/abs/2102.06607v1 )

ライセンス: CC BY 4.0
Sabrina Kirrane(参考訳) セマンティックウェブ技術は、特に知識表現、推論、データ統合に関して、その有効性を示しています。 しかし、マシン可読なWebデータをインテリジェントなソフトウェアWebエージェントによって自動的に操作できるオリジナルのセマンティックWebビジョンは、まだ実現されていない。 本稿では,既存の技術的課題と機会をよりよく理解するために,そのエージェントコミュニティからの要求やアーキテクチャの構成要素に関する研究によって導かれる,インテリジェントなソフトウェアWebエージェントの立場を考察する。 まず、インテリジェントなソフトウェアエージェントに関する要件とコアアーキテクチャコンポーネントの照合と要約から始めます。 その後、特定された要件を使用して、ユースケースシナリオを動機づけるセマンティックウェブエージェントのさらなる詳細化と、セマンティックWebエージェント文学に関する要件に関するさまざまな視点の要約の両方を行います。 最後に,ハイブリッドなセマンティックWebエージェントアーキテクチャを提案し,既存のセマンティックWeb標準が果たす役割について議論し,セマンティックWebエージェントのビジョンを現実化するのに役立つような,より広範なセマンティックWebコミュニティにおける既存の作業を指し示す。

Semantic web technologies have shown their effectiveness, especially when it comes to knowledge representation, reasoning, and data integrations. However, the original semantic web vision, whereby machine readable web data could be automatically actioned upon by intelligent software web agents, has yet to be realised. In order to better understand the existing technological challenges and opportunities, in this paper we examine the status quo in terms of intelligent software web agents, guided by research with respect to requirements and architectural components, coming from that agents community. We start by collating and summarising requirements and core architectural components relating to intelligent software agent. Following on from this, we use the identified requirements to both further elaborate on the semantic web agent motivating use case scenario, and to summarise different perspectives on the requirements when it comes to semantic web agent literature. Finally, we propose a hybrid semantic web agent architecture, discuss the role played by existing semantic web standards, and point to existing work in the broader semantic web community any beyond that could help us to make the semantic web agent vision a reality.
翻訳日:2021-02-15 16:12:48 公開日:2021-02-12
# (参考訳) 農業移動ロボットのシーン認識のための意味セグメンテーションのマルチソース擬似ラベル学習 [全文訳有]

Multi-source Pseudo-label Learning of Semantic Segmentation for the Scene Recognition of Agricultural Mobile Robots ( http://arxiv.org/abs/2102.06386v1 )

ライセンス: CC BY 4.0
Shigemichi Matsuzaki, Jun Miura and Hiroaki Masuzawa(参考訳) 本論文では, 農業用移動ロボットの環境認識のためのセマンティックセグメンテーションモデルを, 温室環境と異なる屋外シーンの公開データセットを利用した非監視領域適応により訓練する方法について述べる。 従来の意味セグメンテーションでは、ラベルは手動アノテーションによって与えられ、退屈で時間のかかる作業である。 手動アノテーションの必要性を回避する方法は、ラベル付きソースデータセットからラベル付きターゲットデータセットに知識を転送する非監視ドメイン適応(UDA)である。 セマンティックセグメンテーションのUDA手法のほとんどは、都市シーンの非フォトリアリスティック合成画像から実際のシーンへの適応タスクによって検証されている。 しかし、温室などの他のタイプの環境への適応の場合、この方法の有効性は十分に研究されていません。 さらに、このような環境に対して適切なソースデータセットを準備できるとは限らない。 本稿では,温室効果画像のモデルを学習するためのタスクとして,既存のudaのトレーニング手法を採用する。 外部画像の複数の公開データセットをソースデータセットとして利用するとともに,外観の異なるソースデータセットからの知識と,対象データセットからのラベルセットを転送することにより,疑似ラベル生成の簡便かつ効果的な方法を提案する。 本研究では,提案した擬似ラベル生成法と既存のトレーニング法を組み合わせることで,mIoUの最大14.3%の性能が,単一ソーストレーニングのベストスコアと比較して向上したことを実証した。

This paper describes a novel method of training a semantic segmentation model for environment recognition of agricultural mobile robots by unsupervised domain adaptation exploiting publicly available datasets of outdoor scenes that are different from our target environments i.e., greenhouses. In conventional semantic segmentation methods, the labels are given by manual annotation, which is a tedious and time-consuming task. A method to work around the necessity of the manual annotation is unsupervised domain adaptation (UDA) that transfer knowledge from labeled source datasets to unlabeled target datasets. Most of the UDA methods of semantic segmentation are validated by tasks of adaptation from non-photorealistic synthetic images of urban scenes to real ones. However, the effectiveness of the methods is not well studied in the case of adaptation to other types of environments, such as greenhouses. In addition, it is not always possible to prepare appropriate source datasets for such environments. In this paper, we adopt an existing training method of UDA to a task of training a model for greenhouse images. We propose to use multiple publicly available datasets of outdoor images as source datasets, and also propose a simple yet effective method of generating pseudo-labels by transferring knowledge from the source datasets that have different appearance and a label set from the target datasets. We demonstrate in experiments that by combining our proposed method of pseudo-label generation with the existing training method, the performance was improved by up to 14.3% of mIoU compared to the best score of the single-source training.
翻訳日:2021-02-15 16:11:47 公開日:2021-02-12
# (参考訳) 超解像度画像の多様なバージョンを幻覚する生成モデル [全文訳有]

A Generative Model for Hallucinating Diverse Versions of Super Resolution Images ( http://arxiv.org/abs/2102.06624v1 )

ライセンス: CC BY 4.0
Mohamed Abderrahmen Abid, Ihsen Hedhli, Christian Gagn\'e(参考訳) 伝統的に、イメージスーパーレゾリューション技術の主な焦点は、低画質の画像から最も可能性が高い高品質な画像を1対1の低解像度マッピングを使って復元することである。 このようにして、特定の低解像度画像にマップする高分解能画像の有効なバージョンが一般に多数存在するという事実を無視します。 我々は、生成逆数モデルを用いて、同じ低解像度画像から異なる高解像度バージョンを得るという問題に取り組んでいる。 学習手法では,高分解能画像の学習に高周波数を活用し,これらの画像に含まれる構造情報を教師なしで保存・探索する。 CelebAデータセットの実験結果は、提案手法の有効性を検証し、低解像度画像から現実的および多様な高解像度画像の両方を生成することができる。

Traditionally, the main focus of image super-resolution techniques is on recovering the most likely high-quality images from low-quality images, using a one-to-one low- to high-resolution mapping. Proceeding that way, we ignore the fact that there are generally many valid versions of high-resolution images that map to a given low-resolution image. We are tackling in this work the problem of obtaining different high-resolution versions from the same low-resolution image using Generative Adversarial Models. Our learning approach makes use of high frequencies available in the training high-resolution images for preserving and exploring in an unsupervised manner the structural information available within these images. Experimental results on the CelebA dataset confirm the effectiveness of the proposed method, which allows the generation of both realistic and diverse high-resolution images from low-resolution images.
翻訳日:2021-02-15 15:51:04 公開日:2021-02-12
# (参考訳) Dual Hypergraph Convolutional Networks を用いた多重二部ネットワーク埋め込み [全文訳有]

Multiplex Bipartite Network Embedding using Dual Hypergraph Convolutional Networks ( http://arxiv.org/abs/2102.06371v1 )

ライセンス: CC BY 4.0
Hansheng Xue and Luwei Yang and Vaibhav Rajan and Wen Jiang and Yi Wei and Yu Lin(参考訳) バイパートネットワークは、ノードが2つの異なるドメインから成り、領域間相互作用のみがエッジとして存在するグラフ構造である。 一般グラフからベクトルノード表現を学習するネットワーク埋め込み法は、等質なノードと異質なノードとエッジタイプの両方があり、その中には二部ネットワークの異なる特性をモデル化するものもある。 しかし、これらの手法は複数種類の相互作用(クリック、問い合わせ、購入など)とノード属性を持つ多重二部ネットワーク(eコマースなど)をモデル化するには不十分である。 ほとんどの実世界の多重二部ネットワークは疎結合であり、モデル化が難しい不均衡なノード分布を持つ。 本稿では、多重化二部グラフネットワークを2組の均一なハイパーグラフに変換するための教師なしデュアルハイパーグラフ畳み込みネットワーク(DualHGCN)モデルを開発し、スペクトルハイパーグラフ畳み込み演算子と、ドメイン内およびドメイン間の情報交換を促進するためのメッセージ間通信戦略を用いて、効率的なノード埋め込みを学習する。 リンク予測とノード分類タスクの4つの実世界のデータセットを用いてDualHGCNをベンチマークする。 広範な実験により,dualhgcnは最先端の手法を著しく上回っており,スパルシリティレベルや不均衡ノード分布に頑健であることが示された。

A bipartite network is a graph structure where nodes are from two distinct domains and only inter-domain interactions exist as edges. A large number of network embedding methods exist to learn vectorial node representations from general graphs with both homogeneous and heterogeneous node and edge types, including some that can specifically model the distinct properties of bipartite networks. However, these methods are inadequate to model multiplex bipartite networks (e.g., in e-commerce), that have multiple types of interactions (e.g., click, inquiry, and buy) and node attributes. Most real-world multiplex bipartite networks are also sparse and have imbalanced node distributions that are challenging to model. In this paper, we develop an unsupervised Dual HyperGraph Convolutional Network (DualHGCN) model that scalably transforms the multiplex bipartite network into two sets of homogeneous hypergraphs and uses spectral hypergraph convolutional operators, along with intra- and inter-message passing strategies to promote information exchange within and across domains, to learn effective node embedding. We benchmark DualHGCN using four real-world datasets on link prediction and node classification tasks. Our extensive experiments demonstrate that DualHGCN significantly outperforms state-of-the-art methods, and is robust to varying sparsity levels and imbalanced node distributions.
翻訳日:2021-02-15 15:27:09 公開日:2021-02-12
# (参考訳) ウィキペディアの大規模きめ細かいコンテキスト広告分類器のブートストラップ [全文訳有]

Bootstrapping Large-Scale Fine-Grained Contextual Advertising Classifier from Wikipedia ( http://arxiv.org/abs/2102.06429v1 )

ライセンス: CC BY 4.0
Yiping Jin, Vishakha Kadam, Dittaya Wanvarie(参考訳) コンテキスト広告は、広告主に広告に最も関連するコンテキストをターゲットにする機会を提供します。 ただし、"automotive" と "sport" の代わりに "coupe" と "hatchback" といった細かいカテゴリを使ってページコンテンツをターゲットにしなければ、そのパワーは十分に利用できません。 広く使われている広告コンテンツ分類(IAB分類)は、23の粗粒度と355の細粒度からなる。 カテゴリが多ければ多いほど、教師付き分類モデルを構築するためのトレーニングドキュメントの収集や、ルールベースの分類システムにおける専門家によるルールの作成が極めて困難になる。 さらに細かな分類では、異なる分類が重なり合うか共起することが多く、正確な分類は困難である。 本研究では,ウィキペディアのカテゴリグラフをタップして,大規模細粒テキスト分類の課題に取り組む手法であるwiki2catを提案する。 IAB分類のカテゴリは、最初にグラフのカテゴリノードにマップされます。 その後、ラベルはグラフ全体に伝播し、テキスト分類器を誘導するラベル付きWikipedia文書のリストを取得します。 この方法は、手書きの文書や手書きのルールやキーワードを必要としないため、大規模な分類問題に最適です。 提案手法は,様々な学習ベースおよびキーワードベースラインでベンチマークし,公開データセットと300以上の細粒度カテゴリを含む新しいデータセットの競合性能を示す。

Contextual advertising provides advertisers with the opportunity to target the context which is most relevant to their ads. However, its power cannot be fully utilized unless we can target the page content using fine-grained categories, e.g., "coupe" vs. "hatchback" instead of "automotive" vs. "sport". The widely used advertising content taxonomy (IAB taxonomy) consists of 23 coarse-grained categories and 355 fine-grained categories. With the large number of categories, it becomes very challenging either to collect training documents to build a supervised classification model, or to compose expert-written rules in a rule-based classification system. Besides, in fine-grained classification, different categories often overlap or co-occur, making it harder to classify accurately. In this work, we propose wiki2cat, a method to tackle the problem of large-scaled fine-grained text classification by tapping on Wikipedia category graph. The categories in IAB taxonomy are first mapped to category nodes in the graph. Then the label is propagated across the graph to obtain a list of labeled Wikipedia documents to induce text classifiers. The method is ideal for large-scale classification problems since it does not require any manually-labeled document or hand-curated rules or keywords. The proposed method is benchmarked with various learning-based and keyword-based baselines and yields competitive performance on both publicly available datasets and a new dataset containing more than 300 fine-grained categories.
翻訳日:2021-02-15 15:05:18 公開日:2021-02-12
# (参考訳) スマートフォンにおけるマルウェア検出とデータ盗難分類のための非侵入型機械学習ソリューション [全文訳有]

A Non-Intrusive Machine Learning Solution for Malware Detection and Data Theft Classification in Smartphones ( http://arxiv.org/abs/2102.06511v1 )

ライセンス: CC BY 4.0
Sai Vishwanath Venkatesh, Prasanna D. Kumaran, Joish J Bosco, Pravin R. Kumaar, Vineeth Vijayaraghavan(参考訳) スマートフォンには、コンピューターやラップトップよりも敏感で個人的な情報が含まれている。 スマートフォン機能の汎用性の増加に伴い、より多くのデータが脆弱になり、攻撃者に露出しています。 モバイルマルウェア攻撃に成功すれば、ユーザーの位置情報、写真、銀行情報さえ盗むことができる。 攻撃後戦略の欠如により、企業はデータ盗難により事業から撤退するリスクも負う。 したがって、スマートフォンのマルウェア侵入を検出するだけでなく、盗まれたデータを識別して評価し、回復を助け、将来の攻撃を防ぐ必要があります。 本稿では,マルウェア侵入を検知するだけでなく,監視対象のアプリで盗まれたデータの種類を識別する,アクセス可能な非侵入型機械学習ソリューションを提案する。 公開データ収集フレームワークSherLockを使用して取得したAndroidの使用データでこれを行います。 我々は,同一フレームワークを用いて収集した実世界データに対して,複数のユーザを対象としたアーキテクチャの性能をテストする。 我々のアーキテクチャは、マルウェアの検出において9%未満の不正確さを示し、盗まれたデータの種類について83%の確度で分類することができる。

Smartphones contain information that is more sensitive and personal than those found on computers and laptops. With an increase in the versatility of smartphone functionality, more data has become vulnerable and exposed to attackers. Successful mobile malware attacks could steal a user's location, photos, or even banking information. Due to a lack of post-attack strategies firms also risk going out of business due to data theft. Thus, there is a need besides just detecting malware intrusion in smartphones but to also identify the data that has been stolen to assess, aid in recovery and prevent future attacks. In this paper, we propose an accessible, non-intrusive machine learning solution to not only detect malware intrusion but also identify the type of data stolen for any app under supervision. We do this with Android usage data obtained by utilising publicly available data collection framework- SherLock. We test the performance of our architecture for multiple users on real-world data collected using the same framework. Our architecture exhibits less than 9% inaccuracy in detecting malware and can classify with 83% certainty on the type of data that is being stolen.
翻訳日:2021-02-15 14:53:01 公開日:2021-02-12
# (参考訳) コーデックへのエンハンシング:ベクトル量子オートエンコーダによる雑音ロバスト音声符号化 [全文訳有]

Enhancing into the codec: Noise Robust Speech Coding with Vector-Quantized Autoencoders ( http://arxiv.org/abs/2102.06610v1 )

ライセンス: CC BY 4.0
Jonah Casebeer, Vinjai Vale, Umut Isik, Jean-Marc Valin, Ritwik Giri, Arvindh Krishnaswamy(参考訳) 離散化ニューラルオートエンコーダに基づくオーディオコーデックが最近開発され、同等の品質の音声出力に対して、かなり高い圧縮レベルを提供することが示された。 しかし、これらのモデルは音声コンテンツと密結合しており、雑音下で意図しない出力を生成する。 WaveRNNデコーダを搭載したVQ-VAEオートエンコーダをベースに、コンプレッサーエンハンサーエンコーダと付属デコーダを開発し、ノイズの多い条件下での動作を示します。 また、コンプレッサーエンハンサーモデルは、クリーンな音声のみに訓練されたコンプレッサーモデルよりもクリーンな音声入力で優れた性能を発揮します。

Audio codecs based on discretized neural autoencoders have recently been developed and shown to provide significantly higher compression levels for comparable quality speech output. However, these models are tightly coupled with speech content, and produce unintended outputs in noisy conditions. Based on VQ-VAE autoencoders with WaveRNN decoders, we develop compressor-enhancer encoders and accompanying decoders, and show that they operate well in noisy conditions. We also observe that a compressor-enhancer model performs better on clean speech inputs than a compressor model trained only on clean speech.
翻訳日:2021-02-15 14:43:22 公開日:2021-02-12
# (参考訳) パーソナライズド・ビジュアライゼーション

Personalized Visualization Recommendation ( http://arxiv.org/abs/2102.06343v1 )

ライセンス: CC BY 4.0
Xin Qian, Ryan A. Rossi, Fan Du, Sungchul Kim, Eunyee Koh, Sana Malik, Tak Yeon Lee, Nesreen K. Ahmed(参考訳) 視覚化の推奨作業は、実際のユーザと過去の視覚化フィードバックではなく、基盤となるデータセットに基づいて視覚化をスコアリングすることのみに焦点を当てています。 これらのシステムはすべてのユーザに対して同じ視覚化を推奨するが、基本的なユーザの関心、意図、視覚化の好みは根本的に異なるが、極めて重要である。 本研究では,パーソナライズド・ビジュアライゼーション・レコメンデーションの問題を正式に導入し,それを解決するための汎用学習フレームワークを提案する。 特に,過去の可視化インタラクション(閲覧,クリック,手作業による生成など)とそれらの可視化データに基づいて,個々のユーザに対してパーソナライズされた可視化を推奨する。 さらに重要なのは、完全に異なるデータセットから視覚化が生成される場合でも、フレームワークが他のユーザに関連する視覚化から学ぶことができることだ。 実験は、特定のユーザーの意図や好みに合わせて高品質の視覚化推奨につながるアプローチの有効性を実証します。 この新しい問題の研究を支援するため、ユーザ中心の可視化コーパスをリリースし、17.4kのユーザが230万の属性と32kのユーザ生成視覚化を備えた94kのデータセットを探索した。

Visualization recommendation work has focused solely on scoring visualizations based on the underlying dataset and not the actual user and their past visualization feedback. These systems recommend the same visualizations for every user, despite that the underlying user interests, intent, and visualization preferences are likely to be fundamentally different, yet vitally important. In this work, we formally introduce the problem of personalized visualization recommendation and present a generic learning framework for solving it. In particular, we focus on recommending visualizations personalized for each individual user based on their past visualization interactions (e.g., viewed, clicked, manually created) along with the data from those visualizations. More importantly, the framework can learn from visualizations relevant to other users, even if the visualizations are generated from completely different datasets. Experiments demonstrate the effectiveness of the approach as it leads to higher quality visualization recommendations tailored to the specific user intent and preferences. To support research on this new problem, we release our user-centric visualization corpus consisting of 17.4k users exploring 94k datasets with 2.3 million attributes and 32k user-generated visualizations.
翻訳日:2021-02-15 14:24:13 公開日:2021-02-12
# (参考訳) 物理インフォームドグラフィカルニューラルネットワークによる電力系統のパラメータと状態推定 [全文訳有]

Physics-Informed Graphical Neural Network for Parameter & State Estimations in Power Systems ( http://arxiv.org/abs/2102.06349v1 )

ライセンス: CC BY 4.0
Laurent Pagnier and Michael Chertkov(参考訳) パラメータ推定(PE)と状態推定(SE)はシステム工学における最も幅広いタスクである。 測定が到着すると、自動的に、迅速かつ頻繁に行う必要があります。 ディープラーニング(dl)は課題に取り組むという約束を持っているが、これまでのところ、電力システムにおけるpeとseが懸念されているため、(a)電気の物理の欠如、解釈、(b) 運用体制においてデータが不足しているため、dlはシステムオペレーターの信頼を得られなかった。 そこで本論文では,電力システムの物理モデリングをGNN(Graphical Neural Networks)に組み込むハイブリッド方式を提案する。 PE と SE の信頼性の高い DL への進展を実現するため,実効電力ラインのアプタンスや NN パラメータなどの実効電力フロー(EPF)モデル内の物理的,解釈可能なパラメータを再構成し,非観測要素を暗黙的に表現する物理インフォームド手法である Power-GNN を構築した。 実験では、数千の負荷と数百の発電機を含む、さまざまな現実的な電力ネットワーク上でPower-GNNをテストする。 本稿では,Power-GNNがEPF物理を知らないバニラNN方式よりも優れていることを示す。

Parameter Estimation (PE) and State Estimation (SE) are the most wide-spread tasks in the system engineering. They need to be done automatically, fast and frequently, as measurements arrive. Deep Learning (DL) holds the promise of tackling the challenge, however in so far, as PE and SE in power systems is concerned, (a) DL did not win trust of the system operators because of the lack of the physics of electricity based, interpretations and (b) DL remained illusive in the operational regimes were data is scarce. To address this, we present a hybrid scheme which embeds physics modeling of power systems into Graphical Neural Networks (GNN), therefore empowering system operators with a reliable and explainable real-time predictions which can then be used to control the critical infrastructure. To enable progress towards trustworthy DL for PE and SE, we build a physics-informed method, named Power-GNN, which reconstructs physical, thus interpretable, parameters within Effective Power Flow (EPF) models, such as admittances of effective power lines, and NN parameters, representing implicitly unobserved elements of the system. In our experiments, we test the Power-GNN on different realistic power networks, including these with thousands of loads and hundreds of generators. We show that the Power-GNN outperforms vanilla NN scheme unaware of the EPF physics.
翻訳日:2021-02-15 14:22:54 公開日:2021-02-12
# (参考訳) 音声感情認識のための教師なし学習 [全文訳有]

Contrastive Unsupervised Learning for Speech Emotion Recognition ( http://arxiv.org/abs/2102.06357v1 )

ライセンス: CC BY 4.0
Mao Li, Bo Yang, Joshua Levy, Andreas Stolcke, Viktor Rozgic, Spyros Matsoukas, Constantinos Papayiannis, Daniel Bone, Chao Wang(参考訳) 音声感情認識(SER)は、より自然な人間と機械のコミュニケーションを可能にする重要な技術である。 しかし、SERは長い間、公開の大規模なラベル付きデータセットの欠如に悩まされてきた。 この問題を回避するために、ラベルなしデータセット上の教師なし表現学習がSERにどのように役立つかを調査します。 コントラスト予測符号化 (cpc) 法はラベルなしデータセットから有意な表現を学習でき, 感情認識性能が向上することを示す。 本実験では,IEMOCAPの全ての感情的プリミティブ(活性化,価率,支配)に対する最新コンコーダンス相関係数(CCC)性能を達成した。 また, MSP-Podcastデータセットでは, ベースラインと比較し, 大幅な性能改善を行った。

Speech emotion recognition (SER) is a key technology to enable more natural human-machine communication. However, SER has long suffered from a lack of public large-scale labeled datasets. To circumvent this problem, we investigate how unsupervised representation learning on unlabeled datasets can benefit SER. We show that the contrastive predictive coding (CPC) method can learn salient representations from unlabeled datasets, which improves emotion recognition performance. In our experiments, this method achieved state-of-the-art concordance correlation coefficient (CCC) performance for all emotion primitives (activation, valence, and dominance) on IEMOCAP. Additionally, on the MSP- Podcast dataset, our method obtained considerable performance improvements compared to baselines.
翻訳日:2021-02-15 14:03:02 公開日:2021-02-12
# (参考訳) 敵に対するバックアップ戦略の深層強化学習 [全文訳有]

Deep Reinforcement Learning for Backup Strategies against Adversaries ( http://arxiv.org/abs/2102.06632v1 )

ライセンス: CC BY 4.0
Pascal Debus, Nicolas M\"uller, Konstantin B\"ottinger(参考訳) サイバーセキュリティにおける多くの防衛措置は、いまだにヒューリスティック、標準手順のカタログ、ベストプラクティスに支配されている。 データバックアップ戦略を考慮し,脅威モデルと意思決定問題を数学的にモデル化することを目指す。 確率的プロセスの言語でバックアップ戦略を策定することで、最適な防御を見つけるという課題を強化学習問題に変換できます。 これにより、防衛プロセスの計画を最適に支援することを学ぶ自律エージェントを訓練できます。 特に、最適なバックアップスキームを見つけるという問題に対処する:$k$のバックアップデバイスが与えられた場合、その目標は、一度にデータに感染できる攻撃者に対して防御することであり、その後にそれを破壊または暗号化することを選択し、同時に複数のバックアップを破損させることである。 この設定では、常に古いバックアップを置き換える通常のラウンドロビンスキームは、回避可能な露出に関してもはや最適ではない。 そこで, 防衛戦略を見出すために, この問題を離散連続行動空間のハイブリッドなマルコフ決定過程としてモデル化し, 深い決定論的政策勾配を用いて解いた。 提案アルゴリズムは, 各種露光測定値に対して, 既存のスキームと一致する, 超過するストレージデバイス更新スキームを探索できることを示した。

Many defensive measures in cyber security are still dominated by heuristics, catalogs of standard procedures, and best practices. Considering the case of data backup strategies, we aim towards mathematically modeling the underlying threat models and decision problems. By formulating backup strategies in the language of stochastic processes, we can translate the challenge of finding optimal defenses into a reinforcement learning problem. This enables us to train autonomous agents that learn to optimally support planning of defense processes. In particular, we tackle the problem of finding an optimal backup scheme in the following adversarial setting: Given $k$ backup devices, the goal is to defend against an attacker who can infect data at one time but chooses to destroy or encrypt it at a later time, potentially also corrupting multiple backups made in between. In this setting, the usual round-robin scheme, which always replaces the oldest backup, is no longer optimal with respect to avoidable exposure. Thus, to find a defense strategy, we model the problem as a hybrid discrete-continuous action space Markov decision process and subsequently solve it using deep deterministic policy gradients. We show that the proposed algorithm can find storage device update schemes which match or exceed existing schemes with respect to various exposure metrics.
翻訳日:2021-02-15 13:54:23 公開日:2021-02-12
# PAC-BUS:PAC-Bayesによるメタ学習境界と均一安定性

PAC-BUS: Meta-Learning Bounds via PAC-Bayes and Uniform Stability ( http://arxiv.org/abs/2102.06589v1 )

ライセンス: Link先を確認
Alec Farid and Anirudha Majumdar(参考訳) 我々は、メタラーニングの文脈において強い一般化の保証を提供するという問題に動機づけられている。 既存の一般化境界は、比較的単純な設定でも評価または空の保証を提供することが困難である。 我々は「ベース」と「メタ」のレベルでの一般化の質的に異なる課題に対処するために、2つの異なる一般化フレームワークを用いて、勾配に基づくメタ学習にほぼ正しい(pac)バウンドを導出する。 ベースレベルで一様安定なアルゴリズムとメタレベルでのPAC-Bayesフレームワークとのバウンドにバウンドを用いる。 その結果、ベース学習者が素早く適応するとよりタイトなPACバウンドとなり、それは正確にメタ学習の目標です。 我々の境界は、単位球面上のおもちゃの非凸問題やテキストベースの分類例において、他の境界よりも厳密な保証を提供する。 また,境界がゆるい設定のバウンドに動機づけられた実用的な正規化スキームを示し,ベースライン手法よりも性能が向上することを示す。

We are motivated by the problem of providing strong generalization guarantees in the context of meta-learning. Existing generalization bounds are either challenging to evaluate or provide vacuous guarantees in even relatively simple settings. We derive a probably approximately correct (PAC) bound for gradient-based meta-learning using two different generalization frameworks in order to deal with the qualitatively different challenges of generalization at the "base" and "meta" levels. We employ bounds for uniformly stable algorithms at the base level and bounds from the PAC-Bayes framework at the meta level. The result is a PAC-bound that is tighter when the base learner adapts quickly, which is precisely the goal of meta-learning. We show that our bound provides a tighter guarantee than other bounds on a toy non-convex problem on the unit sphere and a text-based classification example. We also present a practical regularization scheme motivated by the bound in settings where the bound is loose and demonstrate improved performance over baseline techniques.
翻訳日:2021-02-15 13:25:29 公開日:2021-02-12
# 動的ユーザ関心のモデリング:ニューラルマトリックス因子化アプローチ

Modeling Dynamic User Interests: A Neural Matrix Factorization Approach ( http://arxiv.org/abs/2102.06602v1 )

ライセンス: Link先を確認
Paramveer Dhillon and Sinan Aral(参考訳) 近年,ユーザのオンラインコンテンツ消費パターンを理解することへの関心が高まっている。 しかし、そのようなデータの非構造化、高次元、動的性質は、貴重な洞察の抽出を困難にします。 本稿では,行列ファクタリゼーションの単純化とニューラルネットワークの柔軟性を組み合わせて,消費者のオンライン消費パターンに関連する膨大なテキストデータコレクションから非線形パターンを効率的に抽出するモデルを提案する。 本モデルでは,ユーザのコンテンツ消費経路を,動的興味をモデル化するために使用される非線形ユーザとコンテンツファクタに分解する。 この自然な分解により、各ユーザのコンテンツ消費ジャーニーを、基礎となるコンテンツ属性のセットに対する動的確率重み付けで要約することができます。 モデルは推定が高速で、解釈が簡単で、外部データソースを経験的事前として活用することができる。 これらの利点により、この手法は現代のデータセットの課題によく適合します。 当社のモデルを使って、ボストン・グローブ読者の5年間での動的ニュース消費利益を理解する。 クラウドソースによる評価を含む詳細な質的研究は、ニュアンスとコヒーレントな消費パターンを正確に識別するモデルの能力を強調します。 これらの結果は、いくつかの競争力のあるベースライン方法よりも優れた堅牢な予測性能によってサポートされています。

In recent years, there has been significant interest in understanding users' online content consumption patterns. But, the unstructured, high-dimensional, and dynamic nature of such data makes extracting valuable insights challenging. Here we propose a model that combines the simplicity of matrix factorization with the flexibility of neural networks to efficiently extract nonlinear patterns from massive text data collections relevant to consumers' online consumption patterns. Our model decomposes a user's content consumption journey into nonlinear user and content factors that are used to model their dynamic interests. This natural decomposition allows us to summarize each user's content consumption journey with a dynamic probabilistic weighting over a set of underlying content attributes. The model is fast to estimate, easy to interpret and can harness external data sources as an empirical prior. These advantages make our method well suited to the challenges posed by modern datasets. We use our model to understand the dynamic news consumption interests of Boston Globe readers over five years. Thorough qualitative studies, including a crowdsourced evaluation, highlight our model's ability to accurately identify nuanced and coherent consumption patterns. These results are supported by our model's superior and robust predictive performance over several competitive baseline methods.
翻訳日:2021-02-15 13:25:10 公開日:2021-02-12
# sparse-push: 非iidデータセットを用いた有向および時変グラフ上のコミュニケーションとエネルギー効率の高い分散学習

Sparse-Push: Communication- & Energy-Efficient Decentralized Distributed Learning over Directed & Time-Varying Graphs with non-IID Datasets ( http://arxiv.org/abs/2102.05715v2 )

ライセンス: Link先を確認
Sai Aparna Aketi, Amandeep Singh, Jan Rabaey(参考訳) 現在のディープラーニング(DL)システムは、利用可能なトレーニングデータの量を制限する集中型コンピューティングパラダイムに依存し、システムのレイテンシを高め、プライバシーとセキュリティの制約を追加します。 ピアツーピアのワイヤレス接続エッジデバイス上でのDLモデルの分散および分散トレーニングによって実現されるオンデバイス学習は、上記の制限を軽減するだけでなく、DLモデルを必要とする次世代のアプリケーションが環境から継続的に相互作用して学習できるようにする。 しかし、これは、デバイス間の通信量を最小限に抑えつつ、非IIDデータ分布に耐性があると同時に、時間変動および指向ピアツーピアグラフ構造を通じてDLモデルを訓練する新しいトレーニングアルゴリズムの開発を必要とする。 本研究では、ピアツーピア、ディレクティブ、時間変化のあるグラフトポロジのトレーニングを支援する通信効率の良い分散分散トレーニングアルゴリズムであるスパースプッシュを提案する。 提案アルゴリズムは,CIFAR-10データセット上でResNet-20やVGG11などの各種DLモデルをトレーニングする場合,通信性能がわずか1%低下した466倍の低減を実現する。 さらに,非IIDデータセットにおいて,通信圧縮がパフォーマンスの大幅な低下につながることを実証し,同様のレベルの通信圧縮を維持しながら,この性能低下を回復するSkew-Compensated Sparse Pushアルゴリズムを提案する。

Current deep learning (DL) systems rely on a centralized computing paradigm which limits the amount of available training data, increases system latency, and adds privacy and security constraints. On-device learning, enabled by decentralized and distributed training of DL models over peer-to-peer wirelessly connected edge devices, not only alleviate the above limitations but also enable next-gen applications that need DL models to continuously interact and learn from their environment. However, this necessitates the development of novel training algorithms that train DL models over time-varying and directed peer-to-peer graph structures while minimizing the amount of communication between the devices and also being resilient to non-IID data distributions. In this work we propose, Sparse-Push, a communication efficient decentralized distributed training algorithm that supports training over peer-to-peer, directed, and time-varying graph topologies. The proposed algorithm enables 466x reduction in communication with only 1% degradation in performance when training various DL models such as ResNet-20 and VGG11 over the CIFAR-10 dataset. Further, we demonstrate how communication compression can lead to significant performance degradation in-case of non-IID datasets, and propose Skew-Compensated Sparse Push algorithm that recovers this performance drop while maintaining similar levels of communication compression.
翻訳日:2021-02-15 13:24:55 公開日:2021-02-12
# 高速かつメモリ効率の良いスペクトル正規化が可能な奥行き分離可能な畳み込み

Depthwise Separable Convolutions Allow for Fast and Memory-Efficient Spectral Normalization ( http://arxiv.org/abs/2102.06496v1 )

ライセンス: Link先を確認
Christina Runkel, Christian Etmann, Michael M\"oller, Carola-Bibiane Sch\"onlieb(参考訳) モデルの増加は、ニューラルネットワークの畳み込み層のスペクトル規範の制御を必要とする。 トレーニング中に上界を推定し、強制するための方法がたくさんあるが、一般的には記憶と時間の両方でコストがかかる。 本研究では、深度分離可能な畳み込みのスペクトル正規化のための非常に単純な方法を紹介し、無視可能な計算とメモリオーバーヘッドを導入する。 MobileNetV2 のような標準アーキテクチャを用いた画像分類タスクに対する手法の有効性を実証する。

An increasing number of models require the control of the spectral norm of convolutional layers of a neural network. While there is an abundance of methods for estimating and enforcing upper bounds on those during training, they are typically costly in either memory or time. In this work, we introduce a very simple method for spectral normalization of depthwise separable convolutions, which introduces negligible computational and memory overhead. We demonstrate the effectiveness of our method on image classification tasks using standard architectures like MobileNetV2.
翻訳日:2021-02-15 13:24:30 公開日:2021-02-12
# LSTMに基づくクロス発話情報表現を用いたトランスフォーマー言語モデル

Transformer Language Models with LSTM-based Cross-utterance Information Representation ( http://arxiv.org/abs/2102.06474v1 )

ライセンス: Link先を確認
G. Sun, C. Zhang, P. C. Woodland(参考訳) クロス発話情報の効果的な組み込みは、自動音声認識(ASR)のための言語モデル(LM)を改善する可能性がある。 本稿では,Transformer LM (TLM) のより強力で堅牢なクロス発話表現を抽出するために,長期メモリ (LSTM) LM に隠された状態を使用する R-TLM を提案する。 クロス発話情報をエンコードするために、R-TLMは、トランスフォーマーブロックの一部にセグメントワイズ再発と共にLSTMモジュールを組み込む。 LSTMモジュール出力に加えて,LSTMモジュールをバイパスする融合層を用いたショートカット接続についても検討した。 提案システムは,AMI会議コーパス,Eval2000,RT03電話会話評価セットで評価された。 最高のR-TLMは、単発TLMベースラインに対して0.9%、0.6%、絶対WERを0.8%、AMI評価セット上では0.5%、0.3%、0.2%の絶対WERをそれぞれ削減した。 Eval2000とRT03の改良は重要なテストによってさらに支持された。 R-TLMは、認識エラーが起こりやすい単語のLMスコアを改善することが判明した。 R-TLM WERはLSTM-LMとの補間によりさらに低減できます。

The effective incorporation of cross-utterance information has the potential to improve language models (LMs) for automatic speech recognition (ASR). To extract more powerful and robust cross-utterance representations for the Transformer LM (TLM), this paper proposes the R-TLM which uses hidden states in a long short-term memory (LSTM) LM. To encode the cross-utterance information, the R-TLM incorporates an LSTM module together with a segment-wise recurrence in some of the Transformer blocks. In addition to the LSTM module output, a shortcut connection using a fusion layer that bypasses the LSTM module is also investigated. The proposed system was evaluated on the AMI meeting corpus, the Eval2000 and the RT03 telephone conversation evaluation sets. The best R-TLM achieved 0.9%, 0.6%, and 0.8% absolute WER reductions over the single-utterance TLM baseline, and 0.5%, 0.3%, 0.2% absolute WER reductions over a strong cross-utterance TLM baseline on the AMI evaluation set, Eval2000 and RT03 respectively. Improvements on Eval2000 and RT03 were further supported by significance tests. R-TLMs were found to have better LM scores on words where recognition errors are more likely to occur. The R-TLM WER can be further reduced by interpolation with an LSTM-LM.
翻訳日:2021-02-15 13:24:21 公開日:2021-02-12
# ユニバーサルグラフ上の関係抽出を改善するための2つのトレーニング戦略

Two Training Strategies for Improving Relation Extraction over Universal Graph ( http://arxiv.org/abs/2102.06540v1 )

ライセンス: Link先を確認
Qin Dai, Naoya Inoue, Ryo Takahashi and Kentaro Inui(参考訳) 本稿では,知識グラフ (kg) と大規模テキストコレクションを組み合わせた汎用グラフ (ug) の利用により,遠隔教師付き関係抽出 (ds-re) がいかに有用かを検討する。 UGを用いたDS-REの現状のニューラルモデルの直接的な拡張は、パフォーマンスの低下につながる可能性がある。 We first report that this degradation is associated with the difficulty in learning a UG and then propose two training strategies: (1) Path Type Adaptive Pretraining, which sequentially trains the model with different types of UG paths so as to prevent the reliance on a single type of UG path; and (2) Complexity Ranking Guided Attention mechanism, which restricts the attention span according to the complexity of a UG path so as to force the model to extract features not only from simple UG paths but also from complex ones. バイオメディカルおよびNYT10データセットの実験結果は、我々の手法の堅牢性を証明し、NYT10データセットの新たな最先端結果を達成する。 この論文で使用されるコードとデータセットは、https://github.com/b aodaiqin/UGDSRE.comで入手できる。

This paper explores how the Distantly Supervised Relation Extraction (DS-RE) can benefit from the use of a Universal Graph (UG), the combination of a Knowledge Graph (KG) and a large-scale text collection. A straightforward extension of a current state-of-the-art neural model for DS-RE with a UG may lead to degradation in performance. We first report that this degradation is associated with the difficulty in learning a UG and then propose two training strategies: (1) Path Type Adaptive Pretraining, which sequentially trains the model with different types of UG paths so as to prevent the reliance on a single type of UG path; and (2) Complexity Ranking Guided Attention mechanism, which restricts the attention span according to the complexity of a UG path so as to force the model to extract features not only from simple UG paths but also from complex ones. Experimental results on both biomedical and NYT10 datasets prove the robustness of our methods and achieve a new state-of-the-art result on the NYT10 dataset. The code and datasets used in this paper are available at https://github.com/b aodaiqin/UGDSRE.
翻訳日:2021-02-15 13:23:38 公開日:2021-02-12
# SCOUT: 自動車とVRUの軌道予測のためのソーシャル・コナンシスタント・アンダー・タンダブルグラフ注意ネットワーク

SCOUT: Socially-COnsistent and UndersTandable Graph Attention Network for Trajectory Prediction of Vehicles and VRUs ( http://arxiv.org/abs/2102.06361v1 )

ライセンス: Link先を確認
Sandra Carrasco, David Fern\'andez Llorca, Miguel \'Angel Sotelo(参考訳) 自律走行車は様々な条件下で動的に変化する環境を移動し、周囲の物体に継続的に影響される。 エージェント間の相互作用のモデリングは、他のエージェントの振る舞いを正確に予測し、安全で快適な動作計画を達成するために不可欠である。 本研究では,対話をモデル化するためのグラフとしてシーンのフレキシブルで汎用的な表現を用い,交通条件が混在した車と車載道路利用者(VRU)の社会的に一貫性のある軌跡を予測する新しい意識型グラフニューラルネットワークSCOUTを提案する。 InDおよびApolloScape Trajectoryベンチマークにおける既存の最先端手法よりも優れた性能を実現し、3つの異なる注意機構を探索し、鳥眼ビューと車載都市データの両方を用いて我々のスキームをテストする。 さらに、ラウンドデータセットのまったく新しいシナリオでテストすることで、モデルの柔軟性と転送性を評価します。 最終予測における各相互作用の重要性と影響は、統合勾配技術および学んだ注意の視覚化によって検討される。

Autonomous vehicles navigate in dynamically changing environments under a wide variety of conditions, being continuously influenced by surrounding objects. Modelling interactions among agents is essential for accurately forecasting other agents' behaviour and achieving safe and comfortable motion planning. In this work, we propose SCOUT, a novel Attention-based Graph Neural Network that uses a flexible and generic representation of the scene as a graph for modelling interactions, and predicts socially-consistent trajectories of vehicles and Vulnerable Road Users (VRUs) under mixed traffic conditions. We explore three different attention mechanisms and test our scheme with both bird-eye-view and on-vehicle urban data, achieving superior performance than existing state-of-the-art approaches on InD and ApolloScape Trajectory benchmarks. Additionally, we evaluate our model's flexibility and transferability by testing it under completely new scenarios on RounD dataset. The importance and influence of each interaction in the final prediction is explored by means of Integrated Gradients technique and the visualization of the attention learned.
翻訳日:2021-02-15 13:23:21 公開日:2021-02-12
# VitrAI -- 実世界で説明可能なAIを適用する

VitrAI -- Applying Explainable AI in the Real World ( http://arxiv.org/abs/2102.06518v1 )

ライセンス: Link先を確認
Marc Hanussek, Falko K\"otter, Maximilien Kintz, Jens Drawehn(参考訳) 説明可能な人工知能(XAI)の分野における最近の進歩と実際にの使用の増加に伴い、実用的な使用シナリオにおける異なるXAI方法およびそれらの説明品質の評価の必要性が発生します。 そこで本研究では,3つの実生活シナリオの文脈において,4つの異なるXAIアルゴリズムを均一に示すことを目的として,WebベースのサービスであるVitrAIについて述べる。 この研究は、XAIメソッドを採用する際の現実的な障害を明らかにし、上記のシナリオでどのように異なるアプローチがうまく機能するかを定性的に見積もる。

With recent progress in the field of Explainable Artificial Intelligence (XAI) and increasing use in practice, the need for an evaluation of different XAI methods and their explanation quality in practical usage scenarios arises. For this purpose, we present VitrAI, which is a web-based service with the goal of uniformly demonstrating four different XAI algorithms in the context of three real life scenarios and evaluating their performance and comprehensibility for humans. This work reveals practical obstacles when adopting XAI methods and gives qualitative estimates on how well different approaches perform in said scenarios.
翻訳日:2021-02-15 13:22:59 公開日:2021-02-12
# ニューラルネットワークにおけるスプラインモデルを活用した完全連結層の学習

Exploiting Spline Models for the Training of Fully Connected Layers in Neural Network ( http://arxiv.org/abs/2102.06554v1 )

ライセンス: Link先を確認
Kanya Mo (1), Shen Zheng (1), Xiwei Wang (1), Jinghua Wang (2), Klaus-Dieter Schewe (1) ((1) Zhejiang University, UIUC Institute, (2) University of Illinois at Urbana-Champaign)(参考訳) 完全連結(fc)層は、ニューラルネットワーク(ann)における最も基本的なモジュールの1つであり、パラメータの多さによる過剰フィッティングのリスクなどの問題から、トレーニングが困難かつ非効率であると考えられている。 線形スプラインの観点から ann を学習する以前の研究に基づいて,fc 層のトレーニングの困難さを緩和するスプラインベースアプローチを提案する。 いくつかのデータセットでは、まず多変量適応回帰スプライン(MARS)のようなスプライン法を通じて連続的なピースワイズ線形(CPWL)を得る。 次に、線形スプラインモデルからANNモデルを構築し、勾配降下最適化アルゴリズムを使用してデータセット上でANNモデルを訓練し続けます。 実験結果と理論的解析により,本手法は計算コストを削減し,FC層の収束を加速し,得られたモデル(FC層)の解釈性を大幅に向上させることが示された。

The fully connected (FC) layer, one of the most fundamental modules in artificial neural networks (ANN), is often considered difficult and inefficient to train due to issues including the risk of overfitting caused by its large amount of parameters. Based on previous work studying ANN from linear spline perspectives, we propose a spline-based approach that eases the difficulty of training FC layers. Given some dataset, we first obtain a continuous piece-wise linear (CPWL) fit through spline methods such as multivariate adaptive regression spline (MARS). Next, we construct an ANN model from the linear spline model and continue to train the ANN model on the dataset using gradient descent optimization algorithms. Our experimental results and theoretical analysis show that our approach reduces the computational cost, accelerates the convergence of FC layers, and significantly increases the interpretability of the resulting model (FC layers) compared with standard ANN training with random parameter initialization followed by gradient descent optimizations.
翻訳日:2021-02-15 13:22:35 公開日:2021-02-12
# 破損報酬を伴う強化学習エージェントの乱用

Disturbing Reinforcement Learning Agents with Corrupted Rewards ( http://arxiv.org/abs/2102.06587v1 )

ライセンス: Link先を確認
Rub\'en Majadas, Javier Garc\'ia and Fernando Fern\'andez(参考訳) Reinforcement Learning (RL)アルゴリズムは、AtariやStarcraftといった複雑なゲームの解決に成功し、サイバーセキュリティや自動運転といった現実世界のアプリケーションに大きな影響を与えている。 欠点として、近年の研究では、報酬関数のソフトな変化の影響下でRLアルゴリズムの性能が低下することを示した。 しかし、これらの障害がどの程度敏感であるかについては、攻撃の攻撃性や学習探索戦略によってはほとんど研究されていない。 本稿では,報酬の摂動に基づく異なる攻撃戦略の効果を分析し,その探索戦略による学習者の効果を考察する文献において,このギャップを埋めることを提案する。 すべての行動を説明するために、我々はMDPのサブクラスを選びます:エピソディック、確率的目標のみ報酬MDP、そして特に、インテリグブルグリッドドメインをベンチマークとして。 この領域では, 対人報酬を円滑に作成することで学習者を誤解させることが可能であり, 探索確率の低い値を用いることで, 学習した政策が不正報酬に対してより堅牢であることを示す。 最後に、提案した学習シナリオでは、各学習エピソードに対する攻撃が最小のコスト攻撃戦略である、という直感的な結果が生じる。

Reinforcement Learning (RL) algorithms have led to recent successes in solving complex games, such as Atari or Starcraft, and to a huge impact in real-world applications, such as cybersecurity or autonomous driving. In the side of the drawbacks, recent works have shown how the performance of RL algorithms decreases under the influence of soft changes in the reward function. However, little work has been done about how sensitive these disturbances are depending on the aggressiveness of the attack and the learning exploration strategy. In this paper, we propose to fill this gap in the literature analyzing the effects of different attack strategies based on reward perturbations, and studying the effect in the learner depending on its exploration strategy. In order to explain all the behaviors, we choose a sub-class of MDPs: episodic, stochastic goal-only-rewards MDPs, and in particular, an intelligible grid domain as a benchmark. In this domain, we demonstrate that smoothly crafting adversarial rewards are able to mislead the learner, and that using low exploration probability values, the policy learned is more robust to corrupt rewards. Finally, in the proposed learning scenario, a counterintuitive result arises: attacking at each learning episode is the lowest cost attack strategy.
翻訳日:2021-02-15 13:22:18 公開日:2021-02-12
# 高次元ベイズ推論のためのWasserstein勾配下降予測

Projected Wasserstein gradient descent for high-dimensional Bayesian inference ( http://arxiv.org/abs/2102.06350v1 )

ライセンス: Link先を確認
Yifei Wang, Wuchen Li and Peng Chen(参考訳) 本稿では,高次元ベイズ推論問題に対するWasserstein勾配降下法 (pWGD) を提案する。 WGDの粒子系の基底密度関数は、次元性の長年の呪いに直面するカーネル密度推定(KDE)によって近似される。 後方分布と先行分布の差における本質的な低ランク構造を生かして,この課題を克服する。 パラメータは、高次元のkdeの近似誤差を軽減するために低次元部分空間に投影される。 予測されたWasserstein勾配流を定式化し、その収束特性を軽度の仮定の下で解析する。 いくつかの数値実験では、パラメータ次元、サンプルサイズ、プロセッサコアに関するpWGDの精度、収束性、複雑さのスケーラビリティが示されている。

We propose a projected Wasserstein gradient descent method (pWGD) for high-dimensional Bayesian inference problems. The underlying density function of a particle system of WGD is approximated by kernel density estimation (KDE), which faces the long-standing curse of dimensionality. We overcome this challenge by exploiting the intrinsic low-rank structure in the difference between the posterior and prior distributions. The parameters are projected into a low-dimensional subspace to alleviate the approximation error of KDE in high dimensions. We formulate a projected Wasserstein gradient flow and analyze its convergence property under mild assumptions. Several numerical experiments illustrate the accuracy, convergence, and complexity scalability of pWGD with respect to parameter dimension, sample size, and processor cores.
翻訳日:2021-02-15 13:21:23 公開日:2021-02-12
# 大きなバッチオプティマイザの現実チェック:従来の汎用オプティマイザはバッチサイズで十分

A Large Batch Optimizer Reality Check: Traditional, Generic Optimizers Suffice Across Batch Sizes ( http://arxiv.org/abs/2102.06356v1 )

ライセンス: Link先を確認
Zachary Nado, Justin M. Gilmer, Christopher J. Shallue, Rohan Anil, George E. Dahl(参考訳) 最近、LARSとLAMBオプティマイザは、大規模なバッチサイズを使用してニューラルネットワークを高速にトレーニングするために提案されている。 LARSとLAMBはそれぞれヘビーボール運動量とアダムの更新規則にレイヤワイズ正規化を加え、著名なベンチマークやディープラーニングライブラリで人気を集めている。 しかし、標準オプティマイザと公正に比較することなく、LARSとLAMBが従来の汎用アルゴリズムよりも有益かどうかには疑問が残る。 本研究では,nesterov momentum や adam などの標準最適化アルゴリズムが,lars と lamb の結果と大きなバッチサイズで一致あるいは上回ることを実証する。 これらのバッチサイズにおける将来比較のための新しい強固なベースラインを構築し,ニューラルネットワークトレーニングにおけるオプティマイザ比較の難しさを浮き彫りにした。

Recently the LARS and LAMB optimizers have been proposed for training neural networks faster using large batch sizes. LARS and LAMB add layer-wise normalization to the update rules of Heavy-ball momentum and Adam, respectively, and have become popular in prominent benchmarks and deep learning libraries. However, without fair comparisons to standard optimizers, it remains an open question whether LARS and LAMB have any benefit over traditional, generic algorithms. In this work we demonstrate that standard optimization algorithms such as Nesterov momentum and Adam can match or exceed the results of LARS and LAMB at large batch sizes. Our results establish new, stronger baselines for future comparisons at these batch sizes and shed light on the difficulties of comparing optimizers for neural network training more generally.
翻訳日:2021-02-15 13:21:12 公開日:2021-02-12
# 確率微分方程式を持つ無限深ベイズ型ニューラルネットワーク

Infinitely Deep Bayesian Neural Networks with Stochastic Differential Equations ( http://arxiv.org/abs/2102.06559v1 )

ライセンス: Link先を確認
Winnie Xu, Ricky T.Q. Chen, Xuechen Li, David Duvenaud(参考訳) 我々は,最近提案された連続深度ベイズニューラルネットワーク群において,スケーラブルな近似推定を行う。 このモデルクラスでは、各層における分離重みに関する不確実性は確率微分方程式(SDE)に従う力学を生成する。 この無限パラメータ設定において、勾配に基づく確率的変分推論を示し、任意にフレキシブルな近似後部を生成する。 また、近似的な後方が真の後方に近づくと、ゼロ分散に近づく新しい勾配推定器も導出する。 このアプローチは、さらにメモリ効率の高いトレーニングとニューラルODEのチューナブルな精度を継承する。

We perform scalable approximate inference in a recently-proposed family of continuous-depth Bayesian neural networks. In this model class, uncertainty about separate weights in each layer produces dynamics that follow a stochastic differential equation (SDE). We demonstrate gradient-based stochastic variational inference in this infinite-parameter setting, producing arbitrarily-flexible approximate posteriors. We also derive a novel gradient estimator that approaches zero variance as the approximate posterior approaches the true posterior. This approach further inherits the memory-efficient training and tunable precision of neural ODEs.
翻訳日:2021-02-15 13:20:55 公開日:2021-02-12
# Bayesian Neural Networkが再訪

Bayesian Neural Network Priors Revisited ( http://arxiv.org/abs/2102.06571v1 )

ライセンス: Link先を確認
Vincent Fortuin, Adri\`a Garriga-Alonso, Florian Wenzel, Gunnar R\"atsch, Richard Turner, Mark van der Wilk, Laurence Aitchison(参考訳) 等方性ガウス前駆(isotropic gaussian priors)は、現代のベイズニューラルネットワーク推論のデファクトスタンダードである。 しかし、そのような単純な事前は、重み分布に関する真の信念を正確に反映するか、最適な性能を与えるかは、あり得ない。 SGDを用いて訓練された異なるネットワークにおけるニューラルネットワーク重みの要約統計について検討する。 我々は、フルコネクテッドネットワーク(FCNN)は重尾重み分布を示し、畳み込みニューラルネットワーク(CNN)重みは強い空間相関を示すことを発見した。 これらの観察を事前に組み込むことで、さまざまな画像分類データセットのパフォーマンスが向上する。 さらに、これらの優先事項は、FCNNの冷後効果も緩和するが、CNNでは、すべての温度で強力な改善が見られ、冷後効果の減少は見られない。

Isotropic Gaussian priors are the de facto standard for modern Bayesian neural network inference. However, such simplistic priors are unlikely to either accurately reflect our true beliefs about the weight distributions, or to give optimal performance. We study summary statistics of neural network weights in different networks trained using SGD. We find that fully connected networks (FCNNs) display heavy-tailed weight distributions, while convolutional neural network (CNN) weights display strong spatial correlations. Building these observations into the respective priors leads to improved performance on a variety of image classification datasets. Moreover, we find that these priors also mitigate the cold posterior effect in FCNNs, while in CNNs we see strong improvements at all temperatures, and hence no reduction in the cold posterior effect.
翻訳日:2021-02-15 13:20:48 公開日:2021-02-12
# 線形バンドにおけるパレート最適モデル選択

Pareto Optimal Model Selection in Linear Bandits ( http://arxiv.org/abs/2102.06593v1 )

ライセンス: Link先を確認
Yinglun Zhu, Robert Nowak(参考訳) 線形バンディット設定におけるモデル選択問題について検討し, 学習者はフライ上の最適仮説クラスの次元に適応し, バランス探索と搾取を行なわなければならない。 より具体的には、次元 $d_1 < d_2 < \dots$ の入れ子付き線形仮説クラスの列を仮定し、真の線型モデルを含む最小の仮説クラスに自動的に適応することを目標とする。 以前の論文では、このモデル選択問題に対して様々な保証を提供しているが、その分析は、適切な仮説クラスを見つけるために統計的テストを安価に行うことができる場合や、実際には比較的不十分に実行されることが多い「相関」マルチベースアルゴリズムのアイデアに基づいている場合に有効である。 これらの作品は主に後悔の表層に焦点をあてている。 本稿では,固定された作用集合であっても,未知の内在次元 $d_\star$ への適応にはコストがかかることを示す下界を最初に確立する:$d_\star$ のすべての値に対して,後悔すべき有界 $\widetilde{O}(\sqrt{d_\star T})$ を同時に達成できるアルゴリズムはない。 また,リニアバンディットのモデル選択問題において,有用な情報を効果的に要約する仮想混合アームを構築するという新しいアイデアを提案する。 作用集合の軽度な仮定の下で、下界の速度に一致することを保証したパレート最適アルゴリズムを設計する。 実験結果が理論結果を確認し, 先行作業と比較して, アルゴリズムの優位性を示した。

We study a model selection problem in the linear bandit setting, where the learner must adapt to the dimension of the optimal hypothesis class on the fly and balance exploration and exploitation. More specifically, we assume a sequence of nested linear hypothesis classes with dimensions $d_1 < d_2 < \dots$, and the goal is to automatically adapt to the smallest hypothesis class that contains the true linear model. Although previous papers provide various guarantees for this model selection problem, the analysis therein either works in favorable cases when one can cheaply conduct statistical testing to locate the right hypothesis class or is based on the idea of "corralling" multiple base algorithms which often performs relatively poorly in practice. These works also mainly focus on upper bounding the regret. In this paper, we first establish a lower bound showing that, even with a fixed action set, adaptation to the unknown intrinsic dimension $d_\star$ comes at a cost: there is no algorithm that can achieve the regret bound $\widetilde{O}(\sqrt{d_\star T})$ simultaneously for all values of $d_\star$. We also bring new ideas, i.e., constructing virtual mixture-arms to effectively summarize useful information, into the model selection problem in linear bandits. Under a mild assumption on the action set, we design a Pareto optimal algorithm with guarantees matching the rate in the lower bound. Experimental results confirm our theoretical results and show advantages of our algorithm compared to prior work.
翻訳日:2021-02-15 13:20:35 公開日:2021-02-12
# Cockpit: ディープニューラルネットワークをトレーニングするための実用的なデバッグツール

Cockpit: A Practical Debugging Tool for Training Deep Neural Networks ( http://arxiv.org/abs/2102.06604v1 )

ライセンス: Link先を確認
Frank Schneider and Felix Dangel and Philipp Hennig(参考訳) エンジニアがディープラーニングモデルをトレーニングする場合、彼らは"空飛ぶ盲人"です。 列車/テスト損失の監視など、リアルタイムトレーニング診断の一般的なアプローチは限られています。 これらのパフォーマンス指標によってのみネットワークのトレーニングプロセスを評価することは、デバッガを通じて内部状態にアクセスせずにソフトウェアをデバッグするようなものです。 そこで本研究では,学習機の内部動作を詳細に調べるための機器群であるcockpitと,実践者に対するより有意義で有意義なステータスレポートを提案する。 未経験のハイパーパラメータのように、学習フェーズと障害モードの識別を容易にする。 これらの機器は、最近初めて効率的にアクセス可能になった勾配分布と曲率に関する新しい高階情報を利用しています。 このようなデバッグツールは、PyTorchをオープンソース化することで、トレーニングプロセスのトラブルシューティングを改善し、新しい洞察を明らかにし、新しい方法やヒューリスティックの開発を支援する重要なステップであると考えています。

When engineers train deep learning models, they are very much "flying blind". Commonly used approaches for real-time training diagnostics, such as monitoring the train/test loss, are limited. Assessing a network's training process solely through these performance indicators is akin to debugging software without access to internal states through a debugger. To address this, we present Cockpit, a collection of instruments that enable a closer look into the inner workings of a learning machine, and a more informative and meaningful status report for practitioners. It facilitates the identification of learning phases and failure modes, like ill-chosen hyperparameters. These instruments leverage novel higher-order information about the gradient distribution and curvature, which has only recently become efficiently accessible. We believe that such a debugging tool, which we open-source for PyTorch, represents an important step to improve troubleshooting the training process, reveal new insights, and help develop novel methods and heuristics.
翻訳日:2021-02-15 13:20:08 公開日:2021-02-12
# リーマンデータ多様体上のベイズ方程式

Bayesian Quadrature on Riemannian Data Manifolds ( http://arxiv.org/abs/2102.06645v1 )

ライセンス: Link先を確認
Christian Fr\"ohlich, Alexandra Gessner, Philipp Hennig, Bernhard Sch\"olkopf, Georgios Arvanitidis(参考訳) リーマン多様体は、データに固有の非線形幾何学構造をモデル化する原理的な方法を提供する。 この多様体上のリーマン計量は、ジオメトリが認識する最短経路を決定し、それに応じて統計モデルを定義する手段を提供する。 しかし、これらの演算は通常計算的に要求される。 この計算の負担を軽減するため、リーマン統計の確率的数値解法を提唱する。 特に、データから学習したリーマン多様体上の正規法則上の積分を数値計算するためにベイズ二次(bq)に焦点を当てる。 このタスクでは、各関数の評価は高価な初期値問題の解に依存する。 従来の知識と活発な探索手法を両立させることにより,BQは要求される評価回数を大幅に削減し,モンテカルロ法を幅広い積分問題において上回ることを示す。 具体的応用として,分子動力学から提案された非線形データセットの枠組みを用いてリーマン幾何学を採用するメリットを強調する。

Riemannian manifolds provide a principled way to model nonlinear geometric structure inherent in data. A Riemannian metric on said manifolds determines geometry-aware shortest paths and provides the means to define statistical models accordingly. However, these operations are typically computationally demanding. To ease this computational burden, we advocate probabilistic numerical methods for Riemannian statistics. In particular, we focus on Bayesian quadrature (BQ) to numerically compute integrals over normal laws on Riemannian manifolds learned from data. In this task, each function evaluation relies on the solution of an expensive initial value problem. We show that by leveraging both prior knowledge and an active exploration scheme, BQ significantly reduces the number of required evaluations and thus outperforms Monte Carlo methods on a wide range of integration problems. As a concrete application, we highlight the merits of adopting Riemannian geometry with our proposed framework on a nonlinear dataset from molecular dynamics.
翻訳日:2021-02-15 13:19:51 公開日:2021-02-12
# ランダム化符号化によるバイアスフリースケーラブルガウス過程

Bias-Free Scalable Gaussian Processes via Randomized Truncations ( http://arxiv.org/abs/2102.06695v1 )

ライセンス: Link先を確認
Andres Potapczynski, Luhuan Wu, Dan Biderman, Geoff Pleiss and John P. Cunningham(参考訳) スケーラブルガウスプロセスメソッドは計算的に魅力的ですが、厳格な研究を必要とするモデリングバイアスを導入します。 本稿では,初期トランク型共役勾配 (CG) とランダムフーリエ特徴 (RFF) の2つの共通手法を解析する。 我々は、両方の方法が学習されたハイパーパラメータに体系的なバイアスを導入することを発見した:CGは不適合になり、RFFは過適合になりがちである。 分散の増大と引き換えにバイアスを排除したランダム化トランケーション推定器を用いて,これらの問題に対処する。 RFFの場合、バイアスから分散への変換は確かにトレードオフであり、追加の分散は最適化に有害であることを証明している。 しかし、CGの場合、偏りのない学習手順は、最小限の計算量でバイアスのある学習方法よりも有意に優れている。

Scalable Gaussian Process methods are computationally attractive, yet introduce modeling biases that require rigorous study. This paper analyzes two common techniques: early truncated conjugate gradients (CG) and random Fourier features (RFF). We find that both methods introduce a systematic bias on the learned hyperparameters: CG tends to underfit while RFF tends to overfit. We address these issues using randomized truncation estimators that eliminate bias in exchange for increased variance. In the case of RFF, we show that the bias-to-variance conversion is indeed a trade-off: the additional variance proves detrimental to optimization. However, in the case of CG, our unbiased learning procedure meaningfully outperforms its biased counterpart with minimal additional computation.
翻訳日:2021-02-15 13:19:36 公開日:2021-02-12
# ニューラルネットワーク量子化のトレードオフ

Confounding Tradeoffs for Neural Network Quantization ( http://arxiv.org/abs/2102.06366v1 )

ライセンス: Link先を確認
Sahaj Garg, Anirudh Jain, Joe Lou, Mitchell Nahmias(参考訳) ディープラーニングの計算とメモリフットプリントを減らすために、多くのニューラルネットワーク量子化技術が開発されている。 しかし、これらの手法は、高い精度と引き換えに推論の加速やリソースの複雑さに影響を与える可能性のあるトレードオフの確立によって評価される。 本研究では,その影響がしばしば見過ごされ,その影響が均一かつ混合予測後の量子化に与える影響を実証的に分析し,これらの統合的トレードオフが実際の量子化手法自体よりも量子化ネットワークの精度に大きな影響を与えることを見出した。 これらのトレードオフは、異なるユースケースで実現可能なハードウェアアクセラレーションを制限するため、研究者は「量子化カード」の構造を通じて、これらの設計選択を明示的に報告することを推奨する。 量子化カードは、研究者がより効果的に方法を比較するのに役立ち、エンジニアはハードウェアの量子化技術の適用性を決定するだろう。

Many neural network quantization techniques have been developed to decrease the computational and memory footprint of deep learning. However, these methods are evaluated subject to confounding tradeoffs that may affect inference acceleration or resource complexity in exchange for higher accuracy. In this work, we articulate a variety of tradeoffs whose impact is often overlooked and empirically analyze their impact on uniform and mixed-precision post-training quantization, finding that these confounding tradeoffs may have a larger impact on quantized network accuracy than the actual quantization methods themselves. Because these tradeoffs constrain the attainable hardware acceleration for different use-cases, we encourage researchers to explicitly report these design choices through the structure of "quantization cards." We expect quantization cards to help researchers compare methods more effectively and engineers determine the applicability of quantization techniques for their hardware.
翻訳日:2021-02-15 13:19:12 公開日:2021-02-12
# 短納期化に先駆けて最善を尽くす

A Too-Good-to-be-True Prior to Reduce Shortcut Reliance ( http://arxiv.org/abs/2102.06406v1 )

ライセンス: Link先を確認
Nikolay Dagaev, Brett D. Roads, Xiaoliang Luo, Daniel N. Barry, Kaustubh R. Patil, Bradley C. Love(参考訳) 標準的テスト条件下でのオブジェクト認識やその他のタスクでの印象的な性能にもかかわらず、ディープ畳み込みニューラルネットワーク(dcnn)はしばしば分散(o.o.d.)への一般化に失敗している。 サンプル この欠点の1つの原因は、現代のアーキテクチャは、コンテキストをまたがる深い不変量を取り込むことなく、カテゴリと相関する表面的な特徴「短い」に依存する傾向があることである。 現実世界の概念は、多くの場合、文脈によって表面的に異なる複雑な構造を持ち、あるコンテキストにおいて最も直感的で有望なソリューションを他のコンテキストに一般化できないものにすることができる。 o.o.d.を改良する潜在的な方法の1つ 一般化は、単純なソリューションがコンテキスト全体にわたって有効ではないと仮定し、それらをダウンウェイトすると仮定することです。 この誘導バイアスは、低容量ネットワーク(LCN)からの予測を使用して、大容量ネットワーク(HCN)のトレーニングを知らせる2段階のアプローチで実装します。 LCNの浅いアーキテクチャはショートカットを含む表面関係のみを学ぶことができるため、LCNがマスターできるHCNのトレーニングアイテムをダウンウェイトにすることで、HCNは広く一般化されるべきより深い不変機能に頼るように促します。 ショートカットを導入したCIFAR-10データセットの修正版を用いて、2段階のLCN-HCNアプローチによりショートカットへの依存が減少し、o.o.dが促進された。 一般化。

Despite their impressive performance in object recognition and other tasks under standard testing conditions, deep convolutional neural networks (DCNNs) often fail to generalize to out-of-distribution (o.o.d.) samples. One cause for this shortcoming is that modern architectures tend to rely on "shortcuts" - superficial features that correlate with categories without capturing deeper invariants that hold across contexts. Real-world concepts often possess a complex structure that can vary superficially across contexts, which can make the most intuitive and promising solutions in one context not generalize to others. One potential way to improve o.o.d. generalization is to assume simple solutions are unlikely to be valid across contexts and downweight them, which we refer to as the too-good-to-be-true prior. We implement this inductive bias in a two-stage approach that uses predictions from a low-capacity network (LCN) to inform the training of a high-capacity network (HCN). Since the shallow architecture of the LCN can only learn surface relationships, which includes shortcuts, we downweight training items for the HCN that the LCN can master, thereby encouraging the HCN to rely on deeper invariant features that should generalize broadly. Using a modified version of the CIFAR-10 dataset in which we introduced shortcuts, we found that the two-stage LCN-HCN approach reduced reliance on shortcuts and facilitated o.o.d. generalization.
翻訳日:2021-02-15 13:18:55 公開日:2021-02-12
# MSR-Video to Textデータセットのアノテーションクリーニング

Annotation Cleaning for the MSR-Video to Text Dataset ( http://arxiv.org/abs/2102.06448v1 )

ライセンス: Link先を確認
Haoran Chen, Jianmin Li, Simone Frintrop, Xiaolin Hu(参考訳) ビデオキャプションタスクは、機械によって自然言語でビデオコンテンツを記述することです。 この課題を解決するための多くの方法が提案されている。 MSR Video to Text(MSR-VTT)と呼ばれる大きなデータセットは、メソッドのパフォーマンスをテストするためのベックマークデータセットとしてよく使用されます。 しかし、人間のアノテーション、すなわちデータセット内のビデオ内容の記述は非常に騒々しいこと、例えば、重複キャプションが多数あり、多くのキャプションが文法的な問題を含んでいることを発見した。 これらの問題は、学習のためのビデオキャプションモデルに困難をもたらす可能性がある。 これらの問題を除去してMSR-VTTアノテーションをクリーン化し、クリーン化したデータセット上でいくつかの典型的なビデオキャプションモデルをテストした。 実験の結果,データクリーニングにより,一般的な定量的指標によって測定されたモデルの性能が向上した。 被験者を募集して,オリジナルデータセットとクリーンデータセットでトレーニングしたモデルの結果を評価した。 human behavior experimentは、クリーンなデータセットでトレーニングされたモデルが、ビデオクリップの内容に対してより一貫性があり、より関連のあるキャプションを生成することを実証した。 クリーンなデータセットが公開されている。

The video captioning task is to describe the video contents with natural language by the machine. Many methods have been proposed for solving this task. A large dataset called MSR Video to Text (MSR-VTT) is often used as the benckmark dataset for testing the performance of the methods. However, we found that the human annotations, i.e., the descriptions of video contents in the dataset are quite noisy, e.g., there are many duplicate captions and many captions contain grammatical problems. These problems may pose difficulties to video captioning models for learning. We cleaned the MSR-VTT annotations by removing these problems, then tested several typical video captioning models on the cleaned dataset. Experimental results showed that data cleaning boosted the performances of the models measured by popular quantitative metrics. We recruited subjects to evaluate the results of a model trained on the original and cleaned datasets. The human behavior experiment demonstrated that trained on the cleaned dataset, the model generated captions that were more coherent and more relevant to contents of the video clips. The cleaned dataset is publicly available.
翻訳日:2021-02-15 13:18:23 公開日:2021-02-12
# 深部ステガノグラフィーのレンズによるユニバーサル逆行性摂動 : フーリエ視点に向けて

Universal Adversarial Perturbations Through the Lens of Deep Steganography: Towards A Fourier Perspective ( http://arxiv.org/abs/2102.06479v1 )

ライセンス: Link先を確認
Chaoning Zhang, Philipp Benz, Adil Karjauv, In So Kweon(参考訳) 敵対的攻撃に対する関心の高まりは、人間の視覚とディープニューラルネットワーク(DNN)の不一致に起因する。 人間の知覚できない摂動はDNNをだます。 さらに、単一の摂動(Universal adversarial Perturbation、UAP)は、ほとんどの画像に対してDNNをだますために生成することができる。 近年,デコーダネットワークがわずかに乱れた表紙画像から秘密画像を復元するディープステガノグラフィータスクでも,同様の誤認識現象が観察されている。 我々は、両方の成功をフーリエの観点から統一的に説明しようと試みる。 a)周波数は、周波数分布を定量化するために提案されたエントロピーメトリックに基づいて、その性能に影響を与える重要な要因であり、(b)その成功は、高周波コンテンツに高い感度を持つdnnに起因している。 また、モデル一般化と堅牢性に関する深い洞察を提供する機能層分析も行っています。 さらに,(1)攻撃と隠蔽を同時に行うユニバーサル・シークレット・アドバイサル・パーターベーション(USAP),(2)人間の目では見えないハイパスUAP(HP-UAP)の2つの新しい変種を提案する。

The booming interest in adversarial attacks stems from a misalignment between human vision and a deep neural network (DNN), i.e. a human imperceptible perturbation fools the DNN. Moreover, a single perturbation, often called universal adversarial perturbation (UAP), can be generated to fool the DNN for most images. A similar misalignment phenomenon has recently also been observed in the deep steganography task, where a decoder network can retrieve a secret image back from a slightly perturbed cover image. We attempt explaining the success of both in a unified manner from the Fourier perspective. We perform task-specific and joint analysis and reveal that (a) frequency is a key factor that influences their performance based on the proposed entropy metric for quantifying the frequency distribution; (b) their success can be attributed to a DNN being highly sensitive to high-frequency content. We also perform feature layer analysis for providing deep insight on model generalization and robustness. Additionally, we propose two new variants of universal perturbations: (1) Universal Secret Adversarial Perturbation (USAP) that simultaneously achieves attack and hiding; (2) high-pass UAP (HP-UAP) that is less visible to the human eye.
翻訳日:2021-02-15 13:18:05 公開日:2021-02-12
# コントラスト正規化ファインチューニングによるコントラスト自己スーパービジョン視覚モデルのパワーの解放

Unleashing the Power of Contrastive Self-Supervised Visual Models via Contrast-Regularized Fine-Tuning ( http://arxiv.org/abs/2102.06605v1 )

ライセンス: Link先を確認
Yifan Zhang, Bryan Hooi, Dapeng Hu, Jian Liang, Jiashi Feng(参考訳) コントラスト型自己教師学習(CSL)は、ラベルのないデータを利用して、特徴空間に均一に散在するインスタンス識別視覚表現を提供するモデルを訓練する。 デプロイメントでは、クロスエントロピー損失を伴うモデルを直接微調整することが一般的な方法であるが、最適戦略ではないかもしれない。 クロスエントロピーはクラス間の機能を分離する傾向にあるが、得られたモデルはクラス内の機能分散を減らす能力が限られているため、下流のタスクでは不十分なパフォーマンスを損なう可能性がある。 本稿では,コントラスト学習を微調整に適用することでさらにメリットが得られるかを検討するとともに,教師付きコントラスト損失の最適化は,クラス判別表現学習と微調整時のモデル最適化の両方に有益であることを示す。 これらの知見に触発されて,コントラスト規則化チューニング(Core-tuning)を提案する。 コントラスト損失を微調整の目的に加える代わりに、Core-tuningは、新しい特徴混成戦略を通じてより効果的なコントラスト学習のためのハードサンプルペアを生成するとともに、混合サンプルを介して決定境界を滑らかにすることでモデルの一般化性を向上させる。 画像分類とセマンティックセグメンテーションに関する広範な実験は、コアチューニングの有効性を検証する。

Contrastive self-supervised learning (CSL) leverages unlabeled data to train models that provide instance-discriminat ive visual representations uniformly scattered in the feature space. In deployment, the common practice is to directly fine-tune models with the cross-entropy loss, which however may not be an optimal strategy. Although cross-entropy tends to separate inter-class features, the resulted models still have limited capability of reducing intra-class feature scattering that inherits from pre-training, and thus may suffer unsatisfactory performance on downstream tasks. In this paper, we investigate whether applying contrastive learning to fine-tuning would bring further benefits, and analytically find that optimizing the supervised contrastive loss benefits both class-discriminative representation learning and model optimization during fine-tuning. Inspired by these findings, we propose Contrast-regularized tuning (Core-tuning), a novel approach for fine-tuning contrastive self-supervised visual models. Instead of simply adding the contrastive loss to the objective of fine-tuning, Core-tuning also generates hard sample pairs for more effective contrastive learning through a novel feature mixup strategy, as well as improves the generalizability of the model by smoothing the decision boundary via mixed samples. Extensive experiments on image classification and semantic segmentation verify the effectiveness of Core-tuning.
翻訳日:2021-02-15 13:17:43 公開日:2021-02-12
# 教師なしドメイン適応のための逆分岐アーキテクチャ探索

Adversarial Branch Architecture Search for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2102.06679v1 )

ライセンス: Link先を確認
Luca Robbiano and Muhammad Rameez Ur Rahman and Fabio Galasso and Barbara Caputo and Fabio Maria Carlucci(参考訳) Unsupervised Domain Adaptation(UDA)は、さまざまな視覚領域で堅牢なパフォーマンスを可能にするため、視覚認識の重要な分野です。 ディープラーニング時代には、udaメソッドのパフォーマンスは、よりよい損失とネットワークアーキテクチャの改善、特に事前トレーニングされたバックボーンに補助的なドメイン調整ブランチを追加することで向上している。 しかし、これまで提案されたすべてのニューラルアーキテクチャは手作りであり、さらなる進歩を妨げる可能性がある。 ニューラルアーキテクチャサーチ(NAS)の現在の相反する子孫は、UDAでは利用できないモデル選択のラベルが必要であり、通常はアーキテクチャ全体に適用されるが、事前訓練されたモデルを使用することは、ハイパフォーマンスの厳しい要件である。 UDAのNASの文脈でこれらの側面に対処する以前の作業はない。 そこで本研究では,UDA用Adversarial Branch Architecture Search (ABAS)を提案し,ハンドクラフトなしでデータから補助ブランチネットワークを学習する。 私たちの主な貢献は、モデル選択のための新しいデータ駆動アンサンブルアプローチ、ターゲットラベルの欠如を回避すること、そしてiiです。 最適な補助ブランチを自動的に検索するパイプライン。 私達の知識のベストに、ABASは高性能のための厳密な条件である事前訓練された背骨に従うUDAのための最初のNASの方法です。 ABASは最適な補助分岐とその訓練されたパラメータを出力する。 DANNとALDAの2つの最新のUDA技術に適用すると、3つの標準CVデータセット(Office31、Office-Home、PACS)のパフォーマンスが向上する。 いずれの場合も、ABASは最高のパフォーマンスをもたらすブランチアーキテクチャをしっかりと見つける。 コードはリリースされる。

Unsupervised Domain Adaptation (UDA) is a key field in visual recognition, as it enables robust performances across different visual domains. In the deep learning era, the performance of UDA methods has been driven by better losses and by improved network architectures, specifically the addition of auxiliary domain-alignment branches to pre-trained backbones. However, all the neural architectures proposed so far are hand-crafted, which might hinder further progress. The current copious offspring of Neural Architecture Search (NAS) only alleviates hand-crafting so far, as it requires labels for model selection, which are not available in UDA, and is usually applied to the whole architecture, while using pre-trained models is a strict requirement for high performance. No prior work has addressed these aspects in the context of NAS for UDA. Here we propose an Adversarial Branch Architecture Search (ABAS) for UDA, to learn the auxiliary branch network from data without handcrafting. Our main contribution include i. a novel data-driven ensemble approach for model selection, to circumvent the lack of target labels, and ii. a pipeline to automatically search for the best performing auxiliary branch. To the best of our knowledge, ABAS is the first NAS method for UDA to comply with a pre-trained backbone, a strict requirement for high performance. ABAS outputs both the optimal auxiliary branch and its trained parameters. When applied to two modern UDA techniques, DANN and ALDA, it improves performance on three standard CV datasets (Office31, Office-Home and PACS). In all cases, ABAS robustly finds the branch architectures which yield best performances. Code will be released.
翻訳日:2021-02-15 13:17:17 公開日:2021-02-12
# 量子回路のパラメータ化による点集合マッチング

A Parameterised Quantum Circuit Approach to Point Set Matching ( http://arxiv.org/abs/2102.06697v1 )

ライセンス: Link先を確認
Mohammadreza Noormandipour, Hanchen Wang(参考訳) ポイントセット登録は、パターン認識、コンピュータビジョン、画像処理といった領域における課題の1つである。 このタスクの効率的な性能は、広く応用されているため、研究の話題となっている。 点集合マッチング問題に対するパラメータ化量子回路学習手法を提案する。 提案手法は,1)全ての可能な最適解角を見つけることができ,2)量子学習の優位性を示すことが可能であり,3)強力な損失関数の定義のためのカーネル埋め込み技術と積分確率メトリクスの恩恵を受けることができる。 さらに、理論的な枠組みは、十分な予備と概念実験結果の証明によって裏付けられている。

Point set registration is one of the challenging tasks in areas such as pattern recognition, computer vision and image processing. Efficient performance of this task has been a hot topic of research due to its widespread applications. We propose a parameterised quantum circuit learning approach to point set matching problem. The proposed method benefits from a kernel-based quantum generative model that: 1) is able to find all possible optimal matching solution angles, 2) is potentially able to show quantum learning supremacy, and 3) benefits from kernel-embedding techniques and integral probability metrics for the definition of a powerful loss function. Moreover, the theoretical framework has been backed up by satisfactory preliminary and proof of concept experimental results.
翻訳日:2021-02-15 13:16:48 公開日:2021-02-12
# 瞬き再考 : 瞬きの生理的表現による難易度の評価

Rethinking Eye-blink: Assessing Task Difficulty through Physiological Representation of Spontaneous Blinking ( http://arxiv.org/abs/2102.06690v1 )

ライセンス: Link先を確認
Youngjun Cho(参考訳) インタラクティブシステムのユーザビリティとアクセシビリティ向上には,タスク難易度とメンタルワークロードの継続的な評価が不可欠である。 この能力を達成するために、アイトラッキングのデータがしばしば調査され、標準的なblinkメトリクスの役割が限定されている。 本稿では,タスク難易度の自動推定のためのアイリンク応答解析のための新しい手法を提案する。 コアモジュールは、点滅に反映された情報の豊かさをキャプチャすることを目的としたアイリンクの時間周波数表現です。 本研究では,タスク難易度に対する感度が有意に向上することを示した。 次に,表現されたパターンを多次元の短期記憶リカレントニューラルネットワークで解析し,難易度関連パラメータへの非線形マッピングを行うフレームワークを構築する方法を示す。 このフレームワークはハンドエンジニアリング機能を使用した他の手法よりも優れていた。 このアプローチは、特別なデバイスを必要とせずに、内蔵カメラで機能する。 我々は、Rethinking Eye-blinkが現実世界のアプリケーションにどのように役立つかを議論することで締めくくります。

Continuous assessment of task difficulty and mental workload is essential in improving the usability and accessibility of interactive systems. Eye tracking data has often been investigated to achieve this ability, with reports on the limited role of standard blink metrics. Here, we propose a new approach to the analysis of eye-blink responses for automated estimation of task difficulty. The core module is a time-frequency representation of eye-blink, which aims to capture the richness of information reflected on blinking. In our first study, we show that this method significantly improves the sensitivity to task difficulty. We then demonstrate how to form a framework where the represented patterns are analyzed with multi-dimensional Long Short-Term Memory recurrent neural networks for their non-linear mapping onto difficulty-related parameters. This framework outperformed other methods that used hand-engineered features. This approach works with any built-in camera, without requiring specialized devices. We conclude by discussing how Rethinking Eye-blink can benefit real-world applications.
翻訳日:2021-02-15 13:16:38 公開日:2021-02-12
# ログレコードの自動解析について

On Automatic Parsing of Log Records ( http://arxiv.org/abs/2102.06320v1 )

ライセンス: Link先を確認
Jared Rand and Andriy Miranskyy(参考訳) ソフトウェアログ分析は、ソフトウェアソリューションの健全性を維持し、コンプライアンスとセキュリティを確保するのに役立つ。 既存のソフトウェアシステムは、様々なフォーマットでログを出力する異種コンポーネントで構成されている。 典型的な解決策は、手動で構築したパーサを使ってログを統合することだ。 代わりに,機械翻訳(MT)を用いて解析作業を自動化する可能性を検討する。 繰り返しニューラルネットワークベースのMTモデルをトレーニングするために使用した合成Apacheログレコードを生成するツールを作成します。 実世界のログに対するモデルの評価は、モデルがApacheログフォーマットを学び、個々のログレコードを解析できることを示しています。 実際の実世界のログ記録とMT予測の間の平均的な編集距離は28%以下である。 したがって,MT手法によるログ解析は有望であることを示す。

Software log analysis helps to maintain the health of software solutions and ensure compliance and security. Existing software systems consist of heterogeneous components emitting logs in various formats. A typical solution is to unify the logs using manually built parsers, which is laborious. Instead, we explore the possibility of automating the parsing task by employing machine translation (MT). We create a tool that generates synthetic Apache log records which we used to train recurrent-neural-net work-based MT models. Models' evaluation on real-world logs shows that the models can learn Apache log format and parse individual log records. The median relative edit distance between an actual real-world log record and the MT prediction is less than or equal to 28%. Thus, we show that log parsing using an MT approach is promising.
翻訳日:2021-02-15 13:15:54 公開日:2021-02-12
# Shapley値と非パラメトリックブインコプラを用いた予測モデルの説明

Explaining predictive models using Shapley values and non-parametric vine copulas ( http://arxiv.org/abs/2102.06416v1 )

ライセンス: Link先を確認
Kjersti Aas, Thomas Nagler, Martin Jullum, Anders L{\o}land(参考訳) 予測説明のためのShapley値の当初の開発は、記述される特徴が独立しているという仮定に依存していた。 現実の機能が依存している場合、誤った説明につながる可能性がある。 そのため、最近は機能間の依存性を適切にモデル化し、見積もる試みがある。 提案手法は、独立性を前提とした従来のアプローチを明らかに上回るが、弱点がある。 本稿では,特徴間の依存性をモデル化する2つの新しい手法を提案する。 どちらのアプローチも、多変量非ガウス分布をモデル化するための柔軟なツールであり、広範囲の複雑な依存性を特徴付けることができる。 提案手法の性能はシミュレーションされたデータセットと実データセットで評価される。 実験は、ブドウのコプラアプローチが競合他社よりも真のシャプリー値により正確な近似を与えることを実証しています。

The original development of Shapley values for prediction explanation relied on the assumption that the features being described were independent. If the features in reality are dependent this may lead to incorrect explanations. Hence, there have recently been attempts of appropriately modelling/estimating the dependence between the features. Although the proposed methods clearly outperform the traditional approach assuming independence, they have their weaknesses. In this paper we propose two new approaches for modelling the dependence between the features. Both approaches are based on vine copulas, which are flexible tools for modelling multivariate non-Gaussian distributions able to characterise a wide range of complex dependencies. The performance of the proposed methods is evaluated on simulated data sets and a real data set. The experiments demonstrate that the vine copula approaches give more accurate approximations to the true Shapley values than its competitors.
翻訳日:2021-02-15 13:14:34 公開日:2021-02-12
# Bootstrapped Representation Learning on Graphs

Bootstrapped Representation Learning on Graphs ( http://arxiv.org/abs/2102.06514v1 )

ライセンス: Link先を確認
Shantanu Thakoor, Corentin Tallec, Mohammad Gheshlaghi Azar, R\'emi Munos, Petar Veli\v{c}kovi\'c, Michal Valko(参考訳) グラフニューラルネットワーク(GNN)の最先端の自己教師型学習手法は,コントラスト学習に基づいている。 したがって、それらは増分と負の例の建設に大きく依存します。 例えば、標準のPPIベンチマークでは、負対の数を増やすことで性能が向上し、ピーク性能を達成するためにノード数で計算とメモリコストが2倍になる。 最近導入された、負のペアを必要としない自己教師付き学習法であるBYOLに触発されて、この潜在的な二次的ボトルネックを取り除く自己教師付きグラフ表現法であるBootstrapped Graph Latents, BGRLを提案する。 BGRLは、いくつかの確立されたベンチマークデータセットの以前の監視されていない最新の結果を上回るか、一致させます。 さらに、GAT(Graph attentional)エンコーダの効果的な使用を可能にし、最先端の技術をさらに改善することができます。 特にPPIデータセットでは、GATをエンコーダとして、線形評価プロトコルを用いて最先端の70.49%マイクロF1を実現する。 検討中の他のすべてのデータセットでは、私たちのモデルは、しばしばそれらを超える同等の監督GNN結果と競争力があります。

Current state-of-the-art self-supervised learning methods for graph neural networks (GNNs) are based on contrastive learning. As such, they heavily depend on the construction of augmentations and negative examples. For example, on the standard PPI benchmark, increasing the number of negative pairs improves performance, thereby requiring computation and memory cost quadratic in the number of nodes to achieve peak performance. Inspired by BYOL, a recently introduced method for self-supervised learning that does not require negative pairs, we present Bootstrapped Graph Latents, BGRL, a self-supervised graph representation method that gets rid of this potentially quadratic bottleneck. BGRL outperforms or matches the previous unsupervised state-of-the-art results on several established benchmark datasets. Moreover, it enables the effective usage of graph attentional (GAT) encoders, allowing us to further improve the state of the art. In particular on the PPI dataset, using GAT as an encoder we achieve state-of-the-art 70.49% Micro-F1, using the linear evaluation protocol. On all other datasets under consideration, our model is competitive with the equivalent supervised GNN results, often exceeding them.
翻訳日:2021-02-15 13:14:21 公開日:2021-02-12
# 逐次神経後部と可能性近似

Sequential Neural Posterior and Likelihood Approximation ( http://arxiv.org/abs/2102.06522v1 )

ライセンス: Link先を確認
Samuel Wiqvist, Jes Frellsen, Umberto Picchini(参考訳) SNPLA(Sequence Neural posterior and likelylihood Approximation)アルゴリズムについて紹介する。 SNPLAは暗黙モデルにおける推論のための正規化フローベースのアルゴリズムである。 したがって、snplaは生成モデルからのシミュレーションのみを必要とするシミュレーションに基づく推論手法である。 同様の手法と比較して,SNPLAの主な利点は,本手法が後部と後部の両方を共同で学習することである。 SNPLAはマルコフ連鎖モンテカルロサンプリングと同様の方法で導入されたパラメータ提案関数の修正ステップを完全に避けるが、数値的に不安定か制限的である。 4 つの実験で,SNPLA は,後続関数と後続関数の連成学習により,SNPLA の推論問題がより複雑であるにもかかわらず,他の手法と同じ数のモデルシミュレーションを利用する場合,競争的に機能することを示した。

We introduce the sequential neural posterior and likelihood approximation (SNPLA) algorithm. SNPLA is a normalizing flows-based algorithm for inference in implicit models. Thus, SNPLA is a simulation-based inference method that only requires simulations from a generative model. Compared to similar methods, the main advantage of SNPLA is that our method jointly learns both the posterior and the likelihood. SNPLA completely avoid Markov chain Monte Carlo sampling and correction-steps of the parameter proposal function that are introduced in similar methods, but that can be numerically unstable or restrictive. Over four experiments, we show that SNPLA performs competitively when utilizing the same number of model simulations as used in other methods, even though the inference problem for SNPLA is more complex due to the joint learning of posterior and likelihood function.
翻訳日:2021-02-15 13:14:01 公開日:2021-02-12
# 不均質な処理効果推定のための疎ベイズ因果樹林

Sparse Bayesian Causal Forests for Heterogeneous Treatment Effects Estimation ( http://arxiv.org/abs/2102.06573v1 )

ライセンス: Link先を確認
Alberto Caron, Gianluca Baio and Ioanna Manolopoulou(参考訳) 本稿では,最近提案されている非パラメトリック因果回帰モデルであるベイズ因果樹林のスパース性誘導版を開発し,観測データを用いて不均質な処理効果を推定するように設計されている。 我々が導入するスパーシティ誘導成分は、利用可能な前処理コバリアリートの数が無視できない経験的研究によって動機づけられ、個々の治療効果の推定における関心表面の基礎となるスパーシティの程度が異なる。 この論文で提示された拡張版は、スパースベイズ因果樹林(sparse bayesian causal forest)と名付けられており、モデルが各共変量の重みをツリーアンサンブル内の対応するスプリット数で調整できる追加のプリデントを備えています。 これらの先行は、スパース設定へのモデルの適応性を改善し、治療効果推定のためのフレームワークでベイズ変数の完全選択を可能にし、不均一性を引き起こすモデレーション要因を明らかにする。 さらに, 本手法は, 関連する処理前共変量とそのモデルに組み込む結果に対する影響の相対的な大きさについて, 事前知識を付与する。 本手法のシミュレーション研究における性能について,ベイジアン因果樹林などの最新モデルと比較し,共変数の増加に伴うスケールアップと強固な連結シナリオの扱い方を示す。 最後に,実世界データを用いたアプリケーションの例を示す。

This paper develops a sparsity-inducing version of Bayesian Causal Forests, a recently proposed nonparametric causal regression model that employs Bayesian Additive Regression Trees and is specifically designed to estimate heterogeneous treatment effects using observational data. The sparsity-inducing component we introduce is motivated by empirical studies where the number of pre-treatment covariates available is non-negligible, leading to different degrees of sparsity underlying the surfaces of interest in the estimation of individual treatment effects. The extended version presented in this work, which we name Sparse Bayesian Causal Forest, is equipped with an additional pair of priors allowing the model to adjust the weight of each covariate through the corresponding number of splits in the tree ensemble. These priors improve the model's adaptability to sparse settings and allow to perform fully Bayesian variable selection in a framework for treatment effects estimation, and thus to uncover the moderating factors driving heterogeneity. In addition, the method allows prior knowledge about the relevant confounding pre-treatment covariates and the relative magnitude of their impact on the outcome to be incorporated in the model. We illustrate the performance of our method in simulated studies, in comparison to Bayesian Causal Forest and other state-of-the-art models, to demonstrate how it scales up with an increasing number of covariates and how it handles strongly confounded scenarios. Finally, we also provide an example of application using real-world data.
翻訳日:2021-02-15 13:13:33 公開日:2021-02-12
# ニューラルスケーリング法則の解説

Explaining Neural Scaling Laws ( http://arxiv.org/abs/2102.06701v1 )

ライセンス: Link先を確認
Yasaman Bahri, Ethan Dyer, Jared Kaplan, Jaehoon Lee, Utkarsh Sharma(参考訳) よく訓練されたニューラルネットワークのテスト損失は、トレーニングデータセットのサイズやネットワーク内のパラメータ数と正確なパワーロースケーリング関係に従うことが多い。 これらのスケーリング法則を説明・連結する理論を提案する。 データセットとモデルサイズの両方の分散制限と分解能制限のスケーリング挙動を,合計4つのスケーリングレギュレーションに対して同定する。 分散制限されたスケーリングは、振舞いのよい無限データまたは無限の幅の限界の存在から単に従うが、解像度制限された体制は、モデルが滑らかなデータ多様体を効果的に解決していることを示唆することによって説明することができる。 大きな幅制限では、これは特定のカーネルのスペクトルから等価に得ることができ、大きな幅と大きなデータセット解像度に制限されたスケーリング指数が双対性によって関連していることを示す。 大規模ランダム特徴と事前学習モデルの制御設定において,4つのスケーリングレジームをすべて示し,さまざまな標準アーキテクチャとデータセット上で経験則的に予測をテストした。 スーパークラス化イメージタスクは指数を変化させないが、(データセットを変更したりノイズを追加したりすることで)入力分布を変更することは強い効果がある。 アーキテクチャアスペクト比が指数のスケーリングに与える影響についてさらに検討する。

The test loss of well-trained neural networks often follows precise power-law scaling relations with either the size of the training dataset or the number of parameters in the network. We propose a theory that explains and connects these scaling laws. We identify variance-limited and resolution-limited scaling behavior for both dataset and model size, for a total of four scaling regimes. The variance-limited scaling follows simply from the existence of a well-behaved infinite data or infinite width limit, while the resolution-limited regime can be explained by positing that models are effectively resolving a smooth data manifold. In the large width limit, this can be equivalently obtained from the spectrum of certain kernels, and we present evidence that large width and large dataset resolution-limited scaling exponents are related by a duality. We exhibit all four scaling regimes in the controlled setting of large random feature and pretrained models and test the predictions empirically on a range of standard architectures and datasets. We also observe several empirical relationships between datasets and scaling exponents: super-classing image tasks does not change exponents, while changing input distribution (via changing datasets or adding noise) has a strong effect. We further explore the effect of architecture aspect ratio on scaling exponents.
翻訳日:2021-02-15 13:13:06 公開日:2021-02-12
# 神経BRDF表現と重要度サンプリング

Neural BRDF Representation and Importance Sampling ( http://arxiv.org/abs/2102.05963v2 )

ライセンス: Link先を確認
Alejandro Sztrajman, Gilles Rainer, Tobias Ritschel, Tim Weyrich(参考訳) 実世界の物質外観の制御されたキャプチャは、高度に現実的な反射率データの集計セットを得る。 しかし実際には、その高いメモリフットプリントは、オリジナルに忠実でありながら、レンダリングに効率的に使用できる表現に圧縮する必要がある。 レンダリング中に効率的なクエリに適さない高忠実度のアレイ圧縮戦略を適用するか、表現力に欠けるコンパクトな分析モデルを適用するかのいずれかによって、外観符号化の以前の作業は、多くの場合、これらの要件の1つを優先しました。 本稿では, BRDFデータをコンパクトなニューラルネットワークで表現し, 高精度な再構成と, 反射率の補間を組み込んだ効率的な実用的なレンダリングを実現する。 BRDFを軽量ネットワークとしてエンコードし、スペクトルハイライトの正確な再構築に不可欠なアダプティブアンギュラサンプリングによるトレーニングスキームを提案します。 さらに,重要サンプリングに適応する新しい手法を提案する。トレーニングされたネットワークを逆転するのではなく,重要サンプリングが知られている解析BRDFのパラメータにマッピング可能な埋め込みを学習する。 複数の実世界のデータセットから得られた異方性および異方性BRDFの符号化結果と、2つの異なる解析モデルにマッピングされた異方性BRDFのサンプリング性能を評価する。

Controlled capture of real-world material appearance yields tabulated sets of highly realistic reflectance data. In practice, however, its high memory footprint requires compressing into a representation that can be used efficiently in rendering while remaining faithful to the original. Previous works in appearance encoding often prioritised one of these requirements at the expense of the other, by either applying high-fidelity array compression strategies not suited for efficient queries during rendering, or by fitting a compact analytic model that lacks expressiveness. We present a compact neural network-based representation of BRDF data that combines high-accuracy reconstruction with efficient practical rendering via built-in interpolation of reflectance. We encode BRDFs as lightweight networks, and propose a training scheme with adaptive angular sampling, critical for the accurate reconstruction of specular highlights. Additionally, we propose a novel approach to make our representation amenable to importance sampling: rather than inverting the trained networks, we learn an embedding that can be mapped to parameters of an analytic BRDF for which importance sampling is known. We evaluate encoding results on isotropic and anisotropic BRDFs from multiple real-world datasets, and importance sampling performance for isotropic BRDFs mapped to two different analytic models.
翻訳日:2021-02-15 13:12:45 公開日:2021-02-12
# 学習変数MRI再構成のベイズ不確実性推定

Bayesian Uncertainty Estimation of Learned Variational MRI Reconstruction ( http://arxiv.org/abs/2102.06665v1 )

ライセンス: Link先を確認
Dominik Narnhofer and Alexander Effland and Erich Kobler and Kerstin Hammernik and Florian Knoll and Thomas Pock(参考訳) 最近のディープラーニングアプローチは、専用のベンチマークの量的スコアの改善に重点を置いているため、観測関連の不確実性を減らすだけである。 しかし、モデルの不確かさは体系的に分析されることは少ない。 本研究では, 震源の不確実性を定量化するベイズ変動フレームワークを提案する。 そこで, 変量設定下における下検体MRI再構成の線形逆問題を解く。 関連するエネルギー汎関数は、データ忠実度項と学習パラメトリック正則化器としての全深度変動(TDV)からなる。 認識的不確かさを推定するために、確率的最適制御問題において平均と共分散行列が学習される多変量ガウス分布からtdv正則化器のパラメータを導出する。 いくつかの数値実験では、このアプローチが低サンプルMRI再建のための競争結果をもたらすことを実証する。 さらに,再構成信頼性を可視化するための追加資源として放射線科医に提供できる画素単位の認識の不確かさを正確に定量化することができる。

Recent deep learning approaches focus on improving quantitative scores of dedicated benchmarks, and therefore only reduce the observation-related (aleatoric) uncertainty. However, the model-immanent (epistemic) uncertainty is less frequently systematically analyzed. In this work, we introduce a Bayesian variational framework to quantify the epistemic uncertainty. To this end, we solve the linear inverse problem of undersampled MRI reconstruction in a variational setting. The associated energy functional is composed of a data fidelity term and the total deep variation (TDV) as a learned parametric regularizer. To estimate the epistemic uncertainty we draw the parameters of the TDV regularizer from a multivariate Gaussian distribution, whose mean and covariance matrix are learned in a stochastic optimal control problem. In several numerical experiments, we demonstrate that our approach yields competitive results for undersampled MRI reconstruction. Moreover, we can accurately quantify the pixelwise epistemic uncertainty, which can serve radiologists as an additional resource to visualize reconstruction reliability.
翻訳日:2021-02-15 13:11:57 公開日:2021-02-12
# 完全最大流量計算のためのreluニューラルネットワーク

ReLU Neural Networks for Exact Maximum Flow Computation ( http://arxiv.org/abs/2102.06635v1 )

ライセンス: Link先を確認
Christoph Hertrich and Leon Sering(参考訳) 理論的な観点からのニューラルネットワーク(nns)の偉大な実証的成功を理解することは、現在コンピュータ科学で最もホットな研究トピックの1つです。 本稿では, 線形整列単位を用いたNNの表現力について, 組合せ最適化の観点から検討する。 特に、$n$ノードと$m$アークを持つ有向グラフを考えると、入力として可能な実値アーク容量から最大フローを計算する多項式サイズのNNが存在することを示しています。 これを証明するために、擬似符号言語Max-Affine Arithmetic Programs(MAAP)を開発し、自然複雑性対策に関するMAAPとNNの等価性を示す。 次に、最大フロー問題を正確に解くためにMAAPを設計し、サイズが$\mathcal{O}(m^2 n^2)$のNNに変換する。

Understanding the great empirical success of artificial neural networks (NNs) from a theoretical point of view is currently one of the hottest research topics in computer science. In this paper we study the expressive power of NNs with rectified linear units from a combinatorial optimization perspective. In particular, we show that, given a directed graph with $n$ nodes and $m$ arcs, there exists an NN of polynomial size that computes a maximum flow from any possible real-valued arc capacities as input. To prove this, we develop the pseudo-code language Max-Affine Arithmetic Programs (MAAPs) and show equivalence between MAAPs and NNs concerning natural complexity measures. We then design a MAAP to exactly solve the Maximum Flow Problem, which translates to an NN of size $\mathcal{O}(m^2 n^2)$.
翻訳日:2021-02-15 13:11:39 公開日:2021-02-12
# 微分生成音韻論

Differentiable Generative Phonology ( http://arxiv.org/abs/2102.05717v2 )

ライセンス: Link先を確認
Shijie Wu and Edoardo Maria Ponti and Ryan Cotterell(参考訳) Chomsky and Halle (1968) によって定式化された生成音韻学の目標は、言語で証明された音韻の集合を説明する形式的なシステムを指定することである。 伝統的に、規則(あるいは最適性理論の場合の制約)と基礎形式(UF)の集合は、音韻弦を生成するためにタンデムで働くように仮定される。 しかし、具体的な実現に関するUFの抽象化の程度は議論の余地がある。 我々の研究の主な貢献は、規則や制約の集合ではなく、ニューラルモデルで識別可能なエンドツーエンドとして音韻生成システムを実装することである。 従来の音韻学とは対照的に、私たちのモデルでは UF は離散弦ではなく $\mathbb{R}^d$ の連続ベクトルである。 その結果、UFは言語学者によって提案されるのではなく自動的に発見され、モデルは現実的な語彙のサイズまでスケールすることができる。 さらに、生成過程のいくつかのモードを比較し、以下を考察する:i)形態素と表面形態(SFs)の間に根底にある表現の存在または不在;ii)SFに関するUFの条件依存または独立。 5言語と28言語をカバーする2つのデータセットにおいて,各モードが有意な音韻列を推定する能力を評価した。 結果は、生成音韻学の2つのテネットであるvizと相関する。 UF と SF からの独立の必要性。 一般的に、生成音声学のニューラルネットワークは、UFとSFの両方を自動的に、そして大規模に学習する。

The goal of generative phonology, as formulated by Chomsky and Halle (1968), is to specify a formal system that explains the set of attested phonological strings in a language. Traditionally, a collection of rules (or constraints, in the case of optimality theory) and underlying forms (UF) are posited to work in tandem to generate phonological strings. However, the degree of abstraction of UFs with respect to their concrete realizations is contentious. As the main contribution of our work, we implement the phonological generative system as a neural model differentiable end-to-end, rather than as a set of rules or constraints. Contrary to traditional phonology, in our model, UFs are continuous vectors in $\mathbb{R}^d$, rather than discrete strings. As a consequence, UFs are discovered automatically rather than posited by linguists, and the model can scale to the size of a realistic vocabulary. Moreover, we compare several modes of the generative process, contemplating: i) the presence or absence of an underlying representation in between morphemes and surface forms (SFs); and ii) the conditional dependence or independence of UFs with respect to SFs. We evaluate the ability of each mode to predict attested phonological strings on 2 datasets covering 5 and 28 languages, respectively. The results corroborate two tenets of generative phonology, viz. the necessity for UFs and their independence from SFs. In general, our neural model of generative phonology learns both UFs and SFs automatically and on a large-scale.
翻訳日:2021-02-15 13:11:23 公開日:2021-02-12
# 感情タスクのための絵文字に基づく転写学習

Emoji-Based Transfer Learning for Sentiment Tasks ( http://arxiv.org/abs/2102.06423v1 )

ライセンス: Link先を確認
Susann Boy, Dana Ruiter, Dietrich Klakow(参考訳) ヘイトスピーチの検出や感情分析などの感情タスクは、特に英語以外の言語で実行される場合、しばしば低リソース化される。 本研究では,絵文字にエンコードされた感情情報を活用し,様々な感情課題のパフォーマンスを向上させる。 これは、絵文字ベースのソースタスクで学習されたパラメータを感情目標タスクに転送する転送学習アプローチを使って行われる。 転送の有効性を3つの条件、すなわち3つの条件で分析する。 i) 対象タスクの絵文字内容及びii) 対象タスクのラベル分布及びiii) 単言語的および多言語的に学習されたソースタスクの違い i.a. を見つけます。 ターゲットのタスクが高い絵文字コンテンツとバランスを取っていれば、転送は最も有益である。 単言語で学習されたソースタスクは、絵文字の文化的に特定の使用を考慮し、ベースライン上で最大F1 + 0.280を得るというメリットがある。

Sentiment tasks such as hate speech detection and sentiment analysis, especially when performed on languages other than English, are often low-resource. In this study, we exploit the emotional information encoded in emojis to enhance the performance on a variety of sentiment tasks. This is done using a transfer learning approach, where the parameters learned by an emoji-based source task are transferred to a sentiment target task. We analyse the efficacy of the transfer under three conditions, i.e. i) the emoji content and ii) label distribution of the target task as well as iii) the difference between monolingually and multilingually learned source tasks. We find i.a. that the transfer is most beneficial if the target task is balanced with high emoji content. Monolingually learned source tasks have the benefit of taking into account the culturally specific use of emojis and gain up to F1 +0.280 over the baseline.
翻訳日:2021-02-15 13:10:58 公開日:2021-02-12
# バイリンガル辞書を用いた機械翻訳における連続学習

Continuous Learning in Neural Machine Translation using Bilingual Dictionaries ( http://arxiv.org/abs/2102.06558v1 )

ライセンス: Link先を確認
Jan Niehues(参考訳) 近年のディープラーニングの進歩は機械翻訳の大幅な改善につながったが、ニューラルマシン翻訳は環境に継続的に適応できないことが多い。 人間や機械翻訳にとって、バイリンガル辞書は、新しい知識を継続的に統合するための有望な知識源である。 システムはワンショット学習を実行できると同時に、ソース言語とターゲット言語の形態をモデル化する必要があります。 本研究では,ニューラルマシン翻訳による新しいフレーズの連続学習能力を評価するための評価フレームワークを提案する。 ニューラルマシン翻訳のためのワンショット学習手法を異なる単語表現と統合し、バイリンガル辞書をうまく活用するためには双方に対処することが重要であることを示す。 両方の課題に対処することで、新しいまれな単語やフレーズを30%から70%に翻訳する能力を改善することができます。 正しい補題は90%以上も生成されます。

While recent advances in deep learning led to significant improvements in machine translation, neural machine translation is often still not able to continuously adapt to the environment. For humans, as well as for machine translation, bilingual dictionaries are a promising knowledge source to continuously integrate new knowledge. However, their exploitation poses several challenges: The system needs to be able to perform one-shot learning as well as model the morphology of source and target language. In this work, we proposed an evaluation framework to assess the ability of neural machine translation to continuously learn new phrases. We integrate one-shot learning methods for neural machine translation with different word representations and show that it is important to address both in order to successfully make use of bilingual dictionaries. By addressing both challenges we are able to improve the ability to translate new, rare words and phrases from 30% to up to 70%. The correct lemma is even generated by more than 90%.
翻訳日:2021-02-15 13:10:43 公開日:2021-02-12
# 言語固有エンコーダ・デコーダにおけるゼロショットニューラルマシン翻訳の改善

Improving Zero-shot Neural Machine Translation on Language-specific Encoders-Decoders ( http://arxiv.org/abs/2102.06578v1 )

ライセンス: Link先を確認
Junwei Liao, Yu Shi, Ming Gong, Linjun Shou, Hong Qu, Michael Zeng(参考訳) 近年,共有エンコーダデコーダを用いたユニバーサルニューラルネットワーク翻訳(NMT)は,ゼロショット翻訳において良好な性能を示した。 ユニバーサルNMTとは異なり、共同で訓練された言語固有のエンコーダ-デコーダは、非共有モジュール間で普遍的な表現を達成することを目指している。 非共有アーキテクチャは、特に共用語彙とモデルパラメータがサイズに制限されている場合、内部言語競合を緩和する利点がある。 しかし、ゼロショット翻訳における複数エンコーダとデコーダの使用性能は、ユニバーサルNMTより遅れている。 本研究では,言語固有エンコーダ-デコーダを用いたゼロショット翻訳について検討する。 言語固有層とインターリンガル層を区別し,非共有アーキテクチャと汎用NMTの一般化を提案する。 パラメータを選択的に共有し,クロスアテンションを適用することにより,表現の普遍性を最大化し,言語に依存しない情報の最適アライメントを実現する。 また,DAE(Denoising Auto-Encoding)の目標として,翻訳タスクをマルチタスクで共同トレーニングする手法も導入した。 2つの公開多言語並列データセットにおける実験により,提案モデルが汎用nmtおよび強力なpivotベースラインよりも競合的あるいは優れた結果が得られることを示した。 さらに,新たなモデルパラメータを更新すれば,トレーニングモデルに新たな言語を段階的に追加する実験を行った。 この小さな努力で、新たに追加された言語と既存の言語の間のゼロショット翻訳は、すべての言語をゼロからトレーニングしたモデルと同等の結果を得る。

Recently, universal neural machine translation (NMT) with shared encoder-decoder gained good performance on zero-shot translation. Unlike universal NMT, jointly trained language-specific encoders-decoders aim to achieve universal representation across non-shared modules, each of which is for a language or language family. The non-shared architecture has the advantage of mitigating internal language competition, especially when the shared vocabulary and model parameters are restricted in their size. However, the performance of using multiple encoders and decoders on zero-shot translation still lags behind universal NMT. In this work, we study zero-shot translation using language-specific encoders-decoders. We propose to generalize the non-shared architecture and universal NMT by differentiating the Transformer layers between language-specific and interlingua. By selectively sharing parameters and applying cross-attentions, we explore maximizing the representation universality and realizing the best alignment of language-agnostic information. We also introduce a denoising auto-encoding (DAE) objective to jointly train the model with the translation task in a multi-task manner. Experiments on two public multilingual parallel datasets show that our proposed model achieves a competitive or better results than universal NMT and strong pivot baseline. Moreover, we experiment incrementally adding new language to the trained model by only updating the new model parameters. With this little effort, the zero-shot translation between this newly added language and existing languages achieves a comparable result with the model trained jointly from scratch on all languages.
翻訳日:2021-02-15 13:10:29 公開日:2021-02-12
# ReRankMatch: セマンティック指向の類似性表現による半教師付き学習

ReRankMatch: Semi-Supervised Learning with Semantics-Oriented Similarity Representation ( http://arxiv.org/abs/2102.06328v1 )

ライセンス: Link先を確認
Trung Quang Tran, Mingu Kang, Daeyoung Kim(参考訳) 本稿では,最近提案されている半教師付き学習手法である rankingmatch への意味論的類似性表現の統合を提案する。 我々の手法はReRankMatchと呼ばれ、ラベル付きデータとラベルなしデータが重複しないカテゴリを共有する場合に対処することを目的としている。 ReRankMatchは、モデルが同じクラスに属する可能性のあるサンプルの同様の画像表現を生成することを奨励します。 我々は, CIFAR-10, CIFAR-100, SVHN, STL-10, Tiny ImageNet など,様々なデータセット上で評価を行った。 有望な結果(4000ラベルのCIFAR-10の4.21%エラー率、10000ラベルのCIFAR-100の22.32%エラー率、1000ラベルのSVHNの2.19%エラー率)を得る。

This paper proposes integrating semantics-oriented similarity representation into RankingMatch, a recently proposed semi-supervised learning method. Our method, dubbed ReRankMatch, aims to deal with the case in which labeled and unlabeled data share non-overlapping categories. ReRankMatch encourages the model to produce the similar image representations for the samples likely belonging to the same class. We evaluate our method on various datasets such as CIFAR-10, CIFAR-100, SVHN, STL-10, and Tiny ImageNet. We obtain promising results (4.21% error rate on CIFAR-10 with 4000 labels, 22.32% error rate on CIFAR-100 with 10000 labels, and 2.19% error rate on SVHN with 1000 labels) when the amount of labeled data is sufficient to learn semantics-oriented similarity representation.
翻訳日:2021-02-15 13:09:52 公開日:2021-02-12
# Densely Deformable Efficient Salient Object Detection Network

Densely Deformable Efficient Salient Object Detection Network ( http://arxiv.org/abs/2102.06407v1 )

ライセンス: Link先を確認
Tanveer Hussain, Saeed Anwar, Amin Ullah, Khan Muhammad, and Sung Wook Baik(参考訳) rgb-dデータを用いたsalient object detection (sod)ドメインは、近年、いくつかのモデルで適切な結果が得られた。 しかし、それらは一般化能力と集中的な計算複雑性を抑えている。 本稿では,変形可能な畳み込みの最適背景/地上分離能力に触発されて,Densely Deformable Network (DDNet) に導入し,効率的なSODを実現する。 密に変形可能な畳み込みから得られる塩分領域は、転置畳み込みを用いてさらに洗練され、塩分マップを最適に生成する。 22の競合技術に対する最近のSODデータセットを用いた定量および定性評価は,本手法の有効性と有効性を示している。 また,当社が作成したクロスデータ型監視sod(s-sod)を用いて,さまざまなシナリオに適用可能なトレーニングモデルの妥当性を確認する評価も行います。 結果は、現在のモデルは一般化ポテンシャルが限られており、この方向のさらなる研究が必要であることを示している。 私たちのコードと新しいデータセットはhttps://github.com/t anveer-hussain/Effic ientSODで公開されます。

Salient Object Detection (SOD) domain using RGB-D data has lately emerged with some current models' adequately precise results. However, they have restrained generalization abilities and intensive computational complexity. In this paper, inspired by the best background/foregroun d separation abilities of deformable convolutions, we employ them in our Densely Deformable Network (DDNet) to achieve efficient SOD. The salient regions from densely deformable convolutions are further refined using transposed convolutions to optimally generate the saliency maps. Quantitative and qualitative evaluations using the recent SOD dataset against 22 competing techniques show our method's efficiency and effectiveness. We also offer evaluation using our own created cross-dataset, surveillance-SOD (S-SOD), to check the trained models' validity in terms of their applicability in diverse scenarios. The results indicate that the current models have limited generalization potentials, demanding further research in this direction. Our code and new dataset will be publicly available at https://github.com/t anveer-hussain/Effic ientSOD
翻訳日:2021-02-15 13:09:31 公開日:2021-02-12
# インタラクティブセグメンテーションのためのマスクガイダンスによる反復トレーニングの復活

Reviving Iterative Training with Mask Guidance for Interactive Segmentation ( http://arxiv.org/abs/2102.06583v1 )

ライセンス: Link先を確認
Konstantin Sofiiuk, Ilia A. Petrov and Anton Konushin(参考訳) クリックに基づくインタラクティブセグメンテーションに関する最近の研究は、様々な推論時間最適化スキームを用いて最先端の結果を示している。 これらのメソッドはフィードフォワードアプローチよりもかなり計算コストが高く、推論中にネットワークをバックワードパスする必要があるため、通常はフォワードパスのみをサポートするモバイルフレームワークにデプロイすることは困難である。 本稿では,インタラクティブセグメンテーションのための様々な設計選択を広範囲に評価し,追加の最適化スキームを使わずに新たな最先端結果が得られることを示す。 そこで本研究では,前段からのセグメンテーションマスクを用いたクリック型インタラクティブセグメンテーションのための簡易フィードフォワードモデルを提案する。 完全に新しいオブジェクトをセグメント化できるだけでなく、外部マスクから始めて修正することもできる。 異なるデータセット上で訓練されたモデルのパフォーマンスを分析する場合、トレーニングデータセットの選択がインタラクティブセグメンテーションの品質に大きく影響することを観察します。 COCOとLVISの組み合わせで訓練されたモデルと、多様で高品質のアノテーションは、既存のすべてのモデルよりも優れたパフォーマンスを示しています。 コードとトレーニングされたモデルはhttps://github.com/s aic-vul/ritm_interac tive_segmentationで入手できる。

Recent works on click-based interactive segmentation have demonstrated state-of-the-art results by using various inference-time optimization schemes. These methods are considerably more computationally expensive compared to feedforward approaches, as they require performing backward passes through a network during inference and are hard to deploy on mobile frameworks that usually support only forward passes. In this paper, we extensively evaluate various design choices for interactive segmentation and discover that new state-of-the-art results can be obtained without any additional optimization schemes. Thus, we propose a simple feedforward model for click-based interactive segmentation that employs the segmentation masks from previous steps. It allows not only to segment an entirely new object, but also to start with an external mask and correct it. When analyzing the performance of models trained on different datasets, we observe that the choice of a training dataset greatly impacts the quality of interactive segmentation. We find that the models trained on a combination of COCO and LVIS with diverse and high-quality annotations show performance superior to all existing models. The code and trained models are available at https://github.com/s aic-vul/ritm_interac tive_segmentation.
翻訳日:2021-02-15 13:09:13 公開日:2021-02-12
# マルチビュー・セルフスーパービジョンを用いた単一画像からの屋外逆レンダリング

Outdoor inverse rendering from a single image using multiview self-supervision ( http://arxiv.org/abs/2102.06591v1 )

ライセンス: Link先を確認
Ye Yu and William A. P. Smith(参考訳) 本論文では, 完全畳み込みニューラルネットワークを用いて, 単一非制御画像から形状, 反射率, 照明を回復するシーンレベルの逆レンダリングを行う方法を示す。 このネットワークは、RGB画像を入力として、アルベド、シャドウ、ノーマルマップを回帰し、最小二乗の球面調和照明係数を推定する。 ネットワークは、地上真理のない大規模なマルチビューおよびタイムラプス画像収集を用いて訓練されている。 微分可能なレンダラーを組み込むことで、ネットワークは自己スーパービジョンから学習できる。 問題は不適切であるため、追加の監督を導入する。 私たちの重要な洞察力は、豊富な照明変動を含む画像にオフラインマルチビューステレオ(MVS)を実行することです。 MVS のポーズと深度マップから、Samese のトレーニングで測光不変量の一貫した推定ができるように、重なり合うビュー間でプロジェクトを横断することができる。 MVS depthはまた、通常の地図推定のための直接粗い監督を提供する。 これはmvs監督を逆レンダリングの学習に利用する最初の試みであると考えています。 さらに,統計的自然照明を事前に学習する。 本研究では,逆レンダリング,正規地図推定,内在的画像分解ベンチマークの性能評価を行う。

In this paper we show how to perform scene-level inverse rendering to recover shape, reflectance and lighting from a single, uncontrolled image using a fully convolutional neural network. The network takes an RGB image as input, regresses albedo, shadow and normal maps from which we infer least squares optimal spherical harmonic lighting coefficients. Our network is trained using large uncontrolled multiview and timelapse image collections without ground truth. By incorporating a differentiable renderer, our network can learn from self-supervision. Since the problem is ill-posed we introduce additional supervision. Our key insight is to perform offline multiview stereo (MVS) on images containing rich illumination variation. From the MVS pose and depth maps, we can cross project between overlapping views such that Siamese training can be used to ensure consistent estimation of photometric invariants. MVS depth also provides direct coarse supervision for normal map estimation. We believe this is the first attempt to use MVS supervision for learning inverse rendering. In addition, we learn a statistical natural illumination prior. We evaluate performance on inverse rendering, normal map estimation and intrinsic image decomposition benchmarks.
翻訳日:2021-02-15 13:08:56 公開日:2021-02-12
# 確率的, 対逆的な線形帯における近接インスタンス・オプティマティとミニマックス・オプティマティクスを同時に実現する

Achieving Near Instance-Optimality and Minimax-Optimality in Stochastic and Adversarial Linear Bandits Simultaneously ( http://arxiv.org/abs/2102.05858v2 )

ライセンス: Link先を確認
Chung-Wei Lee, Haipeng Luo, Chen-Yu Wei, Mengxiao Zhang, Xiaojin Zhang(参考訳) 本研究では,異なる環境に自動的に適応する線形バンディットアルゴリズムを開発した。 新しい損失推定器をインスタンス最適化戦略を特徴付ける最適化問題に差し込むことで、私たちの最初のアルゴリズムは確率的環境でのインスタンス最適化の後悔をほぼ達成するだけでなく、さらに後悔の量である腐敗した環境で動作し、最先端の(Li et al.、2019)はインスタンス最適化も破損量への最適依存も達成しません。 さらに、このアルゴリズムを逆成分と慎重に設計したテストとを併用することにより、我々の第2のアルゴリズムは、完全に逆条件下での最小限の後悔を享受する。 最後に、すべての保証は高い確率で保持されますが、既存のインスタンス最適化保証は期待通りです。

In this work, we develop linear bandit algorithms that automatically adapt to different environments. By plugging a novel loss estimator into the optimization problem that characterizes the instance-optimal strategy, our first algorithm not only achieves nearly instance-optimal regret in stochastic environments, but also works in corrupted environments with additional regret being the amount of corruption, while the state-of-the-art (Li et al., 2019) achieves neither instance-optimality nor the optimal dependence on the corruption amount. Moreover, by equipping this algorithm with an adversarial component and carefully-designed testings, our second algorithm additionally enjoys minimax-optimal regret in completely adversarial environments, which is the first of this kind to our knowledge. Finally, all our guarantees hold with high probability, while existing instance-optimal guarantees only hold in expectation.
翻訳日:2021-02-15 13:08:13 公開日:2021-02-12
# バッテリーと共に踊る - モバイルデバイス上での実行時間再構成可能なトランスフォーマーの実現

Dancing along Battery: Enabling Transformer with Run-time Reconfigurability on Mobile Devices ( http://arxiv.org/abs/2102.06336v1 )

ライセンス: Link先を確認
Yuhong Song, Weiwen Jiang, Bingbing Li, Panjie Qi, Qingfeng Zhuge, Edwin Hsing-Mean Sha, Sakyasingha Dasgupta, Yiyu Shi, Caiwen Ding(参考訳) この研究では、ランタイム再構成性のためのpruningベースのAutoMLフレームワーク、すなわちRT3が提案されている。 これにより、Transformerベースの大規模自然言語処理(NLP)モデルをリソース制約のあるモバイルデバイス上で効率的に実行し、実行時に再構成(動的ハードウェア条件のモデルの変更)を行うことができる。 このような再構成性は、バッテリー駆動のモバイルデバイスの省エネの鍵であり、ハードウェア再構成のために動的電圧および周波数スケーリング(dvfs)技術が広く使われている。 本研究では,トランスフォーマーモデルのためのブロック構造プルーニング(bp)とパターンプルーニング(pp)のハイブリッドを創造的に検討し,まずハードウェアとソフトウェアの再構成を組み合わせることで,バッテリ駆動モバイルデバイスの省エネを図る。 RT3は、リソース制約のあるモバイルデバイスの第一段階の圧縮として効率的なBPを使用し、その後RT3は第一段階の最適化に基づいてシャーンケン検索空間をヒューリスティックに生成し、強化学習によりPPの多様な幅を持つ複数のパターン集合を検索し、DVFS(ハードウェア再構成)の利用可能な周波数レベルに対応する軽量なソフトウェア再構成をサポートする。 実行時には、RT3は45ms以内の軽量パターンセットを切り替えて、異なる周波数レベルのリアルタイム制約を保証できる。 さらに、RT3はトランスの1%以下の精度損失とDistilBERTの1.5%のスコアの低下で4倍以上のバッテリー寿命を延ばすことができます。

A pruning-based AutoML framework for run-time reconfigurability, namely RT3, is proposed in this work. This enables Transformer-based large Natural Language Processing (NLP) models to be efficiently executed on resource-constrained mobile devices and reconfigured (i.e., switching models for dynamic hardware conditions) at run-time. Such reconfigurability is the key to save energy for battery-powered mobile devices, which widely use dynamic voltage and frequency scaling (DVFS) technique for hardware reconfiguration to prolong battery life. In this work, we creatively explore a hybrid block-structured pruning (BP) and pattern pruning (PP) for Transformer-based models and first attempt to combine hardware and software reconfiguration to maximally save energy for battery-powered mobile devices. Specifically, RT3 integrates two-level optimizations: First, it utilizes an efficient BP as the first-step compression for resource-constrained mobile devices; then, RT3 heuristically generates a shrunken search space based on the first level optimization and searches multiple pattern sets with diverse sparsity for PP via reinforcement learning to support lightweight software reconfiguration, which corresponds to available frequency levels of DVFS (i.e., hardware reconfiguration). At run-time, RT3 can switch the lightweight pattern sets within 45ms to guarantee the required real-time constraint at different frequency levels. Results further show that RT3 can prolong battery life over 4x improvement with less than 1% accuracy loss for Transformer and 1.5% score decrease for DistilBERT.
翻訳日:2021-02-15 13:07:13 公開日:2021-02-12
# 混合信号ニューロモルフィックプロセッサのロバスト展開のためのスパイクニューラルネットワークのトレーニング

Supervised training of spiking neural networks for robust deployment on mixed-signal neuromorphic processors ( http://arxiv.org/abs/2102.06408v1 )

ライセンス: Link先を確認
Julian B\"uchel, Dmitrii Zendrikov, Sergio Solinas, Giacomo Indiveri, Dylan R. Muir(参考訳) 混合信号アナログ/デジタル電子回路は「神経工学」として知られるアプローチに従って、スパイキングニューロンやシナプスを非常に高いエネルギー効率でエミュレートすることができる。 しかし、アナログ回路はチップ内のトランジスタ間の製造のばらつきに敏感である("device mismatch")。 スパイキングニューラルネットワーク(SNN)の神経形態実装の場合、ミスマッチは同一構成ニューロンとシナプス間の効果的なパラメータの違いとして表現される。 したがって、各製造チップは時間定数やシナプス重みなどのパラメータの異なる分布を提供する。 追加のオンチップ学習またはキャリブレーション回路の領域と電力の高価なオーバーヘッドがなければ、デバイスミスマッチおよびその他のノイズソースは、事前に訓練されたニューラルネットワークチップの展開にとって重要な課題です。 ここでは、ミスマッチやその他の一般的なノイズ源に対する堅牢性を最大化することで、この課題に対処する教師付き学習アプローチを紹介します。 提案手法は,非線形制御理論から適応した局所学習則を用いて,事前学習した力学系を模倣して時間的分類タスクを実行する。 我々は,メモリの動作を成功させる2つのタスクにおいて,モデルの有効性を実証し,ネットワーク内に存在する様々なノイズや変動性に対する我々のアプローチの頑健さを計測する。 我々のアプローチは、SNNのトレーニングのためのいくつかの一般的な代替アプローチよりも堅牢であることを示す。 本手法は, デバイスごとのトレーニングや校正を必要とせず, 混合信号のニューロモルフィックハードウェア上で, トレーニング済みネットワークを堅牢に展開する方法を提供する。

Mixed-signal analog/digital electronic circuits can emulate spiking neurons and synapses with extremely high energy efficiency, following an approach known as "neuromorphic engineering". However, analog circuits are sensitive to variation in fabrication among transistors in a chip ("device mismatch"). In the case of neuromorphic implementation of Spiking Neural Networks (SNNs), mismatch is expressed as differences in effective parameters between identically-configur ed neurons and synapses. Each fabricated chip therefore provides a different distribution of parameters such as time constants or synaptic weights. Without the expensive overhead in terms of area and power of extra on-chip learning or calibration circuits, device mismatch and other noise sources represent a critical challenge for the deployment of pre-trained neural network chips. Here we present a supervised learning approach that addresses this challenge by maximizing robustness to mismatch and other common sources of noise. The proposed method trains (SNNs) to perform temporal classification tasks by mimicking a pre-trained dynamical system, using a local learning rule adapted from non-linear control theory. We demonstrate the functionality of our model on two tasks that require memory to perform successfully, and measure the robustness of our approach to several forms of noise and variability present in the network. We show that our approach is more robust than several common alternative approaches for training SNNs. Our method provides a viable way to robustly deploy pre-trained networks on mixed-signal neuromorphic hardware, without requiring per-device training or calibration.
翻訳日:2021-02-15 13:06:41 公開日:2021-02-12
# 同じコインの2つの側面:グラフ畳み込みニューラルネットワークにおけるヘテロフィアとオーバースムーシング

Two Sides of the Same Coin: Heterophily and Oversmoothing in Graph Convolutional Neural Networks ( http://arxiv.org/abs/2102.06462v1 )

ライセンス: Link先を確認
Yujun Yan, Milad Hashemi, Kevin Swersky, Yaoqing Yang, Danai Koutra(参考訳) ほとんどのグラフニューラルネットワーク(gnn)は、隣人が(重く)異なる特徴/クラスを持ち、複数の層を積み重ねる(余計な)グラフでは、パフォーマンスが悪い。 これら2つの無関係な問題が独立して研究されているが、ある問題を解くことが他の問題に利益をもたらすという実証的な証拠が近年ある。 この研究では、経験的な観察を超えて、ヘテロフィアとオーバースムーシングの接続を理論的に特徴付け、両者が区別不能なノード表現に繋がる。 メッセージ伝搬中のノード表現の変化をモデル化することにより、異なるクラスからのノードの表現を区別不能にする要因(例えば、度数、ヘテロフィリーレベル)を理論的に分析する。 分析では,(1)ヘテロフィアの高いノードと,その隣接ノードに対してヘテロフィアが低く,かつ低いノード(度差)が過疎化問題を引き起こし,(2)隣接ノード間の"負の"メッセージがヘテロフィアと過疎化の問題を切り離せることを強調する。 本研究の知見に基づき,署名メッセージと学習度補正を組み込むことにより,特徴量と隣接者間の度数の不一致に対処するモデルを設計した。 9つの実ネットワーク上での実験により,本モデルがヘテロフィリー下での最先端性能を実現し,ヘテロフィリー(ホモフィリー)の低い既存GNNに対してコンパティブルに動作可能であることを示す。 オーバースムーシングや複数のレイヤのメリットにも効果的に対処します。

Most graph neural networks (GNN) perform poorly in graphs where neighbors typically have different features/classes (heterophily) and when stacking multiple layers (oversmoothing). These two seemingly unrelated problems have been studied independently, but there is recent empirical evidence that solving one problem may benefit the other. In this work, going beyond empirical observations, we theoretically characterize the connections between heterophily and oversmoothing, both of which lead to indistinguishable node representations. By modeling the change in node representations during message propagation, we theoretically analyze the factors (e.g., degree, heterophily level) that make the representations of nodes from different classes indistinguishable. Our analysis highlights that (1) nodes with high heterophily and nodes with low heterophily and low degrees relative to their neighbors (degree discrepancy) trigger the oversmoothing problem, and (2) allowing "negative" messages between neighbors can decouple the heterophily and oversmoothing problems. Based on our insights, we design a model that addresses the discrepancy in features and degrees between neighbors by incorporating signed messages and learned degree corrections. Our experiments on 9 real networks show that our model achieves state-of-the-art performance under heterophily, and performs comparably to existing GNNs under low heterophily(homophil y). It also effectively addresses oversmoothing and even benefits from multiple layers.
翻訳日:2021-02-15 13:06:15 公開日:2021-02-12
# ハードドライブの解釈可能な予測保守

Interpretable Predictive Maintenance for Hard Drives ( http://arxiv.org/abs/2102.06509v1 )

ライセンス: Link先を確認
Maxime Amram, Jack Dunn, Jeremy J. Toledano, Ying Daisy Zhuo(参考訳) 既存のデータ駆動予測保守のための機械学習アプローチは、通常、高い予測能力を持つが人間には理解できないブラックボックスである。 これは、人間がこれらのモデルを使用して根本的な障害メカニズムの洞察と理解を導き出す能力を制限し、将来のデータにうまく機能するためにそのようなシステムに配置できる自信の程度を制限します。 最近の機械学習の解釈アルゴリズムを用いて,データセンタのハードドライブ障害を予測するタスクを検討する。 これらの手法が短期および長期のドライブの健康に関する有意義な洞察を提供しつつ、高い予測性能を維持できることを実証する。 また、これらの分析は、履歴データが限られている場合でも有用な洞察を与え、データ収集が最近始まったばかりである状況でも有効であることを示す。

Existing machine learning approaches for data-driven predictive maintenance are usually black boxes that claim high predictive power yet cannot be understood by humans. This limits the ability of humans to use these models to derive insights and understanding of the underlying failure mechanisms, and also limits the degree of confidence that can be placed in such a system to perform well on future data. We consider the task of predicting hard drive failure in a data center using recent algorithms for interpretable machine learning. We demonstrate that these methods provide meaningful insights about short- and long-term drive health, while also maintaining high predictive performance. We also show that these analyses still deliver useful insights even when limited historical data is available, enabling their use in situations where data collection has only recently begun.
翻訳日:2021-02-15 13:05:43 公開日:2021-02-12
# オンライングラフ辞書学習

Online Graph Dictionary Learning ( http://arxiv.org/abs/2102.06555v1 )

ライセンス: Link先を確認
C\'edric Vincent-Cuaz, Titouan Vayer, R\'emi Flamary, Marco Corneli, Nicolas Courty(参考訳) 辞書学習は表現学習の鍵となるツールであり、データはほとんど基本的な要素の線形結合として説明できる。 しかし、グラフは通常異なるメトリック空間に属しているため、この分析はグラフ学習の文脈では説明できません。 このギャップを埋めるために、Gromov Wassersteinの発散をデータフィッティング用語として使用する新しいオンライングラフ辞書学習アプローチを提案します。 私たちの研究では、グラフはノードの対関係を通じてエンコードされ、グラフ原子の凸結合としてモデル化されます。 辞書要素は、潜在的に異なるノード数を持つ未登録グラフのデータセットで動作するオンライン確率アルゴリズムによって推定される。 私たちのアプローチはラベル付きグラフに自然に拡張され、埋め込み空間におけるGromov Wassersteinの高速近似として使用できる新しい上界によって完了されます。 グラフデータセットの教師なし埋め込みとオンライングラフ部分空間推定と追跡に対するアプローチの関心を示す数値的証拠を提供する。

Dictionary learning is a key tool for representation learning, that explains the data as linear combination of few basic elements. Yet, this analysis is not amenable in the context of graph learning, as graphs usually belong to different metric spaces. We fill this gap by proposing a new online Graph Dictionary Learning approach, which uses the Gromov Wasserstein divergence for the data fitting term. In our work, graphs are encoded through their nodes' pairwise relations and modeled as convex combination of graph atoms, i.e. dictionary elements, estimated thanks to an online stochastic algorithm, which operates on a dataset of unregistered graphs with potentially different number of nodes. Our approach naturally extends to labeled graphs, and is completed by a novel upper bound that can be used as a fast approximation of Gromov Wasserstein in the embedding space. We provide numerical evidences showing the interest of our approach for unsupervised embedding of graph datasets and for online graph subspace estimation and tracking.
翻訳日:2021-02-15 13:05:30 公開日:2021-02-12
# 有効なリアルタイム時系列異常検出を実現するには, どれくらいを振り返るべきか?

How Far Should We Look Back to Achieve Effective Real-Time Time-Series Anomaly Detection? ( http://arxiv.org/abs/2102.06560v1 )

ライセンス: Link先を確認
Ming-Chang Lee, Jia-Chun Lin, and Ernst Gunnar Gran(参考訳) 異常検出は、予期せぬ事象やデータの異常を識別するプロセスであり、システム監視、不正検出、医療、侵入検知など、さまざまな分野で適用されてきた。 人的介入やドメイン知識のない時系列に対して、リアルタイム、軽量、かつ積極的な異常検出を提供することは、人的労力を削減し、災害発生前に適切な対策を行うことができるため、非常に価値があります。 repad(real-time proactive anomaly detection algorithm)は,上記の機能をすべて備えた汎用的なアプローチである。 リアルタイムかつ軽量な検出を実現するため、RePADはLong Short-Term Memory (LSTM) を使用して、短期的な履歴データポイントに基づいて、各データポイントが異常かどうかを検出します。 しかし、異なる量の履歴データポイントがRePADのパフォーマンスにどの程度影響するかは不明である。 そこで本稿では,新しい検出精度尺度,時間効率,即応性,資源消費などをカバーする一連の性能指標を導入することで,リパッドにおけるさまざまな履歴データの影響について検討する。 実世界の時系列データセットに基づく実験実験を行い,様々なシナリオにおけるRePADの評価を行い,実験結果について考察した。

Anomaly detection is the process of identifying unexpected events or ab-normalities in data, and it has been applied in many different areas such as system monitoring, fraud detection, healthcare, intrusion detection, etc. Providing real-time, lightweight, and proactive anomaly detection for time series with neither human intervention nor domain knowledge could be highly valuable since it reduces human effort and enables appropriate countermeasures to be undertaken before a disastrous event occurs. To our knowledge, RePAD (Real-time Proactive Anomaly Detection algorithm) is a generic approach with all above-mentioned features. To achieve real-time and lightweight detection, RePAD utilizes Long Short-Term Memory (LSTM) to detect whether or not each upcoming data point is anomalous based on short-term historical data points. However, it is unclear that how different amounts of historical data points affect the performance of RePAD. Therefore, in this paper, we investigate the impact of different amounts of historical data on RePAD by introducing a set of performance metrics that cover novel detection accuracy measures, time efficiency, readiness, and resource consumption, etc. Empirical experiments based on real-world time series datasets are conducted to evaluate RePAD in different scenarios, and the experimental results are presented and discussed.
翻訳日:2021-02-15 13:05:14 公開日:2021-02-12
# Do-calculusは潜在変数モデルによる因果推論を可能にする

Do-calculus enables causal reasoning with latent variable models ( http://arxiv.org/abs/2102.06626v1 )

ライセンス: Link先を確認
Sara Mohammad-Taheri and Robert Ness and Jeremy Zucker and Olga Vitek(参考訳) 潜在変数モデル(LVM)は、トレーニング中に変数の一部が隠蔽される確率モデルである。 LVM の幅広いクラスは、有向非巡回的グラフィカル構造を形作る。 指示された構造は、データ生成プロセスの直感的な説明を示唆する。 例えば、潜在トピックモデルは、トピックがトークンの発生を引き起こすことを示唆している。 この直感的な因果解釈にもかかわらず、データに基づいて訓練された有向非巡回潜在変数モデルは一般に因果推論には不十分である。 本書では,学習後に提案される因果クエリにLVMが応答できることを示し,ドカルスルールに従って,観測変数からクエリを識別できることを仮定する。 因果推論は,確率的モデリングコミュニティで長く確立されてきた幅広いlvmクラスを強化し,いくつかのケーススタディでその効果を示す。 これには、原因と結果変数の間に潜伏した共同創設者と仲介者が存在する複数の原因を持つ機械学習モデル、前方または後方の基準を用いて識別可能な因果クエリを推定できない研究、2つの生物学的シグナル伝達経路間の未観測のクロストークをキャプチャするケーススタディ、複数の因果クエリを識別するCOVID-19エキスパートシステムが含まれる。

Latent variable models (LVMs) are probabilistic models where some of the variables are hidden during training. A broad class of LVMshave a directed acyclic graphical structure. The directed structure suggests an intuitive causal explanation of the data generating process. For example, a latent topic model suggests that topics cause the occurrence of a token. Despite this intuitive causal interpretation, a directed acyclic latent variable model trained on data is generally insufficient for causal reasoning, as the required model parameters may not be uniquely identified. In this manuscript we demonstrate that an LVM can answer any causal query posed post-training, provided that the query can be identified from the observed variables according to the do-calculus rules. We show that causal reasoning can enhance a broad class of LVM long established in the probabilistic modeling community, and demonstrate its effectiveness on several case studies. These include a machine learning model with multiple causes where there exists a set of latent confounders and a mediator between the causes and the outcome variable, a study where the identifiable causal query cannot be estimated using the front-door or back-door criterion, a case study that captures unobserved crosstalk between two biological signaling pathways, and a COVID-19 expert system that identifies multiple causal queries.
翻訳日:2021-02-15 13:04:51 公開日:2021-02-12
# DeepGLEAM:COVID-19予測のためのハイブリッドメカニカルとディープラーニングモデル

DeepGLEAM: an hybrid mechanistic and deep learning model for COVID-19 forecasting ( http://arxiv.org/abs/2102.06684v1 )

ライセンス: Link先を確認
Dongxia Wu, Liyao Gao, Xinyue Xiong, Matteo Chinazzi, Alessandro Vespignani, Yian Ma, Rose Yu(参考訳) 我々は、COVID-19予測のハイブリッドモデルであるDeepGLEAMを紹介する。 DeepGLEAMは、機械的確率シミュレーションモデルGLEAMとディープラーニングを組み合わせる。 ディープラーニングを使用して、GLEAMから修正項を学習することで、パフォーマンスが向上する。 さらに,様々な不確実性定量化手法を統合し,信頼区間を生成する。 私たちは、DeepGLEAMを現実世界のCOVID-19死亡予測タスクで実証します。

We introduce DeepGLEAM, a hybrid model for COVID-19 forecasting. DeepGLEAM combines a mechanistic stochastic simulation model GLEAM with deep learning. It uses deep learning to learn the correction terms from GLEAM, which leads to improved performance. We further integrate various uncertainty quantification methods to generate confidence intervals. We demonstrate DeepGLEAM on real-world COVID-19 mortality forecasting tasks.
翻訳日:2021-02-15 13:04:29 公開日:2021-02-12
# VARA-TTS: 非常に深いVAEに基づく非自動回帰テキスト-音声合成

VARA-TTS: Non-Autoregressive Text-to-Speech Synthesis based on Very Deep VAE with Residual Attention ( http://arxiv.org/abs/2102.06431v1 )

ライセンス: Link先を確認
Peng Liu, Yuewen Cao, Songxiang Liu, Na Hu, Guangzhi Li, Chao Weng, Dan Su(参考訳) 本稿では,残差注意機構を有する超深部変分オートエンコーダ(vdvae)を用いた非自己回帰型(非ar)テキスト・ツー・スパイチ(tts)モデルであるvara-ttsを提案する。 VDVAEとは異なる時間分解能を持つ階層的潜時変数は、残留注意モジュールのクエリとして使用される。 従来のアライメント層からの粗いグローバルアライメントを追加入力として活用することで、以下のアライメント層が洗練されたアライメントバージョンを作成できます。 これは、複数の注意層間のテキストと音響のアライメントを学ぶことの負担を償却し、堅牢性における単一の注意層の使用を上回っます。 粗い層の平均潜時変数を入力とし、推論時の音響フレーム数を決定する共同訓練された発声速度予測器により、発話レベル発声速度係数を算出する。 実験結果から,VARA-TTSはAR対応のTacotron 2に比べてわずかに劣るが,推定時の高次精度向上を実現し,音声品質の面では類似の非ARモデルであるBVAE-TTSよりも優れていた。

This paper proposes VARA-TTS, a non-autoregressive (non-AR) text-to-speech (TTS) model using a very deep Variational Autoencoder (VDVAE) with Residual Attention mechanism, which refines the textual-to-acoustic alignment layer-wisely. Hierarchical latent variables with different temporal resolutions from the VDVAE are used as queries for residual attention module. By leveraging the coarse global alignment from previous attention layer as an extra input, the following attention layer can produce a refined version of alignment. This amortizes the burden of learning the textual-to-acoustic alignment among multiple attention layers and outperforms the use of only a single attention layer in robustness. An utterance-level speaking speed factor is computed by a jointly-trained speaking speed predictor, which takes the mean-pooled latent variables of the coarsest layer as input, to determine number of acoustic frames at inference. Experimental results show that VARA-TTS achieves slightly inferior speech quality to an AR counterpart Tacotron 2 but an order-of-magnitude speed-up at inference; and outperforms an analogous non-AR model, BVAE-TTS, in terms of speech quality.
翻訳日:2021-02-15 13:04:03 公開日:2021-02-12
# 社会的エコシステムにおける責任あるaiへの分散的アプローチ

A Decentralized Approach Towards Responsible AI in Social Ecosystems ( http://arxiv.org/abs/2102.06362v1 )

ライセンス: Link先を確認
Wenjing Chu(参考訳) AI技術が完全な約束を果たすためには、責任あるAI行動をサポートし、無責任な使用を制限するために、効果的なメカニズムをAIシステムに設計する必要があります。 プライバシー保護、人間の自律性、堅牢性、および自動意思決定におけるバイアスと差別の防止の分野で。 本稿では,社会エコシステム内の関係者に対して,所望のAI行動を生成するための計算機能を提供するフレームワークを提案する。 この目的を達成するために,我々は,AIシステムをアーキテクチャレベルで分析し,(1)自律的アイデンティティを用いて人的ユーザを増強し,(2)規則を自動化し,社会機関内での慣行を採用する,という,AIシステムアーキテクチャのための2つの分散暗号機構を提案する。 次に、分散化手法を提案し、これらの機構を実現するために、分散化識別子(DID)と検証クレデンシャル(VC)に基づく重要な概念とメカニズムを概説する。 我々は、分散アプローチがコンピュータ科学と社会科学の両方の観点から、責任あるaiへの最も有望な道であると主張する。

For AI technology to fulfill its full promises, we must design effective mechanisms into the AI systems to support responsible AI behavior and curtail potential irresponsible use, e.g. in areas of privacy protection, human autonomy, robustness, and prevention of biases and discrimination in automated decision making. In this paper, we present a framework that provides computational facilities for parties in a social ecosystem to produce the desired responsible AI behaviors. To achieve this goal, we analyze AI systems at the architecture level and propose two decentralized cryptographic mechanisms for an AI system architecture: (1) using Autonomous Identity to empower human users, and (2) automating rules and adopting conventions within social institutions. We then propose a decentralized approach and outline the key concepts and mechanisms based on Decentralized Identifier (DID) and Verifiable Credentials (VC) for a general-purpose computational infrastructure to realize these mechanisms. We argue the case that a decentralized approach is the most promising path towards Responsible AI from both the computer science and social science perspectives.
翻訳日:2021-02-15 13:03:35 公開日:2021-02-12
# サブモジュラ関数の高速制約最大化のための適応サンプリング

Adaptive Sampling for Fast Constrained Maximization of Submodular Function ( http://arxiv.org/abs/2102.06486v1 )

ライセンス: Link先を確認
Francesco Quinzan and Vanja Dosko\v{c} and Andreas G\"obel and Tobias Friedrich(参考訳) データ要約のような大規模機械学習タスクは、サブモジュラリティを満たす関数を最大化することでアプローチすることができる。 これらの最適化問題は、しばしば基礎となるアプリケーションによって課される複雑な側制約を伴う。 本稿では,非単調部分モジュラー最大化に対する多対数適応性を持つアルゴリズムを一般制約下で開発する。 問題の適応的複雑性は、目的を達成するのに必要な逐次ラウンドの最小数である。 このアルゴリズムは、$p$-system側制約の下で非単調なサブモジュラ関数を最大化するのに適しており、評価オーラクル関数に対する多対数適応ラウンドと多項式クエリのみの後、この問題に対する$(p + O(\sqrt{p})$-近似を実現する。 さらに,提案アルゴリズムは,与えられた側制約が$p$-extendibleシステムである場合に,$(p + O(1))$-approximation を達成する。 このアルゴリズムは、適応性に関して、この問題に対する既知の任意の定数近似アルゴリズムよりも指数的なスピードアップをもたらす。 また、クエリの複雑さの観点から、以前の既知の結果と競合する。 我々は様々な実世界のアプリケーションで様々な実験を行う。 一般的なヒューリスティックと比較すると、アルゴリズムはこれらのインスタンスでより良いパフォーマンスを発揮します。

Several large-scale machine learning tasks, such as data summarization, can be approached by maximizing functions that satisfy submodularity. These optimization problems often involve complex side constraints, imposed by the underlying application. In this paper, we develop an algorithm with poly-logarithmic adaptivity for non-monotone submodular maximization under general side constraints. The adaptive complexity of a problem is the minimal number of sequential rounds required to achieve the objective. Our algorithm is suitable to maximize a non-monotone submodular function under a $p$-system side constraint, and it achieves a $(p + O(\sqrt{p}))$-approximation for this problem, after only poly-logarithmic adaptive rounds and polynomial queries to the valuation oracle function. Furthermore, our algorithm achieves a $(p + O(1))$-approximation when the given side constraint is a $p$-extendible system. This algorithm yields an exponential speed-up, with respect to the adaptivity, over any other known constant-factor approximation algorithm for this problem. It also competes with previous known results in terms of the query complexity. We perform various experiments on various real-world applications. We find that, in comparison with commonly used heuristics, our algorithm performs better on these instances.
翻訳日:2021-02-15 13:03:15 公開日:2021-02-12
# 特徴モデリングと構成におけるレコメンダシステムと機械学習の概要

An Overview of Recommender Systems and Machine Learning in Feature Modeling and Configuration ( http://arxiv.org/abs/2102.06634v1 )

ライセンス: Link先を確認
Alexander Felfernig and Viet-Man Le and Andrei Popescu and Mathias Uta and Thi Ngoc Trang Tran and M\"usl\"uum Atas(参考訳) レコメンダシステムは、書籍や映画のような単純な項目から金融サービス、通信機器、ソフトウェアシステムといったより複雑な項目まで、さまざまな分野の意思決定をサポートする。 この文脈では、例えば、類似ユーザーの好みを分析することに基づいて、推奨事項が決定される。 項目カタログで列挙できる単純な項目とは対照的に、すべての可能な構成の完全な列挙は実行不可能であり、重要なパフォーマンス問題を引き起こすため、複雑な項目は可変モデル(例えば特徴モデル)に基づいて表現されなければならない。 本稿では、機能モデリングと構成におけるレコメンダーシステムおよび機械学習技術の適用に関連する潜在的な新しい研究ラインの概要を示す。 本稿では,レコメンダシステムと機械学習の応用例を示し,今後の研究課題について考察する。

Recommender systems support decisions in various domains ranging from simple items such as books and movies to more complex items such as financial services, telecommunication equipment, and software systems. In this context, recommendations are determined, for example, on the basis of analyzing the preferences of similar users. In contrast to simple items which can be enumerated in an item catalog, complex items have to be represented on the basis of variability models (e.g., feature models) since a complete enumeration of all possible configurations is infeasible and would trigger significant performance issues. In this paper, we give an overview of a potential new line of research which is related to the application of recommender systems and machine learning techniques in feature modeling and configuration. In this context, we give examples of the application of recommender systems and machine learning and discuss future research issues.
翻訳日:2021-02-15 13:02:54 公開日:2021-02-12
# 大規模不一致・限定ラベル型COVID-19データを用いた不確実性認識半監視法

Uncertainty-Aware Semi-supervised Method using Large Unlabelled and Limited Labeled COVID-19 Data ( http://arxiv.org/abs/2102.06388v1 )

ライセンス: Link先を確認
Roohallah Alizadehsani, Danial Sharifrazi, Navid Hoseini Izadi, Javad Hassannataj Joloudari, Afshin Shoeibi, Juan M. Gorriz, Sadiq Hussain, Juan E. Arco, Zahra Alizadeh Sani, Fahime Khozeimeh, Abbas Khosravi, Saeid Nahavandi, Sheikh Mohammed Shariful Islam, U Rajendra Acharya(参考訳) 新型コロナウイルスは100万人以上が死亡し、急速に広がっています。 このウイルスは肺を標的とし、軽度または重度の呼吸困難を引き起こす。 肺のX線またはCT画像は、患者がCOVID-19に感染しているかどうかを明らかにすることができます。 多くの研究者が人工知能を使ってCOVID-19の検出を改善しようとしている。 本稿では,GAN(Generative Adversarial Networks)を用いて,SCLLD(Limited Labelled Data)を用いた半教師付き分類を行い,COVID-19を自動的に検出する手法を提案する。 我々のモチベーションは、ラベル付きデータを作成するのに時間がかかり、コストがかかるシナリオに対処できる学習方法を開発することである。 さらにソベルエッジ検出の適用により,提案手法の検出精度がさらに向上した。 GAN判別器出力は、本研究における分類に用いられる確率値である。 提案システムは,近江病院から収集した1万個のCTスキャンを用いて訓練する。 また,本システムは公開データセットを用いて検証を行う。 提案手法は、ガウス過程のような芸術監督手法の他の状態と比較される。 私たちの知る限りでは、新型コロナウイルスの半監視された検出方法が提示されたのはこれが初めてです。 本手法は,ラベル付きデータの不足により教師付き学習者が失敗する,限定されたラベル付きデータとラベルなしデータの混合から学習することができる。 半教師付きトレーニング手法は,ラベル付きトレーニングデータが不足する場合の畳み込みニューラルネットワーク(cnn)の教師付きトレーニングを有意に上回っている。 提案手法は,99.60%の精度,99.39%の感度,99.80%の特異性,69.87%の精度,94%の感度,46.40%の特異性を達成している。

The new coronavirus has caused more than 1 million deaths and continues to spread rapidly. This virus targets the lungs, causing respiratory distress which can be mild or severe. The X-ray or computed tomography (CT) images of lungs can reveal whether the patient is infected with COVID-19 or not. Many researchers are trying to improve COVID-19 detection using artificial intelligence. In this paper, relying on Generative Adversarial Networks (GAN), we propose a Semi-supervised Classification using Limited Labelled Data (SCLLD) for automated COVID-19 detection. Our motivation is to develop learning method which can cope with scenarios that preparing labelled data is time consuming or expensive. We further improved the detection accuracy of the proposed method by applying Sobel edge detection. The GAN discriminator output is a probability value which is used for classification in this work. The proposed system is trained using 10,000 CT scans collected from Omid hospital. Also, we validate our system using the public dataset. The proposed method is compared with other state of the art supervised methods such as Gaussian processes. To the best of our knowledge, this is the first time a COVID-19 semi-supervised detection method is presented. Our method is capable of learning from a mixture of limited labelled and unlabelled data where supervised learners fail due to lack of sufficient amount of labelled data. Our semi-supervised training method significantly outperforms the supervised training of Convolutional Neural Network (CNN) in case labelled training data is scarce. Our method has achieved an accuracy of 99.60%, sensitivity of 99.39%, and specificity of 99.80% where CNN (trained supervised) has achieved an accuracy of 69.87%, sensitivity of 94%, and specificity of 46.40%.
翻訳日:2021-02-15 13:02:13 公開日:2021-02-12
# フォトリアリズムシミュレーションにおける日常物体の衝突抑制の予測と参加

Predicting and Attending to Damaging Collisions for Placing Everyday Objects in Photo-Realistic Simulations ( http://arxiv.org/abs/2102.06507v1 )

ライセンス: Link先を確認
Aly Magassouba, Komei Sugiura, Angelica Nakayama, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi, Hisashi Kawai(参考訳) 設置物は国内サービスロボット(DSR)の基本課題である。 したがって、要求されたタスクを達成するためには、配置運動の前に衝突リスクを推測することが不可欠です。 この問題は特に困難であり、オブジェクトが散らばった指定された領域に配置された場合に何が起こるかを予測する必要がある。 自由領域検出のための平面検出を用いたルールベースアプローチは, 性能不良であることを示す。 そこで我々は,マルチモーダルアテンションブランチと自己注意機構を備えたPonNetを開発し,RGBD画像に基づく衝突の予測を行う。 本手法は,衝突の危険を可視化することができるため,利用者が危険を理解できるため便利である。 そこで本研究では,特定の位置の12,000枚の写真実写画像と日常の生活オブジェクトとをホーム環境内に構築し,公開する。 実験結果から,本手法はベースライン法と比較して精度が向上した。

Placing objects is a fundamental task for domestic service robots (DSRs). Thus, inferring the collision-risk before a placing motion is crucial for achieving the requested task. This problem is particularly challenging because it is necessary to predict what happens if an object is placed in a cluttered designated area. We show that a rule-based approach that uses plane detection, to detect free areas, performs poorly. To address this, we develop PonNet, which has multimodal attention branches and a self-attention mechanism to predict damaging collisions, based on RGBD images. Our method can visualize the risk of damaging collisions, which is convenient because it enables the user to understand the risk. For this purpose, we build and publish an original dataset that contains 12,000 photo-realistic images of specific placing areas, with daily life objects, in home environments. The experimental results show that our approach improves accuracy compared with the baseline methods.
翻訳日:2021-02-15 13:01:51 公開日:2021-02-12
# 補間に基づく画像インペインティング手法の解析

Analysis of Interpolation based Image In-painting Approaches ( http://arxiv.org/abs/2102.06564v1 )

ライセンス: Link先を確認
Mustafa Zor, Erkan Bostanci, Mehmet Serdar Guzel, Erinc Karatas(参考訳) 補間および内部絵画はデジタル イメージで起こる望ましくない部分を除去するか、または欠陥のある部分を高めるのに使用されるイメージの内部絵画の基本的なアプローチの1つです。 本研究は,画像インペインティングにおける補間アルゴリズムを比較するために考案された。 Cubic, Kriging, Radial based function, High dimensional model representation approachを用いて文献でよく使われる標準画像の色とグレースケールのフォーマットで発生する誤差とノイズを補正し,PSNR (peak signal-to-noise ratio), SSIM (Structural SIMilarity), Mean Square Error (MSE) という標準画像比較基準を用いて比較した。 この結果から得られた結果によると、両者の方法の絶対的な優位性は観察されなかった。 しかし、クリギングとRBF補間は、大きな領域損失を伴う画像インペインティング問題の数値データと視覚評価の両方により良い結果をもたらします。

Interpolation and internal painting are one of the basic approaches in image internal painting, which is used to eliminate undesirable parts that occur in digital images or to enhance faulty parts. This study was designed to compare the interpolation algorithms used in image in-painting in the literature. Errors and noise generated on the colour and grayscale formats of some of the commonly used standard images in the literature were corrected by using Cubic, Kriging, Radial based function and High dimensional model representation approaches and the results were compared using standard image comparison criteria, namely, PSNR (peak signal-to-noise ratio), SSIM (Structural SIMilarity), Mean Square Error (MSE). According to the results obtained from the study, the absolute superiority of the methods against each other was not observed. However, Kriging and RBF interpolation give better results both for numerical data and visual evaluation for image in-painting problems with large area losses.
翻訳日:2021-02-15 13:01:35 公開日:2021-02-12
# コンフォーマーを用いたエンドツーエンドオーディオビジュアル音声認識

End-to-end Audio-visual Speech Recognition with Conformers ( http://arxiv.org/abs/2102.06657v1 )

ライセンス: Link先を確認
Pingchuan Ma, Stavros Petridis, Maja Pantic(参考訳) 本研究では,ResNet-18とConvolution-augmente d transformer (Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。 特に、オーディオエンコーダとビジュアルエンコーダは、それぞれ生のピクセルとオーディオ波形から直接特徴を抽出することを学び、それらをコンフォーメータに供給し、その後多層パーセプトロン(mlp)を介して融合する。 モデルはctcと注意機構の組み合わせを用いて文字を認識することを学ぶ。 本研究では,文献に共通するプリコンピュートされた視覚機能を使用するのではなく,リカレントネットワークの代わりにコンフォーマーを使用すること,トランスフォーマーベースの言語モデルを使用することによって,モデルの性能が大幅に向上することを示した。 文レベルの音声認識のための最大の公開データセットであるLip Reading Sentences 2 (LRS2) と Lip Reading Sentences 3 (LRS3) について報告する。 その結果,提案モデルでは,音声のみ,視覚のみ,視聴覚実験で大きなマージンで最先端の性能を向上できることが示された。

In this work, we present a hybrid CTC/Attention model based on a ResNet-18 and Convolution-augmente d transformer (Conformer), that can be trained in an end-to-end manner. In particular, the audio and visual encoders learn to extract features directly from raw pixels and audio waveforms, respectively, which are then fed to conformers and then fusion takes place via a Multi-Layer Perceptron (MLP). The model learns to recognise characters using a combination of CTC and an attention mechanism. We show that end-to-end training, instead of using pre-computed visual features which is common in the literature, the use of a conformer, instead of a recurrent network, and the use of a transformer-based language model, significantly improve the performance of our model. We present results on the largest publicly available datasets for sentence-level speech recognition, Lip Reading Sentences 2 (LRS2) and Lip Reading Sentences 3 (LRS3), respectively. The results show that our proposed models raise the state-of-the-art performance by a large margin in audio-only, visual-only, and audio-visual experiments.
翻訳日:2021-02-15 13:01:15 公開日:2021-02-12
# 暗黙的ユーザの関心に基づく目的地類似性

Destination similarity based on implicit user interest ( http://arxiv.org/abs/2102.06687v1 )

ライセンス: Link先を確認
Hongliu Cao, Eoin Thomas(参考訳) 旅行産業のデジタル化に伴い、利用者のオンライン行動を理解することがますます重要である。 しかし、オンライン旅行業界のデータは、余分なスパース、ユーザ履歴アクションの分散、ユーザの関心の迅速な変化、直接的あるいは間接的なフィードバックの欠如などにより、分析が難しい。 本研究では,ユーザの暗黙的関心度から目的地の類似度を測定するための新しい類似度法を提案する。 提案手法をレコメンダシステムにおける他の広く利用されている類似性対策と比較することにより,旅行データに有意な改善が得られた。 キーワード:目的地の類似性、旅行業界、レコメンデーションシステム、暗黙のユーザーの興味

With the digitization of travel industry, it is more and more important to understand users from their online behaviors. However, online travel industry data are more challenging to analyze due to extra sparseness, dispersed user history actions, fast change of user interest and lack of direct or indirect feedbacks. In this work, a new similarity method is proposed to measure the destination similarity in terms of implicit user interest. By comparing the proposed method to several other widely used similarity measures in recommender systems, the proposed method achieves a significant improvement on travel data. Key words: Destination similarity, Travel industry, Recommender System, Implicit user interest
翻訳日:2021-02-15 13:00:53 公開日:2021-02-12
# ストラグラーは災害ではない:遅延勾配を持つハイブリッドフェデレーション学習アルゴリズム

Stragglers Are Not Disaster: A Hybrid Federated Learning Algorithm with Delayed Gradients ( http://arxiv.org/abs/2102.06329v1 )

ライセンス: Link先を確認
Xingyu Li, Zhe Qu, Bo Tang, Zhuo Lu(参考訳) フェデレーション・ラーニング(federated learning, fl)は、多数の分散コンピューティングデバイスで合同モデルをトレーニングする、新しい機械学習フレームワークである。 既存の方法、例えばFederated Averaging(FedAvg)は、ジョイントモデルを同期的にトレーニングすることによって最適化保証を提供することができるが、通常、低コンピューティングパワーや通信帯域のIoTデバイス、特に異種最適化問題に悩まされる。 そこで本稿では,ストラグラーの影響を軽減するために,ハイブリッドフェデレーション学習(hfl)と呼ばれる新しいflアルゴリズムを提案する。 同期カーネルと非同期アップデートの2つの主要なコンポーネントで構成されている。 従来の同期FLメソッドとは異なり、HFLは非同期更新器を導入し、非同期および遅延ローカル重み付けをトラグラーから積極的に引き出す。 適応近似法であるAdaptive Delayed-SGD (AD-SGD) を提案し,遅延局所更新を結合モデルにマージする。 HFLの理論解析により、提案アルゴリズムの収束率は、凸と非凸の最適化問題に対して$\mathcal{O}(\frac{1}{t+\tau})$であることが示されている。

Federated learning (FL) is a new machine learning framework which trains a joint model across a large amount of decentralized computing devices. Existing methods, e.g., Federated Averaging (FedAvg), are able to provide an optimization guarantee by synchronously training the joint model, but usually suffer from stragglers, i.e., IoT devices with low computing power or communication bandwidth, especially on heterogeneous optimization problems. To mitigate the influence of stragglers, this paper presents a novel FL algorithm, namely Hybrid Federated Learning (HFL), to achieve a learning balance in efficiency and effectiveness. It consists of two major components: synchronous kernel and asynchronous updater. Unlike traditional synchronous FL methods, our HFL introduces the asynchronous updater which actively pulls unsynchronized and delayed local weights from stragglers. An adaptive approximation method, Adaptive Delayed-SGD (AD-SGD), is proposed to merge the delayed local updates into the joint model. The theoretical analysis of HFL shows that the convergence rate of the proposed algorithm is $\mathcal{O}(\frac{1}{t+\tau})$ for both convex and non-convex optimization problems.
翻訳日:2021-02-15 13:00:24 公開日:2021-02-12
# ニューラルネットワークのための動的精度アナログ計算

Dynamic Precision Analog Computing for Neural Networks ( http://arxiv.org/abs/2102.06365v1 )

ライセンス: Link先を確認
Sahaj Garg, Joe Lou, Anirudh Jain, Mitchell Nahmias(参考訳) アナログ電子および光コンピューティングは、低精度で操作を実行する場合のディープラーニングを加速するデジタルコンピューティングよりも大きなアドバンテージを示している。 本研究では,ノイズによって制限されるアナログ精度とディジタルビット精度の関係を導出する。 演算を繰り返し平均化することで、精度の異なるレベルをサポートするアナログコンピューティングアーキテクチャの拡張を提案し、ノイズの影響を低減します。 このようなアーキテクチャは、精度とエネルギー効率やスループットなどの他の望ましいパフォーマンス指標の間のプログラム可能なトレードオフを可能にする。 動的精度を利用するために,ネットワーク重みをトレーニングせずに事前学習モデルの各レイヤの精度を学習する手法を提案する。 本手法は, ショットノイズ, サーマルノイズ, ウェイトノイズなど, さまざまなノイズ源を考慮したアナログアーキテクチャ上で評価し, 動的精度を用いることでResnet50などのコンピュータビジョンモデルでは最大89%, BERTなどの自然言語処理モデルでは24%のエネルギー消費を低減できることを確認した。 1つの例では、ショットノイズ限定ホモダイン光ニューラルネットワークに動的精度を適用し、Resnet50では2.7 aJ/MAC、BERTでは1.6 aJ/MACの光エネルギー消費で<2%の精度で推論をシミュレートする。

Analog electronic and optical computing exhibit tremendous advantages over digital computing for accelerating deep learning when operations are executed at low precision. In this work, we derive a relationship between analog precision, which is limited by noise, and digital bit precision. We propose extending analog computing architectures to support varying levels of precision by repeating operations and averaging the result, decreasing the impact of noise. Such architectures enable programmable tradeoffs between precision and other desirable performance metrics such as energy efficiency or throughput. To utilize dynamic precision, we propose a method for learning the precision of each layer of a pre-trained model without retraining network weights. We evaluate this method on analog architectures subject to a variety of noise sources such as shot noise, thermal noise, and weight noise and find that employing dynamic precision reduces energy consumption by up to 89% for computer vision models such as Resnet50 and by 24% for natural language processing models such as BERT. In one example, we apply dynamic precision to a shot-noise limited homodyne optical neural network and simulate inference at an optical energy consumption of 2.7 aJ/MAC for Resnet50 and 1.6 aJ/MAC for BERT with <2% accuracy degradation.
翻訳日:2021-02-15 12:59:57 公開日:2021-02-12
# バンディットとナップサックの対称性:プライマリデュアルLPベースのアプローチ

The Symmetry between Bandits and Knapsacks: A Primal-Dual LP-based Approach ( http://arxiv.org/abs/2102.06385v1 )

ライセンス: Link先を確認
Xiaocheng Li, Chunlin Sun, Yinyu Ye(参考訳) 本稿では,knapsacks (BwK) 問題を用いた盗賊について検討し,問題依存の対数的後悔境界を実現する原始双対アルゴリズムを開発した。 BwK問題は、各アームの演奏に伴う資源消費をモデル化するためにマルチアーム・バンディット(MAB)問題を拡張しており、既存のBwK文献は主に漸近的に最適な分布のない後悔境界の導出に重点を置いている。 まず、BwK問題の基礎となるプライマリ線形およびデュアル線形プログラムを研究する。 この原始双対的な観点から、アームとクナプサックの対称性を発見し、BwK問題に対する準最適測度の新しい概念を提案する。 サブオプティリティ尺度は,アルゴリズムの後悔判定におけるナップサックの役割を強調し,二相アルゴリズムの設計を刺激する。 第1段階では、アルゴリズムは最適なアームと結合クナプサックを識別し、第2段階では適応的な手順で最適なアームを演奏することで結合クナプサックを排気する。 我々の後悔の上限は、提案された準最適測度であり、horizon $t$の長さの対数依存性と、$m$(腕の数)と$d$(ナップサックの数)の多項式依存性がある。 我々の知る限りでは、これは一般のBwK問題を解くための最初の問題依存対数的後悔である。

In this paper, we study the bandits with knapsacks (BwK) problem and develop a primal-dual based algorithm that achieves a problem-dependent logarithmic regret bound. The BwK problem extends the multi-arm bandit (MAB) problem to model the resource consumption associated with playing each arm, and the existing BwK literature has been mainly focused on deriving asymptotically optimal distribution-free regret bounds. We first study the primal and dual linear programs underlying the BwK problem. From this primal-dual perspective, we discover symmetry between arms and knapsacks, and then propose a new notion of sub-optimality measure for the BwK problem. The sub-optimality measure highlights the important role of knapsacks in determining algorithm regret and inspires the design of our two-phase algorithm. In the first phase, the algorithm identifies the optimal arms and the binding knapsacks, and in the second phase, it exhausts the binding knapsacks via playing the optimal arms through an adaptive procedure. Our regret upper bound involves the proposed sub-optimality measure and it has a logarithmic dependence on length of horizon $T$ and a polynomial dependence on $m$ (the numbers of arms) and $d$ (the number of knapsacks). To the best of our knowledge, this is the first problem-dependent logarithmic regret bound for solving the general BwK problem.
翻訳日:2021-02-15 12:59:33 公開日:2021-02-12
# スマートIoTサービスのモデル駆動エンジニアリングのためのデータ分析と機械学習方法、技術およびツール

Data Analytics and Machine Learning Methods, Techniques and Tool for Model-Driven Engineering of Smart IoT Services ( http://arxiv.org/abs/2102.06445v1 )

ライセンス: Link先を確認
Armin Moin(参考訳) この博士論文は、IoT(Internet of Things)とCPS(Smart Cyber-Physical Systems)のためのスマートサービスの開発を促進する新しいアプローチを提案する。 提案されたアプローチは、ソフトウェアエンジニアリングプロセスの抽象化と自動化、データ分析(DA)と機械学習(ML)のプラクティスを提供する。 これは統合的でシームレスな方法で実現される。 我々はThingMLと呼ばれるオープンソースモデリングツールを拡張して提案手法の実装と検証を行う。 ThingMLは、IoT/CPSドメインのためのコード生成を備えたドメイン固有言語およびモデリングツールである。 ThingMLも他のIoT/CPSモデリングツールも、モデリングレベルではDA/MLをサポートしていない。 したがって、博士論文の主な貢献として、TingMLのモデリング言語にDA/MLメソッドと技術に関する必要な構文と意味を付加する。 さらに、PythonとJavaのターゲットソフトウェアのソースコードの自動生成のために、いくつかのMLライブラリとフレームワークのAPIをサポートしています。 当社のアプローチは、プラットフォームに依存しない、プラットフォーム固有のモデルを可能にします。 さらに、自動ML(Automated ML)をバックグラウンドで(エキスパートモードで)提供し、モデルチェックの制約や設計時のヒントを通じて半自動DA/MLタスクの実行を支援する。 最後に,ネットワークセキュリティ,スマートエネルギーシステム,エネルギー交換市場という分野の3つのユースケースシナリオについて考察する。

This doctoral dissertation proposes a novel approach to enhance the development of smart services for the Internet of Things (IoT) and smart Cyber-Physical Systems (CPS). The proposed approach offers abstraction and automation to the software engineering processes, as well as the Data Analytics (DA) and Machine Learning (ML) practices. This is realized in an integrated and seamless manner. We implement and validate the proposed approach by extending an open source modeling tool, called ThingML. ThingML is a domain-specific language and modeling tool with code generation for the IoT/CPS domain. Neither ThingML nor any other IoT/CPS modeling tool supports DA/ML at the modeling level. Therefore, as the primary contribution of the doctoral dissertation, we add the necessary syntax and semantics concerning DA/ML methods and techniques to the modeling language of ThingML. Moreover, we support the APIs of several ML libraries and frameworks for the automated generation of the source code of the target software in Python and Java. Our approach enables platform-independent , as well as platform-specific models. Further, we assist in carrying out semiautomated DA/ML tasks by offering Automated ML (AutoML), in the background (in expert mode), and through model-checking constraints and hints at design-time. Finally, we consider three use case scenarios from the domains of network security, smart energy systems and energy exchange markets.
翻訳日:2021-02-15 12:59:06 公開日:2021-02-12
# 確率勾配クリッピングの安定性と収束:リプシッツ連続性と滑らか性を超えて

Stability and Convergence of Stochastic Gradient Clipping: Beyond Lipschitz Continuity and Smoothness ( http://arxiv.org/abs/2102.06489v1 )

ライセンス: Link先を確認
Vien V. Mai and Mikael Johansson(参考訳) 確率勾配アルゴリズムは、Lipschitz-continuous および/または有界勾配を持たない関数に適用すると、しばしば不安定である。 グラデーションクリッピングは、爆発するグラデーション問題になりやすい問題のトレーニングプロセスを安定させるためのシンプルで効果的な技術です。 広く普及しているにもかかわらず、勾配クリッピングヒューリスティックの収束特性は、特に確率的問題に対してよく理解されていない。 本稿では, 急速に成長する非滑らか凸関数に対するクリッピング確率(サブ)勾配法(SGD)の定性的および定量的収束結果について述べる。 本研究では, クリッピングがSGDの安定性を向上し, クリッピングされたSGDアルゴリズムが有限収束速度を多く享受することを示した。 また, sgdを具体例として含むクリップング法と運動量との収束を, 標準仮定下での弱凸問題に対して検討した。 新たなLyapunov解析により,提案手法が検討された問題のクラスに対して最もよく知られたレートを達成し,この体制においてもクリップド法の有効性を示すことを示した。 数値結果は我々の理論的発展を裏付ける。

Stochastic gradient algorithms are often unstable when applied to functions that do not have Lipschitz-continuous and/or bounded gradients. Gradient clipping is a simple and effective technique to stabilize the training process for problems that are prone to the exploding gradient problem. Despite its widespread popularity, the convergence properties of the gradient clipping heuristic are poorly understood, especially for stochastic problems. This paper establishes both qualitative and quantitative convergence results of the clipped stochastic (sub)gradient method (SGD) for non-smooth convex functions with rapidly growing subgradients. Our analyses show that clipping enhances the stability of SGD and that the clipped SGD algorithm enjoys finite convergence rates in many cases. We also study the convergence of a clipped method with momentum, which includes clipped SGD as a special case, for weakly convex problems under standard assumptions. With a novel Lyapunov analysis, we show that the proposed method achieves the best-known rate for the considered class of problems, demonstrating the effectiveness of clipped methods also in this regime. Numerical results confirm our theoretical developments.
翻訳日:2021-02-15 12:58:46 公開日:2021-02-12
# 検証された)機械学習に基づく計算可能性

A Computability Perspective on (Verified) Machine Learning ( http://arxiv.org/abs/2102.06585v1 )

ライセンス: Link先を確認
Tonicha Crook, Jay Morgan, Arno Pauly and Markus Roggenbach(参考訳) フォーマルな検証によって与えられる保証と機械学習の汎用性を組み合わせることが極めて望ましいという強いコンセンサスがある。 検証済み機械学習が正確に何を意味するべきかは、あまり明確ではない。 私たちはこの質問を(予想外か? 計算可能な分析の視点。 これにより、検証されたMLの根底にある計算タスクをモデルに依存しない方法で定義し、それらが原理計算可能であることを示す。

There is a strong consensus that combining the versatility of machine learning with the assurances given by formal verification is highly desirable. It is much less clear what verified machine learning should mean exactly. We consider this question from the (unexpected?) perspective of computable analysis. This allows us to define the computational tasks underlying verified ML in a model-agnostic way, and show that they are in principle computable.
翻訳日:2021-02-15 12:58:28 公開日:2021-02-12
# プログラム変換探索としてのニューラルアーキテクチャ探索

Neural Architecture Search as Program Transformation Exploration ( http://arxiv.org/abs/2102.06599v1 )

ライセンス: Link先を確認
Jack Turner, Elliot J. Crowley, Michael O'Boyle(参考訳) ディープニューラルネットワーク(DNN)のパフォーマンスを改善することは、コンパイラとニューラルアーキテクチャサーチ(NAS)コミュニティにとって重要である。 コンパイラはハードウェア並列性とメモリ階層を利用するためにプログラム変換を適用する。 しかし、合法性に関する懸念は、ニューラルネットワークの自然な堅牢性を利用できないことを意味する。 対照的に、NAS技術はネットワークをグループ化や畳み込みのボトルネック化といった操作によって変更し、DNNのレジリエンスを活用する。 本研究では,表現能力の概念に依存するプログラム変換として,そのようなニューラルアーキテクチャの操作を表現する。 これにより、既存の変換と統合最適化フレームワークに組み合わせることができる。 この統合により、既存のNAS操作を単純な変換の組み合わせとして表現できる。 重要なのは、新しいテンソル畳み込みの生成と探索を可能にすることです。 我々は、TVMで組み合わせたフレームワークのプロトタイプを作成し、異なるDNN間で最適化を見つけることができ、ほとんどのケースにおいて、推論タイムオーバー3$\times$を大幅に削減しました。 また、NAS検索時間を大幅に短縮します。 コードは~\href{https://github.com/j ack-willturner/nas-a s- programs-transformat ion-exploration}{this https url} で入手できる。

Improving the performance of deep neural networks (DNNs) is important to both the compiler and neural architecture search (NAS) communities. Compilers apply program transformations in order to exploit hardware parallelism and memory hierarchy. However, legality concerns mean they fail to exploit the natural robustness of neural networks. In contrast, NAS techniques mutate networks by operations such as the grouping or bottlenecking of convolutions, exploiting the resilience of DNNs. In this work, we express such neural architecture operations as program transformations whose legality depends on a notion of representational capacity. This allows them to be combined with existing transformations into a unified optimization framework. This unification allows us to express existing NAS operations as combinations of simpler transformations. Crucially, it allows us to generate and explore new tensor convolutions. We prototyped the combined framework in TVM and were able to find optimizations across different DNNs, that significantly reduce inference time - over 3$\times$ in the majority of cases. Furthermore, our scheme dramatically reduces NAS search time. Code is available at~\href{https://github.com/j ack-willturner/nas-a s-program-transforma tion-exploration}{this https url}.
翻訳日:2021-02-15 12:58:21 公開日:2021-02-12
# 緊急ブレーキデータを用いた交通インシデント予測モデル

A model for traffic incident prediction using emergency braking data ( http://arxiv.org/abs/2102.06674v1 )

ライセンス: Link先を確認
Alexander Reichenbach and J.-Emeterio Navarro-B(参考訳) 本稿では,交通事故予測モデルを提案する。 具体的には,道路交通事故予測におけるデータ不足の根本的な問題点を,事故ではなく緊急制動イベントのトレーニングによって解決する。 交通事故のリスク要因とそれに対応するデータカテゴリに基づいて、スパースデータと異なる機械学習モデルを前処理するさまざまな選択肢を評価する。 さらに,メルセデス・ベンツ車両の緊急ブレーキデータと気象,交通,道路データに基づいて,ドイツにおける交通事故予測モデルを実装したプロトタイプを提案する。 モデル評価と最適化を行った結果,人工的バランス(アンダーサンプリング)データに基づくランダム森林モデルは,元の不均衡データにおいて,最高分類精度85%であった。 最後に, より長期にわたるデータ収集から, より強力な分類システムの構築, 運転者の視覚的・認知的注意などの内的要因の追加など, 今後の課題について考察する。

This article presents a model for traffic incident prediction. Specifically, we address the fundamental problem of data scarcity in road traffic accident prediction by training our model on emergency braking events instead of accidents. Based on relevant risk factors for traffic accidents and corresponding data categories, we evaluate different options for preprocessing sparse data and different Machine Learning models. Furthermore, we present a prototype implementing a traffic incident prediction model for Germany based on emergency braking data from Mercedes-Benz vehicles as well as weather, traffic and road data, respectively. After model evaluation and optimisation, we found that a Random Forest model trained on artificially balanced (under-sampled) data provided the highest classification accuracy of 85% on the original imbalanced data. Finally, we present our conclusions and discuss further work; from gathering more data over a longer period of time to build stronger classification systems, to addition of internal factors such as the driver's visual and cognitive attention.
翻訳日:2021-02-15 12:58:04 公開日:2021-02-12
# 近縁・連成ランダムリシャッフル

Proximal and Federated Random Reshuffling ( http://arxiv.org/abs/2102.06704v1 )

ライセンス: Link先を確認
Konstantin Mishchenko and Ahmed Khaled and Peter Richt\'arik(参考訳) ランダムリシャッフル法(Random Reshuffling, RR)は、有限サム最小化法として人気があり理論上は基礎的な手法である。 新しいアルゴリズムとして、ProximalとFederated Random Reshuffing(ProxRRとFedRR)を提案する。 最初のアルゴリズムであるproxrrは、対象が(潜在的に非スムースな)凸正則化子と平均で$n$の滑らかな目的の和である複合凸有限サム最小化問題を解く。 2番目のアルゴリズムであるFedRRをProxRRの特別なケースとして取得し、均質または異質なデータによる分散問題の形式化に適用する。 アルゴリズムの収束特性を定数および減少ステップ数で検討し、近位および局所SGDよりも有意な利点を有することを示した。 特に,本手法は複雑度が優れており,ProxRRはエポックに1度だけ近位演算子を評価する。 近位演算子が計算にコストがかかると、この小さな差により、proxrrは各イテレーションで近位演算子を評価するアルゴリズムよりも最大で10ドル高速になる。 我々は、近位演算子が計算が困難であり、ProxRRが明確な利点を有する実用的な最適化タスクの例を与える。 最後に、実際のデータセットに関する実験で結果を裏付ける。

Random Reshuffling (RR), also known as Stochastic Gradient Descent (SGD) without replacement, is a popular and theoretically grounded method for finite-sum minimization. We propose two new algorithms: Proximal and Federated Random Reshuffing (ProxRR and FedRR). The first algorithm, ProxRR, solves composite convex finite-sum minimization problems in which the objective is the sum of a (potentially non-smooth) convex regularizer and an average of $n$ smooth objectives. We obtain the second algorithm, FedRR, as a special case of ProxRR applied to a reformulation of distributed problems with either homogeneous or heterogeneous data. We study the algorithms' convergence properties with constant and decreasing stepsizes, and show that they have considerable advantages over Proximal and Local SGD. In particular, our methods have superior complexities and ProxRR evaluates the proximal operator once per epoch only. When the proximal operator is expensive to compute, this small difference makes ProxRR up to $n$ times faster than algorithms that evaluate the proximal operator in every iteration. We give examples of practical optimization tasks where the proximal operator is difficult to compute and ProxRR has a clear advantage. Finally, we corroborate our results with experiments on real data sets.
翻訳日:2021-02-15 12:57:51 公開日:2021-02-12
# フェデレートサドル点最適化のための効率的なアルゴリズム

Efficient Algorithms for Federated Saddle Point Optimization ( http://arxiv.org/abs/2102.06333v1 )

ライセンス: Link先を確認
Charlie Hou, Kiran K. Thekumparampil, Giulia Fanti, Sewoong Oh(参考訳) 我々は,通信制約が主なボトルネックとなるフェデレーション設定において,凸凹型ミニマックス問題を考える。 クライアントが任意に異種である場合、シンプルなMinibatch Mirror-proxは最高のパフォーマンスを実現します。 クライアントが均質になるにつれて、クライアントで複数のローカルグラデーション更新を使用することで、Minibatch Mirror-proxの通信頻度が大幅に向上します。 我々のゴールは、任意の異種性(ログファクタまで)下でMinibatch Mirror-proxのパフォーマンスを回復しながら、クライアントの類似性の利点を活用できるアルゴリズムを設計することである。 我々は、この目標を達成する最初のフェデレーションミニマックス最適化アルゴリズムを与える。 第一の考え方は、(i)SCAFFOLD(凸最適化のためにクライアント間で分散還元を行うアルゴリズム)と(ii)Catalyst(目的の変更に基づく加速フレームワーク)を組み合わせて、クライアントのドリフトを増幅することなく収束を加速することである。 このアルゴリズムが我々の目標を達成することを証明し、理論を検証する実験を含む。

We consider strongly convex-concave minimax problems in the federated setting, where the communication constraint is the main bottleneck. When clients are arbitrarily heterogeneous, a simple Minibatch Mirror-prox achieves the best performance. As the clients become more homogeneous, using multiple local gradient updates at the clients significantly improves upon Minibatch Mirror-prox by communicating less frequently. Our goal is to design an algorithm that can harness the benefit of similarity in the clients while recovering the Minibatch Mirror-prox performance under arbitrary heterogeneity (up to log factors). We give the first federated minimax optimization algorithm that achieves this goal. The main idea is to combine (i) SCAFFOLD (an algorithm that performs variance reduction across clients for convex optimization) to erase the worst-case dependency on heterogeneity and (ii) Catalyst (a framework for acceleration based on modifying the objective) to accelerate convergence without amplifying client drift. We prove that this algorithm achieves our goal, and include experiments to validate the theory.
翻訳日:2021-02-15 12:57:10 公開日:2021-02-12
# 教師付き分類器を用いた音声強調のための変分オートエンコーダ

Guided Variational Autoencoder for Speech Enhancement With a Supervised Classifier ( http://arxiv.org/abs/2102.06454v1 )

ライセンス: Link先を確認
Guillaume Carbajal, Julius Richter, Timo Gerkmann(参考訳) 近年、変分オートエンコーダは音声信号よりも先に確率的に学習し、音声強調を行うのに使われている。 しかし、可変オートエンコーダはクリーンな音声でのみ訓練され、教師付きアプローチと比較してノイズの多い音声から音声信号を抽出する能力は限られている。 本稿では,雑音音声で個別に訓練された教師付き分類器を用いて,変分オートエンコーダの案内を行う。 推定ラベルは、音声信号(例えば)を記述する高レベルのカテゴリ変数である。 発話活動) 標準の変分オートエンコーダと比較して、よりインフォメーションな潜時分布を可能にする。 本手法は,騒音環境の異なる実記録において,異なる種類のラベルを用いて評価する。 ラベルが潜伏分布をよりよく知らせ、分類器が優れた性能を発揮することを条件として、提案手法は標準変分オートエンコーダと従来のニューラルネットワークに基づく教師付きアプローチより優れている。

Recently, variational autoencoders have been successfully used to learn a probabilistic prior over speech signals, which is then used to perform speech enhancement. However, variational autoencoders are trained on clean speech only, which results in a limited ability of extracting the speech signal from noisy speech compared to supervised approaches. In this paper, we propose to guide the variational autoencoder with a supervised classifier separately trained on noisy speech. The estimated label is a high-level categorical variable describing the speech signal (e.g. speech activity) allowing for a more informed latent distribution compared to the standard variational autoencoder. We evaluate our method with different types of labels on real recordings of different noisy environments. Provided that the label better informs the latent distribution and that the classifier achieves good performance, the proposed approach outperforms the standard variational autoencoder and a conventional neural network-based supervised approach.
翻訳日:2021-02-15 12:56:53 公開日:2021-02-12
# 実空間における深層音場再構成:ISOBEL音場データセットの導入

Deep Sound Field Reconstruction in Real Rooms: Introducing the ISOBEL Sound Field Dataset ( http://arxiv.org/abs/2102.06455v1 )

ライセンス: Link先を確認
Miklas Str{\o}m Kristoffersen, Martin Bo M{\o}ller, Pablo Mart\'inez-Nuevo, Jan {\O}stergaard(参考訳) スピーカ応答の知識は,室内の位置に応じて聴取経験を変化させる室内に音響システムを設置する多くのアプリケーションにおいて有用である。 残響室にある音源に対する音場獲得は、部屋を覆うインパルス応答関数の集中的な測定や、より少ない測定を必要とする可能性のある再構成手法によって達成される。 本稿では,4つの実室から測定したデータセットを導入し,低周波音場復元の評価を拡張した。 ISOBELサウンドフィールドデータセットは公開されており、長方形の部屋で合成音場と実世界の音場のギャップを埋めることを目指しています。 さらに,超低音量マイクロホンを用いた近年の深層学習に基づく音場再構成法を考案し,u-netライクなニューラルネットワークアーキテクチャにおける音の大きさと位相応答のモデル化手法を提案する。 複素数値音場再構成は,150Hz未満の15マイクロホンを用いて,理想的な室内伝達関数に匹敵するコントラスト比のパーソナライズされた音域を実現するために,推定された室内伝達関数の精度が十分高いことを示す。

Knowledge of loudspeaker responses are useful in a number of applications, where a sound system is located inside a room that alters the listening experience depending on position within the room. Acquisition of sound fields for sound sources located in reverberant rooms can be achieved through labor intensive measurements of impulse response functions covering the room, or alternatively by means of reconstruction methods which can potentially require significantly fewer measurements. This paper extends evaluations of sound field reconstruction at low frequencies by introducing a dataset with measurements from four real rooms. The ISOBEL Sound Field dataset is publicly available, and aims to bridge the gap between synthetic and real-world sound fields in rectangular rooms. Moreover, the paper advances on a recent deep learning-based method for sound field reconstruction using a very low number of microphones, and proposes an approach for modeling both magnitude and phase response in a U-Net-like neural network architecture. The complex-valued sound field reconstruction demonstrates that the estimated room transfer functions are of high enough accuracy to allow for personalized sound zones with contrast ratios comparable to ideal room transfer functions using 15 microphones below 150 Hz.
翻訳日:2021-02-15 12:56:37 公開日:2021-02-12
# 話者ダイアリゼーションのためのコンテンツ対応話者埋め込み

Content-Aware Speaker Embeddings for Speaker Diarisation ( http://arxiv.org/abs/2102.06467v1 )

ライセンス: Link先を確認
G. Sun, D. Liu, C. Zhang, P. C. Woodland(参考訳) 最近の話者ダイアリゼーションシステムは、可変長音声セグメントを話者クラスタリングのための固定長ベクトル表現に変換することが多い。 本稿では, 話者分類器の入力を音響的特徴だけでなく, 音声, 文字, 単語の埋め込みを通じて, 対応する音声内容を含むように拡張する, 内容認識型話者埋め込み (CASE) 手法を提案する。 マルチタスクや対人訓練のような類似した情報を活用する代替手法と比較して、CASEは話者認識から自動音声認識(ASR)を分解し、話者特性と対応するコンテンツユニットとの相関をモデル化し、より表現力のある表現を導出する。 AMIミーティング転写データセットを用いた現実的な話者ダイアリゼーション設定による話者再クラスタリングのケース評価を行い、自動セグメンテーションに基づいてASRを行うことで内容情報を得る。 実験の結果、従来の方法に比べて話者誤差率が17.8%減少した。

Recent speaker diarisation systems often convert variable length speech segments into fixed-length vector representations for speaker clustering, which are known as speaker embeddings. In this paper, the content-aware speaker embeddings (CASE) approach is proposed, which extends the input of the speaker classifier to include not only acoustic features but also their corresponding speech content, via phone, character, and word embeddings. Compared to alternative methods that leverage similar information, such as multitask or adversarial training, CASE factorises automatic speech recognition (ASR) from speaker recognition to focus on modelling speaker characteristics and correlations with the corresponding content units to derive more expressive representations. CASE is evaluated for speaker re-clustering with a realistic speaker diarisation setup using the AMI meeting transcription dataset, where the content information is obtained by performing ASR based on an automatic segmentation. Experimental results showed that CASE achieved a 17.8% relative speaker error rate reduction over conventional methods.
翻訳日:2021-02-15 12:56:18 公開日:2021-02-12