このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20210219)

# (参考訳) キュリオシティ駆動型3dシーン構造 : 単像自己スーパービジョンから [全文訳有]

Curiosity-driven 3D Scene Structure from Single-image Self-supervision ( http://arxiv.org/abs/2012.01230v2 )

ライセンス: CC BY 4.0
David Griffiths, Jan Boehm, Tobias Ritschel(参考訳) 以前の研究では、孤立した3dオブジェクト(ボクセルグリッド、ポイントクラウド、メッシュなど)の学習を実証している。 2dのみのセルフスーパービジョン。 ここでは、位置、向き、タイプ、シーンの照明など、複数のオブジェクトで構成された3dシーン全体に拡張することにしました。 学習すると、任意の2d画像を3dシーン構造にマップできる。 視覚の曖昧さの局所的ミニマムがほぼ常に詰まっているため,3次元シーン構造の監督のための解析・合成による損失が実用的でない理由を解析した。 これは新しい形式のトレーニングによって克服できる。我々は最適化自体を操るために追加のネットワークを使用し、好奇心をそそるソリューションの完全な範囲を探索し、これらの曖昧さを解消し、作業可能なミニマを見つける。 得られたシステムは、異なる仮想または実画像の2D画像を完全な3Dシーンに変換し、それらのシーンの2D画像からのみ学習する。

Previous work has demonstrated learning isolated 3D objects (voxel grids, point clouds, meshes, etc.) from 2D-only self-supervision. Here we set out to extend this to entire 3D scenes made out of multiple objects, including their location, orientation and type, and the scenes illumination. Once learned, we can map arbitrary 2D images to 3D scene structure. We analyze why analysis-by-synthesi s-like losses for supervision of 3D scene structure using differentiable rendering is not practical, as it almost always gets stuck in local minima of visual ambiguities. This can be overcome by a novel form of training: we use an additional network to steer the optimization itself to explore the full gamut of possible solutions \ie to be curious, and hence, to resolve those ambiguities and find workable minima. The resulting system converts 2D images of different virtual or real images into complete 3D scenes, learned only from 2D images of those scenes.
翻訳日:2021-05-30 10:41:22 公開日:2021-02-19
# (参考訳) CNN脳病変分類モデルにおけるサンプル間Dice分布の統計的推定 [全文訳有]

Statistical inference of the inter-sample Dice distribution for discriminative CNN brain lesion segmentation models ( http://arxiv.org/abs/2012.02755v2 )

ライセンス: CC BY 4.0
Kevin Raina(参考訳) ボクセル単位の条件付きマルチニューリ分布を仮定した識別畳み込みニューラルネットワーク(CNN)は多くの脳病変セグメンテーションタスクでうまく機能している。 臨床で使用される訓練された識別cnnに対して、患者の放射線学的特徴をモデルに入力し、その場合、セグメンテーションの条件分布が生成される。 予測の不確実性を捉えることは、モデルを放棄するか、競合するモデルを選択すべきかを決定するのに有用である。 しかし実際には、基礎的真理分節は決して知ることができず、従って真のモデルの分散は知ることができない。 本研究は,MRI画像のみに基づいて,新しい患者のサンプル間Dice分布を解析することにより,識別的CNNのセグメンテーションサンプリングを用いて,訓練されたモデルのロバスト性を評価する。 さらに、サンプル間ダイス観測が有限平均で独立に分布し、一定の条件下で分散していることを示すことにより、特定の患者に対してcnnモデルを拒絶するか否かを厳密な信頼度に基づく決定ルールが提案される。 isles 2015 (siss) データセットに適用すると、モデルは7つの予測を非ロバストと認識し、残りの脳で計算された平均dice係数を12%改善した。

Discriminative convolutional neural networks (CNNs), for which a voxel-wise conditional Multinoulli distribution is assumed, have performed well in many brain lesion segmentation tasks. For a trained discriminative CNN to be used in clinical practice, the patient's radiological features are inputted into the model, in which case a conditional distribution of segmentations is produced. Capturing the uncertainty of the predictions can be useful in deciding whether to abandon a model, or choose amongst competing models. In practice, however, we never know the ground truth segmentation, and therefore can never know the true model variance. In this work, segmentation sampling on discriminative CNNs is used to assess a trained model's robustness by analyzing the inter-sample Dice distribution on a new patient solely based on their magnetic resonance (MR) images. Furthermore, by demonstrating the inter-sample Dice observations are independent and identically distributed with a finite mean and variance under certain conditions, a rigorous confidence based decision rule is proposed to decide whether to reject or accept a CNN model for a particular patient. Applied to the ISLES 2015 (SISS) dataset, the model identified 7 predictions as non-robust, and the average Dice coefficient calculated on the remaining brains improved by 12 percent.
翻訳日:2021-05-23 01:22:28 公開日:2021-02-19
# (参考訳) グローバルモメンタムとローカルモメンタムによる非凸フェデレーション学習の高速化

Faster Non-Convex Federated Learning via Global and Local Momentum ( http://arxiv.org/abs/2012.04061v3 )

ライセンス: CC BY 4.0
Rudrajit Das, Anish Acharya, Abolfazl Hashemi, Sujay Sanghavi, Inderjit S. Dhillon, Ufuk Topcu(参考訳) 本稿では,各ラウンドにおいてクライアントの完全な勾配を使わずに,スムーズな非凸対象に対する最適反復複雑性(既知の下界とのマッチング)を実現する最初の(一階)FLアルゴリズムである‘texttt{FedGLOMO} を提案する。 この最適な複雑さを実現するための重要なアルゴリズムのアイデアは、クライアントのローカルアップデートとサーバのグローバルアップデートの両方の分散低減を促進する、公平なモーメント項を適用することです。 また,このアルゴリズムは,クライアントとサーバ間の圧縮通信においても最適であり,flアルゴリズムの実用化において重要な考慮事項である。 実験では,不均一なデータ配信環境におけるクライアントのドリフトを暗黙的に抑制し,通信効率の向上を図った。 我々は, \texttt{fedglomo} の前列として,ローカルクライアント更新にのみモーメントを適用する \texttt{fedlomo} を提案する。 我々は,従来の作業よりもコンベックスでない共通条件下での収束率の向上を期待でき,仮定も少ないことを確認した。

In this paper, we propose \texttt{FedGLOMO}, the first (first-order) FL algorithm that achieves the optimal iteration complexity (i.e matching the known lower bound) on smooth non-convex objectives -- without using clients' full gradient in each round. Our key algorithmic idea that enables attaining this optimal complexity is applying judicious momentum terms that promote variance reduction in both the local updates at the clients, and the global update at the server. Our algorithm is also provably optimal even with compressed communication between the clients and the server, which is an important consideration in the practical deployment of FL algorithms. Our experiments illustrate the intrinsic variance reduction effect of \texttt{FedGLOMO} which implicitly suppresses client-drift in heterogeneous data distribution settings and promotes communication-effici ency. As a prequel to \texttt{FedGLOMO}, we propose \texttt{FedLOMO} which applies momentum only in the local client updates. We establish that \texttt{FedLOMO} enjoys improved convergence rates under common non-convex settings compared to prior work, and with fewer assumptions.
翻訳日:2021-05-18 05:58:52 公開日:2021-02-19
# 銀河特性への機械学習アプローチ--ランダムフォレストを用いた赤方偏移-星間質量確率分布

A machine learning approach to galaxy properties: joint redshift-stellar mass probability distributions with Random Forest ( http://arxiv.org/abs/2012.05928v2 )

ライセンス: Link先を確認
S. Mucesh, W. G. Hartley, A. Palmese, O. Lahav, L. Whiteway, A. F. L. Bluck, A. Alarcon, A. Amon, K. Bechtol, G. M. Bernstein, A. Carnero Rosell, M. Carrasco Kind, A. Choi, K. Eckert, S. Everett, D. Gruen, R. A. Gruendl, I. Harrison, E. M. Huff, N. Kuropatkin, I. Sevilla-Noarbe, E. Sheldon, B. Yanny, M. Aguena, S. Allam, D. Bacon, E. Bertin, S. Bhargava, D. Brooks, J. Carretero, F. J. Castander, C. Conselice, M. Costanzi, M. Crocce, L. N. da Costa, M. E. S. Pereira, J. De Vicente, S. Desai, H. T. Diehl, A. Drlica-Wagner, A. E. Evrard, I. Ferrero, B. Flaugher, P. Fosalba, J. Frieman, J. Garc\'ia-Bellido, E. Gaztanaga, D. W. Gerdes, J. Gschwend, G. Gutierrez, S. R. Hinton, D. L. Hollowood, K. Honscheid, D. J. James, K. Kuehn, M. Lima, H. Lin, M. A. G. Maia, P. Melchior, F. Menanteau, R. Miquel, R. Morgan, F. Paz-Chinch\'on, A. A. Plazas, E. Sanchez, V. Scarpine, M. Schubnell, S. Serrano, M. Smith, E. Suchyta, G. Tarle, D. Thomas, C. To, T. N. Varga, and R.D. Wilkinson(参考訳) 我々は,測光帯域が少ない場合でも,ランダムフォレスト(RF)機械学習(ML)アルゴリズムを用いて高精度な連星質量分布関数(PDF)が得られることを示した。 例えば、ダークエネルギーサーベイ(DES)は、赤方偏移と星団のためのCOSMOS2015カタログと組み合わせています。 2つのmlモデルを構築した。1つは$griz$バンドに深い光度計を、もう1つはメインdesサーベイに存在している光度散乱を反射し、それぞれのケースに注意深く構築されたトレーニングデータである。 我々は,コプラ確率積分変換とケンドール分布関数を用いて,10,699ドルのテスト銀河に対して共同PDFを検証し,その辺縁を検証した。 テンプレート適合コードBAGPIPESの基本的なセットアップと比較すると、MLベースのメソッドは、事前に定義されたすべてのパフォーマンス指標に対してテンプレート適合性よりも優れています。 精度に加えて、RFは非常に高速で、100万個の銀河の合同PDFをコンシューマー・コンピュータ・ハードウェアで6ドル以下で計算できる。 このような速度により、PDFは分析コード内でリアルタイムで導き出され、潜在的なストレージ問題を解決することができる。 この作業の一環として,多変量PDFをその場で高速に生成する,非常に直感的で効率的なPythonパッケージであるGALPROを開発した。 galproは、宇宙論や銀河進化の研究で研究者が利用できる文書である。

We demonstrate that highly accurate joint redshift-stellar mass probability distribution functions (PDFs) can be obtained using the Random Forest (RF) machine learning (ML) algorithm, even with few photometric bands available. As an example, we use the Dark Energy Survey (DES), combined with the COSMOS2015 catalogue for redshifts and stellar masses. We build two ML models: one containing deep photometry in the $griz$ bands, and the second reflecting the photometric scatter present in the main DES survey, with carefully constructed representative training data in each case. We validate our joint PDFs for $10,699$ test galaxies by utilizing the copula probability integral transform and the Kendall distribution function, and their univariate counterparts to validate the marginals. Benchmarked against a basic set-up of the template-fitting code BAGPIPES, our ML-based method outperforms template fitting on all of our predefined performance metrics. In addition to accuracy, the RF is extremely fast, able to compute joint PDFs for a million galaxies in just under $6$ min with consumer computer hardware. Such speed enables PDFs to be derived in real time within analysis codes, solving potential storage issues. As part of this work we have developed GALPRO, a highly intuitive and efficient Python package to rapidly generate multivariate PDFs on-the-fly. GALPRO is documented and available for researchers to use in their cosmology and galaxy evolution studies.
翻訳日:2021-05-15 06:04:33 公開日:2021-02-19
# 制御変数が未知な場合の因果効果の推定

Inference of Causal Effects when Control Variables are Unknown ( http://arxiv.org/abs/2012.08154v2 )

ライセンス: Link先を確認
Ludvig Hult and Dave Zachariah(参考訳) 因果効果の従来の方法は、典型的には有効な制御変数のセットを指定することに依存する。 この集合が未知または誤記である場合、推論は誤りである。 我々は,すべての潜在的共同創設者が観察された場合の平均因果効果を推定する方法を提案するが,制御変数は未知である。 データ生成過程が非巡回線形構造因果モデルのクラスに属する場合、この手法は漸近的に妥当な信頼区間をもたらすことが証明される。 この結果は線形有向非巡回グラフの滑らかなキャラクタリゼーションに基づいている。 本手法は,制御変数の適切な指定が不明な場合でも,合成データを用いて,平均因果効果に対する信頼区間の妥当性を検証する。

Conventional methods in causal effect inferencetypically rely on specifying a valid set of control variables. When this set is unknown or misspecified, inferences will be erroneous. We propose a method for inferring average causal effects when all potential confounders are observed, but thecontrol variables are unknown. When the data-generating process belongs to the class of acyclical linear structural causal models, we prove that themethod yields asymptotically valid confidence intervals. Our results build upon a smooth characterization of linear directed acyclic graphs. We verify the capability of the method to produce valid confidence intervals for average causal effects using synthetic data, even when the appropriate specification of control variables is unknown.
翻訳日:2021-05-07 05:31:13 公開日:2021-02-19
# 行動可能なメトリクスによるアクティブラーニングにおける信頼の再構築

Rebuilding Trust in Active Learning with Actionable Metrics ( http://arxiv.org/abs/2012.11365v3 )

ライセンス: Link先を確認
Alexandre Abraham and L\'eo Dreyfus-Schmidt(参考訳) アクティブラーニング(AL)は研究の活発な領域であるが、プレッシャーのあるニーズにもかかわらず、業界ではほとんど使われない。 これは部分的には目的のずれによるものであり、研究は選択したデータセットで最高の結果を得ることを目指しているが、業界はActive Learningがランダムなラベル付けよりも一貫して、少なくとも良いパフォーマンスを期待している。 アクティブラーニングの非常に単発的な性質は、戦略の選択がどのように実行され、何がパフォーマンスを低下させるかを理解するのに不可欠である(探索の遅れ、分類が難しいサンプルの選択、...)。 積極的学習における産業実践者の信頼回復を支援するため,様々な活動可能な指標を提示する。 CIFAR100、Fashion-MNIST、20Newsgroupsといった参照データセットに関する広範な実験を通じて、これらのメトリクスが、実践者が活用できるAL戦略に解釈可能性をもたらすことを示す。

Active Learning (AL) is an active domain of research, but is seldom used in the industry despite the pressing needs. This is in part due to a misalignment of objectives, while research strives at getting the best results on selected datasets, the industry wants guarantees that Active Learning will perform consistently and at least better than random labeling. The very one-off nature of Active Learning makes it crucial to understand how strategy selection can be carried out and what drives poor performance (lack of exploration, selection of samples that are too hard to classify, ...). To help rebuild trust of industrial practitioners in Active Learning, we present various actionable metrics. Through extensive experiments on reference datasets such as CIFAR100, Fashion-MNIST, and 20Newsgroups, we show that those metrics brings interpretability to AL strategies that can be leveraged by the practitioner.
翻訳日:2021-05-01 18:23:00 公開日:2021-02-19
# (参考訳) 汎用ゼロショット学習のための双方向マッピング結合型GAN [全文訳有]

Bidirectional Mapping Coupled GAN for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2012.15054v2 )

ライセンス: CC BY 4.0
Tasfia Shermin, Shyh Wei Teng, Ferdous Sohel, Manzur Murshed, Guojun Lu(参考訳) 双方向マッピングに基づく一般化ゼロショット学習(GZSL)手法は、合成された特徴の質に頼り、見えないデータを認識する。 したがって、見掛けのない領域の合同分布を学習し、ドメインの区別を保ち続けることが重要となる。 しかし、既存の手法は、GZSL問題設定では未確認のクラスセマンティクスが利用できるが、観測データの基盤となる分布のみを学習する。 ほとんどの手法は、ドメインの区別を無視し、学習した分布を使って、見つからないデータを認識する。 そのため、性能は良くない。 本研究は,見知らぬクラスセマンティクスとともに利用可能なクラスセマンティクスを利用し,強い視覚・意味的結合を通して共同分布を学習する。 本稿では,2分野の学習双方向マッピングモデルに結合した生成逆数ネットワークを拡張して,双方向マッピング結合生成逆数ネットワーク(BMCoGAN)を提案する。 さらに,wasserstein生成敵最適化を統合し,共同分布学習を監督する。 我々は、合成された特徴にドメイン固有の情報を保持し、合成された特徴を実際の特徴へプッシュし、合成されていない特徴を実際の特徴から引き離すような損失最適化を設計する。 ベンチマークデータセット上でBMCoGANを評価し,現代の手法と比較して優れた性能を示す。

Bidirectional mapping-based generalized zero-shot learning (GZSL) methods rely on the quality of synthesized features to recognize seen and unseen data. Therefore, learning a joint distribution of seen-unseen domains and preserving domain distinction is crucial for these methods. However, existing methods only learn the underlying distribution of seen data, although unseen class semantics are available in the GZSL problem setting. Most methods neglect retaining domain distinction and use the learned distribution to recognize seen and unseen data. Consequently, they do not perform well. In this work, we utilize the available unseen class semantics alongside seen class semantics and learn joint distribution through a strong visual-semantic coupling. We propose a bidirectional mapping coupled generative adversarial network (BMCoGAN) by extending the coupled generative adversarial network into a dual-domain learning bidirectional mapping model. We further integrate a Wasserstein generative adversarial optimization to supervise the joint distribution learning. We design a loss optimization for retaining domain distinctive information in the synthesized features and reducing bias towards seen classes, which pushes synthesized seen features towards real seen features and pulls synthesized unseen features away from real seen features. We evaluate BMCoGAN on benchmark datasets and demonstrate its superior performance against contemporary methods.
翻訳日:2021-04-18 17:01:54 公開日:2021-02-19
# (参考訳) ResNet18を用いたUrdu手書き文字認識 [全文訳有]

Urdu Handwritten Text Recognition Using ResNet18 ( http://arxiv.org/abs/2103.05105v1 )

ライセンス: CC BY 4.0
Muhammad Kashif(参考訳) 手書きテキスト認識は、ディープラーニングと人工知能の分野で、手書きテキストを機械理解可能なものにするための活発な研究領域である。 他の言語、特に英語では多くの作業が行われてきたが、ウルドゥー語の作業はウルドゥー文字の呪文的な性質のため極小である。 技術の発展により、Urdu HCRシステムの必要性が高まっている。 本稿では,500の候補による3,12000単語を含むurdu nastaliq hand written dataset (unhd) を用いた手書き文字認識のためのresnet18モデルを提案する。

Handwritten text recognition is an active research area in the field of deep learning and artificial intelligence to convert handwritten text into machine-understandab le. A lot of work has been done for other languages, especially for English, but work for the Urdu language is very minimal due to the cursive nature of Urdu characters. The need for Urdu HCR systems is increasing because of the advancement of technology. In this paper, we propose a ResNet18 model for handwritten text recognition using Urdu Nastaliq Handwritten Dataset (UNHD) which contains 3,12000 words written by 500 candidates.
翻訳日:2021-04-05 10:51:02 公開日:2021-02-19
# (参考訳) 潜在可変ネスト型変圧器とオートボット [全文訳有]

Latent Variable Nested Set Transformers & AutoBots ( http://arxiv.org/abs/2104.00563v1 )

ライセンス: CC BY 4.0
Roger Girgis, Florian Golemo, Felipe Codevilla, Jim Aldon D'Souza, Samira Ebrahimi Kahou, Felix Heide, Christopher Pal(参考訳) 人間は、周囲の最も関係のある俳優に自然に出席できる能力を持ち、将来どのように振る舞うかを予測することができる。 この能力は、人間と対話するロボットや車両のような安全に重要なエージェントの配備に不可欠である。 本研究では, ネスト集合の自己回帰モデルに基づくこの問題設定のための理論的枠組みを提案し, 潜在変数を用いて, 将来の集合集合上のマルチモーダル分布をよりよく把握する。 本稿では,各時間ステップにおける集合の要素間の社会的注意の形式として機能する集合の集合に対して,マルチヘッドセルフアテンションブロックを用いたネステッド集合トランスフォーマと呼ばれる新しいモデルアーキテクチャを提案する。 提案手法は,すべてのエージェントに対する将来の軌道上の分布を考慮に入れたり,エゴエージェントの軌道に着目したりすることができる。 我々は、シーン内の複数のエージェントのキー属性のシーケンシャルな観察に基づいて、エゴエージェントの軌道をモデル化する、自律運転設定のためのNested Set Transformer("AutoBot")を検証する。 autobotは、難解なnuscenes vehicle tracking modeling benchmarkの先行研究よりも優れた結果を生み出す。 また, 本モデルのマルチエージェント予測版を調査し, シーン内の他のエージェントと共同でエゴエージェントの将来の軌道を予測した。 歩行者軌道データを用いたシーンレベルの予測のためのNested Set Transformerの挙動を検証する。

Humans have the innate ability to attend to the most relevant actors in their vicinity and can forecast how they may behave in the future. This ability will be crucial for the deployment of safety-critical agents such as robots or vehicles which interact with humans. We propose a theoretical framework for this problem setting based on autoregressively modelling sequences of nested sets, using latent variables to better capture multimodal distributions over future sets of sets. We present a new model architecture which we call a Nested Set Transformer which employs multi-head self-attention blocks over sets of sets that serve as a form of social attention between the elements of the sets at every timestep. Our approach can produce a distribution over future trajectories for all agents under consideration, or focus upon the trajectory of an ego-agent. We validate the Nested Set Transformer for autonomous driving settings which we refer to as ("AutoBot"), where we model the trajectory of an ego-agent based on the sequential observations of key attributes of multiple agents in a scene. AutoBot produces results better than state-of-the-art published prior work on the challenging nuScenes vehicle trajectory modeling benchmark. We also examine the multi-agent prediction version of our model and jointly forecast an ego-agent's future trajectory along with the other agents in the scene. We validate the behavior of our proposed Nested Set Transformer for scene level forecasting with a pedestrian trajectory dataset.
翻訳日:2021-04-05 10:43:57 公開日:2021-02-19
# SATによる回路局所改善

SAT-based Circuit Local Improvement ( http://arxiv.org/abs/2102.12579v1 )

ライセンス: Link先を確認
Alexander S. Kulikov and Nikita Slezkin(参考訳) 正確な回路サイズを見つけることは、実際よく知られた最適化問題である。 現代のコンピュータやアルゴリズムの手法では、目の瞬きでサイズ7の回路を見つけることができるが、サイズ13の回路を探すのに1週間以上かかるかもしれない。 この振る舞いの理由の1つは、探索空間が巨大であることである:$s$の回路の数は$s^{\Theta(s)}$、$n$変数上のブール関数の数は$2^{2^n}$である。 本稿では,与えられた回路のサイズを小さくするという自然ヒューリスティックな考え方について考察する。 これは局所探索のアプローチと見なすことができる:我々は与えられた回路の周りのボールの中の小さな回路を探索する。 各種対称関数を用いた実験結果について報告する。

Finding exact circuit size is a notorious optimization problem in practice. Whereas modern computers and algorithmic techniques allow to find a circuit of size seven in blink of an eye, it may take more than a week to search for a circuit of size thirteen. One of the reasons of this behavior is that the search space is enormous: the number of circuits of size $s$ is $s^{\Theta(s)}$, the number of Boolean functions on $n$ variables is $2^{2^n}$. In this paper, we explore the following natural heuristic idea for decreasing the size of a given circuit: go through all its subcircuits of moderate size and check whether any of them can be improved by reducing to SAT. This may be viewed as a local search approach: we search for a smaller circuit in a ball around a given circuit. We report the results of experiments with various symmetric functions.
翻訳日:2021-04-05 00:44:51 公開日:2021-02-19
# GnetDet: 224mW CNN加速器チップ上で106FPSの速度で最適化されたオブジェクト検出

GnetDet: Object Detection Optimized on a 224mW CNN Accelerator Chip at the Speed of 106FPS ( http://arxiv.org/abs/2103.15756v1 )

ライセンス: Link先を確認
Baohua Sun, Tao Zhang, Jiapeng Su, Hao Sha(参考訳) オブジェクト検出は組み込みデバイスで広く使われている。 CNN(Convolutional Neural Networks)アクセラレータチップの普及に伴い,オブジェクト検出アプリケーションは低消費電力,高推論速度で動作することが期待される。 さらに、CNNアクセラレータチップがホストCPUとコプロセッサとして動作する場合、CPU負荷は可能な限り低くなることが期待されている。 本稿では,CPU負荷を最小限に抑えて,CNNアクセラレータチップのオブジェクト検出モデルを最適化する。 結果として得られるモデルはGnetDetと呼ばれる。 実験結果から, 224mW チップ上で動作する GnetDet モデルは106FPS の速度を精度良く達成できることがわかった。

Object detection is widely used on embedded devices. With the wide availability of CNN (Convolutional Neural Networks) accelerator chips, the object detection applications are expected to run with low power consumption, and high inference speed. In addition, the CPU load is expected to be as low as possible for a CNN accelerator chip working as a co-processor with a host CPU. In this paper, we optimize the object detection model on the CNN accelerator chip by minimizing the CPU load. The resulting model is called GnetDet. The experimental result shows that the GnetDet model running on a 224mW chip achieves the speed of 106FPS with excellent accuracy.
翻訳日:2021-04-05 00:43:18 公開日:2021-02-19
# ディープニューラルネットワークを用いたエンド・ツー・エンド学習型脳波チャネル選択

End-to-end learnable EEG channel selection with deep neural networks ( http://arxiv.org/abs/2102.09050v2 )

ライセンス: Link先を確認
Thomas Strypsteen and Alexander Bertrand(参考訳) 多くの電子脳波学(eeg)の応用では、電極の搭載量を減少させ、計算負荷を減少させ、過フィッティング効果を減少させ、性能を向上させるために、チャネル選択法に依拠している。 ラッパーベースのチャネル選択手法は、チャネル選択ステップをターゲットモデルにマッチさせることを目的としているが、異なる候補チャネルサブセット上で何度もモデルを再トレーニングする必要があるため、特にモデルが(深い)ニューラルネットワークである場合には、許容できないほど高い計算コストを発生させることが多い。 これを軽減するために、従来のバックプロパゲーションアルゴリズムにより、ニューラルネットワーク自体にEEGチャネルの選択を組み込んで、ネットワーク重みと最適なチャネルをエンドツーエンドに学習するフレームワークを提案する。 我々は,gumbel-softmax トリックに基づく離散チャネル選択パラメータの連続緩和を用いて,この新しい最適化問題の離散性を扱う。 また,チャネル選択を1回以上妨げる正規化手法を提案する。 この一般的なアプローチは、運動画像脳-コンピュータインタフェースと聴覚注意復号という2つの脳波タスクに基づいて評価される。 その結果,これらのタスクに合わせた最先端の脳波チャネル選択手法と競合する一方で,我々のフレームワークは一般的に適用可能であることが示された。

Many electroencephalograp hy (EEG) applications rely on channel selection methods to remove the least informative channels, e.g., to reduce the amount of electrodes to be mounted, to decrease the computational load, or to reduce overfitting effects and improve performance. Wrapper-based channel selection methods aim to match the channel selection step to the target model, yet they require to re-train the model multiple times on different candidate channel subsets, which often leads to an unacceptably high computational cost, especially when said model is a (deep) neural network. To alleviate this, we propose a framework to embed the EEG channel selection in the neural network itself to jointly learn the network weights and optimal channels in an end-to-end manner by traditional backpropagation algorithms. We deal with the discrete nature of this new optimization problem by employing continuous relaxations of the discrete channel selection parameters based on the Gumbel-softmax trick. We also propose a regularization method that discourages selecting channels more than once. This generic approach is evaluated on two different EEG tasks: motor imagery brain-computer interfaces and auditory attention decoding. The results demonstrate that our framework is generally applicable, while being competitive with state-of-the art EEG channel selection methods, tailored to these tasks.
翻訳日:2021-04-05 00:36:29 公開日:2021-02-19
# 可変認識信頼セット:線形帯域に対する可変依存境界と線形混合MDPにおける水平自由境界

Variance-Aware Confidence Set: Variance-Dependent Bound for Linear Bandits and Horizon-Free Bound for Linear Mixture MDP ( http://arxiv.org/abs/2101.12745v2 )

ライセンス: Link先を確認
Zihan Zhang, Jiaqi Yang, Xiangyang Ji, Simon S. Du(参考訳) 本稿では,線形バンドイットと線形混合マルコフ決定過程(mdp)に対する分散認識信頼集合の構成法を示す。 線形包帯の場合、$\widetilde{O}(\mathrm{poly}(d)\sqrt{1 + \sum_{i=1}^{K}\sigma_i^2})$ regret bound, where $d$ is the feature dimension, $K$ is the number of rounds, $\sigma_i^2$ is the (unknown) variance of the reward at the $i-th round。 これは、$K$に明示的な多項式依存を持たず、分散と次元でしかスケールしない最初の後悔境界である。 * 線形混合 mdp に対して、$\widetilde{o}(\mathrm{poly}(d, \log h)\sqrt{k})$ regret bound、ただし$d$ は基本モデルの数、$k$ はエピソード数、$h$ は計画地平線である。 これは、線形関数近似設定による強化学習でh$で対数的にしかスケールしない最初の後悔の限界であり、既存の結果が指数関数的に改善される。 本手法は, 1 入力のノルムと分散の大きさに対する剥離法の適用, 2) 分散を推定するための再帰的アプローチ, 3) 半楕円的ポテンシャル補題を幾分一般化した凸ポテンシャル補題の3つの新しいアイデアを用いる。

We show how to construct variance-aware confidence sets for linear bandits and linear mixture Markov Decision Process (MDP). Our method yields the following new regret bounds: * For linear bandits, we obtain an $\widetilde{O}(\mathrm{poly}(d)\sqrt{1 + \sum_{i=1}^{K}\sigma_i^2})$ regret bound, where $d$ is the feature dimension, $K$ is the number of rounds, and $\sigma_i^2$ is the (unknown) variance of the reward at the $i$-th round. This is the first regret bound that only scales with the variance and the dimension, with no explicit polynomial dependency on $K$. * For linear mixture MDP, we obtain an $\widetilde{O}(\mathrm{poly}(d, \log H)\sqrt{K})$ regret bound, where $d$ is the number of base models, $K$ is the number of episodes, and $H$ is the planning horizon. This is the first regret bound that only scales logarithmically with $H$ in the reinforcement learning with linear function approximation setting, thus exponentially improving existing results. Our methods utilize three novel ideas that may be of independent interest: 1) applications of the peeling techniques to the norm of input and the magnitude of variance, 2) a recursion-based approach to estimate the variance, and 3) a convex potential lemma that somewhat generalizes the seminal elliptical potential lemma.
翻訳日:2021-04-05 00:27:30 公開日:2021-02-19
# 調和型自然言語理解モデルのための合同エネルギーベースモデルトレーニング

Joint Energy-based Model Training for Better Calibrated Natural Language Understanding Models ( http://arxiv.org/abs/2101.06829v2 )

ライセンス: Link先を確認
Tianxing He, Bryan McCann, Caiming Xiong, Ehsan Hosseini-Asl(参考訳) 本研究では、自然言語理解(NLU)タスクのための事前訓練されたテキストエンコーダ(例えば、Roberta)の微調整中の共同エネルギーベースモデル(EBM)トレーニングについて検討する。 実験の結果,ESMトレーニングは,精度を損なうことなく,強力なベースラインと競合するキャリブレーションの精度向上に役立つことがわかった。 テキストエンコーダ上で定義可能な3種類のエネルギー関数(スカラー関数、隠れ関数、シャープ隠れ関数)について検討し、実験で比較する。 テキストデータの離散性のため、エネルギーベースモデルをトレーニングするためにノイズコントラスト推定(NCE)を採用する。 NCEトレーニングをより効果的にするために,マスク付き言語モデル(MLM)を目標とした自動回帰ノイズモデルを訓練する。

In this work, we explore joint energy-based model (EBM) training during the finetuning of pretrained text encoders (e.g., Roberta) for natural language understanding (NLU) tasks. Our experiments show that EBM training can help the model reach a better calibration that is competitive to strong baselines, with little or no loss in accuracy. We discuss three variants of energy functions (namely scalar, hidden, and sharp-hidden) that can be defined on top of a text encoder, and compare them in experiments. Due to the discreteness of text data, we adopt noise contrastive estimation (NCE) to train the energy-based model. To make NCE training more effective, we train an auto-regressive noise model with the masked language model (MLM) objective.
翻訳日:2021-03-27 06:07:27 公開日:2021-02-19
# (参考訳) ベンガル文字文書の教師なし抽象要約 [全文訳有]

Unsupervised Abstractive Summarization of Bengali Text Documents ( http://arxiv.org/abs/2102.04490v2 )

ライセンス: CC BY 4.0
Radia Rayan Chowdhury, Mir Tafseer Nayeem, Tahsin Tasnim Mim, Md. Saifur Rahman Chowdhury, Taufiqul Jannat(参考訳) 抽象要約システムは一般に文書と要約のペアの大規模なコレクションに依存している。 しかし、Bengaliのような低リソース言語では並列データが利用できないため、抽象システムのパフォーマンスは依然として困難である。 そこで本研究では,ベンガル語文書の単一文書設定において,パートオフ音声(POS)タグガーとベンガル語テキストを学習した学習済み言語モデルのみを必要とするグラフに基づく教師なし抽象要約システムを提案する。 また、文書と要約のペアによる人間注釈付きデータセットを提供し、我々の抽象モデルを評価し、ベンガル語における将来の抽象的な要約システムの比較を支援する。 我々は,このデータセットの実験を行い,そのシステムと教師なし抽出要約システムを比較した。 私たちの教師なし抽象要約モデルは、人間の注釈付き参照要約にさらされずにベースラインを上回ります。

Abstractive summarization systems generally rely on large collections of document-summary pairs. However, the performance of abstractive systems remains a challenge due to the unavailability of parallel data for low-resource languages like Bengali. To overcome this problem, we propose a graph-based unsupervised abstractive summarization system in the single-document setting for Bengali text documents, which requires only a Part-Of-Speech (POS) tagger and a pre-trained language model trained on Bengali texts. We also provide a human-annotated dataset with document-summary pairs to evaluate our abstractive model and to support the comparison of future abstractive summarization systems of the Bengali Language. We conduct experiments on this dataset and compare our system with several well-established unsupervised extractive summarization systems. Our unsupervised abstractive summarization model outperforms the baselines without being exposed to any human-annotated reference summaries.
翻訳日:2021-03-14 09:50:56 公開日:2021-02-19
# (参考訳) 非線形モデル低減のための高階微分式オートエンコーダ [全文訳有]

High-order Differentiable Autoencoder for Nonlinear Model Reduction ( http://arxiv.org/abs/2102.11026v1 )

ライセンス: CC BY 4.0
Siyuan Shen, Yang Yin, Tianjia Shao, He Wang, Chenfanfu Jiang, Lei Lan, Kun Zhou(参考訳) 本稿では,深層ニューラルネットワークを活用した物理シミュレーション手法を提案する。 具体的には、古典的なラグランジュ力学と深いオートエンコーダを統合し、変形可能な固体の弾性シミュレーションを加速する。 慣性効果により、ディープオートエンコーダネットワークの2階微分を評価することなく動的平衡を確立することはできない。 これは、主に勾配評価に焦点を当てた既製の自動分化パッケージとアルゴリズムの能力を超えています。 非線形力平衡を解くことは、標準的なニュートンの方法が使用される場合、さらに難しい。 これは、変分ヘッシアンを得るためにネットワークの3階微分を計算する必要があるためである。 複雑なステップの有限差分と逆自動微分を組み合わせることで、これらの困難を克服する。 この戦略により、複素ステップの有限差分の有用性と精度を享受でき、一方、複雑値の摂動を可能な限り一括して展開し、過剰なネットワークパスを節約できる。 gpuベースの実装では、比較的高次元の潜在空間をリアルタイムに、深いオートエンコーダ(例えば10ドル以上のレイヤ)を活用できます。 このパイプラインに沿ってサンプリングネットワークと重み付けネットワークを設計し、モデル還元に非線形性を組み込むために 'emph{weight-variant} Cubature Integration を可能にする。 この研究は、非線形還元物理シミュレーション問題における今後の研究努力を刺激し、恩恵を受けると信じている。

This paper provides a new avenue for exploiting deep neural networks to improve physics-based simulation. Specifically, we integrate the classic Lagrangian mechanics with a deep autoencoder to accelerate elastic simulation of deformable solids. Due to the inertia effect, the dynamic equilibrium cannot be established without evaluating the second-order derivatives of the deep autoencoder network. This is beyond the capability of off-the-shelf automatic differentiation packages and algorithms, which mainly focus on the gradient evaluation. Solving the nonlinear force equilibrium is even more challenging if the standard Newton's method is to be used. This is because we need to compute a third-order derivative of the network to obtain the variational Hessian. We attack those difficulties by exploiting complex-step finite difference, coupled with reverse automatic differentiation. This strategy allows us to enjoy the convenience and accuracy of complex-step finite difference and in the meantime, to deploy complex-value perturbations as collectively as possible to save excessive network passes. With a GPU-based implementation, we are able to wield deep autoencoders (e.g., $10+$ layers) with a relatively high-dimension latent space in real-time. Along this pipeline, we also design a sampling network and a weighting network to enable \emph{weight-varying} Cubature integration in order to incorporate nonlinearity in the model reduction. We believe this work will inspire and benefit future research efforts in nonlinearly reduced physical simulation problems.
翻訳日:2021-02-24 21:38:13 公開日:2021-02-19
# (参考訳) 局所集中力学イメージングのための時空間スイッチング推定器 [全文訳有]

Spatial-temporal switching estimators for imaging locally concentrated dynamics ( http://arxiv.org/abs/2102.10167v1 )

ライセンス: CC BY 4.0
Parisa Karimi, Mark Butala, Zhizhen Zhao, Farzad Kamalabadi(参考訳) 物理に基づくダイナミクスによる画像の進化は、しばしば空間的局所化され非線形である。 スイッチングリニアダイナミクスシステム(SLDS)は、システムの進化が観察間隔をランダムに切り替えたときにそのような問題を引き起こすための自然なモデルです。 高パラメータ空間次元のため、基礎状態の効率的かつ正確な回復は困難である。 本論文では、動的進化が分離された局所集中型動的作用素の集合として適切にモデル化できる一般的なケースに焦点を当てる。 システム力学の完全あるいは部分的な情報を得た雑音測定から, 画像のリアルタイム再構成を行うために, パッチベースハイブリッド推定器を提案する。 数値実験により,リモートセンシングクラウドダイナミクスの現実的なデータ駆動シミュレーションにおいて,提案手法の有効性が示された。

The evolution of images with physics-based dynamics is often spatially localized and nonlinear. A switching linear dynamic system (SLDS) is a natural model under which to pose such problems when the system's evolution randomly switches over the observation interval. Because of the high parameter space dimensionality, efficient and accurate recovery of the underlying state is challenging. The work presented in this paper focuses on the common cases where the dynamic evolution may be adequately modeled as a collection of decoupled, locally concentrated dynamic operators. Patch-based hybrid estimators are proposed for real-time reconstruction of images from noisy measurements given perfect or partial information about the underlying system dynamics. Numerical results demonstrate the effectiveness of the proposed approach for denoising in a realistic data-driven simulation of remotely sensed cloud dynamics.
翻訳日:2021-02-24 17:14:24 公開日:2021-02-19
# (参考訳) CNNを用いたパキスタンの交通標識画像分類 [全文訳有]

Image Classification using CNN for Traffic Signs in Pakistan ( http://arxiv.org/abs/2102.10130v1 )

ライセンス: CC0 1.0
Abdul Azeem Sikander, Hamza Ali(参考訳) 自動車産業は、自動車の安全性と精度を効果的に設計し、指向する多くのテクノロジー企業が、世界中で最大かつ最も従来のプロジェクトの1つです。 これらの製品は先進国の道路で非常によく機能しています。 しかし、先進国の環境と途上国の環境には大きな違いがあるため、未開発国での最初の分に失敗することができます。 次の研究は、パキスタンのような未発達の国の環境空間でこれらの人工知能モデルを訓練することを提案した。 画像分類における提案手法では,畳み込みニューラルネットワークを用いて画像分類を行う。 モデルの事前トレーニングのために、ドイツの交通標識データセットが選択され、パキスタンのデータセットに微調整された。 実験では,前回実施した実験から得られた最良の結果と精度を示した。 精度を高めるために、データセット内の各クラスの画像のサイズを増やすために、より多くのデータセットが収集された。 将来的には、交通標識の色、サイズ、形状が一般的な交通標識と異なるパキスタンで最も使用され、最も人気のある道路の高速道路や国道の交通標識上のモデルのトレーニングの精度を得るために、交通標識のためのより多くの画像が収集され、さらに多くのクラスが増加する必要があります。

The autonomous automotive industry is one of the largest and most conventional projects worldwide, with many technology companies effectively designing and orienting their products towards automobile safety and accuracy. These products are performing very well over the roads in developed countries. But can fail in the first minute in an underdeveloped country because there is much difference between a developed country environment and an underdeveloped country environment. The following study proposed to train these Artificial intelligence models in environment space in an underdeveloped country like Pakistan. The proposed approach on image classification uses convolutional neural networks for image classification for the model. For model pre-training German traffic signs data set was selected then fine-tuned on Pakistan's dataset. The experimental setup showed the best results and accuracy from the previously conducted experiments. In this work to increase the accuracy, more dataset was collected to increase the size of images in every class in the data set. In the future, a low number of classes are required to be further increased where more images for traffic signs are required to be collected to get more accuracy on the training of the model over traffic signs of Pakistan's most used and popular roads motorway and national highway, whose traffic signs color, size, and shapes are different from common traffic signs.
翻訳日:2021-02-24 14:37:27 公開日:2021-02-19
# (参考訳) 容量とスパースニューラルエンコーディングの理論

A theory of capacity and sparse neural encoding ( http://arxiv.org/abs/2102.10148v1 )

ライセンス: CC BY 4.0
Pierre Baldi, Roman Vershynin(参考訳) 生体的考察により,入力層から標的層へのスパースなニューラルマップを探索し,特に,ターゲットベクトルがスパースである場合,$K$入力ターゲットアソシエーションを$(x,y)$またはメモリに格納する問題について検討した。 数学的には、$K$ が相転移を受けること、そして一般に、やや逆説的に、ターゲット層のスパーシティがマップの記憶能力を高めることを証明します。 ターゲットベクトルはランダムな方法で任意に選択でき、メモリは、単純なHebbルールを含むローカル学習ルールを用いて訓練されたネットワークによって符号化および復号化される。 これらの結果は、データに対する様々な統計的仮定の下で堅牢である。 証明は、ランダム多面体と準ガウス確率ベクトル変数のエレガントな性質に依存する。 開問題とキャパシティ理論と多項式しきい値写像との関係について論じる。

Motivated by biological considerations, we study sparse neural maps from an input layer to a target layer with sparse activity, and specifically the problem of storing $K$ input-target associations $(x,y)$, or memories, when the target vectors $y$ are sparse. We mathematically prove that $K$ undergoes a phase transition and that in general, and somewhat paradoxically, sparsity in the target layers increases the storage capacity of the map. The target vectors can be chosen arbitrarily, including in random fashion, and the memories can be both encoded and decoded by networks trained using local learning rules, including the simple Hebb rule. These results are robust under a variety of statistical assumptions on the data. The proofs rely on elegant properties of random polytopes and sub-gaussian random vector variables. Open problems and connections to capacity theories and polynomial threshold maps are discussed.
翻訳日:2021-02-24 06:37:55 公開日:2021-02-19
# (参考訳) 自律走行システムにおける魚眼画像のセマンティックセグメンテーションのための適応的変形可能な畳み込み [全文訳有]

Adaptable Deformable Convolutions for Semantic Segmentation of Fisheye Images in Autonomous Driving Systems ( http://arxiv.org/abs/2102.10191v1 )

ライセンス: CC BY 4.0
Cl\'ement Playout, Ola Ahmad, Freddy Lecue and Farida Cheriet(参考訳) 高度なドライバアシスタンスシステムは、大きな視野(FoV)カメラから画像がキャプチャされるセマンティックセグメンテーションなどの知覚タスクに大きく依存します。 最新の研究は、convolutional neural network(cnn)を標準画像(rectilinear)に適用する上で大きな進歩を遂げている。 しかし、自動運転車で使用される大型FoVカメラは、強い幾何学的歪みを特徴とする魚眼画像を生成します。 この研究は、標準的な画像に基づいてトレーニングされたCNNが魚眼画像に容易に適応できることを示し、これはリアルタイムデータ変換の時間を要する現実のアプリケーションでは不可欠である。 我々の適応プロトコルは主に、既存の層の上に変形可能な等価性を使用することで畳み込みのサポートを変更することに依存している。 最適支援の調整にはラベル付き魚眼画像の限られた量しか必要とせず、少数のトレーニングサンプルは広角画像上での既存のモデルの性能を著しく向上させるのに十分であることを示す。 さらに、変形可能なコンポーネントが学習されると、ネットワークの重みを微調整して高性能を達成する必要はありません。 最後に,変形可能な畳み込みの効果を詳細に分析し,cnnモデルの挙動に関する議論の要素について述べる。

Advanced Driver-Assistance Systems rely heavily on perception tasks such as semantic segmentation where images are captured from large field of view (FoV) cameras. State-of-the-art works have made considerable progress toward applying Convolutional Neural Network (CNN) to standard (rectilinear) images. However, the large FoV cameras used in autonomous vehicles produce fisheye images characterized by strong geometric distortion. This work demonstrates that a CNN trained on standard images can be readily adapted to fisheye images, which is crucial in real-world applications where time-consuming real-time data transformation must be avoided. Our adaptation protocol mainly relies on modifying the support of the convolutions by using their deformable equivalents on top of pre-existing layers. We prove that tuning an optimal support only requires a limited amount of labeled fisheye images, as a small number of training samples is sufficient to significantly improve an existing model's performance on wide-angle images. Furthermore, we show that finetuning the weights of the network is not necessary to achieve high performance once the deformable components are learned. Finally, we provide an in-depth analysis of the effect of the deformable convolutions, bringing elements of discussion on the behavior of CNN models.
翻訳日:2021-02-24 05:17:00 公開日:2021-02-19
# (参考訳) ル・クラビエ,un mod\`ele de calcul

Les claviers, un mod\`ele de calcul ( http://arxiv.org/abs/2102.10182v1 )

ライセンス: CC BY 4.0
Yoan G\'eran, Bastien Laboureix, Corto Mascle, Valentin Richard(参考訳) キーボードと呼ばれる言語の新しい形式を導入します。 我々は、基本的な操作のセット(文字の書き出し/消去、右か左か...)を検討し、キーボードをキーと呼ばれる操作の有限シーケンスのセットとして定義する。 対応する言語は、それらのキーのシーケンスを適用して得られる単語の集合である。 古典的な計算モデルとは異なり、全ての鍵はいつでも適用できる。 基本操作の異なる集合に基づいて様々な言語のクラスを定義し,それらの表現力を比較する。 また、それらを有名な言語のクラス(Chomsky階層)と比較します。 言語の厳密な階層構造が得られ、その表現性は改良された古典モデルの1つと直交する。 -nous introduisons une nouvelle repr\'esentation de langages, les claviers。 on se munit d'un ensemble d'op\'erations \'el\'ementaires (ajout, effacement d'une lettre, d'eplacement \`a droite, \`a gauche, ...), et on d\'efinit un clavier comme un ensemble de suites finies d'op\'erations \'el\'ementaires, appel\'ees touch. 息子のランゲージ sera l'ensemble des mots obtenus en appliquant une quelconque de touch。 対比 \`a des mod\`eles de calcul classiques, toutes les touch peuvent \^etre appliqu\'ees \`a tout moment。 en premier lieu nous d\'efinissons diff\'erentes class de claviers en faisant varier l'ensemble des op\'erations \'el\'ementaires autoris\'ees, et nous comparons l'expressivit\e des classes de langages obtenues Nous comparons \'egalement ces class \`a la hi'erarchie de Chomsky。 Nous obtenons que toutes les class \'etudi\'ees sont diff\'erentes, et nous caract\'erisons les class inclues dans les rationnels et les alg\'ebriques。 l'expressivit\e des claviers semble orthogonale \`a celle des mod\`eles \'evoqu\'es pr\'ec\'edemment

We introduce a new formalisation of languages, called keyboards. We consider a set of elementary operations (writing/erasing a letter, going to the right or to the left,...) and we define a keyboard as a set of finite sequences of such operations, called keys. The corresponding language is the set of words obtained by applying some sequence of those keys. Unlike classical models of computation, every key can be applied anytime. We define various classes of languages based on different sets of elementary operations, and compare their expressive powers. We also compare them to well-known classes of languages (Chomsky hierarchy). We obtain a strict hierarchy of languages, whose expressivity is orthogonal to the one of the aforementionned classical models. -- Nous introduisons une nouvelle repr\'esentation de langages, les claviers. On se munit d'un ensemble d'op\'erations \'el\'ementaires (ajout, effacement d'une lettre, d\'eplacement \`a droite, \`a gauche, ...), et on d\'efinit un clavier comme un ensemble de suites finies d'op\'erations \'el\'ementaires, appel\'ees touches. Son langage sera l'ensemble des mots obtenus en appliquant une suite quelconque de touches. Contrairement \`a des mod\`eles de calcul classiques, toutes les touches peuvent \^etre appliqu\'ees \`a tout moment. En premier lieu nous d\'efinissons diff\'erentes classes de claviers en faisant varier l'ensemble des op\'erations \'el\'ementaires autoris\'ees, et nous comparons l'expressivit\'e des classes de langages obtenues. Nous comparons \'egalement ces classes \`a la hi\'erarchie de Chomsky. Nous obtenons que toutes les classes \'etudi\'ees sont diff\'erentes, et nous caract\'erisons les classes inclues dans les rationnels et les alg\'ebriques. L'expressivit\'e des claviers semble orthogonale \`a celle des mod\`eles \'evoqu\'es pr\'ec\'edemment.
翻訳日:2021-02-24 00:52:46 公開日:2021-02-19
# (参考訳) ディープラーニングを用いたDNAハイブリダイゼーションの効率的近似

Efficient approximation of DNA hybridisation using deep learning ( http://arxiv.org/abs/2102.10131v1 )

ライセンス: CC BY 4.0
David Buterez(参考訳) デオキシリボヌクレイン酸(DNA)は、特にDNAデータストレージとDNAコンピューティングの分野において、計算応用の実現に大きな可能性を示している。 前者は、高記憶密度や長寿などのDNAの自然特性をデジタル情報のアーカイブに利用し、後者は、DNAの相互作用性を利用して計算をエンコードすることを目的としている。 近年,この2つのパラダイムは,保存データ上で直接計算を行うDNAデータベースのニアデータ処理概念の定式化に用いられている。 DNAが自然に持つ基本的な低レベルな操作は、相補配列のハイブリッド化(アニーリングとも呼ばれる)である。 情報はDNAストランドとしてエンコードされ、溶液に自然に結合し、検索およびパターンマッチング機能を可能にします。 ハイブリッド化の過程を制御し予測できることは、いわゆるハイブリッド分子電子コンピューティングの野心的な未来に不可欠である。 しかし、現在のツールはスループットと大規模問題への適用性に制限されている。 本稿では,dnaハイブリダイゼーションの予測タスクに適用する機械学習手法について,初めて包括的な研究を行う。 この目的のために、250万以上のデータポイントからなる合成ハイブリダイゼーションデータセットを導入し、最新のディープラーニングを含む幅広い機械学習アルゴリズムの使用を可能にした。 提案モデルは、ハードウェアによっては、最先端のものと比較して1桁から2桁までの推論時間を短縮し、高い忠実性を維持します。 次に,最新のスケーラブルワークフローにおけるメソッドの統合について論じる。 実装はhttps://github.com/d avidbuterez/dna-hyb- deep-learningで入手できる。

Deoxyribonucleic acid (DNA) has shown great promise in enabling computational applications, most notably in the fields of DNA data storage and DNA computing. The former exploits the natural properties of DNA, such as high storage density and longevity, for the archival of digital information, while the latter aims to use the interactivity of DNA to encode computations. Recently, the two paradigms were jointly used to formulate the near-data processing concept for DNA databases, where the computations are performed directly on the stored data. The fundamental, low-level operation that DNA naturally possesses is that of hybridisation, also called annealing, of complementary sequences. Information is encoded as DNA strands, which will naturally bind in solution, thus enabling search and pattern-matching capabilities. Being able to control and predict the process of hybridisation is crucial for the ambitious future of the so-called Hybrid Molecular-Electronic Computing. Current tools are, however, limited in terms of throughput and applicability to large-scale problems. In this work, we present the first comprehensive study of machine learning methods applied to the task of predicting DNA hybridisation. For this purpose, we introduce a synthetic hybridisation dataset of over 2.5 million data points, enabling the use of a wide range of machine learning algorithms, including the latest in deep learning. Depending on the hardware, the proposed models provide a reduction in inference time ranging from one to over two orders of magnitude compared to the state-of-the-art, while retaining high fidelity. We then discuss the integration of our methods in modern, scalable workflows. The implementation is available at: https://github.com/d avidbuterez/dna-hyb- deep-learning
翻訳日:2021-02-23 17:08:25 公開日:2021-02-19
# PAC-Bayesによる対向ロバスト性の解析

A PAC-Bayes Analysis of Adversarial Robustness ( http://arxiv.org/abs/2102.11069v1 )

ライセンス: Link先を確認
Guillaume Vidot (IRIT), Paul Viallard (LHC), Amaury Habrard (LHC), Emilie Morvant (LHC)(参考訳) そこで本研究では, 逆ロバスト性に対する最初の一般pac-ベイズ一般化境界を提案し, モデルが入力の知覚不能な摂動に対してどの程度不変であるかをテスト時に推定する。 考えられる摂動に対する仮説のリスクを最悪のケースで分析する代わりに、PAC-ベイジアン・フレームワークを利用して、多数決の摂動に対する平均的なリスクを(仮説のクラス全体よりも)制限する。 私たちの理論的に確立された分析は、(i)摂動の種類(すなわち敵対的攻撃)から独立した一般境界を提供するという利点があります。(ii)PAC-ベイジアンフレームワークのおかげでタイトであり、(iii)学習段階で直接最小化し、テスト時に異なる攻撃に関する堅牢なモデルを得ることができます。

We propose the first general PAC-Bayesian generalization bounds for adversarial robustness, that estimate, at test time, how much a model will be invariant to imperceptible perturbations in the input. Instead of deriving a worst-case analysis of the risk of a hypothesis over all the possible perturbations, we leverage the PAC-Bayesian framework to bound the averaged risk on the perturbations for majority votes (over the whole class of hypotheses). Our theoretically founded analysis has the advantage to provide general bounds (i) independent from the type of perturbations (i.e., the adversarial attacks), (ii) that are tight thanks to the PAC-Bayesian framework, (iii) that can be directly minimized during the learning phase to obtain a robust model on different attacks at test time.
翻訳日:2021-02-23 15:26:39 公開日:2021-02-19
# 宝くじは精度の低下を招き、望まれる現象か?

Lottery Ticket Implies Accuracy Degradation, Is It a Desirable Phenomenon? ( http://arxiv.org/abs/2102.11068v1 )

ライセンス: Link先を確認
Ning Liu, Geng Yuan, Zhengping Che, Xuan Shen, Xiaolong Ma, Qing Jin, Jian Ren, Jian Tang, Sijia Liu, Yanzhi Wang(参考訳) ディープモデル圧縮において、最近発見された"Lottery Ticket hypothesis" (LTH) (Frankle & Carbin, 2018) は、オリジナルの高密度ネットワークよりも競争性能を達成できる勝利チケット(すなわち、オリジナルの重量初期化と共に適切に切断されたサブネットワーク)が存在することを指摘した。 しかし,多くのシナリオにおいて,このような勝利特性の観察は容易ではない。例えば,元の高密度モデルの学習に有用であるとしても,比較的大きな学習率が使用される。 本研究では,勝利特性の背景にある条件と理論的根拠について検討し,学習速度が不十分な場合,初期化重みと最終訓練重みとの相関が大きいことを明らかにする。 したがって、勝利特性の存在は不十分なDNN前訓練と相関しており、十分に訓練されたDNNでは起こりそうにない。 この制限を克服するために,同一のプルーニングアルゴリズムと同一のトータルトレーニング期間において,宝くじのスパーストレーニングを一貫して上回る「プルーニング&微調整」手法を提案する。 提案を正当化するために,複数の深層モデル(vgg,resnet,mobilene t-v2)に関する実験を行った。

In deep model compression, the recent finding "Lottery Ticket Hypothesis" (LTH) (Frankle & Carbin, 2018) pointed out that there could exist a winning ticket (i.e., a properly pruned sub-network together with original weight initialization) that can achieve competitive performance than the original dense network. However, it is not easy to observe such winning property in many scenarios, where for example, a relatively large learning rate is used even if it benefits training the original dense model. In this work, we investigate the underlying condition and rationale behind the winning property, and find that the underlying reason is largely attributed to the correlation between initialized weights and final-trained weights when the learning rate is not sufficiently large. Thus, the existence of winning property is correlated with an insufficient DNN pretraining, and is unlikely to occur for a well-trained DNN. To overcome this limitation, we propose the "pruning & fine-tuning" method that consistently outperforms lottery ticket sparse training under the same pruning algorithm and the same total training epochs. Extensive experiments over multiple deep models (VGG, ResNet, MobileNet-v2) on different datasets have been conducted to justify our proposals.
翻訳日:2021-02-23 15:24:24 公開日:2021-02-19
# 多領域テキスト分類のための条件付き競合ネットワーク

Conditional Adversarial Networks for Multi-Domain Text Classification ( http://arxiv.org/abs/2102.10176v1 )

ライセンス: Link先を確認
Yuan Wu, Diana Inkpen, Ahmed El-Roby(参考訳) 本稿では,マルチドメインテキスト分類(MDTC)において,共有特徴とラベル予測の関係を探索し,共有特徴に対してより識別性を付与するフレームワークである条件付き対数ネットワーク(CAN)を提案する。 提案手法は,共有特徴表現とクラス認識情報の両方のドメイン分散を同時にモデル化する条件付きドメイン判別器を導入し,共有特徴の転送可能性を保証するエントロピー条件付けを採用する。 我々はCANフレームワークの理論的解析を行い、CANの目的が共有特徴の複数結合分布とラベル予測の合計ばらつきを最小化することにあることを示す。 したがって、CANは理論的には複数の分布を識別する正反対のネットワークである。 2つのMDTCベンチマークによる評価結果から,CANは先行手法よりも優れていた。 さらなる実験は、CANが未知のドメインに学習知識を一般化する優れた能力を持っていることを実証する。

In this paper, we propose conditional adversarial networks (CANs), a framework that explores the relationship between the shared features and the label predictions to impose more discriminability to the shared features, for multi-domain text classification (MDTC). The proposed CAN introduces a conditional domain discriminator to model the domain variance in both shared feature representations and class-aware information simultaneously and adopts entropy conditioning to guarantee the transferability of the shared features. We provide theoretical analysis for the CAN framework, showing that CAN's objective is equivalent to minimizing the total divergence among multiple joint distributions of shared features and label predictions. Therefore, CAN is a theoretically sound adversarial network that discriminates over multiple distributions. Evaluation results on two MDTC benchmarks show that CAN outperforms prior methods. Further experiments demonstrate that CAN has a good ability to generalize learned knowledge to unseen domains.
翻訳日:2021-02-23 15:20:24 公開日:2021-02-19
# ニューラルネットワークの普遍近似定理

Universal Approximation Theorem for Neural Networks ( http://arxiv.org/abs/2102.10993v1 )

ライセンス: Link先を確認
Takato Nishijima(参考訳) ニューラルネットワークの近似能力に関する理論的保証はありますか? この質問に対する答えは、"Universal Approximation Theorem for Neural Networks"である。 この定理は、ニューラルネットワークが適切な設定の下である関数空間内で密度が高いことを述べる。 本稿では,フィードフォワードニューラルネットワークの普遍近似定理,その近似率問題(中間単位数と近似誤差の関係),および日本語におけるバロン空間を包括的に説明する。

Is there any theoretical guarantee for the approximation ability of neural networks? The answer to this question is the "Universal Approximation Theorem for Neural Networks". This theorem states that a neural network is dense in a certain function space under an appropriate setting. This paper is a comprehensive explanation of the universal approximation theorem for feedforward neural networks, its approximation rate problem (the relation between the number of intermediate units and the approximation error), and Barron space in Japanese.
翻訳日:2021-02-23 15:18:03 公開日:2021-02-19
# 衝突センシング情報のないマルチプレイヤーバンディットの高性能・低複雑性アルゴリズム

A High Performance, Low Complexity Algorithm for Multi-Player Bandits Without Collision Sensing Information ( http://arxiv.org/abs/2102.10200v1 )

ライセンス: Link先を確認
Cindy Trinh and Richard Combes(参考訳) 認知無線ネットワークの応用に動機づけられ,分散マルチプレイヤー・マルチアーム・バンディット問題を,衝突やセンシング情報なしに検討した。 本論文では,自閉自閉KL-UCBアルゴリズムに触発された計算複雑度が非常に低いアルゴリズムであるRandomized Selfish KL-UCBを提案する。 ランダム化利己的kl-ucbを広範囲な数値実験により,最先端のアルゴリズムをほぼすべての環境において,場合によっては数桁の桁数で,最先端のアルゴリズムに必要な追加の知識を必要とせず,はるかに優れていることを示した。 また,より現実的な動的設定のためのアルゴリズムの可能性を強調し,さらなる実験で我々の主張を支持する。 Randomized Selfish KL-UCBの低複雑さと高性能は、既知のアルゴリズムの中で実用的なシステムの実装に最も適していると考えています。

Motivated by applications in cognitive radio networks, we consider the decentralized multi-player multi-armed bandit problem, without collision nor sensing information. We propose Randomized Selfish KL-UCB, an algorithm with very low computational complexity, inspired by the Selfish KL-UCB algorithm, which has been abandoned as it provably performs sub-optimally in some cases. We subject Randomized Selfish KL-UCB to extensive numerical experiments showing that it far outperforms state-of-the-art algorithms in almost all environments, sometimes by several orders of magnitude, and without the additional knowledge required by state-of-the-art algorithms. We also emphasize the potential of this algorithm for the more realistic dynamic setting, and support our claims with further experiments. We believe that the low complexity and high performance of Randomized Selfish KL-UCB makes it the most suitable for implementation in practical systems amongst known algorithms.
翻訳日:2021-02-23 15:16:50 公開日:2021-02-19
# 混合定数曲率空間における線形分類器

Linear Classifiers in Mixed Constant Curvature Spaces ( http://arxiv.org/abs/2102.10204v1 )

ライセンス: Link先を確認
Puoya Tabaghi, Eli Chien, Chao Pan, Olgica Milenkovi\'c(参考訳) 混合曲率空間の埋め込み法は、複雑なデータ構造の低歪みおよび低次元表現のための強力な技術である。 それでも、下流の学習と埋め込み空間の最適化についてはほとんど知られていない。 ここでは、積空間形式における線型分類の問題 -- 異なる次元のユークリッド空間、球面空間、双曲空間の混合 -- を初めて扱う。 まず、ベクトル空間における直線と内積の概念をそれぞれ一般化する測地線とリーマン計量を用いて、リーマン多様体上の線型分類器の定義を再検討する。 第二に、$d$-次元定数曲率空間の線形分類子が正確に$d+1$点を分解できることを証明している:したがって、ユークリッド、双曲および球状分類子は同じ表現力を有する。 第三に、製品空間形式の線形分類器を形式化し、新しいパーセプトロン分類アルゴリズムを記述し、厳密な収束結果を確立する。 合成データ、MNIST、Omniglotなど、いくつかのデータセットのシミュレーション結果で理論的発見をサポートします。 その結果, 製品空間における微小次元埋め込みに応用した学習手法はユークリッド空間におけるアルゴリズム的手法よりも著しく優れていることがわかった。

Embedding methods for mixed-curvature spaces are powerful techniques for low-distortion and low-dimensional representation of complex data structures. Nevertheless, little is known regarding downstream learning and optimization in the embedding space. Here, we address for the first time the problem of linear classification in a product space form -- a mix of Euclidean, spherical, and hyperbolic spaces with different dimensions. First, we revisit the definition of a linear classifier on a Riemannian manifold by using geodesics and Riemannian metrics which generalize the notions of straight lines and inner products in vector spaces, respectively. Second, we prove that linear classifiers in $d$-dimensional constant curvature spaces can shatter exactly $d+1$ points: Hence, Euclidean, hyperbolic and spherical classifiers have the same expressive power. Third, we formalize linear classifiers in product space forms, describe a novel perceptron classification algorithm, and establish rigorous convergence results. We support our theoretical findings with simulation results on several datasets, including synthetic data, MNIST and Omniglot. Our results reveal that learning methods applied to small-dimensional embeddings in product space forms significantly outperform their algorithmic counterparts in Euclidean spaces.
翻訳日:2021-02-23 15:16:31 公開日:2021-02-19
# 多次元タギングによるニューラルネットワーク翻訳におけるマルチドメイン適応

Multi-Domain Adaptation in Neural Machine Translation Through Multidimensional Tagging ( http://arxiv.org/abs/2102.10160v1 )

ライセンス: Link先を確認
Emmanouil Stergiadis, Satendra Kumar, Fedor Kovalev, Pavel Levin(参考訳) 多くの現代のニューラルマシーン翻訳(NMT)システムは非均質なデータセットで訓練され、いくつかの異なる次元のバリエーションがある(例えば)。 ドメイン、ソース、生成方法、スタイルなど)。 文レベルの情報をモデルに渡すためのシンプルで効果的な方法である多次元タグ付け (MDT) を記述および実証的に評価する。 ヒトとBLEUの評価結果は,MDTが多領域適応の問題に適用可能であり,構成ドメインの翻訳品質を犠牲にすることなく,トレーニングコストを大幅に削減できることを示している。

Many modern Neural Machine Translation (NMT) systems are trained on nonhomogeneous datasets with several distinct dimensions of variation (e.g. domain, source, generation method, style, etc.). We describe and empirically evaluate multidimensional tagging (MDT), a simple yet effective method for passing sentence-level information to the model. Our human and BLEU evaluation results show that MDT can be applied to the problem of multi-domain adaptation and significantly reduce training costs without sacrificing the translation quality on any of the constituent domains.
翻訳日:2021-02-23 15:06:20 公開日:2021-02-19
# Pose Guidanceによるカメラキャリブレーション

Camera Calibration with Pose Guidance ( http://arxiv.org/abs/2102.10202v1 )

ライセンス: Link先を確認
Yuzhuo Ren, Feng Hu(参考訳) カメラキャリブレーションは、自動運転や拡張現実など、さまざまなコンピュータビジョンタスクで重要な役割を果たします。 広く使われているカメラキャリブレーションツールは、チェス盤やエイプリルタグボードなど、平面パターンに基づく方法論を利用しており、ユーザのキャリブレーションの専門知識レベルは、明確な指示なしにキャリブレーション精度と一貫性に大きな影響を与える。 さらに、キャリブレーションは、カメラが変更または移動されるたびに実行されなければならない繰り返しのタスクです。 また、数百万台の車両で生産ラインでドライバー監視システム(DMS)カメラなどの膨大な量のカメラをキャリブレーションすることも大きな負担です。 以上の課題を解決するため,キャリブレーションシステムとして,キャリブレーション精度の向上,ユーザ間のキャリブレーションばらつきの低減,あるいは同一人物の異なる試験を行うキャリブレーションシステムを提案する。 実験の結果,従来のキャリブレーションツールよりも高精度で一貫したキャリブレーションが可能となった。

Camera calibration plays a critical role in various computer vision tasks such as autonomous driving or augmented reality. Widely used camera calibration tools utilize plane pattern based methodology, such as using a chessboard or AprilTag board, user's calibration expertise level significantly affects calibration accuracy and consistency when without clear instruction. Furthermore, calibration is a recurring task that has to be performed each time the camera is changed or moved. It's also a great burden to calibrate huge amounts of cameras such as Driver Monitoring System (DMS) cameras in a production line with millions of vehicles. To resolve above issues, we propose a calibration system called Calibration with Pose Guidance to improve calibration accuracy, reduce calibration variance among different users or different trials of the same person. Experiment result shows that our proposed method achieves more accurate and consistent calibration than traditional calibration tools.
翻訳日:2021-02-23 15:01:51 公開日:2021-02-19
# 車両とインテリジェント交通システムのインターネットにおけるフェデレーション学習の事例作成

Making a Case for Federated Learning in the Internet of Vehicles and Intelligent Transportation Systems ( http://arxiv.org/abs/2102.10142v1 )

ライセンス: Link先を確認
Dimitrios Michael Manias, Abdallah Shami(参考訳) 5Gネットワークの導入や、ネットワーク機能仮想化やソフトウェア定義ネットワークなどの技術の進歩に伴い、新しい、新しいネットワーク技術やユースケースが形成されています。 そのような技術の1つは、車両とインフラストラクチャの相互接続システムを記述する車両のインターネット(IoV)です。 人工知能と機械学習の最近の発展と相まって、IoVはインテリジェントトランスポーテーションシステム(ITS)に変換されます。 しかしながら、スケーラビリティ、高可用性、データプライバシなど、ITSシステムの採用を妨げる運用上の考慮事項がいくつかある。 これらの課題に対処するために,協調的分散知能技術である連合学習が提案されている。 ITSのケーススタディでは,グループインテリジェンスを活用しながら復旧時間を短縮し,システム性能を回復することで,ネットワーク全体の道路インフラストラクチャに展開するフェデレーションモデルが障害から回復する能力を強調した。 多数のユースケースとメリットを備えたFederated Learningは、ITSの重要なイネーブラーであり、5Gおよびネットワークやアプリケーションを超えて広く実装される予定です。

With the incoming introduction of 5G networks and the advancement in technologies, such as Network Function Virtualization and Software Defined Networking, new and emerging networking technologies and use cases are taking shape. One such technology is the Internet of Vehicles (IoV), which describes an interconnected system of vehicles and infrastructure. Coupled with recent developments in artificial intelligence and machine learning, the IoV is transformed into an Intelligent Transportation System (ITS). There are, however, several operational considerations that hinder the adoption of ITS systems, including scalability, high availability, and data privacy. To address these challenges, Federated Learning, a collaborative and distributed intelligence technique, is suggested. Through an ITS case study, the ability of a federated model deployed on roadside infrastructure throughout the network to recover from faults by leveraging group intelligence while reducing recovery time and restoring acceptable system performance is highlighted. With a multitude of use cases and benefits, Federated Learning is a key enabler for ITS and is poised to achieve widespread implementation in 5G and beyond networks and applications.
翻訳日:2021-02-23 14:42:40 公開日:2021-02-19
# 量子状態のハミルトン駆動影トモグラフィ

Hamiltonian-Driven Shadow Tomography of Quantum States ( http://arxiv.org/abs/2102.10132v1 )

ライセンス: Link先を確認
Hong-Ye Hu and Yi-Zhuang You(参考訳) 古典的な影トモグラフィは、状態のいくつかの測定から未知の量子状態の関数を予測する効率的な方法を提供する。 これは、状態の量子情報を測定基準に効率的にスクランブルするユニタリチャネルに依存している。 近距離量子デバイス上での深いユニタリ回路の実現という課題に直面して、ユニタリチャネルが浅くなり、時間発展を通じて量子カオスハミルトニアンによって生成されるシナリオを考察する。 進化時間のすべての範囲に対する密度行列の偏りのない推定器を提供する。 ハミルトン型影トモグラフィのサンプル複雑さを解析します。 我々は、ヒルベルト空間次元 $D$ を考えると、順序-1 スクランブル時間から時間スケール $D^{1/6}$ までの範囲の中間時間ウィンドウのシーケンスにおけるユニタリ-2設計ベースの影トモグラフィよりも効率的であることが判明した。 特に対角オブザーバブル予測の効率は、対角オブザーバブル予測の効率を犠牲にすることなく、d$の係数で向上する。

Classical shadow tomography provides an efficient method for predicting functions of an unknown quantum state from a few measurements of the state. It relies on a unitary channel that efficiently scrambles the quantum information of the state to the measurement basis. Facing the challenge of realizing deep unitary circuits on near-term quantum devices, we explore the scenario in which the unitary channel can be shallow and is generated by a quantum chaotic Hamiltonian via time evolution. We provide an unbiased estimator of the density matrix for all ranges of the evolution time. We analyze the sample complexity of the Hamiltonian-driven shadow tomography. We find that it can be more efficient than the unitary-2-design-bas ed shadow tomography in a sequence of intermediate time windows that range from an order-1 scrambling time to a time scale of $D^{1/6}$, given the Hilbert space dimension $D$. In particular, the efficiency of predicting diagonal observables is improved by a factor of $D$ without sacrificing the efficiency of predicting off-diagonal observables.
翻訳日:2021-02-23 14:38:07 公開日:2021-02-19
# BPLight-CNN:深層学習のためのフォトニクスベースのバックプロパゲーションアクセラレータ

BPLight-CNN: A Photonics-based Backpropagation Accelerator for Deep Learning ( http://arxiv.org/abs/2102.10140v1 )

ライセンス: Link先を確認
D. Dang, S. V. R. Chittamuru, S. Pasricha, R. Mahapatra, D. Sahoo(参考訳) ディープラーニングネットワークのトレーニングには、バックプロパゲーションアルゴリズム(BP)を使用しながら、ディープネットワークのさまざまなレイヤにわたる継続的な重み更新が含まれる。 これにより、トレーニング中に高価な計算オーバーヘッドが発生する。 その結果、今日では多くのディープラーニングアクセラレーターが事前訓練されたウェイトを採用し、推論フェーズの設計の改善にのみ焦点をあてている。 最近のトレンドは、トレーニングモジュールを組み込むことで、完全なディープラーニングアクセラレータを構築することです。 このような取り組みにはBPアルゴリズムを実行するための超高速チップアーキテクチャが必要である。 本稿では,高速深層学習のためのフォトニクスベースのバックプロパゲーションアクセラレータを提案する。 シリコンフォトニクスをベースとしたバックプロパゲーションアクセラレータを組み込んだ畳み込みニューラルネットワークBPLight-CNNの設計を提案する。 BPLight-CNNは、エンドツーエンドのトレーニングと予測のための世界初のフォトニックおよびメミスタベースのCNNアーキテクチャです。 LeNetやVGG-NetなどのディープラーニングベンチマークモデルにフォトニックCADフレームワーク(IPKISS)を用いてBPLight-CNNを評価する。 提案手法は,少なくとも34倍の高速化,34倍の計算効率向上,38.5倍の省エネ,および(ii)29倍の高速化,31倍の計算効率向上,38.7倍の省エネを実現している。 これらすべての比較は16ビットの解像度で行われ、bplight-cnnは最先端と比較して約6%の精度でこれらの改善を達成している。

Training deep learning networks involves continuous weight updates across the various layers of the deep network while using a backpropagation algorithm (BP). This results in expensive computation overheads during training. Consequently, most deep learning accelerators today employ pre-trained weights and focus only on improving the design of the inference phase. The recent trend is to build a complete deep learning accelerator by incorporating the training module. Such efforts require an ultra-fast chip architecture for executing the BP algorithm. In this article, we propose a novel photonics-based backpropagation accelerator for high performance deep learning training. We present the design for a convolutional neural network, BPLight-CNN, which incorporates the silicon photonics-based backpropagation accelerator. BPLight-CNN is a first-of-its-kind photonic and memristor-based CNN architecture for end-to-end training and prediction. We evaluate BPLight-CNN using a photonic CAD framework (IPKISS) on deep learning benchmark models including LeNet and VGG-Net. The proposed design achieves (i) at least 34x speedup, 34x improvement in computational efficiency, and 38.5x energy savings, during training; and (ii) 29x speedup, 31x improvement in computational efficiency, and 38.7x improvement in energy savings, during inference compared to the state-of-the-art designs. All these comparisons are done at a 16-bit resolution; and BPLight-CNN achieves these improvements at a cost of approximately 6% lower accuracy compared to the state-of-the-art.
翻訳日:2021-02-23 14:37:46 公開日:2021-02-19
# 飛ぶことを学ぶ:無知に対するロバスト性

Learning to Persuade on the Fly: Robustness Against Ignorance ( http://arxiv.org/abs/2102.10156v1 )

ライセンス: Link先を確認
You Zu, Krishnamurthy Iyer and Haifeng Xu(参考訳) 送信側と受信側との繰り返しの説得条件について検討し、その度に$t$で、送信側は未知の事前分布から独立に引き出されたペイオフ関連状態を観測し、受信側と状態情報を共有し、マイオプティックに動作を選択する。 標準設定と同様に、送信者は受信者に状態に関する情報を選択的に共有することで、送信者の好みに沿った行動を選択するよう説得しようとします。 しかし、標準的なモデルとは対照的に、送信者は先を知らないし、徐々に先をフライで学習しながら説得する必要があります。 事前の分布の知識と最適な説得メカニズムに対して低い後悔を達成するために説得力のある行動勧告を作成するという送信者の学習問題を研究します。 我々の主な肯定的な結果は、高い確率で全ラウンドにわたって説得可能であり、$O(\sqrt{T\log T})$ regret, ここでは$T$は地平線長である。 アルゴリズムの設計の背後にある中核的な哲学は、送信者の事前の無知に対する堅牢性を活用することである。 直感的には、我々のアルゴリズムは候補の事前の集合を維持し、それらすべてに対して同時に説得力のある説得スキームを選択する。 提案アルゴリズムの有効性を示すために,提案アルゴリズムは,説得性要件が著しく緩和された場合でも,$\Omega(\sqrt{T})$以上の後悔を達成できないことを証明した。 そこで,本アルゴリズムは,送信者の学習問題を最大で$T$の対数問題に最適の後悔を与える。

We study a repeated persuasion setting between a sender and a receiver, where at each time $t$, the sender observes a payoff-relevant state drawn independently and identically from an unknown prior distribution, and shares state information with the receiver, who then myopically chooses an action. As in the standard setting, the sender seeks to persuade the receiver into choosing actions that are aligned with the sender's preference by selectively sharing information about the state. However, in contrast to the standard models, the sender does not know the prior, and has to persuade while gradually learning the prior on the fly. We study the sender's learning problem of making persuasive action recommendations to achieve low regret against the optimal persuasion mechanism with the knowledge of the prior distribution. Our main positive result is an algorithm that, with high probability, is persuasive across all rounds and achieves $O(\sqrt{T\log T})$ regret, where $T$ is the horizon length. The core philosophy behind the design of our algorithm is to leverage robustness against the sender's ignorance of the prior. Intuitively, at each time our algorithm maintains a set of candidate priors, and chooses a persuasion scheme that is simultaneously persuasive for all of them. To demonstrate the effectiveness of our algorithm, we further prove that no algorithm can achieve regret better than $\Omega(\sqrt{T})$, even if the persuasiveness requirements were significantly relaxed. Therefore, our algorithm achieves optimal regret for the sender's learning problem up to terms logarithmic in $T$.
翻訳日:2021-02-23 14:37:21 公開日:2021-02-19
# スペクトルハイパーグラフ分割による共クラスタリング頂点とハイパーエッジ

Co-clustering Vertices and Hyperedges via Spectral Hypergraph Partitioning ( http://arxiv.org/abs/2102.10169v1 )

ライセンス: Link先を確認
Yu Zhu, Boning Li, Santiago Segarra(参考訳) 本稿では,エッジ依存頂点重み(EDVW)を用いたハイパーグラフの頂点とハイパーエッジを協調クラスタリングする手法を提案する。 このハイパーグラフモデルでは、入射した各ハイパーエッジに対するすべての頂点の寄与はエッジ依存重みによって表され、古典的なハイパーグラフよりも高い表現性が与えられる。 本手法では,EDVWを用いたランダムウォークを利用してハイパーグラフのLaplacianを構築し,そのスペクトル特性を用いて頂点とハイパーエッジを共通空間に埋め込む。 次に、これらの埋め込みをクラスタ化して、提案する共同クラスタ化手法、特にデータエンティティと機能の同時クラスタリングを必要とするアプリケーションとの関連性を得る。 実世界データを用いた数値実験により,提案手法の有効性が実証された。

We propose a novel method to co-cluster the vertices and hyperedges of hypergraphs with edge-dependent vertex weights (EDVWs). In this hypergraph model, the contribution of every vertex to each of its incident hyperedges is represented through an edge-dependent weight, conferring the model higher expressivity than the classical hypergraph. In our method, we leverage random walks with EDVWs to construct a hypergraph Laplacian and use its spectral properties to embed vertices and hyperedges in a common space. We then cluster these embeddings to obtain our proposed co-clustering method, of particular relevance in applications requiring the simultaneous clustering of data entities and features. Numerical experiments using real-world data demonstrate the effectiveness of our proposed approach in comparison with state-of-the-art alternatives.
翻訳日:2021-02-23 14:36:51 公開日:2021-02-19
# ログ分割関数の近似

Approximating the Log-Partition Function ( http://arxiv.org/abs/2102.10196v1 )

ライセンス: Link先を確認
Romain Cosson, Devavrat Shah(参考訳) 平均場(MF)や木重み付け(TRW)などの変分近似は、汎用的なグラフィカルモデルのためのログ分割関数の計算効率の高い近似を提供する。 TRWは上界を証明できるが、近似比は一般に定量化されない。 この研究の主な貢献として、基礎となるグラフ構造の性質を通して近似比を定量化するアプローチを提案する。 具体的には、(ある変種) TRW は、グラフ $G$ 上の任意の離散ペアワイズグラフィカルモデルに対する真のログ分割関数 $\frac{1}{\sqrt{\kappa(G)}}$ 内の推定値を生成し、$\kappa(G) \in (0,1]$ は、木に対して $\kappa(G) = 1$ と $N$ 頂点上の完全なグラフに対する $/N$ を持つ木構造から $G$ がどのくらいあるかを捕捉する。 その結果、木に対する近似比率は、最大平均次数 $d$ の任意のグラフに対する $\sqrt{(d+1)/2}$ と、ガース付きグラフに対する $\stackrel{\beta\to\infty}{\approx} 1+1/(2\beta)$ と、少なくとも $\beta \log N$ である。 一般に、$\kappa(G)$は、任意のグラフに対して多項式時間で評価できる$G$に付随する極小問題の解である。 Gのスパンニングツリー上の均一な分布のサンプルを使用して、グラフの有効抵抗の最小(横縁)の平方根の逆と等しい近似比を達成するほぼ線形時間の変形を提供します。 結果とグラフ分割に基づく近似法を結合し,統一的な視点を提供する。 キーワード:変分推論、対数分割関数、スパンニングツリーポリトープ、最小有効抵抗、min-maxスパンニングツリー、ローカル推論

Variational approximation, such as mean-field (MF) and tree-reweighted (TRW), provide a computationally efficient approximation of the log-partition function for a generic graphical model. TRW provably provides an upper bound, but the approximation ratio is generally not quantified. As the primary contribution of this work, we provide an approach to quantify the approximation ratio through the property of the underlying graph structure. Specifically, we argue that (a variant of) TRW produces an estimate that is within factor $\frac{1}{\sqrt{\kappa(G)}}$ of the true log-partition function for any discrete pairwise graphical model over graph $G$, where $\kappa(G) \in (0,1]$ captures how far $G$ is from tree structure with $\kappa(G) = 1$ for trees and $2/N$ for the complete graph over $N$ vertices. As a consequence, the approximation ratio is $1$ for trees, $\sqrt{(d+1)/2}$ for any graph with maximum average degree $d$, and $\stackrel{\beta\to\infty}{\approx} 1+1/(2\beta)$ for graphs with girth (shortest cycle) at least $\beta \log N$. In general, $\kappa(G)$ is the solution of a max-min problem associated with $G$ that can be evaluated in polynomial time for any graph. Using samples from the uniform distribution over the spanning trees of G, we provide a near linear-time variant that achieves an approximation ratio equal to the inverse of square-root of minimal (across edges) effective resistance of the graph. We connect our results to the graph partition-based approximation method and thus provide a unified perspective. Keywords: variational inference, log-partition function, spanning tree polytope, minimum effective resistance, min-max spanning tree, local inference
翻訳日:2021-02-23 14:36:39 公開日:2021-02-19
# 積分推定のための情報理論境界

Information-Theoreti c Bounds for Integral Estimation ( http://arxiv.org/abs/2102.10199v1 )

ライセンス: Link先を確認
Donald Q. Adams and Adarsh Barik and Jean Honorio(参考訳) 本稿では,定積分を推定するゼロ次確率オラクルモデルを考える。 このモデルでは、積分推定法は積分関数の定数の雑音値に対してオラクル関数を問合せし、これらの値を用いて積分を推定することができる。 まず、オラクル関数に対する少なくとも$T$クエリを用いて、$l_\infty$ radius $r$の領域上の$d$次元関数の積分を推定するための情報理論誤差の下界が$\Omega(2^d r^{d+1}\sqrt{d/T})$であることを示す。 さらに、同じモデルの下でのガウス四乗法は、個々の次元に関して4次および高階微分がゼロの関数に対して $O(2^{d}r^d/\sqrt{T})$ のレートを達成し、ガウスのオラクルの場合、このレートはタイトである。 非ゼロ四階微分を持つ函数に対しては、ガウス四階述語法は情報理論の下界と密接でない上界を達成する。 したがって、極小極小ではないため、そのような関数に対するより良い積分推定法を開発する余地がある。

In this paper, we consider a zero-order stochastic oracle model of estimating definite integrals. In this model, integral estimation methods may query an oracle function for a fixed number of noisy values of the integrand function and use these values to produce an estimate of the integral. We first show that the information-theoreti c error lower bound for estimating the integral of a $d$-dimensional function over a region with $l_\infty$ radius $r$ using at most $T$ queries to the oracle function is $\Omega(2^d r^{d+1}\sqrt{d/T})$. Additionally, we find that the Gaussian Quadrature method under the same model achieves a rate of $O(2^{d}r^d/\sqrt{T})$ for functions with zero fourth and higher-order derivatives with respect to individual dimensions, and for Gaussian oracles, this rate is tight. For functions with nonzero fourth derivatives, the Gaussian Quadrature method achieves an upper bound which is not tight with the information-theoreti c lower bound. Therefore, it is not minimax optimal, so there is space for the development of better integral estimation methods for such functions.
翻訳日:2021-02-23 14:35:48 公開日:2021-02-19
# CKNet: ピクセルから遅延ダイナミクスをモデル化するKoopman演算子に基づく畳み込みニューラルネットワーク

CKNet: A Convolutional Neural Network Based on Koopman Operator for Modeling Latent Dynamics from Pixels ( http://arxiv.org/abs/2102.10205v1 )

ライセンス: Link先を確認
Yongqian Xiao, Xin Xu, QianLi Lin(参考訳) 既知のピクセルしか持たないシステムでは、そのダイナミクスを特に線形作用素で識別することは困難である。 本研究では,Kopman演算子(CKNet)に基づく畳み込みニューラルネットワーク(CNN)を用いて,生画素から潜時ダイナミクスを同定する。 CKNetはエンコーダとデコーダを学び、クープマン固有関数とモードの役割をそれぞれ担った。 Koopman eigenvaluesは学習されたシステム行列の固有値によって近似することができる。 エンコーダを個別に実現するための決定論的および変動的アプローチを紹介します。 CKNetはクープマン理論の制約下で訓練されるため、特定されたダイナミクスは線形で制御可能で物理的に解釈可能である。 さらに、システムマトリックスと制御マトリックスは、トレーニング可能なテンソルとして訓練される。 性能向上のために,マルチステップ線形性および予測損失に対する補助重み項を提案する。 実験では,連続的な動作空間を持つ古典的強制力学系を2つ選択し,32-dimで同定されたダイナミクスは120ステップを予測でき,鮮明な画像を生成することができることを示した。

For systems with only known pixels, it is difficult to identify its dynamics, especially with a linear operator. In this work, we present a convolutional neural network (CNN) based on the Koopman operator (CKNet) to identify the latent dynamics from raw pixels. CKNet learned an encoder and decoder to play the role of the Koopman eigenfunctions and modes, respectively. The Koopman eigenvalues can be approximated by the eigenvalues of the learned system matrix. We present the deterministic and variational approaches to realize the encoder separately. Because CKNet is trained under the constraints of the Koopman theory, the identified dynamics is linear, controllable and physically-interpret able. Besides, the system matrix and control matrix are trained as trainable tensors. To improve the performance, we propose the auxiliary weight term for multi-step linearity and prediction losses. Experiments select two classic forced dynamical systems with continuous action space, and the results show that identified dynamics with 32-dim can predict validly 120 steps and generate clear images.
翻訳日:2021-02-23 14:35:24 公開日:2021-02-19
# (参考訳) 高速応答型COVID-19テキスト分類のための正規表現 [全文訳有]

Regular Expressions for Fast-response COVID-19 Text Classification ( http://arxiv.org/abs/2102.09507v2 )

ライセンス: CC BY 4.0
Igor L. Markov, Jacqueline Liu, Adam Vagner(参考訳) テキスト分類器は多くのNLPアプリケーションの中心にあり、様々なアルゴリズムアプローチとソフトウェアを使用します。 本稿は、Facebookが特定のテキスト – ハッシュタグからポストベロンまで – から、COVID-19のような狭いトピックに至るまで – をどのように判断するかを説明する。 トピックを完全に定義し、分類器の性能を評価するために、キーワード発見の人間誘導反復を用いるが、ラベル付きデータを必要としない。 新型コロナウイルス(covid-19)に対して,(1)精度99%の66ヶ国語,(2)一般言語11ヶ国語,精度90%以上,リコール90%の2種類の正規表現を構築した。 正規表現は複数のプラットフォームからの低レイテンシクエリを可能にする。 COVID-19などの課題への対応は迅速であり、改訂も行われている。 DNN分類器との比較は、説明可能な結果、より高い精度とリコール、およびより少ないオーバーフィットを示す。 我々の学習は他の狭義の分類器にも適用できる。

Text classifiers are at the core of many NLP applications and use a variety of algorithmic approaches and software. This paper describes how Facebook determines if a given piece of text - anything from a hashtag to a post - belongs to a narrow topic such as COVID-19. To fully define a topic and evaluate classifier performance we employ human-guided iterations of keyword discovery, but do not require labeled data. For COVID-19, we build two sets of regular expressions: (1) for 66 languages, with 99% precision and recall >50%, (2) for the 11 most common languages, with precision >90% and recall >90%. Regular expressions enable low-latency queries from multiple platforms. Response to challenges like COVID-19 is fast and so are revisions. Comparisons to a DNN classifier show explainable results, higher precision and recall, and less overfitting. Our learnings can be applied to other narrow-topic classifiers.
翻訳日:2021-02-23 12:00:10 公開日:2021-02-19
# (参考訳) DESED-FLとURBAN-FL:音のイベント検出のためのフェデレーション学習データセット [全文訳有]

DESED-FL and URBAN-FL: Federated Learning Datasets for Sound Event Detection ( http://arxiv.org/abs/2102.08833v2 )

ライセンス: CC BY-SA 4.0
David S. Johnson, Wolfgang Lorenz, Michael Taenzer, Stylianos Mimilakis, Sascha Grollmisch, Jakob Abe{\ss}er, Hanna Lukashevich(参考訳) 近年,環境環境における音イベント検出(sed)の研究が注目されている。 大量の(プライベート)国内または都市のオーディオデータが必要であり、ロジスティクスおよびプライバシーに関する大きな懸念を引き起こします。 これらのタスクの本質的に分散された性質により、フェデレーションラーニング(FL)は、プライバシー問題を緩和しながら大規模なデータを活用するための有望なアプローチとなります。 FLも最近注目されているが、私たちの知る限り、SEDのためのFLについての研究はない。 このギャップに対処し、この分野のさらなる研究を促進するために、国内および都市環境でSED用の新しいFLデータセットを作成および公開します。 さらに,3つのディープニューラルネットワークアーキテクチャに対して,FLコンテキストにおけるデータセットのベースライン結果を提供する。 その結果、FLはSEDにとって有望なアプローチであるが、分散クライアントエッジデバイス固有の分散データ分散の課題に直面していることがわかった。

Research on sound event detection (SED) in environmental settings has seen increased attention in recent years. The large amounts of (private) domestic or urban audio data needed raise significant logistical and privacy concerns. The inherently distributed nature of these tasks, make federated learning (FL) a promising approach to take advantage of largescale data while mitigating privacy issues. While FL has also seen increased attention recently, to the best of our knowledge there is no research towards FL for SED. To address this gap and foster further research in this field, we create and publish novel FL datasets for SED in domestic and urban environments. Furthermore, we provide baseline results on the datasets in a FL context for three deep neural network architectures. The results indicate that FL is a promising approach for SED, but faces challenges with divergent data distributions inherent to distributed client edge devices.
翻訳日:2021-02-23 02:35:06 公開日:2021-02-19
# (参考訳) ローマ・ウルドゥーにおけるYouTubeコメントの感情分析 [全文訳有]

Sentiment Analysis for YouTube Comments in Roman Urdu ( http://arxiv.org/abs/2102.10075v1 )

ライセンス: CC BY-SA 4.0
Tooba Tehreem (Hira Tahir National University of Computer and Emerging Sciences Islamabad, Pakistan)(参考訳) 知覚分析は機械学習領域における広大な領域である。 データセットとその英語の分析に関する多くの作業が行われている。 パキスタンでは、膨大なデータがローマ語でUrdu語であり、Twitter、YouTube、Facebook、および同様のアプリケーションを含むソーシャルサイト全体に分散しています。 この研究では、データセット収集の焦点領域はYouTubeコメントです。 Datasetには、パキスタンのさまざまなドラマやテレビ番組に関する人々のコメントが含まれている。 Datasetには、コメントを肯定的、否定的、中立的な感情に分類するマルチクラス分類が含まれている。 本研究では,線形回帰,SVM,KNN,Multi Layer Perceptron,Na\"ive Bayes分類器を含む5つの教師付き学習アルゴリズムの比較分析を行った。 性能測定には精度、リコール、精度、F測定が用いられる。 その結果、SVMの精度は64パーセントであり、リストの他の部分よりも優れています。

Sentiment analysis is a vast area in the Machine learning domain. A lot of work is done on datasets and their analysis of the English Language. In Pakistan, a huge amount of data is in roman Urdu language, it is scattered all over the social sites including Twitter, YouTube, Facebook and similar applications. In this study the focus domain of dataset gathering is YouTube comments. The Dataset contains the comments of people over different Pakistani dramas and TV shows. The Dataset contains multi-class classification that is grouped The comments into positive, negative and neutral sentiment. In this Study comparative analysis is done for five supervised learning Algorithms including linear regression, SVM, KNN, Multi layer Perceptron and Na\"ive Bayes classifier. Accuracy, recall, precision and F-measure are used for measuring performance. Results show that accuracy of SVM is 64 percent, which is better than the rest of the list.
翻訳日:2021-02-23 01:54:39 公開日:2021-02-19
# (参考訳) 凝縮複合記憶連続学習 [全文訳有]

Condensed Composite Memory Continual Learning ( http://arxiv.org/abs/2102.09890v1 )

ライセンス: CC BY 4.0
Felix Wiewel and Bin Yang(参考訳) ディープニューラルネットワーク(DNN)は、最新のタスクのデータのみが利用可能な一連のタスクでトレーニングされると、パフォーマンスが急速に低下します。 破滅的な忘れ物として知られるこの現象は、DNNが時間の経過とともに知識を蓄積するのを防ぐ。 破滅的な放棄と継続的学習の実現を克服することは、いつでもすべてのトレーニングデータに制限のないアクセスが可能な設定でdnnを適用することを可能にするため、非常に興味深い。 ストレージの制限や 法的問題によるものです 最近提案された連続学習法の多くはリハーサルにいくつかのトレーニング例を使用しているが、その性能は記憶されたサンプルの数に大きく依存している。 連続学習のためのリハーサルの性能を向上させるために,特に少数の記憶された例に対して,完全なデータセットの本質を捉えた,少数の合成例を学習する新しい手法を提案する。 これらの合成例を直接学習する代わりに、各例の共有コンポーネントの重み付けの組み合わせを学び、メモリ効率を大幅に向上させる。 本手法のデータセット上での性能を実証し,最近提案された関連手法とベースラインと比較した。

Deep Neural Networks (DNNs) suffer from a rapid decrease in performance when trained on a sequence of tasks where only data of the most recent task is available. This phenomenon, known as catastrophic forgetting, prevents DNNs from accumulating knowledge over time. Overcoming catastrophic forgetting and enabling continual learning is of great interest since it would enable the application of DNNs in settings where unrestricted access to all the training data at any time is not always possible, e.g. due to storage limitations or legal issues. While many recently proposed methods for continual learning use some training examples for rehearsal, their performance strongly depends on the number of stored examples. In order to improve performance of rehearsal for continual learning, especially for a small number of stored examples, we propose a novel way of learning a small set of synthetic examples which capture the essence of a complete dataset. Instead of directly learning these synthetic examples, we learn a weighted combination of shared components for each example that enables a significant increase in memory efficiency. We demonstrate the performance of our method on commonly used datasets and compare it to recently proposed related methods and baselines.
翻訳日:2021-02-23 01:48:47 公開日:2021-02-19
# (参考訳) 畳み込み正規化 [全文訳有]

Convolutional Normalization ( http://arxiv.org/abs/2102.09685v1 )

ライセンス: CC0 1.0
Massimiliano Esposito, Nader Ganaba(参考訳) ディープニューラルネットワークが複雑なタスクに適用されるにつれて、ネットワークとアーキテクチャのサイズは増加し、そのトポロジもより複雑になります。 同時にトレーニングは遅くなり、インスタンスによっては非効率になる。 これはバッチ正規化やレイヤー正規化といった様々な正規化技術の導入を動機付けている。 上記の正規化法は算術演算を用いて、層のデータの近似統計(主に第1モーメントと第2モーメント)を計算し、それを正規化するために利用する。 上記の方法はプレーンモンテカルロ法を用いて統計を近似しており、分布が複雑である統計を近似するとそのような方法は失敗する。 本稿では,重み付き和を用いて,重み付き畳み込みニューラルネットワークを用いて,統計的に近似するだけでなく,和の係数を学習する手法を提案する。

As the deep neural networks are being applied to complex tasks, the size of the networks and architecture increases and their topology becomes more complicated too. At the same time, training becomes slow and at some instances inefficient. This motivated the introduction of various normalization techniques such as Batch Normalization and Layer Normalization. The aforementioned normalization methods use arithmetic operations to compute an approximation statistics (mainly the first and second moments) of the layer's data and use it to normalize it. The aforementioned methods use plain Monte Carlo method to approximate the statistics and such method fails when approximating the statistics whose distribution is complex. Here, we propose an approach that uses weighted sum, implemented using depth-wise convolutional neural networks, to not only approximate the statistics, but to learn the coefficients of the sum.
翻訳日:2021-02-23 01:34:04 公開日:2021-02-19
# (参考訳) ラベル付き時空間データ収集のための識別動的モード分解 [全文訳有]

Discriminant Dynamic Mode Decomposition for Labeled Spatio-Temporal Data Collections ( http://arxiv.org/abs/2102.09973v1 )

ライセンス: CC BY 4.0
Naoya Takeishi, Keisuke Fujii, Koh Takeuchi, Yoshinobu Kawahara(参考訳) コヒーレントパターンの抽出は時空間データを理解するための標準的なアプローチの1つである。 動的モード分解(DMD)は、コヒーレントパターンを抽出する強力なツールであるが、元のDMDとその変種の多くは、時空間データの側情報としてしばしば利用できるラベル情報を考慮していない。 本研究では,ラベル付き時空間データコレクションから特徴あるコヒーレントパターンを抽出し,ラベル付きダイナミクスの大きな違いに寄与する新しい手法を提案する。 DMDに識別分析を組み込むことにより,このようなパターン抽出を実現する。 そのために, 動的モードの集合にまたがる部分空間上のカーネル関数を定義し, DMD としての再構成性, 識別性分析としてクラス分離性の両方を考慮に入れることを目標とした。 合成データセットといくつかの実世界データセットを用いた手法を例示する。 提案手法は時空間データを理解するための探索的データ解析に有用である。

Extracting coherent patterns is one of the standard approaches towards understanding spatio-temporal data. Dynamic mode decomposition (DMD) is a powerful tool for extracting coherent patterns, but the original DMD and most of its variants do not consider label information, which is often available as side information of spatio-temporal data. In this work, we propose a new method for extracting distinctive coherent patterns from labeled spatio-temporal data collections, such that they contribute to major differences in a labeled set of dynamics. We achieve such pattern extraction by incorporating discriminant analysis into DMD. To this end, we define a kernel function on subspaces spanned by sets of dynamic modes and develop an objective to take both reconstruction goodness as DMD and class-separation goodness as discriminant analysis into account. We illustrate our method using a synthetic dataset and several real-world datasets. The proposed method can be a useful tool for exploratory data analysis for understanding spatio-temporal data.
翻訳日:2021-02-23 01:18:22 公開日:2021-02-19
# (参考訳) 多言語Augmenter: モデルが選択する [全文訳有]

Multilingual Augmenter: The Model Chooses ( http://arxiv.org/abs/2102.09708v1 )

ライセンス: CC BY 4.0
Matthew Ciolino, David Noever, Josh Kalin(参考訳) 自然言語処理(NLP)はトレーニングデータに大きく依存しています。 トランスフォーマーはますます大きくなり、大量のトレーニングデータを必要としてきた。 この要件を満たすために、テキスト拡張は、現在のデータセットを拡張し、モデルを一般化する方法と見なされるべきである。 私たちが注目するテキスト増補は、翻訳増補です。 私たちは英語の文を受け取り、それを英語に翻訳する前に別の言語に翻訳します。 本稿では、108の異なる言語バック翻訳が様々なメトリクスやテキスト埋め込みに与える影響について考察する。

Natural Language Processing (NLP) relies heavily on training data. Transformers, as they have gotten bigger, have required massive amounts of training data. To satisfy this requirement, text augmentation should be looked at as a way to expand your current dataset and to generalize your models. One text augmentation we will look at is translation augmentation. We take an English sentence and translate it to another language before translating it back to English. In this paper, we look at the effect of 108 different language back translations on various metrics and text embeddings.
翻訳日:2021-02-22 23:36:09 公開日:2021-02-19
# (参考訳) Farasa Segmentation と AraBERT を用いたナンスアラビアつぶやきの方言識別 [全文訳有]

Dialect Identification in Nuanced Arabic Tweets Using Farasa Segmentation and AraBERT ( http://arxiv.org/abs/2102.09749v1 )

ライセンス: CC BY 4.0
Anshul Wadhawan(参考訳) 本稿では,EACL WANLP-2021 Shared Task 1: Nuanced Arabic Dialect Identification (NADI) へのアプローチについて述べる。 この課題は、現代の標準アラビア語や方言の形でアラビア語のつぶやきが発せられる場所(国・地域)を識別するシステムを開発することを目的としている。 私たちはその仕事を2つの部分で解決する。 第1部は、テキストの様々な部分をクリーニング、追加、セグメンテーションすることにより、提供されたデータセットを前処理することを含む。 その後、2つのTransformerベースのモデルであるAraBERTとAraELECTRAの異なるバージョンで実験が行われた。 最終アプローチは4つのサブタスクにおいて0.216, 0.235, 0.054, 0.043のマクロF1スコアを獲得し, MSA識別サブタスクでは2位, DA識別サブタスクでは4位となった。

This paper presents our approach to address the EACL WANLP-2021 Shared Task 1: Nuanced Arabic Dialect Identification (NADI). The task is aimed at developing a system that identifies the geographical location(country/pro vince) from where an Arabic tweet in the form of modern standard Arabic or dialect comes from. We solve the task in two parts. The first part involves pre-processing the provided dataset by cleaning, adding and segmenting various parts of the text. This is followed by carrying out experiments with different versions of two Transformer based models, AraBERT and AraELECTRA. Our final approach achieved macro F1-scores of 0.216, 0.235, 0.054, and 0.043 in the four subtasks, and we were ranked second in MSA identification subtasks and fourth in DA identification subtasks.
翻訳日:2021-02-22 23:18:11 公開日:2021-02-19
# (参考訳) プログレッシブトランスフォーマティブによる放射線レポートの生成 [全文訳有]

Progressive Transformer-Based Generation of Radiology Reports ( http://arxiv.org/abs/2102.09777v1 )

ライセンス: CC BY 4.0
Farhad Nooralahzadeh, Nicolas Perez Gonzalez, Thomas Frauenfelder, Koji Fujimoto, Michael Krauthammer(参考訳) カリキュラム学習に触発され、連続して(すなわち)提案する。 画像からテキストへ)生成フレームワーク。放射線レポート生成の問題を2つのステップに分割する。 画像から完全な放射線学レポートを生成するのとは対照的に、このモデルは最初のステップで画像からグローバルな概念を生成し、変換器ベースのアーキテクチャを用いてより微細で一貫性のあるテキストに変換する。 各ステップで変換器に基づくシーケンス・ツー・シーケンスのパラダイムに従う。 2つのベンチマークデータセットの最先端性を改善する。

Inspired by Curriculum Learning, we propose a consecutive (i.e. image-to-text-to-tex t) generation framework where we divide the problem of radiology report generation into two steps. Contrary to generating the full radiology report from the image at once, the model generates global concepts from the image in the first step and then reforms them into finer and coherent texts using transformer-based architecture. We follow the transformer-based sequence-to-sequence paradigm at each step. We improve upon the state-of-the-art on two benchmark datasets.
翻訳日:2021-02-22 23:11:45 公開日:2021-02-19
# (参考訳) ヒンディー語符号混合データにおける感情認識に向けて:トランスフォーマーに基づくアプローチ [全文訳有]

Towards Emotion Recognition in Hindi-English Code-Mixed Data: A Transformer Based Approach ( http://arxiv.org/abs/2102.09943v1 )

ライセンス: CC BY 4.0
Anshul Wadhawan, Akshita Aggarwal(参考訳) 近年,社会・メディアテキストにおける感情検出は,消費者の理解,心理学,コンピュータとのヒューマンインタラクションの支援,スマートシステムの設計などの幅広い応用により,一般的な問題となっている。 感情や意見を表現するために定期的に使用されるソーシャルメディアからの膨大なデータが利用可能であるため、この問題は大きな注目を集めている。 本稿では,感情検出のためのラベル付きhinglishデータセットを提案する。 我々は、ヒンズー語と英語の混成ツイートにおける感情検出のための深層学習に基づくアプローチに注目し、fasttext と word2vec のアプローチから派生したバイリンガルな単語埋め込みとトランスフォーマーベースのモデルを用いている。 CNN、LSTM、双方向LSTM(注意を払わずに)、BERT、RoBERTa、ALBERTなどのトランスなど、さまざまなディープラーニングモデルを実験しています。 変換器ベースのBERTモデルは、71.43%の精度で最高の性能を発揮する他のモデルよりも優れている。

In the last few years, emotion detection in social-media text has become a popular problem due to its wide ranging application in better understanding the consumers, in psychology, in aiding human interaction with computers, designing smart systems etc. Because of the availability of huge amounts of data from social-media, which is regularly used for expressing sentiments and opinions, this problem has garnered great attention. In this paper, we present a Hinglish dataset labelled for emotion detection. We highlight a deep learning based approach for detecting emotions in Hindi-English code mixed tweets, using bilingual word embeddings derived from FastText and Word2Vec approaches, as well as transformer based models. We experiment with various deep learning models, including CNNs, LSTMs, Bi-directional LSTMs (with and without attention), along with transformers like BERT, RoBERTa, and ALBERT. The transformer based BERT model outperforms all other models giving the best performance with an accuracy of 71.43%.
翻訳日:2021-02-22 23:03:39 公開日:2021-02-19
# (参考訳) タスク難易度, ペーシング, 可視化軸を用いた感情分析のためのカリキュラム学習の分析 [全文訳有]

Analyzing Curriculum Learning for Sentiment Analysis along Task Difficulty, Pacing and Visualization Axes ( http://arxiv.org/abs/2102.09990v1 )

ライセンス: CC0 1.0
Anvesh Rao Vijjini, Kaveri Anuranjana, Radhika Mamidi(参考訳) カリキュラム学習(CL)は、最近自然言語処理タスクで注目を集めているが、それでも十分に分析されていない。 以前の作品は、その効果を示すだけでなく、内部動作の完全な説明と解釈に失敗している。 本稿では,複数の軸に沿った感情分析におけるカリキュラム学習を解析する。 これらの軸のいくつかは、より深い研究を必要とする初期の研究によって提案されている。 このような分析には、カリキュラム学習の仕組みとそうでない場所を理解する必要があります。 分析の軸はclにおける課題難易度,clペーシング手法の比較,およびカリキュラム段階としてモデルの注意点の移動を可視化することで定性解析を行う。 カリキュラム学習は難しいタスクに最適であり、カリキュラム学習なしで高いパフォーマンスを持つタスクのパフォーマンスの低下につながる可能性がある。 カリキュラムペーシングでは、ワンパスのカリキュラム戦略が破滅的な忘れと注意運動の可視化に苦しめられ、カリキュラム学習がメインタスクを分割し、モデルの解き易いサブタスクに分解する。

While Curriculum learning (CL) has recently gained traction in Natural language Processing Tasks, it still isn't being analyzed adequately. Previous works only show their effectiveness but fail short to fully explain and interpret the internal workings. In this paper, we analyze curriculum learning in sentiment analysis along multiple axes. Some of these axes have been proposed by earlier works that need deeper study. Such analysis requires understanding where curriculum learning works and where it doesn't. Our axes of analysis include Task difficulty on CL, comparing CL pacing techniques, and qualitative analysis by visualizing the movement of attention scores in the model as curriculum phases progress. We find that curriculum learning works best for difficult tasks and may even lead to a decrement in performance for tasks that have higher performance without curriculum learning. Within curriculum pacing, we see that One-Pass curriculum strategies suffer from catastrophic forgetting and attention movement visualization shows that curriculum learning breaks down the main task into easier sub-tasks which the model solves easily.
翻訳日:2021-02-22 22:54:47 公開日:2021-02-19
# (参考訳) 形式言語理論が現代のNLPに会う [全文訳有]

Formal Language Theory Meets Modern NLP ( http://arxiv.org/abs/2102.10094v1 )

ライセンス: CC BY 4.0
William Merrill(参考訳) NLPは概念的にも歴史的にも言語の形式的な研究と深く絡み合っている。 おそらくこの関係は、1957年のチョムスキーの構文構造にまで遡る。 現代のニューラルネットワークの形式的分析手法を形式言語の観点から構築する、最近の一連の研究は、今日でもなお事実である。 この文書では、この最近の作品に関連する形式言語の背景を説明することを目指しています。 私は必然的にこの分野の豊かな歴史の大部分を無視し、代わりに近代的な深層学習に基づくNLPの観点から形式言語理論の概念を提示することに焦点をあてる。

NLP is deeply intertwined with the formal study of language, both conceptually and historically. Arguably, this connection goes all the way back to Chomsky's Syntactic Structures in 1957. This still holds true today, with a strand of recent works building formal analysis of modern neural networks methods in terms of formal languages. In this document, I aim to explain background about formal languages as they relate to to this recent work. I will by necessity ignore large parts of the rich history of this field, instead focusing on presenting formal language theoretic concepts from the perspective of modern deep learning-based NLP.
翻訳日:2021-02-22 22:43:36 公開日:2021-02-19
# (参考訳) 計量時間制約を持つ有限領域上のgologプログラムの制御器合成 [全文訳有]

Controller Synthesis for Golog Programs over Finite Domains with Metric Temporal Constraints ( http://arxiv.org/abs/2102.09837v1 )

ライセンス: CC BY-SA 4.0
Till Hofmann and Gerhard Lakemeyer(参考訳) 実際のロボット上でgologプログラムを実行するには、通常、プログラムの制約として定式化できる、ロボットプラットフォームのハードウェアやソフトウェアの詳細を考慮する追加ステップが必要である。 このような制約はしばしば時間的であり、計量時間を参照し、抽象的なゴーログプログラムを変更する必要がある。 本稿では,状況計算の様相変種に基づく制約の定式化について述べる。 これらの制約は、時間付きオートマトンを用いて記述したプラットフォームモデルと抽象プログラムを結びつける。 有限領域上のプログラムおよび完全に既知の初期状態の場合、元のプログラムの効果を維持しながら制約を満たすコントローラを合成する問題は、MTL合成に還元できることを示した。 私たちは、抽象プログラムからタイムド・オートマトンを構築し、このオートマトン、プラットフォームモデル、および制約からmtlコントローラを合成することでこれを行います。 我々は、合成されたコントローラは、元のプログラムと同じ実行トレース、おそらくプラットフォームに依存したアクションとインターリーブされ、それらがすべての制約を満たすこと、およびそれらが元のプログラムのトレースと同じ効果を有することを証明します。 これにより、元のプログラムを維持しながら、仕様を満たすコントローラを合成するための決定可能な手順を得る。

Executing a Golog program on an actual robot typically requires additional steps to account for hardware or software details of the robot platform, which can be formulated as constraints on the program. Such constraints are often temporal, refer to metric time, and require modifications to the abstract Golog program. We describe how to formulate such constraints based on a modal variant of the Situation Calculus. These constraints connect the abstract program with the platform models, which we describe using timed automata. We show that for programs over finite domains and with fully known initial state, the problem of synthesizing a controller that satisfies the constraints while preserving the effects of the original program can be reduced to MTL synthesis. We do this by constructing a timed automaton from the abstract program and synthesizing an MTL controller from this automaton, the platform models, and the constraints. We prove that the synthesized controller results in execution traces which are the same as those of the original program, possibly interleaved with platform-dependent actions, that they satisfy all constraints, and that they have the same effects as the traces of the original program. By doing so, we obtain a decidable procedure to synthesize a controller that satisfies the specification while preserving the original program.
翻訳日:2021-02-22 22:25:07 公開日:2021-02-19
# (参考訳) 代替語尾:将来のテキスト入力予測によるインクリメンタルニューラルネットワークttsの韻律改善 [全文訳有]

Alternate Endings: Improving Prosody for Incremental Neural TTS with Predicted Future Text Input ( http://arxiv.org/abs/2102.09914v1 )

ライセンス: CC BY 4.0
Brooke Stephenson, Thomas Hueber, Laurent Girin, Laurent Besacier(参考訳) 話し言葉の韻律はその周囲の文脈によって決定される。 インクリメンタルテキスト音声合成では、合成者が完全な入力にアクセスする前に出力を生成するが、完全な文脈はしばしば不明であり、合成された音声の自然性が失われる。 本論文では,予測される将来のテキストの使用が,この損失を緩和するかどうかを検討する。 a)未知(ゼロワード)、(b)言語モデル予測、(c)ランダム予測、(d)接地構造など、次の単語のテスト条件を比較した。 我々は, 韻律的特徴(ピッチ, エネルギー, 持続時間)を測定し, 予測されたテキストはゼロワードのルックアヘッドよりも大幅に向上するが, ランダムワードのルックアヘッドよりもわずかに向上する。 これらの結果は知覚テストで確認する。

The prosody of a spoken word is determined by its surrounding context. In incremental text-to-speech synthesis, where the synthesizer produces an output before it has access to the complete input, the full context is often unknown which can result in a loss of naturalness in the synthesized speech. In this paper, we investigate whether the use of predicted future text can attenuate this loss. We compare several test conditions of next future word: (a) unknown (zero-word), (b) language model predicted, (c) randomly predicted and (d) ground-truth. We measure the prosodic features (pitch, energy and duration) and find that predicted text provides significant improvements over a zero-word lookahead, but only slight gains over random-word lookahead. We confirm these results with a perceptive test.
翻訳日:2021-02-22 21:34:16 公開日:2021-02-19
# (参考訳) ロバストベクトル値関数に対する中心平滑化 [全文訳有]

Center Smoothing for Certifiably Robust Vector-Valued Functions ( http://arxiv.org/abs/2102.09701v1 )

ライセンス: CC BY 4.0
Aounon Kumar and Tom Goldstein(参考訳) ランダム化平滑化は、境界サイズの入力摂動に対して確実に頑健なモデルを得るために、高次元画像分類タスクでうまく適用されている。 我々はこの手法を拡張し、ベクトル値関数に対する証明可能なロバスト性、すなわち入力の小さな変化による出力の変化を束縛する。 これらの機能は、画像再構成、次元縮小、超解像など、機械学習の多くの領域で使われているが、これらの問題における出力空間の膨大な次元のため、有意義な堅牢性を保証することは困難である。 我々は,入力周辺の局所的かつ潜在的に低次元な関数の挙動を利用して確率的ロバスト性証明を得るための平滑化手順を設計する。 提案手法は,入力次元と出力次元の広いベクトル値関数を含む複数の学習課題における有効性を示す。

Randomized smoothing has been successfully applied in high-dimensional image classification tasks to obtain models that are provably robust against input perturbations of bounded size. We extend this technique to produce certifiable robustness for vector-valued functions, i.e., bound the change in output caused by a small change in input. These functions are used in many areas of machine learning, such as image reconstruction, dimensionality reduction, super-resolution, etc., but due to the enormous dimensionality of the output space in these problems, generating meaningful robustness guarantees is difficult. We design a smoothing procedure that can leverage the local, potentially low-dimensional, behaviour of the function around an input to obtain probabilistic robustness certificates. We demonstrate the effectiveness of our method on multiple learning tasks involving vector-valued functions with a wide range of input and output dimensionalities.
翻訳日:2021-02-22 21:24:46 公開日:2021-02-19
# (参考訳) 個人化フェデレーション学習:統一フレームワークとユニバーサル最適化手法

Personalized Federated Learning: A Unified Framework and Universal Optimization Techniques ( http://arxiv.org/abs/2102.09743v1 )

ライセンス: CC BY 4.0
Filip Hanzely, Boxin Zhao, Mladen Kolar(参考訳) 個人化フェデレートラーニング(FL)の最適化面について検討した。 文献における全凸パーソナライズされたFLモデルに適用可能な普遍最適化理論を開発する。 特に,既存のパーソナライズされたfl目標を,特別なケースとして回収できる汎用的パーソナライズ目標を提案する。 一般目的を最小化するためのいくつかの最適化手法,すなわち局所sgdのカスタマイズされた変種と加速座標降下/加速svrcdの変種を設計した。 提案手法は,通信と局所計算の両面で実用性および/または最適性を示す。 最後に、特定のパーソナライズされたfl目標を解決するために適用される一般的な最適化理論の意味について論じる。

We study the optimization aspects of personalized Federated Learning (FL). We develop a universal optimization theory applicable to all convex personalized FL models in the literature. In particular, we propose a general personalized objective capable of recovering essentially any existing personalized FL objective as a special case. We design several optimization techniques to minimize the general objective, namely a tailored variant of Local SGD and variants of accelerated coordinate descent/accelerated SVRCD. We demonstrate the practicality and/or optimality of our methods both in terms of communication and local computation. Lastly, we argue about the implications of our general optimization theory when applied to solve specific personalized FL objectives.
翻訳日:2021-02-22 21:00:00 公開日:2021-02-19
# (参考訳) 分散決定論的多エージェント強化学習 [全文訳有]

Decentralized Deterministic Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2102.09745v1 )

ライセンス: CC BY 4.0
Antoine Grosnit, Desmond Cai, Laura Wynter(参考訳) [Zhang, ICML 2018]は、収束保証を提供するマルチエージェント強化学習(MARL)のための、最初の分散型アクター批判アルゴリズムを提供する。 その仕事では、ポリシーは確率的であり、有限なアクション空間で定義される。 これらの結果を拡張して、連続的な行動空間上の決定論的な方針を学習するための確固たる収束型分散アクター批判アルゴリズムを提供する。 決定論的ポリシーは現実世界の設定において重要である。 決定論的政策に内在する探索の欠如に対処するため、オフポリシーとオンポリシーの設定の両方を考慮する。 局所決定論的政策勾配、分散決定論的アクタークリティカルアルゴリズム、線形近似値関数の収束保証の表現を提供する。 この作業は、高次元のアクション空間における分散MARLの実現と、より広範なMARLの利用の道を開くのに役立つ。

[Zhang, ICML 2018] provided the first decentralized actor-critic algorithm for multi-agent reinforcement learning (MARL) that offers convergence guarantees. In that work, policies are stochastic and are defined on finite action spaces. We extend those results to offer a provably-convergent decentralized actor-critic algorithm for learning deterministic policies on continuous action spaces. Deterministic policies are important in real-world settings. To handle the lack of exploration inherent in deterministic policies, we consider both off-policy and on-policy settings. We provide the expression of a local deterministic policy gradient, decentralized deterministic actor-critic algorithms and convergence guarantees for linearly-approximate d value functions. This work will help enable decentralized MARL in high-dimensional action spaces and pave the way for more widespread use of MARL.
翻訳日:2021-02-22 20:59:01 公開日:2021-02-19
# (参考訳) 半教師付きノード分類のためのディープグラフウェーブレット畳み込みニューラルネットワーク [全文訳有]

A Deep Graph Wavelet Convolutional Neural Network for Semi-supervised Node Classification ( http://arxiv.org/abs/2102.09780v1 )

ライセンス: CC BY 4.0
Jingyi Wang, Zhidong Deng(参考訳) グラフ畳み込みニューラルネットワークは、非ユークリッドデータによるノード分類やその他のタスクに優れたソリューションを提供します。 ディープネットワークの開発を試みるグラフ畳み込みモデルもいくつか存在するが、同時に重大オーバースムーシングを引き起こすことはない。 ウェーブレット変換は、一般にフーリエ変換よりも有用な情報を抽出する能力が高いと考え、半教師付きノード分類タスクのための新しいディープグラフウェーブレット畳み込みネットワーク(DeepGWC)を提案します。 バニラグラフウェーブレットニューラルネットワークの最適化された静的フィルタリングマトリックスパラメータとフーリエベースとウェーブレットの組み合わせに基づいて、DeepGWCは、ネットワークアーキテクチャにおける残存接続とアイデンティティマッピングの再利用とともに構築される。 cora、citeseer、pubmedを含む3つのベンチマークデータセットに関する広範な実験を行った。 実験結果から,DeepGWCは新たなウェーブレットベースを用いて既存のグラフディープモデルより優れ,最終的には新たな最先端性能を実現することが示された。

Graph convolutional neural network provides good solutions for node classification and other tasks with non-Euclidean data. There are several graph convolutional models that attempt to develop deep networks but do not cause serious over-smoothing at the same time. Considering that the wavelet transform generally has a stronger ability to extract useful information than the Fourier transform, we propose a new deep graph wavelet convolutional network (DeepGWC) for semi-supervised node classification tasks. Based on the optimized static filtering matrix parameters of vanilla graph wavelet neural networks and the combination of Fourier bases and wavelet ones, DeepGWC is constructed together with the reuse of residual connection and identity mappings in network architectures. Extensive experiments on three benchmark datasets including Cora, Citeseer, and Pubmed are conducted. The experimental results demonstrate that our DeepGWC outperforms existing graph deep models with the help of additional wavelet bases and achieves new state-of-the-art performances eventually.
翻訳日:2021-02-22 18:53:10 公開日:2021-02-19
# (参考訳) 信頼するか考えるか:認知強制関数はAI支援意思決定におけるAIの過度性を減らすことができる [全文訳有]

To Trust or to Think: Cognitive Forcing Functions Can Reduce Overreliance on AI in AI-assisted Decision-making ( http://arxiv.org/abs/2102.09692v1 )

ライセンス: CC BY 4.0
Zana Bu\c{c}inca, Maja Barbara Malaya, Krzysztof Z. Gajos(参考訳) AIを活用した意思決定支援ツールに支持されている人たちは、AIに過度に依存することが多い。 AIの決定に説明を加えることは、過度な信頼を減らすことのようでなく、いくつかの研究は、それがそれを高めるかもしれないことを示唆しています。 認知の二重プロセス理論にインフォームドされ、人々は個々のAI推奨や説明に分析的に関与することは滅多になく、代わりにAI提案にいつ従えばよいのかに関する一般的なヒューリスティックを発達させることを仮定する。 医学的意思決定に関する先行研究に基づいて、3つの認知的強制介入(cognitive forced interventions)をデザインした。 我々は3つの認知的強制設計を2つの簡単な説明可能なAIアプローチとNo-AIベースラインと比較した実験(N=199)を行った。 その結果、単純な説明可能なaiアプローチに比べて認知的強制は信頼度を大幅に低下させた。 しかし、トレードオフがあった:人々は最も過度な信頼性を減らすデザインに最も有利な主観評価を割り当てました。 介入が生み出す不平等に対する作業の監査のために、我々の介入が認知欲求のレベルが異なる人々(すなわち、努力的な精神活動に従事する動機)に等しく利益をもたらすかどうかを検討した。 以上の結果から,認知的強制介入が参加者の認知力向上に寄与することが示唆された。 我々の研究は、人間の認知モチベーションが説明可能なAIソリューションの有効性を損なうことを示唆している。

People supported by AI-powered decision support tools frequently overrely on the AI: they accept an AI's suggestion even when that suggestion is wrong. Adding explanations to the AI decisions does not appear to reduce the overreliance and some studies suggest that it might even increase it. Informed by the dual-process theory of cognition, we posit that people rarely engage analytically with each individual AI recommendation and explanation, and instead develop general heuristics about whether and when to follow the AI suggestions. Building on prior research on medical decision-making, we designed three cognitive forcing interventions to compel people to engage more thoughtfully with the AI-generated explanations. We conducted an experiment (N=199), in which we compared our three cognitive forcing designs to two simple explainable AI approaches and to a no-AI baseline. The results demonstrate that cognitive forcing significantly reduced overreliance compared to the simple explainable AI approaches. However, there was a trade-off: people assigned the least favorable subjective ratings to the designs that reduced the overreliance the most. To audit our work for intervention-generat ed inequalities, we investigated whether our interventions benefited equally people with different levels of Need for Cognition (i.e., motivation to engage in effortful mental activities). Our results show that, on average, cognitive forcing interventions benefited participants higher in Need for Cognition more. Our research suggests that human cognitive motivation moderates the effectiveness of explainable AI solutions.
翻訳日:2021-02-22 18:37:41 公開日:2021-02-19
# (参考訳) ブラインド画像品質評価のための連続学習 [全文訳有]

Continual Learning for Blind Image Quality Assessment ( http://arxiv.org/abs/2102.09717v1 )

ライセンス: CC BY 4.0
Weixia Zhang and Dingquan Li and Chao Ma and Guangtao Zhai and Xiaokang Yang and Kede Ma(参考訳) 画像データの爆発的成長は、画像処理とコンピュータビジョンの手法の迅速な開発を促進する一方で、処理された画像に新たな歪みをもたらす。 これは既存のブラインド画像品質評価(BIQA)モデルに対して大きな課題となり、そのようなサブポピュレーションシフトに継続的に適応できなかった。 最近の研究では、利用可能なすべての人間評価のIQAデータセットの組み合わせに関するBIQAメソッドのトレーニングが推奨されている。 しかし、この種のアプローチは多数のデータセットに拡張性を持たず、新たに作成されたデータセットも組み込むのが面倒である。 本稿では、モデルがIQAデータセットのストリームから継続的に学習し、以前に見たデータから学んだことに基づいて、BIQAの継続的学習を策定する。 まず, 塑性安定性のトレードオフを定量化するために, 新たな設定でデシデラタを5つ同定した。 次に,BIQAモデルを継続的に学習するための簡易かつ効果的な手法を提案する。 具体的には、共有バックボーンネットワークに基づいて、新しいデータセットの予測ヘッドを追加し、すべての予測ヘッドが古いデータの壊滅的な忘れに抵抗しながら、新しいデータで進化できるように正規化を強制します。 全ての予測ヘッドから推定値の適応重み付け和によって品質スコアを算出する。 広汎な実験は,BIQAの標準訓練手法と比較して,提案した連続学習手法の可能性を実証している。

The explosive growth of image data facilitates the fast development of image processing and computer vision methods for emerging visual applications, meanwhile introducing novel distortions to the processed images. This poses a grand challenge to existing blind image quality assessment (BIQA) models, failing to continually adapt to such subpopulation shift. Recent work suggests training BIQA methods on the combination of all available human-rated IQA datasets. However, this type of approach is not scalable to a large number of datasets, and is cumbersome to incorporate a newly created dataset as well. In this paper, we formulate continual learning for BIQA, where a model learns continually from a stream of IQA datasets, building on what was learned from previously seen data. We first identify five desiderata in the new setting with a measure to quantify the plasticity-stability trade-off. We then propose a simple yet effective method for learning BIQA models continually. Specifically, based on a shared backbone network, we add a prediction head for a new dataset, and enforce a regularizer to allow all prediction heads to evolve with new data while being resistant to catastrophic forgetting of old data. We compute the quality score by an adaptive weighted summation of estimates from all prediction heads. Extensive experiments demonstrate the promise of the proposed continual learning method in comparison to standard training techniques for BIQA.
翻訳日:2021-02-22 17:53:25 公開日:2021-02-19
# (参考訳) 単一画像処理のためのGANベース入力サイズ柔軟性モデル [全文訳有]

A GAN-Based Input-Size Flexibility Model for Single Image Dehazing ( http://arxiv.org/abs/2102.09796v1 )

ライセンス: CC0 1.0
Shichao Kan, Yue Zhang, Fanghui Zhang and Yigang Cen(参考訳) generative adversarial network (gan)に基づく画像から画像への翻訳は、様々な画像復元アプリケーションにおいて最先端のパフォーマンスを達成している。 単一画像デハジングは典型的な例であり、ヘイズフリーの画像を得るのが目的である。 本稿では,単一画像デハジングの課題に焦点をあてる。 大気散乱モデルに基づいて,ハゼフリー画像を直接生成する新しいモデルの設計を行う。 画像デハジングの主な課題は、大気散乱モデルが2つのパラメータ、すなわち透過マップと大気光を持つことである。 それぞれ推定すると、エラーが蓄積され、分解品質が損なわれます。 そこで,本稿では,cganフレームワークを用いた画像間変換のための学習段階とテスト段階の両方において,入力サイズの柔軟性を有する単一画像デハジング用入力サイズフレキシブル条件付き生成逆ネットワーク (cgan) を提案する。 本稿では, 簡易かつ効果的なU型残差ネットワーク (UR-Net) を提案し, 分割器の設計に空間ピラミッドプーリング (SPP) を採用する。 さらに, 本論文では, 整合性損失が新規に設計された損失であるマルチロス関数を用いてモデルを訓練する。 マルチスケールのcGAN融合モデルを構築し、最先端の単一画像脱処理性能を実現しました。 提案モデルは、入力としてヘイズ画像を受け取り、ヘイズフリーの画像を直接出力する。 実験結果は提案モデルの有効性と効率を示す。

Image-to-image translation based on generative adversarial network (GAN) has achieved state-of-the-art performance in various image restoration applications. Single image dehazing is a typical example, which aims to obtain the haze-free image of a haze one. This paper concentrates on the challenging task of single image dehazing. Based on the atmospheric scattering model, we design a novel model to directly generate the haze-free image. The main challenge of image dehazing is that the atmospheric scattering model has two parameters, i.e., transmission map and atmospheric light. When we estimate them respectively, the errors will be accumulated to compromise dehazing quality. Considering this reason and various image sizes, we propose a novel input-size flexibility conditional generative adversarial network (cGAN) for single image dehazing, which is input-size flexibility at both training and test stages for image-to-image translation with cGAN framework. We propose a simple and effective U-type residual network (UR-Net) to combine the generator and adopt the spatial pyramid pooling (SPP) to design the discriminator. Moreover, the model is trained with multi-loss function, in which the consistency loss is a novel designed loss in this paper. We finally build a multi-scale cGAN fusion model to realize state-of-the-art single image dehazing performance. The proposed models receive a haze image as input and directly output a haze-free one. Experimental results demonstrate the effectiveness and efficiency of the proposed models.
翻訳日:2021-02-22 17:25:17 公開日:2021-02-19
# (参考訳) fortify machine learning production systems: 敵の攻撃の検出と分類 [全文訳有]

Fortify Machine Learning Production Systems: Detect and Classify Adversarial Attacks ( http://arxiv.org/abs/2102.09695v1 )

ライセンス: CC BY 4.0
Matthew Ciolino, Josh Kalin, David Noever(参考訳) 生産機械学習システムは、敵のアクターによる攻撃を受け続けている。 様々なディープラーニングモデルは、速度を維持しながら、偽または逆入力を正確に検出できなければならない。 本研究では,入ってくる敵の攻撃とその特性を検出する生産保護システムを提案する。 根本的なモデルは構造化された方法で訓練され、それらの攻撃から堅牢になることができ、攻撃は下流の損傷を引き起こす前にリアルタイムでフィルタリングされる可能性があります。 逆画像分類空間は、転送学習でよく使われるモデルについて検討される。

Production machine learning systems are consistently under attack by adversarial actors. Various deep learning models must be capable of accurately detecting fake or adversarial input while maintaining speed. In this work, we propose one piece of the production protection system: detecting an incoming adversarial attack and its characteristics. Detecting types of adversarial attacks has two primary effects: the underlying model can be trained in a structured manner to be robust from those attacks and the attacks can be potentially filtered out in realtime before causing any downstream damage. The adversarial image classification space is explored for models commonly used in transfer learning.
翻訳日:2021-02-22 16:30:52 公開日:2021-02-19
# (参考訳) Sim-Env:OpenAIジム環境をシミュレーションモデルから分離 [全文訳有]

Sim-Env: Decoupling OpenAI Gym Environments from Simulation Models ( http://arxiv.org/abs/2102.09824v1 )

ライセンス: CC BY 4.0
Andreas Schuderer (1 and 2), Stefano Bromuri (1) and Marko van Eekelen (1 and 3) ((1) Open University of the Netherlands, (2) APG Algemene Pensioen Groep N.V., (3) Radboud University)(参考訳) 強化学習(RL)は、AI研究の最も活発な分野の1つです。 強化学習における研究コミュニティの関心にもかかわらず、開発方法論はいまだに遅れており、RLアプリケーションの開発を促進するための標準APIが不足している。 OpenAI GymはおそらくRLアプリケーションやシミュレーションを開発するのに最も使用される環境ですが、そのようなフレームワークで提案された抽象化のほとんどは、まだ半構造化された方法論を想定しています。 これは、シミュレーションで自己学習エージェントによって表示される適応行動を分析することを目的としているエージェントベースのモデルに特に関連します。 このギャップを埋めるために、我々は、多目的エージェントベースのモデルと派生した単一目的強化学習環境の分離開発と保守のためのワークフローとツールを提示し、基礎となるドメインモデルを無傷で分離しながら、研究者が異なる視点または異なる報酬モデルを表す環境を交換できるようにします。 Sim-Env Pythonライブラリは、既存のまたは目的に作成されたドメインモデルをシミュレーションバックエンドとして使用するOpenAI-Gym互換の強化学習環境を生成する。 その設計は使いやすさ、モジュール性、コード分離を強調している。

Reinforcement learning (RL) is one of the most active fields of AI research. Despite the interest demonstrated by the research community in reinforcement learning, the development methodology still lags behind, with a severe lack of standard APIs to foster the development of RL applications. OpenAI Gym is probably the most used environment to develop RL applications and simulations, but most of the abstractions proposed in such a framework are still assuming a semi-structured methodology. This is particularly relevant for agent-based models whose purpose is to analyse adaptive behaviour displayed by self-learning agents in the simulation. In order to bridge this gap, we present a workflow and tools for the decoupled development and maintenance of multi-purpose agent-based models and derived single-purpose reinforcement learning environments, enabling the researcher to swap out environments with ones representing different perspectives or different reward models, all while keeping the underlying domain model intact and separate. The Sim-Env Python library generates OpenAI-Gym-compatibl e reinforcement learning environments that use existing or purposely created domain models as their simulation back-ends. Its design emphasizes ease-of-use, modularity and code separation.
翻訳日:2021-02-22 16:24:06 公開日:2021-02-19
# (参考訳) p-畳み込みを超越してグレースケールのモルフォロジー演算子を学ぶ [全文訳有]

Going beyond p-convolutions to learn grayscale morphological operators ( http://arxiv.org/abs/2102.10038v1 )

ライセンス: CC BY 4.0
Alexandre Kirszenberg, Guillaume Tochon, Elodie Puybareau and Jesus Angulo(参考訳) 近年,深層ニューラルネットワークにおける数学的形態素演算の統合が注目されている。 しかし、標準の畳み込み層を侵食や膨張に置き換えることは特に困難です。なぜなら、最小演算と最大演算は区別できないからです。 反高調波平均の漸近的挙動に基づき,p-畳み込み層は擬似拡張や擬似浸食操作(内部パラメータpの値に依存する)が可能なため,この問題への回避策として提案され,非常に有望な結果が報告された。 本研究は, p-畳み込み層と同じ原理に基づく2つの新しい形態層を主欠点を回避しつつ提示し, 深層畳み込みニューラルネットワークアーキテクチャにおけるさらなる実装への潜在的な関心を示す。

Integrating mathematical morphology operations within deep neural networks has been subject to increasing attention lately. However, replacing standard convolution layers with erosions or dilations is particularly challenging because the min and max operations are not differentiable. Relying on the asymptotic behavior of the counter-harmonic mean, p-convolutional layers were proposed as a possible workaround to this issue since they can perform pseudo-dilation or pseudo-erosion operations (depending on the value of their inner parameter p), and very promising results were reported. In this work, we present two new morphological layers based on the same principle as the p-convolutional layer while circumventing its principal drawbacks, and demonstrate their potential interest in further implementations within deep convolutional neural network architectures.
翻訳日:2021-02-22 16:11:11 公開日:2021-02-19
# (参考訳) ワンショットオーディオからアニメーションビデオ生成へ [全文訳有]

One Shot Audio to Animated Video Generation ( http://arxiv.org/abs/2102.09737v1 )

ライセンス: CC BY-SA 4.0
Neeraj Kumar, Srishti Goel, Ankur Narang, Brejesh Lall, Mujtaba Hasan, Pranshu Agarwal, Dipankar Sarkar(参考訳) オーディオからアニメーションビデオ生成への挑戦的な問題を検討します。 本稿では,音声クリップと一人の未確認画像を入力として,任意の長さの動画を生成する新しい手法OneShotAu2AVを提案する。 提案手法は2段階からなる。 第1段階では、OneShotAu2AVは、音声と人の画像が与えられたヒト領域のトーキングヘッド映像を生成する。 第2段階では、人間のドメインからのトークヘッドビデオがアニメーションドメインに変換される。 第1段階のモデルアーキテクチャは、空間適応正規化に基づくマルチレベル生成器と複数のマルチレベル判別器と、複数の逆および非逆損失からなる。 第2段階では、注意に基づく正規化駆動型GANアーキテクチャと、時間的予測に基づくリサイクルロスと点滅損失をリップ非同期ロスと組み合わせて、監視されていないアニメーションビデオの生成に活用する。 提案手法では,入力音声クリップは特定の言語に制限されないため,多言語対応が可能である。 OneShotAu2AVは、(a)オーディオと同期している唇の動き、(b)点滅やまぶたの動きなどの自然な表情、(c)頭の動きなどのアニメーションビデオを生成することができます。 KID(Kernel Inception Distance), Word error rate, blinks/secなど, 複数の定量的指標を用いたOneShotAu2AVの性能評価

We consider the challenging problem of audio to animated video generation. We propose a novel method OneShotAu2AV to generate an animated video of arbitrary length using an audio clip and a single unseen image of a person as an input. The proposed method consists of two stages. In the first stage, OneShotAu2AV generates the talking-head video in the human domain given an audio and a person's image. In the second stage, the talking-head video from the human domain is converted to the animated domain. The model architecture of the first stage consists of spatially adaptive normalization based multi-level generator and multiple multilevel discriminators along with multiple adversarial and non-adversarial losses. The second stage leverages attention based normalization driven GAN architecture along with temporal predictor based recycle loss and blink loss coupled with lipsync loss, for unsupervised generation of animated video. In our approach, the input audio clip is not restricted to any specific language, which gives the method multilingual applicability. OneShotAu2AV can generate animated videos that have: (a) lip movements that are in sync with the audio, (b) natural facial expressions such as blinks and eyebrow movements, (c) head movements. Experimental evaluation demonstrates superior performance of OneShotAu2AV as compared to U-GAT-IT and RecycleGan on multiple quantitative metrics including KID(Kernel Inception Distance), Word error rate, blinks/sec
翻訳日:2021-02-22 15:28:50 公開日:2021-02-19
# (参考訳) HARQを用いたマルチユーザネットワークにおける情報年齢の強化学習手法

A Reinforcement Learning Approach to Age of Information in Multi-User Networks with HARQ ( http://arxiv.org/abs/2102.09774v1 )

ライセンス: CC BY 4.0
Elif Tugce Ceran, Deniz Gunduz and Andras Gyorgy(参考訳) エラー発生の少ない通信チャネルを通じて, ソースノードから複数のユーザへの時間的情報伝達をスケジューリングし, ユーザにおける情報平均年齢(AoI)を最小化することを目的とする。 ソースには、平均送信数を制限する長期的な平均リソース制約が課される。 ソースは、各タイムスロットで1つのユーザーのみに送信することができ、各送信後、目的の受信機から即時のACK/NACKフィードバックを受け取り、次の更新を送信する日時を決定します。 チャネル統計が知られていると仮定すると、標準自動繰り返し要求(ARQ)とハイブリッドARQ(HARQ)プロトコルの両方に対して最適なスケジューリングポリシーが検討される。 次に、チャネル状態を管理するランダムプロセスに関する事前情報を仮定しない、ほぼ最適に近いポリシーを見つけるために強化学習(rl)アプローチを導入する。 線形関数近似(LFA)を用いた平均コストSARSA、高信頼強化学習(UCRL2)、深層Qネットワーク(DQN)を含む異なるRL法を適用し、数値シミュレーションにより比較する。

Scheduling the transmission of time-sensitive information from a source node to multiple users over error-prone communication channels is studied with the goal of minimizing the long-term average age of information (AoI) at the users. A long-term average resource constraint is imposed on the source, which limits the average number of transmissions. The source can transmit only to a single user at each time slot, and after each transmission, it receives an instantaneous ACK/NACK feedback from the intended receiver, and decides when and to which user to transmit the next update. Assuming the channel statistics are known, the optimal scheduling policy is studied for both the standard automatic repeat request (ARQ) and hybrid ARQ (HARQ) protocols. Then, a reinforcement learning(RL) approach is introduced to find a near-optimal policy, which does not assume any a priori information on the random processes governing the channel states. Different RL methods including average-cost SARSAwith linear function approximation (LFA), upper confidence reinforcement learning (UCRL2), and deep Q-network (DQN) are applied and compared through numerical simulations
翻訳日:2021-02-22 15:15:24 公開日:2021-02-19
# (参考訳) 適応勾配降下オプティマイザの局所収束 [全文訳有]

Local Convergence of Adaptive Gradient Descent Optimizers ( http://arxiv.org/abs/2102.09804v1 )

ライセンス: CC BY 4.0
Sebastian Bock and Martin Georg Wei{\ss}(参考訳) adaptive moment estimation (adam) はディープニューラルネットワークのための非常に人気のあるトレーニングアルゴリズムであり、適応勾配降下オプティマイザに属する。 しかし、著者の最高の知識には、ADAMの完全な収束分析はありません。 本論文の貢献は,ADAMアルゴリズムのハイパーパラメータに必要な条件を与える決定論的固定トレーニングセットのバッチモードにおける局所収束解析の手法である。 引数の局所的性質のために、目的関数は非凸であるが、少なくとも2回連続微分可能でなければならない。 次に、この手順を他の適応勾配降下アルゴリズムに適用し、そのほとんどがハイパーパラメータ境界を持つ局所収束を示す。

Adaptive Moment Estimation (ADAM) is a very popular training algorithm for deep neural networks and belongs to the family of adaptive gradient descent optimizers. However to the best of the authors knowledge no complete convergence analysis exists for ADAM. The contribution of this paper is a method for the local convergence analysis in batch mode for a deterministic fixed training set, which gives necessary conditions for the hyperparameters of the ADAM algorithm. Due to the local nature of the arguments the objective function can be non-convex but must be at least twice continuously differentiable. Then we apply this procedure to other adaptive gradient descent algorithms and show for most of them local convergence with hyperparameter bounds.
翻訳日:2021-02-22 15:13:59 公開日:2021-02-19
# (参考訳) 対数時間におけるガウス過程回帰 [全文訳有]

Gaussian Process Regression in Logarithmic Time ( http://arxiv.org/abs/2102.09964v1 )

ライセンス: CC BY 4.0
Adrien Corenflos, Zheng Zhao, Simo S\"arkk\"(参考訳) 本稿では,時間的ガウス過程(GP)回帰問題に対する新しい並列化手法を提案する。 この方法では、対数 $o(\log n)$ time でgp回帰問題を解くことができ、ここで $n$ は時間ステップの数である。 提案手法では,Kalmanフィルタおよび平滑化手法を利用して,線形な$O(N)$時間GP回帰を可能にするGPの状態空間表現を用いる。 近年提案されているベイズフィルタとスムーザの並列化手法を用いることで、kalmanフィルタの線形計算複雑性を低減し、gp回帰問題に対するより滑らかな解を対数スパン複雑性に還元し、gpu(graphics processing unit)のような並列ハードウェアに実装した場合に対数時間複雑性に変換できる。 GPflowフレームワークを利用したオープンソース実装により,シミュレーションおよび実データセットの計算効果を実験的に実証した。

The aim of this article is to present a novel parallelization method for temporal Gaussian process (GP) regression problems. The method allows for solving GP regression problems in logarithmic $O(\log N)$ time, where $N$ is the number of time steps. Our approach uses the state-space representation of GPs which in its original form allows for linear $O(N)$ time GP regression by leveraging the Kalman filtering and smoothing methods. By using a recently proposed parallelization method for Bayesian filters and smoothers, we are able to reduce the linear computational complexity of the Kalman filter and smoother solutions to the GP regression problems into logarithmic span complexity, which transforms into logarithm time complexity when implemented in parallel hardware such as a graphics processing unit (GPU). We experimentally demonstrate the computational benefits one simulated and real datasets via our open-source implementation leveraging the GPflow framework.
翻訳日:2021-02-22 14:12:46 公開日:2021-02-19
# (参考訳) eBPFにおける機械学習を用いたフローベースIDS [全文訳有]

A flow-based IDS using Machine Learning in eBPF ( http://arxiv.org/abs/2102.09980v1 )

ライセンス: CC0 1.0
Maximilian Bachl, Joachim Fabini, Tanja Zseby(参考訳) eBPFは、Linuxカーネルに動的にコード片をロードできる新しい技術である。 カーネルがユーザースペースプログラムの関与なしに特定のパケットを処理できるため、ネットワークを大幅に高速化することができる。 これまでのeBPFは、ファイアウォールやサービス保護の拒否などの単純なパケットフィルタリングアプリケーションに使用されています。 ebpfを用いた機械学習に基づくフローベースのネットワーク侵入検出システムを開発することが可能であることを示す。 我々のソリューションは決定木を使用し、ネットワークフローの以前のコンテキスト全体を考慮し、各パケットが悪意があるかどうかを判断する。 ユーザスペースプログラムとして実装したソリューションと比較して、20\%以上のパフォーマンス向上を実現しました。

eBPF is a new technology which allows dynamically loading pieces of code into the Linux kernel. It can greatly speed up networking since it enables the kernel to process certain packets without the involvement of a userspace program. So far eBPF has been used for simple packet filtering applications such as firewalls or Denial of Service protection. We show that it is possible to develop a flow based network intrusion detection system based on machine learning entirely in eBPF. Our solution uses a decision tree and decides for each packet whether it is malicious or not, considering the entire previous context of the network flow. We achieve a performance increase of over 20\% compared to the same solution implemented as a userspace program.
翻訳日:2021-02-22 13:57:46 公開日:2021-02-19
# 統計的逆学習問題における凸正規化

Convex regularization in statistical inverse learning problems ( http://arxiv.org/abs/2102.09526v2 )

ライセンス: Link先を確認
Tatiana A. Bubba and Martin Burger and Tapio Helin and Luca Ratti(参考訳) 我々は,統計逆学習問題を考える。そこでは,騒音点評価値である$af$ に基づいて関数 $f$ を推定し,ここでは$a$ を線形作用素とする。 関数 $Af$ は i.i.d で評価される。 ランダム設計ポイント $u_n$, $n=1,...,n$ 未知の一般確率分布によって生成される。 一般凸関数と$p$-均質ペナルティ関数によるティコノフ正規化と、ペナルティ関数によって誘導される対称ブレグマン距離で測定された基底真理に対する正規化解の導出濃度率を検討する。 我々は,Besov法則の厳格な罰則を導出し,X線トモグラフィーの文脈における観測値との対応性を数値的に示す。

We consider a statistical inverse learning problem, where the task is to estimate a function $f$ based on noisy point evaluations of $Af$, where $A$ is a linear operator. The function $Af$ is evaluated at i.i.d. random design points $u_n$, $n=1,...,N$ generated by an unknown general probability distribution. We consider Tikhonov regularization with general convex and $p$-homogeneous penalty functionals and derive concentration rates of the regularized solution to the ground truth measured in the symmetric Bregman distance induced by the penalty functional. We derive concrete rates for Besov norm penalties and numerically demonstrate the correspondence with the observed rates in the context of X-ray tomography.
翻訳日:2021-02-22 13:42:04 公開日:2021-02-19
# UnibucKernel:エンサンブル学習を用いたスイスとドイツのジョデルのジオロケーション

UnibucKernel: Geolocating Swiss-German Jodels Using Ensemble Learning ( http://arxiv.org/abs/2102.09379v2 )

ライセンス: Link先を確認
Mihaela Gaman, Sebastian Cojocariu, Radu Tudor Ionescu(参考訳) 本稿では,2021年のVarDial Evaluation Campaignにおけるソーシャルメディアのバラエティ測地課題に対処するアプローチについて述べる。 我々は、スイスの約3万のドイツのジョデルからなるデータセットに基づいて、第2のサブタスクに焦点を当てる。 方言識別タスクは、試験サンプルの緯度と経度を正確に予測することです。 我々は、xgboostメタリーナーと、緯度と経度の両方を予測する様々な機械学習アプローチの組み合わせを用いて、タスクを二重回帰問題として構成する。 私たちのアンサンブルに含まれるモデルは、Support Vector Regressionのような単純な回帰技術から、ハイブリッドニューラルネットワークやニューラルトランスフォーマーなどのディープニューラルモデルまで多岐にわたります。 予測誤差を最小限に抑えるため,いくつかの異なる視点から問題にアプローチし,低レベルの文字n-gramから高レベルのBERT埋め込みに至るまで,様々な特徴について考察する。 XGBoostアンサンブルは、上記の手法のパワーを組み合わせることで、テストデータ上で中央値の23.6kmを達成し、それぞれ第1および第2の入力から6.05kmと2.9kmの差で、ランキング3位に私たちを配置する。

In this work, we describe our approach addressing the Social Media Variety Geolocation task featured in the 2021 VarDial Evaluation Campaign. We focus on the second subtask, which is based on a data set formed of approximately 30 thousand Swiss German Jodels. The dialect identification task is about accurately predicting the latitude and longitude of test samples. We frame the task as a double regression problem, employing an XGBoost meta-learner with the combined power of a variety of machine learning approaches to predict both latitude and longitude. The models included in our ensemble range from simple regression techniques, such as Support Vector Regression, to deep neural models, such as a hybrid neural network and a neural transformer. To minimize the prediction error, we approach the problem from a few different perspectives and consider various types of features, from low-level character n-grams to high-level BERT embeddings. The XGBoost ensemble resulted from combining the power of the aforementioned methods achieves a median distance of 23.6 km on the test data, which places us on the third place in the ranking, at a difference of 6.05 km and 2.9 km from the submissions on the first and second places, respectively.
翻訳日:2021-02-22 13:41:52 公開日:2021-02-19
# 離散時間切替システムモデルによる非同期Q-Learningの有限時間解析

Finite-Time Analysis of Asynchronous Q-Learning with Discrete-Time Switching System Models ( http://arxiv.org/abs/2102.08583v2 )

ライセンス: Link先を確認
Donghwan Lee(参考訳) 本稿では、離散時間切替システムの観点からQ-ラーニングアルゴリズムの収束を解析するための新しいフレームワークを開発する。 一定のステップサイズを持つ非同期q-learningを,離散時間確率的スイッチング線形系として自然に定式化できることを実証する。 主に制御理論フレームワークに基づくQ-ラーニングに関する新規かつ直感的な洞察を提供する。 例えば,本解析では,最大化バイアスによるq-learningの過推定現象を説明する。 制御系理論的な議論とq-learningの優れた構造に基づき、新しい誤りバウンドを用いて、q-learningの新しい有限時間解析を行う。

This paper develops a novel framework to analyze the convergence of Q-learning algorithm from a discrete-time switching system perspective. We prove that asynchronous Q-learning with a constant step-size can be naturally formulated as discrete-time stochastic switched linear systems. It offers novel and intuitive insights on Q-learning mainly based on control theoretic frameworks. For instance, the proposed analysis explains the overestimation phenomenon in Q-learning due to the maximization bias. Based on the control system theoretic argument and some nice structures of Q-learning, a new finite-time analysis of the Q-learning is given with a novel error bound.
翻訳日:2021-02-22 13:41:28 公開日:2021-02-19
# トランスファー学習を用いたタスク階層発見のための本質的動機付きマルチタスク学習

Intrinsically Motivated Open-Ended Multi-Task Learning Using Transfer Learning to Discover Task Hierarchy ( http://arxiv.org/abs/2102.09854v1 )

ライセンス: Link先を確認
Nicolas Duminy (Lab-STICC), Sao Mai Nguyen (U2IS), Junshuai Zhu (IMT Atlantique), Dominique Duhaut (UBS), Jerome Kerdreux (Lab-STICC)(参考訳) オープンエンド環境では、ロボットは階層的強化学習において複数のパラメータ化された制御タスクを学習する必要がある。 我々は、最も複雑なタスクは、より単純なタスクから知識を移すことによってより簡単に学習でき、タスクにアクションの複雑さを適用することでより速く学習できると仮定する。 複雑な行動のタスク指向表現(手順と呼ばれる)を提案し、オンラインのタスク関係とアクションプリミティブの無制限のシーケンスを学び、環境の異なる可観測性を制御する。 目標バブリングと模倣学習と,本質的なモチベーションに基づく知識の伝達を併用して,本アルゴリズムは学習プロセスを自己編成する。 それはいつでも焦点を合わせるべきタスクを選びます。そして、知識を移すために何、どのように、いつ、誰から。 クロスタスクとクロスリーナートランスファーの設定では、非常に複雑なタスクに取り組むためのタスク構成が重要であることをシミュレーションと実際の産業ロボットアームで示します。 タスク分解は、異なる具体的学習者間で効率よく転送され、ロボットが少量のデモと適切な種類の情報を要求するアクティブな模倣によって行われる。 ロボットはタスクの依存性を学習し、あらゆる複雑さのタスクを学習する。

In open-ended continuous environments, robots need to learn multiple parameterised control tasks in hierarchical reinforcement learning. We hypothesise that the most complex tasks can be learned more easily by transferring knowledge from simpler tasks, and faster by adapting the complexity of the actions to the task. We propose a task-oriented representation of complex actions, called procedures, to learn online task relationships and unbounded sequences of action primitives to control the different observables of the environment. Combining both goal-babbling with imitation learning, and active learning with transfer of knowledge based on intrinsic motivation, our algorithm self-organises its learning process. It chooses at any given time a task to focus on; and what, how, when and from whom to transfer knowledge. We show with a simulation and a real industrial robot arm, in cross-task and cross-learner transfer settings, that task composition is key to tackle highly complex tasks. Task decomposition is also efficiently transferred across different embodied learners and by active imitation, where the robot requests just a small amount of demonstrations and the adequate type of information. The robot learns and exploits task dependencies so as to learn tasks of every complexity.
翻訳日:2021-02-22 13:41:04 公開日:2021-02-19
# テンソル因子化における帰納規則化

Implicit Regularization in Tensor Factorization ( http://arxiv.org/abs/2102.09972v1 )

ライセンス: Link先を確認
Noam Razin, Asaf Maman, Nadav Cohen(参考訳) 深層学習における暗黙の正規化は、学習データと最小の「複雑度」の予測者に適合する勾配に基づく最適化の傾向として認識される。 ある種のデータだけが一般化をもたらすという事実は、特に複雑性の低い予測子に適合できることから理解されている。 この直観を定式化する上での大きな課題は、量的かつ一般化を認めているデータの本質を捉えた複雑性測度を定義することである。 この課題に目を向けて、ある非線形ニューラルネットワークと同等のテンソル因子化における暗黙の正規化を分析する。 勾配降下がファクタリゼーションを誘導するダイナミクスを特徴づけ、既存の実証的証拠に従い、低テンソルランクへのバイアスを確立します。 次に、非線形ニューラルネットワークの暗黙の正規化を暗黙的に捉えるテンソルランクに動機づけられ、複雑性の尺度として経験的に検討し、標準データセットに適合する場合、非常に低いままであることを示す。 これは、テンソルランクがニューラルネットワークの暗黙の正規化と、それを一般化に翻訳する実世界のデータの性質の両方を説明する道を開くと信じている。

Implicit regularization in deep learning is perceived as a tendency of gradient-based optimization to fit training data with predictors of minimal "complexity." The fact that only some types of data give rise to generalization is understood to result from them being especially amenable to fitting with low complexity predictors. A major challenge towards formalizing this intuition is to define complexity measures that are quantitative yet capture the essence of data that admits generalization. With an eye towards this challenge, we analyze the implicit regularization in tensor factorization, equivalent to a certain non-linear neural network. We characterize the dynamics that gradient descent induces on the factorization, and establish a bias towards low tensor rank, in compliance with existing empirical evidence. Then, motivated by tensor rank capturing implicit regularization of a non-linear neural network, we empirically explore it as a measure of complexity, and find that it stays extremely low when fitting standard datasets. This leads us to believe that tensor rank may pave way to explaining both implicit regularization of neural networks, and the properties of real-world data translating it to generalization.
翻訳日:2021-02-22 13:40:43 公開日:2021-02-19
# 訓練ゲート変数とバイモーダル正規化器による動的BERT学習

Learning Dynamic BERT via Trainable Gate Variables and a Bi-modal Regularizer ( http://arxiv.org/abs/2102.09727v1 )

ライセンス: Link先を確認
Seohyeong Jeong, Nojun Kwak(参考訳) BERTモデルは様々な自然言語処理タスクで大きな成功を収めている。 しかし、重いモデルサイズと高い計算コストのため、このモデルは高いレイテンシに悩まされ、リソース制限されたデバイスに展開することは致命的である。 そこで本研究では,入力トークンに適応する訓練可能なゲート変数とバイモーダル特性を持つ正規化器を用いてBERTの動的推論手法を提案する。 本手法では,GLUEデータセットの計算コストを最小限の性能低下で削減する。 さらに、このモデルは、ユーザ指定ハイパーパラメータによるパフォーマンスと計算コストのトレードオフで調整される。

The BERT model has shown significant success on various natural language processing tasks. However, due to the heavy model size and high computational cost, the model suffers from high latency, which is fatal to its deployments on resource-limited devices. To tackle this problem, we propose a dynamic inference method on BERT via trainable gate variables applied on input tokens and a regularizer that has a bi-modal property. Our method shows reduced computational cost on the GLUE dataset with a minimal performance drop. Moreover, the model adjusts with a trade-off between performance and computational cost with the user-specified hyperparameter.
翻訳日:2021-02-22 13:40:05 公開日:2021-02-19
# Back to Prior Knowledge: Convolutional Semantic Infusionによる共同イベント因果性抽出

Back to Prior Knowledge: Joint Event Causality Extraction via Convolutional Semantic Infusion ( http://arxiv.org/abs/2102.09923v1 )

ライセンス: Link先を確認
Zijian Wang, Hao Wang, Xiangfeng Luo, Jianqi Gao(参考訳) 複合イベントと因果関係抽出は,情報検索とデータマイニングにおいて極めて重要な課題である。 最近、事前訓練された言語モデル(例えばBERT)は最先端の結果をもたらし、様々なNLPタスクで支配的である。 しかし、これらのモデルはドメイン固有抽出において外部知識を与えることができない。 本稿では,原因/影響事象を表すn-gramの事前知識をイベント抽出と因果抽出の両方に有益である可能性があることを考慮し,共同抽出フレームワーク内で長さの異なるn-gramに対する畳み込み知識注入を提案する。 畳み込みフィルタの初期化時の知識注入は、モデルがイベント内(イベントクラスタ内の特徴)とイベント間(イベントクラスタ間の関連)の両方をキャプチャするのに役立つだけでなく、トレーニングの収束を促進する。 ベンチマークデータセットによる実験結果から,我々のモデルは強いBERT+CSNNベースラインを著しく上回ることがわかった。

Joint event and causality extraction is a challenging yet essential task in information retrieval and data mining. Recently, pre-trained language models (e.g., BERT) yield state-of-the-art results and dominate in a variety of NLP tasks. However, these models are incapable of imposing external knowledge in domain-specific extraction. Considering the prior knowledge of frequent n-grams that represent cause/effect events may benefit both event and causality extraction, in this paper, we propose convolutional knowledge infusion for frequent n-grams with different windows of length within a joint extraction framework. Knowledge infusion during convolutional filter initialization not only helps the model capture both intra-event (i.e., features in an event cluster) and inter-event (i.e., associations across event clusters) features but also boosts training convergence. Experimental results on the benchmark datasets show that our model significantly outperforms the strong BERT+CSNN baseline.
翻訳日:2021-02-22 13:39:55 公開日:2021-02-19
# Hate-Alert@Dravidian LangTech-EACL2021: Transformer-based Offensive Language Detectionの組み立て戦略

Hate-Alert@Dravidian LangTech-EACL2021: Ensembling strategies for Transformer-based Offensive language Detection ( http://arxiv.org/abs/2102.10084v1 )

ライセンス: Link先を確認
Debjoy Saha, Naman Paharia, Debajit Chakraborty, Punyajoy Saha, Animesh Mukherjee(参考訳) ソーシャルメディアは、しばしば異なる種類の攻撃的コンテンツの繁殖地として機能する。 Tamilのような低リソース言語では、多言語または言語固有のモデルのパフォーマンスが悪く、適切なベンチマークデータセットが不足しているため、状況はより複雑です。 EACL 2021におけるこの共有タスクである攻撃的言語識別に基づいて、異なるトランスフォーマーモデルの徹底的な探索を行い、異なるモデルを理解するための遺伝的アルゴリズムも提供する。 タミル語では第1位,カンナダ語では第2位,マラヤラム語のサブタスクでは第1位を確保した。 モデルとコードは提供されます。

Social media often acts as breeding grounds for different forms of offensive content. For low resource languages like Tamil, the situation is more complex due to the poor performance of multilingual or language-specific models and lack of proper benchmark datasets. Based on this shared task, Offensive Language Identification in Dravidian Languages at EACL 2021, we present an exhaustive exploration of different transformer models, We also provide a genetic algorithm technique for ensembling different models. Our ensembled models trained separately for each language secured the first position in Tamil, the second position in Kannada, and the first position in Malayalam sub-tasks. The models and codes are provided.
翻訳日:2021-02-22 13:39:38 公開日:2021-02-19
# SLPC: 自律運転における確率的ライダー予測と完了のためのVRNNベースのアプローチ

SLPC: a VRNN-based approach for stochastic lidar prediction and completion in autonomous driving ( http://arxiv.org/abs/2102.09883v1 )

ライセンス: Link先を確認
George Eskandar, Alexander Braun, Martin Meinke, Karim Armanious, Bin Yang(参考訳) 将来の3D LiDARポイントクラウドの予測は、軌道予測やポーズ予測、意思決定といった自律運転における多くのアプリケーションで有用な課題である。 本研究では,Stochastic LiDAR Prediction and Completion (SLPC) と題する,変動リカレントニューラルネットワーク(VRNN) と呼ばれる生成モデルに基づく新たなLiDAR予測フレームワークを提案する。 提案手法は,フレーム内の奥行きマップを空間的に塗り替えることで,スパースデータを扱う際の従来のビデオ予測フレームワークの限界に対処できる。 空間的に疎いデータから深度マップを予測・完成する新たなタスクを導入し,VRNNのスパースバージョンとラベルを必要としない効果的な自己教師型トレーニング方法を提案する。 実験結果から,映像予測における工法と比較し,本フレームワークの有効性が示唆された。

Predicting future 3D LiDAR pointclouds is a challenging task that is useful in many applications in autonomous driving such as trajectory prediction, pose forecasting and decision making. In this work, we propose a new LiDAR prediction framework that is based on generative models namely Variational Recurrent Neural Networks (VRNNs), titled Stochastic LiDAR Prediction and Completion (SLPC). Our algorithm is able to address the limitations of previous video prediction frameworks when dealing with sparse data by spatially inpainting the depth maps in the upcoming frames. Our contributions can thus be summarized as follows: we introduce the new task of predicting and completing depth maps from spatially sparse data, we present a sparse version of VRNNs and an effective self-supervised training method that does not require any labels. Experimental results illustrate the effectiveness of our framework in comparison to the state of the art methods in video prediction.
翻訳日:2021-02-22 13:39:24 公開日:2021-02-19
# 使用前のCalibrate: 言語モデルの性能向上

Calibrate Before Use: Improving Few-Shot Performance of Language Models ( http://arxiv.org/abs/2102.09690v1 )

ライセンス: Link先を確認
Tony Z. Zhao, Eric Wallace, Shi Feng, Dan Klein, Sameer Singh(参考訳) GPT-3は、いくつかのトレーニング例を含む自然言語プロンプトを提供すると、多数のタスクを実行できます。 プロンプトフォーマットの選択、トレーニング例の選択、トレーニング例の順序などによって、ほぼ偶然から最先端まで、正確性が変化する可能性がある。 この不安定性は言語モデルの偏りから、例えば、プロンプトの終わり近くに置かれたり、事前学習データで一般的であるような、特定の回答を予測することに起因する。 これを軽減するために、まずトレーニングプロンプトと「N/A」などのコンテンツフリーテスト入力を与えられたときに予測を求め、各回答に対するモデルのバイアスを推定します。 次に、この入力の予測を解答全体で均一にするキャリブレーションパラメータを適合させる。 多様なタスクセットにおいて、このコンテキストキャリブレーション手順は、GPT-3とGPT-2の平均精度(最大30.0%まで)を大幅に改善し、プロンプトの異なる選択間のばらつきを低減する。

GPT-3 can perform numerous tasks when provided a natural language prompt that contains a few training examples. We show that this type of few-shot learning can be unstable: the choice of prompt format, training examples, and even the order of the training examples can cause accuracy to vary from near chance to near state-of-the-art. We demonstrate that this instability arises from the bias of language models towards predicting certain answers, e.g., those that are placed near the end of the prompt or are common in the pre-training data. To mitigate this, we first estimate the model's bias towards each answer by asking for its prediction when given the training prompt and a content-free test input such as "N/A". We then fit calibration parameters that cause the prediction for this input to be uniform across answers. On a diverse set of tasks, this contextual calibration procedure substantially improves GPT-3 and GPT-2's average accuracy (up to 30.0% absolute) and reduces variance across different choices of the prompt.
翻訳日:2021-02-22 13:39:06 公開日:2021-02-19
# KBCNMUJAL@HASOC-Drav idian-CodeMix-FIRE20 20: Machine Learning for Detection of Hate Speech and Offensive Code-Mixed Social Media text (英語)

KBCNMUJAL@HASOC-Drav idian-CodeMix-FIRE20 20: Using Machine Learning for Detection of Hate Speech and Offensive Code-Mixed Social Media text ( http://arxiv.org/abs/2102.09866v1 )

ライセンス: Link先を確認
Varsha Pathak, Manish Joshi, Prasad Joshi, Monica Mundada and Tanmay Joshi(参考訳) 本論文では,2020年12月16-20日にインド・ハイデラバードで開催された情報検索評価フォーラムにおいて,Hate Speech and Offensive Content Identification in Indo-European Languages (HASOC) のタスク2について,当社のチームであるKBCNMUJALが提出したシステムについて述べる。 2つのドラヴィディアン言語Vizのデータセット。 サイズ4000のマラヤラムとタミルは、それぞれHASOC主催者によって共有されました。 これらのデータセットは、分類と回帰モデルに基づいて、異なる機械学習アルゴリズムを使用してマシンを訓練するために使用される。 データセットは、ツイートまたはyoutubeコメントから成り、2つのクラスラベルが攻撃的であり、攻撃的ではない。 このマシンは、これらの2つのカテゴリーのソーシャルメディアメッセージを分類するように訓練されている。 適切なn-gram機能セットを抽出し、Hate Speechテキストメッセージの特定の特性を学びます。 これらの特徴モデルはn-gramのtfidf重みに基づいている。 提案した研究および各実験により, 単語, 文字, 単語, 文字n-gramの組合せモデルなどの特徴が, 攻撃的テキスト内容の用語パターンの同定に有用であることが示唆された。 HASOC共有タスクの一環として、テストデータセットはHASOCトラックオーガナイザーによって利用できるようになります。 両言語で開発された最も優れた分類モデルは、テストデータセットに適用される。 Malayalam言語のトレーニングデータセットに最も正確な結果を与えるモデルは、各テストデータのカテゴリを予測するために実験された。 このシステムはF1スコアが0.77である。 同様に、タミル語の最高のパフォーマンスモデルはF1スコア0.87を得た。 この作業は、それぞれマラヤラム語とタミル語の共有タスク2で2位と3位にランクされている。 提案システムはHASOC_kbcnmujalと命名される。

This paper describes the system submitted by our team, KBCNMUJAL, for Task 2 of the shared task Hate Speech and Offensive Content Identification in Indo-European Languages (HASOC), at Forum for Information Retrieval Evaluation, December 16-20, 2020, Hyderabad, India. The datasets of two Dravidian languages Viz. Malayalam and Tamil of size 4000 observations, each were shared by the HASOC organizers. These datasets are used to train the machine using different machine learning algorithms, based on classification and regression models. The datasets consist of tweets or YouTube comments with two class labels offensive and not offensive. The machine is trained to classify such social media messages in these two categories. Appropriate n-gram feature sets are extracted to learn the specific characteristics of the Hate Speech text messages. These feature models are based on TFIDF weights of n-gram. The referred work and respective experiments show that the features such as word, character and combined model of word and character n-grams could be used to identify the term patterns of offensive text contents. As a part of the HASOC shared task, the test data sets are made available by the HASOC track organizers. The best performing classification models developed for both languages are applied on test datasets. The model which gives the highest accuracy result on training dataset for Malayalam language was experimented to predict the categories of respective test data. This system has obtained an F1 score of 0.77. Similarly the best performing model for Tamil language has obtained an F1 score of 0.87. This work has received 2nd and 3rd rank in this shared Task 2 for Malayalam and Tamil language respectively. The proposed system is named HASOC_kbcnmujal.
翻訳日:2021-02-22 13:38:46 公開日:2021-02-19
# 確率的発生回路

Probabilistic Generating Circuits ( http://arxiv.org/abs/2102.09768v1 )

ライセンス: Link先を確認
Honghua Zhang, Brendan Juba, Guy Van den Broeck(参考訳) コンビネータと確率理論で広く使用されている生成関数は、関数値を多項式の係数にエンコードする。 本稿では,確率的モデルとしての利用を考察し,効率的な表現のための確率的生成回路(pgcs)を提案する。 PGCは、決定的点プロセス(DPP)、和積ネットワークのような確率回路(PC)、およびトラクタブルグラフィカルモデルを含む、多くの既存のトラクタブル確率論モデルに厳密に従った。 PGCは、非常に異なる既存のモデルを統一する理論的なフレームワークであるだけでなく、現実的なデータをモデリングする大きな可能性をも示しています。 我々はPCとDPPの単純な組み合わせによって簡単に仮定されない単純なPGCのクラスを示し、一連の密度推定ベンチマークで競合性能を得る。 また、強いレイリー分布の理論に対する PGCs の関連も強調する。

Generating functions, which are widely used in combinatorics and probability theory, encode function values into the coefficients of a polynomial. In this paper, we explore their use as a tractable probabilistic model, and propose probabilistic generating circuits (PGCs) for their efficient representation. PGCs strictly subsume many existing tractable probabilistic models, including determinantal point processes (DPPs), probabilistic circuits (PCs) such as sum-product networks, and tractable graphical models. We contend that PGCs are not just a theoretical framework that unifies vastly different existing models, but also show huge potential in modeling realistic data. We exhibit a simple class of PGCs that are not trivially subsumed by simple combinations of PCs and DPPs, and obtain competitive performance on a suite of density estimation benchmarks. We also highlight PGCs' connection to the theory of strongly Rayleigh distributions.
翻訳日:2021-02-22 13:38:17 公開日:2021-02-19
# 単位重みに対する投影アルゴリズム

A Projection Algorithm for the Unitary Weights ( http://arxiv.org/abs/2102.10052v1 )

ライセンス: Link先を確認
Hao-Yuan Chang (University of California, Los Angeles)(参考訳) ユニタリニューラルネットワークは、推論速度を低下させる明示的な正規化を必要とせずに、爆発と消滅のアクティベーション/勾配問題を解決するための代替手段として有望である。 しかし、重み行列にユニタリな制約が加えられるため、長いトレーニング時間を必要とすることが多い。 ここでは, 事前学習された非単位級数からの近似ユニタリ重みの計算に, リー代数を用いたバックプロパゲーション手法を用いた新しいアルゴリズムを提案する。 これらの近似で初期化されたユニタリネットワークは、推論スピードアップを維持しながら、トレーニング時間のペナルティを軽減し、望ましい精度に達することができる。 我々のアプローチはユニタリネットワーク、特に事前訓練された重みが自由に利用できるニューラルネットワークの適応に役立ちます。

Unitary neural networks are promising alternatives for solving the exploding and vanishing activation/gradient problem without the need for explicit normalization that reduces the inference speed. However, they often require longer training time due to the additional unitary constraints on their weight matrices. Here we show a novel algorithm using a backpropagation technique with Lie algebra for computing approximated unitary weights from their pre-trained, non-unitary counterparts. The unitary networks initialized with these approximations can reach the desired accuracies much faster, mitigating their training time penalties while maintaining inference speedups. Our approach will be instrumental in the adaptation of unitary networks, especially for those neural architectures where pre-trained weights are freely available.
翻訳日:2021-02-22 13:38:00 公開日:2021-02-19
# 製品アイデアの細かい機能面で創造的なインスピレーションをスケーリングする

Scaling Creative Inspiration with Fine-Grained Functional Facets of Product Ideas ( http://arxiv.org/abs/2102.09761v1 )

ライセンス: Link先を確認
Tom Hope, Ronen Tamari, Hyeonsu Kang, Daniel Hershcovich, Joel Chan, Aniket Kittur, Dafna Shahaf(参考訳) Webスケールの製品、特許、科学論文のリポジトリは、何百万ものアイデアを収集し、ユーザーによるインスピレーションやソリューションの発見を支援する自動化システムを構築する機会を提供する。 しかし、アイデアの共通表現は、創造的革新を支援するために必要とされる重要な構造を欠いている、生のテキスト記述の形式である。 先行研究は、ユーザーがアイデア間の構造的つながりを発見し、既存の技術に創造的に適応できるように、機能的構造(発明のメカニズムと目的)の重要性を指摘した。 しかし, 機能表現の使用は, 表現力に乏しく, 知識ベースに依存し, カバー範囲が低く, ユーザによる手作業に大きく依存していた。 このギャップを埋め、大規模なアイデアマイニングの可能性を解くために、製品を細かい機能ファセットに自動的に分割する新しい計算表現を提案します。 我々は,実世界の挑戦的な発明記述コーパスからこれらのファセットを抽出するモデルを訓練し,各製品をファセット埋め込みの集合として表現する。 機能的ファセット間の粒度のマッチングをサポートする類似度メトリクスをアイデア間で設計し、それらをメカニズムや目的に対する表現的クエリを可能にする新しい機能的検索機能の構築に用いる。 我々は,製品群全体にわたる目的とメカニズムの階層的関係を捉えたグラフを構築し,そのグラフを用いて焦点問題を中心とした設計空間を探索し,関連する問題視点を考察する。 経験的ユーザ研究において、このアプローチは、検索精度と創造的インスピレーションの質を著しく向上させ、強力なベースラインと製品テキストの最先端表現を50~60%向上させる。

Web-scale repositories of products, patents and scientific papers offer an opportunity for creating automated systems that scour millions of ideas and assist users in discovering inspirations and solutions. Yet the common representation of ideas is in the form of raw textual descriptions, lacking important structure that is required for supporting creative innovation. Prior work has pointed to the importance of functional structure -- capturing the mechanisms and purposes of inventions -- for allowing users to discover structural connections across ideas and creatively adapt existing technologies. However, the use of functional representations was either coarse and limited in expressivity, or dependent on curated knowledge bases with poor coverage and significant manual effort from users. To help bridge this gap and unlock the potential of large-scale idea mining, we propose a novel computational representation that automatically breaks up products into fine-grained functional facets. We train a model to extract these facets from a challenging real-world corpus of invention descriptions, and represent each product as a set of facet embeddings. We design similarity metrics that support granular matching between functional facets across ideas, and use them to build a novel functional search capability that enables expressive queries for mechanisms and purposes. We construct a graph capturing hierarchical relations between purposes and mechanisms across an entire corpus of products, and use the graph to help problem-solvers explore the design space around a focal problem and view related problem perspectives. In empirical user studies, our approach leads to a significant boost in search accuracy and in the quality of creative inspirations, outperforming strong baselines and state-of-art representations of product texts by 50-60%.
翻訳日:2021-02-22 13:37:48 公開日:2021-02-19
# 交通渋滞緩和における深層学習の応用 : 調査

Applications of deep learning in traffic congestion alleviation: A survey ( http://arxiv.org/abs/2102.09759v1 )

ライセンス: Link先を確認
Nishant Kumar, Martin Raubal(参考訳) 渋滞に関する予測タスクは、輸送ネットワークのサービスレベルを改善することを目的としている。 より高解像度のデータセットへのアクセスの増加に伴い、このような予測タスクにおけるディープラーニングの関連性が高まっている。 近年の総合的な調査論文は、交通分野におけるディープラーニングの応用を要約している。 しかし、輸送ネットワークのシステムダイナミクスは、非混雑状態と混雑状態の間に大きく異なるため、混雑予測に特有の課題を明確に理解する必要が生じる。 本調査では, 渋滞の検出, 予測, 伝播に関するタスクにおける深層学習応用の現状について述べる。 再発と非再発は別々に議論される。 私たちの調査は、現在の研究における固有の課題とギャップを明らかにすることにつながります。 最後に,今後の課題に対する回答として,今後の研究方向性を提案する。

Prediction tasks related to congestion are targeted at improving the level of service of the transportation network. With increasing access to larger datasets of higher resolution, the relevance of deep learning in such prediction tasks, is increasing. Several comprehensive survey papers in recent years have summarised the deep learning applications in the transportation domain. However, the system dynamics of the transportation network vary greatly between the non-congested state and the congested state -- thereby necessitating the need for a clear understanding of the challenges specific to congestion prediction. In this survey, we present the current state of deep learning applications in the tasks related to detection, prediction and propagation of congestion. Recurrent and non-recurrent congestion are discussed separately. Our survey leads us to uncover inherent challenges and gaps in the current state of research. Finally, we present some suggestions for future research directions as answers to the identified challenges.
翻訳日:2021-02-22 13:36:39 公開日:2021-02-19
# E(n)同変グラフニューラルネットワーク

E(n) Equivariant Graph Neural Networks ( http://arxiv.org/abs/2102.09844v1 )

ライセンス: Link先を確認
Victor Garcia Satorras, Emiel Hoogeboom, Max Welling(参考訳) 本稿では,E(n)-Equivariant Graph Neural Networks (EGNNs) と呼ばれる回転,翻訳,反射,置換に等価なグラフニューラルネットワークを学習する新しいモデルを提案する。 既存の手法とは対照的に、私たちの仕事は計算的に高価な中間層における高階表現を必要としません。 さらに、既存の手法は3次元空間上の等価性に限定されるが、私たちのモデルは容易に高次元空間にスケールされる。 本手法の動的システムモデリング,グラフオートエンコーダにおける表現学習,分子特性予測への効果を実証する。

This paper introduces a new model to learn graph neural networks equivariant to rotations, translations, reflections and permutations called E(n)-Equivariant Graph Neural Networks (EGNNs). In contrast with existing methods, our work does not require computationally expensive higher-order representations in intermediate layers while it still achieves competitive or better performance. In addition, whereas existing methods are limited to equivariance on 3 dimensional spaces, our model is easily scaled to higher-dimensional spaces. We demonstrate the effectiveness of our method on dynamical systems modelling, representation learning in graph autoencoders and predicting molecular properties.
翻訳日:2021-02-22 13:36:28 公開日:2021-02-19
# スイッチングコストを考慮した確率的および対向的帯域のアルゴリズム

An Algorithm for Stochastic and Adversarial Bandits with Switching Costs ( http://arxiv.org/abs/2102.09864v1 )

ライセンス: Link先を確認
Chlo\'e Rouyer, Yevgeny Seldin, Nicol\`o Cesa-Bianchi(参考訳) スイッチングコストがかかる確率的・対向的マルチアームバンドのアルゴリズムを提案し,腕のスイッチングを行うたびに,アルゴリズムは$\lambda$を支払う。 私たちのアルゴリズムは、Zimmert and Seldin(2021)のTsallis-INFアルゴリズムの適応に基づいています。 不可解な逆転設定では、$O\big((\lambda K)^{1/3}T^{2/3} + \sqrt{KT}\big)$の最小最適リコール境界を達成し、ここで$T$は時空であり、$K$は腕の数である。 確率論的に制約された逆数制では、特別の場合として確率的体制を含むが、この規則は、$O\left(\big(\big((\ lambda K)^{2/3} T^{1/3} + \ln T\big)\sum_{i \neq i^*} \Delta_i^{-1}\right)$、$\Delta_i$は準最適ギャップであり、$i^*$は一意の最適アームである。 特別な場合、$\lambda = 0$ (スイッチングコストなし) では、両方の境界は定数内で最小最適である。 また、スイッチングコストの経時変化が許される問題の変種についても検討します。 本稿では, 確率的, 確率的に制約された逆数, および, 固定的な切替コストを伴う逆数系におけるアルゴリズムの競争性を示す実験的な評価を行う。

We propose an algorithm for stochastic and adversarial multiarmed bandits with switching costs, where the algorithm pays a price $\lambda$ every time it switches the arm being played. Our algorithm is based on adaptation of the Tsallis-INF algorithm of Zimmert and Seldin (2021) and requires no prior knowledge of the regime or time horizon. In the oblivious adversarial setting it achieves the minimax optimal regret bound of $O\big((\lambda K)^{1/3}T^{2/3} + \sqrt{KT}\big)$, where $T$ is the time horizon and $K$ is the number of arms. In the stochastically constrained adversarial regime, which includes the stochastic regime as a special case, it achieves a regret bound of $O\left(\big((\lambd a K)^{2/3} T^{1/3} + \ln T\big)\sum_{i \neq i^*} \Delta_i^{-1}\right)$, where $\Delta_i$ are the suboptimality gaps and $i^*$ is a unique optimal arm. In the special case of $\lambda = 0$ (no switching costs), both bounds are minimax optimal within constants. We also explore variants of the problem, where switching cost is allowed to change over time. We provide experimental evaluation showing competitiveness of our algorithm with the relevant baselines in the stochastic, stochastically constrained adversarial, and adversarial regimes with fixed switching cost.
翻訳日:2021-02-22 13:36:17 公開日:2021-02-19
# Causal Offline Reinforcement Learningのためのインスツルメンタル変数の反復

Instrumental Variable Value Iteration for Causal Offline Reinforcement Learning ( http://arxiv.org/abs/2102.09907v1 )

ライセンス: Link先を確認
Luofeng Liao, Zuyue Fu, Zhuoran Yang, Mladen Kolar, Zhaoran Wang(参考訳) オフライン強化学習(RL)では、事前収集された観測データのみから最適なポリシーを学習する。 しかしながら、観測データでは、アクションはしばしば観測されていない変数によって構成される。 インストゥルメンタル変数 (IVs) は、RL の文脈において、状態変数に対する影響がすべてアクションを通じて仲介される変数である。 有効な測定器が存在する場合、観測データを通じて結合した遷移ダイナミクスを回復することができる。 我々は、遷移力学が加法非線形関数形式を認める連結マルコフ決定過程について研究する。 IVsを用いて、観測データに基づいて遷移力学を識別できる条件付きモーメント制限(CMR)を導出する。 本稿では,CMRの一次二重改質に基づくIV-aided Value Iteration (IVVI)アルゴリズムを提案する。 私たちの知る限りでは、これは楽器支援オフラインRLのための最初の実証可能な効率のよいアルゴリズムです。

In offline reinforcement learning (RL) an optimal policy is learnt solely from a priori collected observational data. However, in observational data, actions are often confounded by unobserved variables. Instrumental variables (IVs), in the context of RL, are the variables whose influence on the state variables are all mediated through the action. When a valid instrument is present, we can recover the confounded transition dynamics through observational data. We study a confounded Markov decision process where the transition dynamics admit an additive nonlinear functional form. Using IVs, we derive a conditional moment restriction (CMR) through which we can identify transition dynamics based on observational data. We propose a provably efficient IV-aided Value Iteration (IVVI) algorithm based on a primal-dual reformulation of CMR. To the best of our knowledge, this is the first provably efficient algorithm for instrument-aided offline RL.
翻訳日:2021-02-22 13:35:44 公開日:2021-02-19
# 意外と少ないサンプルで止まることを学ぶ

Learning to Stop with Surprisingly Few Samples ( http://arxiv.org/abs/2102.10025v1 )

ライセンス: Link先を確認
Tianyi Zhang, Daniel Russo, Assaf Zeevi(参考訳) 我々は、無限の地平線最適停止問題を考える。 根底にある分布が事前に知られている場合、この問題の解は動的プログラミング(DP)を介して得られ、よく知られたしきい値の規則によって与えられる。 この分布に関する情報が欠如している場合、自然(素朴な)アプローチは「探索と探索」(explore-then-exploi t)であり、未知の分布またはそのパラメータが初期探索段階にわたって推定され、この推定はDPで残存搾取段階に対する行動を決定するのに用いられる。 i)適切なチューニングを行うと、この手法はフルインフォメーションdpソリューションに匹敵するパフォーマンスをもたらす。(ii) 推定誤差の伝播によるdpにおけるこのような「プラグイン」アプローチの感度に関する一般的な知識にもかかわらず、驚くほどの「短い」(地平線の対数)探索地平線が、そのパフォーマンスを得るために十分である。 根底にある分布が重尾な場合、これらの観測はより顕著である:${\it single \, sample}$ 探索位相は十分である。

We consider a discounted infinite horizon optimal stopping problem. If the underlying distribution is known a priori, the solution of this problem is obtained via dynamic programming (DP) and is given by a well known threshold rule. When information on this distribution is lacking, a natural (though naive) approach is "explore-then-exploit ," whereby the unknown distribution or its parameters are estimated over an initial exploration phase, and this estimate is then used in the DP to determine actions over the residual exploitation phase. We show: (i) with proper tuning, this approach leads to performance comparable to the full information DP solution; and (ii) despite common wisdom on the sensitivity of such "plug in" approaches in DP due to propagation of estimation errors, a surprisingly "short" (logarithmic in the horizon) exploration horizon suffices to obtain said performance. In cases where the underlying distribution is heavy-tailed, these observations are even more pronounced: a ${\it single \, sample}$ exploration phase suffices.
翻訳日:2021-02-22 13:35:31 公開日:2021-02-19
# 深部畳み込みネットワークにおける近似について:カーネル・パースペクティブ

On Approximation in Deep Convolutional Networks: a Kernel Perspective ( http://arxiv.org/abs/2102.10032v1 )

ライセンス: Link先を確認
Alberto Bietti(参考訳) 画像や音声などの高次元データを含むタスクにおける深い畳み込みネットワークの成功は、次元によって呪われない関数の特定のクラスを効率的に近似することができることを示唆している。 本論文では、標準ビジョンデータセットで良好な実証性能を達成した多層畳み込みカーネルを考察し、カーネル手法のレンズを通じて理論的および実証的に検討し、特定のシステムにおける過パラメータ畳み込みネットワークの理論的記述を提供する。 入力パッチで動作する表現型カーネルは第1層では重要であるが、より単純な多項式カーネルは高い層で十分性能を保ち得る。 このような簡略化されたモデルでは、RKHSとその正規化特性の正確な機能説明を提供し、入力信号の異なる部分間の相互作用をキャプチャするための深さの役割と、そのような部品のグローバルまたは相対的な位置に対する円滑な依存を促進するためのプールの役割を強調します。

The success of deep convolutional networks on on tasks involving high-dimensional data such as images or audio suggests that they are able to efficiently approximate certain classes of functions that are not cursed by dimensionality. In this paper, we study this theoretically and empirically through the lens of kernel methods, by considering multi-layer convolutional kernels, which have achieved good empirical performance on standard vision datasets, and provide theoretical descriptions of over-parameterized convolutional networks in certain regimes. We find that while expressive kernels operating on input patches are important at the first layer, simpler polynomial kernels can suffice in higher layers for good performance. For such simplified models, we provide a precise functional description of the RKHS and its regularization properties, highlighting the role of depth for capturing interactions between different parts of the input signal, and the role of pooling for encouraging smooth dependence on the global or relative positions of such parts.
翻訳日:2021-02-22 13:35:08 公開日:2021-02-19
# 極端ペイオフを有するマルチアーマッドバンドの出力重み付きサンプリング

Output-Weighted Sampling for Multi-Armed Bandits with Extreme Payoffs ( http://arxiv.org/abs/2102.10085v1 )

ライセンス: Link先を確認
Yibo Yang, Antoine Blanchard, Themistoklis Sapsis, Paris Perdikaris(参考訳) オンライン意思決定のための新しいタイプの取得機能を提示する 多腕およびコンテキストのバンディット問題 極端なペイオフを伴う。 具体的には、ペイオフ関数をガウス過程としてモデル化し、観測された報酬の変動に応じて最も関連性が高いと見なされるバンディットへの探索をガイドする新しいタイプの高信頼境界(UCB)取得関数を定式化する。 これは、入力に対する出力の重要性を定量化し、本質的には極端な報酬の探索を促進する \textit{attention mechanism} として機能する牽引可能な可能性比を計算することによって達成される。 提案手法のメリットをいくつかの合成ベンチマーク、およびノイズの多いセンサネットワークデータを含む現実的な例で示します。 最後に,ガウス過程を用いたバンドイット最適化のためのjaxライブラリを提供する。

We present a new type of acquisition functions for online decision making in multi-armed and contextual bandit problems with extreme payoffs. Specifically, we model the payoff function as a Gaussian process and formulate a novel type of upper confidence bound (UCB) acquisition function that guides exploration towards the bandits that are deemed most relevant according to the variability of the observed rewards. This is achieved by computing a tractable likelihood ratio that quantifies the importance of the output relative to the inputs and essentially acts as an \textit{attention mechanism} that promotes exploration of extreme rewards. We demonstrate the benefits of the proposed methodology across several synthetic benchmarks, as well as a realistic example involving noisy sensor network data. Finally, we provide a JAX library for efficient bandit optimization using Gaussian processes.
翻訳日:2021-02-22 13:34:50 公開日:2021-02-19
# 時間差損失を用いた速度決定のための訓練カスケードネットワーク

Training cascaded networks for speeded decisions using a temporal-difference loss ( http://arxiv.org/abs/2102.09808v1 )

ライセンス: Link先を確認
Michael L. Iuzzolino, Michael C. Mozer, Samy Bengio(参考訳) ディープフィードフォワードニューラルネットワークは原始視覚システムといくつかの特徴を共有しているが、重要な区別はそれらのダイナミクスである。 ディープネットは通常、各層が処理を開始する前にその計算を完全に完了するシーケンシャルステージで動作します。 それとは対照的に、生物学的システムにはカスケード力学があり、情報伝達は時間とともに徐々に進行する。 本研究では,各残差ブロックに伝搬遅延を導入し,すべてのレイヤを並列に並列に更新することで,カスケード型ResNetを構築する。 スキップ接続を介して送信される情報は遅延を避けるため、アーキテクチャの機能的深さは時間の経過とともに増加し、処理速度と精度のトレードオフをもたらす。 標準損失よりも厳密に優れた速度精度プロファイルを実現する時間拡散訓練損失(td)を提案する。 典型的なインスタンスは非定型インスタンスよりも高速に分類され、カスケードdtdは従来のリネットよりも永続的および過渡的なノイズに対してより頑健であり、カスケードdtdの時間変化出力トレースはood検出のための「メタ認知」モデルで使用できる信号を提供し、処理を終了するタイミングを決定する。

Although deep feedforward neural networks share some characteristics with the primate visual system, a key distinction is their dynamics. Deep nets typically operate in sequential stages wherein each layer fully completes its computation before processing begins in subsequent layers. In contrast, biological systems have cascaded dynamics: information propagates from neurons at all layers in parallel but transmission is gradual over time. In our work, we construct a cascaded ResNet by introducing a propagation delay into each residual block and updating all layers in parallel in a stateful manner. Because information transmitted through skip connections avoids delays, the functional depth of the architecture increases over time and yields a trade off between processing speed and accuracy. We introduce a temporal-difference (TD) training loss that achieves a strictly superior speed accuracy profile over standard losses. The CascadedTD model has intriguing properties, including: typical instances are classified more rapidly than atypical instances; CascadedTD is more robust to both persistent and transient noise than is a conventional ResNet; and the time-varying output trace of CascadedTD provides a signal that can be used by `meta-cognitive' models for OOD detection and to determine when to terminate processing.
翻訳日:2021-02-22 13:34:36 公開日:2021-02-19
# 自動車再識別の過去・現在・未来の動向:総合的レビュー

Trends in Vehicle Re-identification Past, Present, and Future: A Comprehensive Review ( http://arxiv.org/abs/2102.09744v1 )

ライセンス: Link先を確認
Zakria, Jianhua Deng, Muhammad Saddam Khokhar, Muhammad Umar Aftab, Jingye Cai, Rajesh Kumar and Jay Kumar(参考訳) 監視カメラネットワーク上での車両再識別(再ID)は、インテリジェントな輸送システム(ITS)におけるエキサイティングで挑戦的なタスクです。 大都市での多様な適用性のため、大きな注目を集めた。 車両リアイドは、複数のカメラネットワークで非オーバーラップビュー上のターゲット車両にマッチします。 しかし,クラス間類似性,クラス内変動性,視点変化,時空間的不確実性などにより困難になる。 本稿では,車両のリid研究の詳細な図面を描くために,様々な車両のリid技術,適用性,データセット,および異なる方法論の簡単な比較について概説する。 本稿では,車両の外観,ナンバープレート,時空間特性など,視覚に基づく車両のre-idアプローチに着目した。 さらに、私たちはさまざまなドメインのさまざまなアプリケーションと同様に、主な課題を探求します。 最後に、VeRi-776 および VehicleID データセットに対する現在の最先端のメソッドのパフォーマンスの詳細な比較を、将来の方向と要約します。 我々は,現在までの車両再設計作業の見直しによって,今後の研究を促進することを目的としている。

Vehicle Re-identification (re-id) over surveillance camera network with non-overlapping field of view is an exciting and challenging task in intelligent transportation systems (ITS). Due to its versatile applicability in metropolitan cities, it gained significant attention. Vehicle re-id matches targeted vehicle over non-overlapping views in multiple camera network. However, it becomes more difficult due to inter-class similarity, intra-class variability, viewpoint changes, and spatio-temporal uncertainty. In order to draw a detailed picture of vehicle re-id research, this paper gives a comprehensive description of the various vehicle re-id technologies, applicability, datasets, and a brief comparison of different methodologies. Our paper specifically focuses on vision-based vehicle re-id approaches, including vehicle appearance, license plate, and spatio-temporal characteristics. In addition, we explore the main challenges as well as a variety of applications in different domains. Lastly, a detailed comparison of current state-of-the-art methods performances over VeRi-776 and VehicleID datasets is summarized with future directions. We aim to facilitate future research by reviewing the work being done on vehicle re-id till to date.
翻訳日:2021-02-22 13:34:12 公開日:2021-02-19
# VisuoSpatial Foresight for Physical Sequential Fabric Manipulation

VisuoSpatial Foresight for Physical Sequential Fabric Manipulation ( http://arxiv.org/abs/2102.09754v1 )

ライセンス: Link先を確認
Ryan Hoque, Daniel Seita, Ashwin Balakrishna, Aditya Ganapathi, Ajay Kumar Tanwani, Nawid Jamali, Katsu Yamane, Soshi Iba, Ken Goldberg(参考訳) ロボット織物の操作は、家庭ロボット、織物、シニアケア、手術に応用されている。 しかし、既存のファブリック操作技術は特定のタスクのために設計されており、異なる関連するタスクにまたがる一般化が困難である。 我々はVisual Foresightフレームワーク上に構築され、単一のゴール条件付きポリシーで異なるシーケンシャルなファブリック操作タスクを達成するために効率的に再利用可能なファブリックダイナミクスを学習する。 ドメインランダム化rgb画像と深度マップの視覚的ダイナミクスをシミュレーションで同時に学習するvisospatial foresight(vsf)について、以前の研究から拡張した。 本研究は,多段階ファブリックの平滑化と折り畳み作業のvsfをシミュレーションの5つのベースライン法と,dvrk(da vinci research kit)の手術ロボットに対して評価した。 RGBDデータは、純粋なRGBデータに対するシミュレーションにおいて、折り畳みの成功率を80%改善する。 本研究では,データ生成,視覚力学モデルの選択,コスト関数,最適化手順など,VSFの4つのコンポーネントについて検討する。 以上の結果から,より長いコーナーアクションを用いた視覚力学モデルのトレーニングにより,ファブリックの折り畳み効率が76%向上し,VSFが従来90%の信頼性で実行できなかった物理的シーケンシャルなファブリック折り畳み作業が可能であることが示唆された。 コード、データ、ビデオ、補足資料はhttps://sites.google .com/view/fabric-vsf /で入手できる。

Robotic fabric manipulation has applications in home robotics, textiles, senior care and surgery. Existing fabric manipulation techniques, however, are designed for specific tasks, making it difficult to generalize across different but related tasks. We build upon the Visual Foresight framework to learn fabric dynamics that can be efficiently reused to accomplish different sequential fabric manipulation tasks with a single goal-conditioned policy. We extend our earlier work on VisuoSpatial Foresight (VSF), which learns visual dynamics on domain randomized RGB images and depth maps simultaneously and completely in simulation. In this earlier work, we evaluated VSF on multi-step fabric smoothing and folding tasks against 5 baseline methods in simulation and on the da Vinci Research Kit (dVRK) surgical robot without any demonstrations at train or test time. A key finding was that depth sensing significantly improves performance: RGBD data yields an 80% improvement in fabric folding success rate in simulation over pure RGB data. In this work, we vary 4 components of VSF, including data generation, the choice of visual dynamics model, cost function, and optimization procedure. Results suggest that training visual dynamics models using longer, corner-based actions can improve the efficiency of fabric folding by 76% and enable a physical sequential fabric folding task that VSF could not previously perform with 90% reliability. Code, data, videos, and supplementary material are available at https://sites.google .com/view/fabric-vsf /.
翻訳日:2021-02-22 13:33:56 公開日:2021-02-19
# TacticZero: 深層強化学習によるスクラッチからの定理の学習

TacticZero: Learning to Prove Theorems from Scratch with Deep Reinforcement Learning ( http://arxiv.org/abs/2102.09756v1 )

ライセンス: Link先を確認
Minchao Wu, Michael Norrish, Christian Walder, Amir Dezfouli(参考訳) 深層強化学習を用いた対話型定理証明(ITP)の新しい手法を提案する。 これまでの研究とは異なり、我々のフレームワークは、エンドツーエンドとスクラッチの両方(つまり、人間の専門家による例証に頼ることなく)の定理を証明できる。 我々は、各状態が潜在的な導出経路の集合を表すマルコフ決定プロセス(MDP)としてITPのプロセスを定式化する。 エージェントは、深い政策勾配を用いて、有望な導出と各導出の中から適切な戦術を選択することを学習する。 この構造により、エージェントが(予測された)デッドエンド導出を効率的に破棄し、有望な代替品から導出を再開できる新しいバックトラッキング機構を導入することができる。 実験結果は、このフレームワークは人間の専門家を使用するアプローチのそれと匹敵するパフォーマンスを提供し、トレーニング中に見たことのない定理を証明できることを示しています。 さらに, フレームワークの各コンポーネントの役割について, アブレーション研究を用いて詳述する。

We propose a novel approach to interactive theorem-proving (ITP) using deep reinforcement learning. Unlike previous work, our framework is able to prove theorems both end-to-end and from scratch (i.e., without relying on example proofs from human experts). We formulate the process of ITP as a Markov decision process (MDP) in which each state represents a set of potential derivation paths. The agent learns to select promising derivations as well as appropriate tactics within each derivation using deep policy gradients. This structure allows us to introduce a novel backtracking mechanism which enables the agent to efficiently discard (predicted) dead-end derivations and restart the derivation from promising alternatives. Experimental results show that the framework provides comparable performance to that of the approaches that use human experts, and that it is also capable of proving theorems that it has never seen during training. We further elaborate the role of each component of the framework using ablation studies.
翻訳日:2021-02-22 13:32:11 公開日:2021-02-19
# Deep Latent Competition: 潜時空間におけるビジュアルコントロールポリシを用いたレース学習

Deep Latent Competition: Learning to Race Using Visual Control Policies in Latent Space ( http://arxiv.org/abs/2102.09812v1 )

ライセンス: Link先を確認
Wilko Schwarting, Tim Seyde, Igor Gilitschenski, Lucas Liebenwein, Ryan Sander, Sertac Karaman, Daniela Rus(参考訳) レースなどのマルチエージェント環境での競争行動を学ぶには、潜在的な敵対的相互作用に関する長期的な推論が必要です。 本稿では、自己表現による視覚制御の競合を学習する新しい強化学習アルゴリズムであるDeep Latent Competition (DLC)を提案する。 DLCエージェントは、共役遷移関数と反対の視点予測を組み合わせた学習世界のモデルのコンパクト潜在空間におけるマルチエージェント相互作用シーケンスを想像する。 想像すると、セルフプレイは現実世界でコストのかかるサンプル生成を削減し、潜在表現は観測次元で計画を優雅にスケールできる。 画像観察から計画を必要とする新しいマルチエージェントレーシングベンチマークで、競争行動の学習におけるアルゴリズムの有効性を実証します。 コードとビデオはhttps://sites.google .com/view/deep-laten t-competitionで入手できる。

Learning competitive behaviors in multi-agent settings such as racing requires long-term reasoning about potential adversarial interactions. This paper presents Deep Latent Competition (DLC), a novel reinforcement learning algorithm that learns competitive visual control policies through self-play in imagination. The DLC agent imagines multi-agent interaction sequences in the compact latent space of a learned world model that combines a joint transition function with opponent viewpoint prediction. Imagined self-play reduces costly sample generation in the real world, while the latent representation enables planning to scale gracefully with observation dimensionality. We demonstrate the effectiveness of our algorithm in learning competitive behaviors on a novel multi-agent racing benchmark that requires planning from image observations. Code and videos available at https://sites.google .com/view/deep-laten t-competition.
翻訳日:2021-02-22 13:31:54 公開日:2021-02-19
# モデルベース強化学習のためのモデル不変状態抽象化

Model-Invariant State Abstractions for Model-Based Reinforcement Learning ( http://arxiv.org/abs/2102.09850v1 )

ライセンス: Link先を確認
Manan Tomar, Amy Zhang, Roberto Calandra, Matthew E. Taylor, Joelle Pineau(参考訳) モデルベース強化学習(mbrl)の成功には,ダイナミクスモデルの精度と一般化が重要である。 タスクの複雑さが増すにつれて、MBRLメソッドではダイナミクスモデルの学習がサンプル非効率になる。 しかし、多くのタスクはダイナミクスのスパーシティ、すなわち、アクションはシステムのダイナミクスに局所的な影響しか与えない。 本稿では,この特性を単一タスク設定における因果不変性の観点から活用し, \textit{model-invariance} と呼ばれる新しい状態抽象化を導入する。 以前の状態抽象化と異なり、モデル非分散状態抽象化は状態変数よりも因果スパーシティを利用する。 これにより、状態変数の目に見えない値の新規な組み合わせを一般化することができる。 このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。 次に,複素領域のモデル不変表現を学習するための実用的手法を提案する。 我々は,mujocoベースのヒューマノイドのような課題に対して,標準最大ラピッドアプローチよりも優れたモデリング性能を示すことにより,このアプローチを検証する。 さらに、MBRL設定では、強い性能向上を示す。 他の連続制御タスクのホスト全体におけるサンプル効率。

Accuracy and generalization of dynamics models is key to the success of model-based reinforcement learning (MBRL). As the complexity of tasks increases, learning dynamics models becomes increasingly sample inefficient for MBRL methods. However, many tasks also exhibit sparsity in the dynamics, i.e., actions have only a local effect on the system dynamics. In this paper, we exploit this property with a causal invariance perspective in the single-task setting, introducing a new type of state abstraction called \textit{model-invariance}. Unlike previous forms of state abstractions, a model-invariance state abstraction leverages causal sparsity over state variables. This allows for generalization to novel combinations of unseen values of state variables, something that non-factored forms of state abstractions cannot do. We prove that an optimal policy can be learned over this model-invariance state abstraction. Next, we propose a practical method to approximately learn a model-invariant representation for complex domains. We validate our approach by showing improved modeling performance over standard maximum likelihood approaches on challenging tasks, such as the MuJoCo-based Humanoid. Furthermore, within the MBRL setting we show strong performance gains w.r.t. sample efficiency across a host of other continuous control tasks.
翻訳日:2021-02-22 13:31:37 公開日:2021-02-19
# より高速な非凸最適化のためのバイアス推定を用いた可変制御確率法

A Variance Controlled Stochastic Method with Biased Estimation for Faster Non-convex Optimization ( http://arxiv.org/abs/2102.09893v1 )

ライセンス: Link先を確認
Jia Bi, Steve R.Gunn(参考訳) 本稿では,確率分散低減勾配(svrg)アルゴリズムの性能を向上させるための新しい手法であるvcsg(em variance controlled stochastic gradient)を提案する。 SVRGによる勾配のばらつきの過度な低減を避けるため、VCSGでは超パラメータ$\lambda$を導入し、SVRGのばらつきを抑えることができる。 理論的には、この最適化法は偏りのない勾配推定器を用いて収束できるが、実際には偏りのある勾配推定は、偏りのないアプローチの方が計算コストが高いため、より効率的な近傍収束を可能にする。 また$\lambda$は偏りのない見積もりと偏りのある見積もりのトレードオフのバランスをとる効果もある。 次に,svrgにおけるフルグラデーション計算回数を最小化するため,各イテレーションに必要なグラデーション計算数を削減する分散バウンドバッチを導入する。 滑らかな非凸関数に対して、提案されたアルゴリズムは近似一階定常点(すなわち)に収束する。 {\mathbb{e}\|\nabla{f}(x)\|^{2}\leq\epsilon$) in $\mathcal{o}(min\{1/\epsilon^{3/2},n^{1/4}/\epsilon\})$ of stochasticgradient evaluations これは、確率的勾配に基づくメソッド scs $(\mathcal{o}(min\{1/\epsilon^{5/3},n^{2/3}/\epsilon\})$ の主勾配の複雑さを改善する。 理論的および実験的に、収束を改善するためにVCSGをデプロイできることが示されている。

In this paper, we proposed a new technique, {\em variance controlled stochastic gradient} (VCSG), to improve the performance of the stochastic variance reduced gradient (SVRG) algorithm. To avoid over-reducing the variance of gradient by SVRG, a hyper-parameter $\lambda$ is introduced in VCSG that is able to control the reduced variance of SVRG. Theory shows that the optimization method can converge by using an unbiased gradient estimator, but in practice, biased gradient estimation can allow more efficient convergence to the vicinity since an unbiased approach is computationally more expensive. $\lambda$ also has the effect of balancing the trade-off between unbiased and biased estimations. Secondly, to minimize the number of full gradient calculations in SVRG, a variance-bounded batch is introduced to reduce the number of gradient calculations required in each iteration. For smooth non-convex functions, the proposed algorithm converges to an approximate first-order stationary point (i.e. $\mathbb{E}\|\nabla{f}(x)\|^{2}\leq\epsilon$) within $\mathcal{O}(min\{1/\epsilon^{3/2},n^{1/4}/\epsilon\})$ number of stochastic gradient evaluations, which improves the leading gradient complexity of stochastic gradient-based method SCS $(\mathcal{O}(min\{1/\epsilon^{5/3},n^{2/3}/\epsilon\})$. It is shown theoretically and experimentally that VCSG can be deployed to improve convergence.
翻訳日:2021-02-22 13:31:20 公開日:2021-02-19
# 車両ルーティング研究における解析と機械学習

Analytics and Machine Learning in Vehicle Routing Research ( http://arxiv.org/abs/2102.10012v1 )

ライセンス: Link先を確認
Ruibin Bai and Xinan Chen and Zhi-Long Chen and Tianxiang Cui and Shuhui Gong and Wentao He and Xiaoping Jiang and Huan Jin and Jiahuan Jin and Graham Kendall and Jiawei Li and Zheng Lu and Jianfeng Ren and Paul Weng and Ning Xue and Huayan Zhang(参考訳) 車両ルーティング問題(VRP)は、多数のモデルとアルゴリズムが提案されている最も集中的に研究された組み合わせ最適化問題の一つです。 現実世界のVRPアプリケーションに関連する複雑性、不確実性、ダイナミクスに対処するため、機械学習(ML)手法は、さまざまな問題解決シナリオにおける問題解決とアルゴリズムのパフォーマンスを向上させる分析アプローチと組み合わせて使用されています。 しかし、関連する論文はいくつかの伝統的な研究分野に散在しており、非常に異なる、時に混乱する用語がある。 本稿では,VRP問題に対処する上で,解析手法とMLツールを組み合わせたハイブリッド手法の総合的なレビューを行う。 具体的には、ML支援VRPモデリングとML支援VRP最適化に関する新たな研究の流れを概観する。 mlは、vrpモデリングの強化や、オンラインとオフラインの両方のvrp最適化のためのアルゴリズムの性能向上に有効であると結論づける。 最後に,VRP研究の課題と今後の可能性について論じる。

The Vehicle Routing Problem (VRP) is one of the most intensively studied combinatorial optimisation problems for which numerous models and algorithms have been proposed. To tackle the complexities, uncertainties and dynamics involved in real-world VRP applications, Machine Learning (ML) methods have been used in combination with analytical approaches to enhance problem formulations and algorithmic performance across different problem solving scenarios. However, the relevant papers are scattered in several traditional research fields with very different, sometimes confusing, terminologies. This paper presents a first, comprehensive review of hybrid methods that combine analytical techniques with ML tools in addressing VRP problems. Specifically, we review the emerging research streams on ML-assisted VRP modelling and ML-assisted VRP optimisation. We conclude that ML can be beneficial in enhancing VRP modelling, and improving the performance of algorithms for both online and offline VRP optimisations. Finally, challenges and future opportunities of VRP research are discussed.
翻訳日:2021-02-22 13:30:37 公開日:2021-02-19
# 置換に基づくSGD:ランダム最適か?

Permutation-Based SGD: Is Random Optimal? ( http://arxiv.org/abs/2102.09718v1 )

ライセンス: Link先を確認
Shashank Rajput, Kangwook Lee, Dimitris Papailiopoulos(参考訳) 置換に基づくSGDの画期的な結果の最近のラインは、広く観察されている現象と相関している:ランダムな置換は、置換標本よりも高速収束を提供する。 しかし、ランダムは最適か? これは最適化している関数に大きく依存しており、最適順列とランダム順列の間の収束ギャップは指数関数から非存在まで様々である。 まず、滑らかな第二導関数を持つ1次元強凸函数に対して、ランダムよりも指数関数的に高速収束をもたらす最適な置換が存在することを示す。 しかし、一般的な強凸関数の場合、ランダムな置換が最適である。 最後に, 2次, 強凸関数に対しては, 構築が容易で, ランダムに比較して収束が加速することを示す。 この結果から,最適置換の一般収束特性は個々の関数クラスのニュアンスを捉えることができず,乱数よりもはるかに優れていることを示すことが示唆された。

A recent line of ground-breaking results for permutation-based SGD has corroborated a widely observed phenomenon: random permutations offer faster convergence than with-replacement sampling. However, is random optimal? We show that this depends heavily on what functions we are optimizing, and the convergence gap between optimal and random permutations can vary from exponential to nonexistent. We first show that for 1-dimensional strongly convex functions, with smooth second derivatives, there exist optimal permutations that offer exponentially faster convergence compared to random. However, for general strongly convex functions, random permutations are optimal. Finally, we show that for quadratic, strongly-convex functions, there are easy-to-construct permutations that lead to accelerated convergence compared to random. Our results suggest that a general convergence characterization of optimal permutations cannot capture the nuances of individual function classes, and can mistakenly indicate that one cannot do much better than random.
翻訳日:2021-02-22 13:30:24 公開日:2021-02-19
# 不確かさの異なる影響を解消する:肯定的行動 vs. 肯定情報

Resolving the Disparate Impact of Uncertainty: Affirmative Action vs. Affirmative Information ( http://arxiv.org/abs/2102.10019v1 )

ライセンス: Link先を確認
Claire Lazar Reich(参考訳) アルゴリズムによるリスクアセスメントは、正確な意思決定を著しく前進させるという約束を持っているが、実際には、複数の現実の例が、集団間で不釣り合いにエラーを分散することが示されている。 本論文では、なぜエラーの格差が発生するのかを特徴づける。 予測の不確実性は、しばしば分類器を低平均結果の体系的に不利なグループに導くことを示し、それらが上位平均結果よりも小さい真偽正の比率を割り当てる。 これは、予測がグループ盲検でも発生します。 これらの誤りの不均衡を避けるために、下位平均群の個人は正の分類で過剰に表現されるか、上位平均群の個人よりも正確な予測を割り当てなければならない。 我々は,誤り率分割をブリッジする解法として後者の条件に注目し,低平均群におけるデータ取得が機会へのアクセスを増大させることを示す。 我々は,この戦略を「確認情報」と呼び,信用力のある借主を識別する分類タスクにおいて,従来の肯定的行動と比較する。

Algorithmic risk assessments hold the promise of greatly advancing accurate decision-making, but in practice, multiple real-world examples have been shown to distribute errors disproportionately across demographic groups. In this paper, we characterize why error disparities arise in the first place. We show that predictive uncertainty often leads classifiers to systematically disadvantage groups with lower-mean outcomes, assigning them smaller true and false positive rates than their higher-mean counterparts. This can occur even when prediction is group-blind. We prove that to avoid these error imbalances, individuals in lower-mean groups must either be over-represented among positive classifications or be assigned more accurate predictions than those in higher-mean groups. We focus on the latter condition as a solution to bridge error rate divides and show that data acquisition for low-mean groups can increase access to opportunity. We call the strategy "affirmative information" and compare it to traditional affirmative action in the classification task of identifying creditworthy borrowers.
翻訳日:2021-02-22 13:30:07 公開日:2021-02-19
# ISCL:不対画像検出のための相互依存型自己協調学習

ISCL: Interdependent Self-Cooperative Learning for Unpaired Image Denoising ( http://arxiv.org/abs/2102.09858v1 )

ライセンス: Link先を確認
Kanggeun Lee and Won-Ki Jeong(参考訳) 自己教師型学習の進展に伴い、深層学習に基づく画像認知においてペア化されたクリーンノイズデータはもはや必要とされない。 しかし、既存のブラインド弁別法では、ゼロ平均ノイズ分布や画素単位のノイズ信号独立といったノイズ特性の仮定が必要であり、医療領域における方法の広範な適用を妨げる。 一方,非ペア学習は,ノイズ特性の仮定による制約を克服できるため,実世界のシナリオにおけるトレーニングデータ収集がより可能となる。 本稿では,自己教師付き残余学習と巡回逆学習を組み合わせることにより,非ペア学習を活用し,相互依存型自己協調学習(iscl)を提案する。 ISCLの2つのアーキテクチャは、異なるドメインのマッチングデータ分布に依存する既存の無対の画像ノイズ除去方法とは異なり、異なるタスク用に設計され、互いに補完し、学習プロセスを高めます。 提案手法の性能を評価するために,電子顕微鏡装置(EM)の物理的特性によるノイズ(フィルムと充電ノイズ)や低線量コンピュータトモグラフィ(CT)における構造ノイズなど,さまざまな生物医学的画像劣化シナリオにおいて広範な実験を行った。 本手法の画質は,教師あり学習を含む,最先端の深層学習に基づく画像認識手法よりも優れていることを示す。

With the advent of advances in self-supervised learning, paired clean-noisy data are no longer required in deep learning-based image denoising. However, existing blind denoising methods still require the assumption with regard to noise characteristics, such as zero-mean noise distribution and pixel-wise noise-signal independence; this hinders wide adaptation of the method in the medical domain. On the other hand, unpaired learning can overcome limitations related to the assumption on noise characteristics, which makes it more feasible for collecting the training data in real-world scenarios. In this paper, we propose a novel image denoising scheme, Interdependent Self-Cooperative Learning (ISCL), that leverages unpaired learning by combining cyclic adversarial learning with self-supervised residual learning. Unlike the existing unpaired image denoising methods relying on matching data distributions in different domains, the two architectures in ISCL, designed for different tasks, complement each other and boost the learning process. To assess the performance of the proposed method, we conducted extensive experiments in various biomedical image degradation scenarios, such as noise caused by physical characteristics of electron microscopy (EM) devices (film and charging noise), and structural noise found in low-dose computer tomography (CT). We demonstrate that the image quality of our method is superior to conventional and current state-of-the-art deep learning-based image denoising methods, including supervised learning.
翻訳日:2021-02-22 13:29:49 公開日:2021-02-19
# ニューラルネットワークのトレーニングはER完全

Training Neural Networks is ER-complete ( http://arxiv.org/abs/2102.09798v1 )

ライセンス: Link先を確認
Mikkel Abrahamsen, Linda Kleist, Tillmann Miltzow(参考訳) ニューラルネットワーク、トレーニングデータ、およびしきい値を考えると、総誤差がしきい値以下であるようにニューラルネットワークの重みを見つけることはNPハードであることが知られていました。 この基本問題のアルゴリズム的複雑性を正確に決定し、ER完全であることを示した。 これは、多項式方程式の系と整数係数と実未知数の不等式が解を持つかどうかを決定できる多項式時間還元まで同値であることを意味する。 広く予想されているように、ER が NP よりも厳密に大きい場合、我々の研究は、ニューラルネットワークのトレーニングの問題は NP にも及ばないことを意味している。

Given a neural network, training data, and a threshold, it was known that it is NP-hard to find weights for the neural network such that the total error is below the threshold. We determine the algorithmic complexity of this fundamental problem precisely, by showing that it is ER-complete. This means that the problem is equivalent, up to polynomial-time reductions, to deciding whether a system of polynomial equations and inequalities with integer coefficients and real unknowns has a solution. If, as widely expected, ER is strictly larger than NP, our work implies that the problem of training neural networks is not even in NP.
翻訳日:2021-02-22 13:29:23 公開日:2021-02-19
# 言語モデル領域適応による空間的議論の類似度測定に関する実証的研究

An Empirical Study on Measuring the Similarity of Sentential Arguments with Language Model Domain Adaptation ( http://arxiv.org/abs/2102.09786v1 )

ライセンス: Link先を確認
ChaeHun Park and Sangwoo Seo(参考訳) 2つの異なるセンテンショナル引数の類似度を測定することは、引数マイニングにおいて重要なタスクです。 しかし、この分野の課題の1つは、さまざまなトピックの専門知識を使用してデータセットを注釈付けし、ラベル付きデータによる教師付き学習を高価にする必要があることです。 本稿では,この問題を伝達学習によって緩和できるかどうかを検討した。 最初に,事前学習した言語モデルを,自己教師あり学習を用いて関心領域に適用した。 次に、異なる領域から取られた文間の類似度を測定するタスクにモデルを微調整した。 提案手法は,Argument Facet similarity データセットの競合ベースラインモデルと比較して,教師なし環境での人間の注釈付き類似度スコアとの相関性を改善する。 さらに,ラベル付きデータサンプルの約60%を用いて,完全な教師付きベースラインモデルと同等の性能を実現する。 本研究では,様々な議論トピックに対する一般化引数クラスタリングモデルの可能性について示唆する。

Measuring the similarity between two different sentential arguments is an important task in argument mining. However, one of the challenges in this field is that the dataset must be annotated using expertise in a variety of topics, making supervised learning with labeled data expensive. In this paper, we investigated whether this problem could be alleviated through transfer learning. We first adapted a pretrained language model to a domain of interest using self-supervised learning. Then, we fine-tuned the model to a task of measuring the similarity between sentences taken from different domains. Our approach improves a correlation with human-annotated similarity scores compared to competitive baseline models on the Argument Facet Similarity dataset in an unsupervised setting. Moreover, we achieve comparable performance to a fully supervised baseline model by using only about 60% of the labeled data samples. We believe that our work suggests the possibility of a generalized argument clustering model for various argumentative topics.
翻訳日:2021-02-22 13:29:12 公開日:2021-02-19
# トランスフォーマーを用いたエンサンブル学習による科学論文の分類

Using Transformer based Ensemble Learning to classify Scientific Articles ( http://arxiv.org/abs/2102.09991v1 )

ライセンス: Link先を確認
Sohom Ghosh and Ankush Chopra(参考訳) 多くのタイムレビュアーは、研究者の斬新なアイデアを評価できず、一般的なフィードバックを提供する。 したがって、専門分野に基づいたレビュアーの適切な割り当てが必要です。 さらに、それをレビュアーに割り当てるためにエンドツーエンドから各論文を読むことは面倒な作業です。 本稿では、FideLIPIチームがSDPRA-2021 [14]の共有タスクで提出したシステムについて説明します。 科学文献の抽象物を与えられた7つのクラスのうちの1つに分類できる4つの独立したサブシステムから構成される。 最初のものは、これらの抽象の上に構築されたRoBERTa [10]ベースのモデルです。 トピックモデル/遅延ディリクレアロケーション(LDA)[2]ベースの機能を第1モデルに追加すると、第2サブシステムが生成される。 3つ目は文レベルのRoBERTa [10]モデルです。 4つめは、項周波数逆文書頻度(tf-idf)機能を用いたロジスティック回帰モデルである。 これら4つのサブシステムの予測を多数決を用いてアンサンブルし、テストと検証セットでF1スコアが0.93となる最終システムを開発する。 これは、検証セット上のF1スコアの点で、既存のState of The Art(SOTA)モデルSciBERTの[1]を上回り、私たちのコードベースはhttps://github.com/S DPRA-2021/shared-tas k/tree/main/FideLIPI で利用可能です。

Many time reviewers fail to appreciate novel ideas of a researcher and provide generic feedback. Thus, proper assignment of reviewers based on their area of expertise is necessary. Moreover, reading each and every paper from end-to-end for assigning it to a reviewer is a tedious task. In this paper, we describe a system which our team FideLIPI submitted in the shared task of SDPRA-2021 [14]. It comprises four independent sub-systems capable of classifying abstracts of scientific literature to one of the given seven classes. The first one is a RoBERTa [10] based model built over these abstracts. Adding topic models / Latent dirichlet allocation (LDA) [2] based features to the first model results in the second sub-system. The third one is a sentence level RoBERTa [10] model. The fourth one is a Logistic Regression model built using Term Frequency Inverse Document Frequency (TF-IDF) features. We ensemble predictions of these four sub-systems using majority voting to develop the final system which gives a F1 score of 0.93 on the test and validation set. This outperforms the existing State Of The Art (SOTA) model SciBERT's [1] in terms of F1 score on the validation set.Our codebase is available at https://github.com/S DPRA-2021/shared-tas k/tree/main/FideLIPI
翻訳日:2021-02-22 13:28:57 公開日:2021-02-19
# 薬物発見に関するバイオメディカルデータセットの概観:知識グラフの視点から

A Review of Biomedical Datasets Relating to Drug Discovery: A Knowledge Graph Perspective ( http://arxiv.org/abs/2102.10062v1 )

ライセンス: Link先を確認
Stephen Bonner and Ian P Barrett and Cheng Ye and Rowan Swiers and Ola Engkvist and William Hamilton(参考訳) 医薬品の発見と開発は極めて複雑なプロセスであり、患者に新しい薬を届けるコストに高い負担がかかる。 近年,薬物発見パイプラインの複数段階の有効性と速度を改善するために,様々な機械学習手法が提案されている。 これらの技術のうち、特にナレッジグラフを使用しているものは、薬物の再利用、薬物毒性予測、標的遺伝子の発現優先順位付けなど、さまざまなタスクで有望であることが証明されています。 このような知識グラフに基づく薬物発見領域の表現では、遺伝子、疾患、薬物を含む重要な要素は実体または頂点として表現され、それらの間の関係や縁はある種の相互作用のレベルを示す。 例えば、病気と薬物実体の間のエッジは成功した臨床試験を表すか、または2つの薬物実体の間のエッジは潜在的に有害な相互作用を示す可能性があります。 しかし、高品質で最終的な情報的な知識グラフを構築するには、当然適切なデータと情報が必要である。 本稿では,様々な薬物発見に焦点を当てた知識グラフを構築する際に有用な情報を含む一次データソースについて詳述する。 創薬分野に新しい技術を適用することに興味があるが、関連するデータソースに精通していないかもしれない機械学習と知識グラフの実践者を支援することを目的としている。 全体として、このレビューは、より多くの機械学習研究者が知識グラフと機械学習を組み合わせることで、薬物発見領域における重要な問題と新しい問題の解決に役立つことを願っている。

Drug discovery and development is an extremely complex process, with high attrition contributing to the costs of delivering new medicines to patients. Recently, various machine learning approaches have been proposed and investigated to help improve the effectiveness and speed of multiple stages of the drug discovery pipeline. Among these techniques, it is especially those using Knowledge Graphs that are proving to have considerable promise across a range of tasks, including drug repurposing, drug toxicity prediction and target gene-disease prioritisation. In such a knowledge graph-based representation of drug discovery domains, crucial elements including genes, diseases and drugs are represented as entities or vertices, whilst relationships or edges between them indicate some level of interaction. For example, an edge between a disease and drug entity might represent a successful clinical trial, or an edge between two drug entities could indicate a potentially harmful interaction. In order to construct high-quality and ultimately informative knowledge graphs however, suitable data and information is of course required. In this review, we detail publicly available primary data sources containing information suitable for use in constructing various drug discovery focused knowledge graphs. We aim to help guide machine learning and knowledge graph practitioners who are interested in applying new techniques to the drug discovery field, but who may be unfamiliar with the relevant data sources. Overall we hope this review will help motivate more machine learning researchers to explore combining knowledge graphs and machine learning to help solve key and emerging questions in the drug discovery domain.
翻訳日:2021-02-22 13:28:36 公開日:2021-02-19
# 解剖指向手関節検出のためのシリアルパラレルマルチスケール特徴融合

Serial-parallel Multi-Scale Feature Fusion for Anatomy-Oriented Hand Joint Detection ( http://arxiv.org/abs/2102.09757v1 )

ライセンス: Link先を確認
Bin Li, Hong Fu, Ruimin Li and Wendi Wang(参考訳) 画像からの正確な手関節の検出は、コンピュータビジョンと人間のコンピュータの相互作用の多くのアプリケーションに不可欠な基本的なトピックです。 本稿では,シリアル並列マルチスケール機能融合を用いた手関節検出のための2段階ネットワークを提案する。 ステージiでは、予め訓練されたネットワークにより手領域が位置決めされ、検出された各手領域の特徴を浅い空間手の特徴表現モジュールにより抽出する。 抽出された手の特徴は、同様の構造を持つ連続接続された特徴抽出モジュール「マルチスケール特徴融合」(MSFF)からなるステージIIに供給されます。 msffは並列マルチスケール特徴抽出枝を含み、初期ハンドジョイントヒートマップを生成する。 初期熱マップは、手関節間の解剖学的関係によって相互に強化される。 5つの手関節データセットの実験結果から,提案したネットワークは最先端の手法をオーバーパフォーマンスすることが示された。

Accurate hand joints detection from images is a fundamental topic which is essential for many applications in computer vision and human computer interaction. This paper presents a two stage network for hand joints detection from single unmarked image by using serial-parallel multi-scale feature fusion. In stage I, the hand regions are located by a pre-trained network, and the features of each detected hand region are extracted by a shallow spatial hand features representation module. The extracted hand features are then fed into stage II, which consists of serially connected feature extraction modules with similar structures, called "multi-scale feature fusion" (MSFF). A MSFF contains parallel multi-scale feature extraction branches, which generate initial hand joint heatmaps. The initial heatmaps are then mutually reinforced by the anatomic relationship between hand joints. The experimental results on five hand joints datasets show that the proposed network overperforms the state-of-the-art methods.
翻訳日:2021-02-22 13:28:12 公開日:2021-02-19
# 微粒画像認識のための局所領域強調特徴を用いた再ランク粗い分類

Re-rank Coarse Classification with Local Region Enhanced Features for Fine-Grained Image Recognition ( http://arxiv.org/abs/2102.09875v1 )

ライセンス: Link先を確認
Shaokang Yang, Shuai Liu, Cheng Yang, Changhu Wang(参考訳) 微細な画像認識は、意味的グローバル特徴と識別的局所特徴の両方を捉えるのが難しいため、非常に難しい。 一方、これら2つの機能は統合が容易ではなく、同時に使用する場合にも相反する。 本稿では,TopNの分類結果を局所的に拡張した埋め込み機能を用いて再分類し,TopNの精度を向上する検索に基づく粗粒度分類フレームワークを提案する。 細粒画像を区別するための識別領域を得るため, 画像レベルラベルのみを用いて, ボックス生成ブランチを訓練する弱監督法を提案する。 さらに、より効果的なセマンティックグローバル機能を学ぶために、自動構築された階層的カテゴリ構造に対するマルチレベル損失をデザインする。 実験結果から,CUB-200-2011,Stanfo rd Cars,FGVC Aircraftの3つのベンチマークにおいて,最先端の性能が得られた。 また、より深い理解のために可視化と分析が提供される。

Fine-grained image recognition is very challenging due to the difficulty of capturing both semantic global features and discriminative local features. Meanwhile, these two features are not easy to be integrated, which are even conflicting when used simultaneously. In this paper, a retrieval-based coarse-to-fine framework is proposed, where we re-rank the TopN classification results by using the local region enhanced embedding features to improve the Top1 accuracy (based on the observation that the correct category usually resides in TopN results). To obtain the discriminative regions for distinguishing the fine-grained images, we introduce a weakly-supervised method to train a box generating branch with only image-level labels. In addition, to learn more effective semantic global features, we design a multi-level loss over an automatically constructed hierarchical category structure. Experimental results show that our method achieves state-of-the-art performance on three benchmarks: CUB-200-2011, Stanford Cars, and FGVC Aircraft. Also, visualizations and analysis are provided for better understanding.
翻訳日:2021-02-22 13:27:57 公開日:2021-02-19
# 上肢X線における自己検出半監督異常検出

Self-Taught Semi-Supervised Anomaly Detection on Upper Limb X-rays ( http://arxiv.org/abs/2102.09895v1 )

ライセンス: Link先を確認
Antoine Spahr, Behzad Bozorgtabar, Jean-Philippe Thiran(参考訳) 筋骨格x線写真における異常の検出は, 放射線検査における大規模スクリーニングにおいて重要である。 監視された深層ネットワークは、放射線学者によって多くのアノテーションが与えられており、しばしば取得するのに非常に時間がかかります。 さらに、監視されたシステムはクローズドセットのシナリオに合わせて調整される。例えば、トレーニングされたモデルは、トレーニングで以前に見たことのあるまれな異常にオーバーフィットする。 代わりに、我々のアプローチの理論的根拠は、タスク非依存のプレテキストタスクを使用して、クロスサンプル類似度尺度に基づくラベルなしデータを活用することである。 さらに, フレームワーク内の正規クラスからのデータの複雑な分布を定式化し, 異常側の潜在的なバイアスを回避する。 広範な実験により,本手法は,現実世界の医療データセットである村データセットにおける非監視および自己監視の異常検出設定のベースラインを上回っていることを示した。 また,各トレーニングステージの効果と損失条件が最終パフォーマンスに与える影響を分析するために,豊富なアブレーション研究を行った。

Detecting anomalies in musculoskeletal radiographs is of paramount importance for large-scale screening in the radiology workflow. Supervised deep networks take for granted a large number of annotations by radiologists, which is often prohibitively very time-consuming to acquire. Moreover, supervised systems are tailored to closed set scenarios, e.g., trained models suffer from overfitting to previously seen rare anomalies at training. Instead, our approach's rationale is to use task agnostic pretext tasks to leverage unlabeled data based on a cross-sample similarity measure. Besides, we formulate a complex distribution of data from normal class within our framework to avoid a potential bias on the side of anomalies. Through extensive experiments, we show that our method outperforms baselines across unsupervised and self-supervised anomaly detection settings on a real-world medical dataset, the MURA dataset. We also provide rich ablation studies to analyze each training stage's effect and loss terms on the final performance.
翻訳日:2021-02-22 13:27:37 公開日:2021-02-19
# ニューラル表現の不確実性低減によるスクリブル監督セマンティックセグメンテーションとニューラル固有空間の自己監督

Scribble-Supervised Semantic Segmentation by Uncertainty Reduction on Neural Representation and Self-Supervision on Neural Eigenspace ( http://arxiv.org/abs/2102.09896v1 )

ライセンス: Link先を確認
Zhiyi Pan, Peng Jiang, Yunhai Wang, Changhe Tu, Anthony G. Cohn(参考訳) Scribble-supervised セマンティックセグメンテーションは、最近、高品質のアノテーションのない有望なパフォーマンスで多くの注目を集めています。 監督の欠如のため、自信と一貫性のある予測は通常入手するのが困難である。 通常、人々はこれらの問題を処理して、よくラベルされたデータセットで補助タスクを採用するか、スクリブルアノテーションの追加要件をグラフィカルモデルに組み込む。 この作業は、余分な情報やその他の制限なしにアノテーションを直接記述することでセマンティックセグメンテーションを実現することを目的としている。 具体的には,神経表現におけるエントロピーの最小化とネットワーク埋め込みランダムウォークによる不確実性低減を含む,総合的な操作を提案する。 ランダムウォークの確率的遷移行列を考慮し、ニューラルネットワークの固有空間を自己スーパービジョンでトレーニングし、関連する画像間の予測に一貫性を課す。 総合的な実験とアブレーション研究は、提案されたアプローチを検証し、他の方法よりも優れていることを示す。

Scribble-supervised semantic segmentation has gained much attention recently for its promising performance without high-quality annotations. Due to the lack of supervision, confident and consistent predictions are usually hard to obtain. Typically, people handle these problems to either adopt an auxiliary task with the well-labeled dataset or incorporate the graphical model with additional requirements on scribble annotations. Instead, this work aims to achieve semantic segmentation by scribble annotations directly without extra information and other limitations. Specifically, we propose holistic operations, including minimizing entropy and a network embedded random walk on neural representation to reduce uncertainty. Given the probabilistic transition matrix of a random walk, we further train the network with self-supervision on its neural eigenspace to impose consistency on predictions between related images. Comprehensive experiments and ablation studies verify the proposed approach, which demonstrates superiority over others; it is even comparable to some full-label supervised ones and works well when scribbles are randomly shrunk or dropped.
翻訳日:2021-02-22 13:27:19 公開日:2021-02-19
# 古代写本画像における可読性の主観的評価--SALAMIデータセット

Subjective Assessments of Legibility in Ancient Manuscript Images -- The SALAMI Dataset ( http://arxiv.org/abs/2102.09961v1 )

ライセンス: Link先を確認
Simon Brenner and Robert Sablatnig(参考訳) 劣化した文書のデジタル復元に関わる研究分野は、その結果を評価するための定量的指標を欠いているため、大規模なデータセットにおける関連する方法の比較が妨げられている。 そこで本稿では,デジタルテキスト復元の分野における定量的評価指標の開発のための基礎的真理として,SALAMI(Subjective Assessments of Legibility in Ancient Manuscript Images)を新たに導入する。 このデータセットは、文献学と古文献学の専門家20人による研究に基づいて、平均的適性と不確実性に対応する空間地図を持つ50の写本領域の250の画像で構成されている。 本研究は第1種であり, 設計の妥当性と信頼性は統計的に動機づけられる: 高い内部および層間合意を報告し, 被験者とテスト環境の制御・制御されていない特性によって観測された画像領域によって, スコアのばらつきが導入されることを示し, 測定された正当性スコアが基礎画像の有効属性であることを結論する。

The research field concerned with the digital restoration of degraded written heritage lacks a quantitative metric for evaluating its results, which prevents the comparison of relevant methods on large datasets. Thus, we introduce a novel dataset of Subjective Assessments of Legibility in Ancient Manuscript Images (SALAMI) to serve as a ground truth for the development of quantitative evaluation metrics in the field of digital text restoration. This dataset consists of 250 images of 50 manuscript regions with corresponding spatial maps of mean legibility and uncertainty, which are based on a study conducted with 20 experts of philology and paleography. As this study is the first of its kind, the validity and reliability of its design and the results obtained are motivated statistically: we report a high intra- and inter-rater agreement and show that the bulk of variation in the scores is introduced by the images regions observed and not by controlled or uncontrolled properties of participants and test environments, thus concluding that the legibility scores measured are valid attributes of the underlying images.
翻訳日:2021-02-22 13:26:59 公開日:2021-02-19
# 隠れたp-norm回帰による人物画像生成

Pose Guided Person Image Generation with Hidden p-Norm Regression ( http://arxiv.org/abs/2102.10033v1 )

ライセンス: Link先を確認
Ting-Yao Hu, Alexander G. Hauptmann(参考訳) 本稿では,ポーズガイドによる人物画像生成課題を解決するための新しいアプローチを提案する。 ポーズ情報と外観情報の関係は隠れた空間における単純な行列演算によって記述できると仮定する。 この仮定に基づいて,各アイデンティティに対するポーズ不変な特徴行列を推定し,それを用いて対象ポーズで条件付けされた対象の外観を予測する。 推定過程は隠れ空間におけるpノルム回帰問題として定式化される。 この回帰問題の解の差別化を利用して、フレームワーク全体のパラメータをエンドツーエンドでトレーニングすることができます。 先行研究のほとんどは教師付きトレーニングとシングルショット生成シナリオにのみ適用できるが,教師なしトレーニングやマルチショット生成に容易に適応できる。 Market-1501データセットの大規模な実験は、上記のすべてのバリエーションシナリオにおいて、我々の手法が競合性能をもたらすことを示している。

In this paper, we propose a novel approach to solve the pose guided person image generation task. We assume that the relation between pose and appearance information can be described by a simple matrix operation in hidden space. Based on this assumption, our method estimates a pose-invariant feature matrix for each identity, and uses it to predict the target appearance conditioned on the target pose. The estimation process is formulated as a p-norm regression problem in hidden space. By utilizing the differentiation of the solution of this regression problem, the parameters of the whole framework can be trained in an end-to-end manner. While most previous works are only applicable to the supervised training and single-shot generation scenario, our method can be easily adapted to unsupervised training and multi-shot generation. Extensive experiments on the challenging Market-1501 dataset show that our method yields competitive performance in all the aforementioned variant scenarios.
翻訳日:2021-02-22 13:26:38 公開日:2021-02-19
# カプセルネットワークにおける効果的かつ効率的な投票攻撃

Effective and Efficient Vote Attack on Capsule Networks ( http://arxiv.org/abs/2102.10055v1 )

ライセンス: Link先を確認
Jindong Gu, Baoyuan Wu, Volker Tresp(参考訳) 標準畳み込みニューラルネットワーク(CNN)は、擬似知覚可能な小さな人工的な摂動を持つ画像によって容易にだまされる。 cnnの代替として、最近提案されたcapsnets(capsnets)は、人気のある攻撃プロトコルのcnnよりもホワイトボックス攻撃に強いことが示されている。 また、CapsNets のクラス条件再構成部は、逆例の検出にも使用されます。 本研究では,CapsNetsの対向性,特に出力カプセル攻撃時のCapsNetsの内部構造の変化について検討する。 最初の観察は、反対の例がプライマリカプセルからの投票を操作することでCapsNetsを誤解させたことである。 CNNがCapsNetを攻撃するために設計されたマルチステップ攻撃方法を直接適用する場合、計算的に高価なルーティングメカニズムのために高い計算コストが観察されます。 この2つの見解に動機づけられ、capsnetの投票を直接攻撃する新しい投票攻撃を提案する。 我々の投票攻撃は効果的であるだけでなく、ルーティングプロセスの回避にも有効である。 さらに, 投票攻撃を検出・認識型攻撃パラダイムに統合し, クラス条件再構築に基づく検出手法をうまくバイパスすることに成功した。 広範な実験は、capsnetsに対する我々の投票攻撃の優れた攻撃性能を示す。

Standard Convolutional Neural Networks (CNNs) can be easily fooled by images with small quasi-imperceptible artificial perturbations. As alternatives to CNNs, the recently proposed Capsule Networks (CapsNets) are shown to be more robust to white-box attacks than CNNs under popular attack protocols. Besides, the class-conditional reconstruction part of CapsNets is also used to detect adversarial examples. In this work, we investigate the adversarial robustness of CapsNets, especially how the inner workings of CapsNets change when the output capsules are attacked. The first observation is that adversarial examples misled CapsNets by manipulating the votes from primary capsules. Another observation is the high computational cost, when we directly apply multi-step attack methods designed for CNNs to attack CapsNets, due to the computationally expensive routing mechanism. Motivated by these two observations, we propose a novel vote attack where we attack votes of CapsNets directly. Our vote attack is not only effective but also efficient by circumventing the routing process. Furthermore, we integrate our vote attack into the detection-aware attack paradigm, which can successfully bypass the class-conditional reconstruction based detection method. Extensive experiments demonstrate the superior attack performance of our vote attack on CapsNets.
翻訳日:2021-02-22 13:26:25 公開日:2021-02-19
# ビュー合成のためのコンパクトで適応的な多面画像

Compact and adaptive multiplane images for view synthesis ( http://arxiv.org/abs/2102.10086v1 )

ライセンス: Link先を確認
Julia Navarro and Neus Sabater(参考訳) 近年,ビュー合成のための多面体画像(MPI)作成のための学習手法が提案されている。 mpisは極めて強力で高品質なレンダリングが容易であるが、大量のメモリを必要とするため、多くのアプリケーションでは実用的でない。 本稿では,利用可能なメモリを最適化して,コンパクトかつ適応的なMPIをレンダリングする学習手法を提案する。 我々のMPIは余分な情報を避け、シーン形状を考慮し、深度サンプリングを決定する。

Recently, learning methods have been designed to create Multiplane Images (MPIs) for view synthesis. While MPIs are extremely powerful and facilitate high quality renderings, a great amount of memory is required, making them impractical for many applications. In this paper, we propose a learning method that optimizes the available memory to render compact and adaptive MPIs. Our MPIs avoid redundant information and take into account the scene geometry to determine the depth sampling.
翻訳日:2021-02-22 13:26:06 公開日:2021-02-19
# ランダム化探索はタブラルMDPに最適に近い

Randomized Exploration is Near-Optimal for Tabular MDP ( http://arxiv.org/abs/2102.09703v1 )

ライセンス: Link先を確認
Zhihan Xiong, Ruoqi Shen, Simon S. Du(参考訳) 強化学習におけるThompson Sampling(TS)ライクアルゴリズムにおけるランダム化値関数を用いた探索について検討する。 この種のアルゴリズムは、経験的なパフォーマンスをアピールする。 1)各エピソードで1つのランダムシードを使用するとき、2)ベルンシュタインタイプのノイズの大きさは、最悪の場合 $\widetilde{O}\left(H\sqrt{SAT}\right)$ を、$S$ が状態空間のサイズ、$A$ がアクションスペースの大きさ、$H$ が計画地平線、$T$ が相互作用の数である、典型的時間非均質マルコフ決定プロセスにバインドして得ることを示しています。 この有界多項式により、ランダム化された値関数に基づくTSライクアルゴリズムの既存のすべての境界が改善され、初めて $\Omega\left(H\sqrt{SAT}\right)$ が対数係数まで下がる。 その結果,ランダム化探索はほぼ最適であり,従来は楽観的なアルゴリズムによってのみ実現されていた。

We study exploration using randomized value functions in Thompson Sampling (TS)-like algorithms in reinforcement learning. This type of algorithms enjoys appealing empirical performance. We show that when we use 1) a single random seed in each episode, and 2) a Bernstein-type magnitude of noise, we obtain a worst-case $\widetilde{O}\left(H\sqrt{SAT}\right)$ regret bound for episodic time-inhomogeneous Markov Decision Process where $S$ is the size of state space, $A$ is the size of action space, $H$ is the planning horizon and $T$ is the number of interactions. This bound polynomially improves all existing bounds for TS-like algorithms based on randomized value functions, and for the first time, matches the $\Omega\left(H\sqrt{SAT}\right)$ lower bound up to logarithmic factors. Our result highlights that randomized exploration can be near-optimal, which was previously only achieved by optimistic algorithms.
翻訳日:2021-02-22 13:25:09 公開日:2021-02-19
# クラスタリングによる公平な疎回帰:組合せ問題に対する凸緩和

Fair Sparse Regression with Clustering: An Invex Relaxation for a Combinatorial Problem ( http://arxiv.org/abs/2102.09704v1 )

ライセンス: Link先を確認
Adarsh Barik and Jean Honorio(参考訳) 本稿では,バイアスが隠れた二項属性に依存するバイアス付きデータセットにおいて,公平なスパース回帰の問題を考察する。 隠れた属性の存在は、疎回帰と未知のバイナリラベルを組み合わせることで、問題に余分な複雑さの層を追加する。 対応する最適化問題は組合せであるが、その新しい緩和を \emph{invex} 最適化問題として提案する。 私たちの知識を最大限に活用するために、これは組み合わせの問題のための最初のinvexリラクゼーションです。 我々のモデルにデバイアス/フェアネス制約を組み込むことは、性能に悪影響を及ぼさないことを示す。 むしろ、隠れた属性のリカバリを可能にする。 復元された回帰パラメータベクトルのサポートは、真パラメータベクトルと正確に一致する。 さらに,各サンプルの隠れ属性の正確な値を復元することで,クラスタリング問題を同時に解決する。 本手法では,組合わせ問題を解くために,注意深く構成された原始双対証人を用いる。 回帰パラメータベクトルの次元に関して,サンプル数が多項式である限りは保持する理論的な保証を提供する。

In this paper, we study the problem of fair sparse regression on a biased dataset where bias depends upon a hidden binary attribute. The presence of a hidden attribute adds an extra layer of complexity to the problem by combining sparse regression and clustering with unknown binary labels. The corresponding optimization problem is combinatorial but we propose a novel relaxation of it as an \emph{invex} optimization problem. To the best of our knowledge, this is the first invex relaxation for a combinatorial problem. We show that the inclusion of the debiasing/fairness constraint in our model has no adverse effect on the performance. Rather, it enables the recovery of the hidden attribute. The support of our recovered regression parameter vector matches exactly with the true parameter vector. Moreover, we simultaneously solve the clustering problem by recovering the exact value of the hidden attribute for each sample. Our method uses carefully constructed primal dual witnesses to solve the combinatorial problem. We provide theoretical guarantees which hold as long as the number of samples is polynomial in terms of the dimension of the regression parameter vector.
翻訳日:2021-02-22 13:24:41 公開日:2021-02-19
# シンプレクティック随伴法による最小記憶を有する神経odeの精密勾配

Symplectic Adjoint Method for Exact Gradient of Neural ODE with Minimal Memory ( http://arxiv.org/abs/2102.09750v1 )

ライセンス: Link先を確認
Takashi Matsubara, Yuto Miyatake, Takaharu Yaguchi(参考訳) 微分方程式、すなわちニューラルODEのニューラルネットワークモデルにより、連続時間力学系と確率分布を高精度に学習することが可能になった。 数値積分中に同じネットワークを何度も使用します。 したがって、バックプロパゲーションアルゴリズムは、ネットワークサイズの使用回数に比例するメモリフットプリントを必要とする。 これは、チェックポイント方式が計算グラフをサブグラフに分割しても当てはまります。 さもなくば、随伴法は最小のメモリフットプリントで後方への数値積分による勾配を得るが、数値誤差に苦しむ。 本研究では、使用回数とネットワークサイズに比例したフットプリントで正確な勾配(丸め誤差まで)を得るシンプレクティック随伴法を提案する。 実験結果から,シンプレクティック随伴法が最も足跡が小さく,動作が速い場合があり,競合法間での丸め誤差に頑健であることが示された。

A neural network model of a differential equation, namely neural ODE, has enabled us to learn continuous-time dynamical systems and probabilistic distributions with a high accuracy. It uses the same network repeatedly during a numerical integration. Hence, the backpropagation algorithm requires a memory footprint proportional to the number of uses times the network size. This is true even if a checkpointing scheme divides the computational graph into sub-graphs. Otherwise, the adjoint method obtains a gradient by a numerical integration backward in time with a minimal memory footprint; however, it suffers from numerical errors. This study proposes the symplectic adjoint method, which obtains the exact gradient (up to rounding error) with a footprint proportional to the number of uses plus the network size. The experimental results demonstrate the symplectic adjoint method occupies the smallest footprint in most cases, functions faster in some cases, and is robust to a rounding error among competitive methods.
翻訳日:2021-02-22 13:24:26 公開日:2021-02-19
# 初期化の急激なバイアス--無限小鏡の輝きを超えて-

On the Implicit Bias of Initialization Shape: Beyond Infinitesimal Mirror Descent ( http://arxiv.org/abs/2102.09769v1 )

ライセンス: Link先を確認
Shahar Azulay, Edward Moroshko, Mor Shpigel Nacson, Blake Woodworth, Nathan Srebro, Amir Globerson, Daniel Soudry(参考訳) 近年の研究では、勾配法が収束する解の構造決定における初期化スケールの役割が強調されている。 特に、大きな初期化が神経接核系解につながるのに対し、小さな初期化はいわゆる「リッチ系」につながることが示された。 しかし、初期化構造は全体のスケールよりも豊かであり、ネットワーク内の異なる重みと層の相対的な大きさを含む。 ここでは,これらの相対スケールを初期化形状と呼び,学習モデルを決定する上で重要な役割を担っていることを示す。 グラデーションフローの帰納的バイアスを導出する新しい手法を開発し,それを用いて複数症例の閉形式陰影正規化器を得る。

Recent work has highlighted the role of initialization scale in determining the structure of the solutions that gradient methods converge to. In particular, it was shown that large initialization leads to the neural tangent kernel regime solution, whereas small initialization leads to so called "rich regimes". However, the initialization structure is richer than the overall scale alone and involves relative magnitudes of different weights and layers in the network. Here we show that these relative scales, which we refer to as initialization shape, play an important role in determining the learned model. We develop a novel technique for deriving the inductive bias of gradient-flow and use it to obtain closed-form implicit regularizers for multiple cases of interest.
翻訳日:2021-02-22 13:24:10 公開日:2021-02-19
# 情報下限による逐次および並列制約付きmax値エントロピー探索

Sequential- and Parallel- Constrained Max-value Entropy Search via Information Lower Bound ( http://arxiv.org/abs/2102.09788v1 )

ライセンス: Link先を確認
Shion Takeno, Tomoyuki Tamura, Kazuki Shitara, and Masayuki Karasuyama(参考訳) 近年、いくつかのベイズ最適化(BO)手法が未知の制約を持つ高価なブラックボックス最適化問題に拡張されており、これは実際に頻繁に現れる重要な問題である。 我々は,BO文献において,優れた性能を示す最大値エントロピー探索 (MES) と呼ばれる情報理論的手法に注目した。 既存のMESベースの制約付きBOは1つの制約に制限されているため、まず複数の制約に拡張するが、このアプローチは相互情報に対して負の近似値をもたらす可能性があり、不合理な決定をもたらす可能性がある。 本論文では, 相互情報のより低い境界に基づく異なる近似戦略を用い, 制約付き最大値エントロピー探索 (Constrained Max-value Entropy Search via Information lower BOund,CMES-IBO) という新たな制約付きBO法を提案する。 下界から得られた近似的相互情報は、非負であることが保証される単純な閉形式を持ち、負の値による不合理な振る舞いを回避できることを示す。 さらに、条件付き相互情報を利用することで、複数のクエリを同時に発行できる並列設定にメソッドを拡張します。 最後に,提案手法の有効性をベンチマーク関数と実世界応用による材料科学への応用で実証する。

Recently, several Bayesian optimization (BO) methods have been extended to the expensive black-box optimization problem with unknown constraints, which is an important problem that appears frequently in practice. We focus on an information-theoreti c approach called Max-value Entropy Search (MES) whose superior performance has been repeatedly shown in BO literature. Since existing MES-based constrained BO is restricted to only one constraint, we first extend it to multiple constraints, but we found that this approach can cause negative approximate values for the mutual information, which can result in unreasonable decisions. In this paper, we employ a different approximation strategy that is based on a lower bound of the mutual information, and propose a novel constrained BO method called Constrained Max-value Entropy Search via Information lower BOund (CMES-IBO). Our approximate mutual information derived from the lower bound has a simple closed-form that is guaranteed to be nonnegative, and we show that irrational behavior caused by the negative value can be avoided. Furthermore, by using conditional mutual information, we extend our methods to the parallel setting in which multiple queries can be issued simultaneously. Finally, we demonstrate the effectiveness of our proposed methods by benchmark functions and real-world applications to materials science.
翻訳日:2021-02-22 13:23:55 公開日:2021-02-19
# 自力で自力で学習する「Mine your own vieW」

Mine Your Own vieW: Self-Supervised Learning Through Across-Sample Prediction ( http://arxiv.org/abs/2102.10106v1 )

ライセンス: Link先を確認
Mehdi Azabou, Mohammad Gheshlaghi Azar, Ran Liu, Chi-Heng Lin, Erik C. Johnson, Kiran Bhaskaran-Nair, Max Dabagia, Keith B. Hengen, William Gray-Roncal, Michal Valko, Eva L. Dyer(参考訳) サンプルの異なる拡張された「ビュー」間の類似性を最大化することにより、自己監視学習(SSL)構築表現の最先端の方法。 これらのアプローチは、同じサンプルのビューと一致しようとするため、筋電図が多すぎるため、増強が十分に豊富でない場合、意味のある結果が得られない可能性があります。 これにより、データセット自体が、互いにビューとして機能する類似の、しかし、異なるサンプルを見つける動機となる。 本稿では,SSL にクロスサンプル予測を組み込む新しいアプローチである Mine Your Own vieW (MYOW) を紹介する。 このアプローチの背後にある考え方は、ビューを積極的にマイニングし、ネットワークの表現空間に近接するサンプルを見つけ、次に、あるサンプルの潜在表現、近くのサンプルの表現から予測することである。 コンピュータビジョンで使用される標準データセット上でMYOWの約束を示すことに加えて、我々は、豊富な増強がすでに確立されていない神経科学における新しいアプリケーションで、このアイデアの力を強調します。 ニューラルデータセットに適用すると、MYOWはすべての例(場合によっては10%以上)で他のセルフ監視アプローチを上回り、ほとんどのデータセットの監視ベースラインを上回ります。 類似したサンプルの潜在表現を予測することを学ぶことで、拡張がまだ制限されている新しい領域で良い表現を学べることを示す。

State-of-the-art methods for self-supervised learning (SSL) build representations by maximizing the similarity between different augmented "views" of a sample. Because these approaches try to match views of the same sample, they can be too myopic and fail to produce meaningful results when augmentations are not sufficiently rich. This motivates the use of the dataset itself to find similar, yet distinct, samples to serve as views for one another. In this paper, we introduce Mine Your Own vieW (MYOW), a new approach for building across-sample prediction into SSL. The idea behind our approach is to actively mine views, finding samples that are close in the representation space of the network, and then predict, from one sample's latent representation, the representation of a nearby sample. In addition to showing the promise of MYOW on standard datasets used in computer vision, we highlight the power of this idea in a novel application in neuroscience where rich augmentations are not already established. When applied to neural datasets, MYOW outperforms other self-supervised approaches in all examples (in some cases by more than 10%), and surpasses the supervised baseline for most datasets. By learning to predict the latent representation of similar samples, we show that it is possible to learn good representations in new domains where augmentations are still limited.
翻訳日:2021-02-22 13:23:32 公開日:2021-02-19
# リコンフィグレーションの診断

Anytime Diagnosis for Reconfiguration ( http://arxiv.org/abs/2102.09880v1 )

ライセンス: Link先を確認
Alexander Felfernig and Rouven Walter and Jose A. Galindo and David Benavides and Seda Polat-Erdeniz and Muesluem Atas and Stefan Reiterer(参考訳) 多くのドメインは、診断を効率的に、しばしば事前に定義された時間内に決定するのに役立つスケーラブルなアルゴリズムを必要とします。 いつでも診断がソリューションを決定することができるため、生産スケジューリング、ロボット制御、および診断と対応する再構成能力が重要な役割を果たす通信ネットワーク管理などのリアルタイムシナリオに特に役立ちます。 多くの場合の診断は、診断品質と診断推論の効率のトレードオフと共に行われる。 本稿では, 直接診断手法であるFlexDiagを紹介し, 解析する。 特徴モデルの領域からの構成ベンチマークと自動車領域からの産業構成知識ベースを使用して、性能および診断品質に関するアルゴリズムを評価します。 その結果、FlexDiagは、最小性と精度の点で対応する品質トレードオフで直接診断検索のパフォーマンスを大幅に向上させるのに役立ちます。

Many domains require scalable algorithms that help to determine diagnoses efficiently and often within predefined time limits. Anytime diagnosis is able to determine solutions in such a way and thus is especially useful in real-time scenarios such as production scheduling, robot control, and communication networks management where diagnosis and corresponding reconfiguration capabilities play a major role. Anytime diagnosis in many cases comes along with a trade-off between diagnosis quality and the efficiency of diagnostic reasoning. In this paper we introduce and analyze FlexDiag which is an anytime direct diagnosis approach. We evaluate the algorithm with regard to performance and diagnosis quality using a configuration benchmark from the domain of feature models and an industrial configuration knowledge base from the automotive domain. Results show that FlexDiag helps to significantly increase the performance of direct diagnosis search with corresponding quality tradeoffs in terms of minimality and accuracy.
翻訳日:2021-02-22 13:23:08 公開日:2021-02-19
# 神経カルマンフィルタ

Neural Kalman Filtering ( http://arxiv.org/abs/2102.10021v1 )

ライセンス: Link先を確認
Beren Millidge, Alexander Tschantz, Anil Seth, Christopher Buckley(参考訳) Kalmanフィルタは、ノイズの多い感覚データ、以前の状態推定、およびダイナミクスモデルを融合させ、現在の状態の原理化された推定を生成する基本的なフィルタリングアルゴリズムです。 それは線形モデルおよび白いガウスの騒音のために仮定し、最適です。 比較的単純で一般的な効果があるため、カルマンフィルタは工学的用途で広く使われている。 脳が直面する多くの感覚問題は、中核にあるフィルター問題であるため、脳はカルマンフィルタと等価な計算を実装した神経回路を持っている可能性がある。 カルマンフィルタの標準的なアプローチは、神経回路に直接実装できない複雑な行列計算を必要とする。 本稿では,kalmanフィルタへの勾配-増分近似は,分散重み付き予測誤差を持つ局所計算のみを必要とすることを示す。 さらに,ヘビビアン可塑性に直接対応した学習規則により,動的モデルを適応的に学習することが可能であることが示された。 簡単なカルマンフィルタタスクにおいて,本手法の性能を実証し,必要な方程式のニューラル実装を提案する。

The Kalman filter is a fundamental filtering algorithm that fuses noisy sensory data, a previous state estimate, and a dynamics model to produce a principled estimate of the current state. It assumes, and is optimal for, linear models and white Gaussian noise. Due to its relative simplicity and general effectiveness, the Kalman filter is widely used in engineering applications. Since many sensory problems the brain faces are, at their core, filtering problems, it is possible that the brain possesses neural circuitry that implements equivalent computations to the Kalman filter. The standard approach to Kalman filtering requires complex matrix computations that are unlikely to be directly implementable in neural circuits. In this paper, we show that a gradient-descent approximation to the Kalman filter requires only local computations with variance weighted prediction errors. Moreover, we show that it is possible under the same scheme to adaptively learn the dynamics model with a learning rule that corresponds directly to Hebbian plasticity. We demonstrate the performance of our method on a simple Kalman filtering task, and propose a neural implementation of the required equations.
翻訳日:2021-02-22 13:22:55 公開日:2021-02-19
# ヒューマノイド運動ロボットのための合成データからの連続学習

Continual Learning from Synthetic Data for a Humanoid Exercise Robot ( http://arxiv.org/abs/2102.10034v1 )

ライセンス: Link先を確認
Nicolas Duczek, Matthias Kerzel, Stefan Wermter(参考訳) 身体運動の検出と修正のために、身体運動とポーズの時空間関係を学習するために、反復接続、エピソディックメモリ、新規サブノード機構を備えた成長時要求ネットワーク(gwr)を開発した。 演習が実行されると、フレームごとのポーズと動きに関する情報がGWRに保存されます。 すべてのフレームに対して、現在のポーズとモーションのペアは、GWRの予測出力と比較され、ポーズだけでなく、動きの速度にもフィードバックすることができます。 実用的なシナリオでは、理学療法士のような専門家が身体運動を行い、ペッパーのようなヒューマノイドロボットの基準として使用し、患者の同じ運動の実行に対するフィードバックを与える。 しかし、このアプローチには2つの課題がある。 まず、ヒューマノイドロボットからの距離とカメラのヒューマノイドロボットの視点におけるユーザーの位置もGWRによって考慮されなければならず、ヒューマノイドロボットの視野におけるユーザーの位置に対する堅牢性を必要とする。 第二に、ポーズと動きの両方が元のパフォーマーの身体測定に依存しているため、専門家の運動は参照として簡単に使用することはできません。 本稿では,視野の中心に関する翻訳と回転の許容性を実現するアーキテクチャを設計することで,第1の課題に挑戦する。 第2の課題は、GWRがインクリメンタルデータでオンラインで成長できるようにすることです。 評価のために,仮想アバターを用いた新しいエクササイズデータセット「virtual-squat dataset」を作成した。 全体として、GWRに基づく私たちの新しいアーキテクチャは、継続的なオンライン学習を通じて異なる身体のバリエーションに関する学習された運動基準を使用できるとともに、壊滅的な忘れを防ぎ、ヒューマノイドロボットとの長期間の人間とロボットの相互作用を可能にします。

In order to detect and correct physical exercises, a Grow-When-Required Network (GWR) with recurrent connections, episodic memory and a novel subnode mechanism is developed in order to learn spatiotemporal relationships of body movements and poses. Once an exercise is performed, the information of pose and movement per frame is stored in the GWR. For every frame, the current pose and motion pair is compared against a predicted output of the GWR, allowing for feedback not only on the pose but also on the velocity of the motion. In a practical scenario, a physical exercise is performed by an expert like a physiotherapist and then used as a reference for a humanoid robot like Pepper to give feedback on a patient's execution of the same exercise. This approach, however, comes with two challenges. First, the distance from the humanoid robot and the position of the user in the camera's view of the humanoid robot have to be considered by the GWR as well, requiring a robustness against the user's positioning in the field of view of the humanoid robot. Second, since both the pose and motion are dependent on the body measurements of the original performer, the expert's exercise cannot be easily used as a reference. This paper tackles the first challenge by designing an architecture that allows for tolerances in translation and rotations regarding the center of the field of view. For the second challenge, we allow the GWR to grow online on incremental data. For evaluation, we created a novel exercise dataset with virtual avatars called the Virtual-Squat dataset. Overall, we claim that our novel architecture based on the GWR can use a learned exercise reference for different body variations through continual online learning, while preventing catastrophic forgetting, enabling for an engaging long-term human-robot interaction with a humanoid robot.
翻訳日:2021-02-22 13:22:38 公開日:2021-02-19
# 拡大内視鏡における毛細血管内ループ分類 : オープンデータセットとベースライン法

Intrapapillary Capillary Loop Classification in Magnification Endoscopy: Open Dataset and Baseline Methodology ( http://arxiv.org/abs/2102.09963v1 )

ライセンス: Link先を確認
Luis C. Garcia-Peraza-Herrer a, Martin Everson, Laurence Lovat, Hsiu-Po Wang, Wen Lun Wang, Rehan Haidry, Danail Stoyanov, Sebastien Ourselin, Tom Vercauteren(参考訳) 目的。 食道の早期扁平上皮細胞新生(ESCN)は非常に治療可能な状態である。 粘膜層に閉じ込められた病変は内視鏡的に治療することができる。 我々は,静止画像やビデオフレームを,診断精度の高い正常または異常と分類できるコンピュータ支援検出(CADe)システムを構築した。 方法。 本研究では114本の患者ビデオから抽出した68Kのバイナリラベル付きフレームを含む新しいベンチマークデータセットについて報告する。 提案するconvolutional network (cnn) アーキテクチャは,バイナリ分類タスクを解決し,入力領域の特徴がネットワークの意思決定プロセスを促進するかを説明する。 結果。 提案手法は, 臨床医12名による94.7 %に対して, 平均91.7 %の精度を示した。 この新しいネットワークアーキテクチャは, 異常予測時の乳頭内毛細血管ループ(ipcl)パターンに注目していることを示唆する, 深い教師付き活性化ヒートマップを生成する。 結論。 我々は,このデータセットとベースライン手法が,ESCN検出の文脈におけるビデオフレーム分類と説明可能性の両方に関する将来のベンチマークの基準となると信じている。 高い臨床関連性の将来の作業パスは、ESCNタイプへの分類の拡張である。

Purpose. Early squamous cell neoplasia (ESCN) in the oesophagus is a highly treatable condition. Lesions confined to the mucosal layer can be curatively treated endoscopically. We build a computer-assisted detection (CADe) system that can classify still images or video frames as normal or abnormal with high diagnostic accuracy. Methods. We present a new benchmark dataset containing 68K binary labeled frames extracted from 114 patient videos whose imaged areas have been resected and correlated to histopathology. Our novel convolutional network (CNN) architecture solves the binary classification task and explains what features of the input domain drive the decision-making process of the network. Results. The proposed method achieved an average accuracy of 91.7 % compared to the 94.7 % achieved by a group of 12 senior clinicians. Our novel network architecture produces deeply supervised activation heatmaps that suggest the network is looking at intrapapillary capillary loop (IPCL) patterns when predicting abnormality. Conclusion. We believe that this dataset and baseline method may serve as a reference for future benchmarks on both video frame classification and explainability in the context of ESCN detection. A future work path of high clinical relevance is the extension of the classification to ESCN types.
翻訳日:2021-02-22 13:22:08 公開日:2021-02-19
# 混合整数線形プログラミングによる資源制約エージェントの情報理論的抽象化

Information-Theoreti c Abstractions for Resource-Constrained Agents via Mixed-Integer Linear Programming ( http://arxiv.org/abs/2102.10015v1 )

ライセンス: Link先を確認
Daniel T. Larsson, Dipankar Maity, Panagiotis Tsiotras(参考訳) 本稿では,資源制約エージェントに対するタスク関連多分解能グラフ抽象化問題に対する混合整数線形プログラミングの定式化について述べる。 この定式化は、情報理論信号圧縮、特に情報ボトルネック(IB)法の概念を利用して、マルチリゾリューションツリーの空間上の最適なエンコーダ探索としてグラフ抽象化問題を提起する。 抽象化はエージェント情報処理制約の関数としてタスク関連的な方法で現れ、システムを優先的に提供するものではない。 本手法を詳述し,整数線形プログラムとして問題を実現する方法を示す。 非自明な数値例を提示し、リソース限定エージェントの階層的ツリー抽象化のアプローチを用いた実用性を示す。

In this paper, a mixed-integer linear programming formulation for the problem of obtaining task-relevant, multi-resolution, graph abstractions for resource-constrained agents is presented. The formulation leverages concepts from information-theoreti c signal compression, specifically the information bottleneck (IB) method, to pose a graph abstraction problem as an optimal encoder search over the space of multi-resolution trees. The abstractions emerge in a task-relevant manner as a function of agent information-processi ng constraints, and are not provided to the system a priori. We detail our formulation and show how the problem can be realized as an integer linear program. A non-trivial numerical example is presented to demonstrate the utility in employing our approach to obtain hierarchical tree abstractions for resource-limited agents.
翻訳日:2021-02-22 13:21:48 公開日:2021-02-19
# sqaplanner: データ型ソフトウェア品質改善計画の作成

SQAPlanner: Generating Data-InformedSoftwar e Quality Improvement Plans ( http://arxiv.org/abs/2102.09687v1 )

ライセンス: Link先を確認
Dilini Rajapaksha, Chakkrit Tantithamthavorn, Jirayus Jiarpakdee, Christoph Bergmeir, John Grundy, and Wray Buntine(参考訳) ソフトウェア品質保証(SQA)計画は、将来のリリースにおけるソフトウェア欠陥の発生を防ぐために、最大ファイルサイズを定義するなどの積極的な計画を定義することを目的としています。 これを助けるために、ソフトウェアの品質に関連する最も重要な要因として、欠陥予測モデルが提案されている。 従来の欠陥モデルから派生したそのような洞察は、実行可能とは程遠い。つまり、実践者は未だに何をすべきか、欠陥を持つリスクを減らすために避けるべきか、各メトリクスのリスクしきい値とは何かを知らない。 行動可能なガイダンスとリスク閾値の欠如は、非効率で非効率なSQA計画プロセスにつながる可能性がある。 本稿では,現在のSQA計画活動に対する実践者の認識,そのようなSQA計画活動の課題について考察し,SQA計画を支援するための4種類のガイダンスを提案する。 次に,欠陥予測モデルの予測のための規則に基づく説明の形で,4種類のガイダンスとその関連するリスクしきい値を生成するための新しいアプローチである,ai駆動のsqaplannerアプローチを提案し,評価する。 最後に、SQAPlannerアプローチの情報視覚化を開発し、評価します。 質的調査と実証的評価により, sqaplannerは必要であり, 効果的であり, 安定し, 実用的でありうると結論づけた。 また、調査回答者の80%は、可視化がより実行可能であると認識しています。 このように、我々のSQAPlannerは、実行可能なソフトウェア分析の新しい研究方法、すなわち、実践者がすべきことに関する実行可能なガイダンスを生成し、SQA計画を支援する欠陥を持つリスクを減らそうとしない。

Software Quality Assurance (SQA) planning aims to define proactive plans, such as defining maximum file size, to prevent the occurrence of software defects in future releases. To aid this, defect prediction models have been proposed to generate insights as the most important factors that are associated with software quality. Such insights that are derived from traditional defect models are far from actionable-i.e., practitioners still do not know what they should do or avoid to decrease the risk of having defects, and what is the risk threshold for each metric. A lack of actionable guidance and risk threshold can lead to inefficient and ineffective SQA planning processes. In this paper, we investigate the practitioners' perceptions of current SQA planning activities, current challenges of such SQA planning activities, and propose four types of guidance to support SQA planning. We then propose and evaluate our AI-Driven SQAPlanner approach, a novel approach for generating four types of guidance and their associated risk thresholds in the form of rule-based explanations for the predictions of defect prediction models. Finally, we develop and evaluate an information visualization for our SQAPlanner approach. Through the use of qualitative survey and empirical evaluation, our results lead us to conclude that SQAPlanner is needed, effective, stable, and practically applicable. We also find that 80% of our survey respondents perceived that our visualization is more actionable. Thus, our SQAPlanner paves a way for novel research in actionable software analytics-i.e., generating actionable guidance on what should practitioners do and not do to decrease the risk of having defects to support SQA planning.
翻訳日:2021-02-22 13:20:52 公開日:2021-02-19
# AI-SARAH:適応的および暗黙的確率的再帰的勾配法

AI-SARAH: Adaptive and Implicit Stochastic Recursive Gradient Methods ( http://arxiv.org/abs/2102.09700v1 )

ライセンス: Link先を確認
Zheng Shi and Nicolas Loizou and Peter Richt\'arik and Martin Tak\'a\v{c}(参考訳) 本稿では適応性に対する暗黙的アプローチによる適応確率分散低減手法を提案する。 SARAHの変種として、確率的再帰勾配を用いるが、局所幾何学に基づいてステップサイズを調整する。 有限サム最小化問題に対する収束保証を提供し,局所幾何が許せばサラよりも高速に収束できることを示す。 さらに,局所幾何学の知識やハイパーパラメータのチューニングの労力を一切必要としない実用的で完全適応的な変種を提案する。 このアルゴリズムはステップサイズを暗黙的に計算し、確率関数の局所リプシッツ滑らかさを効率的に推定する。 数値実験は、古典的手法や他の最先端の1次手法と比較してアルゴリズムの強い性能を実証する。

We present an adaptive stochastic variance reduced method with an implicit approach for adaptivity. As a variant of SARAH, our method employs the stochastic recursive gradient yet adjusts step-size based on local geometry. We provide convergence guarantees for finite-sum minimization problems and show a faster convergence than SARAH can be achieved if local geometry permits. Furthermore, we propose a practical, fully adaptive variant, which does not require any knowledge of local geometry and any effort of tuning the hyper-parameters. This algorithm implicitly computes step-size and efficiently estimates local Lipschitz smoothness of stochastic functions. The numerical experiments demonstrate the algorithm's strong performance compared to its classical counterparts and other state-of-the-art first-order methods.
翻訳日:2021-02-22 13:20:23 公開日:2021-02-19
# PRICURE: マルチパーティ設定におけるプライバシー保護型協調推論

PRICURE: Privacy-Preserving Collaborative Inference in a Multi-Party Setting ( http://arxiv.org/abs/2102.09751v1 )

ライセンス: Link先を確認
Ismat Jarin, Birhanu Eshete(参考訳) プライベートデータを扱う複数の当事者が医用画像分類のような協調的予測タスクを目標とする場合、それらはしばしばデータ保護規則や協力者間の信頼の欠如によって制約される。 プライバシー保護の方法で行われる場合、予測分析は、同じ機械学習タスクで補完的なデータセットを保持する複数の当事者の集団予測機能から恩恵を受けることができます。 本稿では,セキュアなマルチパーティ計算(smpc)とディファレンシャルプライバシ(dp)の強みを相補的に組み合わせ,複数のモデル所有者間のプライバシ保全協調予測を可能にするシステムpricureを提案する。 SMPCは、プライベートモデルとクライアント入力を非クローズドセキュアサーバと秘密共有することで、モデルパラメータや入力をリークすることなく予測を計算できます。 DPマスクはノイズアグリゲーションを介して真の予測結果をマスクし、メンバーシップ推論攻撃をマウントする半正直なクライアントを阻止する。 ベンチマーク医療画像分類データセットを含む4つのデータセットのニューラルネットワーク上でPRICUREを評価する。 私たちの結果は、PRICUREが許容される精度の損失を持つ数十のモデル所有者とクライアントのプライバシーを保証します。 また,DPは精度を損なうことなく,メンバーシップ推論攻撃の被曝を減少させることを示した。

When multiple parties that deal with private data aim for a collaborative prediction task such as medical image classification, they are often constrained by data protection regulations and lack of trust among collaborating parties. If done in a privacy-preserving manner, predictive analytics can benefit from the collective prediction capability of multiple parties holding complementary datasets on the same machine learning task. This paper presents PRICURE, a system that combines complementary strengths of secure multi-party computation (SMPC) and differential privacy (DP) to enable privacy-preserving collaborative prediction among multiple model owners. SMPC enables secret-sharing of private models and client inputs with non-colluding secure servers to compute predictions without leaking model parameters and inputs. DP masks true prediction results via noisy aggregation so as to deter a semi-honest client who may mount membership inference attacks. We evaluate PRICURE on neural networks across four datasets including benchmark medical image classification datasets. Our results suggest PRICURE guarantees privacy for tens of model owners and clients with acceptable accuracy loss. We also show that DP reduces membership inference attack exposure without hurting accuracy.
翻訳日:2021-02-22 13:20:13 公開日:2021-02-19
# 多段部分ハイパーグラフ全変量による正規化回復

Regularized Recovery by Multi-order Partial Hypergraph Total Variation ( http://arxiv.org/abs/2102.09771v1 )

ライセンス: Link先を確認
Ruyuan Qu, Jiaqi He, Hui Feng, Chongbin Xu, Bo Hu(参考訳) データ間の複雑な高階インタラクションのキャプチャは、多くのシナリオで重要なタスクです。 高次相互作用をモデル化する一般的な方法は、トポロジーをテンソルで数学的に表現できるハイパーグラフを使用することである。 既存の方法では、固定順序テンソルを使用してハイパーグラフ全体のトポロジーを記述するが、これは異なる順序の相互作用のばらつきを無視する。 本研究では,この分散を考慮に入れ,多階超グラフラプラシアンとそれに対応する全変分を提案する。 この総変動を正規化項として、ハイパーグラフ信号の平滑化に含むトポロジ情報を利用することができる。 これは異なる順序の相互作用を区別し、高階の相互作用を正確に表現するのに役立つ。

Capturing complex high-order interactions among data is an important task in many scenarios. A common way to model high-order interactions is to use hypergraphs whose topology can be mathematically represented by tensors. Existing methods use a fixed-order tensor to describe the topology of the whole hypergraph, which ignores the divergence of different-order interactions. In this work, we take this divergence into consideration, and propose a multi-order hypergraph Laplacian and the corresponding total variation. Taking this total variation as a regularization term, we can utilize the topology information contained by it to smooth the hypergraph signal. This can help distinguish different-order interactions and represent high-order interactions accurately.
翻訳日:2021-02-22 13:19:53 公開日:2021-02-19
# deluca -- 差別化可能なコントロールライブラリ:環境、メソッド、ベンチマーク

Deluca -- A Differentiable Control Library: Environments, Methods, and Benchmarking ( http://arxiv.org/abs/2102.09968v1 )

ライセンス: Link先を確認
Paula Gradu, John Hallman, Daniel Suo, Alex Yu, Naman Agarwal, Udaya Ghai, Karan Singh, Cyril Zhang, Anirudha Majumdar, Elad Hazan(参考訳) 本稿では,グラデーションに基づく制御手法とベンチマークスイートを併用した,ネイティブに微分可能な物理環境とロボット環境のオープンソースライブラリを提案する。 導入された環境により、シミュレーションダイナミクスによる自動微分が可能となり、コントローラの迅速なトレーニングが可能になります。 ライブラリには,OpenAI Gymの古典的なコントロール設定など,いくつかのポピュラーな環境がある。 また、深層ニューラルネットワークに基づく新しい微分可能な環境を提供し、医療換気をシミュレートする。 ライブラリを使用して得られた新しい科学的結果のいくつかのユースケースを提供します。 これには、医用人工呼吸器シミュレータと制御装置、時変線形力学系の適応制御方法、逆摂動を伴う線形力学系の新しい勾配に基づく制御方法が含まれる。

We present an open-source library of natively differentiable physics and robotics environments, accompanied by gradient-based control methods and a benchmark-ing suite. The introduced environments allow auto-differentiation through the simulation dynamics, and thereby permit fast training of controllers. The library features several popular environments, including classical control settings from OpenAI Gym. We also provide a novel differentiable environment, based on deep neural networks, that simulates medical ventilation. We give several use-cases of new scientific results obtained using the library. This includes a medical ventilator simulator and controller, an adaptive control method for time-varying linear dynamical systems, and new gradient-based methods for control of linear dynamical systems with adversarial perturbations.
翻訳日:2021-02-22 13:19:43 公開日:2021-02-19
# MolCLR: グラフニューラルネットワークによる表現の分子コントラスト学習

MolCLR: Molecular Contrastive Learning of Representations via Graph Neural Networks ( http://arxiv.org/abs/2102.10056v1 )

ライセンス: Link先を確認
Yuyang Wang, Jianren Wang, Zhonglin Cao, Amir Barati Farimani(参考訳) 分子機械学習は、効率的な分子特性予測と創薬を約束する。 しかし、ラベル付きデータと巨大な化学空間のため、教師付き学習で訓練された機械学習モデルは一般化に乏しい。 これは、分子設計と発見への機械学習手法の適用を大幅に制限する。 本研究では,大規模非ラベル分子データセットのための自己監視学習フレームワークであるGNNs(Graph Neural Networks)を用いて,MolCLR: Molecular Contrastive Learning of Representationsを提案する。 具体的には、まず各ノードが原子を表し、各エッジが化学結合を表す分子グラフを構築します。 その後、GNNが分子グラフのエンコードに使用される。 原子マスキング、結合除去、サブグラフ除去の3つの新しい分子グラフ増強法を提案する。 コントラスト推定器を用いて、同じ分子から異なるグラフ拡張の一致を最大化する。 実験により、MolCLRによって学習された分子表現は、複数の下流の分子特性予測タスクに転送できることが示された。 そこで本手法は,多くの挑戦的データセットに対して最先端の性能を実現する。 また,分子分類タスクにおける分子グラフ拡張の効率性についても検証した。

Molecular machine learning bears promise for efficient molecule property prediction and drug discovery. However, due to the limited labeled data and the giant chemical space, machine learning models trained via supervised learning perform poorly in generalization. This greatly limits the applications of machine learning methods for molecular design and discovery. In this work, we present MolCLR: Molecular Contrastive Learning of Representations via Graph Neural Networks (GNNs), a self-supervised learning framework for large unlabeled molecule datasets. Specifically, we first build a molecular graph, where each node represents an atom and each edge represents a chemical bond. A GNN is then used to encode the molecule graph. We propose three novel molecule graph augmentations: atom masking, bond deletion, and subgraph removal. A contrastive estimator is utilized to maximize the agreement of different graph augmentations from the same molecule. Experiments show that molecule representations learned by MolCLR can be transferred to multiple downstream molecular property prediction tasks. Our method thus achieves state-of-the-art performance on many challenging datasets. We also prove the efficiency of our proposed molecule graph augmentations on supervised molecular classification tasks.
翻訳日:2021-02-22 13:19:30 公開日:2021-02-19
# 軌道予測のための原理的簡易ニューラルネットワーク

Principled Simplicial Neural Networks for Trajectory Prediction ( http://arxiv.org/abs/2102.10058v1 )

ライセンス: Link先を確認
Nicholas Glaze, T. Mitchell Roddenberry, Santiago Segarra(参考訳) 単純複素体上のデータに対するニューラルネットワークアーキテクチャの構築を検討する。 simplicial complex の連鎖複体上の写像の研究において、simplicial neural network architecture の3つの望ましい性質、すなわち、置換同値、配向同値、simplicial awareness を定義する。 最初の2つの性質は、ノードのインデクシングと単純複体におけるシンプレックスの向きが任意であるという事実をそれぞれ説明している。 最後の特性は、ニューラルネットワークの出力がその次元の部分集合ではなく、単純複体全体に依存する望ましい特徴を符号化する。 これらの特性に基づいて,代数トポロジのツールに根ざした単純な畳み込みアーキテクチャを軌道予測問題として提案し,奇な非線形活性化関数を用いた場合,これら3つの特性すべてに従うことを示した。 次に、このアーキテクチャが合成データセットと実データセットの軌道を外挿することの有効性を実証し、特に目に見えない軌道に対する一般化可能性の向上を強調した。

We consider the construction of neural network architectures for data on simplicial complexes. In studying maps on the chain complex of a simplicial complex, we define three desirable properties of a simplicial neural network architecture: namely, permutation equivariance, orientation equivariance, and simplicial awareness. The first two properties respectively account for the fact that the node indexing and the simplex orientations in a simplicial complex are arbitrary. The last property encodes the desirable feature that the output of the neural network depends on the entire simplicial complex and not on a subset of its dimensions. Based on these properties, we propose a simple convolutional architecture, rooted in tools from algebraic topology, for the problem of trajectory prediction, and show that it obeys all three of these properties when an odd, nonlinear activation function is used. We then demonstrate the effectiveness of this architecture in extrapolating trajectories on synthetic and real datasets, with particular emphasis on the gains in generalizability to unseen trajectories.
翻訳日:2021-02-22 13:19:13 公開日:2021-02-19
# 高次元同時推論のための分散型ブートストラップ

Distributed Bootstrap for Simultaneous Inference Under High Dimensionality ( http://arxiv.org/abs/2102.10080v1 )

ライセンス: Link先を確認
Yang Yu, Shih-Kang Chao, Guang Cheng(参考訳) 本稿では,多数のマシンに格納・処理された高次元大規模データの同時推定を行う分散型ブートストラップ法を提案する。 この手法は,通信効率のよい脱バイアスラッソに基づく $\ell_\infty$-norm 信頼領域を生成し,各イテレーションでメソッドをチューニングするための効率的なクロスバリデーションアプローチを提案する。 理論的には、統計的精度と効率を保証する通信ラウンド$\tau_{\min}$の数の低い境界を証明します。 さらに、$\tau_{\min}$ は労働者の数と内在的な次元に対数的にのみ増大するが、名目次元にはほとんど不変である。 我々は,米国航空会社のオンタイムパフォーマンスデータセットに基づく半合成データセット上で,広範囲なシミュレーション研究と可変スクリーニングタスクを用いて本理論を検証した。 数値結果を再現するコードはGitHubで公開されている。

We propose a distributed bootstrap method for simultaneous inference on high-dimensional massive data that are stored and processed with many machines. The method produces a $\ell_\infty$-norm confidence region based on a communication-effici ent de-biased lasso, and we propose an efficient cross-validation approach to tune the method at every iteration. We theoretically prove a lower bound on the number of communication rounds $\tau_{\min}$ that warrants the statistical accuracy and efficiency. Furthermore, $\tau_{\min}$ only increases logarithmically with the number of workers and intrinsic dimensionality, while nearly invariant to the nominal dimensionality. We test our theory by extensive simulation studies, and a variable screening task on a semi-synthetic dataset based on the US Airline On-time Performance dataset. The code to reproduce the numerical results is available at GitHub: https://github.com/s kchao74/Distributed- bootstrap.
翻訳日:2021-02-22 13:18:56 公開日:2021-02-19
# 移動下におけるミリ波通信のための深層学習に基づくビームトラッキング

Deep Learning-based Beam Tracking for Millimeter-wave Communications under Mobility ( http://arxiv.org/abs/2102.09785v1 )

ライセンス: Link先を確認
Sun Hong Lim, Sunwoo Kim, Byonghyo Shim, and Jun Won Choi(参考訳) 本稿では,ミリ波(mm波)通信における深層学習に基づくビーム追跡手法を提案する。 ビームトラッキングは、発振ビームを用いた既知のシンボルの送信と、信頼できる通信リンクを維持するための時間変化チャネルの追跡に使用される。 ユーザー機器(UE)デバイスのポーズが急速に変化すると、mmWaveチャンネルも高速に変化し、シームレスな通信を妨げる傾向があります。 したがって、この問題を解決するためには、デバイスの動きによるmm波チャネルの時間的挙動を捉えるモデルが必要となる。 そこで,我々は深層ニューラルネットワークを用いて,慣性センサによって取得された時間変化チャネルと信号の時間構造とパターンを分析した。 本稿では, UEで利用可能な入力信号列に基づいて, 将来のチャネル挙動の分布を予測する長短メモリ(LSTM)に基づくモデルを提案する。 このチャネル分布は、1)将来のチャネル状態を適応的に制御し、2)シーケンシャルベイズ推定フレームワークの下で測定更新ステップを介してチャネル推定を更新するために使用される。 提案手法は, 様々な移動シナリオにおいて, 従来のビーム追従法に比べて有意な性能向上を達成した。

In this paper, we propose a deep learning-based beam tracking method for millimeter-wave (mmWave)communicatio ns. Beam tracking is employed for transmitting the known symbols using the sounding beams and tracking time-varying channels to maintain a reliable communication link. When the pose of a user equipment (UE) device varies rapidly, the mmWave channels also tend to vary fast, which hinders seamless communication. Thus, models that can capture temporal behavior of mmWave channels caused by the motion of the device are required, to cope with this problem. Accordingly, we employa deep neural network to analyze the temporal structure and patterns underlying in the time-varying channels and the signals acquired by inertial sensors. We propose a model based on long short termmemory (LSTM) that predicts the distribution of the future channel behavior based on a sequence of input signals available at the UE. This channel distribution is used to 1) control the sounding beams adaptively for the future channel state and 2) update the channel estimate through the measurement update step under a sequential Bayesian estimation framework. Our experimental results demonstrate that the proposed method achieves a significant performance gain over the conventional beam tracking methods under various mobility scenarios.
翻訳日:2021-02-22 13:17:49 公開日:2021-02-19
# 長期構造を有する条件付きメロディ生成のための階層的リカレントニューラルネットワーク

Hierarchical Recurrent Neural Networks for Conditional Melody Generation with Long-term Structure ( http://arxiv.org/abs/2102.09794v1 )

ライセンス: Link先を確認
Zixun Guo, Makris Dimos and Herremans Dorien(参考訳) ディープラーニング技術の台頭は、生成的音楽システムを含む多くの分野を急速に発展させてきた。 良質な短いスニペットを生成できるシステムもいくつか存在するが、これらのスニペットは概して長い構造を欠いていることが多い。 本研究では,階層的リカレントニューラルネットワークに基づく条件付きメロディ生成モデルCM-HRNNを提案する。 このモデルにより、与えられた和音伴奏に基づいて、長期構造を持つ旋律を生成することができる。 また,楽譜のリードシートを符号化し,楽譜の相対的な位置をバー内に保持する,新しい,簡潔なイベントベース表現を提案する。 この新しいデータ表現により、提案されたアーキテクチャはリズムとピッチ構造を同時に効果的にモデル化することができる。 提案モデルが生成するメロディーは, 量的実験およびユーザスタディで広く評価され, 出力の音楽的品質を確保し, 繰り返しパターンを含むかどうかを評価した。 また,このシステムを最先端のアテンションRNNと比較した。 CM-HRNNが生成するメロディは、より繰り返しパターン(すなわち、高い圧縮比)と低い音節張力(すなわち、より音節の簡潔さ)を含むことを示す。 聴取試験の結果,CM-HRNNは長期的構造と総合評価においてアテンションRNNよりも優れていた。

The rise of deep learning technologies has quickly advanced many fields, including that of generative music systems. There exist a number of systems that allow for the generation of good sounding short snippets, yet, these generated snippets often lack an overarching, longer-term structure. In this work, we propose CM-HRNN: a conditional melody generation model based on a hierarchical recurrent neural network. This model allows us to generate melodies with long-term structures based on given chord accompaniments. We also propose a novel, concise event-based representation to encode musical lead sheets while retaining the notes' relative position within the bar with respect to the musical meter. With this new data representation, the proposed architecture can simultaneously model the rhythmic, as well as the pitch structures in an effective way. Melodies generated by the proposed model were extensively evaluated in quantitative experiments as well as a user study to ensure the musical quality of the output as well as to evaluate if they contain repeating patterns. We also compared the system with the state-of-the-art AttentionRNN. This comparison shows that melodies generated by CM-HRNN contain more repeated patterns (i.e., higher compression ratio) and a lower tonal tension (i.e., more tonally concise). Results from our listening test indicate that CM-HRNN outperforms AttentionRNN in terms of long-term structure and overall rating.
翻訳日:2021-02-22 13:17:30 公開日:2021-02-19
# ラジオ放送における音声・音楽検出改善のための音声分類・セグメンテーションのための人工合成データ

Artificially Synthesising Data for Audio Classification and Segmentation to Improve Speech and Music Detection in Radio Broadcast ( http://arxiv.org/abs/2102.09959v1 )

ライセンス: Link先を確認
Satvik Venkatesh, David Moffat, Alexis Kirke, G\"ozel Shakeri, Stephen Brewster, J\"org Fachner, Helen Odell-Miller, Alex Street, Nicolas Farina, Sube Banerjee, and Eduardo Reck Miranda(参考訳) 音楽や音声などの均質なセクションに音声を分割することは、オーディオの内容を理解するのに役立ちます。 オーディオ録音、ラジオ放送、テレビ番組をインデックス化し、保存し、修正するための前処理ステップとして有用である。 セグメンテーションのためのディープラーニングモデルは一般的に、共有できない著作権のある素材で訓練される。 これらのデータセットに注釈をつけるのは時間がかかり費用がかかるため、研究の進捗が大幅に遅くなる。 本研究では,無線信号に似たデータを人工的に合成する手法を提案する。 オーディオを混合する際の無線DJのワークフローを再現し、フェードカーブやオーディオダッキングなどのパラメータを調査する。 この合成データに対して畳み込み型リカレントニューラルネットワーク(crnn)を訓練し,音楽音声検出のための最先端アルゴリズムと比較した。 本論文では,オーディオセグメンテーションのための深層ニューラルネットワークを訓練するための大規模データセット生成手法として,データ合成手法を実証する。

Segmenting audio into homogeneous sections such as music and speech helps us understand the content of audio. It is useful as a pre-processing step to index, store, and modify audio recordings, radio broadcasts and TV programmes. Deep learning models for segmentation are generally trained on copyrighted material, which cannot be shared. Annotating these datasets is time-consuming and expensive and therefore, it significantly slows down research progress. In this study, we present a novel procedure that artificially synthesises data that resembles radio signals. We replicate the workflow of a radio DJ in mixing audio and investigate parameters like fade curves and audio ducking. We trained a Convolutional Recurrent Neural Network (CRNN) on this synthesised data and outperformed state-of-the-art algorithms for music-speech detection. This paper demonstrates the data synthesis procedure as a highly effective technique to generate large datasets to train deep neural networks for audio segmentation.
翻訳日:2021-02-22 13:17:07 公開日:2021-02-19
# グラフ機械学習とスーパーアプリ代替データによるファイナンシャルインクルージョンのサポート

Supporting Financial Inclusion with Graph Machine Learning and Super-App Alternative Data ( http://arxiv.org/abs/2102.09974v1 )

ライセンス: Link先を確認
Luisa Roa, Andr\'es Rodr\'iguez-Rey, Alejandro Correa-Bahnsen, Carlos Valencia(参考訳) Super-Appsの存在は、ユーザとコマースの相互作用に関する考え方を変えました。 そして、銀行のやり方を再定義しているのも驚きではありません。 この論文は、Super-App内のユーザー間の異なる相互作用が、借り手行動を予測するための新しい情報源を提供する方法を調査している。 この目的のために,2つの異なるグラフベース手法を用いた実験が提案されている。1つは分類モデルに入力としてグラフベースの特徴を用い,もう1つはグラフニューラルネットワークを用いる。 その結果, 利用者の集中度, 行動, 取引性などの変数が, 信用リスクモデルの統計的, 財務的パフォーマンスを高める新しい形態の知識を構成していることがわかった。 さらに、Super-Appsがプラットフォームが持つすべての環境を考慮し、信用リスクの定義を再定義する機会が特定され、より包括的な金融システムへと繋がる。

The presence of Super-Apps have changed the way we think about the interactions between users and commerce. It then comes as no surprise that it is also redefining the way banking is done. The paper investigates how different interactions between users within a Super-App provide a new source of information to predict borrower behavior. To this end, two experiments with different graph-based methodologies are proposed, the first uses graph based features as input in a classification model and the second uses graph neural networks. Our results show that variables of centrality, behavior of neighboring users and transactionality of a user constituted new forms of knowledge that enhance statistical and financial performance of credit risk models. Furthermore, opportunities are identified for Super-Apps to redefine the definition of credit risk by contemplating all the environment that their platforms entail, leading to a more inclusive financial system.
翻訳日:2021-02-22 13:16:50 公開日:2021-02-19
# 一定の目標関数に対する人工ニューラルネットワークの訓練における勾配降下の収束の証明

A proof of convergence for gradient descent in the training of artificial neural networks for constant target functions ( http://arxiv.org/abs/2102.09924v1 )

ライセンス: Link先を確認
Patrick Cheridito, Arnulf Jentzen, Adrian Riekert, Florian Rossmannek(参考訳) 勾配降下最適化アルゴリズムは、ニューラルネットワーク(ANN)のトレーニングに使用される標準成分である。 多くの数値シミュレーションは、勾配降下最適化法がアンの訓練において実際に収束することを示しているが、今日までこの予想を証明する(あるいは否定する)厳密な理論解析は存在しない。 特に、グラデーション降下最適化アルゴリズムの最も基本的な変種であるプレーンバニラ勾配降下法の場合であっても、グラデーション降下がANNの訓練に収束する予想を証明または証明するオープンな問題のままである。 この記事では、検討中のターゲット関数が一定の関数である特別な状況でこの問題を解決します。 より具体的には、一定の目標関数の場合、整流された完全連結フィードフォワードアンの訓練において、勾配降下法のリスク関数が実際にゼロに収束することを証明する。 我々の数学的解析は、整流器関数が検討されたANNで用いられる活性化関数であるという特性を強く活用する。 この作業の重要な貢献は、ANNパラメータの勾配フローシステムのLyapunov関数を明示的に指定することです。 このリアプノフ関数は勾配降下法の収束証明における中心的な道具である。

Gradient descent optimization algorithms are the standard ingredients that are used to train artificial neural networks (ANNs). Even though a huge number of numerical simulations indicate that gradient descent optimization methods do indeed convergence in the training of ANNs, until today there is no rigorous theoretical analysis which proves (or disproves) this conjecture. In particular, even in the case of the most basic variant of gradient descent optimization algorithms, the plain vanilla gradient descent method, it remains an open problem to prove or disprove the conjecture that gradient descent converges in the training of ANNs. In this article we solve this problem in the special situation where the target function under consideration is a constant function. More specifically, in the case of constant target functions we prove in the training of rectified fully-connected feedforward ANNs with one-hidden layer that the risk function of the gradient descent method does indeed converge to zero. Our mathematical analysis strongly exploits the property that the rectifier function is the activation function used in the considered ANNs. A key contribution of this work is to explicitly specify a Lyapunov function for the gradient flow system of the ANN parameters. This Lyapunov function is the central tool in our convergence proof of the gradient descent method.
翻訳日:2021-02-22 13:16:36 公開日:2021-02-19