このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200620となっている論文です。

PDF登録状況(公開日: 20200620)

TitleAuthorsAbstract論文公表日・翻訳日
# Josephson 相電池

A Josephson phase battery ( http://arxiv.org/abs/2001.03393v2 )

ライセンス: Link先を確認
E. Strambini, A. Iorio, O. Durante, R. Citro, C. Sanz-Fern\'andez, C. Guarcello, I. V. Tokatly, A. Braggio, M. Rocci, N. Ligato, V. Zannier, L. Sorba, F.S. Bergeret, and F. Giazotto(参考訳) 電池は、化学反応を電子回路を駆動できる持続的な電圧バイアスに変換する古典的な装置である。 同様に、位相電池は、量子回路の波動関数に永続的な位相バイアスを与える量子装置である。 これは量子コヒーレンスに基づく量子技術の鍵となる要素である。 電圧電池とは異なり、相電池は、主に、典型的な量子回路においてパリティと時間反転対称性の制約によって課される量子相の自然な剛性のために実装されていない。 本稿では,ハイブリッド超電導回路における相電池の実験的実現について報告する。 nドープしたInAsナノワイヤで、不対面のスピン状態を持ち、Al超伝導鉛によって酸化される。 未対スピン状態の強磁性偏極は、電線を介して持続的な位相バイアス$\varphi_0$に効率よく変換され、異常なジョセフソン効果をもたらす。 外部面内磁場を適用することで、$\varphi_0$の連続チューニングが達成される。 これにより、量子相電池の充電と放電が可能になり、理論モデルによって予測される異常ジョセフソン効果の対称性を明らかにする。 その結果, スピン軌道結合と交換相互作用の複合作用が, 電荷, スピン, 超伝導相の強い結合を誘導する系の相剛性を破ることを示した。 この相互作用は、トポロジカル量子技術、超伝導回路、および回路量子力学の高度なスキームへの道を開く。 }

A battery is a classical apparatus which converts a chemical reaction into a persistent voltage bias able to power electronic circuits. Similarly, a phase battery is a quantum equipment which provides a persistent phase bias to the wave function of a quantum circuit. It represents a key element for quantum technologies based on quantum coherence. Unlike the voltage batteries, a phase battery has not been implemented so far, mainly because of the natural rigidity of the quantum phase that, in typical quantum circuits, is imposed by the parity and time-reversal symmetry constrains. Here we report on the first experimental realization of a phase battery in a hybrid superconducting circuit. It consists of an n-doped InAs nanowire with unpaired-spin surface states and proximitized by Al superconducting leads. We find that the ferromagnetic polarization of the unpaired-spin states is efficiently converted into a persistent phase bias $\varphi_0$ across the wire, leading to the anomalous Josephson effect. By applying an external in-plane magnetic field a continuous tuning of $\varphi_0$ is achieved. This allows the charging and discharging of the quantum phase battery and reveals the symmetries of the anomalous Josephson effect predicted by our theoretical model. Our results demonstrate how the combined action of spin-orbit coupling and exchange interaction breaks the phase rigidity of the system inducing a strong coupling between charge, spin and superconducting phase. This interplay opens avenues for topological quantum technologies, superconducting circuitry and advanced schemes of circuit quantum electrodynamics.}
翻訳日:2023-01-12 23:55:01 公開日:2020-06-20
# 熱力学における初期量子コヒーレンス

Initial quantum coherence in the thermodynamic work ( http://arxiv.org/abs/2001.04329v6 )

ライセンス: Link先を確認
Gianluca Francica(参考訳) 本研究では,いくつかのパラメータの外部制御によって生成されるコヒーレント過程における初期量子コヒーレンスの役割を熱力学的に検討する。 まず、能動状態の試験から始め、エネルギー固有状態間の量子コヒーレンスから生じるエルゴトロピーへの寄与を分離する。 これは、初期状態に接続された完全に受動的状態を含む不等式を通してコヒーレンスの量子相対エントロピーと関連している。 最後に、解析を一般的な平衡外プロセスに拡張し、初期量子コヒーレンスの効果を仕事の統計学においてどのように考慮するかを示す。

We study the role of the initial quantum coherence in coherent processes generated by an external control of some parameters by looking on the thermodynamic work done. We start by taking in exam an active state and we isolate the contribution to the ergotropy coming from the quantum coherence among the energy eigenstates. It is shown to be related to the quantum relative entropy of coherence through an inequality which involves the completely passive state connected to the initial state. Finally, we extend the analysis to a general out-of-equilibrium process and we show how to take in account in the statistics of work the effects of the initial quantum coherence.
翻訳日:2023-01-11 23:59:43 公開日:2020-06-20
# 制御可能な絡み合いネットワークを目指して

Toward a Controllable Disentanglement Network ( http://arxiv.org/abs/2001.08572v3 )

ライセンス: Link先を確認
Zengjie Song, Oluwasanmi Koyejo, Jiangshe Zhang(参考訳) 本稿では, 画像編集における歪みの程度を制御し, 歪み強度と復元品質のバランスをとることにより, 歪み画像表現を学習する2つの重要な問題に対処する。 絡み合いを促進するために,距離共分散に基づく相関正規化を考案する。 さらに, 復元ステップでは, ソフトターゲット表現と潜在画像コードを組み合わせた表現を用いる。 ソフトターゲット表現の実数値空間を探索することで,指定された特性を持つ新しい画像を合成することができる。 オートエンコーダ(AE)モデルにより生成された画像の知覚品質を改善するため,AEデコーダとGANジェネレータを1つに折り畳むことで,エンコーダ・デコーダアーキテクチャをGAN(Generative Adversarial Network)に拡張する。 また,モデルの絡み合う強度を定量的に評価するための分類ベースのプロトコルを設計する。 実験の結果,提案モデルの利点が示された。

This paper addresses two crucial problems of learning disentangled image representations, namely controlling the degree of disentanglement during image editing, and balancing the disentanglement strength and the reconstruction quality. To encourage disentanglement, we devise a distance covariance based decorrelation regularization. Further, for the reconstruction step, our model leverages a soft target representation combined with the latent image code. By exploring the real-valued space of the soft target representation, we are able to synthesize novel images with the designated properties. To improve the perceptual quality of images generated by autoencoder (AE)-based models, we extend the encoder-decoder architecture with the generative adversarial network (GAN) by collapsing the AE decoder and the GAN generator into one. We also design a classification based protocol to quantitatively evaluate the disentanglement strength of our model. Experimental results showcase the benefits of the proposed model.
翻訳日:2023-01-07 17:56:46 公開日:2020-06-20
# 注意を伴うオンライン予測の高速化

Fast Rates for Online Prediction with Abstention ( http://arxiv.org/abs/2001.10623v2 )

ライセンス: Link先を確認
Gergely Neu and Nikita Zhivotovskiy(参考訳) 個別の$\{0, 1\}$-sequencesを専門家の助言で逐次予測すると、学習者が$\frac 12$(例えば$0.49$)よりも極端に小額の費用を支払うことで、予測から退避することを許すことにより、時間的地平線から独立して期待される後悔の限界を達成できることが示される。 我々は、棄却コスト$c$ とエキスパート数 $n$ の依存性を正確に特徴付けし、オプションを使わずに使用可能な$\sqrt{t\log n}$ の最高のレートと対照的な$\frac{\log n}{1-2c}$ のオーダーの上下境界を提供する。 また, 本モデルの様々な拡張についても検討し, 回避コストの列が時間とともに任意に変化するような設定についても検討し, 回避コスト列の自然な仮定の下で, 上記のスローレートと高速レートの間を補間する後悔の限界を示す。

In the setting of sequential prediction of individual $\{0, 1\}$-sequences with expert advice, we show that by allowing the learner to abstain from the prediction by paying a cost marginally smaller than $\frac 12$ (say, $0.49$), it is possible to achieve expected regret bounds that are independent of the time horizon $T$. We exactly characterize the dependence on the abstention cost $c$ and the number of experts $N$ by providing matching upper and lower bounds of order $\frac{\log N}{1-2c}$, which is to be contrasted with the best possible rate of $\sqrt{T\log N}$ that is available without the option to abstain. We also discuss various extensions of our model, including a setting where the sequence of abstention costs can change arbitrarily over time, where we show regret bounds interpolating between the slow and the fast rates mentioned above, under some natural assumptions on the sequence of abstention costs.
翻訳日:2023-01-06 02:23:11 公開日:2020-06-20
# ニューラルネットワークの正しい見方:表現,記憶,学習

A Corrective View of Neural Networks: Representation, Memorization and Learning ( http://arxiv.org/abs/2002.00274v2 )

ライセンス: Link先を確認
Guy Bresler and Dheeraj Nagaraj(参考訳) 我々は、ニューラルネットワーク近似の補正機構を開発し、利用可能な全非線形単位を複数のグループに分割し、第1群が考慮された関数を近似し、第2群が第1群が生成した近似誤差を近似し、第3群が第1群と第2群が生成した誤差を近似する。 この手法により、ニューラルネットワークの新しい表現と学習結果が得られる。 まず,ランダム特徴体系 (rf) における2層ニューラルネットワークは, n$ 対数係数まで最適である$\tilde{o}(n)$ relusを用いてユークリッド距離分離条件下で任意の点に対する任意のラベルを記憶できることを示す。 次に、relus と smoothed relus を持つ2層ニューラルネットワークに対して強力な表現結果を与え、関数が十分滑らかであるときに、$o(c(a,d)\epsilon^{-1/(a+1)})$a \in \mathbb{n}\cup\{0\}$ で最大$\epsilon$ の2乗誤差を達成することができる(大まかに $\theta(ad)$ の有界導関数を持つとき)。 ある場合には$d$ を有効次元 $q \ll d$ に置き換えることができる。 このタイプの以前の結果は、深いアーキテクチャを用いてテイラー級数近似を実装している。 また,3層ニューラルネットワークについても検討し,補正機構が滑らかなラジアル関数の表現速度を高速化することを示す。 最後に、2層ネットワークが勾配降下によって2乗誤差まで低次多項式を学ぶのに必要なニューロン数について、最初の$o(\mathrm{subpoly}(1/\epsilon))$上限を得る。 深層ネットワークはこれらの多項式を$O(\mathrm{polylog}(1/\epsilon))$ニューロンで表すことができるが、この問題の最良の学習境界は$\mathrm{poly}(1/\epsilon)$ニューロンである。

We develop a corrective mechanism for neural network approximation: the total available non-linear units are divided into multiple groups and the first group approximates the function under consideration, the second group approximates the error in approximation produced by the first group and corrects it, the third group approximates the error produced by the first and second groups together and so on. This technique yields several new representation and learning results for neural networks. First, we show that two-layer neural networks in the random features regime (RF) can memorize arbitrary labels for arbitrary points under under Euclidean distance separation condition using $\tilde{O}(n)$ ReLUs which is optimal in $n$ up to logarithmic factors. Next, we give a powerful representation result for two-layer neural networks with ReLUs and smoothed ReLUs which can achieve a squared error of at most $\epsilon$ with $O(C(a,d)\epsilon^{-1/(a+1)})$ for $a \in \mathbb{N}\cup\{0\}$ when the function is smooth enough (roughly when it has $\Theta(ad)$ bounded derivatives). In certain cases $d$ can be replaced with effective dimension $q \ll d$. Previous results of this type implement Taylor series approximation using deep architectures. We also consider three-layer neural networks and show that the corrective mechanism yields faster representation rates for smooth radial functions. Lastly, we obtain the first $O(\mathrm{subpoly}(1/\epsilon))$ upper bound on the number of neurons required for a two layer network to learn low degree polynomials up to squared error $\epsilon$ via gradient descent. Even though deep networks can express these polynomials with $O(\mathrm{polylog}(1/\epsilon))$ neurons, the best learning bounds on this problem require $\mathrm{poly}(1/\epsilon)$ neurons.
翻訳日:2023-01-05 00:46:25 公開日:2020-06-20
# ドメイン組込み多モデル生成対向ネットワークによる画像ベース顔インペインティング

Domain Embedded Multi-model Generative Adversarial Networks for Image-based Face Inpainting ( http://arxiv.org/abs/2002.02909v2 )

ライセンス: Link先を確認
Xian Zhang, Xin Wang, Bin Kong, Canghong Shi, Youbing Yin, Qi Song, Siwei Lyu, Jiancheng Lv, Canghong Shi, Xiaojie Li(参考訳) 顔の形状と構造に関する事前の知識は、顔の塗装において重要な役割を果たす。 しかし、従来の顔塗抹法は、人間の顔の特殊な特色を考慮せずに、被写体の画像分解に主眼を置き、一般的には不一致な顔部を生成する。 そこで本研究では,顔画像に大面積の被写体を塗布するドメイン組込み多モデル生成逆数モデルを提案する。 まず、潜在変数をドメイン知識として顔領域のみを表現し、非顔部分のテクスチャと組み合わせて、高品質な顔画像と可視な内容を生成する。 2つの逆微分器を用いて、生成した分布が実分布に近いか否かを判定する。 新しい画像構造を合成するだけでなく、組み込み顔ドメインの知識を明示的に利用し、構造と外観の一貫性を持ってより良い予測を生成することができる。 celeba と celeba-hq の2つの顔データセットにおける実験により,提案手法が最先端の性能を達成し,既存のデータよりも高品質なインペインティング結果を生成することを実証した。

Prior knowledge of face shape and structure plays an important role in face inpainting. However, traditional face inpainting methods mainly focus on the generated image resolution of the missing portion without consideration of the special particularities of the human face explicitly and generally produce discordant facial parts. To solve this problem, we present a domain embedded multi-model generative adversarial model for inpainting of face images with large cropped regions. We firstly represent only face regions using the latent variable as the domain knowledge and combine it with the non-face parts textures to generate high-quality face images with plausible contents. Two adversarial discriminators are finally used to judge whether the generated distribution is close to the real distribution or not. It can not only synthesize novel image structures but also explicitly utilize the embedded face domain knowledge to generate better predictions with consistency on structures and appearance. Experiments on both CelebA and CelebA-HQ face datasets demonstrate that our proposed approach achieved state-of-the-art performance and generates higher quality inpainting results than existing ones.
翻訳日:2023-01-03 21:30:09 公開日:2020-06-20
# プライバシー保護レグレッションのための分散スケッチ手法

Distributed Sketching Methods for Privacy Preserving Regression ( http://arxiv.org/abs/2002.06538v2 )

ライセンス: Link先を確認
Burak Bartan, Mert Pilanci(参考訳) 本研究では,大規模回帰問題に対する分散スケッチ手法について検討する。 我々は、複数のランダム化されたスケッチを活用し、問題の次元を減らし、プライバシを保ち、非同期分散システムにおけるストラグラーレジリエンスを改善します。 従来のスケッチ手法に対する新しい近似保証を導出し、分散スケッチにおけるパラメータ平均化の精度を解析する。 本稿では, ガウス, ランダム化アダマール, 均一サンプリング, 分散環境でのスコアサンプリングなど, ランダム行列について考察する。 さらに,サンプリングと高速なランダムプロジェクションを組み合わせたハイブリッド手法を提案し,計算効率を向上する。 大規模実験によるサーバレスコンピューティングプラットフォームにおける分散スケッチのパフォーマンスについて説明する。

In this work, we study distributed sketching methods for large scale regression problems. We leverage multiple randomized sketches for reducing the problem dimensions as well as preserving privacy and improving straggler resilience in asynchronous distributed systems. We derive novel approximation guarantees for classical sketching methods and analyze the accuracy of parameter averaging for distributed sketches. We consider random matrices including Gaussian, randomized Hadamard, uniform sampling and leverage score sampling in the distributed setting. Moreover, we propose a hybrid approach combining sampling and fast random projections for better computational efficiency. We illustrate the performance of distributed sketches in a serverless computing platform with large scale experiments.
翻訳日:2022-12-31 18:24:58 公開日:2020-06-20
# ローカル・プライベート仮説の選択

Locally Private Hypothesis Selection ( http://arxiv.org/abs/2002.09465v2 )

ライセンス: Link先を確認
Sivakanth Gopi, Gautam Kamath, Janardhan Kulkarni, Aleksandar Nikolov, Zhiwei Steven Wu, Huanyu Zhang(参考訳) 局所的な差分プライバシーの下で仮説選択の研究を開始する。 未知の確率分布$p$のサンプルと、$k$の確率分布$\mathcal{Q}$のセットが与えられた場合、我々は、$\varepsilon$-local differential privacyという制約の下で、$\mathcal{Q}$の分布を出力することを目指している。 これは、$k$-wise な単純な仮説テストの古典的な問題の一般化であり、$p \in \mathcal{Q}$ のときに対応するもので、$p$ を識別したい。 プライバシの制約がなければ、この問題には$p$から$o(\log k)$のサンプルが必要となる。 しかし、局所的な差分プライバシーの下でこの問題に対処するには$\tilde O(k^2)$サンプルが必要である。 まず、局所微分プライバシーの制約によってコストが指数関数的に増加することを示し、この問題に対するアルゴリズムは少なくとも$\Omega(k)$サンプルを必要とする。 第二に、$k$の単純な仮説テストの特別な場合、この境界にほぼ一致する非相互作用アルゴリズムを提供し、$\tilde O(k)$サンプルを必要とする。 最後に、一般の場合に対して逐次インタラクティブなアルゴリズムを提供し、$\tilde O(k)$サンプルと$O(\log \log k)$ラウンドの対話性を必要とする。 提案手法は,並列環境での学習を開始する独立関心の問題である逆比較器による最大選択の削減によって実現される。 この問題に対して、我々は、許容される相互作用のラウンド数$t$に対するアルゴリズム群と、それらが$t$毎にほぼ最適であることを示す下界を提供する。 特に,本アルゴリズムは従来手法のラウンド複雑性を指数関数的に改善する。

We initiate the study of hypothesis selection under local differential privacy. Given samples from an unknown probability distribution $p$ and a set of $k$ probability distributions $\mathcal{Q}$, we aim to output, under the constraints of $\varepsilon$-local differential privacy, a distribution from $\mathcal{Q}$ whose total variation distance to $p$ is comparable to the best such distribution. This is a generalization of the classic problem of $k$-wise simple hypothesis testing, which corresponds to when $p \in \mathcal{Q}$, and we wish to identify $p$. Absent privacy constraints, this problem requires $O(\log k)$ samples from $p$, and it was recently shown that the same complexity is achievable under (central) differential privacy. However, the naive approach to this problem under local differential privacy would require $\tilde O(k^2)$ samples. We first show that the constraint of local differential privacy incurs an exponential increase in cost: any algorithm for this problem requires at least $\Omega(k)$ samples. Second, for the special case of $k$-wise simple hypothesis testing, we provide a non-interactive algorithm which nearly matches this bound, requiring $\tilde O(k)$ samples. Finally, we provide sequentially interactive algorithms for the general case, requiring $\tilde O(k)$ samples and only $O(\log \log k)$ rounds of interactivity. Our algorithms are achieved through a reduction to maximum selection with adversarial comparators, a problem of independent interest for which we initiate study in the parallel setting. For this problem, we provide a family of algorithms for each number of allowed rounds of interaction $t$, as well as lower bounds showing that they are near-optimal for every $t$. Notably, our algorithms result in exponential improvements on the round complexity of previous methods.
翻訳日:2022-12-30 01:18:47 公開日:2020-06-20
# Greedy Policy Search: 学習可能なテスト時間拡張のためのシンプルなベースライン

Greedy Policy Search: A Simple Baseline for Learnable Test-Time Augmentation ( http://arxiv.org/abs/2002.09103v2 )

ライセンス: Link先を確認
Dmitry Molchanov, Alexander Lyzhov, Yuliya Molchanova, Arsenii Ashukha, Dmitry Vetrov(参考訳) テスト時間データ拡張$-$ 機械学習モデルの予測を複数の拡張されたデータサンプルに平均する$-$は、予測性能を改善する広く使われているテクニックである。 近年、多くの高度な学習可能なデータ拡張技術が登場しているが、それらはトレーニングフェーズに焦点を当てている。 このようなテクニックは必ずしもテスト時間拡張に最適というわけではなく、単純な作物とフリップからなるポリシーにより性能が向上する。 本稿の主目的は,テスト時の拡張ポリシーがうまく学習できることを実証することである。 我々は,テスト時間強化の方針を学ぶための単純かつハイパフォーマンスな手法である greedy policy search (gps) を提案する。 我々は,GPSで学習した拡張ポリシーが画像分類問題において優れた予測性能を実現し,ドメイン内不確実性評価の精度を高め,ドメインシフトに対する堅牢性を向上させることを実証した。

Test-time data augmentation$-$averaging the predictions of a machine learning model across multiple augmented samples of data$-$is a widely used technique that improves the predictive performance. While many advanced learnable data augmentation techniques have emerged in recent years, they are focused on the training phase. Such techniques are not necessarily optimal for test-time augmentation and can be outperformed by a policy consisting of simple crops and flips. The primary goal of this paper is to demonstrate that test-time augmentation policies can be successfully learned too. We introduce greedy policy search (GPS), a simple but high-performing method for learning a policy of test-time augmentation. We demonstrate that augmentation policies learned with GPS achieve superior predictive performance on image classification problems, provide better in-domain uncertainty estimation, and improve the robustness to domain shift.
翻訳日:2022-12-30 00:16:23 公開日:2020-06-20
# 都市全体のフロー分析のための畳み込みニューラルネットワークの再検討

Revisiting Convolutional Neural Networks for Citywide Crowd Flow Analytics ( http://arxiv.org/abs/2003.00895v2 )

ライセンス: Link先を確認
Yuxuan Liang, Kun Ouyang, Yiwei Wang, Ye Liu, Junbo Zhang, Yu Zheng, David S. Rosenblum(参考訳) 都市全体のクラウドフロー分析は、スマートシティの取り組みにとって非常に重要である。 歴史的観測に基づいて都市内の各地域の群集流(流入・流出など)をモデル化することを目的としている。 現在、畳み込みニューラルネットワーク(CNN)は、空間依存を捉える能力により、ラスタベースの群集フロー分析に広く採用されている。 異なる分析タスクのためにCNNベースのメソッドを再検討した後、既存の利用に共通する2つの重大な欠点を露呈する。 1)グローバル空間依存の学習における非効率性、及び 2)潜在領域関数を見渡す。 本稿では,これらの課題に対処するために,都市全体のクラウドフロー分析問題に容易に対処できる,DeepLGRという新しいフレームワークを提案する。 この枠組みは3つの部分からなる。 1) 各領域の表現を学習するローカル特徴抽出モジュール 2)グローバル・コンテキスト・モジュールは、グローバル・コンテキスト・プリミティブを抽出し、それらをサンプリングしてグローバル・フィーチャーを生成する。 3) テンソル分解に基づく領域特異的予測器は,各領域にカスタマイズされた予測を提供する。 2つの典型的な群集流解析タスクに関する大規模な実験は、我々のフレームワークの有効性、安定性、一般性を示している。

Citywide crowd flow analytics is of great importance to smart city efforts. It aims to model the crowd flow (e.g., inflow and outflow) of each region in a city based on historical observations. Nowadays, Convolutional Neural Networks (CNNs) have been widely adopted in raster-based crowd flow analytics by virtue of their capability in capturing spatial dependencies. After revisiting CNN-based methods for different analytics tasks, we expose two common critical drawbacks in the existing uses: 1) inefficiency in learning global spatial dependencies, and 2) overlooking latent region functions. To tackle these challenges, in this paper we present a novel framework entitled DeepLGR that can be easily generalized to address various citywide crowd flow analytics problems. This framework consists of three parts: 1) a local feature extraction module to learn representations for each region; 2) a global context module to extract global contextual priors and upsample them to generate the global features; and 3) a region-specific predictor based on tensor decomposition to provide customized predictions for each region, which is very parameter-efficient compared to previous methods. Extensive experiments on two typical crowd flow analytics tasks demonstrate the effectiveness, stability, and generality of our framework.
翻訳日:2022-12-28 02:30:25 公開日:2020-06-20
# 正則化による毒殺攻撃の軽減:多目的二段階最適化に基づく新しい分析

Regularisation Can Mitigate Poisoning Attacks: A Novel Analysis Based on Multiobjective Bilevel Optimisation ( http://arxiv.org/abs/2003.00040v2 )

ライセンス: Link先を確認
Javier Carnerero-Cano, Luis Mu\~noz-Gonz\'alez, Phillippa Spencer and Emil C. Lupu(参考訳) 機械学習(ml)アルゴリズムは、アルゴリズムのパフォーマンスを意図的に低下させるためにトレーニングデータの一部が操作される中毒攻撃に対して脆弱である。 二段階最適化問題として定式化できる最適な中毒攻撃は、最悪のシナリオにおける学習アルゴリズムの堅牢性を評価するのに役立つ。 しかし、ハイパーパラメータを持つアルゴリズムに対する現在の攻撃は、通常、これらのハイパーパラメータが攻撃がそれらに与える効果を無視し続けると仮定する。 このアプローチはアルゴリズムの堅牢性に対する過度に悲観的な見方をもたらすことを示す。 本稿では,攻撃を多目的二段階最適化問題としてモデル化することで,過度パラメータに対する攻撃の影響を考慮した新たな最適攻撃定式化を提案する。 この新たな攻撃定式化をML分類器に適用し,これまでに報告した結果とは対照的に,$L_2$正規化は学習アルゴリズムの安定性を高め,攻撃の軽減に役立つことを示す。 異なるデータセットに対する経験的評価は、以前の戦略の限界を確認し、毒殺攻撃の効果を弱めるために$l_2$レギュライゼーションを使用することの利点を証明し、中毒点のごく一部でレギュライゼーションハイパーパラメータがどのように増加するかを示しています。

Machine Learning (ML) algorithms are vulnerable to poisoning attacks, where a fraction of the training data is manipulated to deliberately degrade the algorithms' performance. Optimal poisoning attacks, which can be formulated as bilevel optimisation problems, help to assess the robustness of learning algorithms in worst-case scenarios. However, current attacks against algorithms with hyperparameters typically assume that these hyperparameters remain constant ignoring the effect the attack has on them. We show that this approach leads to an overly pessimistic view of the robustness of the algorithms. We propose a novel optimal attack formulation that considers the effect of the attack on the hyperparameters by modelling the attack as a multiobjective bilevel optimisation problem. We apply this novel attack formulation to ML classifiers using $L_2$ regularisation and show that, in contrast to results previously reported, $L_2$ regularisation enhances the stability of the learning algorithms and helps to mitigate the attacks. Our empirical evaluation on different datasets confirms the limitations of previous strategies, evidences the benefits of using $L_2$ regularisation to dampen the effect of poisoning attacks and shows how the regularisation hyperparameter increases with the fraction of poisoning points.
翻訳日:2022-12-28 01:55:36 公開日:2020-06-20
# 不完全パネル数データに対するロバスト関数EMアルゴリズム

A Robust Functional EM Algorithm for Incomplete Panel Count Data ( http://arxiv.org/abs/2003.01169v3 )

ライセンス: Link先を確認
Alexander Moreno, Zhenke Wu, Jamie Yap, David Wetter, Cho Lam, Inbal Nahum-Shani, Walter Dempsey, James M. Rehg(参考訳) パネルカウントデータは、離散時間ポイントで観測された繰り返しイベントの集計数を記述する。 健康行動のダイナミクスを理解するために、定量的行動研究の分野は、例えばモバイル機器のモーメント内調査を用いた喫煙頻度など、複数のセルフレポートを通じて収集されたパネル数データにますます依存するようになった。 しかし、報告の欠如は一般的であり、ダウンストリーム統計学習の大きな障壁となっている。 最初のステップとして、完全にランダムな仮定(MCAR)を欠いた状態で、計算過程の平均関数を推定するために、単純だが広く適用可能な関数EMアルゴリズムを提案する。 提案手法は、不完全数をシームレスに処理し、ポアソン過程の仮定の誤特定に頑健な、いくつかの一般的なパネルカウント推論手法を包含する。 提案アルゴリズムの理論的解析は、パラメトリックEM理論を一般の非パラメトリック設定に拡張することで有限サンプル保証を提供する。 本稿では, 数値実験による提案アルゴリズムの有用性と喫煙停止データの解析について述べる。 また、MCARの仮定と共変量の影響から逸脱する問題に対処するための有用な拡張についても論じる。

Panel count data describes aggregated counts of recurrent events observed at discrete time points. To understand dynamics of health behaviors, the field of quantitative behavioral research has evolved to increasingly rely upon panel count data collected via multiple self reports, for example, about frequencies of smoking using in-the-moment surveys on mobile devices. However, missing reports are common and present a major barrier to downstream statistical learning. As a first step, under a missing completely at random assumption (MCAR), we propose a simple yet widely applicable functional EM algorithm to estimate the counting process mean function, which is of central interest to behavioral scientists. The proposed approach wraps several popular panel count inference methods, seamlessly deals with incomplete counts and is robust to misspecification of the Poisson process assumption. Theoretical analysis of the proposed algorithm provides finite-sample guarantees by expanding parametric EM theory to our general non-parametric setting. We illustrate the utility of the proposed algorithm through numerical experiments and an analysis of smoking cessation data. We also discuss useful extensions to address deviations from the MCAR assumption and covariate effects.
翻訳日:2022-12-27 04:48:39 公開日:2020-06-20
# ゼロショットビデオ分類の再考: 現実的応用のためのエンドツーエンドトレーニング

Rethinking Zero-shot Video Classification: End-to-end Training for Realistic Applications ( http://arxiv.org/abs/2003.01455v4 )

ライセンス: Link先を確認
Biagio Brattoli, Joseph Tighe, Fedor Zhdanov, Pietro Perona, Krzysztof Chalupka(参考訳) 大規模なデータセットでトレーニングされたdeep learning(dl)は、ビデオを正確に数百のクラスに分類することができる。 しかし、ビデオデータは注釈をつけるのに費用がかかる。 ゼロショット学習(ZSL)はこの問題に対する一つの解決策を提案する。 ZSLは一度モデルをトレーニングし、トレーニングデータセットにクラスが存在しない新しいタスクに一般化する。 ビデオ分類におけるZSLの最初のエンドツーエンドアルゴリズムを提案する。 トレーニング手順は,最近の映像分類文献の知見に基づいて,学習可能な3D CNNを用いて視覚的特徴を学習する。 これは、事前訓練された特徴抽出器を使用する以前のビデオZSL法とは対照的である。 以前のテクニックは、トレーニング時にテストタスクを未知にすることを目的としていますが、この目標には達していません。 トレーニングとテストデータ間のドメインシフトを奨励し、特定のテストデータセットに対するZSLモデルの調整を禁止します。 我々は最先端技術を大きく上回っている。 我々のコード、評価手順、モデルウェイトはgithub.com/bbrattoli/ZeroShotVideoClassificationで利用可能です。

Trained on large datasets, deep learning (DL) can accurately classify videos into hundreds of diverse classes. However, video data is expensive to annotate. Zero-shot learning (ZSL) proposes one solution to this problem. ZSL trains a model once, and generalizes to new tasks whose classes are not present in the training dataset. We propose the first end-to-end algorithm for ZSL in video classification. Our training procedure builds on insights from recent video classification literature and uses a trainable 3D CNN to learn the visual features. This is in contrast to previous video ZSL methods, which use pretrained feature extractors. We also extend the current benchmarking paradigm: Previous techniques aim to make the test task unknown at training time but fall short of this goal. We encourage domain shift across training and test data and disallow tailoring a ZSL model to a specific test dataset. We outperform the state-of-the-art by a wide margin. Our code, evaluation procedure and model weights are available at github.com/bbrattoli/ZeroShotVideoClassification.
翻訳日:2022-12-26 22:51:17 公開日:2020-06-20
# 空中マニピュレーションのためのビジュアル慣性テレプレゼンス

Visual-Inertial Telepresence for Aerial Manipulation ( http://arxiv.org/abs/2003.11509v2 )

ライセンス: Link先を確認
Jongseok Lee, Ribin Balachandran, Yuri S. Sarkisov, Marco De Stefano, Andre Coelho, Kashmira Shinde, Min Jun Kim, Rudolph Triebel and Konstantin Kondak(参考訳) 本稿では,航空操作能力向上のための新しいテレプレゼンスシステムを提案する。 触覚デバイスだけでなく、遠隔地にいる遠隔操作者にリアルタイムで3d視覚フィードバックを提供する仮想現実も含まれる。 我々は,視覚および慣性センサ,物体追跡アルゴリズム,および予め生成された物体データベースを用いてこれを実現する。 バーチャルリアリティーは実際のリモートシーンと密に一致しなければならないため、マーカー追跡アルゴリズムの拡張と視覚慣性オドメトリーを提案する。 室内および屋外実験は, より進んだ空中操作作業, すなわち, つかみ, 配置, 力行使, 穴内挿入を実現する上で, 提案システムの有用性を示す。

This paper presents a novel telepresence system for enhancing aerial manipulation capabilities. It involves not only a haptic device, but also a virtual reality that provides a 3D visual feedback to a remotely-located teleoperator in real-time. We achieve this by utilizing onboard visual and inertial sensors, an object tracking algorithm and a pre-generated object database. As the virtual reality has to closely match the real remote scene, we propose an extension of a marker tracking algorithm with visual-inertial odometry. Both indoor and outdoor experiments show benefits of our proposed system in achieving advanced aerial manipulation tasks, namely grasping, placing, force exertion and peg-in-hole insertion.
翻訳日:2022-12-20 03:50:02 公開日:2020-06-20
# カメラアンタングル表現による軽量多視点3次元画像推定

Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation ( http://arxiv.org/abs/2004.02186v2 )

ライセンス: Link先を確認
Edoardo Remelli, Shangchen Han, Sina Honari, Pascal Fua, Robert Wang(参考訳) 空間校正カメラで撮影した多視点画像から3Dポーズを復元する軽量なソリューションを提案する。 近年の解釈可能な表現学習の進歩を生かして、3次元幾何を利用して入力画像からポーズの潜在表現を融合し、カメラ視点から切り離される。 これにより、計算集約的なボリュームグリッドを使わずに、さまざまなビューで3Dポーズを効果的に推論できる。 我々のアーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー毎の2d検出を正確に生成し、DLT(Direct Linear Transform)層を介して簡単に3Dに持ち上げることができる。 そこで本研究では,GPUアーキテクチャにおいて,標準的なSVDベースの三角法よりも桁違いに高速なDLTの実装を提案する。 我々は,2つの大規模人間のポーズデータセット(H36MとTotal Capture)に対するアプローチを評価した。

We present a lightweight solution to recover 3D pose from multi-view images captured with spatially calibrated cameras. Building upon recent advances in interpretable representation learning, we exploit 3D geometry to fuse input images into a unified latent representation of pose, which is disentangled from camera view-points. This allows us to reason effectively about 3D pose across different views without using compute-intensive volumetric grids. Our architecture then conditions the learned representation on camera projection operators to produce accurate per-view 2d detections, that can be simply lifted to 3D via a differentiable Direct Linear Transform (DLT) layer. In order to do it efficiently, we propose a novel implementation of DLT that is orders of magnitude faster on GPU architectures than standard SVD-based triangulation methods. We evaluate our approach on two large-scale human pose datasets (H36M and Total Capture): our method outperforms or performs comparably to the state-of-the-art volumetric methods, while, unlike them, yielding real-time performance.
翻訳日:2022-12-16 13:01:24 公開日:2020-06-20
# ControlVAE: 可変変分オートエンコーダ

ControlVAE: Controllable Variational Autoencoder ( http://arxiv.org/abs/2004.05988v5 )

ライセンス: Link先を確認
Huajie Shao, Shuochao Yao, Dachun Sun, Aston Zhang, Shengzhong Liu, Dongxin Liu, Jun Wang, Tarek Abdelzaher(参考訳) 変分オートエンコーダ(VAE)とその変種は、ダイアログ生成、画像生成、非絡み合い表現学習など、様々な用途で広く使われている。 しかしながら、既存のVAEモデルは異なるアプリケーションにいくつかの制限がある。 例えば、vaeは、言語モデリングにおけるklの消失や、逆エンタングのための低コンストラクション品質に苦しむ。 そこで本研究では,自動制御理論にインスパイアされたコントローラと,生成モデルの性能向上のための基本vaeを組み合わせた,新しい制御可能な変分オートエンコーダフレームワークであるcontrolvaeを提案する。 具体的には、比例積分微分(PID)制御の変種である非線形PIコントローラを設計し、モデルトレーニング中に出力KL偏差をフィードバックとしてVAE目標に付加されたハイパーパラメータ(重み)を自動的に調整する。 このフレームワークは3つのアプリケーション、すなわち言語モデリング、不整合表現学習、画像生成を用いて評価される。 以上の結果から,コントロールVAEは既存の手法よりもディエンタングやリコンストラクションの質を向上できることがわかった。 言語モデリングでは、KLの消滅を回避できるだけでなく、生成されたテキストの多様性も向上する。 最後に,制御VAEが生成した画像の復元品質を,元のVAEと比較して向上させることを示す。

Variational Autoencoders (VAE) and their variants have been widely used in a variety of applications, such as dialog generation, image generation and disentangled representation learning. However, the existing VAE models have some limitations in different applications. For example, a VAE easily suffers from KL vanishing in language modeling and low reconstruction quality for disentangling. To address these issues, we propose a novel controllable variational autoencoder framework, ControlVAE, that combines a controller, inspired by automatic control theory, with the basic VAE to improve the performance of resulting generative models. Specifically, we design a new non-linear PI controller, a variant of the proportional-integral-derivative (PID) control, to automatically tune the hyperparameter (weight) added in the VAE objective using the output KL-divergence as feedback during model training. The framework is evaluated using three applications; namely, language modeling, disentangled representation learning, and image generation. The results show that ControlVAE can achieve better disentangling and reconstruction quality than the existing methods. For language modelling, it not only averts the KL-vanishing, but also improves the diversity of generated text. Finally, we also demonstrate that ControlVAE improves the reconstruction quality of generated images compared to the original VAE.
翻訳日:2022-12-13 23:26:47 公開日:2020-06-20
# 3dポイントクラウドからディジタル地形モデルを抽出するための最寄りの近接ネットワーク

A Nearest Neighbor Network to Extract Digital Terrain Models from 3D Point Clouds ( http://arxiv.org/abs/2005.10745v2 )

ライセンス: Link先を確認
Mohammed Yousefhussien, David J. Kelbe, and Carl Salvaggio(参考訳) オーバーヘッドセンサーからの3Dポイント雲をリモートセンシングデータ利用パイプラインへの入力として使用する場合、データ準備に多大な労力が費やされる。 プリプロセッシングチェーンの複数の段階の中で、DTM(Digital Terrain Model)モデルを推定することが重要であると考えられているが、特に光学画像から得られる原点雲にとっては、これは依然として課題である。 現在のアルゴリズムでは、複数のパラメータとヒューマンインタラクションをチューニングする必要のある幾何学的ルールの組か、地上クラスと非地上クラスが見つかるバイナリ分類機械学習タスクとして問題をキャストする。 これとは対照的に,本研究では,3次元点雲を直接操作するアルゴリズムを提案し,地上および非地上のカバータイプに分類することなく,エンド・ツー・エンドのアプローチを用いてシーンの基盤となるDTMを推定する。 私たちのモデルは近所の情報を学び、これをポイントワイズおよびブロックワイズグローバル機能とシームレスに統合します。 我々は,isprs 3d semantic labeling contest lidarデータと高密度ステレオマッチングを用いた3つのシーン,高層建築物の代表,低層都市構造,密集した旧市街住宅地を用いてモデルを検証する。 我々はdtm抽出に広く使われている2つのソフトウェアパッケージ、enviとlastoolsとの比較を行った。 予備実験の結果,提案手法は平均絶対誤差が11.5%であり,enviとlastoolsは29%,16%であった。

When 3D-point clouds from overhead sensors are used as input to remote sensing data exploitation pipelines, a large amount of effort is devoted to data preparation. Among the multiple stages of the preprocessing chain, estimating the Digital Terrain Model (DTM) model is considered to be of a high importance; however, this remains a challenge, especially for raw point clouds derived from optical imagery. Current algorithms estimate the ground points using either a set of geometrical rules that require tuning multiple parameters and human interaction, or cast the problem as a binary classification machine learning task where ground and non-ground classes are found. In contrast, here we present an algorithm that directly operates on 3D-point clouds and estimate the underlying DTM for the scene using an end-to-end approach without the need to classify points into ground and non-ground cover types. Our model learns neighborhood information and seamlessly integrates this with point-wise and block-wise global features. We validate our model using the ISPRS 3D Semantic Labeling Contest LiDAR data, as well as three scenes generated using dense stereo matching, representative of high-rise buildings, lower urban structures, and a dense old-city residential area. We compare our findings with two widely used software packages for DTM extraction, namely ENVI and LAStools. Our preliminary results show that the proposed method is able to achieve an overall Mean Absolute Error of 11.5% compared to 29% and 16% for ENVI and LAStools.
翻訳日:2022-11-30 23:22:13 公開日:2020-06-20
# ウェイトノイズインジェクショントレーニングを用いたディファレントニューラルネットワーク

A Diffractive Neural Network with Weight-Noise-Injection Training ( http://arxiv.org/abs/2006.04462v3 )

ライセンス: Link先を確認
Jiashuo Shi(参考訳) 本稿では, 回折層が一定の表面形状誤差を有するのに対して, 高精度かつ高速な光ベース分類を実現する, 軽量ノイズ注入訓練に基づく強強靭性を有する回折ニューラルネットワークを提案する。 我々の知る限り、深層学習結果に対する外部干渉の影響を低減するために、訓練中に注入重量ノイズを用いることは初めてである。 提案手法では,重み雑音注入モードにおいて入力画像とラベルのマッピングを学習し,ネットワークの重みを緩やかな変化に影響を受けにくくすることで,ネットワークの耐雑音性を低コストで向上させる。 異なる雑音下でのネットワークの精度を比較することにより,提案するネットワーク(srnn)が,重大騒音下でも高い精度を保っていることを検証した。

We propose a diffractive neural network with strong robustness based on Weight Noise Injection training, which achieves accurate and fast optical-based classification while diffraction layers have a certain amount of surface shape error. To the best of our knowledge, it is the first time that using injection weight noise during training to reduce the impact of external interference on deep learning inference results. In the proposed method, the diffractive neural network learns the mapping between the input image and the label in Weight Noise Injection mode, making the network's weight insensitive to modest changes, which improve the network's noise resistance at a lower cost. By comparing the accuracy of the network under different noise, it is verified that the proposed network (SRNN) still maintains a higher accuracy under serious noise.
翻訳日:2022-11-24 00:14:26 公開日:2020-06-20
# 粒度分布と粒状材料の機械的挙動との隠れ相関関係の解明への機械学習の適用

Use of Machine Learning for unraveling hidden correlations between Particle Size Distributions and the Mechanical Behavior of Granular Materials ( http://arxiv.org/abs/2006.05711v2 )

ライセンス: Link先を確認
Ignacio G. Tejada, Pablo Antolin(参考訳) データ駆動型フレームワークを用いて,多分散粒状材料の高密度充填体のマクロ力学的挙動を予測した。 離散要素法(DEM)は、様々な粒子サイズ分布、PSDを2つの粒子サイズで覆った92,378球体パッキングを生成するために用いられた。 これらのパッキングは3軸圧縮され、対応する応力-ひずみ曲線はダンカン-チャン双曲モデルに適合した。 多変量統計分析では、PSDから派生した一般的なジオテクニックおよび統計記述子とモデルパラメータを関連付けることはできなかった。 対照的に、数百のDEMシミュレーションでトレーニングされた人工ニューラルネットワーク(NN)スキームは、これらのPSDのモデルパラメータの値をかなり正確に予測することができた。 これは訓練データにノイズが存在するにもかかわらず達成された。 NNは粒状物質のPSDとマクロ力学的挙動との間に隠れた相関関係があることを明らかにした。

A data-driven framework was used to predict the macroscopic mechanical behavior of dense packings of polydisperse granular materials. The Discrete Element Method, DEM, was used to generate 92,378 sphere packings that covered many different kinds of particle size distributions, PSD, lying within 2 particle sizes. These packings were subjected to triaxial compression and the corresponding stress-strain curves were fitted to Duncan-Chang hyperbolic models. A multivariate statistical analysis was unsuccessful to relate the model parameters with common geotechnical and statistical descriptors derived from the PSD. In contrast, an artificial Neural Network (NN) scheme, trained with a few hundred DEM simulations, was able to anticipate the value of the model parameters for all these PSDs, with considerable accuracy. This was achieved in spite of the presence of noise in the training data. The NN revealed the existence of hidden correlations between PSD of granular materials and their macroscopic mechanical behavior.
翻訳日:2022-11-23 05:07:10 公開日:2020-06-20
# ベストレスポンスによるマルチエージェント強化学習の政策評価と探究

Policy Evaluation and Seeking for Multi-Agent Reinforcement Learning via Best Response ( http://arxiv.org/abs/2006.09585v2 )

ライセンス: Link先を確認
Rui Yan and Xiaoming Duan and Zongying Shi and Yisheng Zhong and Jason R. Marden and Francesco Bullo(参考訳) 本稿では,マルチエージェント学習における政策の評価,ランク付け,計算のために,シンク均衡と呼ばれる動的ゲーム理論的な解法を基礎とした2つの指標(サイクルベースとメモリベースメトリクス)を提案する。 我々は,マルチエージェント強化学習のためのメタレベルにおける利己的な行動のモデル化に,厳格なベストレスポンスダイナミクス(sbrd)を採用する。 我々のアプローチは動的な循環的行動(nash平衡とelo ratingsに基づくアプローチとは異なり)に対応でき、弱い反応に依存するアルファランクよりもシングルエージェント強化学習と互換性がある。 まず、最も大きいメートルと2番目に大きいメートルの差が既知の下界を持つような設定を考える。 この知識を用いて、摂動型SBRDのクラスを以下の性質で提案する: 有限メモリを持つ幅広い確率ゲームに対して、最大距離を持つポリシーのみがゼロ確率で観測される。 次に、違いに対する下限が不明な設定について検討する。 この設定のために、非ゼロ確率で観測されたポリシーのメトリクスが任意の許容度によって最適値と異なるような摂動型SBRDのクラスを提案する。 提案した摂動型SBRDは,学習エージェントの他者の戦略を固定することにより,相手の非定常性に対処し,経験的ゲーム理論解析を用いて,摂動によって得られる各戦略プロファイルに対する支払いを推定する。

This paper introduces two metrics (cycle-based and memory-based metrics), grounded on a dynamical game-theoretic solution concept called sink equilibrium, for the evaluation, ranking, and computation of policies in multi-agent learning. We adopt strict best response dynamics (SBRD) to model selfish behaviors at a meta-level for multi-agent reinforcement learning. Our approach can deal with dynamical cyclical behaviors (unlike approaches based on Nash equilibria and Elo ratings), and is more compatible with single-agent reinforcement learning than alpha-rank which relies on weakly better responses. We first consider settings where the difference between largest and second largest underlying metric has a known lower bound. With this knowledge we propose a class of perturbed SBRD with the following property: only policies with maximum metric are observed with nonzero probability for a broad class of stochastic games with finite memory. We then consider settings where the lower bound for the difference is unknown. For this setting, we propose a class of perturbed SBRD such that the metrics of the policies observed with nonzero probability differ from the optimal by any given tolerance. The proposed perturbed SBRD addresses the opponent-induced non-stationarity by fixing the strategies of others for the learning agent, and uses empirical game-theoretic analysis to estimate payoffs for each strategy profile obtained due to the perturbation.
翻訳日:2022-11-19 20:19:45 公開日:2020-06-20
# 反復的マルチフィルタによるリスト決定平均推定

List-Decodable Mean Estimation via Iterative Multi-Filtering ( http://arxiv.org/abs/2006.10715v2 )

ライセンス: Link先を確認
Ilias Diakonikolas and Daniel M. Kane and Daniel Kongsgaard(参考訳) 有界共分散分布に対する"em list-decodable mean estimation}問題について検討する。 具体的には、未知の$\alpha$-fraction of points in $T$($0< \alpha < 1/2$)が未知の平均および有界共分散分布$D$($D$)から引き出されることを約束して、$\mathbb{R}^d$の点のセット$T$が与えられる。 目標は、少なくとも1つが$d$の平均に近いような仮説ベクトルの小さなリストを出力することである。 この問題に対する最初の実用的な推定器を与える。 より詳しくは、本アルゴリズムはサンプリングと計算効率が良く、情報理論上の準最適誤差を実現する。 この設定の唯一の先行アルゴリズムは、本質的に楕円型法に依存しているが、このアルゴリズムは反復的であり、スペクトル技術のみを使用する。 当社の主な技術的革新は、ほとんどの外れ値を持つ高次元重尾データセットに対するソフトな外れ値除去手順の設計です。

We study the problem of {\em list-decodable mean estimation} for bounded covariance distributions. Specifically, we are given a set $T$ of points in $\mathbb{R}^d$ with the promise that an unknown $\alpha$-fraction of points in $T$, where $0< \alpha < 1/2$, are drawn from an unknown mean and bounded covariance distribution $D$, and no assumptions are made on the remaining points. The goal is to output a small list of hypothesis vectors such that at least one of them is close to the mean of $D$. We give the first practically viable estimator for this problem. In more detail, our algorithm is sample and computationally efficient, and achieves information-theoretically near-optimal error. While the only prior algorithm for this setting inherently relied on the ellipsoid method, our algorithm is iterative and only uses spectral techniques. Our main technical innovation is the design of a soft outlier removal procedure for high-dimensional heavy-tailed datasets with a majority of outliers.
翻訳日:2022-11-19 13:40:24 公開日:2020-06-20
# カオスは小脳顆粒層の表現性を高めるかもしれない

Chaos may enhance expressivity in cerebellar granular layer ( http://arxiv.org/abs/2006.11532v1 )

ライセンス: Link先を確認
Keita Tokuda and Naoya Fujiwara and Akihito Sudo and Yuichi Katori(参考訳) 最近の証拠は、小脳顆粒層のゴルジ細胞が、大きなギャップ接合で互いに密結合していることを示している。 本稿では,ゴルジ細胞間の巨大ギャップ接合が小脳の粒状層をカオスダイナミクスに誘導することにより,複雑に表せることを提案する。 ゴルジ細胞間のギャップ接合を通した拡散結合を有する小脳顆粒層のモデルを構築し,貯水池計算フレームワークを用いてネットワークの表現能力を評価する。 まず,拡散結合によって引き起こされるカオス的ダイナミクスが,広い周波数成分を含む複雑な出力パターンをもたらすことを示す。 第2に、貯水池の長い非再帰時系列は、外部入力からの時間の経過を表す。 これらの性質により、異なる空間入力を異なる時間パターンにマッピングすることができる。

Recent evidence suggests that Golgi cells in the cerebellar granular layer are densely connected to each other with massive gap junctions. Here, we propose that the massive gap junctions between the Golgi cells contribute to the representational complexity of the granular layer of the cerebellum by inducing chaotic dynamics. We construct a model of cerebellar granular layer with diffusion coupling through gap junctions between the Golgi cells, and evaluate the representational capability of the network with the reservoir computing framework. First, we show that the chaotic dynamics induced by diffusion coupling results in complex output patterns containing a wide range of frequency components. Second, the long non-recursive time series of the reservoir represents the passage of time from an external input. These properties of the reservoir enable mapping different spatial inputs into different temporal patterns.
翻訳日:2022-11-18 23:05:11 公開日:2020-06-20
# 適応型benthic habitat mappingに向けて

Towards Adaptive Benthic Habitat Mapping ( http://arxiv.org/abs/2006.11453v1 )

ライセンス: Link先を確認
Jackson Shields, Oscar Pizarro, Stefan B. Williams(参考訳) AUV(Autonomous Underwater Vehicles)は、科学研究やモニタリング研究を支援するためにますます利用されている。 このような応用の1つは、ソナーを用いて収集された広範囲な水位測定データを補完する海底画像を集めるベントックな環境マッピングである。 これら2つのデータを用いて、リモートセンシングされた音響データとサンプル画像の関係を学習し、生息環境モデルを作成する。 マッピング対象の地域は、しばしば非常に大きく、海底画像を集めるAUVシステムは、調査領域のごく一部からのみサンプリングできるため、各展開毎に収集された情報は最大化されるべきである。 本稿では, 生息環境モデル自体が, 生息環境モデルを改善するために, より効率的なAUV調査の計画にどのように使用できるかを示す。 ベイズニューラルネットワークは、広範囲な水量測定データを与えられたとき、視覚的に派生した生息地クラスを予測するために使用される。 このネットワークは、予測に関連する不確実性を推定することも可能であり、その予測はアレタリック(データ)とエピステミック(モデル)に分解することができる。 これらの構造的不確実性推定が、より少ないサンプルでモデルを改善するためにどのように利用できるかを実証する。 このようなベンシックサーベイへの適応的アプローチは、さらなるサンプリング作業を優先することでコストを削減できる可能性がある。 オーストラリア,タスマニアの沖合のサンゴ礁において,AUVが収集したデータを用いたアプローチの有効性について述べる。

Autonomous Underwater Vehicles (AUVs) are increasingly being used to support scientific research and monitoring studies. One such application is in benthic habitat mapping where these vehicles collect seafloor imagery that complements broadscale bathymetric data collected using sonar. Using these two data sources, the relationship between remotely-sensed acoustic data and the sampled imagery can be learned, creating a habitat model. As the areas to be mapped are often very large and AUV systems collecting seafloor imagery can only sample from a small portion of the survey area, the information gathered should be maximised for each deployment. This paper illustrates how the habitat models themselves can be used to plan more efficient AUV surveys by identifying where to collect further samples in order to most improve the habitat model. A Bayesian neural network is used to predict visually-derived habitat classes when given broad-scale bathymetric data. This network can also estimate the uncertainty associated with a prediction, which can be deconstructed into its aleatoric (data) and epistemic (model) components. We demonstrate how these structured uncertainty estimates can be utilised to improve the model with fewer samples. Such adaptive approaches to benthic surveys have the potential to reduce costs by prioritizing further sampling efforts. We illustrate the effectiveness of the proposed approach using data collected by an AUV on offshore reefs in Tasmania, Australia.
翻訳日:2022-11-18 23:05:00 公開日:2020-06-20
# MALOnt: マルウェアの脅威知能に関するオントロジー

MALOnt: An Ontology for Malware Threat Intelligence ( http://arxiv.org/abs/2006.11446v1 )

ライセンス: Link先を確認
Nidhi Rastogi, Sharmishtha Dutta, Mohammed J. Zaki, Alex Gittens, and Charu Aggarwal(参考訳) マルウェアの脅威情報により、マルウェア、脅威アクター、それらの戦術、妥協の指標(IoC)、および散在する脅威ソースからのさまざまなプラットフォームにおける脆弱性に関する情報が明らかにされる。 この集合情報は、セキュリティ運用センター(SoC)が利用するサイバー防衛アプリケーションにおける意思決定を導くことができる。 本稿では,情報と知識グラフの生成,特に脅威情報のための構造化抽出を可能にする,マルウェアオントロジー(malont)を提案する。 malontを使用するナレッジグラフは、数百の注釈付きマルウェア脅威レポートからなるコーパスからインスタンス化される。 知識グラフは、マルウェアによるサイバー脅威の分析、検出、分類、帰属を可能にする。 また,MALOntを用いた警告情報レポートのアノテーション処理の実証を行った。 この研究は、異種オンラインリソースからマルウェアの脅威情報を集めるための知識グラフ(KG)の自動生成に向けた大きな取り組みの一環である。

Malware threat intelligence uncovers deep information about malware, threat actors, and their tactics, Indicators of Compromise(IoC), and vulnerabilities in different platforms from scattered threat sources. This collective information can guide decision making in cyber defense applications utilized by security operation centers(SoCs). In this paper, we introduce an open-source malware ontology - MALOnt that allows the structured extraction of information and knowledge graph generation, especially for threat intelligence. The knowledge graph that uses MALOnt is instantiated from a corpus comprising hundreds of annotated malware threat reports. The knowledge graph enables the analysis, detection, classification, and attribution of cyber threats caused by malware. We also demonstrate the annotation process using MALOnt on exemplar threat intelligence reports. A work in progress, this research is part of a larger effort towards auto-generation of knowledge graphs (KGs)for gathering malware threat intelligence from heterogeneous online resources.
翻訳日:2022-11-18 23:04:02 公開日:2020-06-20
# 分散非凸最適化の発散について

On the Divergence of Decentralized Non-Convex Optimization ( http://arxiv.org/abs/2006.11662v1 )

ライセンス: Link先を確認
Mingyi Hong, Siliang Zeng, Junyu Zhang, Haoran Sun(参考訳) 我々は,非凸対象である$f(u):=1/N\sum_{i=1}^{N}f_i(u)$を,隣人とのみ通信しながら,N$エージェントが共同で最適化する分散アルゴリズムの一般的なクラスを研究する。 このタイプの問題は、多くの信号処理や機械学習アプリケーションのモデリングで人気となり、多くの効率的なアルゴリズムが提案されている。 しかし、いくつかの逆例を構築することにより、局所関数勾配$\nabla f_i$s 上の局所リプシッツ条件 (LLC) が満たされないとき、既存の分散アルゴリズムのほとんどは、たとえ大域リプシッツ条件 (GLC) が満たされたとしても、和関数$f$ がリプシッツ勾配を持つことを示す。 この観察は、重要なオープンな疑問を提起する: LLCやGLCが満足していないとき、どのように分散アルゴリズムを設計するか? 上記の問題に対処するため,我々は,LLC と GLC のどちらを用いても定常解を計算可能な,Multi-stage gradient tracking algorithm (MAGENTA) と呼ばれる一階法アルゴリズムを設計した。 特に,提案アルゴリズムは,様々なアルゴリズムおよび問題パラメータに依存するような,一定の$\epsilon$-stationary解にサブ線形収束することを示す。 特に、局所関数 $f_i$'s が q$th 次多項式であれば、レートは $\mathcal{o}(1/\epsilon^{q-1})$ となる。 このようなレートは、それぞれ$f_i$ satisfies LLC となる$Q=2$の特別な場合に対して厳密である。 私たちの知る限りでは、llc も glc も持たない非凸最適化問題を研究する最初の試みである。

We study a generic class of decentralized algorithms in which $N$ agents jointly optimize the non-convex objective $f(u):=1/N\sum_{i=1}^{N}f_i(u)$, while only communicating with their neighbors. This class of problems has become popular in modeling many signal processing and machine learning applications, and many efficient algorithms have been proposed. However, by constructing some counter-examples, we show that when certain local Lipschitz conditions (LLC) on the local function gradient $\nabla f_i$'s are not satisfied, most of the existing decentralized algorithms diverge, even if the global Lipschitz condition (GLC) is satisfied, where the sum function $f$ has Lipschitz gradient. This observation raises an important open question: How to design decentralized algorithms when the LLC, or even the GLC, is not satisfied? To address the above question, we design a first-order algorithm called Multi-stage gradient tracking algorithm (MAGENTA), which is capable of computing stationary solutions with neither the LLC nor the GLC. In particular, we show that the proposed algorithm converges sublinearly to certain $\epsilon$-stationary solution, where the precise rate depends on various algorithmic and problem parameters. In particular, if the local function $f_i$'s are $Q$th order polynomials, then the rate becomes $\mathcal{O}(1/\epsilon^{Q-1})$. Such a rate is tight for the special case of $Q=2$ where each $f_i$ satisfies LLC. To our knowledge, this is the first attempt that studies decentralized non-convex optimization problems with neither the LLC nor the GLC.
翻訳日:2022-11-18 23:03:48 公開日:2020-06-20
# 安価なモジュラー自動運転車開発プラットフォーム

Affordable Modular Autonomous Vehicle Development Platform ( http://arxiv.org/abs/2006.11670v1 )

ライセンス: Link先を確認
Benedict Quartey, G. Ayorkor Korsah(参考訳) 道路事故は全年齢層で9番目に多い死因と推定されている。 毎年125万人が道路事故で死亡しており、アフリカでは道路事故が最多である[1]。 5件の道路事故のうち3件は運転者の行動要因[2]によるものである。 自動運転技術は、これらの予防可能な道路事故で失われた命を救う可能性を秘めている。 アフリカは道路の死亡者の大半を占めており、この技術から大きな利益を得られるだろう。 しかし、財政的な制約はアフリカにおける自動運転技術の実験や研究を妨げている。 本稿では,手頃なモジュール型自動運転車開発プラットフォームであるRollEの設計について述べる。 データ収集のためのリモートコントロールによる運転が可能で、畳み込みニューラルネットワークを使用した自律運転も可能である。 このシステムは、学生や研究者に自動運転車の技術を開発しテストするための安価な自動運転車を提供することを目的としている。

Road accidents are estimated to be the ninth leading cause of death across all age groups globally. 1.25 million people die annually from road accidents and Africa has the highest rate of road fatalities [1]. Research shows that three out of five road accidents are caused by driver-related behavioral factors [2]. Self-driving technology has the potential of saving lives lost to these preventable road accidents. Africa accounts for the majority of road fatalities and as such would benefit immensely from this technology. However, financial constraints prevent viable experimentation and research into self-driving technology in Africa. This paper describes the design of RollE, an affordable modular autonomous vehicle development platform. It is capable of driving via remote control for data collection and also capable of autonomous driving using a convolutional neural network. This system is aimed at providing students and researchers with an affordable autonomous vehicle to develop and test self-driving car technology.
翻訳日:2022-11-18 23:03:12 公開日:2020-06-20
# PRNUと偽造検出におけるISO速度の影響について

On Addressing the Impact of ISO Speed upon PRNU and Forgery Detection ( http://arxiv.org/abs/2006.11539v1 )

ライセンス: Link先を確認
Yijun Quan and Chang-Tsun Li(参考訳) Photo Response Non-Uniformity (PRNU) は画像偽造検出のための強力なデバイス指紋として使われてきた。 画像のノイズ残差とデバイスの参照PRNUとの相関は、PRNUの存在を確認するための決定しきい値と比較されることが多い。 prnu相関予測器は、通常、その相関が内容に依存すると仮定してこの決定しきい値を決定するために使用される。 しかし,相関は内容に依存しているだけでなく,カメラの感度設定にも依存することがわかった。 デジタル写真において, \textit{iso speed} という名称で知られる \textit{camera sensitivity} は重要な属性である。 本研究は,ISO速度に対するPRNU相関の依存性を示す。 このような依存関係のため、相関予測器がISO速度固有であること、すなわち、相関予測器が問題の画像と類似したISO速度の画像で訓練された場合にのみ、 \textit{reliable correlation predictionが作成可能であることを仮定する。 仮定を検証するために実施した実験を報告する。 実世界では、相関予測プロセスにおける仮定の実装を容易にするために、メタデータ内でISO速度に関する情報が得られないことが判明した。 そこで我々は,CINFISOS (Content-based Inference of ISO Speeds) という手法を提案し,画像コンテンツからISO速度を推定する。

Photo Response Non-Uniformity (PRNU) has been used as a powerful device fingerprint for image forgery detection because image forgeries can be revealed by finding the absence of the PRNU in the manipulated areas. The correlation between an image's noise residual with the device's reference PRNU is often compared with a decision threshold to check the existence of the PRNU. A PRNU correlation predictor is usually used to determine this decision threshold assuming the correlation is content-dependent. However, we found that not only the correlation is content-dependent, but it also depends on the camera sensitivity setting. \textit{Camera sensitivity}, commonly known by the name of \textit{ISO speed}, is an important attribute in digital photography. In this work, we will show the PRNU correlation's dependency on ISO speed. Due to such dependency, we postulate that a correlation predictor is ISO speed-specific, i.e. \textit{reliable correlation predictions can only be made when a correlation predictor is trained with images of similar ISO speeds to the image in question}. We report the experiments we conducted to validate the postulate. It is realized that in the real-world, information about the ISO speed may not be available in the metadata to facilitate the implementation of our postulate in the correlation prediction process. We hence propose a method called Content-based Inference of ISO Speeds (CINFISOS) to infer the ISO speed from the image content.
翻訳日:2022-11-18 23:03:01 公開日:2020-06-20
# 音声後表を用いた話者独立・多言語/多言語音声駆動音声ヘッド生成

Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking Head Generation Using Phonetic Posteriorgrams ( http://arxiv.org/abs/2006.11610v1 )

ライセンス: Link先を確認
Huirong Huang, Zhiyong Wu, Shiyin Kang, Dongyang Dai, Jia Jia, Tianxiao Fu, Deyi Tuo, Guangzhi Lei, Peng Liu, Dan Su, Dong Yu, Helen Meng(参考訳) 近年,3次元音声による発話ヘッドの生成が注目されている。 最近のアプローチは主に以下の制限がある。 1) 話者非依存の方法の多くは,設計に時間を要する,又は信頼性の低い手作りの機能を必要とする。 2)多言語または混合言語を入力としてサポートする説得力のある方法は存在しない。 そこで本研究では,ppg(phonetic posteriorgrams)を用いた新しいアプローチを提案する。 このように、我々の手法は手作りの機能は必要とせず、近年の手法に比べてノイズに強い。 さらに,汎用音素空間を構築することで,多言語音声を入力としてサポートすることができる。 我々が知る限り、我々のモデルは、説得力のある結果の入力として、多言語/混合言語音声をサポートする最初のモデルである。 客観的・主観的実験により,非知覚言語や話者から与えられた音声から高品質なアニメーションを生成でき,雑音に対して頑健であることを示す。

Generating 3D speech-driven talking head has received more and more attention in recent years. Recent approaches mainly have following limitations: 1) most speaker-independent methods need handcrafted features that are time-consuming to design or unreliable; 2) there is no convincing method to support multilingual or mixlingual speech as input. In this work, we propose a novel approach using phonetic posteriorgrams (PPG). In this way, our method doesn't need hand-crafted features and is more robust to noise compared to recent approaches. Furthermore, our method can support multilingual speech as input by building a universal phoneme space. As far as we know, our model is the first to support multilingual/mixlingual speech as input with convincing results. Objective and subjective experiments have shown that our model can generate high quality animations given speech from unseen languages or speakers and be robust to noise.
翻訳日:2022-11-18 23:02:37 公開日:2020-06-20
# 3次元運動表現と空間スーパービジョンに基づく擬似LiDAR点雲補間

Pseudo-LiDAR Point Cloud Interpolation Based on 3D Motion Representation and Spatial Supervision ( http://arxiv.org/abs/2006.11481v1 )

ライセンス: Link先を確認
Haojie Liu, Kang Liao, Chunyu Lin, Yao Zhao and Yulan Guo(参考訳) Pseudo-LiDAR点雲補間は、カメラとLiDARの周波数ミスマッチ問題に対処することを目的として、自律運転分野における新しい課題である。 従来の作業は粗い2次元光流によって誘導される3次元空間運動関係を表しており、補間点雲の品質は深度マップの監督にのみ依存する。 その結果、生成した点雲は、グローバル分布の低下と局所的な外観に苦しむ。 そこで本研究では,空間的かつ空間的に高品質な点雲列を生成する疑似ライダーポイントクラウド補間ネットワークを提案する。 点雲間のシーンフローを活用することにより,提案ネットワークは3次元空間運動関係のより正確な表現を学習することができる。 本研究では,3次元空間における擬似LiDAR点雲の生成を監督するために,チャンファー距離を実装する新しい再構成損失関数を設計する。 さらに,テクスチャと深度の特徴を効率的に融合させるため,マルチモーダルなディープアグリゲーションモジュールを導入する。 動作表現の改善,訓練損失関数,モデル構造の利点として,Pseudo-LiDAR点雲補間タスクにおいて,本手法は大幅に改善される。 kittiデータセットで評価した実験結果は,提案するネットワークの定量的・質的性能を示すものである。

Pseudo-LiDAR point cloud interpolation is a novel and challenging task in the field of autonomous driving, which aims to address the frequency mismatching problem between camera and LiDAR. Previous works represent the 3D spatial motion relationship induced by a coarse 2D optical flow, and the quality of interpolated point clouds only depends on the supervision of depth maps. As a result, the generated point clouds suffer from inferior global distributions and local appearances. To solve the above problems, we propose a Pseudo-LiDAR point cloud interpolation network to generates temporally and spatially high-quality point cloud sequences. By exploiting the scene flow between point clouds, the proposed network is able to learn a more accurate representation of the 3D spatial motion relationship. For the more comprehensive perception of the distribution of point cloud, we design a novel reconstruction loss function that implements the chamfer distance to supervise the generation of Pseudo-LiDAR point clouds in 3D space. In addition, we introduce a multi-modal deep aggregation module to facilitate the efficient fusion of texture and depth features. As the benefits of the improved motion representation, training loss function, and model structure, our approach gains significant improvements on the Pseudo-LiDAR point cloud interpolation task. The experimental results evaluated on KITTI dataset demonstrate the state-of-the-art performance of the proposed network, quantitatively and qualitatively.
翻訳日:2022-11-18 22:56:55 公開日:2020-06-20
# プログレッシブ適応による無人車両再識別

Unsupervised Vehicle Re-identification with Progressive Adaptation ( http://arxiv.org/abs/2006.11486v1 )

ライセンス: Link先を確認
Jinjia Peng, Yang Wang, Huibing Wang, Zhao Zhang, Xianping Fu, Meng Wang(参考訳) 車両再識別(reID)は、異なる重複しないカメラビューで車両を特定することを目的としている。 既存の方法は、理想的なパフォーマンスのために、十分にラベルされたデータセットに強く依存しており、トレーニングドメインと現実世界のシーンの間の厳しいドメインバイアスのために、必然的に運命的な低下を引き起こしている。 これらの課題に対処するために,アノテーションを使わずに豊富なデータから推測するPALという,車両の適応学習手法を提案する。 palでは、ソースドメインにデータ適応モジュールが採用されており、ラベルのないターゲットドメインに類似したデータ分布を持つイメージを `pseudo target sample''' として生成する。 これらの擬似サンプルは、動的サンプリング戦略によって選択されたラベルのないサンプルと組み合わせて、トレーニングを高速化する。 さらに、異なるクラスタを持つサンプル間の類似性を考慮し、擬似ラベルの信頼性のバランスをとる重み付きラベル平滑化(WLS)損失を提案する。 VehicleIDとVeRi-776データセットにおけるPALの利点を総合的な実験により検証した。

Vehicle re-identification (reID) aims at identifying vehicles across different non-overlapping cameras views. The existing methods heavily relied on well-labeled datasets for ideal performance, which inevitably causes fateful drop due to the severe domain bias between the training domain and the real-world scenes; worse still, these approaches required full annotations, which is labor-consuming. To tackle these challenges, we propose a novel progressive adaptation learning method for vehicle reID, named PAL, which infers from the abundant data without annotations. For PAL, a data adaptation module is employed for source domain, which generates the images with similar data distribution to unlabeled target domain as ``pseudo target samples''. These pseudo samples are combined with the unlabeled samples that are selected by a dynamic sampling strategy to make training faster. We further proposed a weighted label smoothing (WLS) loss, which considers the similarity between samples with different clusters to balance the confidence of pseudo labels. Comprehensive experimental results validate the advantages of PAL on both VehicleID and VeRi-776 dataset.
翻訳日:2022-11-18 22:56:31 公開日:2020-06-20
# in-cabinと運転シーンモニタリングに基づく運転意図予測

Driver Intention Anticipation Based on In-Cabin and Driving Scene Monitoring ( http://arxiv.org/abs/2006.11557v1 )

ライセンス: Link先を確認
Yao Rong, Zeynep Akata, Enkelejda Kasneci(参考訳) 多くの自動車事故は不適切な運転操作によって引き起こされる。 しかし、そのような運転操作が事前に検出され、運転者がそれに応じて補助される場合、重傷は回避できる。 実際、近年の様々な研究は、主にインカビン運転ビデオから抽出された手作りの特徴に基づく運転操作の自動予測に焦点を当てている。 トラヒックシーンからの外部からの視点は、運転操作予測のための情報的特徴を含む可能性があるため、車内映像とトラヒックシーン映像の両方に基づいてドライバーの意図を検出する枠組みを提案する。 より具体的には,(1)コンボリューショナルLSTM(ConvLSTM)を用いた自動エンコーダを提案し,(2)キャビン外からの移動特徴を抽出し,(2)キャビン内外からの運動を協調して操作意図を予測し,(3)内外画像の特徴が相補的情報であることの実験的証明を行う。 公開データセットであるbrain4carsに基づく評価から、このフレームワークは83.98%、f1-scoreは84.3%の精度で予測できることがわかった。

Numerous car accidents are caused by improper driving maneuvers. Serious injuries are however avoidable if such driving maneuvers are detected beforehand and the driver is assisted accordingly. In fact, various recent research has focused on the automated prediction of driving maneuver based on hand-crafted features extracted mainly from in-cabin driver videos. Since the outside view from the traffic scene may also contain informative features for driving maneuver prediction, we present a framework for the detection of the drivers' intention based on both in-cabin and traffic scene videos. More specifically, we (1) propose a Convolutional-LSTM (ConvLSTM)-based auto-encoder to extract motion features from the out-cabin traffic, (2) train a classifier which considers motions from both in- and outside of the cabin jointly for maneuver intention anticipation, (3) experimentally prove that the in- and outside image features have complementary information. Our evaluation based on the publicly available dataset Brain4cars shows that our framework achieves a prediction with the accuracy of 83.98% and F1-score of 84.3%.
翻訳日:2022-11-18 22:55:56 公開日:2020-06-20
# mdrクラスタデビアス : 非線形ワード埋め込みデバイアスパイプライン

MDR Cluster-Debias: A Nonlinear WordEmbedding Debiasing Pipeline ( http://arxiv.org/abs/2006.11642v1 )

ライセンス: Link先を確認
Yuhao Du and Kenneth Joseph(参考訳) 既存の単語埋め込みの手法は、しばしば表面的には、例えば、元の埋め込み空間の特定の性別が、デバイアスされた空間で一緒にクラスタ化されるように、ステレオタイプに関連づけられた単語に限られる。 しかし、なぜこの残留クラスタリングが存在するのか、どのように対処されるのかを調査する研究はまだない。 現在の仕事はこのギャップを埋める。 残留バイアスが存在する2つの潜在的な理由を特定し、このバイアスを軽減するために新しいパイプラインであるMDR Cluster-Debiasを開発する。 提案手法の長所と短所について検討し, 様々な上流バイアステストにおいて既存デバイアス法を著しく上回っているが, 下流タスクにおける男女バイアスの減少に限定的な改善が達成できることを示した。 これは、単語埋め込みが性バイアスを他の方法で符号化していることを示しているが、必ずしも上流テストによってキャプチャされるわけではない。

Existing methods for debiasing word embeddings often do so only superficially, in that words that are stereotypically associated with, e.g., a particular gender in the original embedding space can still be clustered together in the debiased space. However, there has yet to be a study that explores why this residual clustering exists, and how it might be addressed. The present work fills this gap. We identify two potential reasons for which residual bias exists and develop a new pipeline, MDR Cluster-Debias, to mitigate this bias. We explore the strengths and weaknesses of our method, finding that it significantly outperforms other existing debiasing approaches on a variety of upstream bias tests but achieves limited improvement on decreasing gender bias in a downstream task. This indicates that word embeddings encode gender bias in still other ways, not necessarily captured by upstream tests.
翻訳日:2022-11-18 22:54:23 公開日:2020-06-20
# 完全等価EMを用いた部分観測システムのスケーラブル同定

Scalable Identification of Partially Observed Systems with Certainty-Equivalent EM ( http://arxiv.org/abs/2006.11615v1 )

ライセンス: Link先を確認
Kunal Menda, Jean de Becdeli\`evre, Jayesh K. Gupta, Ilan Kroo, Mykel J. Kochenderfer and Zachary Manchester(参考訳) システム同定は、モデルベース制御、推定器設計、出力予測のための重要なステップである。 この研究は、部分的に観測された非線形システムのオフライン識別を考察する。 我々は,ロボット工学に共通する高次元決定論システムにおいて,期待-最大化に対する一定の等価近似が信頼性が高くスケーラブルなアプローチであることを示す。 一定の等価期待最大化をブロック座標の上昇として定式化し、効率的な実装を提供する。 このアルゴリズムは結合されたローレンツ誘引子のシミュレートされたシステム上でテストされ、粒子ベースのアプローチで難解な高次元システムを特定する能力を示す。 また, エアロバティックヘリコプターの動力学の同定にも利用した。 観測されていない流体状態で状態を強化することで、最新技術よりもヘリコプターの加速を予測できるモデルが学習される。 この作業のコードベースはhttps://github.com/sisl/CEEMで公開されている。

System identification is a key step for model-based control, estimator design, and output prediction. This work considers the offline identification of partially observed nonlinear systems. We empirically show that the certainty-equivalent approximation to expectation-maximization can be a reliable and scalable approach for high-dimensional deterministic systems, which are common in robotics. We formulate certainty-equivalent expectation-maximization as block coordinate-ascent, and provide an efficient implementation. The algorithm is tested on a simulated system of coupled Lorenz attractors, demonstrating its ability to identify high-dimensional systems that can be intractable for particle-based approaches. Our approach is also used to identify the dynamics of an aerobatic helicopter. By augmenting the state with unobserved fluid states, a model is learned that predicts the acceleration of the helicopter better than state-of-the-art approaches. The codebase for this work is available at https://github.com/sisl/CEEM.
翻訳日:2022-11-18 22:47:41 公開日:2020-06-20
# Seq2Seqと共同学習に基づくUnixコマンドライン予測システム

Seq2Seq and Joint Learning Based Unix Command Line Prediction System ( http://arxiv.org/abs/2006.11558v1 )

ライセンス: Link先を確認
Thoudam Doren Singh, Abdullah Faiz Ur Rahman Khilji, Divyansha, Apoorva Vikram Singh, Surmila Thokchom and Sivaji Bandyopadhyay(参考訳) 90年代初頭に先駆けて開発されたオープンソースのオペレーティングシステムであるにもかかわらず、UNIXベースのプラットフォームはアマチュアエンドユーザーからの圧倒的な受信を達成できなかった。 UNIXベースのシステムで人気が低い理由の1つは、通常のインタラクティブなグラフィカルユーザインタフェースの代わりにコマンドラインインタフェースが広く使われているため、それらに対応する急勾配学習曲線である。 近年,ユーザのログ履歴を時系列コマンドの予測に活用するという概念を中心に,関心事の探索に用いた洞察の大部分が顕著に行われている。 この概念の解剖学化に向けられたアプローチは主に確率的推論モデルに従っている。 しかし、過去に用いられた技術は、予想通り正当に捕食に対処する能力に欠けていた。 従来のレコメンデーションシステムに代えて,Seq2seqモデルの簡易かつ斬新なアプローチを採用し,自己計算型徹底的知識ベース(KB)の連続表現を活用して,モデルの埋め込みを強化する。 この研究はUNIXのコマンドライン予測システムを強化する補助的、適応的、動的方法を説明する。 実験手法では, 従来の手法よりも精度が向上し, 適応型コマンドラインインタフェース機構が実現されていることを述べる。

Despite being an open-source operating system pioneered in the early 90s, UNIX based platforms have not been able to garner an overwhelming reception from amateur end users. One of the rationales for under popularity of UNIX based systems is the steep learning curve corresponding to them due to extensive use of command line interface instead of usual interactive graphical user interface. In past years, the majority of insights used to explore the concern are eminently centered around the notion of utilizing chronic log history of the user to make the prediction of successive command. The approaches directed at anatomization of this notion are predominantly in accordance with Probabilistic inference models. The techniques employed in past, however, have not been competent enough to address the predicament as legitimately as anticipated. Instead of deploying usual mechanism of recommendation systems, we have employed a simple yet novel approach of Seq2seq model by leveraging continuous representations of self-curated exhaustive Knowledge Base (KB) to enhance the embedding employed in the model. This work describes an assistive, adaptive and dynamic way of enhancing UNIX command line prediction systems. Experimental methods state that our model has achieved accuracy surpassing mixture of other techniques and adaptive command line interface mechanism as acclaimed in the past.
翻訳日:2022-11-18 22:47:28 公開日:2020-06-20
# AraDIC:画像ベースの文字埋め込みとクラスベース損失を用いたアラビア文書分類

AraDIC: Arabic Document Classification using Image-Based Character Embeddings and Class-Balanced Loss ( http://arxiv.org/abs/2006.11586v1 )

ライセンス: Link先を確認
Mahmoud Daif, Shunsuke Kitada, Hitoshi Iyatomi(参考訳) アラビア文字分類のための古典的およびいくつかの深層学習技術は、しばしば複雑な形態解析、単語分割、手作りの特徴工学に依存している。 これらは文字レベルの機能を使用することで排除できる。 本稿では、画像に基づく文字埋め込みの研究に触発された、アラビア語の文書分類フレームワークであるアラビア文字分類器(AraDIC)を提案する。 AraDICは画像ベースの文字エンコーダと分類器で構成される。 長期的なデータ分散問題に対処するために、クラスバランスの取れた損失を使用してエンドツーエンドでトレーニングされる。 AraDICの有効性を評価するために、アラビア語ウィキペディアのタイトル(AWT)データセットとアラビア詩(AraP)データセットの2つのデータセットを作成し、公開しました。 私たちの知る限りでは、これはアラビア語のテキスト分類の問題に対処する最初の画像ベースの文字埋め込みフレームワークです。 また,現代標準アラビア語,口語アラビア語,古典アラビア語において広く評価された最初の深層学習に基づくテキスト分類器を提案する。 AraDICは、マイクロFスコアとマクロFスコアでそれぞれ12.29%と23.05%の性能改善を示している。

Classical and some deep learning techniques for Arabic text classification often depend on complex morphological analysis, word segmentation, and hand-crafted feature engineering. These could be eliminated by using character-level features. We propose a novel end-to-end Arabic document classification framework, Arabic document image-based classifier (AraDIC), inspired by the work on image-based character embeddings. AraDIC consists of an image-based character encoder and a classifier. They are trained in an end-to-end fashion using the class balanced loss to deal with the long-tailed data distribution problem. To evaluate the effectiveness of AraDIC, we created and published two datasets, the Arabic Wikipedia title (AWT) dataset and the Arabic poetry (AraP) dataset. To the best of our knowledge, this is the first image-based character embedding framework addressing the problem of Arabic text classification. We also present the first deep learning-based text classifier widely evaluated on modern standard Arabic, colloquial Arabic and classical Arabic. AraDIC shows performance improvement over classical and deep learning baselines by 12.29% and 23.05% for the micro and macro F-score, respectively.
翻訳日:2022-11-18 22:46:44 公開日:2020-06-20
# 感情態度抽出課題における注意モデルの研究

Studying Attention Models in Sentiment Attitude Extraction Task ( http://arxiv.org/abs/2006.11605v1 )

ライセンス: Link先を確認
Nicolay Rusnachenko, Natalia Loukachevitch(参考訳) 感情態度抽出タスクでは,<attitudes>-- テキストで言及されたエンティティ間の感情関係を識別することを目的とする。 本稿では,感情態度抽出作業における注意に基づく文脈エンコーダの検討を行う。 このタスクでは、注意的コンテキストエンコーダを2つのタイプに適応させる。 (i)特徴に基づくもの (ii)セルフベース。 RuSentRelによるロシアの分析テキストのコーパスによる実験では、注意エンコーダで訓練されたモデルは、訓練を受けずに訓練されたモデルよりも優れ、F1では1.5-5.9%向上した。 また,用語の種類に依存した注意重み分布の解析を行った。

In the sentiment attitude extraction task, the aim is to identify <<attitudes>> -- sentiment relations between entities mentioned in text. In this paper, we provide a study on attention-based context encoders in the sentiment attitude extraction task. For this task, we adapt attentive context encoders of two types: (i) feature-based; (ii) self-based. Our experiments with a corpus of Russian analytical texts RuSentRel illustrate that the models trained with attentive encoders outperform ones that were trained without them and achieve 1.5-5.9% increase by F1. We also provide the analysis of attention weight distributions in dependence on the term type.
翻訳日:2022-11-18 22:46:26 公開日:2020-06-20
# 子ども向け発話を用いた文法インダクションにおけるカテゴリーラベルの重要性

The Importance of Category Labels in Grammar Induction with Child-directed Utterances ( http://arxiv.org/abs/2006.11646v1 )

ライセンス: Link先を確認
Lifeng Jin and William Schuler(参考訳) 文法誘導の最近の進歩は、言語固有の知識の明確な仮定なしに文法誘導が可能であることを示している。 しかし、誘導文法の評価は通常、文法の重要な部分であるフラサールラベルを無視している。 ラベル付き評価指標であるRHを用いた実験により,文法の空間性やカテゴリの利用に関する言語的動機付けの予測がラベル付き評価によってのみ明らかになることが示された。 さらに、文法インデューサにおける人間のメモリ制約の実装としての深さ制限は、多言語転写子指向発話に対するラベル付き評価においても有効である。

Recent progress in grammar induction has shown that grammar induction is possible without explicit assumptions of language-specific knowledge. However, evaluation of induced grammars usually has ignored phrasal labels, an essential part of a grammar. Experiments in this work using a labeled evaluation metric, RH, show that linguistically motivated predictions about grammar sparsity and use of categories can only be revealed through labeled evaluation. Furthermore, depth-bounding as an implementation of human memory constraints in grammar inducers is still effective with labeled evaluation on multilingual transcribed child-directed utterances.
翻訳日:2022-11-18 22:46:14 公開日:2020-06-20
# 制約最適化問題に対する目的境界の学習

Learning Objective Boundaries for Constraint Optimization Problems ( http://arxiv.org/abs/2006.11560v1 )

ライセンス: Link先を確認
Helge Spieker, Arnaud Gotlieb(参考訳) 制約最適化問題(COP)は、最適化する目的変数の境界について十分な知識を持たないと考えられることが多い。 利用可能な場合、厳密な境界は、探索空間を掘り起こしたり、問題特性を推定するのに役立ちます。 最適値を正しく過小評価する近接境界を見つけることは、COPを実際に解くことなくほぼ不可能である。 本稿では,以前に解決されたCOPの事例から学習した境界推定手法であるBionを紹介する。 教師付き機械学習に基づいて、Bionは問題固有であり、ソルバ非依存であり、異なるデータ入力で繰り返し解決される任意のCOPに適用することができる。 7つの現実的なCOPに対して実験的に評価した結果,対象変数の領域を80%以上の精度で推定できることがわかった。 推定境界を様々なCOPソルバで評価することにより、Bionはいくつかの問題に対する解法を改善するが、近接境界の効果は一般に問題依存である。

Constraint Optimization Problems (COP) are often considered without sufficient knowledge on the boundaries of the objective variable to optimize. When available, tight boundaries are helpful to prune the search space or estimate problem characteristics. Finding close boundaries, that correctly under- and overestimate the optimum, is almost impossible without actually solving the COP. This paper introduces Bion, a novel approach for boundary estimation by learning from previously solved instances of the COP. Based on supervised machine learning, Bion is problem-specific and solver-independent and can be applied to any COP which is repeatedly solved with different data inputs. An experimental evaluation over seven realistic COPs shows that an estimation model can be trained to prune the objective variables' domains by over 80%. By evaluating the estimated boundaries with various COP solvers, we find that Bion improves the solving process for some problems, although the effect of closer bounds is generally problem-dependent.
翻訳日:2022-11-18 22:45:52 公開日:2020-06-20
# AM-DCGAN:Analog Memristive Hardware Accelerator for Deep Convolutional Generative Adversarial Networks

AM-DCGAN: Analog Memristive Hardware Accelerator for Deep Convolutional Generative Adversarial Networks ( http://arxiv.org/abs/2007.12063v1 )

ライセンス: Link先を確認
Olga Krestinskaya, Bhaskar Choubey, Alex Pappachen James(参考訳) Generative Adversarial Network (GAN) は、学習すべき大量のデータを含むソフトウェア実装において、有意義な計算資源を必要とするよく知られた複雑なアルゴリズムである。 これにより、エッジデバイスにおける従来のマイクロプロセッサハードウェアの実装は遅くて難しい作業となる。 本稿では,アナログドメインの記憶型ニューラルネットワークを用いた計算集約型ganの高速化を提案する。 我々は180nm CMOS技術を用いてシミュレーションしたCMOS-memristive convolutional and deconvolutional networkに基づくDeep Convolutional GAN(DCGAN)の完全なアナログハードウェア設計を提案する。

Generative Adversarial Network (GAN) is a well known computationally complex algorithm requiring signficiant computational resources in software implementations including large amount of data to be trained. This makes its implementation in edge devices with conventional microprocessor hardware a slow and difficult task. In this paper, we propose to accelerate the computationally intensive GAN using memristive neural networks in analog domain. We present a fully analog hardware design of Deep Convolutional GAN (DCGAN) based on CMOS-memristive convolutional and deconvolutional networks simulated using 180nm CMOS technology.
翻訳日:2022-11-18 22:45:37 公開日:2020-06-20
# 自己監督型時空間表現学習のためのビデオ再生率知覚

Video Playback Rate Perception for Self-supervisedSpatio-Temporal Representation Learning ( http://arxiv.org/abs/2006.11476v1 )

ライセンス: Link先を確認
Yuan Yao, Chang Liu, Dezhao Luo, Yu Zhou, Qixiang Ye(参考訳) 自己教師あり時空間表現学習では,学習モデルの表現能力を制限する時間分解能と長期的特性はまだ十分に検討されていない。 本稿では,ビデオ再生率知覚(PRP)と呼ばれる新しい自己指導手法を提案する。 PRPのルーツは拡張サンプリング戦略であり、表現モデル学習のためのビデオ再生率に関する自己超越信号を生成する。 PRPは、特徴エンコーダ、分類モジュール、再構成デコーダで実装され、協調的な識別生成方式で時空間のセマンティック保持を実現する。 識別知覚モデルは、高速フォワードレートを分類することにより、低時間分解能と長期表現を優先する特徴エンコーダに従う。 生成知覚モデルは特徴デコーダとして機能し、モーションアテンション機構を導入することにより、高時間分解能と短期表現の理解に集中する。 PRPは、アクション認識やビデオ検索を含む典型的なビデオターゲットタスクに適用される。 実験により、PRPは最先端の自己教師型モデルよりも優れたマージンを持つことが示された。 コードはgithub.com/yuanyao366/prpで入手できる

In self-supervised spatio-temporal representation learning, the temporal resolution and long-short term characteristics are not yet fully explored, which limits representation capabilities of learned models. In this paper, we propose a novel self-supervised method, referred to as video Playback Rate Perception (PRP), to learn spatio-temporal representation in a simple-yet-effective way. PRP roots in a dilated sampling strategy, which produces self-supervision signals about video playback rates for representation model learning. PRP is implemented with a feature encoder, a classification module, and a reconstructing decoder, to achieve spatio-temporal semantic retention in a collaborative discrimination-generation manner. The discriminative perception model follows a feature encoder to prefer perceiving low temporal resolution and long-term representation by classifying fast-forward rates. The generative perception model acts as a feature decoder to focus on comprehending high temporal resolution and short-term representation by introducing a motion-attention mechanism. PRP is applied on typical video target tasks including action recognition and video retrieval. Experiments show that PRP outperforms state-of-the-art self-supervised models with significant margins. Code is available at github.com/yuanyao366/PRP
翻訳日:2022-11-18 22:45:26 公開日:2020-06-20
# エントロピックリスク制約付きソフトロバスト政策最適化

Entropic Risk Constrained Soft-Robust Policy Optimization ( http://arxiv.org/abs/2006.11679v1 )

ライセンス: Link先を確認
Reazul Hasan Russel, Bahram Behzadian, Marek Petrik(参考訳) 最適方針を計算するための完璧なモデルを持つことは、強化学習においてしばしば実現不可能である。 モデル不確実性によって引き起こされるリスクの定量化と管理は、ハイテイク領域において重要である。 エントロピーリスク測度(Entropic risk measure)は、多くの合理的な性質を満たす指数的ユーティリティベースの凸リスク測度である。 本稿では, モデルの不確実性に逆らう, エントロピー的リスク制約付き政策勾配とアクタ批判アルゴリズムを提案する。 いくつかの問題領域におけるアルゴリズムの有用性を示す。

Having a perfect model to compute the optimal policy is often infeasible in reinforcement learning. It is important in high-stakes domains to quantify and manage risk induced by model uncertainties. Entropic risk measure is an exponential utility-based convex risk measure that satisfies many reasonable properties. In this paper, we propose an entropic risk constrained policy gradient and actor-critic algorithms that are risk-averse to the model uncertainty. We demonstrate the usefulness of our algorithms on several problem domains.
翻訳日:2022-11-18 22:38:22 公開日:2020-06-20
# オンラインマイクロファイナンスプラットフォームにおけるバイアスの緩和: Kiva.org を事例として

Mitigating Bias in Online Microfinance Platforms: A Case Study on Kiva.org ( http://arxiv.org/abs/2006.12995v1 )

ライセンス: Link先を確認
Soumajyoti Sarkar, Hamidreza Alvari(参考訳) 過去数十年間、融資業界では、金融の切り離しが世界的な規模で起きている。 伝統的に、少額の資金供給であっても、銀行は資金と借主の間の導管として機能する。 Kiva、Prosper、LendingClubなどのオンラインプラットフォームが登場したことで、こうした資金供給に伴う障害を克服することが可能になった。 例えば、Kivaは開発途上国のマイクロファイナンス研究所(MFI)と協力して、簡単な伝記、ローン要求、ローン期間、目的のインターネットプロファイルを構築している。 特にKivaは、グループや個人ファンドを通じて、さまざまなセクターのプロジェクトに資金を提供する。 伝統的な研究は、単にローン属性の観点から、貸付人の嗜好の背景にある様々な要因を調査しており、最近まで、いくつかのクロスカントリー文化嗜好が研究されてきた。 本稿では,借主国の経済的要因に対する貸主の認識と,異なる分野の融資に対する嗜好との関連について検討する。 経済要因や融資属性の影響は、資金提供の迅速化において、異なる分野において、大きく異なる役割を担っていることが判明した。 我々は,ベイズ変数選択法に依存する因果推論や回帰モデルに基づく最近の手法を用いて,異なる融資セクターで普及している隠れバイアスを公式に調査し,定量化する。 これらのモデルを拡張して、経験的分析に基づく公平さの制約を取り入れた上で、ベースライン回帰モデルに関してほぼ同等の結果が得られることを見出します。

Over the last couple of decades in the lending industry, financial disintermediation has occurred on a global scale. Traditionally, even for small supply of funds, banks would act as the conduit between the funds and the borrowers. It has now been possible to overcome some of the obstacles associated with such supply of funds with the advent of online platforms like Kiva, Prosper, LendingClub. Kiva for example, works with Micro Finance Institutions (MFIs) in developing countries to build Internet profiles of borrowers with a brief biography, loan requested, loan term, and purpose. Kiva, in particular, allows lenders to fund projects in different sectors through group or individual funding. Traditional research studies have investigated various factors behind lender preferences purely from the perspective of loan attributes and only until recently have some cross-country cultural preferences been investigated. In this paper, we investigate lender perceptions of economic factors of the borrower countries in relation to their preferences towards loans associated with different sectors. We find that the influence from economic factors and loan attributes can have substantially different roles to play for different sectors in achieving faster funding. We formally investigate and quantify the hidden biases prevalent in different loan sectors using recent tools from causal inference and regression models that rely on Bayesian variable selection methods. We then extend these models to incorporate fairness constraints based on our empirical analysis and find that such models can still achieve near comparable results with respect to baseline regression models.
翻訳日:2022-11-18 22:38:12 公開日:2020-06-20
# ピラミッド畳み込み:視覚認識のための畳み込みニューラルネットワーク再考

Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition ( http://arxiv.org/abs/2006.11538v1 )

ライセンス: Link先を確認
Ionut Cosmin Duta, Li Liu, Fan Zhu, Ling Shao(参考訳) この研究は、複数のフィルタスケールで入力を処理できるピラミッド畳み込み(PyConv)を導入している。 PyConvにはカーネルのピラミッドがあり、各レベルにはさまざまなサイズと深さのフィルタが含まれており、シーン内のさまざまなレベルの詳細をキャプチャすることができる。 これらの改良された認識機能に加えて、PyConvは効率的であり、私たちの定式化によって、標準的な畳み込みに比べて計算コストやパラメータが向上しない。 さらに、非常に柔軟で拡張性があり、異なるアプリケーションのための潜在的なネットワークアーキテクチャの広い空間を提供する。 PyConvは、ほぼすべてのコンピュータビジョンタスクに影響を与える可能性があり、本研究では、画像分類、ビデオアクション分類/認識、オブジェクト検出、セマンティックイメージ分割/パーシングの4つの主要なタスクに対して、PyConvに基づく異なるアーキテクチャを提示する。 提案手法は,これらすべてのコアタスクに対して,ベースラインに比べて大幅に改善されている。 例えば、画像認識において、我々の50層ネットワークは152層からなるImageNetデータセットのベースラインであるResNetの認識性能において優れており、パラメータは2.39倍、計算複雑性は2.52倍、レイヤーは3倍以上である。 画像セグメンテーションでは,新たなフレームワークにより,シーン解析に挑戦するade20kベンチマークを新たに設定する。 コードは、https://github.com/iduta/pyconvで入手できる。

This work introduces pyramidal convolution (PyConv), which is capable of processing the input at multiple filter scales. PyConv contains a pyramid of kernels, where each level involves different types of filters with varying size and depth, which are able to capture different levels of details in the scene. On top of these improved recognition capabilities, PyConv is also efficient and, with our formulation, it does not increase the computational cost and parameters compared to standard convolution. Moreover, it is very flexible and extensible, providing a large space of potential network architectures for different applications. PyConv has the potential to impact nearly every computer vision task and, in this work, we present different architectures based on PyConv for four main tasks on visual recognition: image classification, video action classification/recognition, object detection and semantic image segmentation/parsing. Our approach shows significant improvements over all these core tasks in comparison with the baselines. For instance, on image recognition, our 50-layers network outperforms in terms of recognition performance on ImageNet dataset its counterpart baseline ResNet with 152 layers, while having 2.39 times less parameters, 2.52 times lower computational complexity and more than 3 times less layers. On image segmentation, our novel framework sets a new state-of-the-art on the challenging ADE20K benchmark for scene parsing. Code is available at: https://github.com/iduta/pyconv
翻訳日:2022-11-18 22:36:52 公開日:2020-06-20
# 弱相関シナプスはディープニューラルネットワークの次元減少を促進する

Weakly-correlated synapses promote dimension reduction in deep neural networks ( http://arxiv.org/abs/2006.11569v1 )

ライセンス: Link先を確認
Jianwen Zhou, and Haiping Huang(参考訳) シナプスと神経の相関を制御することによって、ディープラーニングは分類性能の向上に実証的な成功を収めた。 シナプス相関が神経相関にどのように影響するかは、いまだ不明である。 本稿では, シナプス間の相互相関を考慮した次元減少の簡易モデルを提案し, シナプス相関が次元減少に与える影響のメカニズムを明らかにする。 本理論は,二元および連続的なシナプスに対して,数学的自己矛盾のみを必要とするシナプス相関スケーリング形式を決定する。 この理論はまた、弱相関シナプスは直交のシナプスに比べて次元の減少を促進すると予測している。 さらに、これらのシナプスはネットワーク深度に沿ったデコレーションプロセスを遅くする。 これら2つの計算的役割は平均場方程式によって説明される。 理論的予測は数値シミュレーションとよく一致しており、鍵となる特徴はヘビアン規則の深い学習によっても捉えられる。

By controlling synaptic and neural correlations, deep learning has achieved empirical successes in improving classification performances. How synaptic correlations affect neural correlations to produce disentangled hidden representations remains elusive. Here we propose a simplified model of dimension reduction, taking into account pairwise correlations among synapses, to reveal the mechanism underlying how the synaptic correlations affect dimension reduction. Our theory determines the synaptic-correlation scaling form requiring only mathematical self-consistency, for both binary and continuous synapses. The theory also predicts that weakly-correlated synapses encourage dimension reduction compared to their orthogonal counterparts. In addition, these synapses slow down the decorrelation process along the network depth. These two computational roles are explained by the proposed mean-field equation. The theoretical predictions are in excellent agreement with numerical simulations, and the key features are also captured by a deep learning with Hebbian rules.
翻訳日:2022-11-18 22:36:24 公開日:2020-06-20
# パーキンソン音声認識のためのディープダブルサイド学習アンサンブルモデル

Deep Double-Side Learning Ensemble Model for Few-Shot Parkinson Speech Recognition ( http://arxiv.org/abs/2006.11593v1 )

ライセンス: Link先を確認
Yongming Li, Lang Zhou, Lingyun Qin, Yuwei Zeng, Yuchuan Liu, Yan Lei, Pin Wang, Fan Li(参考訳) 音声データに基づくパーキンソン病の診断・治療効果評価は非常に重要であるが,その数少ない学習課題は困難である。ディープラーニングは自動特徴抽出に長けているが,わずかな学習問題に苦しむ。 そこで,本手法は,まず先行知識に基づいて特徴抽出を行い,その後分類のための特徴抽出を行う。 しかし、大きな問題は2つあります。 1) 音声特徴間の構造情報は掘り下げられず, 高品質の新たな特徴は再構築されていない。 2)データサンプル間の構造情報はマイニングされておらず,高品質な新しいサンプルは再構築されていない。 これら2つの問題を解決するために,既存のパーキンソン音声特徴データに基づいて,音声特徴とサンプルを深く同時に再構築可能な深層2面学習アンサンブルモデルを構築した。 特徴の再構成について, 非線形特徴変換を行うために, 組込み深層群スパースオートエンコーダを設計, 新たな高レベル深層特徴の獲得を目的として, l1正規化特徴選択法により, 深層特徴を元の音声特徴と融合させる。 音声サンプル再構成では, サンプル変換を行うために, 繰り返し平均クラスタリングをベースとしたディープサンプル学習アルゴリズムを設計し, 新たな高レベルディープサンプルを得る。 最後に、袋詰めアンサンブル学習モードを採用し、深層特徴学習アルゴリズムと深層サンプル学習アルゴリズムを融合させ、深層二重学習アンサンブルモデルを構築する。 この論文の終わりにパーキンソン病の2つの代表的な音声データセットが検証に使用された。 実験の結果,提案アルゴリズムの有効性が示された。

Diagnosis and therapeutic effect assessment of Parkinson disease based on voice data are very important,but its few-shot learning problem is challenging.Although deep learning is good at automatic feature extraction, it suffers from few-shot learning problem. Therefore, the general effective method is first conduct feature extraction based on prior knowledge, and then carry out feature reduction for subsequent classification. However, there are two major problems: 1) Structural information among speech features has not been mined and new features of higher quality have not been reconstructed. 2) Structural information between data samples has not been mined and new samples with higher quality have not been reconstructed. To solve these two problems, based on the existing Parkinson speech feature data set, a deep double-side learning ensemble model is designed in this paper that can reconstruct speech features and samples deeply and simultaneously. As to feature reconstruction, an embedded deep stacked group sparse auto-encoder is designed in this paper to conduct nonlinear feature transformation, so as to acquire new high-level deep features, and then the deep features are fused with original speech features by L1 regularization feature selection method. As to speech sample reconstruction, a deep sample learning algorithm is designed in this paper based on iterative mean clustering to conduct samples transformation, so as to obtain new high-level deep samples. Finally, the bagging ensemble learning mode is adopted to fuse the deep feature learning algorithm and the deep samples learning algorithm together, thereby constructing a deep double-side learning ensemble model. At the end of this paper, two representative speech datasets of Parkinson's disease were used for verification. The experimental results show that the proposed algorithm are effective.
翻訳日:2022-11-18 22:30:24 公開日:2020-06-20
# FaceHack: 顔の特徴を利用したバックドア顔認識システム

FaceHack: Triggering backdoored facial recognition systems using facial characteristics ( http://arxiv.org/abs/2006.11623v1 )

ライセンス: Link先を確認
Esha Sarkar, Hadjer Benkraouda, Michail Maniatakos(参考訳) 機械学習(ML)の最近の進歩は、現実世界のアプリケーションに広く使われるための新しい道を開いた。 顔認識は、特に、ソーシャルメディアプラットフォームにおける単純な友人提案から、空港における自動移民における生体認証バリデーションのための重要なセキュリティアプリケーションまで使われる。 これらのシナリオを考慮すると、このようなMLアルゴリズムに対するセキュリティ脆弱性は深刻な結果を伴う深刻な脅威を引き起こす。 最近の研究は、一般的に顔認識システムで使用されるディープニューラルネットワーク(DNN)がバックドア攻撃の影響を受けやすいことを実証している。 注目されないという共通の特徴に固執すると、理想的なトリガーは小さく、ローカライズされ、通常メインのim-ageの一部ではない。 したがって、検出メカニズムは、統計的または再構成を通して、これらの異なるトリガーベースの外れ値を検出することに重点を置いている。 本研究は,MLモデルにおいて,顔の特徴の特定の変化が悪意ある行動を引き起こすことを実証するものである。 顔の属性の変化は、ソーシャルメディアフィルターを使って人工的に埋め込んだり、顔の筋肉の動きを使って自然に導入されたりする。 構築によって、我々のトリガーは大きく、入力に適応し、画像全体に広がる。 我々は,攻撃の成功を評価し,モデルの性能基準に干渉しないことを確認した。 また、最先端の防御で徹底的にテストすることで、トリガーの非検出性を裏付ける。

Recent advances in Machine Learning (ML) have opened up new avenues for its extensive use in real-world applications. Facial recognition, specifically, is used from simple friend suggestions in social-media platforms to critical security applications for biometric validation in automated immigration at airports. Considering these scenarios, security vulnerabilities to such ML algorithms pose serious threats with severe outcomes. Recent work demonstrated that Deep Neural Networks (DNNs), typically used in facial recognition systems, are susceptible to backdoor attacks; in other words,the DNNs turn malicious in the presence of a unique trigger. Adhering to common characteristics for being unnoticeable, an ideal trigger is small, localized, and typically not a part of the main im-age. Therefore, detection mechanisms have focused on detecting these distinct trigger-based outliers statistically or through their reconstruction. In this work, we demonstrate that specific changes to facial characteristics may also be used to trigger malicious behavior in an ML model. The changes in the facial attributes maybe embedded artificially using social-media filters or introduced naturally using movements in facial muscles. By construction, our triggers are large, adaptive to the input, and spread over the entire image. We evaluate the success of the attack and validate that it does not interfere with the performance criteria of the model. We also substantiate the undetectability of our triggers by exhaustively testing them with state-of-the-art defenses.
翻訳日:2022-11-18 22:29:55 公開日:2020-06-20
# OneMax上の$(1+\lambda)$ EAの最適変更率

Optimal Mutation Rates for the $(1+\lambda)$ EA on OneMax ( http://arxiv.org/abs/2006.11457v1 )

ライセンス: Link先を確認
Maxim Buzdalov and Carola Doerr(参考訳) また、ハミング距離問題(hamming distance problem)としても知られるonemax問題は、ecアプローチの理論的および経験的解析に高い関連性があるため、しばしば「進化的計算のドロソフィラ (drosophila of evolutionary computation, ec) 」と呼ばれる。 したがって、すべての突然変異に基づくアルゴリズムの最も単純な例であるランダム化局所探索と(1+1) EAにおいて、最適な突然変異率はごく最近になってGECCO 2019のポスターで決定された。 本研究では、最適な突然変異率の分析を、$(1+\lambda)$ EAと$(1+\lambda)$ RLSの2つの変種に拡張する。 これを実現するために、動的プログラミングを使用し、$(1+\lambda)$ EAの数値最適化には$\Theta(n^3)$時間と$n$が必要です。 これにより、全ての集団サイズを$\lambda \in \{2^i \mid 0 \le i \le 18\}$、および問題次元$n \in \{1000, 2000, 5000\}$で計算し、変異率は期待される実行時間を最小化し、期待される進行時間を最大化する。 我々の結果は、共通の進化的アプローチを測定できる下界を提供するだけでなく、これらの最適パラメータ選択の構造についての洞察を得る。 例えば、大きな個体数に対して、フリップするビットの最大数は最適点までの距離において単調ではないことを示す。 また、1+\lambda)$ EA$_{0 \rightarrow 1}$ が変化した場合には、残りのランニング時間は必ずしもunimodalではないことも観察する。

The OneMax problem, alternatively known as the Hamming distance problem, is often referred to as the "drosophila of evolutionary computation (EC)", because of its high relevance in theoretical and empirical analyses of EC approaches. It is therefore surprising that even for the simplest of all mutation-based algorithms, Randomized Local Search and the (1+1) EA, the optimal mutation rates were determined only very recently, in a GECCO 2019 poster. In this work, we extend the analysis of optimal mutation rates to two variants of the $(1+\lambda)$ EA and to the $(1+\lambda)$ RLS. To do this, we use dynamic programming and, for the $(1+\lambda)$ EA, numeric optimization, both requiring $\Theta(n^3)$ time for problem dimension $n$. With this in hand, we compute for all population sizes $\lambda \in \{2^i \mid 0 \le i \le 18\}$ and for problem dimension $n \in \{1000, 2000, 5000\}$ which mutation rates minimize the expected running time and which ones maximize the expected progress. Our results do not only provide a lower bound against which we can measure common evolutionary approaches, but we also obtain insight into the structure of these optimal parameter choices. For example, we show that, for large population sizes, the best number of bits to flip is not monotone in the distance to the optimum. We also observe that the expected remaining running time are not necessarily unimodal for the $(1+\lambda)$ EA$_{0 \rightarrow 1}$ with shifted mutation.
翻訳日:2022-11-18 22:28:44 公開日:2020-06-20
# 複合凸・平滑最適化のための確率勾配法の統一解析

Unified Analysis of Stochastic Gradient Methods for Composite Convex and Smooth Optimization ( http://arxiv.org/abs/2006.11573v1 )

ライセンス: Link先を確認
Ahmed Khaled, Othmane Sebbouh, Nicolas Loizou, Robert M. Gower, Peter Richt\'arik(参考訳) 本稿では,滑らかな凸損失と凸正規化子を最小化する確率的勾配アルゴリズムの収束解析のための統一定理を提案する。 我々は、Gorbunov, Hanzely \& Richt\'arik (2020) の統一解析を拡張し、損失関数が強く凸であるという要求を下げる。 代わりに、損失関数の凸性のみに依存します。 この統一解析は, 近位sgd法, 分散還元法, 量子化法, 座標降下型法などの既存のアルゴリズムのホストに適用できる。 分散低減法では, 特別な場合として最もよく知られた収束率を回復する。 量子化法と座標型法である近位sgdについて,新しい収束率を明らかにする。 分析にはサンプリングやミニバッチも含んでいます。 これにより,分散低減法の全複雑性を最適化するミニバッチサイズを決定できる。 2つの分散還元法 (\textit{l-svrg} と \textit{saga}) の最適ミニバッチサイズに対する簡単な公式を得ることで、これを示す。 この最適ミニバッチサイズは、理論全体の複雑性を向上させるだけでなく、いくつかの実験で示されているように、実際の収束性も改善する。

We present a unified theorem for the convergence analysis of stochastic gradient algorithms for minimizing a smooth and convex loss plus a convex regularizer. We do this by extending the unified analysis of Gorbunov, Hanzely \& Richt\'arik (2020) and dropping the requirement that the loss function be strongly convex. Instead, we only rely on convexity of the loss function. Our unified analysis applies to a host of existing algorithms such as proximal SGD, variance reduced methods, quantization and some coordinate descent type methods. For the variance reduced methods, we recover the best known convergence rates as special cases. For proximal SGD, the quantization and coordinate type methods, we uncover new state-of-the-art convergence rates. Our analysis also includes any form of sampling and minibatching. As such, we are able to determine the minibatch size that optimizes the total complexity of variance reduced methods. We showcase this by obtaining a simple formula for the optimal minibatch size of two variance reduced methods (\textit{L-SVRG} and \textit{SAGA}). This optimal minibatch size not only improves the theoretical total complexity of the methods but also improves their convergence in practice, as we show in several experiments.
翻訳日:2022-11-18 22:27:52 公開日:2020-06-20
# 最良腕学習のための最適除去アルゴリズム

An Optimal Elimination Algorithm for Learning a Best Arm ( http://arxiv.org/abs/2006.11647v1 )

ライセンス: Link先を確認
Avinatan Hassidim, Ron Kupfer, Yaron Singer(参考訳) 我々は、$(\epsilon,\delta)$-PAC学習という古典的な問題を考え、そのゴールは、自信を持って1-\delta$を識別することであり、その平均は、マルチアームのバンディット設定において最も高い平均的アームのそれに対する$\epsilon$-approximationである。 この問題は統計学と学習理論における最も根本的な問題の1つだが、驚くべきことに、最悪の例の複雑さはよく分かっていない。 本稿では,$(\epsilon,\delta)$-PAC学習を最適アームとする新しい手法を提案する。 このアプローチは、サンプル複雑性が \emph{exactly} に収束し、最適なサンプル複雑性が $(\epsilon,\delta)$-learning でそれぞれ$n$ armsの平均を学習するアルゴリズムに繋がる。 具体的には

We consider the classic problem of $(\epsilon,\delta)$-PAC learning a best arm where the goal is to identify with confidence $1-\delta$ an arm whose mean is an $\epsilon$-approximation to that of the highest mean arm in a multi-armed bandit setting. This problem is one of the most fundamental problems in statistics and learning theory, yet somewhat surprisingly its worst-case sample complexity is not well understood. In this paper, we propose a new approach for $(\epsilon,\delta)$-PAC learning a best arm. This approach leads to an algorithm whose sample complexity converges to \emph{exactly} the optimal sample complexity of $(\epsilon,\delta)$-learning the mean of $n$ arms separately and we complement this result with a conditional matching lower bound. More specifically:
翻訳日:2022-11-18 22:21:50 公開日:2020-06-20
# テンソル核規範制約による高次植込みモデルの厳密分割

Exact Partitioning of High-order Planted Models with a Tensor Nuclear Norm Constraint ( http://arxiv.org/abs/2006.11666v1 )

ライセンス: Link先を確認
Chuyang Ke, Jean Honorio(参考訳) 本研究では,高次植込みモデルによるハイパーグラフの効率的な分割問題について検討する。 高次植込みモデルでは、基盤となるクラスタ構造を想定し、ノード間でハイパーエッジを配置することで高次相互作用をシミュレートする。 例えば、解離超斜め、最も密度の高い部分ハイパーグラフ、超グラフ確率ブロックモデルなどがある。 計算効率のよい凸最適化問題をテンソル核ノルム制約で解くことにより、高次植立モデルの正確な分割(一般にNPハード問題)が達成可能であることを示す。 我々の分析は、我々のアプローチが真に根底にあるクラスタ構造を高い確率で回復するのに成功する条件を提供する。

We study the problem of efficient exact partitioning of the hypergraphs generated by high-order planted models. A high-order planted model assumes some underlying cluster structures, and simulates high-order interactions by placing hyperedges among nodes. Example models include the disjoint hypercliques, the densest subhypergraphs, and the hypergraph stochastic block models. We show that exact partitioning of high-order planted models (a NP-hard problem in general) is achievable through solving a computationally efficient convex optimization problem with a tensor nuclear norm constraint. Our analysis provides the conditions for our approach to succeed on recovering the true underlying cluster structures, with high probability.
翻訳日:2022-11-18 22:20:30 公開日:2020-06-20
# KNN, ENN, SVM分類器を用いたt-SNEおよびMDS次元化手法の性能評価

Performance Evaluation of t-SNE and MDS Dimensionality Reduction Techniques with KNN, ENN and SVM Classifiers ( http://arxiv.org/abs/2007.13487v1 )

ライセンス: Link先を確認
Shadman Sakib, Md. Abu Bakr Siddique, Md. Abdur Rahman(参考訳) 本研究の中心的な目的は, t-distributed Stochastic Neighbor Embedding (t-SNE) と Multidimensional Scaling (MDS) の2つの方法を確立し, それらの応用を複数のデータセットで観測することである。 これらのDR技術は、CNAE9、Segmentation、Seeds、Pima Indians diabetes、Parkinsons、Motion Libras、Mammographic Masses、Knowledge、Ionosphereといった9つの異なるデータセットに適用される。 t-SNEアルゴリズムとMDSアルゴリズムを適用することで、データセットから不要な特徴を排除することにより、各データセットは元の次元の半分に変換される。 その後、縮小次元のデータセットを分類のための3つの教師付き分類アルゴリズムに供給する。 これらの分類アルゴリズムは、K Nearest Neighbors (KNN)、Extended Nearest Neighbors (ENN)、Support Vector Machine (SVM)である。 これらのアルゴリズムはすべてMatlabで実装されている。 トレーニングとテストのデータ比率は、データセット毎に90%、すなわち10%で維持される。 精度観察により、汎用分類アルゴリズムを用いた次元技術毎の効率を解析し、各分類器の性能を評価する。

The central goal of this paper is to establish two commonly available dimensionality reduction (DR) methods i.e. t-distributed Stochastic Neighbor Embedding (t-SNE) and Multidimensional Scaling (MDS) in Matlab and to observe their application in several datasets. These DR techniques are applied to nine different datasets namely CNAE9, Segmentation, Seeds, Pima Indians diabetes, Parkinsons, Movement Libras, Mammographic Masses, Knowledge, and Ionosphere acquired from UCI machine learning repository. By applying t-SNE and MDS algorithms, each dataset is transformed to the half of its original dimension by eliminating unnecessary features from the datasets. Subsequently, these datasets with reduced dimensions are fed into three supervised classification algorithms for classification. These classification algorithms are K Nearest Neighbors (KNN), Extended Nearest Neighbors (ENN), and Support Vector Machine (SVM). Again, all these algorithms are implemented in Matlab. The training and test data ratios are maintained as ninety percent: ten percent for each dataset. Upon accuracy observation, the efficiency for every dimensionality technique with availed classification algorithms is analyzed and the performance of each classifier is evaluated.
翻訳日:2022-11-18 22:19:21 公開日:2020-06-20
# 任意のショットスケッチに基づく画像検索のためのセマンティックタイドペアサイクル整合性

Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based Image Retrieval ( http://arxiv.org/abs/2006.11397v1 )

ライセンス: Link先を確認
Anjan Dutta and Zeynep Akata(参考訳) 低ショットスケッチに基づく画像検索は、コンピュータビジョンにおける新たなタスクであり、訓練段階ではほとんど見られない手書きのスケッチクエリに関連する自然画像を取得することができる。 関連する以前の作業では、視覚情報をセマンティック空間にマッピングするために、コストがかかるスケッチイメージのペア、あるいは非効率なメモリ融合層が必要です。 本稿では,ゼロショットと少ないショット,スケッチベースの画像検索(sbir)タスクのany-shotに対処し,sbirのone-shot設定について紹介する。 これらの課題を解決するために、任意のショットSBIRに対して意味的に整合したサイクル整合型生成逆数ネットワーク(SEM-PCYC)を提案し、生成逆数ネットワークの各ブランチは、スケッチと画像からの視覚情報を、逆数トレーニングにより共通の意味空間にマッピングする。 それぞれのブランチは、カテゴリレベルでのみ監視を必要とするサイクル一貫性を維持し、整列したスケッチイメージペアの必要性を回避する。 ジェネレータの出力の分類基準により、視覚的から意味的な空間マッピングはクラス固有のものになる。 さらに,同じエンド・ツー・エンドモデル内での識別側情報を選択する自動エンコーダを用いて,テキストと階層側情報を組み合わせることを提案する。 我々の結果は、挑戦的なSketchy、TU-Berlin、QuickDrawデータセットの拡張バージョンに対する最先端のSBIR性能を大幅に向上させたことを示す。

Low-shot sketch-based image retrieval is an emerging task in computer vision, allowing to retrieve natural images relevant to hand-drawn sketch queries that are rarely seen during the training phase. Related prior works either require aligned sketch-image pairs that are costly to obtain or inefficient memory fusion layer for mapping the visual information to a semantic space. In this paper, we address any-shot, i.e. zero-shot and few-shot, sketch-based image retrieval (SBIR) tasks, where we introduce the few-shot setting for SBIR. For solving these tasks, we propose a semantically aligned paired cycle-consistent generative adversarial network (SEM-PCYC) for any-shot SBIR, where each branch of the generative adversarial network maps the visual information from sketch and image to a common semantic space via adversarial training. Each of these branches maintains cycle consistency that only requires supervision at the category level, and avoids the need of aligned sketch-image pairs. A classification criteria on the generators' outputs ensures the visual to semantic space mapping to be class-specific. Furthermore, we propose to combine textual and hierarchical side information via an auto-encoder that selects discriminating side information within a same end-to-end model. Our results demonstrate a significant boost in any-shot SBIR performance over the state-of-the-art on the extended version of the challenging Sketchy, TU-Berlin and QuickDraw datasets.
翻訳日:2022-11-18 22:18:57 公開日:2020-06-20
# 表現による表現:逆学習不変表現によるドメイン一般化

Representation via Representations: Domain Generalization via Adversarially Learned Invariant Representations ( http://arxiv.org/abs/2006.11478v1 )

ライセンス: Link先を確認
Zhun Deng, Frances Ding, Cynthia Dwork, Rachel Hong, Giovanni Parmigiani, Prasad Patil, Pragya Sur(参考訳) ドメインの一般化に対処するために,まず学習のための検閲手法の力について検討する。 領域上の分布に従って各研究が描画される複数の"studies"(あるいはドメイン)から不変表現を学ぶための"em adversarial" 検閲手法について検討する。 マッピングは新しいドメインからインスタンスを分類するためにテスト時に使用される。 医療予測のような多くの文脈において、人口の多い地域(データが豊富にある)における研究から、(訓練データが存在しない)地理的に遠隔の集団への領域一般化は、アルゴリズム的公平性に関する以前の研究では予想されていなかった、異なる風味の公平性をもたらす。 我々は、$k$ドメインの対向損失関数を研究し、その制限動作を$k$成長として正確に特徴付け、多くのドメインからデータを観測する実験によって裏付けられた直観を形式化し証明する。 制限結果は非漸近的な学習-理論境界を伴う。 さらに,未確認領域におけるアルゴリズムの最悪の予測性能について十分な条件を得る。 最後に、写像を2つの成分に分解し、この分解の観点から不変性を完全に特徴づける。 我々の知る限り、我々の結果は、逆不変領域の一般化に対するこれらの種類の最初の公式な保証を提供する。

We investigate the power of censoring techniques, first developed for learning {\em fair representations}, to address domain generalization. We examine {\em adversarial} censoring techniques for learning invariant representations from multiple "studies" (or domains), where each study is drawn according to a distribution on domains. The mapping is used at test time to classify instances from a new domain. In many contexts, such as medical forecasting, domain generalization from studies in populous areas (where data are plentiful), to geographically remote populations (for which no training data exist) provides fairness of a different flavor, not anticipated in previous work on algorithmic fairness. We study an adversarial loss function for $k$ domains and precisely characterize its limiting behavior as $k$ grows, formalizing and proving the intuition, backed by experiments, that observing data from a larger number of domains helps. The limiting results are accompanied by non-asymptotic learning-theoretic bounds. Furthermore, we obtain sufficient conditions for good worst-case prediction performance of our algorithm on previously unseen domains. Finally, we decompose our mappings into two components and provide a complete characterization of invariance in terms of this decomposition. To our knowledge, our results provide the first formal guarantees of these kinds for adversarial invariant domain generalization.
翻訳日:2022-11-18 22:12:08 公開日:2020-06-20
# 有効マルチラベル学習のための部分検証データからの正確なラベル情報検索

Recovering Accurate Labeling Information from Partially Valid Data for Effective Multi-Label Learning ( http://arxiv.org/abs/2006.11488v1 )

ライセンス: Link先を確認
Ximing Li, Yang Wang(参考訳) 部分的マルチラベル学習(pml)は、各トレーニングインスタンスが複数の候補ラベルに関連付けられているが、部分的に有効なデータセットからマルチラベル予測を誘導することを目的としている。 既存のpml手法では, 候補ラベルの接地信頼度を生かして, 接地ラベルの候補ラベルが接地ラベルである確率を低くすることで, 基本的に接地ラベルを回収する。 しかし、候補者でないラベルからの情報を無視し、それが地下ラベルの回復に繋がる可能性がある。 そこで,本稿では,提案するラベルの関連度と非候補ラベルの関連度とから構成されるラベルエンリッチメントから,地中信頼度を推定した地中信頼度を推定する。 この観察により、より新しい二段階pml法、すなわち \emph{\underline{p}artial \underline{m}ulti-\underline{l}abel \underline{l}earning with \underline{l}abel \underline{e}nrichment-\underline{r}ecovery} (\baby) が開発され、第1段階でラベルのエンリッチメントと非拘束ラベルの伝播を推定し、ラベルのエンリッチメントが与えられた基底的信頼度と多重ラベル予測器を共同で学習する。 実験の結果、\baby は最先端の pml メソッドよりも優れていることが確認された。

Partial Multi-label Learning (PML) aims to induce the multi-label predictor from datasets with noisy supervision, where each training instance is associated with several candidate labels but only partially valid. To address the noisy issue, the existing PML methods basically recover the ground-truth labels by leveraging the ground-truth confidence of the candidate label, \ie the likelihood of a candidate label being a ground-truth one. However, they neglect the information from non-candidate labels, which potentially contributes to the ground-truth label recovery. In this paper, we propose to recover the ground-truth labels, \ie estimating the ground-truth confidences, from the label enrichment, composed of the relevance degrees of candidate labels and irrelevance degrees of non-candidate labels. Upon this observation, we further develop a novel two-stage PML method, namely \emph{\underline{P}artial \underline{M}ulti-\underline{L}abel \underline{L}earning with \underline{L}abel \underline{E}nrichment-\underline{R}ecovery} (\baby), where in the first stage, it estimates the label enrichment with unconstrained label propagation, then jointly learns the ground-truth confidence and multi-label predictor given the label enrichment. Experimental results validate that \baby outperforms the state-of-the-art PML methods.
翻訳日:2022-11-18 22:11:28 公開日:2020-06-20
# FedMGDA+: フェデレーションラーニングが多目的最適化に到達

FedMGDA+: Federated Learning meets Multi-objective Optimization ( http://arxiv.org/abs/2006.11489v1 )

ライセンス: Link先を確認
Zeou Hu, Kiarash Shaloudegi, Guojun Zhang, Yaoliang Yu(参考訳) フェデレーテッド・ラーニング(Federated Learning)は、大量のエッジデバイス上でジョイントディープモデルをトレーニングし、デバイス上のプライベートユーザーデータを厳格に保持する、有望で大規模に分散された方法として登場した。 本研究は,ユーザ間の公正性と悪意のある敵に対する堅牢性を保証することを目的として,多目的最適化としてフェデレーション学習を定式化し,パレート定常解に収束することが保証される新しいアルゴリズムであるFedMGDA+を提案する。 FedMGDA+は実装が簡単で、チューニングするハイパーパラメータが少なく、参加するユーザのパフォーマンスを犠牲にしない。 我々はfedmgda+の収束特性を確立し,既存のアプローチとの接続を指摘する。 さまざまなデータセットに対する大規模な実験は、FedMGDA+が最先端のものと好適に比較していることを確認した。

Federated learning has emerged as a promising, massively distributed way to train a joint deep model over large amounts of edge devices while keeping private user data strictly on device. In this work, motivated from ensuring fairness among users and robustness against malicious adversaries, we formulate federated learning as multi-objective optimization and propose a new algorithm FedMGDA+ that is guaranteed to converge to Pareto stationary solutions. FedMGDA+ is simple to implement, has fewer hyperparameters to tune, and refrains from sacrificing the performance of any participating user. We establish the convergence properties of FedMGDA+ and point out its connections to existing approaches. Extensive experiments on a variety of datasets confirm that FedMGDA+ compares favorably against state-of-the-art.
翻訳日:2022-11-18 22:10:51 公開日:2020-06-20
# A3T-GCN:交通予測のための注意時間グラフ畳み込みネットワーク

A3T-GCN: Attention Temporal Graph Convolutional Network for Traffic Forecasting ( http://arxiv.org/abs/2006.11583v1 )

ライセンス: Link先を確認
Jiawei Zhu, Yujiao Song, Ling Zhao and Haifeng Li(参考訳) 正確なリアルタイム交通予測は、インテリジェント交通システムの実装に対する中核的な技術的問題である。 しかし,交通流の複雑な空間的および時間的依存関係を考慮すると,依然として困難である。 空間的次元では、道路網の接続により、連結道路間の交通の流れは密接に関連している。 時間的要因の観点からは、隣接した時点に一般的には傾向があるが、交通の流れも外部要因に影響されるため、最近の時点よりも遠くの過去点の重要性は必ずしも小さくない。 本研究では,グローバル時間変動と空間相関を同時に捉えるために,アテンション時間グラフ畳み込みネットワーク(A3T-GCN)トラフィック予測手法を提案する。 A3T-GCNモデルは、ゲートリカレントユニットを用いて時系列の短時間傾向を学習し、グラフ畳み込みネットワークを介して道路網のトポロジに基づいて空間依存性を学習する。 さらに、異なる時間点の重要度を調整し、グローバルな時間情報を組み立て、予測精度を向上させるために注意機構を導入した。 実世界のデータセットにおける実験結果は,提案したA3T-GCNの有効性とロバスト性を示す。 ソースコードはhttps://github.com/lehaifeng/T-GCN/A3Tで見ることができる。

Accurate real-time traffic forecasting is a core technological problem against the implementation of the intelligent transportation system. However, it remains challenging considering the complex spatial and temporal dependencies among traffic flows. In the spatial dimension, due to the connectivity of the road network, the traffic flows between linked roads are closely related. In terms of the temporal factor, although there exists a tendency among adjacent time points in general, the importance of distant past points is not necessarily smaller than that of recent past points since traffic flows are also affected by external factors. In this study, an attention temporal graph convolutional network (A3T-GCN) traffic forecasting method was proposed to simultaneously capture global temporal dynamics and spatial correlations. The A3T-GCN model learns the short-time trend in time series by using the gated recurrent units and learns the spatial dependence based on the topology of the road network through the graph convolutional network. Moreover, the attention mechanism was introduced to adjust the importance of different time points and assemble global temporal information to improve prediction accuracy. Experimental results in real-world datasets demonstrate the effectiveness and robustness of proposed A3T-GCN. The source code can be visited at https://github.com/lehaifeng/T-GCN/A3T.
翻訳日:2022-11-18 22:10:07 公開日:2020-06-20
# ドロップアウト変分推論のためのモデル不確かさの校正

Calibration of Model Uncertainty for Dropout Variational Inference ( http://arxiv.org/abs/2006.11584v1 )

ライセンス: Link先を確認
Max-Heinrich Laves, Sontje Ihler, Karl-Philipp Kortmann, Tobias Ortmaier(参考訳) モンテカルロ・ドロップアウトによる変分ベイズ推定によるモデルの不確実性は、誤校正の傾向にある。 本稿では,モデルの不確実性を再調整するために,異なるロジットスケーリング手法を拡張した。 不確実な校正誤差(UCE)は誤校正を測る指標として提示される。 近年のCNNアーキテクチャにおけるCIFAR-10/100とSVHNの有効性を評価する。 実験の結果,ロジットスケーリングはUCEによる誤校正を著しく低減することがわかった。 不確実性は、不確定な予測の信頼できる拒絶と、分散データの堅牢な検出を可能にする。

The model uncertainty obtained by variational Bayesian inference with Monte Carlo dropout is prone to miscalibration. In this paper, different logit scaling methods are extended to dropout variational inference to recalibrate model uncertainty. Expected uncertainty calibration error (UCE) is presented as a metric to measure miscalibration. The effectiveness of recalibration is evaluated on CIFAR-10/100 and SVHN for recent CNN architectures. Experimental results show that logit scaling considerably reduce miscalibration by means of UCE. Well-calibrated uncertainty enables reliable rejection of uncertain predictions and robust detection of out-of-distribution data.
翻訳日:2022-11-18 22:09:48 公開日:2020-06-20
# テーマ全体を示すPLOT:多目的景観における効率的な集合の可視化

One PLOT to Show Them All: Visualization of Efficient Sets in Multi-Objective Landscapes ( http://arxiv.org/abs/2006.11547v1 )

ライセンス: Link先を確認
Lennart Sch\"apermeier and Christian Grimme and Pascal Kerschke(参考訳) 連続多目的最適化問題 (MOP) の決定空間の可視化技術は研究ではほとんどない。 長い間、世界的最適性に焦点を当てたすべての技術と、利用可能な数少ない景観の可視化、例えばコストの風景などでさえも、グローバル性が主要な基準です。 対照的に、最近提案された勾配場ヒートマップ (gfhs) は局所効率的集合の位置とアトラクション盆地を強調するが、解の品質の観点から集合の関係を無視する。 本稿では,局所的および大域的最適性を表現するために,両手法の利点を組み合わせる新しいハイブリッド可視化手法を提案する。 そこで我々はGFH法に基づいて,局所的に効率的な点の位置を近似する新しい手法を適用し,多目的勾配ベクトル場のばらつきを頑健な2次条件として利用する。 次に、決定された局所的効率的な点の相対的支配関係を用いて、MOPの完全な景観を可視化する。 観光地に関する情報により、このPLOT(Plot of Landscapes with Optimal Trade-offs)は、最も有益な多目的景観可視化技術の一つとなっている。

Visualization techniques for the decision space of continuous multi-objective optimization problems (MOPs) are rather scarce in research. For long, all techniques focused on global optimality and even for the few available landscape visualizations, e.g., cost landscapes, globality is the main criterion. In contrast, the recently proposed gradient field heatmaps (GFHs) emphasize the location and attraction basins of local efficient sets, but ignore the relation of sets in terms of solution quality. In this paper, we propose a new and hybrid visualization technique, which combines the advantages of both approaches in order to represent local and global optimality together within a single visualization. Therefore, we build on the GFH approach but apply a new technique for approximating the location of locally efficient points and using the divergence of the multi-objective gradient vector field as a robust second-order condition. Then, the relative dominance relationship of the determined locally efficient points is used to visualize the complete landscape of the MOP. Augmented by information on the basins of attraction, this Plot of Landscapes with Optimal Trade-offs (PLOT) becomes one of the most informative multi-objective landscape visualization techniques available.
翻訳日:2022-11-18 22:02:35 公開日:2020-06-20
# 進化的多目的アルゴリズムを用いたモノトンチャンス制約部分モジュラ関数の最適化

Optimising Monotone Chance-Constrained Submodular Functions Using Evolutionary Multi-Objective Algorithms ( http://arxiv.org/abs/2006.11444v1 )

ライセンス: Link先を確認
Aneta Neumann and Frank Neumann(参考訳) 多くの実世界の最適化問題は、部分モジュラ函数の観点で述べることができる。 多くの進化的多目的アルゴリズムが近年解析され、異なる種類の制約を持つ部分モジュラー問題に適用されている。 本稿では,確率制約付き部分モジュラ関数に対する進化的多目的アルゴリズムのランタイム解析について述べる。 ここで、制約は確率的成分を含み、制約はアルファのわずかな確率でのみ破ることができる。 gsemoアルゴリズムは,近年解析されたグリーディアルゴリズムと同じ最悪の場合性能保証が得られることを示す。 さらに,GSEMOやNSGA-IIなどの進化的多目的アルゴリズムのネットワーク問題に対する挙動について検討した。 実験結果から, グリーディアルゴリズムと比較して, 大幅な性能向上が得られた。

Many real-world optimisation problems can be stated in terms of submodular functions. A lot of evolutionary multi-objective algorithms have recently been analyzed and applied to submodular problems with different types of constraints. We present a first runtime analysis of evolutionary multi-objective algorithms for chance-constrained submodular functions. Here, the constraint involves stochastic components and the constraint can only be violated with a small probability of alpha. We show that the GSEMO algorithm obtains the same worst case performance guarantees as recently analyzed greedy algorithms. Furthermore, we investigate the behavior of evolutionary multi-objective algorithms such as GSEMO and NSGA-II on different submodular chance constrained network problems. Our experimental results show that this leads to significant performance improvements compared to the greedy algorithm.
翻訳日:2022-11-18 22:02:13 公開日:2020-06-20
# BERTおよびGloVe埋め込みによるつぶやきのサーカスム検出

Sarcasm Detection in Tweets with BERT and GloVe Embeddings ( http://arxiv.org/abs/2006.11512v1 )

ライセンス: Link先を確認
Akshay Khatri, Pranav P and Dr. Anand Kumar M(参考訳) サルカズム(英: Sarcasm)とは、コミュニケーションの一種で、その人が実際に意味する意味とは逆である。 自然には曖昧である。 本稿では,BERTとGloVeを組み込んだ機械学習技術を用いて,ツイートの皮肉を検出することを提案する。 データセットは埋め込みを抽出する前に前処理される。 提案モデルでは,ユーザが実際の応答に合わせて反応するコンテキストも利用している。

Sarcasm is a form of communication in whichthe person states opposite of what he actually means. It is ambiguous in nature. In this paper, we propose using machine learning techniques with BERT and GloVe embeddings to detect sarcasm in tweets. The dataset is preprocessed before extracting the embeddings. The proposed model also uses the context in which the user is reacting to along with his actual response.
翻訳日:2022-11-18 22:02:02 公開日:2020-06-20
# 有限状態トランスデューサを用いた名前付きエンティティ抽出

Named Entity Extraction with Finite State Transducers ( http://arxiv.org/abs/2006.11548v1 )

ライセンス: Link先を確認
Diego Alexander Hu\'erfano Villalba and Elizabeth Le\'on Guzm\'an(参考訳) 本稿では,言語知識が最小限で,よりターゲット言語に適用可能な名前付きエンティティタグ付けシステムについて述べる。 このシステムは、brill's taggerのアイデアに基づいているので、非常にシンプルです。 教師付き機械学習を用いて、与えられたテキストにタグを付けるために一連のオートマトン(あるいはトランスデューサ)を構築する。 最終モデルはオートマトンで構成されており、タグ付けには直線的な時間を要する。 これは、CoNLL-$2002$のスペイン語データセットでテストされ、全体的な$F_{\beta = 1}$の値が60\%に達した。 さらに,学習した文脈ルールをすべてエンコードするために使用する最終変換器の構成アルゴリズムも提示する。

We describe a named entity tagging system that requires minimal linguistic knowledge and can be applied to more target languages without substantial changes. The system is based on the ideas of the Brill's tagger which makes it really simple. Using supervised machine learning, we construct a series of automatons (or transducers) in order to tag a given text. The final model is composed entirely of automatons and it requires a lineal time for tagging. It was tested with the Spanish data set provided in the CoNLL-$2002$ attaining an overall $F_{\beta = 1}$ measure of $60\%.$ Also, we present an algorithm for the construction of the final transducer used to encode all the learned contextual rules.
翻訳日:2022-11-18 22:01:55 公開日:2020-06-20
# 最大平均離散度を用いた半教師付き単語翻訳のための学習アライメント

Learning aligned embeddings for semi-supervised word translation using Maximum Mean Discrepancy ( http://arxiv.org/abs/2006.11578v1 )

ライセンス: Link先を確認
Antonio H. O. Fonseca and David van Dijk(参考訳) 単語翻訳は言語翻訳の不可欠な部分である。 機械翻訳では、各言語は独自の単語埋め込みを持つドメインとみなされる。 単語埋め込み間のアライメントにより、意味的に等価な単語を多言語文脈でリンクすることができる。 さらに、直接翻訳することなく、単語の言語間意味を推測する方法も提供する。 単語埋め込みアライメントの現在の手法は教師あり、すなわち既知の単語ペアを必要とするか、あるいは教師なしの方法で固定埋め込みのクロスドメイン変換を学ぶ。 本稿では,単語ペアを必要としない単語埋め込みアライメントのためのエンドツーエンドアプローチを提案する。 MMD (WAM) によるワードアライメント (Word Alignment) と呼ばれる本手法では, 埋め込み間の最大平均離散性 (MMD) 制約を用いて, 文章翻訳訓練中に整列した埋め込みを学習する。 提案手法は,教師なしの手法だけでなく,既知の単語翻訳を訓練する教師付き手法にも優れることを示す。

Word translation is an integral part of language translation. In machine translation, each language is considered a domain with its own word embedding. The alignment between word embeddings allows linking semantically equivalent words in multilingual contexts. Moreover, it offers a way to infer cross-lingual meaning for words without a direct translation. Current methods for word embedding alignment are either supervised, i.e. they require known word pairs, or learn a cross-domain transformation on fixed embeddings in an unsupervised way. Here we propose an end-to-end approach for word embedding alignment that does not require known word pairs. Our method, termed Word Alignment through MMD (WAM), learns embeddings that are aligned during sentence translation training using a localized Maximum Mean Discrepancy (MMD) constraint between the embeddings. We show that our method not only out-performs unsupervised methods, but also supervised methods that train on known word translations.
翻訳日:2022-11-18 22:01:44 公開日:2020-06-20
# ディリクレ近傍アンサンブルによるNLPの敵攻撃に対する防御

Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood Ensemble ( http://arxiv.org/abs/2006.11627v1 )

ライセンス: Link先を確認
Yi Zhou, Xiaoqing Zheng, Cho-Jui Hsieh, Kai-wei Chang, Xuanjing Huang(参考訳) ニューラルネットワークは多くの自然言語処理(NLP)タスクで顕著なパフォーマンスを達成したが、敵の例には弱い。 本稿では,ロバストモデルを用いて攻撃を防御するためのランダム平滑化手法であるdirichlet neighborhood ensemble (dne)を提案する。 訓練中、DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を作成し、訓練データでそれらを増強する。 このような方法で、モデルは元のクリーンデータのパフォーマンスを維持しながら、敵攻撃に対して堅牢である。 DNEはネットワークアーキテクチャに非依存であり、NLPアプリケーションの大規模モデルにスケールする。 提案手法は, ネットワークアーキテクチャや複数データセットにおいて, 近年提案されている防衛手法を一貫して上回っていることを示す。

Despite neural networks have achieved prominent performance on many natural language processing (NLP) tasks, they are vulnerable to adversarial examples. In this paper, we propose Dirichlet Neighborhood Ensemble (DNE), a randomized smoothing method for training a robust model to defense substitution-based attacks. During training, DNE forms virtual sentences by sampling embedding vectors for each word in an input sentence from a convex hull spanned by the word and its synonyms, and it augments them with the training data. In such a way, the model is robust to adversarial attacks while maintaining the performance on the original clean data. DNE is agnostic to the network architectures and scales to large models for NLP applications. We demonstrate through extensive experimentation that our method consistently outperforms recently proposed defense methods by a significant margin across different network architectures and multiple data sets.
翻訳日:2022-11-18 22:01:28 公開日:2020-06-20
# ニューラル決定木を用いた分類のためのモデル家族選択

Model family selection for classification using Neural Decision Trees ( http://arxiv.org/abs/2006.11458v1 )

ライセンス: Link先を確認
Anthea M\'erida Montes de Oca, Argyris Kalogeratos, Mathilde Mougeot(参考訳) モデル選択は、最適化されるメトリックに従って複数の候補モデルを比較することで構成される。 このプロセスにはグリッド検索やクロスバリデーションなどが含まれており、データセット自体に関する十分な情報を提供していないだけでなく、時間を要する可能性がある。 本稿では,タスクに必要な探索範囲を削減する手法を提案する。 この考え方は、「厳格な」決定境界(例えば、決定木)を持つ参照モデル(RM)を与えられたファミリーの訓練されたインスタンスからどのくらい離れて、同等またはより良いモデルを得る必要があるかを定量化することである。 提案手法では,解析されたデータセットで測定した性能の面で有益である限り,初期決定木(RM)の決定境界を徐々に緩和することで実現している。 より具体的には、この緩和はdtsで構築されたニューラルネットワークであるneural decision treeを使用して行われる。 本手法による最終モデルは非線形決定境界を持つ。 最終的なモデルのパフォーマンスを測定することと、シードしたrmとの合意は、ユーザがどのモデルにフォーカスすべきかを理解するのに役立ちます。

Model selection consists in comparing several candidate models according to a metric to be optimized. The process often involves a grid search, or such, and cross-validation, which can be time consuming, as well as not providing much information about the dataset itself. In this paper we propose a method to reduce the scope of exploration needed for the task. The idea is to quantify how much it would be necessary to depart from trained instances of a given family, reference models (RMs) carrying `rigid' decision boundaries (e.g. decision trees), so as to obtain an equivalent or better model. In our approach, this is realized by progressively relaxing the decision boundaries of the initial decision trees (the RMs) as long as this is beneficial in terms of performance measured on an analyzed dataset. More specifically, this relaxation is performed by making use of a neural decision tree, which is a neural network built from DTs. The final model produced by our method carries non-linear decision boundaries. Measuring the performance of the final model, and its agreement to its seeding RM can help the user to figure out on which family of models he should focus on.
翻訳日:2022-11-18 22:00:52 公開日:2020-06-20
# 利他的多角化ニューラルネットワークのアンサンブルによる集団学習

Collective Learning by Ensembles of Altruistic Diversifying Neural Networks ( http://arxiv.org/abs/2006.11671v1 )

ライセンス: Link先を確認
Benjamin Brazowski and Elad Schneidman(参考訳) ニューラルネットワークの集合の予測を組み合わせることは、しばしば最良の単一ネットワークを上回る。 このようなアンサンブルは通常独立して訓練され、その優れた「群衆の知恵」はネットワーク間の差異から生じる。 社会的に相互作用する動物集団における集団的捕食と意思決定は、共種間の情報共有によってしばしば改善される。 そこで本研究では,自己のパフォーマンスを最大化するとともに,他のネットワークとの機能的関係をも高めるために,相互作用するニューラルネットワークのアンサンブルによる協調学習モデルを提案する。 相互作用するネットワークのアンサンブルは独立したネットワークよりも優れており、ネットワーク間の結合が多様性を高め、個々のネットワークの性能を低下させるときに最適なアンサンブル性能が得られることを示す。 したがって、アンサンブルのグローバルな目標がなくても、ネットワーク間の局所的な相互作用から最適な集合行動が生まれる。 これらのアンサンブルにおける最適結合強度とアンサンブルサイズとのスケーリングを示し,ネットワークが機能的に特化し,その評価においてより信頼度の高いものとなることを示す。 さらに、最適なコラーニングネットワークは、独立したトレーニングされたネットワークと比較して、スペーサーアクティビティ、幅広いシナプス重み、より高い発火率に依存するため、構造的に異なる。 最後に,アンサンブルの拡張と強化のためのフレームワークとして,インタラクションベースのコラーニングについて検討する。

Combining the predictions of collections of neural networks often outperforms the best single network. Such ensembles are typically trained independently, and their superior `wisdom of the crowd' originates from the differences between networks. Collective foraging and decision making in socially interacting animal groups is often improved or even optimal thanks to local information sharing between conspecifics. We therefore present a model for co-learning by ensembles of interacting neural networks that aim to maximize their own performance but also their functional relations to other networks. We show that ensembles of interacting networks outperform independent ones, and that optimal ensemble performance is reached when the coupling between networks increases diversity and degrades the performance of individual networks. Thus, even without a global goal for the ensemble, optimal collective behavior emerges from local interactions between networks. We show the scaling of optimal coupling strength with ensemble size, and that networks in these ensembles specialize functionally and become more `confident' in their assessments. Moreover, optimal co-learning networks differ structurally, relying on sparser activity, a wider range of synaptic weights, and higher firing rates - compared to independently trained networks. Finally, we explore interactions-based co-learning as a framework for expanding and boosting ensembles.
翻訳日:2022-11-18 21:53:32 公開日:2020-06-20
# 自然訓練におけるSGDハイパーパラメータは対向性にどのように影響するか?

How do SGD hyperparameters in natural training affect adversarial robustness? ( http://arxiv.org/abs/2006.11604v1 )

ライセンス: Link先を確認
Sandesh Kamath, Amit Deshpande, K V Subrahmanyam(参考訳) 学習速度、バッチサイズ、運動量はSGDアルゴリズムにおいて3つの重要なハイパーパラメータである。 Jastrzebski et al. arXiv:1711.04623の業績から、ニューラルネットワークの大規模なバッチサイズトレーニングは、よく一般化されていないモデルを生成することが知られている。 Yao et al. arXiv:1802.08241 は、大規模なバッチトレーニングが敵の堅牢性に乏しいモデルを生み出すことを観察する。 同じ論文で、著者らは異なるバッチサイズでモデルを訓練し、損失関数のヘシアンの固有値を計算する。 彼らはバッチサイズが大きくなるにつれて、ヘッセン族の支配的な固有値が大きくなることを観察する。 彼らはまた、逆行訓練と小バッチトレーニングの両方がヘッセンの優越的な固有値の低下またはスペクトルの低下につながることを示した。 敵対的トレーニングと2次情報を組み合わせて、新しい大規模バッチトレーニングアルゴリズムを考案し、優れた一般化を伴う堅牢なモデルを得る。 本稿では,SGDハイパーパラメータが未飽和試料を用いてトレーニングしたネットワークの精度と対角性に及ぼす影響を実証的に観察する。 Jastrzebskiらは、一定の学習率からバッチサイズ比率のトレーニングモデルを検討した。 彼らはより高い比が一般化であることを示した。 我々は,Jastrzebskiらによって提案されているように,一定の学習速度からバッチサイズ比まで訓練されたネットワークが,バッチサイズによらず,ほぼ一定の逆の堅牢性を持つ収率モデルであることを示す。 sgdトレーニングでは,一定の学習率とバッチサイズ比よりも,バッチサイズや固定学習率の異なる場合の方が運動量の方が効果的である。

Learning rate, batch size and momentum are three important hyperparameters in the SGD algorithm. It is known from the work of Jastrzebski et al. arXiv:1711.04623 that large batch size training of neural networks yields models which do not generalize well. Yao et al. arXiv:1802.08241 observe that large batch training yields models that have poor adversarial robustness. In the same paper, the authors train models with different batch sizes and compute the eigenvalues of the Hessian of loss function. They observe that as the batch size increases, the dominant eigenvalues of the Hessian become larger. They also show that both adversarial training and small-batch training leads to a drop in the dominant eigenvalues of the Hessian or lowering its spectrum. They combine adversarial training and second order information to come up with a new large-batch training algorithm and obtain robust models with good generalization. In this paper, we empirically observe the effect of the SGD hyperparameters on the accuracy and adversarial robustness of networks trained with unperturbed samples. Jastrzebski et al. considered training models with a fixed learning rate to batch size ratio. They observed that higher the ratio, better is the generalization. We observe that networks trained with constant learning rate to batch size ratio, as proposed in Jastrzebski et al., yield models which generalize well and also have almost constant adversarial robustness, independent of the batch size. We observe that momentum is more effective with varying batch sizes and a fixed learning rate than with constant learning rate to batch size ratio based SGD training.
翻訳日:2022-11-18 21:52:39 公開日:2020-06-20
# スパース情報型ニューラルネットワークのモデル不確かさの推定

Estimating Model Uncertainty of Neural Networks in Sparse Information Form ( http://arxiv.org/abs/2006.11631v1 )

ライセンス: Link先を確認
Jongseok Lee, Matthias Humt, Jianxiang Feng, Rudolph Triebel(参考訳) 本稿では,多変量正規分布(mnd)の逆定式化を情報形式として近似した深層ニューラルネットワーク(dnn)におけるモデル不確かさのスパース表現を提案する。 私たちの研究の鍵となる洞察は、情報行列、すなわち共分散行列の逆行列がそのスペクトルに偏りがちであることです。 そのため、低階近似(LRA)のような次元減少技術を有効に活用することができる。 そこで我々は,新しいスペーシフィケーションアルゴリズムを開発し,コスト効率のよい分析サンプルを導出する。 その結果,DNNにおけるモデル不確実性を表すために,情報形式を適応的に適用できることが示唆された。 各種ベンチマークにおける総括的理論解析と実証評価は,現在の手法に対するアプローチの競争力を示している。

We present a sparse representation of model uncertainty for Deep Neural Networks (DNNs) where the parameter posterior is approximated with an inverse formulation of the Multivariate Normal Distribution (MND), also known as the information form. The key insight of our work is that the information matrix, i.e. the inverse of the covariance matrix tends to be sparse in its spectrum. Therefore, dimensionality reduction techniques such as low rank approximations (LRA) can be effectively exploited. To achieve this, we develop a novel sparsification algorithm and derive a cost-effective analytical sampler. As a result, we show that the information form can be scalably applied to represent model uncertainty in DNNs. Our exhaustive theoretical analysis and empirical evaluations on various benchmarks show the competitiveness of our approach over the current methods.
翻訳日:2022-11-18 21:52:13 公開日:2020-06-20