このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200624となっている論文です。

PDF登録状況(公開日: 20200624)

TitleAuthorsAbstract論文公表日・翻訳日
# 非平衡非線形開量子系 I.弱アンハーモニック振動子の関数摂動解析

Nonequilibrium Nonlinear Open Quantum Systems I. Functional Perturbative Analysis of a Weakly Anharmonic Oscillator ( http://arxiv.org/abs/1912.12803v2 )

ライセンス: Link先を確認
Jen-Tsung Hsiang and B. L. Hu(参考訳) 量子場浴と結合した弱非線形系を扱うための関数摂動法を提案する。 本手法を用いて,熱浴と相互作用する量子非調和発振器の共分散行列要素と相関関数を求める。 この非線形開量子システムの非平衡ダイナミクスに基づいてゆらぎ散逸関係を同定する。 動的平衡との関係を確立するため、アンハーモニック振動子と浴場の間のエネルギーの流れについても検討する。 ネットフローの消失は、そのようなオープンシステム構成に対する平衡状態の存在を示すものである。 この結果は、熱伝達や電子輸送のような非線形量子系の非平衡物理過程を研究するのに有用である。

We introduce a functional perturbative method for treating weakly nonlinear systems coupled with a quantum field bath. We demonstrate using this method to obtain the covariance matrix elements and the correlation functions of a quantum anharmonic oscillator interacting with a heat bath. We identify a fluctuation-dissipation relation based on the nonequilibrium dynamics of this nonlinear open quantum system. To establish its connection with dynamical equilibration, we further examine the energy flows between the anharmonic oscillator and the bath field. The vanishing of the net flow {is an indication of} the existence of an equilibrium state for such an open-system configuration. The results presented here are useful for studying the nonequilibrium physical processes of nonlinear quantum systems such as heat transfer or electron transport.
翻訳日:2023-01-17 03:11:34 公開日:2020-06-24
# 多相性が絡み合いを満たす:非エルゴード拡大状態の関係

Multifractality meets entanglement: relation for non-ergodic extended states ( http://arxiv.org/abs/2001.03173v2 )

ライセンス: Link先を確認
Giuseppe De Tomasi and Ivan M. Khaymovich(参考訳) 本研究では, don n. page [phys. rev. lett. 71, 1291] の結果を {\displaystyle {\it sparse} 乱純状態 (s-rps) の場合に一般化することにより, 絡み合いエントロピーと一般多体波動関数のフラクタル次元 $d$ の関係性を確立する。 大きさ$N$のヒルベルト空間に住むこれらのS-RPSは、N^D$$$0 \le D \le 1$)ランダム非零元を持つ正規化されたベクトルとして定義される。 ページが使用する$d=1$のこれらの状態は、無限温度でエルゴード状態を表す。 しかし、0<D<1$ の場合、S-RPS は非エルゴードかつフラクタルであり、フルヒルベルト空間の消滅比$N^D/N$ に制限される。 解析的にも数値的にも、Hilbert 空間次元 $N_A$ のサブシステム $A$ の平均エンタングルメントエントロピー ${\mathcal{S}_1}(A)$ が $\overline{\mathcal{S}_1}(A)\sim D\ln N$ の小さなフラクタル次元に対して $D$, $N^D<N_A$ となることを示す。 注目すべきは、$\overline{\mathcal{S}_1}(A)$ saturates at its thermal (Page) value at infinite temperature, $\overline{\mathcal{S}_1}(A)\sim \ln N_A$ at larger $D$である。 その結果,波動関数が非エルゴードであるにもかかわらず,エントロピーがエルゴード値を取る場合の例を示す。 最後に、我々の結果は、$q>1$のRenyi entropies $\mathcal{S}_q(A)$と真のマルチフラクタル状態に一般化し、それらの揺らぎがエルゴード状態のより狭い場所でエルゴード的挙動を持つことを示す。

In this work we establish a relation between entanglement entropy and fractal dimension $D$ of generic many-body wave functions, by generalizing the result of Don N. Page [Phys. Rev. Lett. 71, 1291] to the case of {\it sparse} random pure states (S-RPS). These S-RPS living in a Hilbert space of size $N$ are defined as normalized vectors with only $N^D$ ($0 \le D \le 1$) random non-zero elements. For $D=1$ these states used by Page represent ergodic states at infinite temperature. However, for $0<D<1$ the S-RPS are non-ergodic and fractal as they are confined in a vanishing ratio $N^D/N$ of the full Hilbert space. Both analytically and numerically, we show that the mean entanglement entropy ${\mathcal{S}_1}(A)$ of a subsystem $A$, with Hilbert space dimension $N_A$, scales as $\overline{\mathcal{S}_1}(A)\sim D\ln N$ for small fractal dimensions $D$, $N^D< N_A$. Remarkably, $\overline{\mathcal{S}_1}(A)$ saturates at its thermal (Page) value at infinite temperature, $\overline{\mathcal{S}_1}(A)\sim \ln N_A$ at larger $D$. Consequently, we provide an example when the entanglement entropy takes an ergodic value even though the wave function is highly non-ergodic. Finally, we generalize our results to Renyi entropies $\mathcal{S}_q(A)$ with $q>1$ and to genuine multifractal states and also show that their fluctuations have ergodic behavior in narrower vicinity of the ergodic state, $D=1$.
翻訳日:2023-01-13 05:49:04 公開日:2020-06-24
# 非確率制御のための不適切な学習

Improper Learning for Non-Stochastic Control ( http://arxiv.org/abs/2001.09254v3 )

ライセンス: Link先を確認
Max Simchowitz, Karan Singh, Elad Hazan(参考訳) 逆向摂動,逆選択凸損失関数,および非確率制御として知られる部分的に観測された状態を持つ未知の線形力学系を制御する問題を考える。 偏光観測に基づく制御器のパラメトリゼーションを導入し、このパラメトリゼーションにオンライン勾配勾配を適用すれば、多数の閉ループポリシーに対してサブ線形後悔を実現する新しい制御器が得られることを示す。 完全逆数設定では、制御器は、システムを知るときの最適後悔限界$\sqrt{T}$-を達成し、最小二乗推定の初期段階である$T^{2/3}$と組み合わせると、システムが未知となるとき、どちらも部分的に観察された設定に対して最初のサブ線形後悔をもたらす。 私たちのバウンダリは、状態フィードバックだけでなく線形動的コントローラの安定化と競合する非確率的制御設定における最初のものです。 さらに, 確率的成分と逆成分の両方を含む半逆雑音が存在する場合, 制御器は, 系が既知の場合, 最適後悔限度が$\mathrm{poly}(\log t)$, 未知時には$\sqrt{t}$となる。 私たちの知る限りでは、これはオンライン線形二次ガウス制御に最初のエンドツーエンドの$\sqrt{t}$ regretを与え、逆損失と半逆ノイズを伴うより一般的な設定に適用される。

We consider the problem of controlling a possibly unknown linear dynamical system with adversarial perturbations, adversarially chosen convex loss functions, and partially observed states, known as non-stochastic control. We introduce a controller parametrization based on the denoised observations, and prove that applying online gradient descent to this parametrization yields a new controller which attains sublinear regret vs. a large class of closed-loop policies. In the fully-adversarial setting, our controller attains an optimal regret bound of $\sqrt{T}$-when the system is known, and, when combined with an initial stage of least-squares estimation, $T^{2/3}$ when the system is unknown; both yield the first sublinear regret for the partially observed setting. Our bounds are the first in the non-stochastic control setting that compete with \emph{all} stabilizing linear dynamical controllers, not just state feedback. Moreover, in the presence of semi-adversarial noise containing both stochastic and adversarial components, our controller attains the optimal regret bounds of $\mathrm{poly}(\log T)$ when the system is known, and $\sqrt{T}$ when unknown. To our knowledge, this gives the first end-to-end $\sqrt{T}$ regret for online Linear Quadratic Gaussian controller, and applies in a more general setting with adversarial losses and semi-adversarial noise.
翻訳日:2023-01-07 00:08:50 公開日:2020-06-24
# AdvectiveNet:ポイントクラウド処理のためのユーレリア・ラグランジアン流体貯留層

AdvectiveNet: An Eulerian-Lagrangian Fluidic reservoir for Point Cloud Processing ( http://arxiv.org/abs/2002.00118v3 )

ライセンス: Link先を確認
Xingzhe He, Helen Lu Cao, Bo Zhu(参考訳) 本稿では,流体力学における自然流現象に動機づけられた点雲処理のための物理に着想を得た新しい深層学習手法を提案する。 我々の学習アーキテクチャは、静的背景格子とラグランジアン物質空間を用いて、移動粒子を用いてユーレリア世界のデータを共同で定義する。 このユーレリア・ラグランジュ表現を導入することで、一般化された高次元力場から発生する流れ速度を用いて自然に粒子の特徴を進化させ蓄積することができる。 本システムの有効性を,最先端の性能で様々なポイントクラウド分類とセグメンテーション問題を解決し,実証する。 幾何的貯水池とデータフロー全体は、幾何学的機械学習と物理シミュレーションの規律をブリッジして、自然の流れをモデル化する古典的なPIC/FLIPスキームのパイプラインを模倣している。

This paper presents a novel physics-inspired deep learning approach for point cloud processing motivated by the natural flow phenomena in fluid mechanics. Our learning architecture jointly defines data in an Eulerian world space, using a static background grid, and a Lagrangian material space, using moving particles. By introducing this Eulerian-Lagrangian representation, we are able to naturally evolve and accumulate particle features using flow velocities generated from a generalized, high-dimensional force field. We demonstrate the efficacy of this system by solving various point cloud classification and segmentation problems with state-of-the-art performance. The entire geometric reservoir and data flow mimics the pipeline of the classic PIC/FLIP scheme in modeling natural flow, bridging the disciplines of geometric machine learning and physical simulation.
翻訳日:2023-01-05 00:54:39 公開日:2020-06-24
# メッセージパッシングクエリの埋め込み

Message Passing Query Embedding ( http://arxiv.org/abs/2002.02406v2 )

ライセンス: Link先を確認
Daniel Daza and Michael Cochez(参考訳) 知識グラフの表現学習に関する最近の研究は、リンク予測の問題を超えて、任意の構造のクエリに答えている。 既存の方法は、様々なクエリ構造でトレーニングを必要とするアドホックなメカニズムに基づいている。 本稿では,グラフニューラルネットワークを用いてクエリのグラフ表現を符号化する,ノードがエンティティと変数に対応する,より一般的なアーキテクチャを提案する。 提案手法の汎用性により,従来よりも多種多様なクエリー型を符号化することができる。 これらのモデルとは対照的に,リンク予測のみのためにトレーニングされた場合,複雑なクエリに応答することができる。 モデルは、明示的な監督なしにエンティティタイプの概念を捉えたエンティティ埋め込みを学習することを示します。

Recent works on representation learning for Knowledge Graphs have moved beyond the problem of link prediction, to answering queries of an arbitrary structure. Existing methods are based on ad-hoc mechanisms that require training with a diverse set of query structures. We propose a more general architecture that employs a graph neural network to encode a graph representation of the query, where nodes correspond to entities and variables. The generality of our method allows it to encode a more diverse set of query types in comparison to previous work. Our method shows competitive performance against previous models for complex queries, and in contrast with these models, it can answer complex queries when trained for link prediction only. We show that the model learns entity embeddings that capture the notion of entity type without explicit supervision.
翻訳日:2023-01-03 09:34:30 公開日:2020-06-24
# 普遍同変多層パーセプトロン

Universal Equivariant Multilayer Perceptrons ( http://arxiv.org/abs/2002.02912v2 )

ライセンス: Link先を確認
Siamak Ravanbakhsh(参考訳) 群不変量および同変多層パーセプトロン(mlp)は同変ネットワークとしても知られ、シーケンス、画像、集合、グラフといった様々なデータ構造の学習において顕著な成功を収めている。 群論のツールを用いて、本論文は単一の隠れ層を持つ多種多様な同変mlpの普遍性を証明する。 特に、群が定期的に作用する隠れた層を持つことは普遍同値(不変性)に十分であることを示す。 圏は、単一の隠れ層を持つCNNのようなアベリア群に対する同変 MLP の非条件普遍性である。 第2の系は、高階隠れ層を持つ同変 MLP の普遍性であり、群非依存境界と、普遍同分散(不変性)を保証する隠蔽層の順序に対する群固有の境界を計算する手段を与える。

Group invariant and equivariant Multilayer Perceptrons (MLP), also known as Equivariant Networks, have achieved remarkable success in learning on a variety of data structures, such as sequences, images, sets, and graphs. Using tools from group theory, this paper proves the universality of a broad class of equivariant MLPs with a single hidden layer. In particular, it is shown that having a hidden layer on which the group acts regularly is sufficient for universal equivariance (invariance). A corollary is unconditional universality of equivariant MLPs for Abelian groups, such as CNNs with a single hidden layer. A second corollary is the universality of equivariant MLPs with a high-order hidden layer, where we give both group-agnostic bounds and means for calculating group-specific bounds on the order of hidden layer that guarantees universal equivariance (invariance).
翻訳日:2023-01-03 03:25:13 公開日:2020-06-24
# GAN潜時空間における解釈方向の教師なし発見

Unsupervised Discovery of Interpretable Directions in the GAN Latent Space ( http://arxiv.org/abs/2002.03754v3 )

ライセンス: Link先を確認
Andrey Voynov, Artem Babenko(参考訳) GANモデルの潜在空間はしばしば意味論的意味のある方向を持つ。 これらの方向の移動は、ズームや再色などの人間の解釈可能な画像変換に対応し、より制御可能な生成プロセスを可能にする。 しかし、そのような方向の発見は現在、人間のラベル、事前訓練されたモデル、あるいはある種の自己監督を必要とする監督的な方法で行われている。 これらの要求は、既存のアプローチが発見できる様々な方向を厳しく制限する。 本稿では,事前学習したGANモデルの潜在空間における解釈可能な方向を特定するための教師なし手法を提案する。 単純なモデルに依存しない手順により、(自己)スーパービジョンのいかなる形も持たない意味操作に対応する方向を見つける。 さらに,既存の方法,例えば背景除去に対応する方向などでは入手が困難である,非自明な発見がいくつか見いだされる。 我々の研究の直接的な実用的利点として,この発見を生かして,弱い教師付き塩分検出のための競争的性能を達成する方法を示す。

The latent spaces of GAN models often have semantically meaningful directions. Moving in these directions corresponds to human-interpretable image transformations, such as zooming or recoloring, enabling a more controllable generation process. However, the discovery of such directions is currently performed in a supervised manner, requiring human labels, pretrained models, or some form of self-supervision. These requirements severely restrict a range of directions existing approaches can discover. In this paper, we introduce an unsupervised method to identify interpretable directions in the latent space of a pretrained GAN model. By a simple model-agnostic procedure, we find directions corresponding to sensible semantic manipulations without any form of (self-)supervision. Furthermore, we reveal several non-trivial findings, which would be difficult to obtain by existing methods, e.g., a direction corresponding to background removal. As an immediate practical benefit of our work, we show how to exploit this finding to achieve competitive performance for weakly-supervised saliency detection.
翻訳日:2023-01-02 07:21:04 公開日:2020-06-24
# 勾配に基づく攻撃に対するベイズニューラルネットワークのロバスト性

Robustness of Bayesian Neural Networks to Gradient-Based Attacks ( http://arxiv.org/abs/2002.04359v3 )

ライセンス: Link先を確認
Ginevra Carbone, Matthew Wicker, Luca Laurenti, Andrea Patane, Luca Bortolussi, Guido Sanguinetti(参考訳) 敵攻撃に対する脆弱性は、安全クリティカルなアプリケーションでディープラーニングを採用する上で、大きなハードルのひとつです。 実用的かつ理論的な大きな努力にもかかわらず、この問題は未解決のままである。 本稿では,ベイズ型ニューラルネットワーク(bnns)の大規模・過パラメータ限界における逆攻撃の幾何解析を行う。 この限界において、データ分布の縮退(つまり、データが周囲空間の低次元部分多様体上にある場合)の結果、勾配に基づく攻撃に対する脆弱性が生じることを示す。 直接的な結果として,BNN後部は勾配に基づく攻撃に対して頑健であることを示す。 ハミルトンモンテカルロと変分推論で訓練されたBNNを用いたMNISTおよびFashion MNISTデータセットの実験結果は、BNNが勾配に基づく敵攻撃に対して高い精度と堅牢性を示すことを示す。

Vulnerability to adversarial attacks is one of the principal hurdles to the adoption of deep learning in safety-critical applications. Despite significant efforts, both practical and theoretical, the problem remains open. In this paper, we analyse the geometry of adversarial attacks in the large-data, overparametrized limit for Bayesian Neural Networks (BNNs). We show that, in the limit, vulnerability to gradient-based attacks arises as a result of degeneracy in the data distribution, i.e., when the data lies on a lower-dimensional submanifold of the ambient space. As a direct consequence, we demonstrate that in the limit BNN posteriors are robust to gradient-based adversarial attacks. Experimental results on the MNIST and Fashion MNIST datasets with BNNs trained with Hamiltonian Monte Carlo and Variational Inference support this line of argument, showing that BNNs can display both high accuracy and robustness to gradient based adversarial attacks.
翻訳日:2023-01-02 01:38:38 公開日:2020-06-24
# ファウショット学習のためのメタラーニング信頼

Meta-Learned Confidence for Few-shot Learning ( http://arxiv.org/abs/2002.12017v2 )

ライセンス: Link先を確認
Seong Min Kye, Hae Beom Lee, Hoirin Kim, and Sung Ju Hwang(参考訳) トランスダクティブ推論は、数ショットの学習環境でデータ不足問題に取り組む効果的な方法である。 数ショットのメトリックベースのアプローチで一般的なトランスダクティブ推論手法は、最も信頼性の高いクエリ例、あるいはすべてのクエリサンプルの平均で各クラスのプロトタイプを更新することである。 しかし、ここではモデルの信頼性が信頼できない可能性があり、誤った予測につながる可能性がある。 この問題に対処するために,各問合せサンプルに対する信頼度をメタ学習し,ラベルなしの問合せに対して最適な重みを割り当てることを提案する。 我々は,様々なモデルとデータ摂動の下でのタスク分布上の入力適応距離のメタラーニングにより,未知のタスクに対する多様な不確実性の下でモデル予測の一貫性を強制する。 さらに,高次元埋め込みベクトルの異なる次元にわたる予測の一貫性を明示的に強制する正規化も提案する。 4つのベンチマークデータセットにメタ学習の信頼性を持たせながら、我々の少数ショット学習モデルを検証した。 半教師付き数ショット学習タスクへのさらなる適用は、ベースラインよりも大幅なパフォーマンス向上をもたらす。 アルゴリズムのソースコードはhttps://github.com/seongmin-kye/MCT.comで公開されている。

Transductive inference is an effective means of tackling the data deficiency problem in few-shot learning settings. A popular transductive inference technique for few-shot metric-based approaches, is to update the prototype of each class with the mean of the most confident query examples, or confidence-weighted average of all the query samples. However, a caveat here is that the model confidence may be unreliable, which may lead to incorrect predictions. To tackle this issue, we propose to meta-learn the confidence for each query sample, to assign optimal weights to unlabeled queries such that they improve the model's transductive inference performance on unseen tasks. We achieve this by meta-learning an input-adaptive distance metric over a task distribution under various model and data perturbations, which will enforce consistency on the model predictions under diverse uncertainties for unseen tasks. Moreover, we additionally suggest a regularization which explicitly enforces the consistency on the predictions across the different dimensions of a high-dimensional embedding vector. We validate our few-shot learning model with meta-learned confidence on four benchmark datasets, on which it largely outperforms strong recent baselines and obtains new state-of-the-art results. Further application on semi-supervised few-shot learning tasks also yields significant performance improvements over the baselines. The source code of our algorithm is available at https://github.com/seongmin-kye/MCT.
翻訳日:2022-12-28 07:21:34 公開日:2020-06-24
# 混合物を用いた自動微分変分推論

Automatic Differentiation Variational Inference with Mixtures ( http://arxiv.org/abs/2003.01687v4 )

ライセンス: Link先を確認
Warren R. Morningstar, Sharad M. Vikram, Cusuh Ham, Andrew Gallagher, Joshua V. Dillon(参考訳) 自動微分変分推論(ADVI)は機械学習において確率モデルを効率的に学習するための有用なツールである。 一般にadviによって学習された近似後方は、再パラメータ化トリックの使用を容易にするためにユニモーダルに強制される。 本稿では, 重み付きオートエンコーダ (IWAE) に類似したエビデンスに基づいて, 混合分布を近似後部として利用し, 新たな下界を導出する方法について述べる。 この「SIWAE」は、IWAEと従来のELBOよりも厳密な境界であり、どちらもこの境界の特別な例である。 従来のelbo目標がマルチモーダル後方分布の存在に不利であり、従って潜在空間の構造を完全に捉えることができないことを実証的に検証する。 実験の結果、SIWAEの目的により、エンコーダは多モード性を含むより複雑な分布を学習でき、不完全、制限、あるいは破損したデータの存在下での精度とキャリブレーションが向上することがわかった。

Automatic Differentiation Variational Inference (ADVI) is a useful tool for efficiently learning probabilistic models in machine learning. Generally approximate posteriors learned by ADVI are forced to be unimodal in order to facilitate use of the reparameterization trick. In this paper, we show how stratified sampling may be used to enable mixture distributions as the approximate posterior, and derive a new lower bound on the evidence analogous to the importance weighted autoencoder (IWAE). We show that this "SIWAE" is a tighter bound than both IWAE and the traditional ELBO, both of which are special instances of this bound. We verify empirically that the traditional ELBO objective disfavors the presence of multimodal posterior distributions and may therefore not be able to fully capture structure in the latent space. Our experiments show that using the SIWAE objective allows the encoder to learn more complex distributions which regularly contain multimodality, resulting in higher accuracy and better calibration in the presence of incomplete, limited, or corrupted data.
翻訳日:2022-12-26 22:08:32 公開日:2020-06-24
# 線形二次ガウス(lqg)設定における適応制御と後悔最小化

Adaptive Control and Regret Minimization in Linear Quadratic Gaussian (LQG) Setting ( http://arxiv.org/abs/2003.05999v2 )

ライセンス: Link先を確認
Sahin Lale, Kamyar Azizzadenesheli, Babak Hassibi, Anima Anandkumar(参考訳) モデルダイナミクスが未知である部分可観測線形二次ガウス制御系における適応制御の問題について検討する。 我々は,不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案し,全体の制御コストを効果的に最小化する。 我々は,システムダイナミクスの予測子状態進化表現を用い,最近提案する閉ループシステム同定法,推定法,信頼境界構築法を展開する。 LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、さらなる探索と利用のために最も楽観的なモデルのコントローラをデプロイする。 我々は、lqgopt に対する安定性保証を提供し、線形二次ガウス系(lqg)の適応制御に対する $\tilde{\mathcal{o}}(\sqrt{t})$ の後悔の上限を証明し、ここで $t$ は問題の時間軸である。

We study the problem of adaptive control in partially observable linear quadratic Gaussian control systems, where the model dynamics are unknown a priori. We propose LqgOpt, a novel reinforcement learning algorithm based on the principle of optimism in the face of uncertainty, to effectively minimize the overall control cost. We employ the predictor state evolution representation of the system dynamics and deploy a recently proposed closed-loop system identification method, estimation, and confidence bound construction. LqgOpt efficiently explores the system dynamics, estimates the model parameters up to their confidence interval, and deploys the controller of the most optimistic model for further exploration and exploitation. We provide stability guarantees for LqgOpt and prove the regret upper bound of $\tilde{\mathcal{O}}(\sqrt{T})$ for adaptive control of linear quadratic Gaussian (LQG) systems, where $T$ is the time horizon of the problem.
翻訳日:2022-12-24 14:23:46 公開日:2020-06-24
# LIBRE: 複数の3DLiDARデータセット

LIBRE: The Multiple 3D LiDAR Dataset ( http://arxiv.org/abs/2003.06129v2 )

ライセンス: Link先を確認
Alexander Carballo, Jacob Lambert, Abraham Monrroy-Cano, David Robert Wong, Patiphon Narksri, Yuki Kitsukawa, Eijiro Takeuchi, Shinpei Kato, and Kazuya Takeda(参考訳) LIBRE: LiDARベンチマークと参照(LiDAR Benchmarking and Reference)は、10種類のLiDARセンサーを備えたファースト・オブ・ザ・キンドのデータセットで、さまざまなメーカー、モデル、レーザー構成をカバーする。 Data captured independently from each sensor includes three different environments and configurations: static targets, where objects were placed at known distances and measured from a fixed position within a controlled environment; adverse weather, where static obstacles were measured from a moving vehicle, captured in a weather chamber where LiDARs were exposed to different conditions (fog, rain, strong light); and finally, dynamic traffic, where dynamic objects were captured from a vehicle driven on public urban roads, multiple times at different times of the day, and including supporting sensors such as cameras, infrared imaging, and odometry devices. LIBREは、(1)現在利用可能なLiDARを公正に比較するための手段を提供し、(2)LiDARに基づく認識アルゴリズムの開発とチューニングの観点から、既存の自動運転車とロボット関連ソフトウェアの改善を促進する。

In this work, we present LIBRE: LiDAR Benchmarking and Reference, a first-of-its-kind dataset featuring 10 different LiDAR sensors, covering a range of manufacturers, models, and laser configurations. Data captured independently from each sensor includes three different environments and configurations: static targets, where objects were placed at known distances and measured from a fixed position within a controlled environment; adverse weather, where static obstacles were measured from a moving vehicle, captured in a weather chamber where LiDARs were exposed to different conditions (fog, rain, strong light); and finally, dynamic traffic, where dynamic objects were captured from a vehicle driven on public urban roads, multiple times at different times of the day, and including supporting sensors such as cameras, infrared imaging, and odometry devices. LIBRE will contribute to the research community to (1) provide a means for a fair comparison of currently available LiDARs, and (2) facilitate the improvement of existing self-driving vehicles and robotics-related software, in terms of development and tuning of LiDAR-based perception algorithms.
翻訳日:2022-12-24 02:07:13 公開日:2020-06-24
# リアプノフニューラルネットワークの形式的合成

Formal Synthesis of Lyapunov Neural Networks ( http://arxiv.org/abs/2003.08910v2 )

ライセンス: Link先を確認
Alessandro Abate, Daniele Ahmed, Mirco Giacobbe, and Andrea Peruffo(参考訳) 本稿では,自律非線形システムの漸近安定性に対するリアプノフ関数の自動合成法を提案する。 伝統的な手法は分析的であり、手作業を必要とするか、数値的だが形式的な健全性が欠けている。 Lyapunov関数のシンボリック計算法は、その間に形式的な保証を与えるが、一般的には、適切な関数テンプレートを提供するためにユーザに依存するため、半オートマチックである。 本稿では,Lyapunov関数を完全自動で$$using machine learning$-$whileと,形式的な保証として$-$using satisfiability modulo theory (SMT)を提案する。 我々は,数値学習者と記号検証器が相互作用して,確実に正しいリアプノフニューラルネットワーク(LNN)を構築する,反例誘導方式を採用する。 学習者は、サンプルセットに対する漸近安定性に対するリアプノフ基準を満たすニューラルネットワークを訓練し、検証者はSMTにより、基準がドメイン全体にわたって満たされていること、あるいはサンプルセットを反例で拡張していることを証明する。 提案手法は,多項式の活性化機能と深度と幅が広いニューラルネットワークをサポートし,広い学習能力を示す。 提案手法をいくつかの非自明なベンチマークで実証し、数値最適化に基づくアプローチ、シンボリックテンプレートベースのアプローチ、コグネートLNNベースのアプローチと比較した。 提案手法は,Lyapunov関数を他の手法よりも高速かつ広い空間領域で合成する。

We propose an automatic and formally sound method for synthesising Lyapunov functions for the asymptotic stability of autonomous non-linear systems. Traditional methods are either analytical and require manual effort or are numerical but lack of formal soundness. Symbolic computational methods for Lyapunov functions, which are in between, give formal guarantees but are typically semi-automatic because they rely on the user to provide appropriate function templates. We propose a method that finds Lyapunov functions fully automatically$-$using machine learning$-$while also providing formal guarantees$-$using satisfiability modulo theories (SMT). We employ a counterexample-guided approach where a numerical learner and a symbolic verifier interact to construct provably correct Lyapunov neural networks (LNNs). The learner trains a neural network that satisfies the Lyapunov criteria for asymptotic stability over a samples set; the verifier proves via SMT solving that the criteria are satisfied over the whole domain or augments the samples set with counterexamples. Our method supports neural networks with polynomial activation functions and multiple depth and width, which display wide learning capabilities. We demonstrate our method over several non-trivial benchmarks and compare it favourably against a numerical optimisation-based approach, a symbolic template-based approach, and a cognate LNN-based approach. Our method synthesises Lyapunov functions faster and over wider spatial domains than the alternatives, yet providing stronger or equal guarantees.
翻訳日:2022-12-22 05:05:55 公開日:2020-06-24
# 群集シーンにおける検出:一提案,複数予測

Detection in Crowded Scenes: One Proposal, Multiple Predictions ( http://arxiv.org/abs/2003.09163v2 )

ライセンス: Link先を確認
Xuangeng Chu, Anlin Zheng, Xiangyu Zhang, Jian Sun(参考訳) 混み合ったシーンにおける高過度なインスタンスの検出を目的とした,シンプルで効果的な提案型オブジェクト検出手法を提案する。 このアプローチの鍵は、各提案が以前の提案ベースのフレームワークで1つではなく、関連するインスタンスのセットを予測できるようにすることです。 EMD LossやSet NMSといった新しい技術を用いて,重なり合う物体を検出することの難しさを効果的に処理することができる。 FPN-Res50ベースラインでは、私たちの検出器はCrowdHumanデータセットの挑戦に対して4.9\% APゲインを得ることができ、1.0\% $\text{MR}^{-2}$ CityPersonsデータセットの改善はベルやホイッスルなしで得られる。 さらに,COCOのような低キャッシュのデータセットでは,提案手法が混雑に対して頑健であることが示唆された。 コードと事前学習されたモデルはhttps://github.com/megvii-model/crowddetectionでリリースされる。

We propose a simple yet effective proposal-based object detector, aiming at detecting highly-overlapped instances in crowded scenes. The key of our approach is to let each proposal predict a set of correlated instances rather than a single one in previous proposal-based frameworks. Equipped with new techniques such as EMD Loss and Set NMS, our detector can effectively handle the difficulty of detecting highly overlapped objects. On a FPN-Res50 baseline, our detector can obtain 4.9\% AP gains on challenging CrowdHuman dataset and 1.0\% $\text{MR}^{-2}$ improvements on CityPersons dataset, without bells and whistles. Moreover, on less crowed datasets like COCO, our approach can still achieve moderate improvement, suggesting the proposed method is robust to crowdedness. Code and pre-trained models will be released at https://github.com/megvii-model/CrowdDetection.
翻訳日:2022-12-21 22:44:08 公開日:2020-06-24
# 部分観測可能な線形力学系における対数回帰境界

Logarithmic Regret Bound in Partially Observable Linear Dynamical Systems ( http://arxiv.org/abs/2003.11227v2 )

ライセンス: Link先を確認
Sahin Lale, Kamyar Azizzadenesheli, Babak Hassibi, Anima Anandkumar(参考訳) 部分観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。 適応型およびクローズドループシステム同定は,データ収集に導入された相関性によって難しい問題である。 本稿では,開ループシステムと閉ループシステムの両方において,有限時間保証付きの最初のモデル推定手法を提案する。 本手法を応用した適応型オンライン学習(AdaptOn)は,システムダイナミクスを適応的に学習し,オンライン学習ステップを通じてコントローラを継続的に更新する,効率的な強化学習アルゴリズムである。 AdaptOnは、環境との相互作用を通じて時折線形回帰問題を解くことによってモデル力学を推定する。 ポリシの再パラメータ化と推定モデルを用いて、AdaptOnは、オンライン勾配降下によってコントローラを更新するために使用される対実損失関数を構築する。 時間が経つにつれて、adaptonはモデル推定を改善し、コントローラを改善するためにより正確な勾配更新を得る。 我々はAdaptOnがエージェント環境相互作用の時間ステップの後に、$\text{polylog}\left(T\right)$の後悔の上限を達成することを示す。 我々の知る限り、AdaptOnは、線形二次ガウス(LQG)制御を含む未知の部分観測可能線形力学系の適応制御において、$\text{polylog}\left(T\right)$ regretを達成する最初のアルゴリズムである。

We study the problem of system identification and adaptive control in partially observable linear dynamical systems. Adaptive and closed-loop system identification is a challenging problem due to correlations introduced in data collection. In this paper, we present the first model estimation method with finite-time guarantees in both open and closed-loop system identification. Deploying this estimation method, we propose adaptive control online learning (AdaptOn), an efficient reinforcement learning algorithm that adaptively learns the system dynamics and continuously updates its controller through online learning steps. AdaptOn estimates the model dynamics by occasionally solving a linear regression problem through interactions with the environment. Using policy re-parameterization and the estimated model, AdaptOn constructs counterfactual loss functions to be used for updating the controller through online gradient descent. Over time, AdaptOn improves its model estimates and obtains more accurate gradient updates to improve the controller. We show that AdaptOn achieves a regret upper bound of $\text{polylog}\left(T\right)$, after $T$ time steps of agent-environment interaction. To the best of our knowledge, AdaptOn is the first algorithm that achieves $\text{polylog}\left(T\right)$ regret in adaptive control of unknown partially observable linear dynamical systems which includes linear quadratic Gaussian (LQG) control.
翻訳日:2022-12-20 03:05:26 公開日:2020-06-24
# Deep Q-Learning を用いた臨床医からの医学トリアージの学習

Learning medical triage from clinicians using Deep Q-Learning ( http://arxiv.org/abs/2003.12828v2 )

ライセンス: Link先を確認
Albert Buchard, Baptiste Bouvier, Giulia Prando, Rory Beard, Michail Livieratos, Dan Busbridge, Daniel Thompson, Jonathan Richens, Yuanzhao Zhang, Adam Baker, Yura Perov, Kostis Gourgoulias, Saurabh Johri(参考訳) 医療トリアージは医療システムにとって重要であり、患者の適切な向きと適切な治療に必要なリソースの割り当てを可能にする。 プレゼンテーションに基づいてトリアージ患者に信頼できる決定木法が存在するが、これらの木は暗黙的に人間の推論を必要とし、完全に自動化された環境ではすぐに適用できない。 一方、専門家から直接トリアージポリシーを学ぶことは、ハードコードされた決定ツリーのいくつかの制限を正す可能性がある。 本研究では, 臨床用vignettes を用いたトリアージ患者に対して, 深層強化学習(deepq-learning の変種)を提案する。 このデータセットは1374個の臨床ヴィグネットで構成され、実際の症例を表すために医師によって作成された。 それぞれのヴィグネットは、医学史にのみ依存する医師によって与えられる平均3.8の専門的トリアージ決定に関連付けられている。 このアプローチは人間のパフォーマンスと同等であり、94%のケースで安全なトリアージ決定が得られ、85%のケースで専門家の判断と一致している。 訓練されたエージェントは、いつ質問をやめるかを学習し、監督されたアプローチよりも証拠の少ない最適化された決定ポリシーを取得し、より多くの情報を求めることで状況の新規性に適応する。 全体として,深い強化学習アプローチは,専門家の知識工学を必要とせずに,専門家の判断から直接効果的な医療トリアージ政策を学習できることを実証する。 このアプローチはスケーラブルで、異なるトリアージ仕様のヘルスケア設定や地理的リージョンにデプロイしたり、トレーニングされた専門家が不足している場所でも、ケアの初期段階で意思決定を改善することができる。

Medical Triage is of paramount importance to healthcare systems, allowing for the correct orientation of patients and allocation of the necessary resources to treat them adequately. While reliable decision-tree methods exist to triage patients based on their presentation, those trees implicitly require human inference and are not immediately applicable in a fully automated setting. On the other hand, learning triage policies directly from experts may correct for some of the limitations of hard-coded decision-trees. In this work, we present a Deep Reinforcement Learning approach (a variant of DeepQ-Learning) to triage patients using curated clinical vignettes. The dataset, consisting of 1374 clinical vignettes, was created by medical doctors to represent real-life cases. Each vignette is associated with an average of 3.8 expert triage decisions given by medical doctors relying solely on medical history. We show that this approach is on a par with human performance, yielding safe triage decisions in 94% of cases, and matching expert decisions in 85% of cases. The trained agent learns when to stop asking questions, acquires optimized decision policies requiring less evidence than supervised approaches, and adapts to the novelty of a situation by asking for more information. Overall, we demonstrate that a Deep Reinforcement Learning approach can learn effective medical triage policies directly from expert decisions, without requiring expert knowledge engineering. This approach is scalable and can be deployed in healthcare settings or geographical regions with distinct triage specifications, or where trained experts are scarce, to improve decision making in the early stage of care.
翻訳日:2022-12-18 23:47:50 公開日:2020-06-24
# cogmol:深層発生モデルを用いたcovid-19の標的特異的選択的薬物設計

CogMol: Target-Specific and Selective Drug Design for COVID-19 Using Deep Generative Models ( http://arxiv.org/abs/2004.01215v2 )

ライセンス: Link先を確認
Vijil Chenthamarakshan, Payel Das, Samuel C. Hoffman, Hendrik Strobelt, Inkit Padhi, Kar Wai Lim, Benjamin Hoover, Matteo Manica, Jannis Born, Teodoro Laino, Aleksandra Mojsilovic(参考訳) SARS-CoV-2の斬新な性質は、効率的なデ・ノボの薬物設計手法の開発を要求する。 本研究では,高い親和性と標的外選択性を有する新規なウイルスタンパク質を標的とする新規な薬物様小分子をデザインするための,cogmol(control of molecules)というエンドツーエンドの枠組みを提案する。 CogMolは、分子SMILES変分オートエンコーダ(VAE)の適応的事前学習と、潜在特徴に基づいて訓練された属性予測器からのガイダンスを利用する効率的なマルチ属性制御サンプリングスキームを組み合わせる。 新規で最適な薬物様分子を生成するために、CagMolは、SMILES VAE埋め込みと大規模コーパスから学習したタンパク質配列埋め込みを用いて訓練されたタンパク質分子結合親和性予測器を利用する。 CogMolフレームワークは、メインプロテアーゼ、スパイクタンパク質の受容体結合ドメイン、非構造タンパク質9の3つのSARS-CoV-2標的タンパク質に適用される。 生成した候補は、トレーニングデータと比較して分子および化学の足場レベルで新規である。 CogMolはまた、マルチタスク毒性分類器で親分子とその代謝物の毒性を評価するためのインシリコスクリーニング、化学レトロ合成予測器による合成実現性、ドッキングシミュレーションによる標的構造結合を含む。 ドッキングは、生成した分子が標的タンパク質構造に良好な結合を示し、高い親和性分子の87-95 %がドッキング自由エネルギー <-6 kcal/mol。 承認された薬物と比較すると、設計された化合物の大部分は低親分子と代謝物毒性を示し、高い合成能力を示す。 要約すると、CogMolは、ターゲット特異性と選択性が高い合成可能で低毒性な薬物様分子の多制約設計を扱い、フレームワークやターゲット構造情報のターゲット依存的な微調整は不要である。

The novel nature of SARS-CoV-2 calls for the development of efficient de novo drug design approaches. In this study, we propose an end-to-end framework, named CogMol (Controlled Generation of Molecules), for designing new drug-like small molecules targeting novel viral proteins with high affinity and off-target selectivity. CogMol combines adaptive pre-training of a molecular SMILES Variational Autoencoder (VAE) and an efficient multi-attribute controlled sampling scheme that uses guidance from attribute predictors trained on latent features. To generate novel and optimal drug-like molecules for unseen viral targets, CogMol leverages a protein-molecule binding affinity predictor that is trained using SMILES VAE embeddings and protein sequence embeddings learned unsupervised from a large corpus. CogMol framework is applied to three SARS-CoV-2 target proteins: main protease, receptor-binding domain of the spike protein, and non-structural protein 9 replicase. The generated candidates are novel at both molecular and chemical scaffold levels when compared to the training data. CogMol also includes insilico screening for assessing toxicity of parent molecules and their metabolites with a multi-task toxicity classifier, synthetic feasibility with a chemical retrosynthesis predictor, and target structure binding with docking simulations. Docking reveals favorable binding of generated molecules to the target protein structure, where 87-95 % of high affinity molecules showed docking free energy < -6 kcal/mol. When compared to approved drugs, the majority of designed compounds show low parent molecule and metabolite toxicity and high synthetic feasibility. In summary, CogMol handles multi-constraint design of synthesizable, low-toxic, drug-like molecules with high target specificity and selectivity, and does not need target-dependent fine-tuning of the framework or target structure information.
翻訳日:2022-12-17 10:06:24 公開日:2020-06-24
# FairALM: 強化されたラグランジアン法による最小レグレットを持つフェアモデルのトレーニング

FairALM: Augmented Lagrangian Method for Training Fair Models with Little Regret ( http://arxiv.org/abs/2004.01355v2 )

ライセンス: Link先を確認
Vishnu Suresh Lokhande, Aditya Kumar Akash, Sathya N. Ravi and Vikas Singh(参考訳) コンピュータビジョンと機械学習技術に基づくアルゴリズムによる意思決定は、私たちの生活に浸透し続けている。 しかし、これらのモデルの偏りや、人口の特定のセグメントを不公平に扱う程度に関する問題は、一般大衆の懸念に繋がった。 現在、我々がモデルに提示するデータセットのバイアスのため、公正な公開トレーニングが不公平なモデルにつながることは受け入れられている。 興味深いトピックは、モデルのデ・ノボ設計やトレーニングがフェアネス測度によって知らせられるメカニズムの研究である。 ここでは,モデル学習中に同時に公平を課すメカニズムについて検討する。 視覚における既存の公平性に基づくアプローチは、主な分類/回帰タスクと共に敵モジュールを訓練することに大きく依存しているが、保護属性や変数の影響を排除するために、よく知られた最適化概念に基づくアイデアがよりシンプルな選択肢を提供する方法を示す。 提案手法では, 公正性を付与するには, 保護属性の指定と最適化ルーチンの利用が必要である。 本報告では、文献からの様々な公正度対策を、解釈可能な方法で、視覚における多くの訓練課題に確実に適用できることを実証する、詳細な技術分析および実験を行う。

Algorithmic decision making based on computer vision and machine learning technologies continue to permeate our lives. But issues related to biases of these models and the extent to which they treat certain segments of the population unfairly, have led to concern in the general public. It is now accepted that because of biases in the datasets we present to the models, a fairness-oblivious training will lead to unfair models. An interesting topic is the study of mechanisms via which the de novo design or training of the model can be informed by fairness measures. Here, we study mechanisms that impose fairness concurrently while training the model. While existing fairness based approaches in vision have largely relied on training adversarial modules together with the primary classification/regression task, in an effort to remove the influence of the protected attribute or variable, we show how ideas based on well-known optimization concepts can provide a simpler alternative. In our proposed scheme, imposing fairness just requires specifying the protected attribute and utilizing our optimization routine. We provide a detailed technical analysis and present experiments demonstrating that various fairness measures from the literature can be reliably imposed on a number of training tasks in vision in a manner that is interpretable.
翻訳日:2022-12-17 04:00:50 公開日:2020-06-24
# 動的ベイズ型ニューラルネットワーク

Dynamic Bayesian Neural Networks ( http://arxiv.org/abs/2004.06963v2 )

ライセンス: Link先を確認
Lorenzo Rimella and Nick Whiteley(参考訳) ヒドゥンマルコフニューラルネットワーク(Hidden Markov Neural Network)と呼ばれるベイズ型ニューラルネットワークの進化を定義する。 フィードフォワードニューラルネットワークの重みは、観測されたプロセスが利用可能なデータによって与えられるHidden Markovモデルの隠れ状態によってモデル化される。 フィルタリングアルゴリズムは、重みを経る時間に進化する時間に対する変動近似を学習するために用いられる。 トレーニングはバックプロップのbrendell et al. 2015によるベイズのシーケンシャルバージョンを通じて実施される。 実験はmnist上の変分ドロップ接続をテストし,時系列における隠れマルコフニューラルネットワークの性能を示す。

We define an evolving in time Bayesian neural network called a Hidden Markov neural network. The weights of a feed-forward neural network are modelled with the hidden states of a Hidden Markov model, whose observed process is given by the available data. A filtering algorithm is used to learn a variational approximation to the evolving in time posterior over the weights. Training is pursued through a sequential version of Bayes by Backprop Blundell et al. 2015, which is enriched with a stronger regularization technique called variational DropConnect. The experiments test variational DropConnect on MNIST and display the performance of Hidden Markov neural networks on time series.
翻訳日:2022-12-13 02:56:28 公開日:2020-06-24
# 質問応答としてのブリジング・アナフォラの解決

Bridging Anaphora Resolution as Question Answering ( http://arxiv.org/abs/2004.07898v3 )

ライセンス: Link先を確認
Yufang Hou(参考訳) アナフォラの橋渡しに関するこれまでの研究(poesio et al., 2004; hou et al., 2013b; hou, 2018a)は、この問題に取り組むためにペアワイズモデルを使用し、ゴールド言及の情報が得られると仮定している。 本稿では,文脈に基づく質問応答としてブリッジング・アナフォラ分解能を用いた。 これにより、金の言及情報を知ることなく(アナプホル自体を除く)所定のアナプホルの先行物を見つけることができる。 本稿では,伝達学習の力を活用した質問応答フレームワーク(BARQA)を提案する。 さらに,大量の"quasi-bridging"トレーニングデータを生成する新しい手法を提案する。 このデータセットを事前トレーニングし、少数のドメイン内データセットを微調整することで、2つのブリッジングコーパス(ISNotes (Markert et al., 2012) とBASHI (Roesiger, 2018) にアナフォラ分解能をブリッジする新たな技術結果が得られることを示す。

Most previous studies on bridging anaphora resolution (Poesio et al., 2004; Hou et al., 2013b; Hou, 2018a) use the pairwise model to tackle the problem and assume that the gold mention information is given. In this paper, we cast bridging anaphora resolution as question answering based on context. This allows us to find the antecedent for a given anaphor without knowing any gold mention information (except the anaphor itself). We present a question answering framework (BARQA) for this task, which leverages the power of transfer learning. Furthermore, we propose a novel method to generate a large amount of "quasi-bridging" training data. We show that our model pre-trained on this dataset and fine-tuned on a small amount of in-domain dataset achieves new state-of-the-art results for bridging anaphora resolution on two bridging corpora (ISNotes (Markert et al., 2012) and BASHI (Roesiger, 2018)).
翻訳日:2022-12-12 21:38:14 公開日:2020-06-24
# 機械学習による構造モード識別のみの出力法

Machine-learning-based methods for output only structural modal identification ( http://arxiv.org/abs/2004.07644v2 )

ライセンス: Link先を確認
Dawei Liu, Zhiyi Tang, Yuequan Bao, Hui Li(参考訳) 本研究では,モーダル応答の独立性の特徴と機械学習の原理をフル活用した,構造ヘルスモニタリング(shm)のための出力専用データのモーダルパラメータを同定する機械学習手法を提案する。 各モードの独立性機能を活用することで、教師なし学習の原則を用い、ディープニューラルネットワークのトレーニングプロセスをモーダル分離のプロセスにする。 自己符号化深層ニューラルネットワークは、構造物の振動データから構造パラメータを特定するように設計されている。 混合信号、すなわち構造応答データは、ニューラルネットワークの入力として使用される。 次に、ニューラルネットワークのトレーニングプロセスを制限するために複雑な損失関数を使用し、3層目の出力を我々が望むモーダル応答とし、最後の2層の重みをモード形状とする。 ディープニューラルネットワークは本質的に非線形目的関数最適化問題である。 非相関性と非ガウス性を考慮して独立性を制約し、構造的モーダルパラメータを得るために設計されたニューラルネットワークを制限する新しい損失関数を提案する。 簡単な構造の数値的な例と,ケーブルステイドブリッジからの実際のSHMデータの例を示し,提案手法のパラメータ識別能力を示す。 その結果,システム応答からモーダル情報を盲目的に抽出する手法の有用性が示された。

In this study, we propose a machine-learning-based approach to identify the modal parameters of the output-only data for structural health monitoring (SHM) that makes full use of the characteristic of independence of modal responses and the principle of machine learning. By taking advantage of the independence feature of each mode, we use the principle of unsupervised learning, making the training process of the deep neural network becomes the process of modal separation. A self-coding deep neural network is designed to identify the structural modal parameters from the vibration data of structures. The mixture signals, that is, the structural response data, are used as the input of the neural network. Then we use a complex loss function to restrict the training process of the neural network, making the output of the third layer the modal responses we want, and the weights of the last two layers are mode shapes. The deep neural network is essentially a nonlinear objective function optimization problem. A novel loss function is proposed to constrain the independent feature with consideration of uncorrelation and non-Gaussianity to restrict the designed neural network to obtain the structural modal parameters. A numerical example of a simple structure and an example of actual SHM data from a cable-stayed bridge are presented to illustrate the modal parameter identification ability of the proposed approach. The results show the approach's good capability in blindly extracting modal information from system responses.
翻訳日:2022-12-12 21:21:34 公開日:2020-06-24
# 多目的対実説明

Multi-Objective Counterfactual Explanations ( http://arxiv.org/abs/2004.11165v2 )

ライセンス: Link先を確認
Susanne Dandl, Christoph Molnar, Martin Binder and Bernd Bischl(参考訳) 反事実的説明は、'what-if scenarios'という形式で説明を提供することで、ブラックボックス機械学習モデルの予測を可能にする最も一般的な方法の1つである。 現在のアプローチのほとんどは、倒壊した重み付けされた複数の目的の和を最適化している。 本稿では, 対物探索を多目的最適化問題に変換する多目的対物法 (MOC) を提案する。 我々のアプローチは、提案する目的間のトレードオフの異なる多様な対策セットを返すだけでなく、特徴空間における多様性も維持する。 これにより、より詳細なポストホック分析がより理解しやすくなり、予測結果を変更するアクション可能なユーザー応答の選択肢が増える。 私たちのアプローチはモデルに依存しず、数値的およびカテゴリ的な入力機能で動作します。 具体例におけるMOCの有用性を示し,提案手法と最先端手法との比較を行った。

Counterfactual explanations are one of the most popular methods to make predictions of black box machine learning models interpretable by providing explanations in the form of `what-if scenarios'. Most current approaches optimize a collapsed, weighted sum of multiple objectives, which are naturally difficult to balance a-priori. We propose the Multi-Objective Counterfactuals (MOC) method, which translates the counterfactual search into a multi-objective optimization problem. Our approach not only returns a diverse set of counterfactuals with different trade-offs between the proposed objectives, but also maintains diversity in feature space. This enables a more detailed post-hoc analysis to facilitate better understanding and also more options for actionable user responses to change the predicted outcome. Our approach is also model-agnostic and works for numerical and categorical input features. We show the usefulness of MOC in concrete cases and compare our approach with state-of-the-art methods for counterfactual explanations.
翻訳日:2022-12-10 09:12:39 公開日:2020-06-24
# 計算的余剰制約下における有益空間のベイズ探索について

On Bayesian Search for the Feasible Space Under Computationally Expensive Constraints ( http://arxiv.org/abs/2004.11055v2 )

ライセンス: Link先を確認
Alma Rahat and Michael Wood(参考訳) 私たちはしばしば、効率的な設計探索を可能にするために、複数の制約の下で決定空間の実行可能なサブセットを特定することに興味があります。 実現可能性を決定するのに計算に高価なシミュレーションが必要ならば、探索のコストは禁じられるだろう。 ベイジアン探索は、小さなデータセットから始めると、中心となる概念は、データセットが拡張されたときに実現可能性の予測を改善する可能性のあるソリューションを見つけるために、獲得関数と制約のベイジアンモデルを使用することである。 このシーケンシャルなアクティブな学習アプローチの最後には、高価な評価が限られており、モデルは完全なシミュレーションの必要性を回避できるあらゆるソリューションの有効性を正確に予測することができる。 本稿では,実現可能空間と実現不可能空間の境界に解が存在する確率と,予測におけるエントロピー(探索の表現)を結合した新しい獲得関数を提案する。 実験により提案機能の有効性が確認された。

We are often interested in identifying the feasible subset of a decision space under multiple constraints to permit effective design exploration. If determining feasibility required computationally expensive simulations, the cost of exploration would be prohibitive. Bayesian search is data-efficient for such problems: starting from a small dataset, the central concept is to use Bayesian models of constraints with an acquisition function to locate promising solutions that may improve predictions of feasibility when the dataset is augmented. At the end of this sequential active learning approach with a limited number of expensive evaluations, the models can accurately predict the feasibility of any solution obviating the need for full simulations. In this paper, we propose a novel acquisition function that combines the probability that a solution lies at the boundary between feasible and infeasible spaces (representing exploitation) and the entropy in predictions (representing exploration). Experiments confirmed the efficacy of the proposed function.
翻訳日:2022-12-10 08:44:39 公開日:2020-06-24
# Deep DIH : 深層学習によるディジタルインラインホログラフィの統計的再構成

Deep DIH : Statistically Inferred Reconstruction of Digital In-Line Holography by Deep Learning ( http://arxiv.org/abs/2004.12231v2 )

ライセンス: Link先を確認
Huayu Li, Xiwen Chen, Haiyu Wu, Zaoyi Chi, Christopher Mann, and Abolfazl Razi(参考訳) デジタルインラインホログラフィーは、顕微鏡オブジェクトの2次元ホログラムから3次元画像を再構成するのに一般的に用いられる。 信号処理段階で生じる技術的な課題の1つは、記録されたホログラムから位相共役波面によって引き起こされる2つの画像を取り除くことである。 双対像の除去は通常、ホログラムを生成する際の可逆散乱過程のために非線形逆問題として定式化される。 近年,単発インラインホログラムから直接物体波面(物体の3次元構造の代理として)を再構築するために,エンドツーエンドの深層学習法が用いられている。 しかし、大規模なデータペアは、再現精度を許容する深層学習モデルを訓練するために必要である。 典型的な画像処理問題とは対照的に、インラインデジタルホログラフィのための正確なデータセットは存在しない。 また、トレーニングされたモデルは物体の形態的特性の影響を強く受けており、異なる用途で異なることができる。 したがって、デジタルホログラフィにディープラーニングを使う大きな障害として、データ収集は実際、非常に面倒である可能性がある。 本稿では,大規模データセットを必要とせず,現在のサンプルのみに基づく単発ホログラム再構成のための,オートエンコーダベースのディープラーニングアーキテクチャの新たな実装を提案する。 シミュレーションの結果, 単発圧縮デジタルインラインホログラム再構成法と比較して, 提案手法の優れた性能を示した。

Digital in-line holography is commonly used to reconstruct 3D images from 2D holograms for microscopic objects. One of the technical challenges that arise in the signal processing stage is removing the twin image that is caused by the phase-conjugate wavefront from the recorded holograms. Twin image removal is typically formulated as a non-linear inverse problem due to the irreversible scattering process when generating the hologram. Recently, end-to-end deep learning-based methods have been utilized to reconstruct the object wavefront (as a surrogate for the 3D structure of the object) directly from a single-shot in-line digital hologram. However, massive data pairs are required to train deep learning models for acceptable reconstruction precision. In contrast to typical image processing problems, well-curated datasets for in-line digital holography does not exist. Also, the trained model highly influenced by the morphological properties of the object and hence can vary for different applications. Therefore, data collection can be prohibitively cumbersome in practice as a major hindrance to using deep learning for digital holography. In this paper, we proposed a novel implementation of autoencoder-based deep learning architecture for single-shot hologram reconstruction solely based on the current sample without the need for massive datasets to train the model. The simulations results demonstrate the superior performance of the proposed method compared to the state of the art single-shot compressive digital in-line hologram reconstruction method.
翻訳日:2022-12-09 21:43:50 公開日:2020-06-24
# 画像カウンタ鑑定のための印刷・走査攻撃

Printing and Scanning Attack for Image Counter Forensics ( http://arxiv.org/abs/2005.02160v2 )

ライセンス: Link先を確認
Hailey James, Otkrist Gupta, Dan Raviv(参考訳) 画像の真正性を調べることは、操作ツールがよりアクセスしやすく、進歩するにつれて、ますます重要になっている。 近年の研究では、CNNベースの画像操作検出器は、操作をうまく識別できるが、単純な二重JPEG圧縮から高度なピクセルベースの摂動まで、敵の攻撃にも弱いことが示されている。 本稿では,印刷とスキャニングという,可能性の高い攻撃手法について検討する。 この種の攻撃に対する2つの最先端モデルの脆弱性を実証する。 また,印刷およびスキャンされた画像上での学習と検証を行う際に,これらの最先端モデルに比較可能な新しい機械学習モデルを提案する。 提案モデルでは,3つのモデルのうち,1つのプリンタで画像のトレーニングと検証を行った場合,他のモデルよりも優れていた。 この探索を容易にするために、6,000以上の印刷およびスキャンされた画像ブロックのデータセットを作成する。 さらなる分析から、異なるプリンタから生成された画像間のばらつきは重要であり、1つのプリンタからの画像に対する良好な検証精度は、異なるプリンタからの同一の画像に対する検証精度を示さないほど大きいことが示唆された。

Examining the authenticity of images has become increasingly important as manipulation tools become more accessible and advanced. Recent work has shown that while CNN-based image manipulation detectors can successfully identify manipulations, they are also vulnerable to adversarial attacks, ranging from simple double JPEG compression to advanced pixel-based perturbation. In this paper we explore another method of highly plausible attack: printing and scanning. We demonstrate the vulnerability of two state-of-the-art models to this type of attack. We also propose a new machine learning model that performs comparably to these state-of-the-art models when trained and validated on printed and scanned images. Of the three models, our proposed model outperforms the others when trained and validated on images from a single printer. To facilitate this exploration, we create a dataset of over 6,000 printed and scanned image blocks. Further analysis suggests that variation between images produced from different printers is significant, large enough that good validation accuracy on images from one printer does not imply similar validation accuracy on identical images from a different printer.
翻訳日:2022-12-09 04:18:18 公開日:2020-06-24
# バイトペアエンコーダを組み込んだ産業応用モデリングのためのレゲックス生成の再検討

Revisiting Regex Generation for Modeling Industrial Applications by Incorporating Byte Pair Encoder ( http://arxiv.org/abs/2005.02558v2 )

ライセンス: Link先を確認
Desheng Wang, Jiawei Liu, Xiang Qi, Baolin Sun, Peng Zhang(参考訳) 正規表現は多くの自然言語処理タスクにおいて特に非構造化データや半構造化データを扱う際に重要である。 本研究は正規表現の自動生成に着目し,この問題に対処する新しい遺伝的アルゴリズムを提案する。 文字レベルから正規表現を生成する手法とは違って,まずバイトペアエンコーダ(bpe)を使用して頻繁な項目を抽出し,正規表現の構築に使用する。 遺伝的アルゴリズムの適合度関数は多目的を含み,クロスオーバーおよび突然変異操作を含む進化的手順に基づいて解決される。 適合度関数では、生成した正規表現の長さ、正のトレーニングサンプルに対する最大整合文字とサンプル、負のトレーニングサンプルに対する最小整合文字とサンプルを考慮に入れた。 さらに, 学習過程を高速化するために, 遺伝的アルゴリズムの個体群サイズを指数関数的に劣化させる。 提案手法は,13種類の挑戦的データセットを用いて,強力なベースラインとともに検証する。 その結果,10種類のデータに対してベースラインを上回り,平均50%近い改善を達成できる手法の有効性が示された。 指数減衰を行うことで、トレーニング速度は指数崩壊を使わずに、手法の約100倍の速度となる。 要約すると,本手法は有効性と効率性の両方を有し,産業応用に適用可能である。

Regular expression is important for many natural language processing tasks especially when used to deal with unstructured and semi-structured data. This work focuses on automatically generating regular expressions and proposes a novel genetic algorithm to deal with this problem. Different from the methods which generate regular expressions from character level, we first utilize byte pair encoder (BPE) to extract some frequent items, which are then used to construct regular expressions. The fitness function of our genetic algorithm contains multi objectives and is solved based on evolutionary procedure including crossover and mutation operation. In the fitness function, we take the length of generated regular expression, the maximum matching characters and samples for positive training samples, and the minimum matching characters and samples for negative training samples into consideration. In addition, to accelerate the training process, we do exponential decay on the population size of the genetic algorithm. Our method together with a strong baseline is tested on 13 kinds of challenging datasets. The results demonstrate the effectiveness of our method, which outperforms the baseline on 10 kinds of data and achieves nearly 50 percent improvement on average. By doing exponential decay, the training speed is approximately 100 times faster than the methods without using exponential decay. In summary, our method possesses both effectiveness and efficiency, and can be implemented for the industry application.
翻訳日:2022-12-06 04:47:40 公開日:2020-06-24
# グラフ、エンティティ、ステップ混合

Graphs, Entities, and Step Mixture ( http://arxiv.org/abs/2005.08485v2 )

ライセンス: Link先を確認
Kyuyong Shin, Wonyoung Shin, Jung-Woo Ha, Sunyoung Kwon(参考訳) グラフニューラルネットワークの既存のアプローチは、近傍の集約方法によらず、しばしば過度な問題に苦しむ。 ほとんどの手法は固定グラフの帰納的シナリオにも焦点をあてており、見当たらないグラフの一般化は不十分である。 これらの問題に対処するために,エッジベース近傍関係とノードベースのエンティティ特徴,すなわちランダムウォーク(gesm)によるステップ混合によるグラフエンティティの両方を考慮した新しいグラフニューラルネットワークを提案する。 GESMはランダムウォーク(ランダムウォーク)を通した様々なステップの混合を用いて、過度に平滑な問題を緩和し、ノード情報に依存する相互関係を動的に反映し、埋め込み表現を強化する構造ベース正規化を行う。 集中的な実験により、GESMは、トランスダクティブおよびインダクティブ学習タスクを含む8つのベンチマークグラフデータセットに対して、最先端または同等のパフォーマンスを達成することを示す。 さらに,グローバル情報を考える意義を実証的に示す。

Existing approaches for graph neural networks commonly suffer from the oversmoothing issue, regardless of how neighborhoods are aggregated. Most methods also focus on transductive scenarios for fixed graphs, leading to poor generalization for unseen graphs. To address these issues, we propose a new graph neural network that considers both edge-based neighborhood relationships and node-based entity features, i.e. Graph Entities with Step Mixture via random walk (GESM). GESM employs a mixture of various steps through random walk to alleviate the oversmoothing problem, attention to dynamically reflect interrelations depending on node information, and structure-based regularization to enhance embedding representation. With intensive experiments, we show that the proposed GESM achieves state-of-the-art or comparable performances on eight benchmark graph datasets comprising transductive and inductive learning tasks. Furthermore, we empirically demonstrate the significance of considering global information.
翻訳日:2022-12-01 22:53:50 公開日:2020-06-24
# 変分モデルに基づく政策最適化

Variational Model-based Policy Optimization ( http://arxiv.org/abs/2006.05443v2 )

ライセンス: Link先を確認
Yinlam Chow and Brandon Cui and MoonKyung Ryu and Mohammad Ghavamzadeh(参考訳) モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。 しかし、シミュレーションデータのバイアスがデータ生成の容易さを覆す可能性があるため、そのようなアルゴリズムを設計することはしばしば困難である。 この課題に対する潜在的な解決策は、普遍目的関数を使ってモデルとポリシーを共同学習し、改善することである。 本稿では, rl と確率的推論との関係を活用し, 対象関数をlog-likelihood の変分下限として定式化する。 これにより、予測最大化(EM)を使い、ベースラインポリシーを反復的に修正し、モデルとポリシー(E-step)からなる変分分布を学習し、学習された変分分布(M-step)からベースラインポリシーを改善することができる。 本稿では,Eステップに対するモデルベースおよびモデルフリーポリシー反復(アクタークリティカル)方式のアルゴリズムを提案し,モデルベース方式でMステップを最適化するために,それらが学習した変分分布をどのように利用できるかを示す。 多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、モデルフリー(Eステップ)アルゴリズムよりもサンプル効率が高く、高パラメータチューニングに頑健であることが示された。 同じ制御タスクを用いて、VMBPOと最先端モデルベースおよびモデルフリーRLアルゴリズムを比較し、そのサンプル効率と性能を示す。

Model-based reinforcement learning (RL) algorithms allow us to combine model-generated data with those collected from interaction with the real system in order to alleviate the data efficiency problem in RL. However, designing such algorithms is often challenging because the bias in simulated data may overshadow the ease of data generation. A potential solution to this challenge is to jointly learn and improve model and policy using a universal objective function. In this paper, we leverage the connection between RL and probabilistic inference, and formulate such an objective function as a variational lower-bound of a log-likelihood. This allows us to use expectation maximization (EM) and iteratively fix a baseline policy and learn a variational distribution, consisting of a model and a policy (E-step), followed by improving the baseline policy given the learned variational distribution (M-step). We propose model-based and model-free policy iteration (actor-critic) style algorithms for the E-step and show how the variational distribution learned by them can be used to optimize the M-step in a fully model-based fashion. Our experiments on a number of continuous control tasks show that despite being more complex, our model-based (E-step) algorithm, called {\em variational model-based policy optimization} (VMBPO), is more sample-efficient and robust to hyper-parameter tuning than its model-free (E-step) counterpart. Using the same control tasks, we also compare VMBPO with several state-of-the-art model-based and model-free RL algorithms and show its sample efficiency and performance.
翻訳日:2022-11-23 13:25:55 公開日:2020-06-24
# cbr-net:カスケード境界改良ネットワークによる行動検出: activitynet challenge 2020 (task 1) への提出

CBR-Net: Cascade Boundary Refinement Network for Action Detection: Submission to ActivityNet Challenge 2020 (Task 1) ( http://arxiv.org/abs/2006.07526v2 )

ライセンス: Link先を確認
Xiang Wang, Baiteng Ma, Zhiwu Qing, Yongpeng Sang, Changxin Gao, Shiwei Zhang, Nong Sang(参考訳) 本報告では、時間的行動局所化(検出)課題に対する解決策を提示する(タスク)。 第1回ActivityNet Challenge 2020に参加。 このタスクの目的は、興味のあるアクションが発生するインターバルを一時的にローカライズし、長い未トリミングビデオでアクションカテゴリを予測することである。 私たちのソリューションは主に3つのコンポーネントを含んでいます。 1) 特徴エンコーディング: tsn[7], slowfast[3], i3d[1]を含む3種類のバックボーンを適用する。 これらのモデルを適用することで、スニペットレベルのビデオ表現を抽出できる。 2)提案生成:我々はベースラインとしてbmn[5]を選択し,提案検出を行うためにカスケード境界改良ネットワーク(cbr-net)を設計する。 CBR-Netは主に2つのモジュールを含む: 時間的特徴符号化、長期的時間的情報をエンコードするためのBiLSTM、異なるパラメータ設定下で提案精度を向上するためのCBRモジュール。 3) アクションローカライズ: この段階では, 微調整ネットワークによって得られた映像レベルの分類結果を組み合わせて, 各提案のカテゴリーを予測する。 さらに, 設計した解の性能を向上させるために異なるアンサンブル戦略を適用し, 平均精度指標を用いて, activitynet v1.3 データセットのテストセットで 42.788% を達成した。

In this report, we present our solution for the task of temporal action localization (detection) (task 1) in ActivityNet Challenge 2020. The purpose of this task is to temporally localize intervals where actions of interest occur and predict the action categories in a long untrimmed video. Our solution mainly includes three components: 1) feature encoding: we apply three kinds of backbones, including TSN [7], Slowfast[3] and I3d[1], which are both pretrained on Kinetics dataset[2]. Applying these models, we can extract snippet-level video representations; 2) proposal generation: we choose BMN [5] as our baseline, base on which we design a Cascade Boundary Refinement Network (CBR-Net) to conduct proposal detection. The CBR-Net mainly contains two modules: temporal feature encoding, which applies BiLSTM to encode long-term temporal information; CBR module, which targets to refine the proposal precision under different parameter settings; 3) action localization: In this stage, we combine the video-level classification results obtained by the fine tuning networks to predict the category of each proposal. Moreover, we also apply to different ensemble strategies to improve the performance of the designed solution, by which we achieve 42.788% on the testing set of ActivityNet v1.3 dataset in terms of mean Average Precision metrics.
翻訳日:2022-11-21 21:10:23 公開日:2020-06-24
# 機械学習によるサブシーズン気候予測:課題、分析、進歩

Sub-Seasonal Climate Forecasting via Machine Learning: Challenges, Analysis, and Advances ( http://arxiv.org/abs/2006.07972v2 )

ライセンス: Link先を確認
Sijie He, Xinyan Li, Timothy DelSole, Pradeep Ravikumar, Arindam Banerjee(参考訳) サブシーズン気候予報(SSF)は、気温や降水量などの主要な気候変数を2週間から2ヶ月の時間スケールで予測することに焦点を当てている。 熟練したSSFは、農業生産性、水資源管理、輸送と航空システム、極端な気象イベントの緊急計画など、大きな社会的価値を持つだろう。 しかし、SSFは天気予報や季節予報よりも難しいと考えられている。 本稿では,米国本土におけるSSFのための機械学習(ML)アプローチについて,慎重に検討する。 大気-海洋間結合と品質データ量の制限によりブラックボックスMLを直感的に適用することは困難であるが、注意深く構成された特徴表現では、例えばラッソのような線形回帰モデルでさえもうまく機能することが示される。 検討された10のMLアプローチのうち、勾配向上が最善であり、ディープラーニング(DL)メソッドはアーキテクチャの選択を慎重に行うことを約束している。 全体として、適切なML手法は、気候基準、すなわち、所定の場所と時間における30年間の平均に基づく予測を上回ることができる。 さらに,海洋(特にエルニーニョのような気候振動に基づく指標)と土地(土壌水分)の共変量は予測可能であるのに対し,大気の共変量は役に立たないと考えられる。

Sub-seasonal climate forecasting (SSF) focuses on predicting key climate variables such as temperature and precipitation in the 2-week to 2-month time scales. Skillful SSF would have immense societal value, in areas such as agricultural productivity, water resource management, transportation and aviation systems, and emergency planning for extreme weather events. However, SSF is considered more challenging than either weather prediction or even seasonal prediction. In this paper, we carefully study a variety of machine learning (ML) approaches for SSF over the US mainland. While atmosphere-land-ocean couplings and the limited amount of good quality data makes it hard to apply black-box ML naively, we show that with carefully constructed feature representations, even linear regression models, e.g., Lasso, can be made to perform well. Among a broad suite of 10 ML approaches considered, gradient boosting performs the best, and deep learning (DL) methods show some promise with careful architecture choices. Overall, suitable ML methods are able to outperform the climatological baseline, i.e., predictions based on the 30-year average at a given location and time. Further, based on studying feature importance, ocean (especially indices based on climatic oscillations such as El Nino) and land (soil moisture) covariates are found to be predictive, whereas atmospheric covariates are not considered helpful.
翻訳日:2022-11-21 09:59:23 公開日:2020-06-24
# Deep-CAPTCHA: 脆弱性評価のためのディープラーニングベースのCAPTCHAソルバ

Deep-CAPTCHA: a deep learning based CAPTCHA solver for vulnerability assessment ( http://arxiv.org/abs/2006.08296v2 )

ライセンス: Link先を確認
Zahra Noury and Mahdi Rezaei(参考訳) CAPTCHAは、人間のオペレーターをボットや攻撃プログラム、あるいは人間の知性を模倣しようとする他のコンピューターエージェントと区別するための人間中心のテストである。 本研究では,ディープラーニングに基づく自動解法を用いて,視覚的CAPTCHAテストのクラック方法を検討する。 この研究の目的はcaptchaジェネレータシステムの弱点と脆弱性を調査することであり、手作業による試行と失敗のリスクを負うことなく、より堅牢なcaptchaを開発することである。 この目的を達成するために,Deep-CAPTCHAと呼ばれる畳み込みニューラルネットワークを開発した。 提案プラットフォームは,数値およびアルファ数値CAPTCHAの両方を解析することができる。 効率的なモデルをトレーニングし、開発するために、モデルをトレーニングするために50万のCAPTCHAのデータセットを生成しました。 本稿では,カスタマイズしたディープニューラルネットワークモデルを提案し,研究のギャップ,既存の課題,課題に対処するための解決策について検討する。 我々のネットワークのクラック精度は、それぞれ数値とアルファ数値のテストデータセットに対して98.94%と98.31%のハイレートとなる。 つまり、自動化された人工エージェントに対してクラック不可能な、堅牢なCAPTCHAを開発するには、より多くの作業が必要になる。 本研究の成果として,Deep-CAPTCHAモデルを用いた性能解析に基づいて,CAPTCHAの安全性を向上させるための効率的な手法を同定する。

CAPTCHA is a human-centred test to distinguish a human operator from bots, attacking programs, or other computerised agents that tries to imitate human intelligence. In this research, we investigate a way to crack visual CAPTCHA tests by an automated deep learning based solution. The goal of this research is to investigate the weaknesses and vulnerabilities of the CAPTCHA generator systems; hence, developing more robust CAPTCHAs, without taking the risks of manual try and fail efforts. We develop a Convolutional Neural Network called Deep-CAPTCHA to achieve this goal. The proposed platform is able to investigate both numerical and alphanumerical CAPTCHAs. To train and develop an efficient model, we have generated a dataset of 500,000 CAPTCHAs to train our model. In this paper, we present our customised deep neural network model, we review the research gaps, the existing challenges, and the solutions to cope with the issues. Our network's cracking accuracy leads to a high rate of 98.94% and 98.31% for the numerical and the alpha-numerical test datasets, respectively. That means more works is required to develop robust CAPTCHAs, to be non-crackable against automated artificial agents. As the outcome of this research, we identify some efficient techniques to improve the security of the CAPTCHAs, based on the performance analysis conducted on the Deep-CAPTCHA model.
翻訳日:2022-11-21 02:40:50 公開日:2020-06-24
# 深点雲幾何圧縮の改良

Improved Deep Point Cloud Geometry Compression ( http://arxiv.org/abs/2006.09043v2 )

ライセンス: Link先を確認
Maurice Quach, Giuseppe Valenzise, Frederic Dufaux(参考訳) ポイントクラウドは3Dコンテンツにとって重要なデータ構造として認識されており、仮想現実や混成現実、自律運転、文化遺産など、多くのアプリケーションにおいて不可欠である。 本稿では,エントロピー符号化のためのスケールハイパープリオールモデルの利用,より深い変換の利用,焦点損失におけるバランスの異なる重み,デコードのための最適なしきい値設定,逐次モデルトレーニングなど,深点クラウド圧縮を改善するための一連の貢献について述べる。 さらに,これらの因子がrd性能を改善する理由をよりよく理解するために,これらの因子が与える影響に関する広範囲なアブレーション研究を行った。 G-PCCトリソープと5.50(6.48) dBと6.84(5.95) dB(5.95) dB(ポイント・ツー・ポイント・ツー・プレーン)メートル法)の2倍のBD-PSNRゲインが得られる。 コードはhttps://github.com/mauriceqch/pcc_geo_cnn_v2で入手できる。

Point clouds have been recognized as a crucial data structure for 3D content and are essential in a number of applications such as virtual and mixed reality, autonomous driving, cultural heritage, etc. In this paper, we propose a set of contributions to improve deep point cloud compression, i.e.: using a scale hyperprior model for entropy coding; employing deeper transforms; a different balancing weight in the focal loss; optimal thresholding for decoding; and sequential model training. In addition, we present an extensive ablation study on the impact of each of these factors, in order to provide a better understanding about why they improve RD performance. An optimal combination of the proposed improvements achieves BD-PSNR gains over G-PCC trisoup and octree of 5.50 (6.48) dB and 6.84 (5.95) dB, respectively, when using the point-to-point (point-to-plane) metric. Code is available at https://github.com/mauriceqch/pcc_geo_cnn_v2 .
翻訳日:2022-11-20 18:51:07 公開日:2020-06-24
# ネットワークは分散トレーニングのボトルネックか?

Is Network the Bottleneck of Distributed Training? ( http://arxiv.org/abs/2006.10103v3 )

ライセンス: Link先を確認
Zhen Zhang, Chaokun Chang, Haibin Lin, Yida Wang, Raman Arora, Xin Jin(参考訳) 近年,分散トレーニングのコミュニケーション効率向上に関する研究が盛んに行われている。 しかし、ネットワークがボトルネックであるかどうかを体系的に理解する作業はほとんど行われていない。 本稿では,分散トレーニングのネットワーク性能を計測し,分析するための第一原理手法を提案する。 予想通り,線形スケールアウトから分散トレーニングをブロックするコンポーネントは通信であることを確認した。 しかし,ネットワークの利用率が低いことや,ネットワークを十分に活用できれば,分散トレーニングが1つに近いスケーリング係数を達成できることが,一般的な考え方とは対照的に見受けられる。 さらに,100倍圧縮率以上の勾配圧縮を提唱する最近の提案の多くは,完全なネットワーク利用下では,100Gbpsのネットワークで勾配圧縮を行う必要はないことを示唆している。 一方、10Gbpsのような低速ネットワークでは、ほぼ線形スケールアウトを達成するために2x--5x勾配圧縮比しか必要としない。 勾配圧縮のようなアプリケーションレベルの技術と比較すると、ネットワークレベルの最適化はアプリケーションの変更を必要とせず、訓練されたモデルの性能を損なわない。 したがって,分散トレーニングの真の課題は,ネットワークのキャパシティを完全に活用し,線形スケールアウトを実現するために,ネットワークコミュニティが高性能なネットワークトランスポートを開発することである。

Recently there has been a surge of research on improving the communication efficiency of distributed training. However, little work has been done to systematically understand whether the network is the bottleneck and to what extent. In this paper, we take a first-principles approach to measure and analyze the network performance of distributed training. As expected, our measurement confirms that communication is the component that blocks distributed training from linear scale-out. However, contrary to the common belief, we find that the network is running at low utilization and that if the network can be fully utilized, distributed training can achieve a scaling factor of close to one. Moreover, while many recent proposals on gradient compression advocate over 100x compression ratio, we show that under full network utilization, there is no need for gradient compression in 100 Gbps network. On the other hand, a lower speed network like 10 Gbps requires only 2x--5x gradients compression ratio to achieve almost linear scale-out. Compared to application-level techniques like gradient compression, network-level optimizations do not require changes to applications and do not hurt the performance of trained models. As such, we advocate that the real challenge of distributed training is for the network community to develop high-performance network transport to fully utilize the network capacity and achieve linear scale-out.
翻訳日:2022-11-19 21:29:56 公開日:2020-06-24
# ai-esを路上に残す:畳み込みニューラルネットワークとターゲットデータ拡張によるドライバーの注意をそらす

Keep Your AI-es on the Road: Tackling Distracted Driver Detection with Convolutional Neural Networks and Targeted Data Augmentation ( http://arxiv.org/abs/2006.10955v2 )

ライセンス: Link先を確認
Nikka Mofid, Jasmine Bayrooti, Shreya Ravi(参考訳) 世界保健機関(WHO)によると、不注意運転は世界でも自動車事故や死亡の原因となっている。 本研究では,ステートファーム・ディトラクション・ドライビング・データセットを用いて,運転意図の異なる形態を検知・識別する,堅牢な多クラス分類器の構築を目指して,注意をそらす運転の問題に取り組む。 本研究では,事前学習された画像分類モデル,古典的データ拡張,opencvに基づく画像前処理,スキンセグメンテーション強化手法の組み合わせを用いた。 私たちの最高のパフォーマンスモデルは、皮膚のセグメンテーション、顔のぼかし、古典的な拡張技術など、いくつかの拡張技術を組み合わせています。 このモデルでは、ベースライン上でF1スコアが約15%増加し、運転者検出を邪魔するタスクに対するニューラルネットワークのパワー向上において、これらの技術が期待できることを示す。

According to the World Health Organization, distracted driving is one of the leading cause of motor accidents and deaths in the world. In our study, we tackle the problem of distracted driving by aiming to build a robust multi-class classifier to detect and identify different forms of driver inattention using the State Farm Distracted Driving Dataset. We utilize combinations of pretrained image classification models, classical data augmentation, OpenCV based image preprocessing and skin segmentation augmentation approaches. Our best performing model combines several augmentation techniques, including skin segmentation, facial blurring, and classical augmentation techniques. This model achieves an approximately 15% increase in F1 score over the baseline, thus showing the promise in these techniques in enhancing the power of neural networks for the task of distracted driver detection.
翻訳日:2022-11-19 04:32:05 公開日:2020-06-24
# MICCAI 2020 頭蓋内インプラント設計チャレンジ

A Baseline Approach for AutoImplant: the MICCAI 2020 Cranial Implant Design Challenge ( http://arxiv.org/abs/2006.12449v2 )

ライセンス: Link先を確認
Jianning Li, Antonio Pepe, Christina Gsaxner, Gord von Campe, Jan Egger(参考訳) 本研究では, 組織者が提案するように, 体積形状学習タスクとして定式化できる頭蓋インプラント設計課題であるautoimplant (https://autoimplant.grand-challenge.org/) のベースラインアプローチを提案する。 この課題では、欠損頭蓋骨、完全頭蓋骨、頭蓋インプラントは2つのボクセルグリッドとして表現される。 この作業を達成するために、インプラントは欠損頭蓋骨から直接再建するか、欠損頭蓋骨と完全頭蓋骨との差を取ることで得られる。 後者の場合、完全な頭蓋骨は欠陥のある頭蓋骨によって再構築されなければならず、これは体積形状の完了問題を定義する。 このタスクのベースラインアプローチは、以前の定式化に基づいており、例えば、深層ニューラルネットワークは、欠陥頭蓋骨から直接インプラントを予測するために訓練されている。 まず、エンコーダ・デコーダネットワークは、ダウンサンプリングされた欠陥頭蓋骨からインプラントの粗い表現を学習し、粗いインプラントは、元の高解像度頭蓋骨の欠陥領域の境界ボックスを生成するためにのみ使用される。 次に、別のエンコーダデコーダネットワークをトレーニングし、境界領域から微細なインプラントを生成する。 テストセットでは,提案手法により平均サイス類似度スコアが0.8555,ハウスドルフ距離が5.1825mmとなる。 コードはhttps://github.com/Jianningli/autoimplant.comで公開されている。

In this study, we present a baseline approach for AutoImplant (https://autoimplant.grand-challenge.org/) - the cranial implant design challenge, which, as suggested by the organizers, can be formulated as a volumetric shape learning task. In this task, the defective skull, the complete skull and the cranial implant are represented as binary voxel grids. To accomplish this task, the implant can be either reconstructed directly from the defective skull or obtained by taking the difference between a defective skull and a complete skull. In the latter case, a complete skull has to be reconstructed given a defective skull, which defines a volumetric shape completion problem. Our baseline approach for this task is based on the former formulation, i.e., a deep neural network is trained to predict the implants directly from the defective skulls. The approach generates high-quality implants in two steps: First, an encoder-decoder network learns a coarse representation of the implant from down-sampled, defective skulls; The coarse implant is only used to generate the bounding box of the defected region in the original high-resolution skull. Second, another encoder-decoder network is trained to generate a fine implant from the bounded area. On the test set, the proposed approach achieves an average dice similarity score (DSC) of 0.8555 and Hausdorff distance (HD) of 5.1825 mm. The code is publicly available at https://github.com/Jianningli/autoimplant.
翻訳日:2022-11-18 05:55:52 公開日:2020-06-24
# ニューラルネットワークモデルによるソフトウェア自然性探索

Exploring Software Naturalness through Neural Language Models ( http://arxiv.org/abs/2006.12641v2 )

ライセンス: Link先を確認
Luca Buratti, Saurabh Pujar, Mihaela Bornea, Scott McCarley, Yunhui Zheng, Gaetano Rossiello, Alessandro Morari, Jim Laredo, Veronika Thost, Yufan Zhuang, Giacomo Domeniconi(参考訳) ソフトウェア自然性仮説(software naturalness hypothesis)は、プログラミング言語は自然言語処理で使われるのと同じ技術で理解することができると主張する。 この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。 現在、コード解析のアプローチは抽象構文木(AST)から派生した機能に大きく依存していますが、トランスフォーマーベースの言語モデルは生のソースコードで動作します。 この研究は、そのような言語モデルがAST機能を自動的に発見できるかどうかを調査する最初のものである。 そこで本研究では,ASTの理解する言語モデルを直接探索するシーケンスラベリングタスクを提案する。 その結果, トランスフォーマティブ言語モデルでは, astタグ処理において高い精度が得られることがわかった。 さらに,ソフトウェア脆弱性識別タスクにおけるモデルの評価を行った。 重要なこととして,本手法は,特徴抽出のためにコンパイラに大きく依存するグラフベースのアプローチに匹敵する脆弱性識別結果を得る。

The Software Naturalness hypothesis argues that programming languages can be understood through the same techniques used in natural language processing. We explore this hypothesis through the use of a pre-trained transformer-based language model to perform code analysis tasks. Present approaches to code analysis depend heavily on features derived from the Abstract Syntax Tree (AST) while our transformer-based language models work on raw source code. This work is the first to investigate whether such language models can discover AST features automatically. To achieve this, we introduce a sequence labeling task that directly probes the language models understanding of AST. Our results show that transformer based language models achieve high accuracy in the AST tagging task. Furthermore, we evaluate our model on a software vulnerability identification task. Importantly, we show that our approach obtains vulnerability identification results comparable to graph based approaches that rely heavily on compilers for feature extraction.
翻訳日:2022-11-18 05:31:45 公開日:2020-06-24
# 視覚シーンから物理グラフ表現を学ぶ

Learning Physical Graph Representations from Visual Scenes ( http://arxiv.org/abs/2006.12373v2 )

ライセンス: Link先を確認
Daniel M. Bear, Chaofei Fan, Damian Mrowca, Yunzhu Li, Seth Alter, Aran Nayebi, Jeremy Schwartz, Li Fei-Fei, Jiajun Wu, Joshua B. Tenenbaum, Daniel L.K. Yamins(参考訳) 畳み込みニューラルネットワーク(CNN)は、視覚オブジェクト分類のための学習表現において例外的である。 しかし、CNNは対象、部品、それらの物理的特性を明示的にエンコードしていないため、視覚シーンの構造的理解を必要とするタスクにおいてCNNの成功は制限されている。 これらの制約を克服するために,シーンを階層的なグラフとして表現する物理シーングラフ (PSG) の概念を導入し,階層内のノードは異なるスケールのオブジェクト部品に直感的に対応する。 各ノードの境界は、表面形状やテクスチャなどのオブジェクト特性を直感的に表現する潜在属性のベクトルである。 また,PSG構造化ボトルネックを通じてシーンを再構成することでPSGを抽出するネットワークアーキテクチャであるPSGNetについて述べる。 psgnetは、低レベルと高レベルの画像情報を組み合わせた繰り返しのフィードバック接続、空間的に均一な特徴マップをオブジェクト中心のグラフ構造に変換するグラフプーリングとベクトル化操作、意味のあるシーン要素の識別を促進する知覚的グループ化原則など、標準のcnnを強化している。 我々は,PSGNetがシーンセグメンテーションタスク,特に複雑な実世界の画像において,他の自己監督型シーン表現アルゴリズムよりも優れており,未知のオブジェクトタイプやシーンアレンジメントによく適応していることを示す。 psgnetは物理的な動きから学習でき、静止画像でもシーンの見積もりが向上する。 本稿では,psgnetアーキテクチャの各コンポーネントの重要性を示す一連のアブレーション研究を行い,学習された潜在属性が直感的なシーン特性をキャプチャすることを示す。

Convolutional Neural Networks (CNNs) have proved exceptional at learning representations for visual object categorization. However, CNNs do not explicitly encode objects, parts, and their physical properties, which has limited CNNs' success on tasks that require structured understanding of visual scenes. To overcome these limitations, we introduce the idea of Physical Scene Graphs (PSGs), which represent scenes as hierarchical graphs, with nodes in the hierarchy corresponding intuitively to object parts at different scales, and edges to physical connections between parts. Bound to each node is a vector of latent attributes that intuitively represent object properties such as surface shape and texture. We also describe PSGNet, a network architecture that learns to extract PSGs by reconstructing scenes through a PSG-structured bottleneck. PSGNet augments standard CNNs by including: recurrent feedback connections to combine low and high-level image information; graph pooling and vectorization operations that convert spatially-uniform feature maps into object-centric graph structures; and perceptual grouping principles to encourage the identification of meaningful scene elements. We show that PSGNet outperforms alternative self-supervised scene representation algorithms at scene segmentation tasks, especially on complex real-world images, and generalizes well to unseen object types and scene arrangements. PSGNet is also able learn from physical motion, enhancing scene estimates even for static images. We present a series of ablation studies illustrating the importance of each component of the PSGNet architecture, analyses showing that learned latent attributes capture intuitive scene properties, and illustrate the use of PSGs for compositional scene inference.
翻訳日:2022-11-18 05:20:41 公開日:2020-06-24
# scribble2label:一貫性を有する自己発生型擬似ラベルによるscribblesupervised cell segmentation

Scribble2Label: Scribble-Supervised Cell Segmentation via Self-Generating Pseudo-Labels with Consistency ( http://arxiv.org/abs/2006.12890v2 )

ライセンス: Link先を確認
Hyeonsoo Lee, Won-Ki Jeong(参考訳) セグメンテーションは微視的細胞画像解析の基本的なプロセスである。 近年のディープラーニングの進歩により、より正確で高スループットの細胞セグメンテーションが実現可能になった。 しかし、既存のディープラーニングベースのセルセグメンテーションアルゴリズムの多くは、完全な注釈付き接地型セルラベルを必要とする。 本稿では,Scribble2Labelについて紹介する。Scribble2Labelは,スクリブルアノテーションをフルセグメンテーションラベルなしで活用する,弱教師付きセルセグメンテーションフレームワークである。 基本的な考え方は、疑似ラベルとラベルフィルタリングを組み合わせて、弱い監督から信頼できるラベルを生成することだ。 このために,予測を反復平均化することで予測の一貫性を活用し,擬似ラベルを改善する。 我々は,Scribble2Labelの性能を,光電場,蛍光,電子顕微鏡など,様々なセル画像を用いた最先端セル分割法と比較した。 また,本手法は様々なレベルのスクリブル細部にわたって頑健に動作し,実使用例ではわずかなスクリブルアノテーションしか必要としないことを確認した。

Segmentation is a fundamental process in microscopic cell image analysis. With the advent of recent advances in deep learning, more accurate and high-throughput cell segmentation has become feasible. However, most existing deep learning-based cell segmentation algorithms require fully annotated ground-truth cell labels, which are time-consuming and labor-intensive to generate. In this paper, we introduce Scribble2Label, a novel weakly-supervised cell segmentation framework that exploits only a handful of scribble annotations without full segmentation labels. The core idea is to combine pseudo-labeling and label filtering to generate reliable labels from weak supervision. For this, we leverage the consistency of predictions by iteratively averaging the predictions to improve pseudo labels. We demonstrate the performance of Scribble2Label by comparing it to several state-of-the-art cell segmentation methods with various cell image modalities, including bright-field, fluorescence, and electron microscopy. We also show that our method performs robustly across different levels of scribble details, which confirms that only a few scribble annotations are required in real-use cases.
翻訳日:2022-11-17 23:19:49 公開日:2020-06-24
# DCNN:Dual-Energy X-ray Baggage Imageryのためのフルウィーポンファミリー脅威検出の伝達学習比較

DCNNs: A Transfer Learning comparison of Full Weapon Family threat detection for Dual-Energy X-Ray Baggage Imagery ( http://arxiv.org/abs/2006.13065v2 )

ライセンス: Link先を確認
A. Williamson (1), P. Dickinson (2), T. Lambrou (2), J. C. Murray (1) ((1) University of Hull, (2) University of Lincoln)(参考訳) 畳み込みニューラルネットワークの最近の進歩は、画像認識タスク(13,25)において超人的性能をもたらすが、毎年、英国国境を横断するパーセルの量の増加に伴い、脅威の分類は、英国国境の円滑な操作に不可欠なものとなる。 本研究では,デュアルエネルギーx線スキャナ出力を効果的に処理し,この出力から銃器ファミリー(アソーライフル,リボルバー,自装ピストル,ショットガン,サブマシンガン)を区別できる分類を行う最初のパイプラインを提案する。 このパイプラインでは、トランスファーラーニングを通じて、リセンタ畳み込みニューラルネットワークアーキテクチャとx線荷物ドメインを比較し、resnet50が分類に最も適していることを示す。

Recent advancements in Convolutional Neural Networks have yielded super-human levels of performance in image recognition tasks [13, 25]; however, with increasing volumes of parcels crossing UK borders each year, classification of threats becomes integral to the smooth operation of UK borders. In this work we propose the first pipeline to effectively process Dual-Energy X-Ray scanner output, and perform classification capable of distinguishing between firearm families (Assault Rifle, Revolver, Self-Loading Pistol,Shotgun, and Sub-Machine Gun) from this output. With this pipeline we compare re-cent Convolutional Neural Network architectures against the X-Ray baggage domain via Transfer Learning and show ResNet50 to be most suitable to classification - outlining a number of considerations for operational success within the domain.
翻訳日:2022-11-17 23:19:00 公開日:2020-06-24
# fgvcの困難に直面する

Facing the Hard Problems in FGVC ( http://arxiv.org/abs/2006.13190v2 )

ライセンス: Link先を確認
Connor Anderson, Matt Gwilliam, Adam Teuscher, Andrew Merrill, Ryan Farrell(参考訳) きめ細かい視覚分類(FGVC)では、最先端(SOTA)の精度を追求するために、ほぼ特異な焦点がある。 この研究は、最近のSOTA法の性能を定量的に、さらに重要なのは質的に、慎重に分析する。 これらのモデルが特定の「ハード」なイメージと普遍的に苦労し、補完的な誤りを犯していることを示す。 このような分析の重要性を強調し,一般的なcub-200データセットにおいて,補完モデルの組み合わせによって精度が5%以上向上できることを実証する。 これらのSOTA手法による誤差の詳細な解析と評価に加えて、将来のFGVC研究者に推奨される方向の明確なセットを提供する。

In fine-grained visual categorization (FGVC), there is a near-singular focus in pursuit of attaining state-of-the-art (SOTA) accuracy. This work carefully analyzes the performance of recent SOTA methods, quantitatively, but more importantly, qualitatively. We show that these models universally struggle with certain "hard" images, while also making complementary mistakes. We underscore the importance of such analysis, and demonstrate that combining complementary models can improve accuracy on the popular CUB-200 dataset by over 5%. In addition to detailed analysis and characterization of the errors made by these SOTA methods, we provide a clear set of recommended directions for future FGVC researchers.
翻訳日:2022-11-17 23:17:20 公開日:2020-06-24
# FPGAにおけるブロックマッチング

Block-matching in FPGA ( http://arxiv.org/abs/2006.14105v1 )

ライセンス: Link先を確認
Rafael Pizarro Solar and Michal Pleskowicz(参考訳) ブロックマッチングと3dフィルタリング(bm3d)は、2つの類似のステップで動作する画像デノイジングアルゴリズムである。 いずれのステップも、ブロックマッチングによるグループ化を実行する必要がある。 FPGAでブロックマッチングを実装し、並列計算を行う能力を活用している。 私たちのゴールは、FPGA(AXIOM Betaなど)を使用するビデオカメラのリアルタイムデノナイズに、将来他の研究者が私たちのソリューションを活用できるようにすることです。

Block-matching and 3D filtering (BM3D) is an image denoising algorithm that works in two similar steps. Both of these steps need to perform grouping by block-matching. We implement the block-matching in an FPGA, leveraging its ability to perform parallel computations. Our goal is to enable other researchers to use our solution in the future for real-time video denoising in video cameras that use FPGAs (such as the AXIOM Beta).
翻訳日:2022-11-17 13:36:29 公開日:2020-06-24
# 補助判別器を用いた距離保存型生成型逆ネットワークを用いた対音楽翻訳

Face-to-Music Translation Using a Distance-Preserving Generative Adversarial Network with an Auxiliary Discriminator ( http://arxiv.org/abs/2006.13469v1 )

ライセンス: Link先を確認
Chelhwon Kim, Andrew Port, Mitesh Patel(参考訳) 画像や音声など、関係のない2つのドメイン間のマッピングを、監督なしで学ぶことは、難しい作業である。 本研究では,人間の顔の画像を音声領域に変換する距離保存型生成逆数モデルを提案する。 オーディオ領域は、10種類の異なる楽器群(NSynth \cite{nsynth2017})によって記録される楽音の集合と、その楽器群情報をメル周波数ケプストラム係数(MFCC)特徴とともに組み込む距離メートル法によって定義される。 距離保存を実施するために、顔の対距離と翻訳された音声サンプルとの差を罰する損失項を用いる。 さらに, 生成的逆境モデルにおける距離保存制約が翻訳音声サンプルの多様性を減少させることを見出し, 距離保存制約を用いながら翻訳の多様性を高めるための補助判別器を提案する。 また、結果の視覚的な実演と、翻訳の忠実度に関する数値解析も提供する。 提案されたモデルの学習翻訳のビデオデモはhttps://www.dropbox.com/s/the176w9obq8465/face_to_musical_note.mov? dl=0。

Learning a mapping between two unrelated domains-such as image and audio, without any supervision is a challenging task. In this work, we propose a distance-preserving generative adversarial model to translate images of human faces into an audio domain. The audio domain is defined by a collection of musical note sounds recorded by 10 different instrument families (NSynth \cite{nsynth2017}) and a distance metric where the instrument family class information is incorporated together with a mel-frequency cepstral coefficients (MFCCs) feature. To enforce distance-preservation, a loss term that penalizes difference between pairwise distances of the faces and the translated audio samples is used. Further, we discover that the distance preservation constraint in the generative adversarial model leads to reduced diversity in the translated audio samples, and propose the use of an auxiliary discriminator to enhance the diversity of the translations while using the distance preservation constraint. We also provide a visual demonstration of the results and numerical analysis of the fidelity of the translations. A video demo of our proposed model's learned translation is available in https://www.dropbox.com/s/the176w9obq8465/face_to_musical_note.mov?dl=0.
翻訳日:2022-11-17 13:36:01 公開日:2020-06-24
# 機械学習に基づく診断意思決定支援における診断精度と効果

Diagnosis Prevalence vs. Efficacy in Machine-learning Based Diagnostic Decision Support ( http://arxiv.org/abs/2006.13737v1 )

ライセンス: Link先を確認
Gil Alon, Elizabeth Chen, Guergana Savova, Carsten Eickhoff(参考訳) 最近の多くの研究では、少数のICD-9-CMコードを予測するために機械学習を使用している。 実際には、医師はより広い範囲の診断を考慮しなくてはならない。 本研究は,icd-9-cm符号を電子カルテ特性に基づいて予測し,診断率とシステム性能の関係を実証することにより,従来法外な評価条件をより均等にすることを目的としている。 入院ごとにMIMIC-IIIデータセットから患者特徴を抽出した。 43種類の機械学習分類器を訓練,評価した。 このプールの中で最も成功した分類器はMulti-Layer Perceptronであった。 一般的な機械学習の予測に基づき,すべての分類器のF1スコアが低下し,疾患の有病率は低下した。 スコアは50のICD-9-CM符号の0.28から、1000のICD-9-CM符号の0.03に低下した。 統計学的には,病状有病率と有効性の間に中程度の正の相関が認められた(0.5866。

Many recent studies use machine learning to predict a small number of ICD-9-CM codes. In practice, on the other hand, physicians have to consider a broader range of diagnoses. This study aims to put these previously incongruent evaluation settings on a more equal footing by predicting ICD-9-CM codes based on electronic health record properties and demonstrating the relationship between diagnosis prevalence and system performance. We extracted patient features from the MIMIC-III dataset for each admission. We trained and evaluated 43 different machine learning classifiers. Among this pool, the most successful classifier was a Multi-Layer Perceptron. In accordance with general machine learning expectation, we observed all classifiers' F1 scores to drop as disease prevalence decreased. Scores fell from 0.28 for the 50 most prevalent ICD-9-CM codes to 0.03 for the 1000 most prevalent ICD-9-CM codes. Statistical analyses showed a moderate positive correlation between disease prevalence and efficacy (0.5866).
翻訳日:2022-11-17 13:35:11 公開日:2020-06-24
# サーロゲートモデルと深層強化学習に基づく不平衡分布ネットワークのモデルフリー電圧制御

Model-Free Voltage Regulation of Unbalanced Distribution Network Based on Surrogate Model and Deep Reinforcement Learning ( http://arxiv.org/abs/2006.13992v1 )

ライセンス: Link先を確認
Di Cao, Junbo Zhao, Weihao Hu, Fei Ding, Qi Huang, Zhe Chen, Frede Blaabjerg(参考訳) 配電系統のトポロジーとパラメータの正確な知識は、良好な電圧制御を達成するために必要であるが、実際に取得することは困難である。 本稿では,サロゲートモデルと深部強化学習(DRL)に基づくモデルフリーアプローチを提案する。 バランスの取れない三相シナリオにも対処できるように拡張しました。 鍵となる考え方は、誤りや不確実性に影響を受ける元の不正確なモデルを使用するのではなく、履歴データから各ノードの電力注入と電圧変動の関係を捉える代理モデルを学ぶことである。 これにより、DRLと学習した代理モデルを統合することができる。 特にDRLは、サロゲートモデルとの連続的な相互作用から得られる経験から最適制御戦略を学習するために用いられる。 統合フレームワークには3つのネットワーク、すなわちサロゲートモデル、アクタ、批判ネットワークのトレーニングが含まれており、オンライン意思決定にディープラーニングとdrlの強力な非線形適合能力を完全に活用している。 3相不均衡のシナリオに対処するために、いくつかの単相アプローチも拡張されており、ieee 123-busシステムのシミュレーション結果から、提案手法が正確な物理モデルを使用するものと同様の性能を達成できることが示されている。

Accurate knowledge of the distribution system topology and parameters is required to achieve good voltage controls, but this is difficult to obtain in practice. This paper develops a model-free approach based on the surrogate model and deep reinforcement learning (DRL). We have also extended it to deal with unbalanced three-phase scenarios. The key idea is to learn a surrogate model to capture the relationship between the power injections and voltage fluctuation of each node from historical data instead of using the original inaccurate model affected by errors and uncertainties. This allows us to integrate the DRL with the learned surrogate model. In particular, DRL is applied to learn the optimal control strategy from the experiences obtained by continuous interactions with the surrogate model. The integrated framework contains training three networks, i.e., surrogate model, actor, and critic networks, which fully leverage the strong nonlinear fitting ability of deep learning and DRL for online decision making. Several single-phase approaches have also been extended to deal with three-phase unbalance scenarios and the simulation results on the IEEE 123-bus system show that our proposed method can achieve similar performance as those that use accurate physical models.
翻訳日:2022-11-17 13:34:05 公開日:2020-06-24
# 線形代数・統計・グラフ問題の解法のためのベクトル行列ベクトルクエリ

Vector-Matrix-Vector Queries for Solving Linear Algebra, Statistics, and Graph Problems ( http://arxiv.org/abs/2006.14015v1 )

ライセンス: Link先を確認
Cyrus Rashtchian, David P. Woodruff and Hanlin Zhu(参考訳) ベクトル行列-ベクトルクエリによる行列学習の一般的な問題を考える。 これらのクエリは、固定フィールド上の $\boldsymbol{u}^{\mathrm{t}}\boldsymbol{m}\boldsymbol{v}$ の値を与え、特定のベクトルの組 $\boldsymbol{u},\boldsymbol{v} \in \mathbb{f}^n$ に対して$\mathbb{f}$ を与える。 これらのクエリを動機づけるため、独立セットクエリ、カットクエリ、標準グラフクエリなど、これまで研究されてきた多くのモデルを一般化する。 また、最近研究された行列ベクトルクエリモデルも特化している。 我々の研究は探索的で広範であり、線形代数、統計、グラフにまたがる様々な問題に対して、新しい上と下の境界を提供する。 結果の多くはほぼ厳密であり、線形代数、ランダム化アルゴリズム、通信複雑性といった様々な手法を用いています。

We consider the general problem of learning about a matrix through vector-matrix-vector queries. These queries provide the value of $\boldsymbol{u}^{\mathrm{T}}\boldsymbol{M}\boldsymbol{v}$ over a fixed field $\mathbb{F}$ for a specified pair of vectors $\boldsymbol{u},\boldsymbol{v} \in \mathbb{F}^n$. To motivate these queries, we observe that they generalize many previously studied models, such as independent set queries, cut queries, and standard graph queries. They also specialize the recently studied matrix-vector query model. Our work is exploratory and broad, and we provide new upper and lower bounds for a wide variety of problems, spanning linear algebra, statistics, and graphs. Many of our results are nearly tight, and we use diverse techniques from linear algebra, randomized algorithms, and communication complexity.
翻訳日:2022-11-17 13:33:45 公開日:2020-06-24
# 極端に等重なサブセットポートフォリオ

Deeply Equal-Weighted Subset Portfolios ( http://arxiv.org/abs/2006.14402v1 )

ライセンス: Link先を確認
Sang Il Lee(参考訳) 推定誤差に対する最適化ポートフォリオの高感度は、その実用的適用を妨げている。 この感度を緩和するために、Deeply Equal-Weighted Subset Portfolio (DEWSP)と呼ばれる新しいポートフォリオモデルを提案する。 DEWSPは、資産宇宙における上位N位の資産のサブセットであり、そのメンバーは、ディープラーニングアルゴリズムから予測されたリターンに基づいて選択され、等しく重み付けされる。 そこで,我々は,n個の異なるサイズのdewspsの性能を,過去の平均リターンに基づくトップnのランク付け資産のサブセットである最適化ポートフォリオや歴史的に均等なサブセットポートフォリオ(hewsps)など,他のタイプのポートフォリオのパフォーマンスと比較評価する。 まず、DEWSPsは、ベンチマークであるHEWSPsと比較して、月次シャープ比の0.24%から5.15%の改善率を提供します。 加えて、DEWSPは専門家の努力に頼るのではなく、純粋にデータ駆動のアプローチで構築されている。 DEWSPは、サイズNを調整することで、相対リスクを目標とし、資産宇宙のEWPのベースラインに戻ることもできる。 これらの利点により、dewspは実際に競争力がある。

The high sensitivity of optimized portfolios to estimation errors has prevented their practical application. To mitigate this sensitivity, we propose a new portfolio model called a Deeply Equal-Weighted Subset Portfolio (DEWSP). DEWSP is a subset of top-N ranked assets in an asset universe, the members of which are selected based on the predicted returns from deep learning algorithms and are equally weighted. Herein, we evaluate the performance of DEWSPs of different sizes N in comparison with the performance of other types of portfolios such as optimized portfolios and historically equal-weighed subset portfolios (HEWSPs), which are subsets of top-N ranked assets based on the historical mean returns. We found the following advantages of DEWSPs: First, DEWSPs provides an improvement rate of 0.24% to 5.15% in terms of monthly Sharpe ratio compared to the benchmark, HEWSPs. In addition, DEWSPs are built using a purely data-driven approach rather than relying on the efforts of experts. DEWSPs can also target the relative risk and return to the baseline of the EWP of an asset universe by adjusting the size N. Finally, the DEWSP allocation mechanism is transparent and intuitive. These advantages make DEWSP competitive in practice.
翻訳日:2022-11-17 13:33:31 公開日:2020-06-24
# データセットの分析・比較ツールとしてのフラグ多様体

The flag manifold as a tool for analyzing and comparing data sets ( http://arxiv.org/abs/2006.14086v1 )

ライセンス: Link先を確認
Xiaofeng Ma, Michael Kirby, Chris Peterson(参考訳) データ雲の形状と配向は、パターン認識システムを見極める観測の多様性を反映している。 グラスマン多様体を利用する部分空間法は、そのような変数を扱う上で大きな助けとなった。 しかし、データクラウドが他のクラスからの階層要素に対応する十分な数の外れ値を含んでいる場合や、データポイントの数が機能数より大きい場合、この有用性は低下し始めます。 フラグ多様体を用いたネスト付き部分空間法は,そのような余剰要素を扱うのにどのように役立つかを説明する。 ネスト部分空間のパラメータ空間であるフラッグ多様体は、グラスマン多様体の自然な幾何学的一般化である。 フラッグ多様体上で実際の比較を行うため、フラッグ多様体上の点 $[A], [B]$ 間の距離を決定するアルゴリズムが提案され、そこでは、$A$ と $B$ は、任意の直交行列の代表で、$[A]$ と $[B]$ は、これらの最小長測地線の初期方向を決定するアルゴリズムが提案される。 このアプローチは、環境次元、サンプル次元、フラグ構造の影響を示す(ハイパー)スペクトル画像の文脈で説明される。

The shape and orientation of data clouds reflect variability in observations that can confound pattern recognition systems. Subspace methods, utilizing Grassmann manifolds, have been a great aid in dealing with such variability. However, this usefulness begins to falter when the data cloud contains sufficiently many outliers corresponding to stray elements from another class or when the number of data points is larger than the number of features. We illustrate how nested subspace methods, utilizing flag manifolds, can help to deal with such additional confounding factors. Flag manifolds, which are parameter spaces for nested subspaces, are a natural geometric generalization of Grassmann manifolds. To make practical comparisons on a flag manifold, algorithms are proposed for determining the distances between points $[A], [B]$ on a flag manifold, where $A$ and $B$ are arbitrary orthogonal matrix representatives for $[A]$ and $[B]$, and for determining the initial direction of these minimal length geodesics. The approach is illustrated in the context of (hyper) spectral imagery showing the impact of ambient dimension, sample dimension, and flag structure.
翻訳日:2022-11-17 13:27:14 公開日:2020-06-24
# 自動車画像生成のための深部畳み込み型GAN

Deep Convolutional GANs for Car Image Generation ( http://arxiv.org/abs/2006.14380v1 )

ライセンス: Link先を確認
Dong Hui Kim(参考訳) 本稿では,カーイメージ生成における深い畳み込みGANの適用について検討する。 一般的なdcganアーキテクチャを改善し、wassersteinの損失を実装してモードの崩壊を減少させ、確率性を導入するために判別器の最後にドロップアウトを導入する。 さらに,生成器の端に畳み込み層を導入し,表現性や滑らかな雑音を改善する。 DCGANアーキテクチャにおけるこれらの改善は、FIDを195.922(ベースライン)から165.966に削減できる新しいBoolGANアーキテクチャの提案を含む。

In this paper, we investigate the application of deep convolutional GANs on car image generation. We improve upon the commonly used DCGAN architecture by implementing Wasserstein loss to decrease mode collapse and introducing dropout at the end of the discrimiantor to introduce stochasticity. Furthermore, we introduce convolutional layers at the end of the generator to improve expressiveness and smooth noise. All of these improvements upon the DCGAN architecture comprise our proposal of the novel BoolGAN architecture, which is able to decrease the FID from 195.922 (baseline) to 165.966.
翻訳日:2022-11-17 13:26:54 公開日:2020-06-24
# INGO: プロジェクトのオントロジーと関連データの提供

DINGO: an ontology for projects and grants linked data ( http://arxiv.org/abs/2006.13438v1 )

ライセンス: Link先を確認
Diego Chialva, Alexis-Michel Mugabushaka(参考訳) 我々は,プロジェクトや資金提供,アクタ,特に研究現場における資金政策に対して,セマンティック対応アプリケーション用のデータをモデル化するための機械可読性拡張可能なフレームワークを提供するオントロジーであるdingo(data integration for grants ontology)を提案する。 INGOは、資金、研究、政策の多様さに対応するために、高度なモデリング能力と弾力性を得るように設計されている。 本論では,その主な特徴,開発に伴う原則,コミュニティの獲得,維持と進化について論じる。

We present DINGO (Data INtegration for Grants Ontology), an ontology that provides a machine readable extensible framework to model data for semantically-enabled applications relative to projects, funding, actors, and, notably, funding policies in the research landscape. DINGO is designed to yield high modeling power and elasticity to cope with the huge variety in funding, research and policy practices, which makes it applicable also to other areas besides research where funding is an important aspect. We discuss its main features, the principles followed for its development, its community uptake, its maintenance and evolution.
翻訳日:2022-11-17 13:26:42 公開日:2020-06-24
# ナミラサッカー2次元シミュレーションチーム記述論文2020

Namira Soccer 2D Simulation Team Description Paper 2020 ( http://arxiv.org/abs/2006.13534v1 )

ライセンス: Link先を確認
Ehsan Asali, Farzin Negahbani, Shahriyar Bamaei, Zahra Abbasi(参考訳) 本稿では,近年のナミラ2次元サッカーシミュレーションチームに実装された手法とアイデアについて考察する。 コード開発の過程で多くの科学的およびプログラミング的活動が行われたが、ここでは最も優れたものについて詳しく述べる。 ローカライズのためのKalmanフィルタ法と2つの有用なソフトウェアパッケージについて論じる。 namira は agent2d-3.1.1 をベースコードとして、librcsc-4.1.0 をライブラリとして使用する。

In this article, we will discuss methods and ideas which are implemented on Namira 2D Soccer Simulation team in the recent year. Numerous scientific and programming activities were done in the process of code development, but we will mention the most outstanding ones in details. A Kalman filtering method for localization and two helpful software packages will be discussed here. Namira uses agent2d-3.1.1 as base code and librcsc-4.1.0 as library with some deliberate changes.
翻訳日:2022-11-17 13:26:29 公開日:2020-06-24
# チームスポーツゲームにおける競争バランス

Competitive Balance in Team Sports Games ( http://arxiv.org/abs/2006.13763v1 )

ライセンス: Link先を確認
Sofia M Nikolakaki and Ogheneovo Dibie and Ahmad Beirami and Nicholas Peterson and Navid Aghdaie and Kazi Zaman(参考訳) 競争はプレイヤーの満足度とマルチプレイヤーオンラインゲームにおけるエンゲージメントの原動力である。 従来のマッチメイキングシステムは、EloスコアやTrueSkillといった、類似した個々のスキルレベルのチームによるマッチの作成を目的としています。 しかし、チームダイナミクスはそのような線形予測器だけでは捉えられない。 近年,プレイヤーとチームの機能として勝利の確率を目標とする非線形予測器は,これらの線形スキルベース手法よりも優れていた。 本稿では,最終スコア差を用いることで,競争バランスに対するより良い予測指標が得られることを示す。 また、慎重に選択されたチームと個々の機能に基づいてトレーニングされた線形モデルは、より強力なニューラルネットワークモデルのパフォーマンスをほぼ達成し、2桁の推測速度の改善を提供する。 これは、オンラインマッチングシステムにおける実装に対する大きな期待を示している。

Competition is a primary driver of player satisfaction and engagement in multiplayer online games. Traditional matchmaking systems aim at creating matches involving teams of similar aggregated individual skill levels, such as Elo score or TrueSkill. However, team dynamics cannot be solely captured using such linear predictors. Recently, it has been shown that nonlinear predictors that target to learn probability of winning as a function of player and team features significantly outperforms these linear skill-based methods. In this paper, we show that using final score difference provides yet a better prediction metric for competitive balance. We also show that a linear model trained on a carefully selected set of team and individual features achieves almost the performance of the more powerful neural network model while offering two orders of magnitude inference speed improvement. This shows significant promise for implementation in online matchmaking systems.
翻訳日:2022-11-17 13:26:21 公開日:2020-06-24
# ディープラーニングワークロードの効率的なエラスティックスケーリング

Effective Elastic Scaling of Deep Learning Workloads ( http://arxiv.org/abs/2006.13878v1 )

ライセンス: Link先を確認
Vaibhav Saxena, K. R. Jayaram, Saurav Basu, Yogish Sabharwal and Ashish Verma(参考訳) 学術、政府、産業におけるディープラーニング(DL)の利用の増加により、オンプレミスおよびクラウドでホストされるディープラーニングプラットフォームの人気が高まり、その目標は、企業が高価なリソースを効果的に活用し、そのリソースを公平かつ効果的な方法で複数のチーム間で共有することにある。 本稿では,大規模学習プラットフォーム上でのDeep Learning(DL)ジョブの弾性スケーリングについて検討し,DLトレーニングジョブのための新たなリソース割り当て戦略を提案する。 まず、DLワークロードを分析し、DLジョブが最終的な精度に影響を与えることなく、さまざまなバッチサイズで実行可能であるという事実を活用する。 複数のノード上で実行される場合のスケーリング効率に基づいて、動的バッチサイズを個々のDLジョブに割り当てる最適化問題を定式化する。 高速な動的プログラミングに基づくオプティマイザを設計し、スケールアップ/ダウン可能なジョブをリアルタイムで決定し、このオプティマイザをオートスケーラに使用して、割り当てられたリソースと個々のDLジョブのバッチサイズを動的に変更する。 当社のエラスティックスケーリングアルゴリズムは、gpuの数をスケールするがバッチサイズは変更しない強力なベースラインアルゴリズムと比較して、最大で約2 \times$のジョブを完了できることを実証的に示しています。 また,本アルゴリズムの平均完了時間は,ベースラインよりも最大で約10 \times$であることを示した。

The increased use of deep learning (DL) in academia, government and industry has, in turn, led to the popularity of on-premise and cloud-hosted deep learning platforms, whose goals are to enable organizations utilize expensive resources effectively, and to share said resources among multiple teams in a fair and effective manner. In this paper, we examine the elastic scaling of Deep Learning (DL) jobs over large-scale training platforms and propose a novel resource allocation strategy for DL training jobs, resulting in improved job run time performance as well as increased cluster utilization. We begin by analyzing DL workloads and exploit the fact that DL jobs can be run with a range of batch sizes without affecting their final accuracy. We formulate an optimization problem that explores a dynamic batch size allocation to individual DL jobs based on their scaling efficiency, when running on multiple nodes. We design a fast dynamic programming based optimizer to solve this problem in real-time to determine jobs that can be scaled up/down, and use this optimizer in an autoscaler to dynamically change the allocated resources and batch sizes of individual DL jobs. We demonstrate empirically that our elastic scaling algorithm can complete up to $\approx 2 \times$ as many jobs as compared to a strong baseline algorithm that also scales the number of GPUs but does not change the batch size. We also demonstrate that the average completion time with our algorithm is up to $\approx 10 \times$ faster than that of the baseline.
翻訳日:2022-11-17 13:25:14 公開日:2020-06-24
# ディープニューラルネットワークのためのプロセッサアレイ設計の難しさについて

On the Difficulty of Designing Processor Arrays for Deep Neural Networks ( http://arxiv.org/abs/2006.14008v1 )

ライセンス: Link先を確認
Kevin Stehle and G\"unther Schindler and Holger Fr\"oning(参考訳) シストリックアレイ(Systolic arrays)は、特に人工ニューラルネットワークの処理で見られるCMOS技術トレンドや線形代数演算と直交する、有望な計算概念である。 このようなディープラーニング手法を広範囲のアプリケーションで最近成功させたことにより、概念的には畳み込みや完全連結層に基づいているが、詳細は大きな設計空間による操作の多様性を示している: オペランドの次元は、受容的フィールドサイズ、特徴数、ストライディング、拡張、特徴のグループ化といった設計原理に依存するため、大きく異なる。 最後に、最近のネットワークは、resnet や densenet のような様々な接続によって、以前の平易なフィードフォワードモデルを拡張している。 最適なシストリックアレイ構成を選択する問題は解析的には解決できず、代わりに、全サイクル、利用、データ移動量の観点から、最適性に関する高速かつ正確な推論を容易にする方法やツールが必要となる。 本稿では,線形代数演算のための重み付き定常なシストリックアレイの軽量モデルであるCamuyを紹介し,シストリックアレイ次元や入出力ビット幅など,異なる構成の迅速な探索を可能にする。 Camuyはアクセラレーターデザイナが特定のネットワークアーキテクチャに最適な構成を見つけるのに役立つか、あるいはさまざまなネットワークアーキテクチャで堅牢なパフォーマンスを実現するのに役立つ。 カスタムオペレータを通じて、既存の機械学習ツールスタック(tensorflowなど)へのシンプルな統合を提供する。 本稿では,要求サイクル,データ移動コスト,およびシストリックアレイの利用率を推定し,ネットワークアーキテクチャ設計の進歩が,シストリックアレイに基づく加速器の推論効率にどのように影響するかを示すために,人気のあるDNNモデルの解析を行う。

Systolic arrays are a promising computing concept which is in particular inline with CMOS technology trends and linear algebra operations found in the processing of artificial neural networks. The recent success of such deep learning methods in a wide set of applications has led to a variety of models, which albeit conceptual similar as based on convolutions and fully-connected layers, in detail show a huge diversity in operations due to a large design space: An operand's dimension varies substantially since it depends on design principles such as receptive field size, number of features, striding, dilating and grouping of features. Last, recent networks extent previously plain feedforward models by various connectivity, such as in ResNet or DenseNet. The problem of choosing an optimal systolic array configuration cannot be solved analytically, thus instead methods and tools are required that facilitate a fast and accurate reasoning about optimality in terms of total cycles, utilization, and amount of data movements. In this work we introduce Camuy, a lightweight model of a weight-stationary systolic array for linear algebra operations that allows quick explorations of different configurations, such as systolic array dimensions and input/output bitwidths. Camuy aids accelerator designers in either finding optimal configurations for a particular network architecture or for robust performance across a variety of network architectures. It offers simple integration into existing machine learning tool stacks (e.g TensorFlow) through custom operators. We present an analysis of popular DNN models to illustrate how it can estimate required cycles, data movement costs, as well as systolic array utilization, and show how the progress in network architecture design impacts the efficiency of inference on accelerators based on systolic arrays.
翻訳日:2022-11-17 13:24:48 公開日:2020-06-24
# アクセント音声に対するASRのブラックボックス適応

Black-box Adaptation of ASR for Accented Speech ( http://arxiv.org/abs/2006.13519v1 )

ライセンス: Link先を確認
Kartik Khandelwal, Preethi Jyothi, Abhijeet Awasthi, Sunita Sarawagi(参考訳) 我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。 主要なオンラインasrサービスは、メインストリームのアクセントで印象的なパフォーマンスを得ていますが、サブ人口ではパフォーマンスが悪く、インドのアクセントでgoogleのasr apiによって達成された単語エラー率(wer)は、米国のアクセントのほぼ2倍です。 既存の適応メソッドは、モデルパラメータにアクセスするか、出力の書き起こしにエラー訂正モジュールをオーバーレイする必要がある。 我々は、アクセントエラーを修正するために、出力と元の音声との関連性の必要性を強調した。 そこで本研究では,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。 きめ細かいマージアルゴリズムは、既存の単語レベルの組み合わせ戦略よりもアクセントエラーの修正に優れている。 3つの主要なASRモデルをサービスとして使用したインドとオーストラリアでのアクセント実験では、ローカルモデルとサービスモデルの両方に対してWERの28%の相対的な減少を実現している。

We introduce the problem of adapting a black-box, cloud-based ASR system to speech from a target accent. While leading online ASR services obtain impressive performance on main-stream accents, they perform poorly on sub-populations - we observed that the word error rate (WER) achieved by Google's ASR API on Indian accents is almost twice the WER on US accents. Existing adaptation methods either require access to model parameters or overlay an error-correcting module on output transcripts. We highlight the need for correlating outputs with the original speech to fix accent errors. Accordingly, we propose a novel coupling of an open-source accent-tuned local model with the black-box service where the output from the service guides frame-level inference in the local model. Our fine-grained merging algorithm is better at fixing accent errors than existing word-level combination strategies. Experiments on Indian and Australian accents with three leading ASR models as service, show that we achieve as much as 28% relative reduction in WER over both the local and service models.
翻訳日:2022-11-17 13:17:58 公開日:2020-06-24
# 多言語共同学習型音響・書記語埋め込み

Multilingual Jointly Trained Acoustic and Written Word Embeddings ( http://arxiv.org/abs/2006.14007v1 )

ライセンス: Link先を確認
Yushi Hu, Shane Settle, Karen Livescu(参考訳) 音響単語埋め込み(AWEs)は、音声単語セグメントのベクトル表現である。 AWEは文字列の埋め込みと共同で学習し、音素的に意味のある単語の埋め込みを生成するか、または音響的に接地された単語埋め込み(AGWE)を生成する。 このような埋め込みは、音声検索、認識、発話語発見を改善するために使われてきた。 本研究では、このアイデアを複数の低リソース言語に拡張する。 我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。 事前学習されたモデルは、無意味なゼロリソース言語や、低リソース言語からのデータの微調整に使用できる。 また,言語間の情報共有を改善するために,電話ラベルに代わる特徴的特徴についても検討した。 私たちは12言語で単語識別タスクでモデルをテストします。 11の言語でトレーニングし、残りの未確認言語でテストすると、我々のモデルは動的時間ワープのような従来の教師なしアプローチよりも優れています。 トレーニング済みのモデルを新しい言語から1時間または10分のデータで微調整した後、通常、ターゲット言語データのみのトレーニングよりもパフォーマンスがはるかに良い。 また,音声の監視は文字列よりも性能が向上し,特徴的監視は対象言語における未認識の携帯電話の処理に有用であることがわかった。

Acoustic word embeddings (AWEs) are vector representations of spoken word segments. AWEs can be learned jointly with embeddings of character sequences, to generate phonetically meaningful embeddings of written words, or acoustically grounded word embeddings (AGWEs). Such embeddings have been used to improve speech retrieval, recognition, and spoken term discovery. In this work, we extend this idea to multiple low-resource languages. We jointly train an AWE model and an AGWE model, using phonetically transcribed data from multiple languages. The pre-trained models can then be used for unseen zero-resource languages, or fine-tuned on data from low-resource languages. We also investigate distinctive features, as an alternative to phone labels, to better share cross-lingual information. We test our models on word discrimination tasks for twelve languages. When trained on eleven languages and tested on the remaining unseen language, our model outperforms traditional unsupervised approaches like dynamic time warping. After fine-tuning the pre-trained models on one hour or even ten minutes of data from a new language, performance is typically much better than training on only the target-language data. We also find that phonetic supervision improves performance over character sequences, and that distinctive feature supervision is helpful in handling unseen phones in the target language.
翻訳日:2022-11-17 13:17:39 公開日:2020-06-24
# GIFnets:異なるGIFエンコーディングフレームワーク

GIFnets: Differentiable GIF Encoding Framework ( http://arxiv.org/abs/2006.13434v1 )

ライセンス: Link先を確認
Innfarn Yoo and Xiyang Luo and Yilin Wang and Feng Yang and Peyman Milanfar(参考訳) Graphics Interchange Format (GIF)は広く使われている画像ファイルフォーマットである。 パレット色が限られているため、GIFエンコーディングはしばしばカラーバンドアーティファクトを導入している。 伝統的に、ディザリングはカラーバンドリングを減らすために適用されるが、ドットパターンアーティファクトを導入する。 アーティファクトの削減とgifエンコーディングの効率化のために,palettenet,dithernet,bandingnetの3つの新たなニューラルネットワークを含む,差別化可能なgifエンコーディングパイプラインを導入する。 これら3つのネットワークはそれぞれ、GIFエンコーディングパイプライン内で重要な機能を提供する。 PaletteNetは入力画像が与えられた最適に近い色パレットを予測する。 DitherNetは入力画像を操作してカラーバンドのアーティファクトを減らし、従来のディザリングに代わるものを提供する。 最後に、BandingNetはカラーバンディングを検出するように設計されており、GIF画像に特有な新たな知覚損失を提供する。 われわれが知る限り、これはディープニューラルネットワークに基づく、初めての完全に微分可能なgifエンコーディングパイプラインであり、既存のgifデコーダと互換性がある。 ユーザスタディでは、Floyd-SteinbergベースのGIFエンコーディングよりもアルゴリズムが優れていることが示されている。

Graphics Interchange Format (GIF) is a widely used image file format. Due to the limited number of palette colors, GIF encoding often introduces color banding artifacts. Traditionally, dithering is applied to reduce color banding, but introducing dotted-pattern artifacts. To reduce artifacts and provide a better and more efficient GIF encoding, we introduce a differentiable GIF encoding pipeline, which includes three novel neural networks: PaletteNet, DitherNet, and BandingNet. Each of these three networks provides an important functionality within the GIF encoding pipeline. PaletteNet predicts a near-optimal color palette given an input image. DitherNet manipulates the input image to reduce color banding artifacts and provides an alternative to traditional dithering. Finally, BandingNet is designed to detect color banding, and provides a new perceptual loss specifically for GIF images. As far as we know, this is the first fully differentiable GIF encoding pipeline based on deep neural networks and compatible with existing GIF decoders. User study shows that our algorithm is better than Floyd-Steinberg based GIF encoding.
翻訳日:2022-11-17 13:17:07 公開日:2020-06-24
# 多層コンディショナル特徴変調を用いたフレキシブル画像デノージング

Flexible Image Denoising with Multi-layer Conditional Feature Modulation ( http://arxiv.org/abs/2006.13500v1 )

ライセンス: Link先を確認
Jiazhi Du, Xin Qiao, Zifei Yan, Hongzhi Zhang, and Wangmeng Zuo(参考訳) フレキシブルな非blind画像デノイジングでは、既存のディープネットワークは通常、ノイズ画像とノイズレベルマップの両方を入力として、単一のモデルでさまざまなノイズレベルを処理する。 しかしながら、この種のソリューションでは、ノイズ分散(すなわちノイズレベル)は、ノイズ除去と細部保存のバランスが制限されるチャネルシフトにより畳み込み特徴の第1層を変調するためにのみデプロイされる。 本稿では,U-Netバックボーンに複数層条件付き特徴変調(CFM)モジュールを組み込んだフレキシブル画像符号化ネットワーク(CFMNet)を提案する。 CFMNetは、第1層のみのチャネルワイドシフトと比較して、複数のCFM層を配置することでノイズレベル情報をよりよく利用することができる。 さらに、各cfmモジュールはノイズ除去と細部保存のトレードオフを改善するため、ノイズ画像とノイズレベルマップの両方から畳み込み特徴を入力として取り込む。 実験の結果, cfmnetは, フレキシブルな非盲検音にノイズレベル情報を利用するのに有効であり, 定量的測定と視覚品質の両面で, 既存の深部画像推定法に対して好適な効果を示すことがわかった。

For flexible non-blind image denoising, existing deep networks usually take both noisy image and noise level map as the input to handle various noise levels with a single model. However, in this kind of solution, the noise variance (i.e., noise level) is only deployed to modulate the first layer of convolution feature with channel-wise shifting, which is limited in balancing noise removal and detail preservation. In this paper, we present a novel flexible image enoising network (CFMNet) by equipping an U-Net backbone with multi-layer conditional feature modulation (CFM) modules. In comparison to channel-wise shifting only in the first layer, CFMNet can make better use of noise level information by deploying multiple layers of CFM. Moreover, each CFM module takes onvolutional features from both noisy image and noise level map as input for better trade-off between noise removal and detail preservation. Experimental results show that our CFMNet is effective in exploiting noise level information for flexible non-blind denoising, and performs favorably against the existing deep image denoising methods in terms of both quantitative metrics and visual quality.
翻訳日:2022-11-17 13:16:53 公開日:2020-06-24
# 正半相行列多様体上の軌道解析による巡回活動の統計のモデル化

Modelling the Statistics of Cyclic Activities by Trajectory Analysis on the Manifold of Positive-Semi-Definite Matrices ( http://arxiv.org/abs/2006.13895v1 )

ライセンス: Link先を確認
Ettore Maria Celozzi, Luca Ciabini, Luca Cultrera, Pietro Pala, Stefano Berretti, Mohamed Daoudi, Alberto Del Bimbo(参考訳) 本稿では,例えば体育演習などの循環体動作の反復を特徴付けるための統計要約を抽出し,観察された動作のテンプレートへの適合性を確認し,正しく実行されていない動作の一部(もしあれば)を強調するためのモデルを提案する。 提案システムは,2つのポーズ間の距離を計算するために,2つのポーズ間の距離を計算するリーマン計量,各サイクルの始点と終点を検出するモデル,異なるサイクルのポーズを時間的に整列して,異なるサイクルにおけるポーズの平均とポーズのばらつきを正確に推定するモデルである。 提案モデルは,インターネットから撮影したジム映像を用いて実演する。

In this paper, a model is presented to extract statistical summaries to characterize the repetition of a cyclic body action, for instance a gym exercise, for the purpose of checking the compliance of the observed action to a template one and highlighting the parts of the action that are not correctly executed (if any). The proposed system relies on a Riemannian metric to compute the distance between two poses in such a way that the geometry of the manifold where the pose descriptors lie is preserved; a model to detect the begin and end of each cycle; a model to temporally align the poses of different cycles so as to accurately estimate the \emph{cross-sectional} mean and variance of poses across different cycles. The proposed model is demonstrated using gym videos taken from the Internet.
翻訳日:2022-11-17 13:10:01 公開日:2020-06-24
# 3次元運動予測のための連続流関数の学習

3DMotion-Net: Learning Continuous Flow Function for 3D Motion Prediction ( http://arxiv.org/abs/2006.13906v1 )

ライセンス: Link先を確認
Shuaihang Yuan, Xiang Li, Anthony Tzes, Yi Fang(参考訳) 本稿では,従来の2次元連続フレームからの3次元物体スキャンの将来の3次元動きを予測する問題に対処する。 以前の手法は主に骨格の形でのスパース動作予測に焦点を当てていた。 本稿では,3次元点雲からの密集した3次元運動の予測に着目する。 この問題に対処するために,深部ニューラルネットワークのパワーを活用して,時間的に一貫した将来の動きを予測し,連続する点雲間の対応を同時に自然に得る3次元点雲の連続フロー関数を学習する自己教師型アプローチを提案する。 具体的には,空間的および時間的情報をエンコードする3次元点列上の離散点畳み込みを定義する未解決かつ困難なプロセスを排除するために,モデルトレーニング中に最適化された時間的認識型形状記述子を表現するための学習可能な潜時符号を導入する。 さらに,現在のフレームから次のフレームへ3dスキャンを変形する連続流れ場を学習するために,時間的に一貫性のある運動モーファを提案する。 我々は,D-FAUST,SCAPE,TOSCAのベンチマークデータセットについて広範な実験を行い,本手法が時間的不整合入力を処理し,基礎的な真理の監督を必要とせず,一貫した未来の3D動作を生成することを示す。

In this paper, we deal with the problem to predict the future 3D motions of 3D object scans from previous two consecutive frames. Previous methods mostly focus on sparse motion prediction in the form of skeletons. While in this paper we focus on predicting dense 3D motions in the from of 3D point clouds. To approach this problem, we propose a self-supervised approach that leverages the power of the deep neural network to learn a continuous flow function of 3D point clouds that can predict temporally consistent future motions and naturally bring out the correspondences among consecutive point clouds at the same time. More specifically, in our approach, to eliminate the unsolved and challenging process of defining a discrete point convolution on 3D point cloud sequences to encode spatial and temporal information, we introduce a learnable latent code to represent the temporal-aware shape descriptor which is optimized during model training. Moreover, a temporally consistent motion Morpher is proposed to learn a continuous flow field which deforms a 3D scan from the current frame to the next frame. We perform extensive experiments on D-FAUST, SCAPE and TOSCA benchmark data sets and the results demonstrate that our approach is capable of handling temporally inconsistent input and produces consistent future 3D motion while requiring no ground truth supervision.
翻訳日:2022-11-17 13:09:46 公開日:2020-06-24
# ELFW (Extended Labeled Faces in-the-Wild) : 顔セグメンテーションのための拡張クラス

Extended Labeled Faces in-the-Wild (ELFW): Augmenting Classes for Face Segmentation ( http://arxiv.org/abs/2006.13980v1 )

ライセンス: Link先を確認
Rafael Redondo and Jaume Gibert(参考訳) 既存の顔データセットは、認識を妨げるだけでなく、視覚的コンテキストを理解するために意味のある情報を提供するために、隠蔽オブジェクトの十分な表現を欠いていることが多い。 本研究では,拡張ラベル付きfaces in-the-wild (elfw) を導入する。このデータセットには,新たに顔関連カテゴリ -- と追加顔 -- が補完される。 さらに、2つのオブジェクトベースのデータ拡張技術は、ベンチマーク実験において、拡張されたカテゴリのセグメンテーションが改善するだけでなく、残りのカテゴリも利益をもたらすことを明らかにする、非表現のカテゴリを合成的に強化するために展開される。

Existing face datasets often lack sufficient representation of occluding objects, which can hinder recognition, but also supply meaningful information to understand the visual context. In this work, we introduce Extended Labeled Faces in-the-Wild (ELFW), a dataset supplementing with additional face-related categories -- and also additional faces -- the originally released semantic labels in the vastly used Labeled Faces in-the-Wild (LFW) dataset. Additionally, two object-based data augmentation techniques are deployed to synthetically enrich under-represented categories which, in benchmarking experiments, reveal that not only segmenting the augmented categories improves, but also the remaining ones benefit.
翻訳日:2022-11-17 13:09:21 公開日:2020-06-24
# 物体検出とステレオ不一致マップと光フローデータを組み合わせた道路障害物の位置・動的特徴抽出

Road obstacles positional and dynamic features extraction combining object detection, stereo disparity maps and optical flow data ( http://arxiv.org/abs/2006.14011v1 )

ライセンス: Link先を確認
Thiago Rateke and Aldo von Wangenheim(参考訳) インテリジェントな車両ナビゲーションシステムで最も重要なタスクの1つは障害物の検出である。 ナビゲーション目的の視覚認識システムでは障害物を識別することが重要であり,人間の運転に対する警告を発生させるか,自動運転車を誘導して運転決定を下すか,車両の行動に影響を与える可能性のある重要な情報を抽出できることも重要である。 本稿では,受動的視覚から得られるデータを用いて障害物の同定と,これらの物体からクラス,位置,深さ,動作情報を抽出する手法を提案する。 2つの異なるデータセットについて実験を行い,その結果,障害物の潜在的な脅威状態を評価するために深度パターンと運動パターンを用いることにより,良好な効果を示した。

One of the most relevant tasks in an intelligent vehicle navigation system is the detection of obstacles. It is important that a visual perception system for navigation purposes identifies obstacles, and it is also important that this system can extract essential information that may influence the vehicle's behavior, whether it will be generating an alert for a human driver or guide an autonomous vehicle in order to be able to make its driving decisions. In this paper we present an approach for the identification of obstacles and extraction of class, position, depth and motion information from these objects that employs data gained exclusively from passive vision. We performed our experiments on two different data-sets and the results obtained shown a good efficacy from the use of depth and motion patterns to assess the obstacles' potential threat status.
翻訳日:2022-11-17 13:09:05 公開日:2020-06-24
# 教師なし3次元姿勢推定のための運動構造保存表現

Kinematic-Structure-Preserved Representation for Unsupervised 3D Human Pose Estimation ( http://arxiv.org/abs/2006.14107v1 )

ライセンス: Link先を確認
Jogendra Nath Kundu, Siddharth Seth, Rahul M V, Mugalodi Rakesh, R. Venkatesh Babu, Anirban Chakraborty(参考訳) モノクル画像からの3次元人間のポーズの推定は、いくつかの人間中心の応用の鍵となるステップとして注目されている。 しかし,大規模in-studioデータセットの監視を用いて開発されたポーズ推定モデルの一般化性は疑問視されている。 この欠点に対処するために弱い教師付きモデルが提案されているが、そのようなモデルの性能は2Dポーズやマルチビューイメージペアのような関連するタスクにおいてペアによる監督が可能であることに依存している。 対照的に, 2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。 我々のポーズ推定フレームワークは,骨長比が固定された骨格関節接続情報など,基礎となる3次元構造を定義する,最小限の事前知識に依存している。 提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。 この設計は、効果的なポーズの不連続を刺激する適切なボトルネックとして機能するだけでなく、ポーズマッパーへの明示的な潜在埋め込みの訓練を避けるための解釈可能な潜在的なポーズ表現をもたらす。 さらに、不安定な対向的な設定を欠いたデコーダを再利用してエネルギーベースの損失を形式化し、実験室の設定を超えて、現場のビデオから学ぶことができる。 ヒト3.6MとMPI-INF-3DHPデータセットの両方で、最先端の教師なし、弱教師付きポーズ推定性能を示す。 未知の環境における定性的な結果により、より優れた一般化能力が確立される。

Estimation of 3D human pose from monocular image has gained considerable attention, as a key step to several human-centric applications. However, generalizability of human pose estimation models developed using supervision on large-scale in-studio datasets remains questionable, as these models often perform unsatisfactorily on unseen in-the-wild environments. Though weakly-supervised models have been proposed to address this shortcoming, performance of such models relies on availability of paired supervision on some related tasks, such as 2D pose or multi-view image pairs. In contrast, we propose a novel kinematic-structure-preserved unsupervised 3D pose estimation framework, which is not restrained by any paired or unpaired weak supervisions. Our pose estimation framework relies on a minimal set of prior knowledge that defines the underlying kinematic 3D structure, such as skeletal joint connectivity information with bone-length ratios in a fixed canonical scale. The proposed model employs three consecutive differentiable transformations named as forward-kinematics, camera-projection and spatial-map transformation. This design not only acts as a suitable bottleneck stimulating effective pose disentanglement but also yields interpretable latent pose representations avoiding training of an explicit latent embedding to pose mapper. Furthermore, devoid of unstable adversarial setup, we re-utilize the decoder to formalize an energy-based loss, which enables us to learn from in-the-wild videos, beyond laboratory settings. Comprehensive experiments demonstrate our state-of-the-art unsupervised and weakly-supervised pose estimation performance on both Human3.6M and MPI-INF-3DHP datasets. Qualitative results on unseen environments further establish our superior generalization ability.
翻訳日:2022-11-17 13:08:30 公開日:2020-06-24
# オンライン乱用行動データセットにおけるアノテーション一貫性の分析について

On Analyzing Annotation Consistency in Online Abusive Behavior Datasets ( http://arxiv.org/abs/2006.13507v1 )

ライセンス: Link先を確認
Md Rabiul Awal, Rui Cao, Roy Ka-Wei Lee, Sandra Mitrovi\'c(参考訳) オンラインの虐待行為は、オンライン社会の結束性を損なう重要な問題であり、社会における公衆安全の懸念も提起する。 この問題に動機づけられた研究者たちは、オンライン乱用コンテンツデータセットを提案し、収集し、注釈付けした。 これらのデータセットは、オンラインヘイトスピーチや虐待行動の研究を促進する上で重要な役割を果たす。 しかし、そのようなデータセットのアノテーションは難しい作業であり、ラベルの意味的な違いがぼやけ(例えば虐待や憎しみ)され、しばしば主観的になるため、与えられたテキストの真のラベルとなるべきものについてしばしば議論される。 本研究では,オンラインヘイトおよび虐待コンテンツデータセットにおけるアノテーションの一貫性を研究するための分析フレームワークを提案する。 提案手法を適用し,オンラインヘイトスピーチや虐待行動研究で広く利用されている3つの一般的なデータセットにおけるアノテーションの一貫性を評価する。 既存のデータセットには,特にラベルがセマンティックに類似している場合には,いまだにかなりの量のアノテーションの不整合があることが分かりました。

Online abusive behavior is an important issue that breaks the cohesiveness of online social communities and even raises public safety concerns in our societies. Motivated by this rising issue, researchers have proposed, collected, and annotated online abusive content datasets. These datasets play a critical role in facilitating the research on online hate speech and abusive behaviors. However, the annotation of such datasets is a difficult task; it is often contentious on what should be the true label of a given text as the semantic difference of the labels may be blurred (e.g., abusive and hate) and often subjective. In this study, we proposed an analytical framework to study the annotation consistency in online hate and abusive content datasets. We applied our proposed framework to evaluate the consistency of the annotation in three popular datasets that are widely used in online hate speech and abusive behavior studies. We found that there is still a substantial amount of annotation inconsistency in the existing datasets, particularly when the labels are semantically similar.
翻訳日:2022-11-17 13:07:45 公開日:2020-06-24
# DeepMnemonic: Deep Attentive Encoder-DecoderモデルによるパスワードMnemonic生成

DeepMnemonic: Password Mnemonic Generation via Deep Attentive Encoder-Decoder Model ( http://arxiv.org/abs/2006.13462v1 )

ライセンス: Link先を確認
Yao Cheng, Chang Xu, Zhen Hai, Yingjiu Li(参考訳) パスワードベースのユーザ認証システムのセキュリティには、強いパスワードが不可欠である。 近年,パスワード強度の評価や強力なパスワード生成に多くの努力が払われている。 残念ながら、強力なパスワードの使い勝手や記憶力はほとんど無視されている。 本稿では,強力なパスワード生成と強力なパスワードのユーザビリティのギャップを埋めることを目的としている。 本稿では,ユーザーがパスワードを記憶しやすくするための自然言語文を自動生成する手法を提案する。 パスワードを入力として、パスワードに対して自動的にmnemonic文を生成する、深い注意深いエンコーダ-デコーダフレームワークである \textit{deepmnemonic} を紹介します。 実世界のデータセット上でDeepMnemonicを評価するための広範な実験を行う。 実験の結果,deepmnemonicは,意味的に有意味なmnemonic文を生成する上で,よく知られたベースラインよりも優れていた。 さらに,DeepMnemonicが生成した調音文が,強いパスワードを記憶するのに有効であることを示す。

Strong passwords are fundamental to the security of password-based user authentication systems. In recent years, much effort has been made to evaluate password strength or to generate strong passwords. Unfortunately, the usability or memorability of the strong passwords has been largely neglected. In this paper, we aim to bridge the gap between strong password generation and the usability of strong passwords. We propose to automatically generate textual password mnemonics, i.e., natural language sentences, which are intended to help users better memorize passwords. We introduce \textit{DeepMnemonic}, a deep attentive encoder-decoder framework which takes a password as input and then automatically generates a mnemonic sentence for the password. We conduct extensive experiments to evaluate DeepMnemonic on the real-world data sets. The experimental results demonstrate that DeepMnemonic outperforms a well-known baseline for generating semantically meaningful mnemonic sentences. Moreover, the user study further validates that the generated mnemonic sentences by DeepMnemonic are useful in helping users memorize strong passwords.
翻訳日:2022-11-17 13:07:26 公開日:2020-06-24
# 振り返り損失:ディープニューラルネットワークのトレーニングを改善するために振り返る

Retrospective Loss: Looking Back to Improve Training of Deep Neural Networks ( http://arxiv.org/abs/2006.13593v1 )

ライセンス: Link先を確認
Surgan Jandial, Ayush Chopra, Mausoom Sarkar, Piyush Gupta, Balaji Krishnamurthy, Vineeth Balasubramanian(参考訳) ディープニューラルネットワーク(DNN)は、いくつかのドメインでブレークスルーを実現する強力な学習マシンである。 本研究では,過去のモデル状態から得られる先行経験を活用し,深層ニューラルネットワークモデルのトレーニングを改善するために,新たな振り返り損失を導入する。 レトロスペクティブの損失を最小限に抑え、タスク固有の損失と共に、現在のトレーニングステップのパラメータ状態を、前回のトレーニングステップでパラメータ状態から引き離しながら、最適なパラメータ状態にプッシュする。 簡単なアイデアではあるが,提案手法は画像,音声,テキスト,グラフといった領域にわたる総合的な実験の集合を解析し,提案した損失が入力領域,タスク,アーキテクチャ間での性能向上をもたらすことを示す。

Deep neural networks (DNNs) are powerful learning machines that have enabled breakthroughs in several domains. In this work, we introduce a new retrospective loss to improve the training of deep neural network models by utilizing the prior experience available in past model states during training. Minimizing the retrospective loss, along with the task-specific loss, pushes the parameter state at the current training step towards the optimal parameter state while pulling it away from the parameter state at a previous training step. Although a simple idea, we analyze the method as well as to conduct comprehensive sets of experiments across domains - images, speech, text, and graphs - to show that the proposed loss results in improved performance across input domains, tasks, and architectures.
翻訳日:2022-11-17 13:00:48 公開日:2020-06-24
# 教師なし画像キャプションのためのリカレントリレーショナルメモリネットワーク

Recurrent Relational Memory Network for Unsupervised Image Captioning ( http://arxiv.org/abs/2006.13611v1 )

ライセンス: Link先を確認
Dan Guo, Yang Wang, Peipei Song, Meng Wang(参考訳) 注釈のない教師なしの画像キャプションは、既存のアートがgan(generative adversarial networks)モデルを採用するコンピュータビジョンの新たな課題である。 本稿では,ganではなく,新しいメモリベースネットワークであるrecurrent relational memory network(r^2m$)を提案する。 r^2m$は、非理想的に長文生成のために実行される複雑で繊細な逆学習とは異なり、2段階記憶機構:融合記憶と再帰記憶、共通の視覚概念と生成された単語の間の関係推論を長い期間関連付ける。 R^2M$は、教師なしのイメージトレーニングを通じて視覚的コンテキストを符号化し、教師なしのスタイルで無関係なテキストコーパスから学習することを可能にする。 我々の解は、パラメータの感度が高いGAN法よりも学習可能なパラメータが少なく、計算効率も高い。 我々は,すべてのベンチマークデータセットにおいて,最新技術よりも$r^2m$の優位性を実験的に検証した。

Unsupervised image captioning with no annotations is an emerging challenge in computer vision, where the existing arts usually adopt GAN (Generative Adversarial Networks) models. In this paper, we propose a novel memory-based network rather than GAN, named Recurrent Relational Memory Network ($R^2M$). Unlike complicated and sensitive adversarial learning that non-ideally performs for long sentence generation, $R^2M$ implements a concepts-to-sentence memory translator through two-stage memory mechanisms: fusion and recurrent memories, correlating the relational reasoning between common visual concepts and the generated words for long periods. $R^2M$ encodes visual context through unsupervised training on images, while enabling the memory to learn from irrelevant textual corpus via supervised fashion. Our solution enjoys less learnable parameters and higher computational efficiency than GAN-based methods, which heavily bear parameter sensitivity. We experimentally validate the superiority of $R^2M$ than state-of-the-arts on all benchmark datasets.
翻訳日:2022-11-17 13:00:34 公開日:2020-06-24
# カラーフィルタ設計のための統一最適化手法

Unifying Optimization Methods for Color Filter Design ( http://arxiv.org/abs/2006.13622v1 )

ライセンス: Link先を確認
Graham Finlayson and Yuteng Zhu(参考訳) 最適化によって、カメラがこのフィルターを通して世界を見るとき、より色調になるフィルタを解決できる。 フィルター後のカメラスペクトル感度は、CIE XYZ色マッチング関数からほぼ線形変換された。 vora値(カメラセンサーと人間の視覚センサーが接続するベクトル空間の近接性に関連する指標)を最大化するフィルタに最適化されたより最近の方法。 最適化されたルーサーフィルタとヴォーラフィルタは互いに異なる。 本稿では、XYZ色マッチング関数の正則基底、すなわち、XYZ感性を正則基底の集合に線形変換する場合、Vora-Valueを定義する関数がLurther-condition Optimizationと等価であることを観察することから始める。 この定式化では、Vora-Valueをほぼ最適化するルーサー最適化アルゴリズムが示される。 さらに,修正正規直交ルーサー法がvora値フィルタ最適化と同一色フィルタを求める実験を行った。 特に,修正アルゴリズムは定式化が簡単であり,直接vora値法よりも高速に収束する。

Through optimization we can solve for a filter that when the camera views the world through this filter, it is more colorimetric. Previous work solved for the filter that best satisfied the Luther condition: the camera spectral sensitivities after filtering were approximately a linear transform from the CIE XYZ color matching functions. A more recent method optimized for the filter that maximized the Vora-Value (a measure which relates to the closeness of the vector spaces spanned by the camera sensors and human vision sensors). The optimized Luther- and Vora-filters are different from one another. In this paper we begin by observing that the function defining the Vora-Value is equivalent to the Luther-condition optimization if we use the orthonormal basis of the XYZ color matching functions, i.e. we linearly transform the XYZ sensitivities to a set of orthonormal basis. In this formulation, the Luther-optimization algorithm is shown to almost optimize the Vora-Value. Moreover, experiments demonstrate that the modified orthonormal Luther-method finds the same color filter compared to the Vora-Value filter optimization. Significantly, our modified algorithm is simpler in formulation and also converges faster than the direct Vora-Value method.
翻訳日:2022-11-17 13:00:15 公開日:2020-06-24
# fbk-hupbaがepic-kitchens action recognition 2020チャレンジに参加

FBK-HUPBA Submission to the EPIC-Kitchens Action Recognition 2020 Challenge ( http://arxiv.org/abs/2006.13725v1 )

ライセンス: Link先を確認
Swathikiran Sudhakaran, Sergio Escalera, Oswald Lanz(参考訳) 本報告では,EPIC-Kitchens Action Recognition 2020 Challengeへの提出の技術的詳細について述べる。 私たちが最近開発した時空間的特徴抽出と集約モデルであるgate-shift module (gsm) [1]と、long short-term attention (lsta) [2]の拡張であるegoacoをデプロイした。 我々は,GSMとEgoACOモデルファミリーのアンサンブルを,異なるバックボーンと事前学習を用いて設計し,予測スコアを生成する。 チーム名はFBK-HUPBAであり,S1設定では40.0%,S2設定では25.71%,RGB設定では25.71%であった。

In this report we describe the technical details of our submission to the EPIC-Kitchens Action Recognition 2020 Challenge. To participate in the challenge we deployed spatio-temporal feature extraction and aggregation models we have developed recently: Gate-Shift Module (GSM) [1] and EgoACO, an extension of Long Short-Term Attention (LSTA) [2]. We design an ensemble of GSM and EgoACO model families with different backbones and pre-training to generate the prediction scores. Our submission, visible on the public leaderboard with team name FBK-HUPBA, achieved a top-1 action recognition accuracy of 40.0% on S1 setting, and 25.71% on S2 setting, using only RGB.
翻訳日:2022-11-17 12:59:29 公開日:2020-06-24
# 継続的学習の未来からの展望

Insights from the Future for Continual Learning ( http://arxiv.org/abs/2006.13748v1 )

ライセンス: Link先を確認
Arthur Douillard and Eduardo Valle and Charles Ollion and Thomas Robert and Matthieu Cord(参考訳) 継続的学習は、壊滅的な忘れに苦しむことなく、古い学習サンプルの保存に(しばしば厳しい)制約を課して、タスクを順次学習することを目的としている。 本研究では,授業データに先立って,授業に関する既存の情報を組み込むための,新しい実験環境である先進的連続学習を提案する。 通常、伝統的な連続学習環境における各タスクは、現在のクラスと過去のクラスでモデルを評価し、後者は限られたトレーニングサンプルで評価する。 私たちの設定は、トレーニングサンプルなしで、将来のクラスを追加します。 ゼロショット学習のアイデアを用いた連続学習モデルであるGhost Modelを紹介する。 損失を慎重に調整した表現空間の生成モデルにより、将来のクラスからの洞察を利用して過去のクラスと現在のクラスの空間配置を制約することができる。 AwA2データセットとaP\&Yデータセットの定量的結果と詳細な視覚化は、この新しい設定の関心とそれに対応する方法を示す。

Continual learning aims to learn tasks sequentially, with (often severe) constraints on the storage of old learning samples, without suffering from catastrophic forgetting. In this work, we propose prescient continual learning, a novel experimental setting, to incorporate existing information about the classes, prior to any training data. Usually, each task in a traditional continual learning setting evaluates the model on present and past classes, the latter with a limited number of training samples. Our setting adds future classes, with no training samples at all. We introduce Ghost Model, a representation-learning-based model for continual learning using ideas from zero-shot learning. A generative model of the representation space in concert with a careful adjustment of the losses allows us to exploit insights from future classes to constraint the spatial arrangement of the past and current classes. Quantitative results on the AwA2 and aP\&Y datasets and detailed visualizations showcase the interest of this new setting and the method we propose to address it.
翻訳日:2022-11-17 12:59:13 公開日:2020-06-24
# deeptracking-net: 連続流れの教師なし学習による3次元トラッキング

DeepTracking-Net: 3D Tracking with Unsupervised Learning of Continuous Flow ( http://arxiv.org/abs/2006.13848v1 )

ライセンス: Link先を確認
Shuaihang Yuan, Xiang Li, Yi Fang(参考訳) 本稿では,3次元形状の時系列における密接な対応を求める3次元追跡の問題を扱う。 深層学習手法は, 対方向の高密度な3次元形状マッチングにおいて有望な性能を達成しているが, 3次元時間変化測度追跡においてそれらの手法を一般化することは大きな課題である。 本稿では,3次元形状の連続フレームを追跡する3次元追跡の問題に対処することを目的としている。 本稿では、ディープニューラルネットワーク(DNN)を補助関数として用いて、時間順に物体の3次元追跡のための空間的かつ時間的に連続的な変位場を生成する、DeepTracking-Netという新しい教師なし3次元形状登録フレームワークを提案する。 我々は,連続する3次元点雲フレームから時空間的本質を捉えた新しい時空間対応記述子(tcd)を提案する。 具体的には、DeepTracking-Netはランダムに初期化された潜在TDを最適化することから始まります。 その後、TCDを復号して連続流(すなわち変位ベクトル場)を回帰し、時間変化した3次元形状のすべての点に運動ベクトルを割り当てる。 我々のDeepTracking-Netは、教師なしアライメント損失の最小化に向けて、TDとDNNの重みを共同で最適化する。 シミュレーションと実データの両方の実験では、教師なしのDeepTracking-Netが現在の教師付き最先端手法よりも優れていることが示されています。 さらに,synmotionsと呼ばれる新しい合成3dデータを作成し,3dトラッキングと認識コミュニティに提供した。

This paper deals with the problem of 3D tracking, i.e., to find dense correspondences in a sequence of time-varying 3D shapes. Despite deep learning approaches have achieved promising performance for pairwise dense 3D shapes matching, it is a great challenge to generalize those approaches for the tracking of 3D time-varying geometries. In this paper, we aim at handling the problem of 3D tracking, which provides the tracking of the consecutive frames of 3D shapes. We propose a novel unsupervised 3D shape registration framework named DeepTracking-Net, which uses the deep neural networks (DNNs) as auxiliary functions to produce spatially and temporally continuous displacement fields for 3D tracking of objects in a temporal order. Our key novelty is that we present a novel temporal-aware correspondence descriptor (TCD) that captures spatio-temporal essence from consecutive 3D point cloud frames. Specifically, our DeepTracking-Net starts with optimizing a randomly initialized latent TCD. The TCD is then decoded to regress a continuous flow (i.e. a displacement vector field) which assigns a motion vector to every point of time-varying 3D shapes. Our DeepTracking-Net jointly optimizes TCDs and DNNs' weights towards the minimization of an unsupervised alignment loss. Experiments on both simulated and real data sets demonstrate that our unsupervised DeepTracking-Net outperforms the current supervised state-of-the-art method. In addition, we prepare a new synthetic 3D data, named SynMotions, to the 3D tracking and recognition community.
翻訳日:2022-11-17 12:58:30 公開日:2020-06-24
# 運動ダイナミクスの解釈的表現による自己申告痛の自動推定

Automatic Estimation of Self-Reported Pain by Interpretable Representations of Motion Dynamics ( http://arxiv.org/abs/2006.13882v1 )

ライセンス: Link先を確認
Benjamin Szczapa, Mohamed Daoudi, Stefano Berretti, Pietro Pala, Alberto Del Bimbo, Zakia Hammal(参考訳) ビデオから痛み度を自動的に測定する手法を提案する。 各ビデオについて,66個の顔点を用いた顔面運動動態を用いて痛み強度を測定した。 グラム行列の定式化は、対称正の半定値行列のリーマン多様体上の顔点軌道表現に用いられた。 曲線フィッティングと時間アライメントは、抽出された軌跡を円滑にするために使用される。 支援ベクトル回帰モデルを用いて、抽出した軌跡を10の痛み強度レベルに符号化し、痛み強度測定のためのVisual Analogue Scaleと一致させた。 提案手法は, unbc mcmaster shoulder pain archiveを用いて評価し, 同じデータを用いた最新技術と比較した。 5倍のクロスバリデーションと1つのサブジェクトアウトクロスバリデーションの両方を用いて,本研究の結果は最先端の手法と競合する。

We propose an automatic method for pain intensity measurement from video. For each video, pain intensity was measured using the dynamics of facial movement using 66 facial points. Gram matrices formulation was used for facial points trajectory representations on the Riemannian manifold of symmetric positive semi-definite matrices of fixed rank. Curve fitting and temporal alignment were then used to smooth the extracted trajectories. A Support Vector Regression model was then trained to encode the extracted trajectories into ten pain intensity levels consistent with the Visual Analogue Scale for pain intensity measurement. The proposed approach was evaluated using the UNBC McMaster Shoulder Pain Archive and was compared to the state-of-the-art on the same data. Using both 5-fold cross-validation and leave-one-subject-out cross-validation, our results are competitive with respect to state-of-the-art methods.
翻訳日:2022-11-17 12:58:02 公開日:2020-06-24
# xref: 追加記事参照による中国語ニュースコメントのエンティティリンク

XREF: Entity Linking for Chinese News Comments with Supplementary Article Reference ( http://arxiv.org/abs/2006.14017v1 )

ライセンス: Link先を確認
Xinyu Hua, Lei Li, Lifeng Hua, Lu Wang(参考訳) ソーシャルメディア投稿における言及されたエンティティの自動識別は、トレンドトピックや人気意見の迅速な消化を促進する。 それでも、コンテキストの制限とさまざまな名前のバリエーションのため、これは難しい作業です。 本稿では,中国語のニュースコメントに対するエンティティリンクの問題点について考察する。 我々は、コメントが対応するニュース記事のエンティティや、それらのエンティティに関連するトピックを指すことが多いと仮定する。 そこで本稿では,(1)コメント中の関連コンテキストの特定,(2)ニュース記事からの支持エンティティの検出に注意機構を利用する新しいモデルであるxrefを提案する。 トレーニングを改善するために、私たちは2つの貢献をします。 (a)標準のクロスエントロピーに加え、監視対象の注意損失を提案する。 b)大規模未ラベルコーパスを利用した弱教師付きトレーニング手法を開発した。 エンタテインメントとプロダクトドメインの2つの新しいデータセットが収集され、実験用にアノテートされる。 提案手法は,両データセットにおける従来手法よりも優れている。

Automatic identification of mentioned entities in social media posts facilitates quick digestion of trending topics and popular opinions. Nonetheless, this remains a challenging task due to limited context and diverse name variations. In this paper, we study the problem of entity linking for Chinese news comments given mentions' spans. We hypothesize that comments often refer to entities in the corresponding news article, as well as topics involving the entities. We therefore propose a novel model, XREF, that leverages attention mechanisms to (1) pinpoint relevant context within comments, and (2) detect supporting entities from the news article. To improve training, we make two contributions: (a) we propose a supervised attention loss in addition to the standard cross entropy, and (b) we develop a weakly supervised training scheme to utilize the large-scale unlabeled corpus. Two new datasets in entertainment and product domains are collected and annotated for experiments. Our proposed method outperforms previous methods on both datasets.
翻訳日:2022-11-17 12:51:46 公開日:2020-06-24
# autoknow: 何千ものタイプの製品のための自動運転知識コレクション

AutoKnow: Self-Driving Knowledge Collection for Products of Thousands of Types ( http://arxiv.org/abs/2006.13473v1 )

ライセンス: Link先を確認
Xin Luna Dong, Xiang He, Andrey Kan, Xian Li, Yan Liang, Jun Ma, Yifan Ethan Xu, Chenwei Zhang, Tong Zhao, Gabriel Blanco Saldana, Saurabh Deshpande, Alexandre Michetti Manduca, Jay Ren, Surender Pal Singh, Fan Xiao, Haw-Shiuan Chang, Giannis Karamanolakis, Yuning Mao, Yaqing Wang, Christos Faloutsos, Andrew McCallum, Jiawei Han(参考訳) 世界中のすべての製品に知識グラフ(KG)を構築できるだろうか? 知識グラフは、検索や質問応答のための貴重な情報源として確立されており、KGがオンライン小売サイトで提供される製品に関する情報を含めることができるかどうか疑問視するのは当然である。 一般的なKGの例はいくつかあるが、製品に関する情報の整理は、製品のスパーシリティや構造化データのノイズ、数百万の製品タイプと数千の属性を持つドメインの複雑さ、多数のカテゴリにわたる異質性、そして大規模で継続的に増加する製品の数など、多くの課題をもたらす。 これらの課題に対処する自動(自動運転)システムautoknowについて説明する。 本システムは、分類構成、製品特性同定、知識抽出、異常検出、同義語発見のための一連の新しい技術を含む。 AutoKnowは a)人間の介入をほとんど必要とせず自動で (b)マルチスケーリング可能で、複数の次元(多くのドメイン、多くの製品、多くの属性)でスケーラブルで、 (c) 統合的で、豊富な顧客行動ログを利用する。 AutoKnowは、1万以上の製品タイプの製品知識を収集している。

Can one build a knowledge graph (KG) for all products in the world? Knowledge graphs have firmly established themselves as valuable sources of information for search and question answering, and it is natural to wonder if a KG can contain information about products offered at online retail sites. There have been several successful examples of generic KGs, but organizing information about products poses many additional challenges, including sparsity and noise of structured data for products, complexity of the domain with millions of product types and thousands of attributes, heterogeneity across large number of categories, as well as large and constantly growing number of products. We describe AutoKnow, our automatic (self-driving) system that addresses these challenges. The system includes a suite of novel techniques for taxonomy construction, product property identification, knowledge extraction, anomaly detection, and synonym discovery. AutoKnow is (a) automatic, requiring little human intervention, (b) multi-scalable, scalable in multiple dimensions (many domains, many products, and many attributes), and (c) integrative, exploiting rich customer behavior logs. AutoKnow has been operational in collecting product knowledge for over 11K product types.
翻訳日:2022-11-17 12:51:34 公開日:2020-06-24
# モンテカルロ木探索とディープニューラルネットワークを用いた回路ルーティング

Circuit Routing Using Monte Carlo Tree Search and Deep Neural Networks ( http://arxiv.org/abs/2006.13607v1 )

ライセンス: Link先を確認
Youbiao He, Forrest Sheng Bao(参考訳) 回路ルーティングは、集積回路(ic)やプリント回路基板(pcb)などの電子システムの設計において、電子回路やコンピュータのハードウェアを構成する基本的な問題である。 一対のロケーション間のパスを見つけるのと同様に、回路ルーティングは、回路コンポーネントのコンタクトやリードを接続するワイヤのトレースを生成する。 密度の高い電子部品と巨大な電子部品の間の経路を見つけることは、非常に大きな探索空間を必要とするため、これは困難である。 既存のソリューションは手動でドメイン知識で設計するか、特定の設計ルールに合わせて設計されているため、新しい問題や設計ニーズに適応することは困難である。 したがって、一般的なルーティングアプローチが望まれる。 本稿では,回路ルーティングを逐次決定問題としてモデル化し,Deep Neural Network (DNN) によるモンテカルロ木探索(MCTS)により解いた。 より多くのルーティング制約と最適化目標を持つルーティングケースに簡単に拡張できる。 ランダムに生成された単層回路の実験により、複雑な回路をルーティングする可能性を示す。 提案手法は、逐次A*法やLeeのアルゴリズムのようなベンチマーク手法では解けない問題を解くことができ、バニラMCTS法よりも優れている。

Circuit routing is a fundamental problem in designing electronic systems such as integrated circuits (ICs) and printed circuit boards (PCBs) which form the hardware of electronics and computers. Like finding paths between pairs of locations, circuit routing generates traces of wires to connect contacts or leads of circuit components. It is challenging because finding paths between dense and massive electronic components involves a very large search space. Existing solutions are either manually designed with domain knowledge or tailored to specific design rules, hence, difficult to adapt to new problems or design needs. Therefore, a general routing approach is highly desired. In this paper, we model the circuit routing as a sequential decision-making problem, and solve it by Monte Carlo tree search (MCTS) with deep neural network (DNN) guided rollout. It could be easily extended to routing cases with more routing constraints and optimization goals. Experiments on randomly generated single-layer circuits show the potential to route complex circuits. The proposed approach can solve the problems that benchmark methods such as sequential A* method and Lee's algorithm cannot solve, and can also outperform the vanilla MCTS approach.
翻訳日:2022-11-17 12:51:15 公開日:2020-06-24
# ia-mot: 動作一貫性を備えたインスタンス対応マルチオブジェクトトラッキング

IA-MOT: Instance-Aware Multi-Object Tracking with Motion Consistency ( http://arxiv.org/abs/2006.13458v1 )

ライセンス: Link先を確認
Jiarui Cai, Yizhou Wang, Haotian Zhang, Hung-Min Hsu, Chengqian Ma, Jenq-Neng Hwang(参考訳) 複数物体追跡(MOT)はコンピュータビジョン社会において重要な課題である。 しかし、検出可能な境界ボックスを持つ追跡検出mot法は、エゴモーションと頻繁な咬合のため、静的、スローモーション、高速移動カメラのシナリオを効果的に処理できない。 本研究では,インスタンスレベルの特徴とオブジェクトの動きを協調的に考慮し,静止カメラと移動カメラの両方で複数の物体を追跡できる,IA-MOT (Instance-Aware MOT) と呼ばれる新しいトラッキングフレームワークを提案する。 まず,Mask R-CNN検出器と追加の埋め込みヘッドから,所定の検出を領域提案として送信することにより,ロバストな外観特徴を抽出する。 一方、境界ボックス内の前景に焦点を当てた空間的注意は、与えられたインスタンスマスクから生成され、抽出された埋め込み特徴に適用される。 追跡段階では、オブジェクトのインスタンスマスクはハンガリーのアソシエーションアルゴリズムを用いて特徴類似性と動きの一貫性によって整列される。 さらに、オブジェクト再識別(ReID)を組み込んで、長期閉塞や欠落検出によるIDスイッチを復元する。 CVPR2020ワークショップにおけるBMTTチャレンジのトラック3において,MOTS20とKITTI-MOTSデータセットを用いて評価を行った。

Multiple object tracking (MOT) is a crucial task in computer vision society. However, most tracking-by-detection MOT methods, with available detected bounding boxes, cannot effectively handle static, slow-moving and fast-moving camera scenarios simultaneously due to ego-motion and frequent occlusion. In this work, we propose a novel tracking framework, called "instance-aware MOT" (IA-MOT), that can track multiple objects in either static or moving cameras by jointly considering the instance-level features and object motions. First, robust appearance features are extracted from a variant of Mask R-CNN detector with an additional embedding head, by sending the given detections as the region proposals. Meanwhile, the spatial attention, which focuses on the foreground within the bounding boxes, is generated from the given instance masks and applied to the extracted embedding features. In the tracking stage, object instance masks are aligned by feature similarity and motion consistency using the Hungarian association algorithm. Moreover, object re-identification (ReID) is incorporated to recover ID switches caused by long-term occlusion or missing detection. Overall, when evaluated on the MOTS20 and KITTI-MOTS dataset, our proposed method won the first place in Track 3 of the BMTT Challenge in CVPR2020 workshops.
翻訳日:2022-11-17 12:50:38 公開日:2020-06-24
# 画像分類のためのクラス間関係の学習

Learning Interclass Relations for Image Classification ( http://arxiv.org/abs/2006.13491v1 )

ライセンス: Link先を確認
Muhamedrahimov Raouf, Bar Amir and Akselrod-Ballin Ayelet(参考訳) 標準分類では、典型的には分類カテゴリーを互いに独立したものとして扱う。 しかし、多くの問題において、我々は、下層の生物学的または物理的過程によってしばしば決定されるカテゴリ間の自然関係を無視している。 本研究では,クラス独立性の仮定が,より多くのトレーニングデータを必要とする限界因子であるという認識に基づいて,分類問題の新たな定式化を提案する。 まず,問題固有のクラス間関係に関する知識をトレーニングプロセスに再導入することで,データニーズの軽減を手作業で行う方法を提案する。 第2に,自然クラス間の関係を暗黙的にエンコードできる分類的ラベル表現を共同学習する一般的なアプローチを提案する。 我々は、大量のラベル付きデータへのアクセスが容易ではない医療画像の領域でこれを実証する。 具体的には,CT画像における静脈内コントラスト増強相の分類において,複数の興味深いクラス間関係をカプセル化したアプローチの利点を示す。

In standard classification, we typically treat class categories as independent of one-another. In many problems, however, we would be neglecting the natural relations that exist between categories, which are often dictated by an underlying biological or physical process. In this work, we propose novel formulations of the classification problem, based on a realization that the assumption of class-independence is a limiting factor that leads to the requirement of more training data. First, we propose manual ways to reduce our data needs by reintroducing knowledge about problem-specific interclass relations into the training process. Second, we propose a general approach to jointly learn categorical label representations that can implicitly encode natural interclass relations, alleviating the need for strong prior assumptions, which are not always available. We demonstrate this in the domain of medical images, where access to large amounts of labelled data is not trivial. Specifically, our experiments show the advantages of this approach in the classification of Intravenous Contrast enhancement phases in CT images, which encapsulate multiple interesting inter-class relations.
翻訳日:2022-11-17 12:50:01 公開日:2020-06-24
# オンラインコントラスト学習による対角学習

Disentangle Perceptual Learning through Online Contrastive Learning ( http://arxiv.org/abs/2006.13511v1 )

ライセンス: Link先を確認
Kangfu Mei, Yao Lu, Qiaosi Yi, Haoyu Wu, Juncheng Li, Rui Huang(参考訳) 人間の視覚的知覚による現実的な結果の獲得は、画像変換タスクにおける中心的な関心事である。 知覚喪失のような知覚学習アプローチは、そのようなタスクには経験的に強力であるが、通常は事前訓練された分類ネットワークに依存して、画像変換の視覚知覚では必ずしも最適ではない特徴を提供する。 本稿では,事前学習した分類ネットワークの特徴表現のうち,人間の視覚知覚に限られた次元しか関連しないのに対して,他は無関係であり,両者は最終的な画像変換結果に影響を与えると論じる。 このような仮定の下で,提案したオンラインコントラスト学習を通じて,認識関連次元を表現から切り離そうとする。 得られたネットワークは、事前学習部と特徴選択層と、変換結果と対象画像とタスク指向歪画像とをそれぞれ正、負、アンカーサンプルとして利用するコントラスト学習モジュールとを含む。 コントラスト学習は、三重項損失を用いて知覚関連次元を活性化し、無関係次元を抑制することを目的としており、元の表現をより良い知覚品質のために分離することができる。 様々な画像変換タスクの実験は、人間の視覚的知覚の観点から、事前学習されたネットワークと経験的に設計された損失を用いた既存のアプローチに対する我々のフレームワークの優位性を実証している。

Pursuing realistic results according to human visual perception is the central concern in the image transformation tasks. Perceptual learning approaches like perceptual loss are empirically powerful for such tasks but they usually rely on the pre-trained classification network to provide features, which are not necessarily optimal in terms of visual perception of image transformation. In this paper, we argue that, among the features representation from the pre-trained classification network, only limited dimensions are related to human visual perception, while others are irrelevant, although both will affect the final image transformation results. Under such an assumption, we try to disentangle the perception-relevant dimensions from the representation through our proposed online contrastive learning. The resulted network includes the pre-training part and a feature selection layer, followed by the contrastive learning module, which utilizes the transformed results, target images, and task-oriented distorted images as the positive, negative, and anchor samples, respectively. The contrastive learning aims at activating the perception-relevant dimensions and suppressing the irrelevant ones by using the triplet loss, so that the original representation can be disentangled for better perceptual quality. Experiments on various image transformation tasks demonstrate the superiority of our framework, in terms of human visual perception, to the existing approaches using pre-trained networks and empirically designed losses.
翻訳日:2022-11-17 12:49:45 公開日:2020-06-24
# ビデオにおける3次元ポーズ検出:咬合に着目して

3D Pose Detection in Videos: Focusing on Occlusion ( http://arxiv.org/abs/2006.13517v1 )

ライセンス: Link先を確認
Justin Wang, Edward Xu, Kangrui Xue, Lukasz Kidzinski(参考訳) 本研究では,既存の3dポーズ検出手法をビデオで構築する。 重ねられた砂時計網からなる2段階アーキテクチャを実装し,2次元ポーズ予測を行い,それを時間畳み込みネットワークに入力して3次元ポーズ予測を行う。 咬合関節を用いたポーズの予測を容易にするため,咬合ラベルの生成に用いられるシリンダーマンモデルの直感的一般化を提案する。 咬合認識ネットワークは,人間3.6mデータセットの線形ベースラインモデルよりも5mm少ない接合位置当たりの平均誤差を実現できることがわかった。 時間的畳み込みネットワークのベースラインと比較すると,計算コストの削減により平均結合位置誤差が0.1mm以下となる。

In this work, we build upon existing methods for occlusion-aware 3D pose detection in videos. We implement a two stage architecture that consists of the stacked hourglass network to produce 2D pose predictions, which are then inputted into a temporal convolutional network to produce 3D pose predictions. To facilitate prediction on poses with occluded joints, we introduce an intuitive generalization of the cylinder man model used to generate occlusion labels. We find that the occlusion-aware network is able to achieve a mean-per-joint-position error 5 mm less than our linear baseline model on the Human3.6M dataset. Compared to our temporal convolutional network baseline, we achieve a comparable mean-per-joint-position error of 0.1 mm less at reduced computational cost.
翻訳日:2022-11-17 12:49:20 公開日:2020-06-24
# 拡散強調型磁気共鳴脳画像の生成 : 生成逆ネットワークと可変オートエンコーダによる比較研究

Diffusion-Weighted Magnetic Resonance Brain Images Generation with Generative Adversarial Networks and Variational Autoencoders: A Comparison Study ( http://arxiv.org/abs/2006.13944v1 )

ライセンス: Link先を確認
Alejandro Ungr\'ia Hirte, Moritz Platscher, Thomas Joyce, Jeremy J. Heit, Eric Tranvinh, Christian Federau(参考訳) 本研究では,高画質,多彩で現実的な拡散重み付き磁気共鳴画像が深部生成モデルを用いて合成可能であることを示す。 生成した合成脳画像の品質と多様性に関する専門的な神経放射線学者の評価と多様な指標に基づいて,医療分野におけるデータ拡張の資格を有するイントロスペクティブ変分オートエンコーダ(Introspective Variational Autoencoder)とスタイルベースGAN(Style-based GAN)という2つのネットワークを提示する。

We show that high quality, diverse and realistic-looking diffusion-weighted magnetic resonance images can be synthesized using deep generative models. Based on professional neuroradiologists' evaluations and diverse metrics with respect to quality and diversity of the generated synthetic brain images, we present two networks, the Introspective Variational Autoencoder and the Style-Based GAN, that qualify for data augmentation in the medical field, where information is saved in a dispatched and inhomogeneous way and access to it is in many aspects restricted.
翻訳日:2022-11-17 12:42:44 公開日:2020-06-24
# 3d u-netを用いた肺感染症の胸部ct画像自動分割

Automated Chest CT Image Segmentation of COVID-19 Lung Infection based on 3D U-Net ( http://arxiv.org/abs/2007.04774v1 )

ライセンス: Link先を確認
Dominik M\"uller, I\~naki Soto Rey, Frank Kramer(参考訳) 新型コロナウイルス(COVID-19)は世界中の何十億もの生命に影響を与え、公衆医療に大きな影響を与えている。 RT-PCRのスクリーニング法としての感受性に対する懐疑論の高まりにより、CTのような医用画像は代替手段として大きな可能性を秘めている。 このため, 定量的評価と疾患モニタリングのための臨床判断支援として, 画像分割の自動化が望まれている。 しかし、公開されている新型コロナウイルスの画像データは限られており、従来のアプローチの過度な適合につながる。 この問題に対処するため,我々は,変異データベースとして利用することで,小規模データセットを処理できる新型コロナウイルス感染地域を対象とした,革新的なセグメント化パイプラインを提案する。 本手法は,複数の事前処理手法を実行し,広範囲なデータ拡張を活用することにより,一意および無作為な画像パッチをオンザフライで生成する訓練に焦点をあてる。 オーバーフィッティングリスクのさらなる低減のために、新しい複雑なニューラルネットワークアーキテクチャではなく、標準的な3d u-netアーキテクチャを実装しました。 また,20例のCTスキャンで5倍のクロスバリデーションを行い,肺や新型コロナウイルスの感染部位に対する高精度かつ堅牢なセグメンテーションモデルを構築した。 肺に対する0.956,感染に対する 0.761 のdice類似度係数を得た。 提案手法は, 関連手法より優れ, 新型コロナウイルスセグメンテーションの最先端化と, 限られたデータによる医用画像解析の改善を実証した。 https://github.com/frankkramer-lab/covid19.miscnn.com/ コードとモデルは以下のリンクで利用可能である。

The coronavirus disease 2019 (COVID-19) affects billions of lives around the world and has a significant impact on public healthcare. Due to rising skepticism towards the sensitivity of RT-PCR as screening method, medical imaging like computed tomography offers great potential as alternative. For this reason, automated image segmentation is highly desired as clinical decision support for quantitative assessment and disease monitoring. However, publicly available COVID-19 imaging data is limited which leads to overfitting of traditional approaches. To address this problem, we propose an innovative automated segmentation pipeline for COVID-19 infected regions, which is able to handle small datasets by utilization as variant databases. Our method focuses on on-the-fly generation of unique and random image patches for training by performing several preprocessing methods and exploiting extensive data augmentation. For further reduction of the overfitting risk, we implemented a standard 3D U-Net architecture instead of new or computational complex neural network architectures. Through a 5-fold cross-validation on 20 CT scans of COVID-19 patients, we were able to develop a highly accurate as well as robust segmentation model for lungs and COVID-19 infected regions without overfitting on the limited data. Our method achieved Dice similarity coefficients of 0.956 for lungs and 0.761 for infection. We demonstrated that the proposed method outperforms related approaches, advances the state-of-the-art for COVID-19 segmentation and improves medical image analysis with limited data. The code and model are available under the following link: https://github.com/frankkramer-lab/covid19.MIScnn
翻訳日:2022-11-17 12:41:48 公開日:2020-06-24
# 局所差分データを用いた分散ロバスト機械学習

Distributionally-Robust Machine Learning Using Locally Differentially-Private Data ( http://arxiv.org/abs/2006.13488v1 )

ライセンス: Link先を確認
Farhad Farokhi(参考訳) 機械学習、特に回帰は、局所的に異なるプライベートデータセットを用いて検討する。 ワッサーシュタイン距離は、局所的な差分プライバシーノイズによって破損したデータセットの実験的分布を中心としたあいまいさセットを定義するために用いられる。 あいまいさ集合は、乱れのないクリーンなデータの確率分布を含むことが示される。 曖昧性セットの半径は、プライバシー予算、データの拡散、問題の大きさの関数である。 したがって、ローカルに微分プライベートなデータセットを持つ機械学習は、分散ロバスト最適化として書き換えることができる。 一般分布の場合、分布ロバスト最適化問題は、機械学習モデルのリプシッツ定数を正則化として正規化機械学習問題として緩和することができる。 線形回帰とロジスティック回帰では、この正規化子はモデルパラメータの双対ノルムである。 ガウスデータの場合、分布的ロバスト最適化問題は最適正規化子を見つけるために正確に解くことができる。 このアプローチは、線形回帰モデルをトレーニングするための完全に新しい正規化子をもたらす。 この新規な正規化器を用いたトレーニングは、半定型プログラムとして設定できる。 最後に,実用的なデータセット上での分散ロバスト機械学習トレーニングの性能を示す。

We consider machine learning, particularly regression, using locally-differentially private datasets. The Wasserstein distance is used to define an ambiguity set centered at the empirical distribution of the dataset corrupted by local differential privacy noise. The ambiguity set is shown to contain the probability distribution of unperturbed, clean data. The radius of the ambiguity set is a function of the privacy budget, spread of the data, and the size of the problem. Hence, machine learning with locally-differentially private datasets can be rewritten as a distributionally-robust optimization. For general distributions, the distributionally-robust optimization problem can relaxed as a regularized machine learning problem with the Lipschitz constant of the machine learning model as a regularizer. For linear and logistic regression, this regularizer is the dual norm of the model parameters. For Gaussian data, the distributionally-robust optimization problem can be solved exactly to find an optimal regularizer. This approach results in an entirely new regularizer for training linear regression models. Training with this novel regularizer can be posed as a semi-definite program. Finally, the performance of the proposed distributionally-robust machine learning training is demonstrated on practical datasets.
翻訳日:2022-11-17 12:40:43 公開日:2020-06-24
# 構造化文書翻訳のための高品質多言語データセット

A High-Quality Multilingual Dataset for Structured Documentation Translation ( http://arxiv.org/abs/2006.13425v1 )

ライセンス: Link先を確認
Kazuma Hashimoto, Raffaella Buschiazzo, James Bradbury, Teresa Marshall, Richard Socher, Caiming Xiong(参考訳) 本稿では,文書領域を対象とした高品質な多言語データセットを提案する。 プレーンテキストの翻訳に広く使われているデータセットとは異なり、エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。 これらのウェブページは英語から16の言語に翻訳され、ドメインの専門家によって維持されており、言語ペアごとに約10万のテキストセグメントが利用可能である。 我々は、いくつかの異なるコピー機構とXML制約されたビームサーチを用いて、英語から7つのターゲット言語に対する翻訳モデルを構築し、評価する。 また、非英語のペアを使って、データセットが17ドルの翻訳設定を明示的に有効化できる可能性を示す。 実験の結果,XMLタグの翻訳学習により翻訳精度が向上し,ビームサーチがXML構造を正確に生成することがわかった。 また,数値単語と名前付きエンティティの翻訳に焦点をあてて,コピー機構の使用のトレードオフについて論じる。 さらに, モデル出力と人間の翻訳とのギャップを, ポスト編集に適したものを含め, 詳細な分析を行う。

This paper presents a high-quality multilingual dataset for the documentation domain to advance research on localization of structured text. Unlike widely-used datasets for translation of plain text, we collect XML-structured parallel text segments from the online documentation for an enterprise software platform. These Web pages have been professionally translated from English into 16 languages and maintained by domain experts, and around 100,000 text segments are available for each language pair. We build and evaluate translation models for seven target languages from English, with several different copy mechanisms and an XML-constrained beam search. We also experiment with a non-English pair to show that our dataset has the potential to explicitly enable $17 \times 16$ translation settings. Our experiments show that learning to translate with the XML tags improves translation accuracy, and the beam search accurately generates XML structures. We also discuss trade-offs of using the copy mechanisms by focusing on translation of numerical words and named entities. We further provide a detailed human analysis of gaps between the model output and human translations for real-world applications, including suitability for post-editing.
翻訳日:2022-11-17 12:40:30 公開日:2020-06-24
# アルツハイマー病分類のための動的機能接続性とグラフ畳み込みネットワーク

Dynamic Functional Connectivity and Graph Convolution Network for Alzheimer's Disease Classification ( http://arxiv.org/abs/2006.13510v1 )

ライセンス: Link先を確認
Xingwei An, Yutao Zhou, Yang Di, Dong Ming(参考訳) アルツハイマー病 (ad) は最も一般的な認知症である。 従来の方法ではADの効率的かつ正確な診断はできない。 本稿では,脳の変化を効果的に捉えることのできる動的機能接続(dFC)に基づく新しい手法を提案する。 低周波変動の振幅(alff)、局所的同質性(reho)、dfc(dfc)、脳構造の違いによる隣接行列(adjacency matrix)の4種類の特徴を比較し、組み合わせた。 患者間の脳構造の類似性を考慮したグラフ畳み込みネットワーク(gcn)を用いて,非ユークリッド領域の分類問題を解く。 提案手法の精度と受信機動作特性曲線下の面積は91.3%,98.4%であった。 その結果,本手法はADの検出に有効であることがわかった。

Alzheimer's disease (AD) is the most prevalent form of dementia. Traditional methods cannot achieve efficient and accurate diagnosis of AD. In this paper, we introduce a novel method based on dynamic functional connectivity (dFC) that can effectively capture changes in the brain. We compare and combine four different types of features including amplitude of low-frequency fluctuation (ALFF), regional homogeneity (ReHo), dFC and the adjacency matrix of different brain structures between subjects. We use graph convolution network (GCN) which consider the similarity of brain structure between patients to solve the classification problem of non-Euclidean domains. The proposed method's accuracy and the area under the receiver operating characteristic curve achieved 91.3% and 98.4%. This result demonstrated that our proposed method can be used for detecting AD.
翻訳日:2022-11-17 10:18:55 公開日:2020-06-24
# 医療画像AIシステム、分類、検出に対する敵対的攻撃から守るか?

Defending against adversarial attacks on medical imaging AI system, classification or detection? ( http://arxiv.org/abs/2006.13555v1 )

ライセンス: Link先を確認
Xin Li, Deng Pan, Dongxiao Zhu(参考訳) 疾患分類やセグメンテーションなどの医療画像AIシステムは、コンピュータビジョンベースのAIシステムからインスパイアされ、変化している。 対人訓練および/または損失関数に基づく防衛技術が開発され、コンピュータビジョンに有効であることが証明されているが、医療画像に対する対人攻撃に対する防御は、以下の固有の課題により、ほとんど未獲得領域のままである。 1) 医用画像のラベル不足は,AIシステムの敵の一般化性を著しく制限する。 2) 医療画像における前景及び背景の類似性は, 異なる疾患クラス間の特徴を識別するために, 極めて困難である。 3) 焦点を絞った臓器ターゲットとは対照的に, 医用画像全体に付加された敵対音は, 異なる病種間において, 清潔で敵対的な事例をより識別することができる。 本稿では,SSAT(Semi-Supervised Adversarial Training)とUnsupervised Adversarial Detection(Unsupervised Adversarial Detection, UAD)に基づく,新たな堅牢な医用イメージングAIフレームワークを提案する。 我々は,OCT画像データセットのベンチマークを用いて,既存の対人防御技術に対する堅牢な医用画像AIシステムの利点を,現実世界の多様な対人攻撃設定下で系統的に実証した。

Medical imaging AI systems such as disease classification and segmentation are increasingly inspired and transformed from computer vision based AI systems. Although an array of adversarial training and/or loss function based defense techniques have been developed and proved to be effective in computer vision, defending against adversarial attacks on medical images remains largely an uncharted territory due to the following unique challenges: 1) label scarcity in medical images significantly limits adversarial generalizability of the AI system; 2) vastly similar and dominant fore- and background in medical images make it hard samples for learning the discriminating features between different disease classes; and 3) crafted adversarial noises added to the entire medical image as opposed to the focused organ target can make clean and adversarial examples more discriminate than that between different disease classes. In this paper, we propose a novel robust medical imaging AI framework based on Semi-Supervised Adversarial Training (SSAT) and Unsupervised Adversarial Detection (UAD), followed by designing a new measure for assessing systems adversarial risk. We systematically demonstrate the advantages of our robust medical imaging AI system over the existing adversarial defense techniques under diverse real-world settings of adversarial attacks using a benchmark OCT imaging data set.
翻訳日:2022-11-17 10:18:43 公開日:2020-06-24
# NINEPINS: ポイントアノテーション付きNucleiインスタンスセグメンテーション

NINEPINS: Nuclei Instance Segmentation with Point Annotations ( http://arxiv.org/abs/2006.13556v1 )

ライセンス: Link先を確認
Ting-An Yen, Hung-Chun Hsu, Pushpak Pati, Maria Gabrani, Antonio Foncubierta-Rodr\'iguez, Pau-Choo Chung(参考訳) 深層学習に基づく手法は、組織スライドを体系的かつ網羅的に分析することを目的とした出版物や課題の増加とともに、デジタル病理学において勢いを増している。 これらの方法はしばしば、大きな注釈付きデータセットを訓練する必要があるコストで、非常に高い精度を達成している。 この要件は、専門家の知識が不可欠である医療分野では特に困難である。 本稿では, 経験豊富な病理学者がギガピクセルの組織像の核領域に注釈を付けることを必要とする, 核セグメンテーションに焦点をあてる。 病理学者の負担を軽減する方法として,ポイントアノテーションから自動生成する擬似ラベルセグメントを用いたセグメンテーションのアルゴリズムを提案する。 生成されたセグメンテーションマスクにより、提案手法は、インスタンスセグメンテーションを達成するためにhover-netモデルの修正バージョンを訓練する。 実験の結果, 提案手法は点アノテーションの不正確さに頑健であり, 完全にアノテートされたインスタンスマスクで訓練されたホバーネットと比較すると, セグメンテーション性能の低下が必ずしも組織分類などの高次タスクの劣化を意味するとは限らない。

Deep learning-based methods are gaining traction in digital pathology, with an increasing number of publications and challenges that aim at easing the work of systematically and exhaustively analyzing tissue slides. These methods often achieve very high accuracies, at the cost of requiring large annotated datasets to train. This requirement is especially difficult to fulfill in the medical field, where expert knowledge is essential. In this paper we focus on nuclei segmentation, which generally requires experienced pathologists to annotate the nuclear areas in gigapixel histological images. We propose an algorithm for instance segmentation that uses pseudo-label segmentations generated automatically from point annotations, as a method to reduce the burden for pathologists. With the generated segmentation masks, the proposed method trains a modified version of HoVer-Net model to achieve instance segmentation. Experimental results show that the proposed method is robust to inaccuracies in point annotations and comparison with Hover-Net trained with fully annotated instance masks shows that a degradation in segmentation performance does not always imply a degradation in higher order tasks such as tissue classification.
翻訳日:2022-11-17 10:18:19 公開日:2020-06-24
# ビデオタイピングのための総合情報統合モデリングフレームワーク

Comprehensive Information Integration Modeling Framework for Video Titling ( http://arxiv.org/abs/2006.13608v1 )

ライセンス: Link先を確認
Shengyu Zhang, Ziqi Tan, Jin Yu, Zhou Zhao, Kun Kuang, Tan Jiang, Jingren Zhou, Hongxia Yang, Fei Wu(参考訳) 電子商取引においては、消費者が特定の製品の異なる側面に対して消費者の個別の嗜好を届けるコンシューマ生成ビデオは膨大な量である。 これらのビデオをより効果的に、多様で、キャッチーなビデオタイトルに推奨することは重要だ。 しかし、コンシューマ生成ビデオは適切なタイトルを伴わない。 このギャップを埋めるために,消費者生成ビデオの内容,消費者が提供したナラティブコメント文,製品属性など,包括的な情報ソースをエンドツーエンドモデリングフレームワークに統合する。 自動的なビデオタイトリングは非常に有用で要求が多いが、ビデオキャプションよりもはるかに少ない。 後者は、ビデオ全体を記述した文章を生成することに重点を置いていますが、私たちのタスクには、製品対応の多粒ビデオ分析が必要です。 この問題に取り組むため,提案手法は粒度レベルの相互作用モデリングと抽象レベルのストーリーライン要約という2つのプロセスからなる。 特に、粒度レベルの相互作用モデリングでは、まず時間空間的ランドマークの手がかり、記述的な単語、抽象的な属性を使用して、3つの個別グラフを構築し、グラフニューラルネットワーク(GNN)を介してグラフ内の動作を認識する。 すると、グローバル局所集約モジュールはグラフ間の相互作用をモデル化し、不均一グラフを全体グラフ表現に集約するために提案される。 抽象レベルのストーリーライン要約はさらに、フレームレベルのビデオ特徴と全体グラフの両方を考慮し、製品と背景の相互作用を利用し、ビデオのストーリーライントピックを生成する。 われわれは、世界有数のeコマースプラットフォームであるTaobaoの実際のデータから、大規模なデータセットを収集し、この脱感作バージョンを、研究コミュニティのさらなる発展を養うために公開する。

In e-commerce, consumer-generated videos, which in general deliver consumers' individual preferences for the different aspects of certain products, are massive in volume. To recommend these videos to potential consumers more effectively, diverse and catchy video titles are critical. However, consumer-generated videos seldom accompany appropriate titles. To bridge this gap, we integrate comprehensive sources of information, including the content of consumer-generated videos, the narrative comment sentences supplied by consumers, and the product attributes, in an end-to-end modeling framework. Although automatic video titling is very useful and demanding, it is much less addressed than video captioning. The latter focuses on generating sentences that describe videos as a whole while our task requires the product-aware multi-grained video analysis. To tackle this issue, the proposed method consists of two processes, i.e., granular-level interaction modeling and abstraction-level story-line summarization. Specifically, the granular-level interaction modeling first utilizes temporal-spatial landmark cues, descriptive words, and abstractive attributes to builds three individual graphs and recognizes the intra-actions in each graph through Graph Neural Networks (GNN). Then the global-local aggregation module is proposed to model inter-actions across graphs and aggregate heterogeneous graphs into a holistic graph representation. The abstraction-level story-line summarization further considers both frame-level video features and the holistic graph to utilize the interactions between products and backgrounds, and generate the story-line topic of the video. We collect a large-scale dataset accordingly from real-world data in Taobao, a world-leading e-commerce platform, and will make the desensitized version publicly available to nourish further development of the research community...
翻訳日:2022-11-17 10:17:56 公開日:2020-06-24
# Post-DAE:Denoising Autoencodersを用いた後処理による解剖学的プラズブルセグメンテーション

Post-DAE: Anatomically Plausible Segmentation via Post-Processing with Denoising Autoencoders ( http://arxiv.org/abs/2006.13791v1 )

ライセンス: Link先を確認
Agostina J Larrazabal and C\'esar Mart\'inez and Ben Glocker and Enzo Ferrante(参考訳) 任意の生物医用画像分割アルゴリズムの解剖学的妥当性を向上させるため,denoising autoencoders (dae) に基づく後処理法であるpost-dae を提案する。 最も一般的なセグメンテーション手法(畳み込みニューラルネットワークやランダムフォレスト分類器など)には、期待された接続性制約を満たすために処理後のステップが追加されている。 これらの方法は、類似のアスペクトを持つ連続画素は同じクラスに属するべきであるという仮説の下で動作する。 一般に有効であっても、この仮定は位相的制限や凸性のようなより複雑な事前事項を考慮せず、これらの手法に容易に組み込むことはできない。 denoising autoencoderを通じて、post-daeは多様体学習の最新の開発を活用する。 まず、解剖学的に可算なセグメンテーションの空間を表すコンパクトで非線形な埋め込みを学ぶ。 そして,任意の手法で得られたセグメンテーションマスクを与えられたとき,その解剖学的に妥当なバージョンを学習多様体に投影して再構築する。 提案手法は,強度情報や画像モダリティに依存しない非ペアセグメンテーションマスクを用いて学習する。 胸部x線および心磁気共鳴画像の2値および複数ラベル分割実験を行った。 本稿では, Post-DAE を用いて, 誤りとノイズのセグメンテーションマスクをいかに改善できるかを示す。 計算コストの増大がほとんどないため,提案手法は誤りなセグメンテーションを実現可能な空間に戻す。

We introduce Post-DAE, a post-processing method based on denoising autoencoders (DAE) to improve the anatomical plausibility of arbitrary biomedical image segmentation algorithms. Some of the most popular segmentation methods (e.g. based on convolutional neural networks or random forest classifiers) incorporate additional post-processing steps to ensure that the resulting masks fulfill expected connectivity constraints. These methods operate under the hypothesis that contiguous pixels with similar aspect should belong to the same class. Even if valid in general, this assumption does not consider more complex priors like topological restrictions or convexity, which cannot be easily incorporated into these methods. Post-DAE leverages the latest developments in manifold learning via denoising autoencoders. First, we learn a compact and non-linear embedding that represents the space of anatomically plausible segmentations. Then, given a segmentation mask obtained with an arbitrary method, we reconstruct its anatomically plausible version by projecting it onto the learnt manifold. The proposed method is trained using unpaired segmentation mask, what makes it independent of intensity information and image modality. We performed experiments in binary and multi-label segmentation of chest X-ray and cardiac magnetic resonance images. We show how erroneous and noisy segmentation masks can be improved using Post-DAE. With almost no additional computation cost, our method brings erroneous segmentations back to a feasible space.
翻訳日:2022-11-17 10:16:35 公開日:2020-06-24
# 大規模ライダーソーシングトリプデータのK-プロトタイプセグメンテーション解析

K-Prototype Segmentation Analysis on Large-scale Ridesourcing Trip Data ( http://arxiv.org/abs/2006.13924v1 )

ライセンス: Link先を確認
J Soria, Y Chen, A Stathopoulos(参考訳) 共有モビリティ・オン・デマンドサービスは世界中の都市で急速に拡大している。 顕著な例として、アプリベースのライドシェアリングは、多くの都市交通エコシステムの不可欠な部分になりつつある。 中央集権化にもかかわらず、ライドソーシング旅行に関する詳細な時間的および空間的データの限定的な公開は、新しいサービスが伝統的なモビリティオプションとどのように相互作用し、都市での旅行にどのように影響するかに関する、限られた研究に留まっている。 データ共有契約の改善は、この分野の研究に先例のない機会を開いている。 本研究は、シカゴ市が最近発表した配車サービスデータを用いて、モビリティの出現パターンを考察する。 詳細な時空間の配車データは天候、交通、タクシーのデータと一致し、シカゴの移動システムにおける配車サービスの役割についてより深く理解する。 目的は、配車サービスのパトロンの体系的なバリエーションを調べることである。 k-prototypesは、混合変数データ型を受け入れる能力のため、ユーザセグメントを検出するために使用される。 k-meansアルゴリズムの拡張であり、その出力はプロトタイプと呼ばれる複数のクラスタにデータの分類である。 悪天候条件,代替モードとの競合,使用場所とタイミング,配車傾向など,重要な相違点から6種類の配車プロトタイプを特定し,検討した。 本論文は,交通機関の可利用性,株式,競争性に関連するクラスターの特定について論じる。

Shared mobility-on-demand services are expanding rapidly in cities around the world. As a prominent example, app-based ridesourcing is becoming an integral part of many urban transportation ecosystems. Despite the centrality, limited public availability of detailed temporal and spatial data on ridesourcing trips has limited research on how new services interact with traditional mobility options and how they impact travel in cities. Improving data-sharing agreements are opening unprecedented opportunities for research in this area. This study examines emerging patterns of mobility using recently released City of Chicago public ridesourcing data. The detailed spatio-temporal ridesourcing data are matched with weather, transit, and taxi data to gain a deeper understanding of ridesourcings role in Chicagos mobility system. The goal is to investigate the systematic variations in patronage of ride-hailing. K-prototypes is utilized to detect user segments owing to its ability to accept mixed variable data types. An extension of the K-means algorithm, its output is a classification of the data into several clusters called prototypes. Six ridesourcing prototypes are identified and discussed based on significant differences in relation to adverse weather conditions, competition with alternative modes, location and timing of use, and tendency for ridesplitting. The paper discusses implications of the identified clusters related to affordability, equity and competition with transit.
翻訳日:2022-11-17 10:09:45 公開日:2020-06-24
# データセットにおける主要なトレンドの抽出:シーケンサーアルゴリズム

Extracting the main trend in a dataset: the Sequencer algorithm ( http://arxiv.org/abs/2006.13948v1 )

ライセンス: Link先を確認
Dalya Baron and Brice M\'enard(参考訳) 科学者は複雑な世界の観測からシンプルさを抽出することを目指している。 このプロセスの重要な構成要素は、トレンドを探索するデータの探索である。 しかし実際には、これは科学というよりもむしろ芸術である傾向がある。 自然界に存在するすべてのトレンドの中で、1次元の傾向は、しばしばシーケンスと呼ばれ、単純な現象に対する洞察を提供するため、特に興味深い。 しかし、複雑な方法で表現される可能性があるため、検出が難しいものもある。 本稿では,データセットの主なトレンドを汎用的に識別するアルゴリズムであるSequencerを提案する。 これは、一連のメトリクスとスケールで計算された観測のペア間の類似性を記述するグラフを構築することで実現される。 連続的なトレンドがより長いグラフに繋がるという事実を利用して、アルゴリズムはデータのどの側面がグローバルシーケンスを確立するのに関係しているかを特定できる。 このような手法は提案アルゴリズムを超えて利用することができ、任意の次元削減手法のパラメータを最適化することができる。 我々は、天文学、地質学、および自然界の画像からの実世界データを用いて、Sequencerのパワーを実証する。 多くのケースにおいて、一般的なt-SNEおよびUMAP次元減少技術よりも優れていることを示す。 探索的データ分析へのこのアプローチは、いかなるパラメータのトレーニングやチューニングにも依存せず、幅広い科学的領域での発見を可能にする可能性がある。 ソースコードはgithubで公開されており、オンラインインターフェースは \url{http://sequencer.org} で提供しています。

Scientists aim to extract simplicity from observations of the complex world. An important component of this process is the exploration of data in search of trends. In practice, however, this tends to be more of an art than a science. Among all trends existing in the natural world, one-dimensional trends, often called sequences, are of particular interest as they provide insights into simple phenomena. However, some are challenging to detect as they may be expressed in complex manners. We present the Sequencer, an algorithm designed to generically identify the main trend in a dataset. It does so by constructing graphs describing the similarities between pairs of observations, computed with a set of metrics and scales. Using the fact that continuous trends lead to more elongated graphs, the algorithm can identify which aspects of the data are relevant in establishing a global sequence. Such an approach can be used beyond the proposed algorithm and can optimize the parameters of any dimensionality reduction technique. We demonstrate the power of the Sequencer using real-world data from astronomy, geology as well as images from the natural world. We show that, in a number of cases, it outperforms the popular t-SNE and UMAP dimensionality reduction techniques. This approach to exploratory data analysis, which does not rely on training nor tuning of any parameter, has the potential to enable discoveries in a wide range of scientific domains. The source code is available on github and we provide an online interface at \url{http://sequencer.org}.
翻訳日:2022-11-17 10:09:02 公開日:2020-06-24
# 滑らかおよびログコンケーブターゲットに対する消滅ペナルティを伴うペナルティ化ランジュバンダイナミックス

Penalized Langevin dynamics with vanishing penalty for smooth and log-concave targets ( http://arxiv.org/abs/2006.13998v1 )

ライセンス: Link先を確認
Avetik Karagulyan, Arnak S. Dalalyan(参考訳) 凸および滑らかなポテンシャル関数によって定義される$\mathbb R^p$上の確率分布からサンプリングする問題について検討する。 我々は、Penalized Langevin dynamics (PLD) と呼ばれる連続時間拡散型プロセスを考え、そのドリフトはポテンシャルの負の勾配であり、無限大に進むと消滅する線形ペナルティである。 時間$t$におけるpldの分布と目標とのワッサースタイン-2距離の上界が確立される。 この上限は、近似の精度に対するペナルティの崩壊速度の影響を強調している。 その結果, 低温限界を考慮し, 最適化問題に対するペナラライズド勾配流の収束の非漸近的保証を推定した。

We study the problem of sampling from a probability distribution on $\mathbb R^p$ defined via a convex and smooth potential function. We consider a continuous-time diffusion-type process, termed Penalized Langevin dynamics (PLD), the drift of which is the negative gradient of the potential plus a linear penalty that vanishes when time goes to infinity. An upper bound on the Wasserstein-2 distance between the distribution of the PLD at time $t$ and the target is established. This upper bound highlights the influence of the speed of decay of the penalty on the accuracy of the approximation. As a consequence, considering the low-temperature limit we infer a new nonasymptotic guarantee of convergence of the penalized gradient flow for the optimization problem.
翻訳日:2022-11-17 10:08:24 公開日:2020-06-24
# ニューラルネットワークによる最初の通過パーコレーション形状の予測

Predicting First Passage Percolation Shapes Using Neural Networks ( http://arxiv.org/abs/2006.14004v1 )

ライセンス: Link先を確認
Sebastian Rosengren(参考訳) 多くのランダム成長モデルは、発見点の集合が適切にスケールされ、時間が増えるにつれて決定論的集合に収束する性質を持っている。 このような結果は形状定理として知られている。 通常、形状についてはあまり知られていない。 $\mathbb{Z}^d$ の最初の節のパーコレーションは、形状が凸でコンパクトであることのみを知り、$\mathbb{Z}^d$ のすべての対称性を継承する。 シミュレーションデータを用いて, 平均, 標準偏差, および通過時間分布のパーセンタイルから, 発見地点の集合の形状を適切に予測するニューラルネットワークを構築し, 適合させる。 注記の目的は2つある。 主な目的は、研究者に、現在利用可能な唯一の方法であるシミュレーションの実行を待たずに、通過時間の分布から形状の印象を得るための新しいツールを提供することである。 このノートの2つ目の目的は、この離散確率の領域に現代の機械学習手法を導入することであり、さらなる研究を刺激することを期待している。

Many random growth models have the property that the set of discovered sites, scaled properly, converges to some deterministic set as time grows. Such results are known as shape theorems. Typically, not much is known about the shapes. For first passage percolation on $\mathbb{Z}^d$ we only know that the shape is convex, compact, and inherits all the symmetries of $\mathbb{Z}^d$. Using simulated data we construct and fit a neural network able to adequately predict the shape of the set of discovered sites from the mean, standard deviation, and percentiles of the distribution of the passage times. The purpose of the note is two-fold. The main purpose is to give researchers a new tool for \textit{quickly} getting an impression of the shape from the distribution of the passage times -- instead of having to wait some time for the simulations to run, as is the only available way today. The second purpose of the note is simply to introduce modern machine learning methods into this area of discrete probability, and a hope that it stimulates further research.
翻訳日:2022-11-17 10:08:11 公開日:2020-06-24
# ブラインドグラフフィードバックによるオンラインDense Subgraph Discovery

Online Dense Subgraph Discovery via Blurred-Graph Feedback ( http://arxiv.org/abs/2006.13642v1 )

ライセンス: Link先を確認
Yuko Kuroki, Atsushi Miyauchi, Junya Honda, Masashi Sugiyama(参考訳) Dense Subgraph Discoveryは、エッジ重み付きグラフに高密度なコンポーネントを見つけることを目的としている。 これは様々なアプリケーションで基本的なグラフマイニングタスクであり、近年多くの注目を集めています。 既存の手法の多くは、個々のエッジウェイトが容易に得られると仮定するが、実際にはそのような仮定は必ずしも有効ではない。 本稿では,学習者が単一エッジではなくエッジサブセットをクエリし,クエリされたサブセットのエッジ重みのノイズ和を観測する,高密度サブグラフ探索のための新しい学習問題を提案する。 この問題に対して,まず,高確率の最適解を求める多項式時間アルゴリズムを提案する。 さらに,大規模グラフを扱うために,理論的保証付きよりスケーラブルなアルゴリズムを設計する。 実世界のグラフを用いた計算実験により,アルゴリズムの有効性が示された。

Dense subgraph discovery aims to find a dense component in edge-weighted graphs. This is a fundamental graph-mining task with a variety of applications and thus has received much attention recently. Although most existing methods assume that each individual edge weight is easily obtained, such an assumption is not necessarily valid in practice. In this paper, we introduce a novel learning problem for dense subgraph discovery in which a learner queries edge subsets rather than only single edges and observes a noisy sum of edge weights in a queried subset. For this problem, we first propose a polynomial-time algorithm that obtains a nearly-optimal solution with high probability. Moreover, to deal with large-sized graphs, we design a more scalable algorithm with a theoretical guarantee. Computational experiments using real-world graphs demonstrate the effectiveness of our algorithms.
翻訳日:2022-11-17 10:00:19 公開日:2020-06-24
# 帰属変数の有無による公平な選択について

On Fair Selection in the Presence of Implicit Variance ( http://arxiv.org/abs/2006.13699v1 )

ライセンス: Link先を確認
Vitalii Emelianov, Nicolas Gast, Krishna P. Gummadi and Patrick Loiseau(参考訳) いわゆるルーニー・ルールや4/5ルールのようなクオタに基づくフェアネス・メカニズムは、センシティブな人口統計特性に基づいて不平等を減らすために雇用や大学入学のような選択問題に使用される。 これらのメカニズムは、選択公正性と実用性の間のトレードオフとしてしばしば見なされる。 しかし、Kleinberg と Raghavan は最近の研究で、候補者の質を推定する際の暗黙のバイアスの存在下では、ルーニー則は選別プロセスの有用性を高めることができることを示した。 我々は、暗黙のバイアスがなくても、異なるグループからの候補者の質の推定は、別の基本的な方法、すなわち、その分散によって異なるかもしれないと論じる。 我々は,この現象を暗黙的分散と呼び,「公平性機構は(暗黙的バイアスがなくても)暗黙的分散の存在下で選択過程の有用性に有益であるか」を問う。 この質問に答えるために、候補が群非依存正規分布から引き出される真の潜在性品質を持つ単純なモデルを提案する。 選択をするために、決定者は、各候補の品質の偏りのない見積を通常の雑音で受けるが、その差は候補者のグループに依存する。 次に,「\gamma$-rule」と呼ばれるフェアネス機構(人口統計学的パリティと4-fifthsルールを特別な場合として含む)を,候補をグループから独立して最も高い推定品質で選択するグループ-聖書選択アルゴリズムと比較する。 我々の主な結果は、人口パーティメカニズムが常に選択ユーティリティを増大させる一方、$\gamma$-rule は弱くなることを示している。 我々は,本モデルを第2段階で真の品質が観察される2段階選択プロセスに拡張する。 結果の複数の拡張、特に真の潜在品質の異なる分布について論じる。

Quota-based fairness mechanisms like the so-called Rooney rule or four-fifths rule are used in selection problems such as hiring or college admission to reduce inequalities based on sensitive demographic attributes. These mechanisms are often viewed as introducing a trade-off between selection fairness and utility. In recent work, however, Kleinberg and Raghavan showed that, in the presence of implicit bias in estimating candidates' quality, the Rooney rule can increase the utility of the selection process. We argue that even in the absence of implicit bias, the estimates of candidates' quality from different groups may differ in another fundamental way, namely, in their variance. We term this phenomenon implicit variance and we ask: can fairness mechanisms be beneficial to the utility of a selection process in the presence of implicit variance (even in the absence of implicit bias)? To answer this question, we propose a simple model in which candidates have a true latent quality that is drawn from a group-independent normal distribution. To make the selection, a decision maker receives an unbiased estimate of the quality of each candidate, with normal noise, but whose variance depends on the candidate's group. We then compare the utility obtained by imposing a fairness mechanism that we term $\gamma$-rule (it includes demographic parity and the four-fifths rule as special cases), to that of a group-oblivious selection algorithm that picks the candidates with the highest estimated quality independently of their group. Our main result shows that the demographic parity mechanism always increases the selection utility, while any $\gamma$-rule weakly increases it. We extend our model to a two-stage selection process where the true quality is observed at the second stage. We discuss multiple extensions of our results, in particular to different distributions of the true latent quality.
翻訳日:2022-11-17 10:00:05 公開日:2020-06-24
# ベイズサンプリングバイアス補正:正しい損失関数を持つトレーニング

Bayesian Sampling Bias Correction: Training with the Right Loss Function ( http://arxiv.org/abs/2006.13798v1 )

ライセンス: Link先を確認
L. Le Folgoc, V. Baltatzis, A. Alansary, S. Desai, A. Devaraj, S. Ellis, O. E. Martinez Manzanera, F. Kanavati, A. Nair, J. Schnabel and B. Glocker(参考訳) 我々はサンプリングバイアスの存在下でモデルを訓練するために損失関数の族を導出する。 例えば、訓練データセットのサンプリング率と病理の流行が違う場合や、機械学習実践者がトレーニングデータセットを再バランスさせる場合などである。 サンプリングバイアスは、実験室でのモデルパフォーマンスとより現実的な設定の間に大きな相違を引き起こす。 医用画像アプリケーションで広く使われているが、訓練時間やアドホックな方法では見過ごされがちである。 我々のアプローチはベイズリスクの最小化に基づいている。 任意の確率モデルに対して、トレーニングのバイアス補正損失を導出し、情報ゲインへの直接的な接続を示す。 このアプローチは、確率的バックプロパゲーションを用いた(深い)学習の現在のパラダイムと、ベイズモデルと自然にシームレスに統合される。 本研究は肺結節悪性度評価のケーススタディについて述べる。

We derive a family of loss functions to train models in the presence of sampling bias. Examples are when the prevalence of a pathology differs from its sampling rate in the training dataset, or when a machine learning practioner rebalances their training dataset. Sampling bias causes large discrepancies between model performance in the lab and in more realistic settings. It is omnipresent in medical imaging applications, yet is often overlooked at training time or addressed on an ad-hoc basis. Our approach is based on Bayesian risk minimization. For arbitrary likelihood models we derive the associated bias corrected loss for training, exhibiting a direct connection to information gain. The approach integrates seamlessly in the current paradigm of (deep) learning using stochastic backpropagation and naturally with Bayesian models. We illustrate the methodology on case studies of lung nodule malignancy grading.
翻訳日:2022-11-17 09:59:14 公開日:2020-06-24
# 格子表現学習

Lattice Representation Learning ( http://arxiv.org/abs/2006.13833v1 )

ライセンス: Link先を確認
Luis A. Lastras(参考訳) 本稿では、ユークリッド空間に埋め込まれた格子を持つ離散表現を学習するための理論とアルゴリズムを紹介する。 格子表現は、プロパティの興味深い組み合わせを持っている。 a) 格子量子化を用いて明示的に計算することができるが、本論文で紹介するアイデアを用いて効率的に学習することができる。 b) それらはガウス変分オートエンコーダに強く関連しており、後者に慣れたデザイナーは、モデルから容易に離散表現を作成できる。 c) 格子は群の公理を満たしているため、それらの導入は、シンボリック形式を通じてオブジェクト間の二項演算をモデリングするための単純な代数を学習する方法につながりうるが、これらの構造も微分技術を用いて正式に学習することができる。 この記事では、トレーニングや推論時間に使用される式をリンクする新しい数学的結果や、2つの一般的なデータセットに対する実験的な検証など、最初の2つの特性を探索し、活用するための基盤の整備に焦点をあてる。

In this article we introduce theory and algorithms for learning discrete representations that take on a lattice that is embedded in an Euclidean space. Lattice representations possess an interesting combination of properties: a) they can be computed explicitly using lattice quantization, yet they can be learned efficiently using the ideas we introduce in this paper, b) they are highly related to Gaussian Variational Autoencoders, allowing designers familiar with the latter to easily produce discrete representations from their models and c) since lattices satisfy the axioms of a group, their adoption can lead into a way of learning simple algebras for modeling binary operations between objects through symbolic formalisms, yet learn these structures also formally using differentiation techniques. This article will focus on laying the groundwork for exploring and exploiting the first two properties, including a new mathematical result linking expressions used during training and inference time and experimental validation on two popular datasets.
翻訳日:2022-11-17 09:58:57 公開日:2020-06-24
# 非同期並列と分散最適化の進歩

Advances in Asynchronous Parallel and Distributed Optimization ( http://arxiv.org/abs/2006.13838v1 )

ライセンス: Link先を確認
Mahmoud Assran, Arda Aytekin, Hamid Feyzmahdavian, Mikael Johansson, and Michael Rabbat(参考訳) 機械学習の文脈で発生する大規模最適化問題により、過去10年間に非同期並列および分散最適化手法の研究にいくつかの進歩があった。 非同期メソッドは最適化変数の一貫性のあるビューを維持するためにすべてのプロセッサを必要としない。 したがって、同期法よりも計算資源をより効率的に利用することができ、ストラグラー(すなわち遅いノード)や信頼できない通信リンクのような問題に敏感ではない。 非同期手法の数学的モデリングは、情報遅延の適切な計算を伴い、解析を困難にする。 本稿では,最適化変数のマスタコピーを全プロセッサが更新する集中型手法と,各プロセッサが変数のローカルコピーを保守する分散型手法の両方について,非同期最適化手法の設計と解析の最近の展開を概説する。 この分析は、特に確率的最適化法において、非同期性の程度が収束率にどのように影響するかについての洞察を与える。

Motivated by large-scale optimization problems arising in the context of machine learning, there have been several advances in the study of asynchronous parallel and distributed optimization methods during the past decade. Asynchronous methods do not require all processors to maintain a consistent view of the optimization variables. Consequently, they generally can make more efficient use of computational resources than synchronous methods, and they are not sensitive to issues like stragglers (i.e., slow nodes) and unreliable communication links. Mathematical modeling of asynchronous methods involves proper accounting of information delays, which makes their analysis challenging. This article reviews recent developments in the design and analysis of asynchronous optimization methods, covering both centralized methods, where all processors update a master copy of the optimization variables, and decentralized methods, where each processor maintains a local copy of the variables. The analysis provides insights as to how the degree of asynchrony impacts convergence rates, especially in stochastic optimization methods.
翻訳日:2022-11-17 09:58:41 公開日:2020-06-24
# deepabstract: 検証を加速するニューラルネットワーク抽象化

DeepAbstract: Neural Network Abstraction for Accelerating Verification ( http://arxiv.org/abs/2006.13735v1 )

ライセンス: Link先を確認
Pranav Ashok and Vahid Hashemi and Jan K\v{r}et\'insk\'y and Stefanie Mohr(参考訳) 抽象化はそれをスケールアップするための古典的な検証ツールであるが、ニューラルネットワークの検証にはあまり使われていない。 しかし、既存のアルゴリズムを最先端のネットワークアーキテクチャにスケールするという、まだオープンなタスクに役立つ。 入力に対して同じように振る舞うニューロンのクラスタリングに基づいて,完全接続型フィードフォワードニューラルネットワークに適用可能な抽象化フレームワークを提案する。 ReLUの特定のケースでは、抽象化によって生じるエラー境界も提供します。 本稿では,ネットワークの精度を保ちながら,抽象化がネットワークのサイズを減らし,抽象ネットワーク上での検証結果を元のネットワークに戻す方法を示す。

While abstraction is a classic tool of verification to scale it up, it is not used very often for verifying neural networks. However, it can help with the still open task of scaling existing algorithms to state-of-the-art network architectures. We introduce an abstraction framework applicable to fully-connected feed-forward neural networks based on clustering of neurons that behave similarly on some inputs. For the particular case of ReLU, we additionally provide error bounds incurred by the abstraction. We show how the abstraction reduces the size of the network, while preserving its accuracy, and how verification results on the abstract network can be transferred back to the original network.
翻訳日:2022-11-17 09:52:13 公開日:2020-06-24
# 因子付きマルコフ決定過程におけるミニマックス最適強化学習に向けて

Towards Minimax Optimal Reinforcement Learning in Factored Markov Decision Processes ( http://arxiv.org/abs/2006.13405v1 )

ライセンス: Link先を確認
Yi Tian, Jian Qian, Suvrit Sra(参考訳) 我々は,条件独立な遷移成分を持つmdpであるエピソディクス分解マルコフ決定過程 (fmdps) におけるミニマックス最適強化学習について検討した。 因子分解が知られていると仮定し, 2つのモデルに基づくアルゴリズムを提案する。 1つは、豊富な因子構造に対する最小限の後悔の保証を達成し、もう1つは、少し悪い後悔を伴うより良い計算複雑性を享受する。 我々のアルゴリズムの重要な新しい要素は、探索をガイドするボーナス項の設計である。 本アルゴリズムは, FMDPの難しさを隠蔽することの難しさを明らかにするために, 構造に依存した下限を複数提示することによって補完する。

We study minimax optimal reinforcement learning in episodic factored Markov decision processes (FMDPs), which are MDPs with conditionally independent transition components. Assuming the factorization is known, we propose two model-based algorithms. The first one achieves minimax optimal regret guarantees for a rich class of factored structures, while the second one enjoys better computational complexity with a slightly worse regret. A key new ingredient of our algorithms is the design of a bonus term to guide exploration. We complement our algorithms by presenting several structure-dependent lower bounds on regret for FMDPs that reveal the difficulty hiding in the intricacy of the structures.
翻訳日:2022-11-17 09:51:44 公開日:2020-06-24
# 個人化フリートライアルの設計と評価

Design and Evaluation of Personalized Free Trials ( http://arxiv.org/abs/2006.13420v1 )

ライセンス: Link先を確認
Hema Yoganarasimhan, Ebrahim Barzegary, Abhishek Pani(参考訳) 無料トライアルのプロモーションは、ユーザがこの製品を無料で試す時間に制限があるが、Software as a Service (SaaS)業界で一般的に使われている顧客獲得戦略である。 試用期間がユーザの応答性にどのように影響するかを調べ,無料試用期間のパーソナライズによる利益の定量化を目指す。 当社のデータは、大手SaaS企業による大規模なフィールド実験によるもので、新規ユーザはランダムに7日、14日、30日間の無料トライアルに割り当てられました。 まず、すべての消費者に対する7日間のトライアルが最高の統一ポリシーであることを示し、サブスクリプションは5.59%増加した。 次に、パーソナライズされたポリシー設計と評価のための3段階のフレームワークを開発する。 我々は,線形回帰,ラッソ,CART,ランダム林,XGBoost,因果樹,因果樹の7つの個別的ターゲティングポリシーを開発し,逆確率スコア(IPS)推定器を用いて評価を行った。 lassoに基づくパーソナライズされたポリシーが最高のパフォーマンスを示し、xgboostに基づいたポリシーが続くことが分かりました。 対照的に、因果樹と因果林に基づく政策はうまく機能しない。 次に, 方針設計における手法の有効性と, 過剰適合を伴わずに治療を十分にパーソナライズする能力(すなわち, 散発的不均質さを捉える)をリンクする。 次に、最適な試行期間に基づいて消費者をセグメンテーションし、このコンテキストにおけるユーザの行動のドライバに関する明確な洞察を得る。 最後に,短期的転換を最大化するための政策が,消費者の忠誠心や収益性といった長期的成果にも有効であることを示す。

Free trial promotions, where users are given a limited time to try the product for free, are a commonly used customer acquisition strategy in the Software as a Service (SaaS) industry. We examine how trial length affect users' responsiveness, and seek to quantify the gains from personalizing the length of the free trial promotions. Our data come from a large-scale field experiment conducted by a leading SaaS firm, where new users were randomly assigned to 7, 14, or 30 days of free trial. First, we show that the 7-day trial to all consumers is the best uniform policy, with a 5.59% increase in subscriptions. Next, we develop a three-pronged framework for personalized policy design and evaluation. Using our framework, we develop seven personalized targeting policies based on linear regression, lasso, CART, random forest, XGBoost, causal tree, and causal forest, and evaluate their performances using the Inverse Propensity Score (IPS) estimator. We find that the personalized policy based on lasso performs the best, followed by the one based on XGBoost. In contrast, policies based on causal tree and causal forest perform poorly. We then link a method's effectiveness in designing policy with its ability to personalize the treatment sufficiently without over-fitting (i.e., capture spurious heterogeneity). Next, we segment consumers based on their optimal trial length and derive some substantive insights on the drivers of user behavior in this context. Finally, we show that policies designed to maximize short-run conversions also perform well on long-run outcomes such as consumer loyalty and profitability.
翻訳日:2022-11-17 09:50:44 公開日:2020-06-24
# 局所確率近似:フェデレーション学習と分散マルチタスク強化学習アルゴリズムの統合的視点

Local Stochastic Approximation: A Unified View of Federated Learning and Distributed Multi-Task Reinforcement Learning Algorithms ( http://arxiv.org/abs/2006.13460v1 )

ライセンス: Link先を確認
Thinh T. Doan(参考訳) 強化学習とフェデレート学習の幅広い応用により、エージェントのネットワーク上の局所確率近似を研究し、エージェントの局所演算子からなる演算子のルートを見つけることが目的である。 我々は,各エージェントのデータをマルコフプロセスから生成し,従って依存する場合に,この手法の有限時間性能を特徴付けることを目的とする。 特に, 局所確率近似の収束速度を, 時変ステップサイズと定値ステップサイズの両方に対して与える。 その結果,これらの値は独立データの下での対数係数の範囲内であることが示唆された。 次に、これらの結果をマルチタスク強化学習とフェデレーション学習の異なる興味深い問題に適用する。

Motivated by broad applications in reinforcement learning and federated learning, we study local stochastic approximation over a network of agents, where their goal is to find the root of an operator composed of the local operators at the agents. Our focus is to characterize the finite-time performance of this method when the data at each agent are generated from Markov processes, and hence they are dependent. In particular, we provide the convergence rates of local stochastic approximation for both constant and time-varying step sizes. Our results show that these rates are within a logarithmic factor of the ones under independent data. We then illustrate the applications of these results to different interesting problems in multi-task reinforcement learning and federated learning.
翻訳日:2022-11-17 09:49:43 公開日:2020-06-24
# 非凸確率最適化における2次情報:パワーと限界

Second-Order Information in Non-Convex Stochastic Optimization: Power and Limitations ( http://arxiv.org/abs/2006.13476v1 )

ライセンス: Link先を確認
Yossi Arjevani, Yair Carmon, John C. Duchi, Dylan J. Foster, Ayush Sekhari, Karthik Sridharan(参考訳) 我々は,$o(\epsilon^{-3})$確率勾配とhessian-vector積を用いて,$\|\nabla f(x)\|\le \epsilon$)の定常点を求めるアルゴリズムを設計した。 この値は任意の$p\ge 2$に対して確率的な$p$thの順序法では改善できないが、目的の最初の$p$微分がLipschitzである場合でも、この値は最適であることを示す下界を証明する。 これらの結果は、非凸確率最適化の複雑さを二階法以下で特徴づける。 スコープを拡大して、$(\epsilon,\gamma)$-approximate second-order stationary pointを見つけるというoracleの複雑さに拡張し、確率的な二階法に対してほぼ一致する上下境界を確立します。 ここでの私たちの下限は、ノイズのないケースでも新規です。

We design an algorithm which finds an $\epsilon$-approximate stationary point (with $\|\nabla F(x)\|\le \epsilon$) using $O(\epsilon^{-3})$ stochastic gradient and Hessian-vector products, matching guarantees that were previously available only under a stronger assumption of access to multiple queries with the same random seed. We prove a lower bound which establishes that this rate is optimal and---surprisingly---that it cannot be improved using stochastic $p$th order methods for any $p\ge 2$, even when the first $p$ derivatives of the objective are Lipschitz. Together, these results characterize the complexity of non-convex stochastic optimization with second-order methods and beyond. Expanding our scope to the oracle complexity of finding $(\epsilon,\gamma)$-approximate second-order stationary points, we establish nearly matching upper and lower bounds for stochastic second-order methods. Our lower bounds here are novel even in the noiseless case.
翻訳日:2022-11-17 09:49:31 公開日:2020-06-24
# 非定常マルコフ決定過程に対する強化学習--(さらに)楽観主義の祝福

Reinforcement Learning for Non-Stationary Markov Decision Processes: The Blessing of (More) Optimism ( http://arxiv.org/abs/2006.14389v1 )

ライセンス: Link先を確認
Wang Chi Cheung, David Simchi-Levi, Ruihao Zhu(参考訳) 非定常条件下でのマルコフ決定過程(MDP)におけるRL(un-discounted reinforcement learning)を考察する。すなわち、それぞれの総変動が適切な指標によって定量化される限り、報酬と状態遷移の分布は時間とともに進化することが許される。 まず,信頼度拡大(swucrl2-cw)アルゴリズムを用いた強化学習のためのスライディングウィンドウ上信頼度バウンドを開発し,変動予算が分かっている場合にその動的後悔バウンドを確立する。 さらに,swucrl2-cwアルゴリズムを適応的にチューニングし,同じ動的後悔境界を達成するためのバンドイットオーバー強化学習(borl)アルゴリズムを提案する。 特に,従来の楽観的探索手法による非定常的MDPの学習は,既存の(静止的でない)バンドレート学習環境に存在しないユニークな課題を示す。 我々は、さらなる楽観主義を組み込んだ新しい信頼拡大技術によって、この課題を克服する。

We consider un-discounted reinforcement learning (RL) in Markov decision processes (MDPs) under drifting non-stationarity, i.e., both the reward and state transition distributions are allowed to evolve over time, as long as their respective total variations, quantified by suitable metrics, do not exceed certain variation budgets. We first develop the Sliding Window Upper-Confidence bound for Reinforcement Learning with Confidence Widening (SWUCRL2-CW) algorithm, and establish its dynamic regret bound when the variation budgets are known. In addition, we propose the Bandit-over-Reinforcement Learning (BORL) algorithm to adaptively tune the SWUCRL2-CW algorithm to achieve the same dynamic regret bound, but in a parameter-free manner, i.e., without knowing the variation budgets. Notably, learning non-stationary MDPs via the conventional optimistic exploration technique presents a unique challenge absent in existing (non-stationary) bandit learning settings. We overcome the challenge by a novel confidence widening technique that incorporates additional optimism.
翻訳日:2022-11-17 09:42:43 公開日:2020-06-24
# 深層学習によるSAR画像からの油流出の大規模検出と分類

Large-scale detection and categorization of oil spills from SAR images with deep learning ( http://arxiv.org/abs/2006.13575v1 )

ライセンス: Link先を確認
Filippo Maria Bianchi, Martine M. Espeseth, Nj{\aa}l Borch(参考訳) 本研究では,合成開口レーダ(SAR)画像中の油流出を大規模に検出・分類するためのディープラーニングフレームワークを提案する。 広範囲なデータセットに基づいてトレーニングされた画像セグメント化のためのニューラルネットワークモデルにより,石油流出検出の最先端性能を得ることができ,人間の操作者による結果に匹敵する結果が得られる。 また,SARにおける石油流出検知の文脈において,新しい分類タスクを導入する。 具体的には、検出後、各油流出は、その形状と食感特性に関する異なるカテゴリに分類する。 この分類結果は, 石油流出サービスの設計改善に有用な洞察を与えるものである。 最後のコントリビューションとして、当社の運用パイプラインと、世界中の石油流出の歴史的存在を検出し、分析する大規模データ可視化ツールを紹介します。

We propose a deep learning framework to detect and categorize oil spills in synthetic aperture radar (SAR) images at a large scale. By means of a carefully designed neural network model for image segmentation trained on an extensive dataset, we are able to obtain state-of-the-art performance in oil spill detection, achieving results that are comparable to results produced by human operators. We also introduce a classification task, which is novel in the context of oil spill detection in SAR. Specifically, after being detected, each oil spill is also classified according to different categories pertaining to its shape and texture characteristics. The classification results provide valuable insights for improving the design of oil spill services by world-leading providers. As the last contribution, we present our operational pipeline and a visualization tool for large-scale data, which allows to detect and analyze the historical presence of oil spills worldwide.
翻訳日:2022-11-17 09:42:04 公開日:2020-06-24
# OvA-INN: 可逆ニューラルネットワークによる連続学習

OvA-INN: Continual Learning with Invertible Neural Networks ( http://arxiv.org/abs/2006.13772v1 )

ライセンス: Link先を確認
G. Hocquet, O. Bichler, D. Querlioz(参考訳) 継続的学習の分野では、以前のタスクのデータにアクセスせずに、複数のタスクを次々に学ぶことが目的である。 この問題に対処するために、いくつかのソリューションが提案されているが、通常は、テスト時に特定のサンプルで実行するタスクのどれかをユーザが知っているか、あるいは以前のデータから小さなサンプルを頼りにしていると仮定し、そのほとんどは、一度に1つのクラスのバッチで更新した場合にかなりの精度低下を被っている。 本稿では,1つのクラスを一度に学習でき,前のデータを保存せずに学習できる新しい手法であるova-innを提案する。 これを達成するために、各クラスに対して、特定の可逆ニューラルネットワークを訓練し、関連する特徴を抽出することで、このクラスの可能性を計算する。 テスト時には、最も高い確率で予測されるネットワークを識別することで、サンプルのクラスを予測できる。 本手法では,特徴抽出器上にInvertible Networkを積み重ねることで,事前学習モデルの活用が可能であることを示す。 このようにして、MNISTとCIFAR-100データセットの継続的な学習のための機能学習に依存する、最先端のアプローチよりも優れています。 実験では,CIFAR-100を1つのクラスでトレーニングした結果,精度が72%に達した。

In the field of Continual Learning, the objective is to learn several tasks one after the other without access to the data from previous tasks. Several solutions have been proposed to tackle this problem but they usually assume that the user knows which of the tasks to perform at test time on a particular sample, or rely on small samples from previous data and most of them suffer of a substantial drop in accuracy when updated with batches of only one class at a time. In this article, we propose a new method, OvA-INN, which is able to learn one class at a time and without storing any of the previous data. To achieve this, for each class, we train a specific Invertible Neural Network to extract the relevant features to compute the likelihood on this class. At test time, we can predict the class of a sample by identifying the network which predicted the highest likelihood. With this method, we show that we can take advantage of pretrained models by stacking an Invertible Network on top of a feature extractor. This way, we are able to outperform state-of-the-art approaches that rely on features learning for the Continual Learning of MNIST and CIFAR-100 datasets. In our experiments, we reach 72% accuracy on CIFAR-100 after training our model one class at a time.
翻訳日:2022-11-17 09:41:31 公開日:2020-06-24
# オプティカルフローアシスト慣性ナビゲーションによる移動追跡

Movement Tracking by Optical Flow Assisted Inertial Navigation ( http://arxiv.org/abs/2006.13856v1 )

ライセンス: Link先を確認
Lassi Meronen, William J. Wilkinson, Arno Solin(参考訳) 携帯端末上でのロバストで正確な6自由度トラッキングは、特にスマートフォンのような小型ハンドヘルドデバイスでは難しい課題である。 堅牢性と精度を向上させるため、IMUとカメラからの相補的な動き情報はしばしば融合される。 従来の視覚慣性手法では、デバイスカメラが追跡する特徴点の少ない雲とimusから情報を融合する。 我々は、カメラデータから推定される高密度光流場とIMUデータを融合させる、視覚的に密度の高いアプローチを考える。 フルフレームに適用した学習ベースの手法は、フローの見積もりを改善するために、視覚的な手がかりとフローフィールドのグローバル一貫性を活用できる。 学習に基づく光フローモデルと従来の慣性ナビゲーションを組み合わせる方法と,確率的深層学習のアイデアが測定更新の堅牢性にどのように役立つかを示す。 実用性は、iPadが低テクスチャ環境に挑戦して取得した実世界のデータで実証される。

Robust and accurate six degree-of-freedom tracking on portable devices remains a challenging problem, especially on small hand-held devices such as smartphones. For improved robustness and accuracy, complementary movement information from an IMU and a camera is often fused. Conventional visual-inertial methods fuse information from IMUs with a sparse cloud of feature points tracked by the device camera. We consider a visually dense approach, where the IMU data is fused with the dense optical flow field estimated from the camera data. Learning-based methods applied to the full image frames can leverage visual cues and global consistency of the flow field to improve the flow estimates. We show how a learning-based optical flow model can be combined with conventional inertial navigation, and how ideas from probabilistic deep learning can aid the robustness of the measurement updates. The practical applicability is demonstrated on real-world data acquired by an iPad in a challenging low-texture environment.
翻訳日:2022-11-17 09:41:11 公開日:2020-06-24
# 余分な知識のない1mアンラベル画像によるタスク固有表現の改善

Improving task-specific representation via 1M unlabelled images without any extra knowledge ( http://arxiv.org/abs/2006.13919v1 )

ライセンス: Link先を確認
Aayush Bansal(参考訳) 余分な知識を伴わずに100万枚の未表示画像を活用することでタスク固有の表現を改善するケーススタディを提案する。 多様なデータ分布に既存の表現を条件付けする非常に単純な手法を提案し、多様な例で訓練されたモデルがより良い初期化として機能することを観察する。 本研究は,1枚の画像から表面正規化とセマンティックセグメンテーションの課題について検討した。 nyu-v2深度データセットの表面正規推定とpascal vocの意味セグメンテーションをベースモデル上で4%改善する。 タスク固有の知識や補助タスクは使用せず、ハイパーパラメータの変更も、基盤となるニューラルネットワークアーキテクチャの変更も行いません。

We present a case-study to improve the task-specific representation by leveraging a million unlabelled images without any extra knowledge. We propose an exceedingly simple method of conditioning an existing representation on a diverse data distribution and observe that a model trained on diverse examples acts as a better initialization. We extensively study our findings for the task of surface normal estimation and semantic segmentation from a single image. We improve surface normal estimation on NYU-v2 depth dataset and semantic segmentation on PASCAL VOC by 4% over base model. We did not use any task-specific knowledge or auxiliary tasks, neither changed hyper-parameters nor made any modification in the underlying neural network architecture.
翻訳日:2022-11-17 09:40:56 公開日:2020-06-24
# バックグラウンドチェックの時間! バックグラウンド特徴がディープニューラルネットワークに与える影響を明らかにする

Time for a Background Check! Uncovering the impact of Background Features on Deep Neural Networks ( http://arxiv.org/abs/2006.14077v1 )

ライセンス: Link先を確認
Vikash Sehwag, Rajvardhan Oak, Mung Chiang, Prateek Mittal(参考訳) 表現力の向上に伴い、ディープニューラルネットワークはimagenetのような画像分類データセットの最先端を大幅に改善した。 本稿では,深層ニューラルネットワークの性能向上が背景特性に与える影響について検討する。 特に,背景の非分散,すなわち背景特徴と背景影響の切り替えによって影響を受けない精度,すなわちフォアグラウンドでの背景特徴の予測能力に着目した。 小型ネットワークから最大10億画像で訓練された大規模ネットワークまで,32種類のニューラルネットワークを用いて実験を行った。 本研究は,DNNの表現力の向上が背景特徴の影響を増大させる一方で,背景特徴がランダムに選択されたテクスチャベース背景に置き換えられた場合に,背景特徴が正しい予測を行う能力を高めることを明らかにする。

With increasing expressive power, deep neural networks have significantly improved the state-of-the-art on image classification datasets, such as ImageNet. In this paper, we investigate to what extent the increasing performance of deep neural networks is impacted by background features? In particular, we focus on background invariance, i.e., accuracy unaffected by switching background features and background influence, i.e., predictive power of background features itself when foreground is masked. We perform experiments with 32 different neural networks ranging from small-size networks to large-scale networks trained with up to one Billion images. Our investigations reveal that increasing expressive power of DNNs leads to higher influence of background features, while simultaneously, increases their ability to make the correct prediction when background features are removed or replaced with a randomly selected texture-based background.
翻訳日:2022-11-17 09:40:42 公開日:2020-06-24
# 深層学習と説明可能な人工知能を用いた病院レベルの選択

Using Deep Learning and Explainable Artificial Intelligence in Patients' Choices of Hospital Levels ( http://arxiv.org/abs/2006.13427v1 )

ライセンス: Link先を確認
Lichin Chen, Yu Tsao, Ji-Tian Sheu(参考訳) 患者が自身の提供者を選ぶことができる国では、患者が合理的な決定を下さなかったため、医療資源を効率的に利用できなかったことがよくある。 これは軽度患者の第三次施設を圧倒するなどの問題を引き起こし、急性患者や重症患者を治療する能力を制限する可能性がある。 このような不分散患者数に対処するためには, 方針や資源配分のさらなる評価を行う前に, 患者の選択を監督することが不可欠である。 本研究は、全国の保険データを用いて、既存の文献で議論される可能性のある特徴を蓄積し、深層ニューラルネットワークを用いて患者の病院レベルの選択を予測した。 本研究は,一般市民と個人に対する特徴の寄与を解釈するために,説明可能な人工知能手法を用いた。 さらに,データ表現の変更の有効性についても検討した。 その結果,受信機動作特性曲線 (AUC) (0.90), 精度 (0.90), 感度 (0.94), 特異度 (0.97) を高不均衡ラベルで予測できた。 一般には、一般市民による提供者(肯定的または否定的)の社会的承認と、その地域の1万人あたりの開業医数が最も効果の高い特徴として挙げられる。 データ表現の変化は予測改善に肯定的な影響を及ぼした。 ディープラーニング手法は、高度に不均衡なデータを処理し、高い精度を達成することができる。 この効果は一般市民や個人に異なる影響を与える。 保険データのあいまいさと離散的な性質に対処することは、より良い予測につながる。 深層学習技術を用いたアプリケーションは、健康政策作成に有望である。 モデルと実践実装を解釈するには、さらに多くの作業が必要です。

In countries that enabled patients to choose their own providers, a common problem is that the patients did not make rational decisions, and hence, fail to use healthcare resources efficiently. This might cause problems such as overwhelming tertiary facilities with mild condition patients, thus limiting their capacity of treating acute and critical patients. To address such maldistributed patient volume, it is essential to oversee patients choices before further evaluation of a policy or resource allocation. This study used nationwide insurance data, accumulated possible features discussed in existing literature, and used a deep neural network to predict the patients choices of hospital levels. This study also used explainable artificial intelligence methods to interpret the contribution of features for the general public and individuals. In addition, we explored the effectiveness of changing data representations. The results showed that the model was able to predict with high area under the receiver operating characteristics curve (AUC) (0.90), accuracy (0.90), sensitivity (0.94), and specificity (0.97) with highly imbalanced label. Generally, social approval of the provider by the general public (positive or negative) and the number of practicing physicians serving per ten thousand people of the located area are listed as the top effecting features. The changing data representation had a positive effect on the prediction improvement. Deep learning methods can process highly imbalanced data and achieve high accuracy. The effecting features affect the general public and individuals differently. Addressing the sparsity and discrete nature of insurance data leads to better prediction. Applications using deep learning technology are promising in health policy making. More work is required to interpret models and practice implementation.
翻訳日:2022-11-17 09:40:14 公開日:2020-06-24
# 深層学習による遺伝子型と気象変数の統合による作物収量予測

Crop Yield Prediction Integrating Genotype and Weather Variables Using Deep Learning ( http://arxiv.org/abs/2006.13847v1 )

ライセンス: Link先を確認
Johnathon Shook, Tryambak Gangopadhyay, Linjiang Wu, Baskar Ganapathysubramanian, Soumik Sarkar, Asheesh K. Singh(参考訳) 科学的および領域的な洞察によって支えられた収穫量の正確な予測は、農業の育種の改善に役立ち、様々な気候条件の監視を提供し、不規則な降雨や温度変動を含む作物生産に対する気候上の課題から保護する。 北米のUniform Soybean Tests (UST) から13年間のデータにまたがる過去のパフォーマンス記録を用いて,長期記憶-反復ニューラルネットワークに基づくモデルを構築した。 また,成長期における重要なタイムウインドウの説明可能性を提供するため,時間的注意機構に基づくモデルを開発した。 これらの2つのモデルの組み合わせは、収量予測のためのランダムフォレスト(RF)、LASSO回帰およびデータ駆動型USDAモデルより優れていた。 私たちはこのディープラーニングフレームワークを,GxExM関係を解き放つための"仮説生成ツール"として展開しました。 注意に基づく時系列モデルは、収差予測モデルの解釈可能性に大きな進歩をもたらす。 説明可能なモデルによって提供される洞察は、例えば、商業的リリースのための優れた品種の同定、様々な開発におけるテスト環境のインテリジェントサンプリング、ターゲットとなる育種アプローチのための気象パラメータの統合など、植物の育種プログラムが地球規模の気候変動にどのように適応するかを理解するのに応用できる。 仮説生成ツールとしてDLモデルを使用することで、変動気候条件下での可塑性応答を持つ品種の開発が可能になる。 異なる気候条件下でのダイズおよび他の作物に対するこのアプローチの適用性(感度分析および「What-if」シナリオ)について検討した。

Accurate prediction of crop yield supported by scientific and domain-relevant insights, can help improve agricultural breeding, provide monitoring across diverse climatic conditions and thereby protect against climatic challenges to crop production including erratic rainfall and temperature variations. We used historical performance records from Uniform Soybean Tests (UST) in North America spanning 13 years of data to build a Long Short Term Memory - Recurrent Neural Network based model to dissect and predict genotype response in multiple-environments by leveraging pedigree relatedness measures along with weekly weather parameters. Additionally, for providing explainability of the important time-windows in the growing season, we developed a model based on temporal attention mechanism. The combination of these two models outperformed random forest (RF), LASSO regression and the data-driven USDA model for yield prediction. We deployed this deep learning framework as a 'hypotheses generation tool' to unravel GxExM relationships. Attention-based time series models provide a significant advancement in interpretability of yield prediction models. The insights provided by explainable models are applicable in understanding how plant breeding programs can adapt their approaches for global climate change, for example identification of superior varieties for commercial release, intelligent sampling of testing environments in variety development, and integrating weather parameters for a targeted breeding approach. Using DL models as hypothesis generation tools will enable development of varieties with plasticity response in variable climatic conditions. We envision broad applicability of this approach (via conducting sensitivity analysis and "what-if" scenarios) for soybean and other crop species under different climatic conditions.
翻訳日:2022-11-17 09:34:36 公開日:2020-06-24
# ラベル付き最適パーティショニング

Labeled Optimal Partitioning ( http://arxiv.org/abs/2006.13967v1 )

ライセンス: Link先を確認
Toby Dylan Hocking, Anuraag Srivastava(参考訳) 空間や時間で測定されたデータシーケンスでは、急激な変化を正確に検出することが重要な問題である。 部分的にラベル付けされたデータでは、列車とテストセットの両方において、正・負のラベル付き領域における変化の有無を正しく予測することが重要である。 既存の動的プログラミングアルゴリズムの1つは、ラベルのないテスト領域での予測のために設計され(そして、列車のラベルを無視する)、もう1つは、列車のラベルの正確な適合のために設計されている(ラベルなしのテスト領域における変更ポイントは予測しない)。 我々は、列車データにラベルが適合することを保証し、テストデータにラベルのない変更点を予測できる新しい最適な変更点検出モデルを提案することで、これらの問題を解決する。 我々は,新しい動的プログラミングアルゴリズムであるラベル付き最適パーティショニング(lopart)を提案し,その結果生じる非凸最適化問題を解く形式的証明を提供する。 我々は,アルゴリズムの時間的複雑さを,ラベルの数とセグメントへのデータシーケンスのサイズの観点から理論的かつ実証的に分析する。 最後に,我々のアルゴリズムが既存のベースラインよりも精度が高いことを示す実験的な証拠を,列車やテストラベルの誤りの観点から提示する。

In data sequences measured over space or time, an important problem is accurate detection of abrupt changes. In partially labeled data, it is important to correctly predict presence/absence of changes in positive/negative labeled regions, in both the train and test sets. One existing dynamic programming algorithm is designed for prediction in unlabeled test regions (and ignores the labels in the train set); another is for accurate fitting of train labels (but does not predict changepoints in unlabeled test regions). We resolve these issues by proposing a new optimal changepoint detection model that is guaranteed to fit the labels in the train data, and can also provide predictions of unlabeled changepoints in test data. We propose a new dynamic programming algorithm, Labeled Optimal Partitioning (LOPART), and we provide a formal proof that it solves the resulting non-convex optimization problem. We provide theoretical and empirical analysis of the time complexity of our algorithm, in terms of the number of labels and the size of the data sequence to segment. Finally, we provide empirical evidence that our algorithm is more accurate than the existing baselines, in terms of train and test label error.
翻訳日:2022-11-17 09:33:16 公開日:2020-06-24
# 統計的学習理論を用いた概念ドリフト検出における学習保証の確保

Ensuring Learning Guarantees on Concept Drift Detection with Statistical Learning Theory ( http://arxiv.org/abs/2006.14079v1 )

ライセンス: Link先を確認
Lucas Pagliosa, Rodrigo Mello(参考訳) 概念ドリフト(CD)検出は、データストリームの振る舞いの変化を継続的に識別することを目的としており、研究者が現実世界の現象の研究とモデリングを支援する。 現在のCDアルゴリズムにおける学習保証の欠如により,確率論的学習境界を確保するために必要な要件を定式化するために,統計的学習理論(SLT)を利用することにした。 この論文で議論されているように、slt境界に依存するために一連の数学的仮定は、特にcdシナリオで議論の的となっている。 本稿では,CDシナリオにおけるこれらの仮定に対処し,学習保証を確保する手法を提案する。 補足として,本手法に照らして文献から関連性のある,既知のCDアルゴリズムのセットを評価した。 主な貢献として、異なるドメインでCDアルゴリズムを設計、評価しながら、研究者を支援することが期待されている。

Concept Drift (CD) detection intends to continuously identify changes in data stream behaviors, supporting researchers in the study and modeling of real-world phenomena. Motivated by the lack of learning guarantees in current CD algorithms, we decided to take advantage of the Statistical Learning Theory (SLT) to formalize the necessary requirements to ensure probabilistic learning bounds, so drifts would refer to actual changes in data rather than by chance. As discussed along this paper, a set of mathematical assumptions must be held in order to rely on SLT bounds, which are especially controversial in CD scenarios. Based on this issue, we propose a methodology to address those assumptions in CD scenarios and therefore ensure learning guarantees. Complementary, we assessed a set of relevant and known CD algorithms from the literature in light of our methodology. As main contribution, we expect this work to support researchers while designing and evaluating CD algorithms on different domains.
翻訳日:2022-11-17 09:32:19 公開日:2020-06-24
# Off-the-grid:カーネルクラスタリングのための高速かつ効果的なハイパーパラメータ探索

Off-the-grid: Fast and Effective Hyperparameter Search for Kernel Clustering ( http://arxiv.org/abs/2006.13567v1 )

ライセンス: Link先を確認
Bruno Ordozgoiti and Llu\'is A. Belanche Mu\~noz(参考訳) Kernel関数は、カーネルトリックを通じて$k$-meansクラスタリングアルゴリズムを強化する強力なツールである。 選択されたカーネル関数のパラメータが結果に劇的な影響を与えることが知られている。 教師付き設定では、これらはクロスバリデーションによって調整できるが、クラスタリングでは単純ではなく、通常はヒューリスティックが使用される。 本稿ではカーネルパラメータがカーネル$k$-meansに与える影響について検討する。 特に、以下に、RBFカーネルのパラメータがカーネル$k$-meansを無意味にレンダリングする、定数要素までの低い境界を導出する。 この文脈ではグリッドサーチはハイパーパラメーター探索には有効ではないと論じ、これに代わるアルゴリズムを提案する。 さらに,証明可能な品質保証を伴う高速近似指数に基づく効率的な実装を提案する。 実験により,提案手法が高パラメータ値のリッチで有用な集合を効率的に明らかにできることが実証された。

Kernel functions are a powerful tool to enhance the $k$-means clustering algorithm via the kernel trick. It is known that the parameters of the chosen kernel function can have a dramatic impact on the result. In supervised settings, these can be tuned via cross-validation, but for clustering this is not straightforward and heuristics are usually employed. In this paper we study the impact of kernel parameters on kernel $k$-means. In particular, we derive a lower bound, tight up to constant factors, below which the parameter of the RBF kernel will render kernel $k$-means meaningless. We argue that grid search can be ineffective for hyperparameter search in this context and propose an alternative algorithm for this purpose. In addition, we offer an efficient implementation based on fast approximate exponentiation with provable quality guarantees. Our experimental results demonstrate the ability of our method to efficiently reveal a rich and useful set of hyperparameter values.
翻訳日:2022-11-17 09:24:35 公開日:2020-06-24
# 単純かつスケーラブルな並列ベイズ最適化

Simple and Scalable Parallelized Bayesian Optimization ( http://arxiv.org/abs/2006.13600v1 )

ライセンス: Link先を確認
Masahiro Nomura(参考訳) 近年,並列・分散計算資源の活用は,計算コストの高い問題の解決に不可欠である。 ベイズ最適化(bo)は、機械学習アルゴリズムのハイパーパラメータ最適化のような高価な評価問題において魅力的な結果を示している。 これらの計算資源を効率的に探索するために多くの並列bo法が開発されているが、これらの手法は同期設定を仮定するか、スケーラブルでない。 本稿では,非同期並列設定のための単純でスケーラブルなbo法を提案する。 提案手法の有望な性能を示すマルチ層パーセプトロンのベンチマーク関数とハイパーパラメータ最適化を用いて実験を行った。

In recent years, leveraging parallel and distributed computational resources has become essential to solve problems of high computational cost. Bayesian optimization (BO) has shown attractive results in those expensive-to-evaluate problems such as hyperparameter optimization of machine learning algorithms. While many parallel BO methods have been developed to search efficiently utilizing these computational resources, these methods assumed synchronous settings or were not scalable. In this paper, we propose a simple and scalable BO method for asynchronous parallel settings. Experiments are carried out with a benchmark function and hyperparameter optimization of multi-layer perceptrons, which demonstrate the promising performance of the proposed method.
翻訳日:2022-11-17 09:24:01 公開日:2020-06-24
# ロバストなドメイン適応:表現、重み、帰納バイアス

Robust Domain Adaptation: Representations, Weights and Inductive Bias ( http://arxiv.org/abs/2006.13629v1 )

ライセンス: Link先を確認
Victor Bouvier, Philippe Very, Cl\'ement Chastagnol, Myriam Tami, C\'eline Hudelot(参考訳) 教師なしドメイン適応(UDA)は、過去10年間に多くの注目を集めてきた。 ドメイン不変表現(Domain Invariant Representations, IR)の出現は、ラベル付きソースドメインから新規で遅延のないターゲットドメインへの表現の転送可能性を大幅に改善した。 しかし、このアプローチの潜在的な落とし穴、すなわち \textit{label shift} の存在が明らかになってきた。 いくつかの研究は、サンプルの重み付けによって得られる領域不変性の緩やかなバージョンでこの問題に対処している。 我々の見解では、UDAにおける重要サンプリングと不変表現の相互作用に関する理論的側面は深く研究されていない。 本稿では,重みと不変表現の両方を組み込んだ対象リスクの有界性を示す。 理論解析では,領域間の分布の整合における帰納的バイアスの役割を強調する。 UDAの新しい学習手順を提案することで、標準ベンチマークでそれを説明する。 弱い帰納バイアスが適応性をより強固にすることを実証的に観察した。 より強い帰納バイアスの解明は、新しいUDAアルゴリズムにとって有望な方向である。

Unsupervised Domain Adaptation (UDA) has attracted a lot of attention in the last ten years. The emergence of Domain Invariant Representations (IR) has improved drastically the transferability of representations from a labelled source domain to a new and unlabelled target domain. However, a potential pitfall of this approach, namely the presence of \textit{label shift}, has been brought to light. Some works address this issue with a relaxed version of domain invariance obtained by weighting samples, a strategy often referred to as Importance Sampling. From our point of view, the theoretical aspects of how Importance Sampling and Invariant Representations interact in UDA have not been studied in depth. In the present work, we present a bound of the target risk which incorporates both weights and invariant representations. Our theoretical analysis highlights the role of inductive bias in aligning distributions across domains. We illustrate it on standard benchmarks by proposing a new learning procedure for UDA. We observed empirically that weak inductive bias makes adaptation more robust. The elaboration of stronger inductive bias is a promising direction for new UDA algorithms.
翻訳日:2022-11-17 09:23:51 公開日:2020-06-24
# 連続部分モジュラー関数最大化

Continuous Submodular Function Maximization ( http://arxiv.org/abs/2006.13474v1 )

ライセンス: Link先を確認
Yatao Bian, Joachim M. Buhmann, Andreas Krause(参考訳) 連続部分モジュラ関数(continuous submodular function)は、広い応用範囲を持つ一般に非凸/非凸関数の圏である。 この種類の函数の有名な性質 - 連続部分モジュラリティは、ポリの完全最小化と近似最大化の両方を成す。 時間だ 連続部分モジュラリティは、離散領域から連続領域への部分モジュラリティの概念を一般化することによって得られる。 定義した多変量関数の異なる次元における反発効果を直感的に捉える。 本稿では,連続部分モジュラリティと非凸最適化問題のクラスである連続部分モジュラリティ最大化について体系的に研究する。 まず、連続部分モジュラー函数のクラスを徹底的に特徴づけ、連続部分モジュラリティが減少するリターン(DR)特性の弱いバージョンと同値であることを示す。 したがって、連続 DR-部分モジュラ函数と呼ばれる連続部分モジュラ函数の部分クラスも導出し、完全な DR 特性を享受する。 そして、連続(DR-)部分モジュラリティを保ち、新しい部分モジュラリティ関数を構成するための一般的な規則を与える。 局所-グローバル関係のような制約付きdr-サブモジュラー最大化問題に対する興味深い性質を定めている。 我々は,dppに対する影響最大化,マップ推論から証明可能な平均場推論まで,連続部分モジュラー最適化のいくつかの応用を明らかにした。 これらのアプリケーションでは、連続サブモジュラリティは、このタイプの目的の最適化に関連する価値あるドメイン知識を形式化する。 制約付き単調 dr-サブモジュラー最大化と制約付き非単調 dr-サブモジュラー最大化である。 最後に,提案アルゴリズムの有効性を広範囲に評価する。

Continuous submodular functions are a category of generally non-convex/non-concave functions with a wide spectrum of applications. The celebrated property of this class of functions - continuous submodularity - enables both exact minimization and approximate maximization in poly. time. Continuous submodularity is obtained by generalizing the notion of submodularity from discrete domains to continuous domains. It intuitively captures a repulsive effect amongst different dimensions of the defined multivariate function. In this paper, we systematically study continuous submodularity and a class of non-convex optimization problems: continuous submodular function maximization. We start by a thorough characterization of the class of continuous submodular functions, and show that continuous submodularity is equivalent to a weak version of the diminishing returns (DR) property. Thus we also derive a subclass of continuous submodular functions, termed continuous DR-submodular functions, which enjoys the full DR property. Then we present operations that preserve continuous (DR-)submodularity, thus yielding general rules for composing new submodular functions. We establish intriguing properties for the problem of constrained DR-submodular maximization, such as the local-global relation. We identify several applications of continuous submodular optimization, ranging from influence maximization, MAP inference for DPPs to provable mean field inference. For these applications, continuous submodularity formalizes valuable domain knowledge relevant for optimizing this class of objectives. We present inapproximability results and provable algorithms for two problem settings: constrained monotone DR-submodular maximization and constrained non-monotone DR-submodular maximization. Finally, we extensively evaluate the effectiveness of the proposed algorithms.
翻訳日:2022-11-17 09:14:50 公開日:2020-06-24
# 走行時間推定のための道路ネットワークメトリック学習

Road Network Metric Learning for Estimated Time of Arrival ( http://arxiv.org/abs/2006.13477v1 )

ライセンス: Link先を確認
Yiwen Sun, Kun Fu, Zheng Wang, Changshui Zhang and Jieping Ye(参考訳) 近年, 深層学習は, 目的地から目的地までの移動時間を予測していると考えられる ETA (Estimated Time of Arrival) において, 有望な結果を達成している。 重要なテクニックの1つは、埋め込みベクトルを使用して、リンク(道路セグメント)のような道路ネットワークの要素を表現することである。 しかし、この埋め込みは、UberやDiDiのような大規模な配車プラットフォームでさえ、道路ネットワーク内の多くのリンクが浮動車によって横切られているという、データ空間の問題に悩まされている。 不十分なデータは埋め込みベクトルを不適合な状態にし、ETA予測の精度を損なう。 データ空間の問題に対処するため,我々は ETA (RNML-ETA) のための Road Network Metric Learning フレームワークを提案する。 それは(1)旅行時間を予測するための主回帰タスク、(2)リンク埋め込みベクトルの品質を改善するための補助的メトリック学習タスクの2つの構成要素からなる。 さらに,計量学習の効率を向上させるための新しい損失関数である三角損失を提案する。 我々はRNML-ETAが大規模実世界のデータセットに与える影響を検証し、我々の手法が最先端のモデルより優れており、その促進は少ないデータでコールドリンクに集中していることを示した。

Recently, deep learning have achieved promising results in Estimated Time of Arrival (ETA), which is considered as predicting the travel time from the origin to the destination along a given path. One of the key techniques is to use embedding vectors to represent the elements of road network, such as the links (road segments). However, the embedding suffers from the data sparsity problem that many links in the road network are traversed by too few floating cars even in large ride-hailing platforms like Uber and DiDi. Insufficient data makes the embedding vectors in an under-fitting status, which undermines the accuracy of ETA prediction. To address the data sparsity problem, we propose the Road Network Metric Learning framework for ETA (RNML-ETA). It consists of two components: (1) a main regression task to predict the travel time, and (2) an auxiliary metric learning task to improve the quality of link embedding vectors. We further propose the triangle loss, a novel loss function to improve the efficiency of metric learning. We validated the effectiveness of RNML-ETA on large scale real-world datasets, by showing that our method outperforms the state-of-the-art model and the promotion concentrates on the cold links with few data.
翻訳日:2022-11-17 09:14:24 公開日:2020-06-24
# 重なり合うグループとの公平性

Fairness with Overlapping Groups ( http://arxiv.org/abs/2006.13485v1 )

ライセンス: Link先を確認
Forest Yang, Moustapha Cisse, Sanmi Koyejo(参考訳) アルゴリズム的に公正な予測問題では、標準的な目標は複数の重なり合う群をまたいで公平度メトリクスを平等にすることである。 確率的集団分析を用いて,この標準公正分類問題を再考し,ベイズ最適分類器を明らかにする。 提案手法は,既存のグループフェア分類手法を統一し,様々な非分解性性能指標と公正度尺度の拡張を可能にする。 ベイズ最適分類器はさらに、重なり合う群とアルゴリズム的に公平な分類のための一貫した手順を刺激する。 様々な実際のデータセットに基づいて、提案手法は、その公正さとパフォーマンスのトレードオフの観点からベースラインよりも優れている。

In algorithmically fair prediction problems, a standard goal is to ensure the equality of fairness metrics across multiple overlapping groups simultaneously. We reconsider this standard fair classification problem using a probabilistic population analysis, which, in turn, reveals the Bayes-optimal classifier. Our approach unifies a variety of existing group-fair classification methods and enables extensions to a wide range of non-decomposable multiclass performance metrics and fairness measures. The Bayes-optimal classifier further inspires consistent procedures for algorithmically fair classification with overlapping groups. On a variety of real datasets, the proposed approach outperforms baselines in terms of its fairness-performance tradeoff.
翻訳日:2022-11-17 09:14:03 公開日:2020-06-24
# 雑音ラベルを用いたディープラーニングにおける正規化損失関数

Normalized Loss Functions for Deep Learning with Noisy Labels ( http://arxiv.org/abs/2006.13554v1 )

ライセンス: Link先を確認
Xingjun Ma, Hanxun Huang, Yisen Wang, Simone Romano, Sarah Erfani, James Bailey(参考訳) ノイズ(誤った)ラベルが存在する場合、ロバスト損失関数は正確なディープニューラルネットワーク(DNN)を訓練するために必須である。 一般に使われるクロスエントロピー(ce)損失はノイズラベルに対して頑健ではないことが示されている。 新しい損失関数は設計されているが、部分的に堅牢である。 本稿では,単純な正規化を適用すれば,任意の損失を雑音ラベルに対して頑健にすることができることを示す。 しかし、実際には、単に堅牢であるだけでは、正確なDNNを訓練する損失関数には不十分である。 いくつかのロバストな損失関数を調べることで、不適合の問題に悩まされていることがわかった。 これを解決するために,Active Passive Loss (APL)と呼ばれるロバストな損失関数を構築するフレームワークを提案する。 aplは互いに強化する2つのロバストな損失関数を結合する。 ベンチマークデータセットの実験では、APLフレームワークが生成した新しい損失関数のファミリーは、特に60%や80%の不正ラベルのような大きなノイズ率の下で、最先端のメソッドを大きなマージンで一貫して上回ります。

Robust loss functions are essential for training accurate deep neural networks (DNNs) in the presence of noisy (incorrect) labels. It has been shown that the commonly used Cross Entropy (CE) loss is not robust to noisy labels. Whilst new loss functions have been designed, they are only partially robust. In this paper, we theoretically show by applying a simple normalization that: any loss can be made robust to noisy labels. However, in practice, simply being robust is not sufficient for a loss function to train accurate DNNs. By investigating several robust loss functions, we find that they suffer from a problem of underfitting. To address this, we propose a framework to build robust loss functions called Active Passive Loss (APL). APL combines two robust loss functions that mutually boost each other. Experiments on benchmark datasets demonstrate that the family of new loss functions created by our APL framework can consistently outperform state-of-the-art methods by large margins, especially under large noise rates such as 60% or 80% incorrect labels.
翻訳日:2022-11-17 09:06:05 公開日:2020-06-24
# 標準有限幅畳み込みニューラルネットワークアーキテクチャの経験的神経接核について

On the Empirical Neural Tangent Kernel of Standard Finite-Width Convolutional Neural Network Architectures ( http://arxiv.org/abs/2006.13645v1 )

ライセンス: Link先を確認
Maxim Samarin, Volker Roth, David Belius(参考訳) Neural Tangent Kernel(NTK)は、ディープラーニングの理論を構築するための継続的な取り組みにおいて重要なマイルストーンである。 十分に広いニューラルネットワークがカーネルメソッドとして、あるいはランダム特徴モデルとして振る舞うという予測は、特定のワイドアーキテクチャにおいて実証的に確認されている。 NTK理論が、ImageNetのような複雑なデータセットでトレーニングされた、実際に一般的な幅の標準ニューラルネットワークアーキテクチャをいかにうまくモデル化するかは、まだ明らかな疑問である。 我々は、AlexNetとLeNetという2つのよく知られた畳み込みニューラルネットワークアーキテクチャを実証的に研究し、それらの振る舞いがNTKの有限幅アーキテクチャとは大きく異なることを発見した。 これらのネットワークのより広いバージョンでは、完全接続層のチャネル数と幅が増加すると、偏差が減少する。

The Neural Tangent Kernel (NTK) is an important milestone in the ongoing effort to build a theory for deep learning. Its prediction that sufficiently wide neural networks behave as kernel methods, or equivalently as random feature models, has been confirmed empirically for certain wide architectures. It remains an open question how well NTK theory models standard neural network architectures of widths common in practice, trained on complex datasets such as ImageNet. We study this question empirically for two well-known convolutional neural network architectures, namely AlexNet and LeNet, and find that their behavior deviates significantly from their finite-width NTK counterparts. For wider versions of these networks, where the number of channels and widths of fully-connected layers are increased, the deviation decreases.
翻訳日:2022-11-17 09:05:45 公開日:2020-06-24
# 最小コストアクティブラベリング

Minimum Cost Active Labeling ( http://arxiv.org/abs/2006.13999v1 )

ライセンス: Link先を確認
Hang Qiu, Krishna Chintalapudi, Ramesh Govindan(参考訳) データセットを完全にラベル付けすることは、地平線生成にとって重要である。 本稿では,最小コストのラベル付けの問題として,目標精度を最小コストで制限した大規模データセットに,すべての画像を分類することを考える。 人間のラベル付けは禁じられるので、分類器を訓練してデータセットの一部を正確にラベル付けします。 しかし、特に活発な学習では、分類器の訓練も高価である。 我々のミンコストラベリングでは、モデル学習にアクティブラーニングを用いて、全体的なコストを最小化する分類器の最適トレーニングセットサイズを予測し、次に、アクティブラーニングを使用して分類器をトレーニングし、正しくラベル付けできるサンプル数を最大化する。 我々は、Fashion、CIFAR-10、CIFAR-100といった有名な公開データセットに対するアプローチを検証する。 このアプローチは、人間のラベル付けに比べて6倍のコストで、最も安価なアクティブラーニング戦略よりも常に安価です。

Labeling a data set completely is important for groundtruth generation. In this paper, we consider the problem of minimum-cost labeling: classifying all images in a large data set with a target accuracy bound at minimum dollar cost. Human labeling can be prohibitive, so we train a classifier to accurately label part of the data set. However, training the classifier can be expensive too, particularly with active learning. Our min-cost labeling uses a variant of active learning to learn a model to predict the optimal training set size for the classifier that minimizes overall cost, then uses active learning to train the classifier to maximize the number of samples the classifier can correctly label. We validate our approach on well-known public data sets such as Fashion, CIFAR-10, and CIFAR-100. In some cases, our approach has 6X lower overall cost relative to human labeling, and is always cheaper than the cheapest active learning strategy.
翻訳日:2022-11-17 09:05:29 公開日:2020-06-24
# バイオメディカル知識グラフ埋め込みのベンチマークとベストプラクティス

Benchmark and Best Practices for Biomedical Knowledge Graph Embeddings ( http://arxiv.org/abs/2006.13774v1 )

ライセンス: Link先を確認
David Chang, Ivana Balazevic, Carl Allen, Daniel Chawla, Cynthia Brandt, Richard Andrew Taylor(参考訳) バイオメディカルデータや医療データは、テキストや医療コードなど、離散的で象徴的な形でエンコードされている。 知識ベースやオントロジーに蓄積される専門知識には、多くの専門知識があるが、知識表現の信頼性の高い方法の欠如は、機械学習アプリケーションにおいてその有用性を制限している。 近年、自然言語処理の進歩により、テキストに基づく表現学習は大幅に改善されているが、これまでの生物医学的概念の埋め込みを学習する試みは不足している。 最近のナレッジグラフ埋め込みと呼ばれるモデル群は、一般的なドメインナレッジグラフで有望な結果を示しており、その能力を生体医学領域で探っている。 snomed-ct知識グラフ上で,最先端の知識グラフ埋め込みモデルをいくつかトレーニングし,既存の手法との比較とベストプラクティスに関する詳細な議論をベンチマークとして提供し,生物医学的知識表現の学習に知識グラフの多元的性質を活用することの重要性を検証した。 埋め込み、コード、および材料は、CommunitYで利用可能になる。

Much of biomedical and healthcare data is encoded in discrete, symbolic form such as text and medical codes. There is a wealth of expert-curated biomedical domain knowledge stored in knowledge bases and ontologies, but the lack of reliable methods for learning knowledge representation has limited their usefulness in machine learning applications. While text-based representation learning has significantly improved in recent years through advances in natural language processing, attempts to learn biomedical concept embeddings so far have been lacking. A recent family of models called knowledge graph embeddings have shown promising results on general domain knowledge graphs, and we explore their capabilities in the biomedical domain. We train several state-of-the-art knowledge graph embedding models on the SNOMED-CT knowledge graph, provide a benchmark with comparison to existing methods and in-depth discussion on best practices, and make a case for the importance of leveraging the multi-relational nature of knowledge graphs for learning biomedical knowledge representation. The embeddings, code, and materials will be made available to the communitY.
翻訳日:2022-11-17 09:04:51 公開日:2020-06-24
# ポインティングによる効率的な構成構文解析

Efficient Constituency Parsing by Pointing ( http://arxiv.org/abs/2006.13557v1 )

ライセンス: Link先を確認
Thanh-Tung Nguyen, Xuan-Phi Nguyen, Shafiq Joty, Xiaoli Li(参考訳) 本稿では,解析問題を一連のポインティングタスクにキャストする新しい選挙区解析モデルを提案する。 具体的には,スパンが正統な木構成であることの確率を,スパンの境界語に対応するポインティングスコアを用いて推定する。 解析モデルは効率的なトップダウンデコーディングをサポートし、学習目的は高価なCKY推論に頼らずに構造的一貫性を強制することができる。 標準のPenn Treebank解析タスクにおける実験により,本手法は事前学習したモデルを用いることなく92.78 F1を達成することが示された。 我々のモデルは、事前訓練されたBERTを用いて95.48 F1を達成する。 また,SPMRLにおけるバスク語とスウェーデン語では,多言語領域解析におけるタスクの共有化が図られている。

We propose a novel constituency parsing model that casts the parsing problem into a series of pointing tasks. Specifically, our model estimates the likelihood of a span being a legitimate tree constituent via the pointing score corresponding to the boundary words of the span. Our parsing model supports efficient top-down decoding and our learning objective is able to enforce structural consistency without resorting to the expensive CKY inference. The experiments on the standard English Penn Treebank parsing task show that our method achieves 92.78 F1 without using pre-trained models, which is higher than all the existing methods with similar time complexity. Using pre-trained BERT, our model achieves 95.48 F1, which is competitive with the state-of-the-art while being faster. Our approach also establishes new state-of-the-art in Basque and Swedish in the SPMRL shared tasks on multilingual constituency parsing.
翻訳日:2022-11-17 09:04:31 公開日:2020-06-24
# 動的局所注意のための微分可能ウィンドウ

Differentiable Window for Dynamic Local Attention ( http://arxiv.org/abs/2006.13561v1 )

ライセンス: Link先を確認
Thanh-Tung Nguyen, Xuan-Phi Nguyen, Shafiq Joty, Xiaoli Li(参考訳) 動的ウィンドウ選択のための新しいニューラルモジュールと汎用コンポーネントであるdiffariable Windowを提案する。 普遍的に適用できるが, 微分可能な窓を利用して, 入力領域の注目度を高めることにより, 標準アテンションモジュールを改善する, 説得力のあるユースケースを示す。 微分可能ウィンドウの2つの変種を提案し、2つの新しい方法でトランスフォーマーアーキテクチャに統合する。 我々は,機械翻訳,感情分析,主観的な合意,言語モデリングなど,無数のNLPタスクに対する提案手法を評価する。 実験の結果,すべてのタスクにおける一貫性と大幅な改善が示された。

We propose Differentiable Window, a new neural module and general purpose component for dynamic window selection. While universally applicable, we demonstrate a compelling use case of utilizing Differentiable Window to improve standard attention modules by enabling more focused attentions over the input regions. We propose two variants of Differentiable Window, and integrate them within the Transformer architecture in two novel ways. We evaluate our proposed approach on a myriad of NLP tasks, including machine translation, sentiment analysis, subject-verb agreement and language modeling. Our experimental results demonstrate consistent and sizable improvements across all tasks.
翻訳日:2022-11-17 08:56:42 公開日:2020-06-24
# モデルベース強化学習のための制御認識表現

Control-Aware Representations for Model-based Reinforcement Learning ( http://arxiv.org/abs/2006.13408v1 )

ライセンス: Link先を確認
Brandon Cui and Yinlam Chow and Mohammad Ghavamzadeh(参考訳) 現代の強化学習(RL)における大きな課題は、高次元の感覚観測から力学系の効率的な制御である。 学習制御可能な埋め込み(LCE)は、観測結果を低次元の潜伏空間に埋め込み、潜伏力学を推定し、潜伏空間における制御を実行することによって、この問題に対処する有望なアプローチである。 この領域における2つの重要な疑問は、手前の制御問題に対処可能な表現の学習方法と、表現学習と制御のためのエンドツーエンドフレームワークの達成方法である。 本稿では,これらの問題に対処するためのいくつかのステップについて述べる。 まず LCE モデルを定式化し,政策反復型アルゴリズムが潜時空間で使用するのに適した表現を学習する。 このモデルを制御認識表現学習(CARL)と呼ぶ。 表現学習における予測,一貫性,曲率(PCC)の原理に密接に関連したCARLの損失関数を導出する。 CARLの3つの実装を導出する。 オフライン実装では、既存のLCE法で使われている局所線形制御アルゴリズム(例:~iLQR)をRLアルゴリズム(モデルベースソフトアクター批判)に置き換え、それが大幅な改善をもたらすことを示す。 オンラインCARLでは、表現学習と制御をインターリーブし、さらなる性能向上を示す。 最後に,カール損失関数の重み付きバージョンを最適化し,その重み付けが現在の方針のtd誤差に依存する値誘導型カールを提案する。 提案アルゴリズムをベンチマークタスクの広範な実験により評価し,いくつかのLCEベースラインと比較した。

A major challenge in modern reinforcement learning (RL) is efficient control of dynamical systems from high-dimensional sensory observations. Learning controllable embedding (LCE) is a promising approach that addresses this challenge by embedding the observations into a lower-dimensional latent space, estimating the latent dynamics, and utilizing it to perform control in the latent space. Two important questions in this area are how to learn a representation that is amenable to the control problem at hand, and how to achieve an end-to-end framework for representation learning and control. In this paper, we take a few steps towards addressing these questions. We first formulate a LCE model to learn representations that are suitable to be used by a policy iteration style algorithm in the latent space. We call this model control-aware representation learning (CARL). We derive a loss function for CARL that has close connection to the prediction, consistency, and curvature (PCC) principle for representation learning. We derive three implementations of CARL. In the offline implementation, we replace the locally-linear control algorithm (e.g.,~iLQR) used by the existing LCE methods with a RL algorithm, namely model-based soft actor-critic, and show that it results in significant improvement. In online CARL, we interleave representation learning and control, and demonstrate further gain in performance. Finally, we propose value-guided CARL, a variation in which we optimize a weighted version of the CARL loss function, where the weights depend on the TD-error of the current policy. We evaluate the proposed algorithms by extensive experiments on benchmark tasks and compare them with several LCE baselines.
翻訳日:2022-11-17 08:56:33 公開日:2020-06-24