このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200221となっている論文です。

PDF登録状況(公開日: 20200221)

TitleAuthorsAbstract論文公表日・翻訳日
# シーン表現の幻覚による関係指示のための物体配置の学習

Learning Object Placements For Relational Instructions by Hallucinating Scene Representations ( http://arxiv.org/abs/2001.08481v2 )

ライセンス: Link先を確認
Oier Mees, Alp Emek, Johan Vertens, Wolfram Burgard(参考訳) ロボットは環境の中で人間と共存し、それらと対話する能力を必要としている。 このようなロボットの要求の一つとして、空間的関係を理解し、ユーザが表現した空間的関係に応じてオブジェクトを配置できることが挙げられる。 本研究では,1つの入力画像から空間関係の集合に対する画素方向の物体配置確率を推定する畳み込みニューラルネットワークを提案する。 学習中,本ネットワークは,ハイレベルなシーン表現を補助的タスクとして分類することで学習信号を受信する。 従来の手法とは異なり,本手法では,画素関係確率やオブジェクトの3次元モデルに対して,基礎的な真理データを必要としない。 実世界のデータと人間ロボット実験を用いて,オブジェクトを空間的関係を再現する最善の方法を考える上で,本手法の有効性を実証した。 実験のビデオはhttps://youtu.be/zaZkHTFMKMで見ることができる。

Robots coexisting with humans in their environment and performing services for them need the ability to interact with them. One particular requirement for such robots is that they are able to understand spatial relations and can place objects in accordance with the spatial relations expressed by their user. In this work, we present a convolutional neural network for estimating pixelwise object placement probabilities for a set of spatial relations from a single input image. During training, our network receives the learning signal by classifying hallucinated high-level scene representations as an auxiliary task. Unlike previous approaches, our method does not require ground truth data for the pixelwise relational probabilities or 3D models of the objects, which significantly expands the applicability in practical applications. Our results obtained using real-world data and human-robot experiments demonstrate the effectiveness of our method in reasoning about the best way to place objects to reproduce a spatial relation. Videos of our experiments can be found at https://youtu.be/zaZkHTWFMKM
翻訳日:2023-01-07 12:37:14 公開日:2020-02-21
# ゼロリソース言語処理のための多言語音響単語埋め込みモデル

Multilingual acoustic word embedding models for processing zero-resource languages ( http://arxiv.org/abs/2002.02109v2 )

ライセンス: Link先を確認
Herman Kamper, Yevgen Matusevych, Sharon Goldwater(参考訳) 音響単語埋め込みは可変長音声セグメントの固定次元表現である。 unlabelled speechが唯一の利用可能なリソースである設定では、そのような埋め込みは「ゼロリソース」な音声検索、インデックス化、発見システムで使用できる。 ここでは,複数のラベル付きデータに対して教師付き埋め込みモデルを訓練し,未認識のゼロリソース言語に適用することを提案する。 この移行学習アプローチでは、全ての訓練言語の連接語彙に基づいて訓練された識別的分類器と、単語ペアを再構築する訓練された対応オートエンコーダの2つの多言語反復ニューラルネットワークモデルを検討する。 これらを6つのゼロリソース言語で単語識別タスクを用いてテストする。 十分なリソースを持つ7つの言語で訓練すると、どちらのモデルも同様に、ゼロリソース言語で訓練された教師なしモデルより優れている。 1つのトレーニング言語だけで、2つ目のモデルはよりうまく機能しますが、パフォーマンスは特定のトレーニング-テスト言語ペアに依存します。

Acoustic word embeddings are fixed-dimensional representations of variable-length speech segments. In settings where unlabelled speech is the only available resource, such embeddings can be used in "zero-resource" speech search, indexing and discovery systems. Here we propose to train a single supervised embedding model on labelled data from multiple well-resourced languages and then apply it to unseen zero-resource languages. For this transfer learning approach, we consider two multilingual recurrent neural network models: a discriminative classifier trained on the joint vocabularies of all training languages, and a correspondence autoencoder trained to reconstruct word pairs. We test these using a word discrimination task on six target zero-resource languages. When trained on seven well-resourced languages, both models perform similarly and outperform unsupervised models trained on the zero-resource languages. With just a single training language, the second model works better, but performance depends more on the particular training--testing language pair.
翻訳日:2023-01-03 12:55:53 公開日:2020-02-21
# 自然数と二分木の間の一対一対応

A One-to-One Correspondence between Natural Numbers and Binary Trees ( http://arxiv.org/abs/2002.04477v2 )

ライセンス: Link先を確認
Osvaldo Skliar, Sherry Gapper, Ricardo E. Monge(参考訳) 1(1)を除く各自然数に対して、順序付けられた一対の要素によって特徴づける。 第1の要素は自然数の種類と呼ばれる自然数であり、第2の要素はその型の中で特徴付けられる数の順序と呼ばれる自然数である。 そのようなバイナリツリーの集合の間に1対1の対応が指定される a) 所定のノードには子ノードがない(つまり、終端ノードである)、又は b) ちょうど2つの子ノードがある。 従って、親ノードの1つに1つの子ノードしか持たないバイナリツリーは、ここで考慮されたセットから除外される。

A characterization is provided for each natural number except one (1) by means of an ordered pair of elements. The first element is a natural number called the type of the natural number characterized, and the second is a natural number called the order of the number characterized within those of its type. A one-to-one correspondence is specified between the set of binary trees such that a) a given node has no child nodes (that is, it is a terminal node), or b) it has exactly two child nodes. Thus, binary trees such that one of their parent nodes has only one child node are excluded from the set considered here.
翻訳日:2023-01-03 05:02:37 公開日:2020-02-21
# 行動価値批判による政策学習における離散的行動

Discrete Action On-Policy Learning with Action-Value Critic ( http://arxiv.org/abs/2002.03534v2 )

ライセンス: Link先を確認
Yuguang Yue, Yunhao Tang, Mingzhang Yin, Mingyuan Zhou(参考訳) 離散的動作空間における強化学習(rl)は実世界のアプリケーションでは普遍的であるが、その複雑性はアクション空間次元とともに指数関数的に増大し、既存のオンポリシー勾配に基づくディープrlアルゴリズムを効率的に適用することが困難である。 多次元離散的行動空間を効果的に操作するために,行動-価値関数を推定し,相関した行動に適用し,これらの批判的行動値を組み合わせて勾配推定のばらつきを制御する。 厳密な統計的分析を行い、これらの相関作用の生成と組み合わせ方や、特定の次元からの貢献を断ち切ることによって勾配を緩和する方法を設計する。 これらの取り組みは、分散制御技術に依存する関連するオンポリシーアルゴリズムを経験的に上回る、新しい離散アクションオンポリシーrlアルゴリズムをもたらす。 これらの特性をopenai gymベンチマークタスクで実証し,行動空間の離散化が探索フェーズにどのような影響を与えるかを示し,離散的ポリシーの柔軟性により,より局所的な最適ソリューションへの収束を促進する。

Reinforcement learning (RL) in discrete action space is ubiquitous in real-world applications, but its complexity grows exponentially with the action-space dimension, making it challenging to apply existing on-policy gradient based deep RL algorithms efficiently. To effectively operate in multidimensional discrete action spaces, we construct a critic to estimate action-value functions, apply it on correlated actions, and combine these critic estimated action values to control the variance of gradient estimation. We follow rigorous statistical analysis to design how to generate and combine these correlated actions, and how to sparsify the gradients by shutting down the contributions from certain dimensions. These efforts result in a new discrete action on-policy RL algorithm that empirically outperforms related on-policy algorithms relying on variance control techniques. We demonstrate these properties on OpenAI Gym benchmark tasks, and illustrate how discretizing the action space could benefit the exploration phase and hence facilitate convergence to a better local optimal solution thanks to the flexibility of discrete policy.
翻訳日:2023-01-02 07:41:37 公開日:2020-02-21
# SemI2I:リモートセンシングデータの領域適応のための連続した画像間変換

SemI2I: Semantically Consistent Image-to-Image Translation for Domain Adaptation of Remote Sensing Data ( http://arxiv.org/abs/2002.05925v2 )

ライセンス: Link先を確認
Onur Tasar, S L Happy, Yuliya Tarabalka, Pierre Alliez(参考訳) 畳み込みニューラルネットワークは、リモートセンシング画像から高品質な地図を生成する効果的なツールであることが証明されているが、トレーニングデータとテストデータの間に大きな領域シフトがある場合、その性能は著しく低下する。 この問題に対処するために,テストデータのスタイルを生成型adversarial networkを用いたトレーニングデータに転送する新しいデータ拡張手法を提案する。 我々のセマンティックセグメンテーションフレームワークは、まず実際のトレーニングデータからU-netをトレーニングし、次に提案手法によって生成されたテストスタイル化された偽のトレーニングデータに微調整する。 実験の結果,既存のドメイン適応手法よりも優れたフレームワークが得られた。

Although convolutional neural networks have been proven to be an effective tool to generate high quality maps from remote sensing images, their performance significantly deteriorates when there exists a large domain shift between training and test data. To address this issue, we propose a new data augmentation approach that transfers the style of test data to training data using generative adversarial networks. Our semantic segmentation framework consists in first training a U-net from the real training data and then fine-tuning it on the test stylized fake training data generated by the proposed approach. Our experimental results prove that our framework outperforms the existing domain adaptation methods.
翻訳日:2023-01-01 05:07:16 公開日:2020-02-21
# $k$-meansにおけるすっぱい局所最小値の構造

Structures of Spurious Local Minima in $k$-means ( http://arxiv.org/abs/2002.06694v2 )

ライセンス: Link先を確認
Wei Qian, Yuqian Zhang, Yudong Chen(参考訳) k$-meansクラスタリングは教師なし学習における根本的な問題である。 問題は、クラスタ内の変動を最小限に抑えるために、データポイントを$k$クラスタに分割することにある。 その重要性と幅広い適用性にもかかわらず、k$-means問題の理論的な理解は完全に満足できるものではなかった。 理論的な性能保証を持つ既存のアルゴリズムは、しばしば高度な(時には人工的な)アルゴリズム技術と、データに対する仮定を制限している。 主な課題は、問題の凸でない性質にある。特に、大域的最適化以外の局所解が存在する。 さらに、$k$-meansの最も単純で一般的なアルゴリズム、すなわちロイドのアルゴリズムは、理論と実際の両方においてそのような急激な局所解に収束する。 本稿では,これらの局所解の構造を,k$基底真理クラスタを用いた確率的生成モデルの下で検討することにより,新たな視点から,k$-means問題にアプローチする。 k=3$になると、うまく分離されバランスの取れたクラスタでさえも、スプリアスなローカルミニマが確実に存在する。 そのような局所的最小は、2つの中心を1つの真のクラスターに置き、3つ目の中心を残りの2つの真のクラスターの中央に置く。 一般的な$k$の場合、1つのローカル最小は、複数のセンターを真のクラスタに、もう1つは、複数の真のクラスタの中央に配置する。 おそらく驚くべきことに、これは本質的に分離条件下でのスプリアス局所ミニマの唯一のタイプであることを証明している。 この結果はガウス分布や有界分布の混合に対するk$-meansの定式化に関係している。 我々の理論結果は既存の経験的観測結果と一致し、k$-meansクラスタリングのためのいくつかの改良されたアルゴリズムの正当化を提供する。

$k$-means clustering is a fundamental problem in unsupervised learning. The problem concerns finding a partition of the data points into $k$ clusters such that the within-cluster variation is minimized. Despite its importance and wide applicability, a theoretical understanding of the $k$-means problem has not been completely satisfactory. Existing algorithms with theoretical performance guarantees often rely on sophisticated (sometimes artificial) algorithmic techniques and restricted assumptions on the data. The main challenge lies in the non-convex nature of the problem; in particular, there exist additional local solutions other than the global optimum. Moreover, the simplest and most popular algorithm for $k$-means, namely Lloyd's algorithm, generally converges to such spurious local solutions both in theory and in practice. In this paper, we approach the $k$-means problem from a new perspective, by investigating the structures of these spurious local solutions under a probabilistic generative model with $k$ ground truth clusters. As soon as $k=3$, spurious local minima provably exist, even for well-separated and balanced clusters. One such local minimum puts two centers at one true cluster, and the third center in the middle of the other two true clusters. For general $k$, one local minimum puts multiple centers at a true cluster, and one center in the middle of multiple true clusters. Perhaps surprisingly, we prove that this is essentially the only type of spurious local minima under a separation condition. Our results pertain to the $k$-means formulation for mixtures of Gaussians or bounded distributions. Our theoretical results corroborate existing empirical observations and provide justification for several improved algorithms for $k$-means clustering.
翻訳日:2022-12-31 18:08:10 公開日:2020-02-21
# 負の逐次パターンのセマンティックス

Semantics of negative sequential patterns ( http://arxiv.org/abs/2002.06920v2 )

ライセンス: Link先を確認
Thomas Guyet (LACODAM), Philippe Besnard (IRIT)(参考訳) パターンマイニングの分野において、負の逐次パターンは、発生すべきイベントと、否定的なイベントと呼ばれる他のイベントからなるシーケンスによって指定される。 例えば、パターン $\langle a\ \neg b\ c\rangle$ の包含は a の発生とその後の c の発生で生じるが、b の間には発生しない。 本論文は,このような直観的な表記の曖昧さを浮き彫りにし,パターンとシーケンスの包含関係について8つの意味論を同定する。 これらの意味論は図示され、形式的に研究され、特にそれらの間の支配関係と同値関係を提案する。 また、これらの意味論のいくつかではサポートが反モノトニックであることも証明します。 これらの結果のいくつかは,効率良く頻繁な負のパターンを抽出するアルゴリズムの開発を目的として議論された。

In the field of pattern mining, a negative sequential pattern is specified by means of a sequence consisting of events to occur and of other events, called negative events, to be absent. For instance, containment of the pattern $\langle a\ \neg b\ c\rangle$ arises with an occurrence of a and a subsequent occurrence of c but no occurrence of b in between. This article is to shed light on the ambiguity of such a seemingly intuitive notation and we identify eight possible semantics for the containment relation between a pattern and a sequence. These semantics are illustrated and formally studied, in particular we propose dominance and equivalence relations between them. Also we prove that support is anti-monotonic for some of these semantics. Some of the results are discussed with the aim of developing algorithms to extract efficiently frequent negative patterns.
翻訳日:2022-12-31 13:01:59 公開日:2020-02-21
# 非回帰学習における最後の反復収束-凸凹景観に対する制約付きmin-max最適化

Last iterate convergence in no-regret learning: constrained min-max optimization for convex-concave landscapes ( http://arxiv.org/abs/2002.06768v2 )

ライセンス: Link先を確認
Qi Lei and Sai Ganesh Nagarajan and Ioannis Panageas and Xiao Wang(参考訳) 最近の一連の論文で、勾配降下/昇降およびミラー降下の変種が凸凸ゼロサムゲームにおいて最後の反復収束を示すことが示されている。 具体的には、 \cite{DISZ17, LiangS18} は \textit{unconstrained} min-max 最適化の場合、いわゆる "Optimistic Gradient Descent/Ascent" の反復収束を示す。 さらに、著者らは \cite{metal} において、余分な勾配ステップを持つミラー降下は、凸凹問題(制約付きと非制約付きの両方)に対する最後の反復収束を示すが、アルゴリズムはオンライン学習フレームワークに従わない。 本研究は, オンライン学習フレームワークを踏襲した"Optimistic Multiplicative-Weights Update (OMWU)"が, 凸凹型ゲームにおいて, 局所的に最終反復収束を示し, OMWUの最終反復収束を \textit{bilinear case} に対してのみ示す「cite{DP19}」の結果を一般化することを示した。 提案手法の高速収束を示す実験により,実験結果を補完する。

In a recent series of papers it has been established that variants of Gradient Descent/Ascent and Mirror Descent exhibit last iterate convergence in convex-concave zero-sum games. Specifically, \cite{DISZ17, LiangS18} show last iterate convergence of the so called "Optimistic Gradient Descent/Ascent" for the case of \textit{unconstrained} min-max optimization. Moreover, in \cite{Metal} the authors show that Mirror Descent with an extra gradient step displays last iterate convergence for convex-concave problems (both constrained and unconstrained), though their algorithm does not follow the online learning framework; it uses extra information rather than \textit{only} the history to compute the next iteration. In this work, we show that "Optimistic Multiplicative-Weights Update (OMWU)" which follows the no-regret online learning framework, exhibits last iterate convergence locally for convex-concave games, generalizing the results of \cite{DP19} where last iterate convergence of OMWU was shown only for the \textit{bilinear case}. We complement our results with experiments that indicate fast convergence of the method.
翻訳日:2022-12-31 12:26:02 公開日:2020-02-21
# 確率的バンディットに対する行動マニピュレーション攻撃:攻撃と防御

Action-Manipulation Attacks Against Stochastic Bandits: Attacks and Defense ( http://arxiv.org/abs/2002.08000v2 )

ライセンス: Link先を確認
Guanlin Liu and Lifeng lai(参考訳) 確率的マルチアームバンディットモデルの適用範囲が広いため、敵攻撃の影響を理解し、攻撃に頑健なバンディットアルゴリズムを設計することは、このモデルの安全な応用には不可欠である。 本稿では,アクション・マニピュレーション・アタックと呼ばれる新たな攻撃方法を提案する。 この攻撃では、相手が選択したアクション信号を変更することができる。 提案手法では,平均的な腕の報酬の知識がなければ,広く用いられているバンディットアルゴリズムであるuper confidence bound(ucb)アルゴリズムを操作でき,対数コストのみを使わずに目標の腕を非常に頻繁に引っ張ることができる。 このような攻撃に対して防御するために,攻撃コストの上限が与えられた場合に,アクション操作攻撃に対して堅牢な新しいアルゴリズムを導入する。 我々は、このアルゴリズムが$\mathcal{o}(\max\{\log t,a\})$ で有界な擬似レグレット上限を持つことを証明し、ここで$t$ はラウンドの総数、$a$ は総攻撃コストの上限であることを示した。

Due to the broad range of applications of stochastic multi-armed bandit model, understanding the effects of adversarial attacks and designing bandit algorithms robust to attacks are essential for the safe applications of this model. In this paper, we introduce a new class of attack named action-manipulation attack. In this attack, an adversary can change the action signal selected by the user. We show that without knowledge of mean rewards of arms, our proposed attack can manipulate Upper Confidence Bound (UCB) algorithm, a widely used bandit algorithm, into pulling a target arm very frequently by spending only logarithmic cost. To defend against this class of attacks, we introduce a novel algorithm that is robust to action-manipulation attacks when an upper bound for the total attack cost is given. We prove that our algorithm has a pseudo-regret upper bounded by $\mathcal{O}(\max\{\log T,A\})$, where $T$ is the total number of rounds and $A$ is the upper bound of the total attack cost.
翻訳日:2022-12-30 13:36:23 公開日:2020-02-21
# TFApprox:GPU上のDNN近似ハードウェアアクセラレータの高速エミュレーションを目指す

TFApprox: Towards a Fast Emulation of DNN Approximate Hardware Accelerators on GPU ( http://arxiv.org/abs/2002.09481v1 )

ライセンス: Link先を確認
Filip Vaverka, Vojtech Mrazek, Zdenek Vasicek, Lukas Sekanina(参考訳) 近似演算回路を導入することにより、ディープニューラルネットワーク(DNN)のハードウェアアクセラレータのエネルギー効率を向上させることができる。 これらの回路を用いて導入されたエラーを定量化し、高価なハードウェアプロトタイピングを避けるために、DNNアクセラレータのソフトウェアエミュレータは通常CPUまたはGPU上で実行される。 しかし、このエミュレーションは通常、CPUやGPUで動作し、標準的な浮動小数点演算命令と一般的なDNNライブラリで動作するソフトウェアDNN実装よりも2~3桁遅い。 理由は、一般的なCPUやGPU上での近似演算に対するハードウェアサポートがないので、これらの演算は高価にエミュレートする必要があるからだ。 この問題に対処するために,GPU上でエミュレートされたDNNアクセラレータで使用される近似回路の効率的なエミュレーション手法を提案する。 全ての関連する近似回路はルックアップテーブルとして実装され、CUDA対応GPUのテクスチャメモリ機構を介してアクセスされる。 テクスチャメモリは不規則な読み取り専用アクセスに最適化されており、一部のgpuアーキテクチャでは専用のキャッシュとして実装されている。 この手法により、ResNetのような複雑なDNN上で最適化されたCPUバージョンに対して、エミュレートされたDNNアクセラレータの推定時間を約200倍削減できる。 提案されたアプローチはtensorflowライブラリを拡張し、https://github.com/ehw-fit/tf-approximateで利用可能である。

Energy efficiency of hardware accelerators of deep neural networks (DNN) can be improved by introducing approximate arithmetic circuits. In order to quantify the error introduced by using these circuits and avoid the expensive hardware prototyping, a software emulator of the DNN accelerator is usually executed on CPU or GPU. However, this emulation is typically two or three orders of magnitude slower than a software DNN implementation running on CPU or GPU and operating with standard floating point arithmetic instructions and common DNN libraries. The reason is that there is no hardware support for approximate arithmetic operations on common CPUs and GPUs and these operations have to be expensively emulated. In order to address this issue, we propose an efficient emulation method for approximate circuits utilized in a given DNN accelerator which is emulated on GPU. All relevant approximate circuits are implemented as look-up tables and accessed through a texture memory mechanism of CUDA capable GPUs. We exploit the fact that the texture memory is optimized for irregular read-only access and in some GPU architectures is even implemented as a dedicated cache. This technique allowed us to reduce the inference time of the emulated DNN accelerator approximately 200 times with respect to an optimized CPU version on complex DNNs such as ResNet. The proposed approach extends the TensorFlow library and is available online at https://github.com/ehw-fit/tf-approximate.
翻訳日:2022-12-30 01:57:24 公開日:2020-02-21
# 確率的部分空間立方体ニュートン法

Stochastic Subspace Cubic Newton Method ( http://arxiv.org/abs/2002.09526v1 )

ライセンス: Link先を確認
Filip Hanzely, Nikita Doikov, Peter Richt\'arik, Yurii Nesterov(参考訳) 本稿では,高次元凸関数を最小化するために,ランダム化二階最適化アルゴリズム--SSCN(Stochastic Subspace Cubic Newton)を提案する。 我々の手法は、Nesterov と Polyak (2006) の立方正則化ニュートン法の {\em stochastic} 拡張と、Kozak et al. (2019) の確率的部分空間降下の {\em second-order} 拡張である。 ミニバッチサイズが変化するにつれて,sscnのグローバル収束率は,確率座標降下率 (cd) と立方体正規化ニュートン率の間に補間され,一階法と二階法の間に新たな知見を与える。 注目すべきことに、SSCN の局所収束速度は二次函数 $\frac12 (x-x^*)^\top \nabla^2f(x^*)(x-x^*)$ の最小化問題に適用される確率的部分空間降下率と一致する。 数値実験により,SSCNは高速な変種と競合しながら,非加速的な1次CDアルゴリズムよりも優れていた。

In this paper, we propose a new randomized second-order optimization algorithm---Stochastic Subspace Cubic Newton (SSCN)---for minimizing a high dimensional convex function $f$. Our method can be seen both as a {\em stochastic} extension of the cubically-regularized Newton method of Nesterov and Polyak (2006), and a {\em second-order} enhancement of stochastic subspace descent of Kozak et al. (2019). We prove that as we vary the minibatch size, the global convergence rate of SSCN interpolates between the rate of stochastic coordinate descent (CD) and the rate of cubic regularized Newton, thus giving new insights into the connection between first and second-order methods. Remarkably, the local convergence rate of SSCN matches the rate of stochastic subspace descent applied to the problem of minimizing the quadratic function $\frac12 (x-x^*)^\top \nabla^2f(x^*)(x-x^*)$, where $x^*$ is the minimizer of $f$, and hence depends on the properties of $f$ at the optimum only. Our numerical experiments show that SSCN outperforms non-accelerated first-order CD algorithms while being competitive to their accelerated variants.
翻訳日:2022-12-30 01:56:45 公開日:2020-02-21
# semanticposs: 大量の動的インスタンスを持つポイントクラウドデータセット

SemanticPOSS: A Point Cloud Dataset with Large Quantity of Dynamic Instances ( http://arxiv.org/abs/2002.09147v1 )

ライセンス: Link先を確認
Yancheng Pan, Biao Gao, Jilin Mei, Sibo Geng, Chengkun Li and Huijing Zhao(参考訳) 3dセマンティックセグメンテーションは、自動運転システムにおける重要なタスクの1つである。 近年3次元セマンティックセグメンテーションタスクのためのディープラーニングモデルが広く研究されているが、通常は大量のトレーニングデータを必要とする。 しかし、3Dセマンティックセグメンテーションのための現在のデータセットには、ポイントワイズアノテーション、バラシフォームシーン、動的オブジェクトがない。 本稿では,大量の動的インスタンスを含む2988の様々な複雑なlidarスキャンを含むsemanticpossデータセットを提案する。 データは北京大学で収集され、SemanticKITTIと同じデータフォーマットを使用する。 さらに,SemanticPOSSデータセット上での一般的な3次元セマンティックセマンティックセマンティクスモデルの評価を行った。 実験の結果,セマンティックPOSSは動的物体の予測精度をある程度向上させることができることがわかった。 SemanticPOSS は \url{www.poss.pku.edu.cn} で公開される。

3D semantic segmentation is one of the key tasks for autonomous driving system. Recently, deep learning models for 3D semantic segmentation task have been widely researched, but they usually require large amounts of training data. However, the present datasets for 3D semantic segmentation are lack of point-wise annotation, diversiform scenes and dynamic objects. In this paper, we propose the SemanticPOSS dataset, which contains 2988 various and complicated LiDAR scans with large quantity of dynamic instances. The data is collected in Peking University and uses the same data format as SemanticKITTI. In addition, we evaluate several typical 3D semantic segmentation models on our SemanticPOSS dataset. Experimental results show that SemanticPOSS can help to improve the prediction accuracy of dynamic objects as people, car in some degree. SemanticPOSS will be published at \url{www.poss.pku.edu.cn}.
翻訳日:2022-12-30 01:56:14 公開日:2020-02-21
# 深層学習システムによるコロナウイルス2019年肺炎のスクリーニング

Deep Learning System to Screen Coronavirus Disease 2019 Pneumonia ( http://arxiv.org/abs/2002.09334v1 )

ライセンス: Link先を確認
Xiaowei Xu, Xiangao Jiang, Chunlian Ma, Peng Du, Xukun Li, Shuangzhi Lv, Liang Yu, Yanfei Chen, Junwei Su, Guanjing Lang, Yongtao Li, Hong Zhao, Kaijin Xu, Lingxiang Ruan, Wei Wu(参考訳) ウイルスRNAのリアルタイム逆転写-ポリメラーゼ連鎖反応 (RT-PCR) は, 早期に比較的低い陽性率を示し, COVID-19(世界保健機関)を同定した。 新型コロナウイルスのCT像は、インフルエンザウイルス性肺炎など他の種類のウイルス性肺炎と異なる独自の特徴を持つ。 そこで, 臨床医は, 新型肺炎の早期診断基準をできるだけ早期に求めるとともに, 深層学習技術を用いて, インフルエンザとインフルエンザウイルス肺炎, および肺CT画像の健康な患者を鑑別する早期スクリーニングモデルを確立することを目的とした。 肺CT画像から3次元深層学習モデルを用いて,感染候補領域を抽出した。 これらの分離された画像は、新型コロナウイルス、インフルエンザウイルスAウイルス肺炎、および感染グループと無関係に分類された。 最後に, このct症例の感染タイプと全信頼度を, 騒音・ベイズ関数を用いて算出し, ベンチマークデータセットの結果, 総合精度はct症例全体の86.7%であった。

We found that the real time reverse transcription-polymerase chain reaction (RT-PCR) detection of viral RNA from sputum or nasopharyngeal swab has a relatively low positive rate in the early stage to determine COVID-19 (named by the World Health Organization). The manifestations of computed tomography (CT) imaging of COVID-19 had their own characteristics, which are different from other types of viral pneumonia, such as Influenza-A viral pneumonia. Therefore, clinical doctors call for another early diagnostic criteria for this new type of pneumonia as soon as possible.This study aimed to establish an early screening model to distinguish COVID-19 pneumonia from Influenza-A viral pneumonia and healthy cases with pulmonary CT images using deep learning techniques. The candidate infection regions were first segmented out using a 3-dimensional deep learning model from pulmonary CT image set. These separated images were then categorized into COVID-19, Influenza-A viral pneumonia and irrelevant to infection groups, together with the corresponding confidence scores using a location-attention classification model. Finally the infection type and total confidence score of this CT case were calculated with Noisy-or Bayesian function.The experiments result of benchmark dataset showed that the overall accuracy was 86.7 % from the perspective of CT cases as a whole.The deep learning models established in this study were effective for the early screening of COVID-19 patients and demonstrated to be a promising supplementary diagnostic method for frontline clinical doctors.
翻訳日:2022-12-30 01:56:01 公開日:2020-02-21
# ソーシャルネットワーク分析の4次元:研究方法,アプリケーション,ソフトウェアツールの概要

The Four Dimensions of Social Network Analysis: An Overview of Research Methods, Applications, and Software Tools ( http://arxiv.org/abs/2002.09485v1 )

ライセンス: Link先を確認
David Camacho, \`Angel Panizo-LLedot, Gema Bello-Orgaz, Antonio Gonzalez-Pardo, Erik Cambria(参考訳) ソーシャルネットワークベースのアプリケーションは近年、指数関数的な成長を遂げている。 この上昇の理由の1つは、このアプリケーションドメインが、webから貴重な情報を抽出するための最も高度な計算技術をテストし、開発するための、特に豊かな場所を提供するからです。 本研究の主な貢献は3つある:(1)sna(state of the art on social network analysis)の最新の文献レビューを提供する;(2)snaの4つの本質的特徴(または次元)に基づく一連の新しい指標を提案する;(3)最後に、人気のあるsnaツールとフレームワークの定量的分析を提供する。 我々はまた,この分野で最も活発な研究領域と応用領域を検出するためのサイエントメトリ研究も行った。 この研究は、SNAの異なるソフトウェアツールとフレームワークを評価するために、新しいメトリクスのセットを定義するために使用されるPattern & Knowledge Discovery、Information Fusion & Integration、Scalability and Visualizationという4つの異なる次元の定義を提案します。 これらの次元は、定義された程度とともに、ソーシャルネットワーク技術の成熟度の評価と測定を可能にし、それらの定量的評価の両方を求め、この活発な領域における課題と今後のトレンドに光を当てる。

Social network based applications have experienced exponential growth in recent years. One of the reasons for this rise is that this application domain offers a particularly fertile place to test and develop the most advanced computational techniques to extract valuable information from the Web. The main contribution of this work is three-fold: (1) we provide an up-to-date literature review of the state of the art on social network analysis (SNA);(2) we propose a set of new metrics based on four essential features (or dimensions) in SNA; (3) finally, we provide a quantitative analysis of a set of popular SNA tools and frameworks. We have also performed a scientometric study to detect the most active research areas and application domains in this area. This work proposes the definition of four different dimensions, namely Pattern & Knowledge discovery, Information Fusion & Integration, Scalability, and Visualization, which are used to define a set of new metrics (termed degrees) in order to evaluate the different software tools and frameworks of SNA (a set of 20 SNA-software tools are analyzed and ranked following previous metrics). These dimensions, together with the defined degrees, allow evaluating and measure the maturity of social network technologies, looking for both a quantitative assessment of them, as to shed light to the challenges and future trends in this active area.
翻訳日:2022-12-30 01:54:32 公開日:2020-02-21
# ニューラルネットワークを用いた右チャージデータを用いた条件混合Weibull分布の推定

Estimation of conditional mixture Weibull distribution with right-censored data using neural network for time-to-event analysis ( http://arxiv.org/abs/2002.09358v1 )

ライセンス: Link先を確認
Achraf Bennis (IRIT), Sandrine Mouysset (IRIT), Mathieu Serrurier (IRIT)(参考訳) 本稿では,予測保守と健康分野における共通状況である右検閲データを用いた生存率解析について検討する。 本研究では,2パラメータワイブル分布を条件付きで推定するモデルを提案する。 この結果を達成するために,ニューラルネットワークアーキテクチャと,その右検閲データを考慮した損失関数について述べる。 我々はこのアプローチを二パラメータワイブル分布の有限混合に拡張する。 まず、我々のモデルが合成データセット上で条件付きワイブル分布の正しいパラメータを正確に推定できることを検証する。 2つの実単語データセット(METABRICとSEER)の数値実験において、我々のモデルは最先端の手法よりも優れている。 また、我々のアプローチは生存時間の地平線を考慮できることを示した。

In this paper, we consider survival analysis with right-censored data which is a common situation in predictive maintenance and health field. We propose a model based on the estimation of two-parameter Weibull distribution conditionally to the features. To achieve this result, we describe a neural network architecture and the associated loss functions that takes into account the right-censored data. We extend the approach to a finite mixture of two-parameter Weibull distributions. We first validate that our model is able to precisely estimate the right parameters of the conditional Weibull distribution on synthetic datasets. In numerical experiments on two real-word datasets (METABRIC and SEER), our model outperforms the state-of-the-art methods. We also demonstrate that our approach can consider any survival time horizon.
翻訳日:2022-12-30 01:47:41 公開日:2020-02-21
# ソーシャルメディアデータのキュレーション

Curating Social Media Data ( http://arxiv.org/abs/2002.09202v1 )

ライセンス: Link先を確認
Kushal Vaghani(参考訳) ソーシャルメディアプラットフォームは、現代の人々の脈動の民主化に力を入れている。 ソーシャルメディアサイト(例えば、Twitter、Facebook、Tumblr)で公表されたデータは、膨大な人気と高い利用率のため、豊富な情報の海である。 したがって、ソーシャルインプリントのデータ駆動分析は、企業や政府にとって、製品やサービスをさらに改善するための重要な資産となっている。 しかし、ソーシャルメディアデータのダイナミックでノイズの多い性質のため、生データを正確に分析することは難しい課題である。 重要な要件は、分析パイプラインに投入する前に生データをキュレートすることだ。 このキュレーションプロセスは、生データをコンテキスト化されたデータと知識に変換する。 本稿では,ソーシャルデータのクリーン化とキュレーション,信頼性の高い分析のための準備を可能にするデータキュレーションパイプラインであるCrowdCorrectを提案する。 当社のパイプラインは,既存の社内ツールを使用してソーシャルメディアデータのコーパスから自動機能抽出を行う。 さらに,自動とクラウドソースの両方のアプローチを用いて,二重修正機構を提供する。 このパイプラインの実装には、生データをキュレートするクラウドユーザの貢献を促進するために、マイクロタスクを自動生成するツールセットも含まれている。 この研究の目的のために、私たちはtwitterをその人気のためにモチベーションの高いソーシャルメディアデータプラットフォームとして使用しています。

Social media platforms have empowered the democratization of the pulse of people in the modern era. Due to its immense popularity and high usage, data published on social media sites (e.g., Twitter, Facebook and Tumblr) is a rich ocean of information. Therefore data-driven analytics of social imprints has become a vital asset for organisations and governments to further improve their products and services. However, due to the dynamic and noisy nature of social media data, performing accurate analysis on raw data is a challenging task. A key requirement is to curate the raw data before fed into analytics pipelines. This curation process transforms the raw data into contextualized data and knowledge. We propose a data curation pipeline, namely CrowdCorrect, to enable analysts cleansing and curating social data and preparing it for reliable analytics. Our pipeline provides an automatic feature extraction from a corpus of social media data using existing in-house tools. Further, we offer a dual-correction mechanism using both automated and crowd-sourced approaches. The implementation of this pipeline also includes a set of tools for automatically creating micro-tasks to facilitate the contribution of crowd users in curating the raw data. For the purposes of this research, we use Twitter as our motivational social media data platform due to its popularity.
翻訳日:2022-12-30 01:47:29 公開日:2020-02-21
# きめ細かいインスタンスレベルのスケッチに基づくビデオ検索

Fine-Grained Instance-Level Sketch-Based Video Retrieval ( http://arxiv.org/abs/2002.09461v1 )

ライセンス: Link先を確認
Peng Xu, Kun Liu, Tao Xiang, Timothy M. Hospedales, Zhanyu Ma, Jun Guo, Yi-Zhe Song(参考訳) 既存のスケッチ分析作業は、静的な物体やシーンを描いたスケッチを研究している。 本研究では,特定の対象ビデオインスタンスを検索するためのクエリとしてスケッチシーケンスを使用する,きめ細かなインスタンスレベルスケッチベースビデオ検索(fg-sbvr)のクロスモーダル検索問題を提案する。 スケッチベースの静止画像検索や粗いカテゴリレベルのビデオ検索と比較すると、視覚的外観と動きの両方を微粒なレベルで同時にマッチングする必要があるため、これはより困難である。 リッチアノテーションを用いた最初のFG-SBVRデータセットをコントリビュートする。 次に,FG-SBVRを実現するためのマルチストリーム多モードディープネットワークを提案する。 ネットワークの重要なコンポーネントはリレーショナルモジュールであり、不足するトレーニングデータに対するモデル過適合を防止するように設計されている。 このモデルは,映像解析用に設計された既存の最先端モデルよりも優れていることを示す。

Existing sketch-analysis work studies sketches depicting static objects or scenes. In this work, we propose a novel cross-modal retrieval problem of fine-grained instance-level sketch-based video retrieval (FG-SBVR), where a sketch sequence is used as a query to retrieve a specific target video instance. Compared with sketch-based still image retrieval, and coarse-grained category-level video retrieval, this is more challenging as both visual appearance and motion need to be simultaneously matched at a fine-grained level. We contribute the first FG-SBVR dataset with rich annotations. We then introduce a novel multi-stream multi-modality deep network to perform FG-SBVR under both strong and weakly supervised settings. The key component of the network is a relation module, designed to prevent model over-fitting given scarce training data. We show that this model significantly outperforms a number of existing state-of-the-art models designed for video analysis.
翻訳日:2022-12-30 01:46:48 公開日:2020-02-21
# 3次元カードボックスモデルと新しい決定論的再サンプリング戦略を用いた粒子フィルタに基づく単眼人間追跡

Particle Filter Based Monocular Human Tracking with a 3D Cardbox Model and a Novel Deterministic Resampling Strategy ( http://arxiv.org/abs/2002.09554v1 )

ライセンス: Link先を確認
Ziyuan Liu, Dongheui Lee, Wolfgang Sepp(参考訳) マーカーレス人間の動き追跡の課題は、探索空間の高次元である。 したがって、探索空間における効率的な探索は非常に重要である。 本稿では,上半身の動き追跡のためのモーションキャプチャアルゴリズムを提案する。 提案システムは,単分子シルエットマッチングに基づいて人体の動きをトラッキングし,新しい決定論的再サンプリング戦略(DRS)を適用した階層型粒子フィルタの上部に構築する。 提案システムは,慣性センサシステムによって測定された地中真理データを用いて定量的に評価する。 さらに,DSSと階層化再サンプリング戦略(SRS)を比較した。 DRSが同じ量の粒子でSRSより優れていることが実験で示されている。 さらに,3Dカードボックスモデルの名称のついた新しい3次元人工上半身モデルを作成し,動作追跡に有効であることが証明された。 実験の結果,提案システムは自己閉塞を伴わずに上半身の動きを頑健に追跡できることがわかった。 カメラへの動きもよく追跡できる。

The challenge of markerless human motion tracking is the high dimensionality of the search space. Thus, efficient exploration in the search space is of great significance. In this paper, a motion capturing algorithm is proposed for upper body motion tracking. The proposed system tracks human motion based on monocular silhouette-matching, and it is built on the top of a hierarchical particle filter, within which a novel deterministic resampling strategy (DRS) is applied. The proposed system is evaluated quantitatively with the ground truth data measured by an inertial sensor system. In addition, we compare the DRS with the stratified resampling strategy (SRS). It is shown in experiments that DRS outperforms SRS with the same amount of particles. Moreover, a new 3D articulated human upper body model with the name 3D cardbox model is created and is proven to work successfully for motion tracking. Experiments show that the proposed system can robustly track upper body motion without self-occlusion. Motions towards the camera can also be well tracked.
翻訳日:2022-12-30 01:46:25 公開日:2020-02-21
# 屋内地図のオンライン意味探索

Online Semantic Exploration of Indoor Maps ( http://arxiv.org/abs/2002.10939v1 )

ライセンス: Link先を確認
Ziyuan Liu, Dong Chen, Georg von Wichert(参考訳) 本稿では,典型的な格子図からベイズ的推論を用いて抽象床計画を抽出する手法を提案する。 この手順の結果は抽象概念上定義された環境の確率的生成モデルである。 高度な推論とコミュニケーションの目的に適している。 実世界実験によるアプローチの有効性を実証する。

In this paper we propose a method to extract an abstracted floor plan from typical grid maps using Bayesian reasoning. The result of this procedure is a probabilistic generative model of the environment defined over abstract concepts. It is well suited for higher-level reasoning and communication purposes. We demonstrate the effectiveness of the approach through real-world experiments.
翻訳日:2022-12-30 01:46:10 公開日:2020-02-21
# 高次元における不特定性確率自由推論のためのSplit-BOLFI

Split-BOLFI for for misspecification-robust likelihood free inference in high dimensions ( http://arxiv.org/abs/2002.09377v1 )

ライセンス: Link先を確認
Owen Thomas, Henri Pesonen, Raquel S\'a-Le\~ao, Herm\'inia de Lencastre, Samuel Kaski, Jukka Corander(参考訳) シミュレーターに基づく統計モデルに対するLikelihood-free推論は、その幼少期から実践者にとって有用なツールへと急速に成長してきた。 しかし、推論の対象として非常に少数のパラメータを持つモデルは、特に近似ベイズ計算(ABC)コミュニティにとって、謎のままである。 高次元パラメータ空間における確率自由推論の可能性を推し進めるために、パラメータ空間の効率的な探索に資する確率的手法で偏差関数を近似するベイズ最適化に基づくアプローチの拡張を導入する。 本手法は,異なるパラメータで定義された不一致に対して分離した取得手順を用いることで,計算スケーラビリティを実現する。 これらの効率的な高次元シミュレーション取得と指数損失類似度とを組み合わせることにより、全モデルパラメータに対する限界後方分布の誤特定ロバスト特性を与える。 本手法は,100次元空間を正準例で計算効率良く推定し,既存のcopula-abc法と比較した。 さらに,30次元パラメータ空間のひずみ競合に対する生物学的コヒーレントな結果を提供する,細菌の伝達動態モデルを保育センターデータに適合させることにより,このアプローチの可能性を示す。

Likelihood-free inference for simulator-based statistical models has recently grown rapidly from its infancy to a useful tool for practitioners. However, models with more than a very small number of parameters as the target of inference have remained an enigma, in particular for the approximate Bayesian computation (ABC) community. To advance the possibilities for performing likelihood-free inference in high-dimensional parameter spaces, here we introduce an extension of the popular Bayesian optimisation based approach to approximate discrepancy functions in a probabilistic manner which lends itself to an efficient exploration of the parameter space. Our method achieves computational scalability by using separate acquisition procedures for the discrepancies defined for different parameters. These efficient high-dimensional simulation acquisitions are combined with exponentiated loss-likelihoods to provide a misspecification-robust characterisation of the marginal posterior distribution for all model parameters. The method successfully performs computationally efficient inference in a 100-dimensional space on canonical examples and compares favourably to existing Copula-ABC methods. We further illustrate the potential of this approach by fitting a bacterial transmission dynamics model to daycare centre data, which provides biologically coherent results on the strain competition in a 30-dimensional parameter space.
翻訳日:2022-12-30 01:46:06 公開日:2020-02-21
# 最適ランダム化分類木におけるスパーシティ

Sparsity in Optimal Randomized Classification Trees ( http://arxiv.org/abs/2002.09191v1 )

ライセンス: Link先を確認
Rafael Blanquero, Emilio Carrizosa, Cristina Molero-R\'io, Dolores Romero Morales(参考訳) 決定木は一般的な分類と回帰ツールであり、小さくて容易に解釈できる。 伝統的に、強欲なアプローチは木を構築するのに使われ、非常に速いトレーニングプロセスをもたらすが、スパーシティ(解釈可能性の代理人)を制御するのは困難である。 最近の研究では、全ての決定が同時に最適化される最適決定木は、特に斜めカットが実施されている場合、学習性能が向上している。 本稿では,木全体だけでなく,木全体の予測変数を少なくすることを目標として,斜め切断に基づくスパース最適分類木を構築するための連続最適化手法を提案する。 両タイプのスパーシティ、すなわち局所的および大域的は、多面体ノルムを持つ正規化によってモデル化される。 報告した計算経験は,方法論の有用性を裏付けるものである。 すべてのデータセットにおいて、ローカルとグローバルのスパーシティは、分類精度を損なうことなく改善できます。 グリーディーアプローチと異なり、我々の分類精度の一部で容易に取引できる能力は、グローバル・スパシティの利得を示す。

Decision trees are popular Classification and Regression tools and, when small-sized, easy to interpret. Traditionally, a greedy approach has been used to build the trees, yielding a very fast training process; however, controlling sparsity (a proxy for interpretability) is challenging. In recent studies, optimal decision trees, where all decisions are optimized simultaneously, have shown a better learning performance, especially when oblique cuts are implemented. In this paper, we propose a continuous optimization approach to build sparse optimal classification trees, based on oblique cuts, with the aim of using fewer predictor variables in the cuts as well as along the whole tree. Both types of sparsity, namely local and global, are modeled by means of regularizations with polyhedral norms. The computational experience reported supports the usefulness of our methodology. In all our data sets, local and global sparsity can be improved without harming classification accuracy. Unlike greedy approaches, our ability to easily trade in some of our classification accuracy for a gain in global sparsity is shown.
翻訳日:2022-12-30 01:45:07 公開日:2020-02-21
# マスク領域の高度成長によるインペイントの学習

Learning to Inpaint by Progressively Growing the Mask Regions ( http://arxiv.org/abs/2002.09280v1 )

ライセンス: Link先を確認
Mohamed Abbas Hedjazi, Yakup Genc(参考訳) イメージインペインティングは、コンピュータビジョンにおいて最も難しいタスクの1つです。 近年, 画像の描画手法が視覚的に可視な画像を生成することが示されている。 しかし、マスク領域が大きくなるにつれて、正しい構造や色を生成するのが困難である。 この欠点は生成モデルのトレーニング安定性の問題によるものである。 本研究は,イメージインパインティングの文脈において,新しいカリキュラムスタイルのトレーニング手法を提案する。 提案手法は,学習時間内にマスキング領域サイズを段階的に増加させ,テスト時間中に任意の場所に可変サイズと複数ホールを与える。 このようなアプローチをgansに組み込むことでトレーニングを安定させ、より優れた色構成を提供し、オブジェクト連続性を捉えることができる。 MSCOCOとCelebAデータセットに対する我々のアプローチを検証する。 異なるモデルにおけるトレーニングアプローチの質的,定量的比較を報告する。

Image inpainting is one of the most challenging tasks in computer vision. Recently, generative-based image inpainting methods have been shown to produce visually plausible images. However, they still have difficulties to generate the correct structures and colors as the masked region grows large. This drawback is due to the training stability issue of the generative models. This work introduces a new curriculum-style training approach in the context of image inpainting. The proposed method increases the masked region size progressively in training time, during test time the user gives variable size and multiple holes at arbitrary locations. Incorporating such an approach in GANs may stabilize the training and provides better color consistencies and captures object continuities. We validate our approach on the MSCOCO and CelebA datasets. We report qualitative and quantitative comparisons of our training approach in different models.
翻訳日:2022-12-30 01:38:50 公開日:2020-02-21
# 超解像における植物根MRI画像の分割のための3次元U-Net

3D U-Net for Segmentation of Plant Root MRI Images in Super-Resolution ( http://arxiv.org/abs/2002.09317v1 )

ライセンス: Link先を確認
Yi Zhao, Nils Wandel, Magdalena Landl, Andrea Schnepf, Sven Behnke(参考訳) 磁気共鳴イメージング(mri)により、植物科学者は根系の発達と根-土の相互作用を非侵襲的に研究できる。 しかし、低分解能や高レベルのノイズといった記録条件の整合は、従来の根抽出アルゴリズムの性能を阻害する。 3次元U-Netを用いた超解像において,スキャンした体積を根と土壌に分割することで,信号対雑音比と分解能を高めることを提案する。 実際のデータでのテストでは、トレーニングされたネットワークがほとんどのルートを正常に検出でき、人間のアノテータが見逃したルートも見つかる。 実験の結果,損失関数の修正によりセグメンテーション性能をさらに向上できることがわかった。

Magnetic resonance imaging (MRI) enables plant scientists to non-invasively study root system development and root-soil interaction. Challenging recording conditions, such as low resolution and a high level of noise hamper the performance of traditional root extraction algorithms, though. We propose to increase signal-to-noise ratio and resolution by segmenting the scanned volumes into root and soil in super-resolution using a 3D U-Net. Tests on real data show that the trained network is capable to detect most roots successfully and even finds roots that were missed by human annotators. Our experiments show that the segmentation performance can be further improved with modifications of the loss function.
翻訳日:2022-12-30 01:38:38 公開日:2020-02-21
# 不透明な液体ワクチンの自動検査

The Automated Inspection of Opaque Liquid Vaccines ( http://arxiv.org/abs/2002.09406v1 )

ライセンス: Link先を確認
Gregory Palmer, Benjamin Schnieders, Rahul Savani, Karl Tuyls, Joscha-David Fossel, Harry Flore(参考訳) 製薬業界では、サスペンションを含む不透明なワクチンのスクリーニングは、現在、訓練された人間の視覚検査者が行う手作業である。 ディープラーニングは,このプロセスの効果的自動化に有効であることを示す。 動くコントラストは、ビアルの表面で休んでいる他の粒子、反射、塵と異常を区別するために必要である。 異常を含む20フレームビデオサンプルの可能性を予測するために3D-ConvNetsを訓練する。 HAL Allergy Group(HAL Allergy Group)が提供したバイアルを用いて,手延べサンプルを収録した。 ランダムに初期化した10個の3D-ConvNetを用いてベンチマークを行い, 正試料(異常を含む)に対する平均AUROCスコア0.94と0.93と負試料(異常のない)をそれぞれ観察した。 フレームコンプリート生成広告ネットワークを使用する。 i) 3D-ConvNetsが実際に異常を識別していることを検証するために,サリエンシマップの計算アルゴリズムを導入する。 (II) 複数ネットワークが異常位置について一致しているかどうかを判定するために, サリエンシマップを用いた新たな自己学習手法を提案する。 自己学習のアプローチにより、217,888のサンプルをラベル付けすることでデータセットを拡張できます。 強化データセットでトレーニングされた3D-ConvNetsは、未拡張データセットでのみトレーニングした時に得られる結果を改善します。

In the pharmaceutical industry the screening of opaque vaccines containing suspensions is currently a manual task carried out by trained human visual inspectors. We show that deep learning can be used to effectively automate this process. A moving contrast is required to distinguish anomalies from other particles, reflections and dust resting on a vial's surface. We train 3D-ConvNets to predict the likelihood of 20-frame video samples containing anomalies. Our unaugmented dataset consists of hand-labelled samples, recorded using vials provided by the HAL Allergy Group, a pharmaceutical company. We trained ten randomly initialized 3D-ConvNets to provide a benchmark, observing mean AUROC scores of 0.94 and 0.93 for positive samples (containing anomalies) and negative (anomaly-free) samples, respectively. Using Frame-Completion Generative Adversarial Networks we: (i) introduce an algorithm for computing saliency maps, which we use to verify that the 3D-ConvNets are indeed identifying anomalies; (ii) propose a novel self-training approach using the saliency maps to determine if multiple networks agree on the location of anomalies. Our self-training approach allows us to augment our data set by labelling 217,888 additional samples. 3D-ConvNets trained with our augmented dataset improve on the results we get when we train only on the unaugmented dataset.
翻訳日:2022-12-30 01:38:25 公開日:2020-02-21
# 言語理解へのイメージ:キャプションアプローチ

Image to Language Understanding: Captioning approach ( http://arxiv.org/abs/2002.09536v1 )

ライセンス: Link先を確認
Madhavan Seshadri, Malavika Srikanth and Mikhail Belov(参考訳) 視覚的表現からコンテキストを抽出することは、コンピュータ科学の発展において最も重要である。 このような形式を自然言語で表現することは、視覚障害者を助けるなど、様々な用途がある。 このようなアプローチは、コンピュータビジョンと自然言語技術の組み合わせであり、解決するのが難しい問題である。 このプロジェクトの目的は,画像キャプション問題を解決するための異なるアプローチを比較することである。 具体的には、Encoder-DecoderアプローチとMulti-modelアプローチの2つの異なるモデルの比較に焦点を当てた。 エンコーダ・デコーダのアプローチでは、インジェクションとマージのアーキテクチャは、主にオブジェクト検出に基づくマルチモーダル画像キャプションアプローチと比較された。 これらのアプローチは, BLEU, GLEU, Meteor, Rougeなどのアート文比較指標の状況に基づいて,100k画像を含むGoogle Conceptualキャプションデータセットのサブセットに基づいて比較されてきた。 この比較から,インセプション注入エンコーダモデルが最も優れたモデルであることが確認された。 このベストなアプローチは、Webベースのシステムとしてデプロイされました。 画像をアップロードすると、そのようなシステムは画像に関連する最高のキャプションを出力する。

Extracting context from visual representations is of utmost importance in the advancement of Computer Science. Representation of such a format in Natural Language has a huge variety of applications such as helping the visually impaired etc. Such an approach is a combination of Computer Vision and Natural Language techniques which is a hard problem to solve. This project aims to compare different approaches for solving the image captioning problem. In specific, the focus was on comparing two different types of models: Encoder-Decoder approach and a Multi-model approach. In the encoder-decoder approach, inject and merge architectures were compared against a multi-modal image captioning approach based primarily on object detection. These approaches have been compared on the basis on state of the art sentence comparison metrics such as BLEU, GLEU, Meteor, and Rouge on a subset of the Google Conceptual captions dataset which contains 100k images. On the basis of this comparison, we observed that the best model was the Inception injected encoder model. This best approach has been deployed as a web-based system. On uploading an image, such a system will output the best caption associated with the image.
翻訳日:2022-12-30 01:37:29 公開日:2020-02-21
# 屋内環境の抽象意味マップ構築におけるルールベースコンテキスト知識の適用

Applying Rule-Based Context Knowledge to Build Abstract Semantic Maps of Indoor Environments ( http://arxiv.org/abs/2002.10938v1 )

ライセンス: Link先を確認
Ziyuan Liu, Georg von Wichert(参考訳) 本稿では,データ抽象化のためのルールベースコンテキスト知識を用いたデータ駆動型mcmcサンプリングと推論を体系的に組み合わせた一般化手法を提案する。 特に,室内環境における抽象意味マップ構築のシナリオにおいて,本手法が有用であることを示す。 本システムでは,環境の幾何を正確に表現するだけでなく,高レベルのロボット応用に役立つ貴重な抽象情報を提供する,知覚環境のパラメトリック抽象モデルを提案する。 タイプや関係といった定義済みの抽象用語に基づいて,タスク固有の文脈知識をマルコフ論理ネットワークにおける記述規則として定義する。 対応する推論結果は、セマンティックマップの解空間に合理的な制約を加えることを目的とした事前分布を構築するために使用される。 さらに,意味的注釈付きセンサモデルを適用することで,コンテキスト情報を用いてセンサデータの解釈を行う。 実世界のデータを用いた実験は有望な結果を示し,システムの有用性を確認した。

In this paper, we propose a generalizable method that systematically combines data driven MCMC samplingand inference using rule-based context knowledge for data abstraction. In particular, we demonstrate the usefulness of our method in the scenario of building abstract semantic maps for indoor environments. The product of our system is a parametric abstract model of the perceived environment that not only accurately represents the geometry of the environment but also provides valuable abstract information which benefits high-level robotic applications. Based on predefined abstract terms,such as type and relation, we define task-specific context knowledge as descriptive rules in Markov Logic Networks. The corresponding inference results are used to construct a priordistribution that aims to add reasonable constraints to the solution space of semantic maps. In addition, by applying a semantically annotated sensor model, we explicitly use context information to interpret the sensor data. Experiments on real world data show promising results and thus confirm the usefulness of our system.
翻訳日:2022-12-30 01:37:13 公開日:2020-02-21
# リレーショナルマッチング伝搬を用いたクラウドソース集合エンティティ分解

Crowdsourced Collective Entity Resolution with Relational Match Propagation ( http://arxiv.org/abs/2002.09361v1 )

ライセンス: Link先を確認
Jiacheng Huang and Wei Hu and Zhifeng Bao and Yuzhong Qu(参考訳) 知識ベース(kbs)は豊かだが異質なエンティティや事実を格納する。 エンティティ解決(ER)は、同じ現実世界のオブジェクトを参照するKB内のエンティティを識別することを目的としている。 近年の研究では、ERのループにヒトを巻き込むという大きな利点が示されている。 彼らはしばしば属性値よりも一対の類似性によってエンティティを解決し、不確かさをラベル付けるために群衆に頼る。 しかし、既存の方法は高い労働コストとある程度のラベル付けに悩まされている。 本稿では,相互関係を独立ではなく相互に推論する,クラウドソーシング型集団型erという新しい手法を提案する。 具体的には、人間労働者に対して、選択されたエンティティペアをラベル付けし、そのラベル情報を隣人に遠ざけるように繰り返し要求する。 このプロセスでは、候補となるエンティティのプルーニング、確率的伝播、最適な質問選択、誤り耐性の真理推論といった問題に対処する。 実世界のデータセットに対する我々の実験は、最先端の手法と比較すると、我々の手法はラベル付けよりもはるかに少ない精度で達成できることを示した。

Knowledge bases (KBs) store rich yet heterogeneous entities and facts. Entity resolution (ER) aims to identify entities in KBs which refer to the same real-world object. Recent studies have shown significant benefits of involving humans in the loop of ER. They often resolve entities with pairwise similarity measures over attribute values and resort to the crowds to label uncertain ones. However, existing methods still suffer from high labor costs and insufficient labeling to some extent. In this paper, we propose a novel approach called crowdsourced collective ER, which leverages the relationships between entities to infer matches jointly rather than independently. Specifically, it iteratively asks human workers to label picked entity pairs and propagates the labeling information to their neighbors in distance. During this process, we address the problems of candidate entity pruning, probabilistic propagation, optimal question selection and error-tolerant truth inference. Our experiments on real-world datasets demonstrate that, compared with state-of-the-art methods, our approach achieves superior accuracy with much less labeling.
翻訳日:2022-12-30 01:36:59 公開日:2020-02-21
# 双曲型ミネズウィーパーはpです

Hyperbolic Minesweeper is in P ( http://arxiv.org/abs/2002.09534v1 )

ライセンス: Link先を確認
Eryk Kopczy\'nski(参考訳) minesweeperはnp完全であるが、その双曲的変種は p であることを示している。この証明は minesweeper の規則に依存しないが、双曲的平面に埋め込まれたグラフ上の局所的な制約を満たすことで、どんなパズルに対しても有効である。

We show that, while Minesweeper is NP-complete, its hyperbolic variant is in P. Our proof does not rely on the rules of Minesweeper, but is valid for any puzzle based on satisfying local constraints on a graph embedded in the hyperbolic plane.
翻訳日:2022-12-30 01:36:21 公開日:2020-02-21
# NeuroQuery:ヒト脳マッピングの総合的メタ分析

NeuroQuery: comprehensive meta-analysis of human brain mapping ( http://arxiv.org/abs/2002.09261v1 )

ライセンス: Link先を確認
J\'er\^ome Dock\`es (Inria), Russell Poldrack, Romain Primet (Inria), Hande G\"oz\"ukan (Inria), Tal Yarkoni (University of Texas), Fabian Suchanek, Bertrand Thirion (Inria), Ga\"el Varoquaux (Inria)(参考訳) 脳組織をグローバルに見るためには、幅広い異なる精神過程とメカニズムに関する証拠を組み立てる必要がある。 人間の神経科学の概念や用語の多様性は、科学文献全体にわたる脳画像結果の関連付けに根本的な課題をもたらす。 既存のメタ分析手法は、特定の概念に関連する出版物の集合に関する統計的検査を行う。 したがって、大規模なメタ分析は頻繁に起こる単一の用語にのみ取り組む。 我々は推論よりも予測に焦点を当てた新しいパラダイムを提案する。 多変量モデルでは、実験、認知過程、疾患を記述したテキストから、神経学的観察の空間分布を予測する。 このアプローチは、標準のメタ分析には稀すぎる、任意の長さと項のテキストを扱う。 我々は、13459の神経画像出版物における7つの547の神経科学用語の関係と神経相関を捉えた。 得られたメタアナリシスツールであるNeuroquery.orgは、脳で公開された発見の総合的な見解に基づいて仮説生成とデータ分析の先行を構築できる。

Reaching a global view of brain organization requires assembling evidence on widely different mental processes and mechanisms. The variety of human neuroscience concepts and terminology poses a fundamental challenge to relating brain imaging results across the scientific literature. Existing meta-analysis methods perform statistical tests on sets of publications associated with a particular concept. Thus, large-scale meta-analyses only tackle single terms that occur frequently. We propose a new paradigm, focusing on prediction rather than inference. Our multivariate model predicts the spatial distribution of neurological observations, given text describing an experiment, cognitive process, or disease. This approach handles text of arbitrary length and terms that are too rare for standard meta-analysis. We capture the relationships and neural correlates of 7 547 neuroscience terms across 13 459 neuroimaging publications. The resulting meta-analytic tool, neuroquery.org, can ground hypothesis generation and data-analysis priors on a comprehensive view of published findings on the brain.
翻訳日:2022-12-30 01:36:13 公開日:2020-02-21
# データ鮮度とエネルギー効率の良いUAVナビゲーション最適化:深層強化学習アプローチ

Data Freshness and Energy-Efficient UAV Navigation Optimization: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2003.04816v1 )

ライセンス: Link先を確認
Sarder Fakhrul Abedin, Md. Shirajum Munir, Nguyen H. Tran, Zhu Han, Choong Seon Hong(参考訳) 本稿では,移動基地局(BS)を配置し,モノのインターネット(IoT)デバイスへのデータの鮮度と接続性を改善するために,無人航空機(UAV)のナビゲーションポリシーを設計する。 まず,UAV-BS軌道ポリシーを最適化することによりエネルギー効率を最大化するエネルギー効率トラジェクトリ最適化問題を定式化する。 また、地上BSにおけるデータの鮮度を確保するために、エネルギーや情報年齢(AoI)の制約などの異なるコンテキスト情報も組み込んだ。 次に,UAV-BSナビゲーションの文脈制約に関する定式化問題を解くために,経験再現モデルを用いたアジャイル深層強化学習を提案する。 さらに,提案手法は,問題の状態空間が極めて大きく,有用な文脈特徴を有する最適な軌道ポリシを見つけることは,uav-bssには複雑すぎるため,解決に適している。 提案したトレーニングモデルを適用することで、UAV-BSに対する効果的なリアルタイム軌道ポリシーは、時間とともに観測可能なネットワーク状態をキャプチャする。 最後に,提案手法のシミュレーション結果から,提案手法の3.6%と3.13%のエネルギー効率が,Greedy and Baseline Deep Q Network (DQN) 手法よりも高いことを示した。

In this paper, we design a navigation policy for multiple unmanned aerial vehicles (UAVs) where mobile base stations (BSs) are deployed to improve the data freshness and connectivity to the Internet of Things (IoT) devices. First, we formulate an energy-efficient trajectory optimization problem in which the objective is to maximize the energy efficiency by optimizing the UAV-BS trajectory policy. We also incorporate different contextual information such as energy and age of information (AoI) constraints to ensure the data freshness at the ground BS. Second, we propose an agile deep reinforcement learning with experience replay model to solve the formulated problem concerning the contextual constraints for the UAV-BS navigation. Moreover, the proposed approach is well-suited for solving the problem, since the state space of the problem is extremely large and finding the best trajectory policy with useful contextual features is too complex for the UAV-BSs. By applying the proposed trained model, an effective real-time trajectory policy for the UAV-BSs captures the observable network states over time. Finally, the simulation results illustrate the proposed approach is 3.6% and 3.13% more energy efficient than those of the greedy and baseline deep Q Network (DQN) approaches.
翻訳日:2022-12-30 01:30:30 公開日:2020-02-21
# 要約タスクにおけるランダム重み付きエンコーダの印象的性能について

On the impressive performance of randomly weighted encoders in summarization tasks ( http://arxiv.org/abs/2002.09084v1 )

ライセンス: Link先を確認
Jonathan Pilault, Jaehong Park, Christopher Pal(参考訳) 本研究では,シーケンスモデルの一般クラスにおける非学習型ランダム初期化エンコーダの性能を調べ,その性能を抽象的要約タスクにおける完全学習エンコーダの性能と比較する。 入力テキストのランダムな投影は文の階層構造や文書の意味を符号化するのに十分な表現力を有すると仮定する。 訓練されたデコーダを用いて抽象的なテキスト要約を生成することで、未学習のランダム初期化エンコーダを持つアーキテクチャが、完全に訓練されたエンコーダを持つ等価アーキテクチャに対して競合的に動作することを示す。 さらに、エンコーダのキャパシティは、モデル全体の一般化を改善するだけでなく、訓練されていないランダム初期化とフルトレーニングされたエンコーダのパフォーマンスギャップを埋める。 私たちの知る限りでは、抽象的要約に関する訓練されたランダムに投影された表現に対して、注意深いシーケンスモデルへの一般的なシーケンスを評価するのは初めてです。

In this work, we investigate the performance of untrained randomly initialized encoders in a general class of sequence to sequence models and compare their performance with that of fully-trained encoders on the task of abstractive summarization. We hypothesize that random projections of an input text have enough representational power to encode the hierarchical structure of sentences and semantics of documents. Using a trained decoder to produce abstractive text summaries, we empirically demonstrate that architectures with untrained randomly initialized encoders perform competitively with respect to the equivalent architectures with fully-trained encoders. We further find that the capacity of the encoder not only improves overall model generalization but also closes the performance gap between untrained randomly initialized and full-trained encoders. To our knowledge, it is the first time that general sequence to sequence models with attention are assessed for trained and randomly projected representations on abstractive summarization.
翻訳日:2022-12-30 01:30:04 公開日:2020-02-21
# マルチタスク言語生成のための潜在スキルのモデル化

Modelling Latent Skills for Multitask Language Generation ( http://arxiv.org/abs/2002.09543v1 )

ライセンス: Link先を確認
Kris Cao, Dani Yogatama(参考訳) マルチタスク条件言語生成のための生成モデルを提案する。 我々の指導的仮説は、複数の異なる言語生成タスクを共用し、これらのスキルをタスク埋め込み空間で明示的にモデル化することは、タスク間のポジティブな伝達と、新しいタスクへの効率的な適応の両方に役立つ、というものである。 このタスク埋め込み空間を潜在変数シーケンスからシーケンスへのモデルの潜在変数としてインスタンス化する。 幅広いタスクとドメインをカバーする一連の単言語テキストからテキストへの言語生成データセットをキュレートし、マルチタスクと少数ショットのレジームにおけるモデルのパフォーマンスを比較することで、この仮説を評価する。 我々の潜在タスク変数モデルは、マルチタスク設定におけるタスクの平均的なシーケンス・ツー・シーケンスベースラインよりも優れていることを示す。 未発見のテストデータセット(すなわち新しいタスク)上の少数ショット学習設定において、潜在タスク空間における推論に基づくモデル適応は、標準の微調整に基づくパラメータ適応よりも頑健であり、全体的なパフォーマンスで比較可能であることを実証する。 最後に,我々のモデルで学習した潜在タスク表現を調べ,タスクを自然な方法でクラスタ化することを示す。

We present a generative model for multitask conditional language generation. Our guiding hypothesis is that a shared set of latent skills underlies many disparate language generation tasks, and that explicitly modelling these skills in a task embedding space can help with both positive transfer across tasks and with efficient adaptation to new tasks. We instantiate this task embedding space as a latent variable in a latent variable sequence-to-sequence model. We evaluate this hypothesis by curating a series of monolingual text-to-text language generation datasets - covering a broad range of tasks and domains - and comparing the performance of models both in the multitask and few-shot regimes. We show that our latent task variable model outperforms other sequence-to-sequence baselines on average across tasks in the multitask setting. In the few-shot learning setting on an unseen test dataset (i.e., a new task), we demonstrate that model adaptation based on inference in the latent task space is more robust than standard fine-tuning based parameter adaptation and performs comparably in terms of overall performance. Finally, we examine the latent task representations learnt by our model and show that they cluster tasks in a natural way.
翻訳日:2022-12-30 01:29:26 公開日:2020-02-21
# スワムと進化型計算アルゴリズムの比較における統計検査の最近の動向:実践的ガイドラインと批判的レビュー

Recent Trends in the Use of Statistical Tests for Comparing Swarm and Evolutionary Computing Algorithms: Practical Guidelines and a Critical Review ( http://arxiv.org/abs/2002.09227v1 )

ライセンス: Link先を確認
J. Carrasco, S. Garc\'ia, M.M. Rueda, S. Das and F. Herrera(参考訳) 進化的および群知能アルゴリズムの設計の重要な側面は、その性能の研究である。 統計的比較もまた、信頼できる結論を導き出す上で重要な部分である。 本稿では,これらの統計的テストによる仮定を要約するために異なる視点から取られたアプローチを収集・検討し,結論に達し,それに続くステップを正しく実施する。 本稿では,計算知能のアルゴリズムの比較のための統計的分析の提案の現在の動向について調査し,これらのテストの統計的背景について記述する。 我々は、ieee congress on evolutionary computation (cec) 2017の1目的実パラメータ最適化に関するコンペティションにおいて、最も一般的なテストの使用を説明し、各種類のテストの使用の主な利点と欠点を説明し、それらの使用に関するいくつかの推奨事項を提示する。

A key aspect of the design of evolutionary and swarm intelligence algorithms is studying their performance. Statistical comparisons are also a crucial part which allows for reliable conclusions to be drawn. In the present paper we gather and examine the approaches taken from different perspectives to summarise the assumptions made by these statistical tests, the conclusions reached and the steps followed to perform them correctly. In this paper, we conduct a survey on the current trends of the proposals of statistical analyses for the comparison of algorithms of computational intelligence and include a description of the statistical background of these tests. We illustrate the use of the most common tests in the context of the Competition on single-objective real parameter optimisation of the IEEE Congress on Evolutionary Computation (CEC) 2017 and describe the main advantages and drawbacks of the use of each kind of test and put forward some recommendations concerning their use.
翻訳日:2022-12-30 01:29:06 公開日:2020-02-21
# 負の顔認識によるソフトバイオメトリックプライバシの教師なし向上

Unsupervised Enhancement of Soft-biometric Privacy with Negative Face Recognition ( http://arxiv.org/abs/2002.09181v1 )

ライセンス: Link先を確認
Philipp Terh\"orst, Marco Huber, Naser Damer, Florian Kirchbuchner, Arjan Kuijper(参考訳) ソフトバイオメトリックスに関する最近の研究は、個人の生体テンプレートからプライバシーに敏感な情報を推測できることを示した。 多くのアプリケーションにおいて、これらのテンプレートは認識目的のみに使用されることが期待されているため、大きなプライバシー問題が発生する。 以前の作業では、個人に関するプライバシーに敏感な情報を必要とし、アプリケーションを単一の属性と事前定義された属性の抑制に制限するプライバシー強化ソリューションの監督に重点を置いていた。 そのため、訓練では考慮されていない属性を考慮に入れない。 本研究では,顔テンプレートを相補的(負)領域で表現することで,テンプレートレベルでのソフトバイオメトリック・プライバシを高める新しい顔認識手法である負の顔認識(NFR)を提案する。 通常のテンプレートは個人の顔特性を特徴付けるが、否定的なテンプレートは、この個人には存在しない顔特性を記述する。 これにより、ストアドテンプレートからプライバシーに敏感な情報が抑制される。 プライバシに敏感な3つの属性について、制御および制御されていないシナリオでキャプチャされた2つの公開データセットで実験を行う。 実験の結果,提案手法は従来よりも高い抑制率を達成でき,高い認識性能も維持できることがわかった。 これまでの方法とは異なり、われわれのアプローチではプライバシーに敏感なラベルは必要とせず、事前定義された属性に限らず、より包括的なプライバシー保護を提供する。

Current research on soft-biometrics showed that privacy-sensitive information can be deduced from biometric templates of an individual. Since for many applications, these templates are expected to be used for recognition purposes only, this raises major privacy issues. Previous works focused on supervised privacy-enhancing solutions that require privacy-sensitive information about individuals and limit their application to the suppression of single and pre-defined attributes. Consequently, they do not take into account attributes that are not considered in the training. In this work, we present Negative Face Recognition (NFR), a novel face recognition approach that enhances the soft-biometric privacy on the template-level by representing face templates in a complementary (negative) domain. While ordinary templates characterize facial properties of an individual, negative templates describe facial properties that does not exist for this individual. This suppresses privacy-sensitive information from stored templates. Experiments are conducted on two publicly available datasets captured under controlled and uncontrolled scenarios on three privacy-sensitive attributes. The experiments demonstrate that our proposed approach reaches higher suppression rates than previous work, while maintaining higher recognition performances as well. Unlike previous works, our approach does not require privacy-sensitive labels and offers a more comprehensive privacy-protection not limited to pre-defined attributes.
翻訳日:2022-12-30 01:27:20 公開日:2020-02-21
# AutoFoley: ディープラーニングによるサイレントビデオのための同期サウンドトラックの人工合成

AutoFoley: Artificial Synthesis of Synchronized Sound Tracks for Silent Videos with Deep Learning ( http://arxiv.org/abs/2002.10981v1 )

ライセンス: Link先を確認
Sanchita Ghose, John J. Prevost(参考訳) 映画プロダクションでは、フォリー・アーティストがオーバレイ・サウンドトラックを作成し、観客のために映画が生き残るのを助ける。 これにより、アーティストはまずリスナーの体験を高める音を識別し、そのシーンに対する監督の意図を強化する必要がある。 本稿では,ビデオの代表的な音声トラックを合成するのに使用できる,完全自動ディープラーニングツールAutoFoleyを提案する。 AutoFoleyは、ビデオに関連する対応するオーディオファイルが存在しないアプリケーションや、重要なシナリオを特定し、合成され強化されたサウンドトラックを提供する必要があるアプリケーションで使用することができる。 合成サウンドトラックの重要な演奏基準は、入力されたビデオと時間同期することであり、合成サウンドをリアルで信じられないような描写を可能にする。 既存の音響予測や生成アーキテクチャとは異なり,我々のアルゴリズムは,高速動画クリップにおける動作の正確な認識とフレーム間関係を補間技術と時間関係ネットワーク(TRN)を組み込むことで実現している。 我々は,畳み込みニューラルネットワーク(cnn)に関連付けられたロバストなマルチスケールリカレントニューラルネットワーク(rnn)を用いて,時間経過に伴う複雑な入出力関係の理解を深める。 AutoFoleyを評価するために,映画におけるFoley効果として頻繁に使用される様々な音を含む大規模オーディオ映像データセットを作成し,導入する。 実験により、合成音は、関連する視覚入力の正確な時間同期によって現実的に表現されることを示した。 オートフォーリーの質的テストでは、テスト対象者の73%以上が生成したサウンドトラックをオリジナルと考えており、これは音響合成におけるクロスモーダル研究において注目すべき改善である。

In movie productions, the Foley Artist is responsible for creating an overlay soundtrack that helps the movie come alive for the audience. This requires the artist to first identify the sounds that will enhance the experience for the listener thereby reinforcing the Directors's intention for a given scene. In this paper, we present AutoFoley, a fully-automated deep learning tool that can be used to synthesize a representative audio track for videos. AutoFoley can be used in the applications where there is either no corresponding audio file associated with the video or in cases where there is a need to identify critical scenarios and provide a synthesized, reinforced soundtrack. An important performance criterion of the synthesized soundtrack is to be time-synchronized with the input video, which provides for a realistic and believable portrayal of the synthesized sound. Unlike existing sound prediction and generation architectures, our algorithm is capable of precise recognition of actions as well as inter-frame relations in fast moving video clips by incorporating an interpolation technique and Temporal Relationship Networks (TRN). We employ a robust multi-scale Recurrent Neural Network (RNN) associated with a Convolutional Neural Network (CNN) for a better understanding of the intricate input-to-output associations over time. To evaluate AutoFoley, we create and introduce a large scale audio-video dataset containing a variety of sounds frequently used as Foley effects in movies. Our experiments show that the synthesized sounds are realistically portrayed with accurate temporal synchronization of the associated visual inputs. Human qualitative testing of AutoFoley show over 73% of the test subjects considered the generated soundtrack as original, which is a noteworthy improvement in cross-modal research in sound synthesis.
翻訳日:2022-12-30 01:20:51 公開日:2020-02-21
# マルチヘッドCNNとLSTMを用いた人間の活動認識

Human Activity Recognition using Multi-Head CNN followed by LSTM ( http://arxiv.org/abs/2003.06327v1 )

ライセンス: Link先を確認
Waqar Ahmad, Misbah Kazmi, Hazrat Ali(参考訳) 本研究では,CNNとLSTMを用いた新しい身体活動認識法を提案する。 加速度計やジャイロスコープのようなウェアラブルセンサーから取得したデータは時系列データであるため、従来の機械学習アルゴリズム(SVM、KNN、ランダムフォレスト法など)による高精度の達成は難しい作業である。 そこで我々は,3つのCNNからなるマルチヘッドCNNモデルを提案し,異なるセンサから取得したデータの特徴を抽出し,次に3つのCNN全てをマージし,LSTM層と高密度層を追従する。 3つのCNNの構成は同じで、CNNへの入力毎に同じ数の特徴が得られる。 提案手法を用いて,従来の機械学習アルゴリズムや他のディープニューラルネットワークアルゴリズムに匹敵する最先端の精度を実現する。

This study presents a novel method to recognize human physical activities using CNN followed by LSTM. Achieving high accuracy by traditional machine learning algorithms, (such as SVM, KNN and random forest method) is a challenging task because the data acquired from the wearable sensors like accelerometer and gyroscope is a time-series data. So, to achieve high accuracy, we propose a multi-head CNN model comprising of three CNNs to extract features for the data acquired from different sensors and all three CNNs are then merged, which are followed by an LSTM layer and a dense layer. The configuration of all three CNNs is kept the same so that the same number of features are obtained for every input to CNN. By using the proposed method, we achieve state-of-the-art accuracy, which is comparable to traditional machine learning algorithms and other deep neural network algorithms.
翻訳日:2022-12-30 01:20:22 公開日:2020-02-21
# 線形関数近似を用いた最小オフポリティ評価

Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation ( http://arxiv.org/abs/2002.09516v1 )

ライセンス: Link先を確認
Yaqi Duan, Mengdi Wang(参考訳) 本稿では,関数近似を用いたバッチデータ強化学習の統計理論について述べる。 未知の行動政策によって生成された記録履歴から,新たな目標政策の累積値を推定するオフ政治評価問題を考える。 回帰に基づく適合Q反復法について検討し、遷移演算子の条件平均埋め込みを推定するモデルに基づく手法と等価であることを示す。 本手法は,情報理論上最適であり,推定誤差がほとんどないことを示す。 特に,マルコフ過程の収縮特性とマルティンゲール濃度を活用することで,有限個のインスタンス依存誤差上限とほぼ一致するミニマックス下限を定式化する。 政策評価誤差は、目標政策の長期分布と過去のデータの分布との間の機能クラスに対して制限された$\chi^2$-divergenceに依存する。 この制限付き$\chi^2$-divergenceはインスタンス依存と関数クラス依存の両方である。 政治外評価の統計的限界を特徴づける。 さらに,楽観的な計画と安全な政策改善に有用な政策評価者に対して,容易に計算可能な信頼度を提供する。

This paper studies the statistical theory of batch data reinforcement learning with function approximation. Consider the off-policy evaluation problem, which is to estimate the cumulative value of a new target policy from logged history generated by unknown behavioral policies. We study a regression-based fitted Q iteration method, and show that it is equivalent to a model-based method that estimates a conditional mean embedding of the transition operator. We prove that this method is information-theoretically optimal and has nearly minimal estimation error. In particular, by leveraging contraction property of Markov processes and martingale concentration, we establish a finite-sample instance-dependent error upper bound and a nearly-matching minimax lower bound. The policy evaluation error depends sharply on a restricted $\chi^2$-divergence over the function class between the long-term distribution of the target policy and the distribution of past data. This restricted $\chi^2$-divergence is both instance-dependent and function-class-dependent. It characterizes the statistical limit of off-policy evaluation. Further, we provide an easily computable confidence bound for the policy evaluator, which may be useful for optimistic planning and safe policy improvement.
翻訳日:2022-12-30 01:10:46 公開日:2020-02-21
# 構造的MMSB:解釈可能な事前構造を持つ混合メンバーシップ確率ブロックモデル

Struct-MMSB: Mixed Membership Stochastic Blockmodels with Interpretable Structured Priors ( http://arxiv.org/abs/2002.09523v1 )

ライセンス: Link先を確認
Yue Zhang, Arti Ramesh(参考訳) 混合会員確率ブロックモデル(MMSB)は、コミュニティ検出とネットワーク生成のための一般的なフレームワークである。 下位のグラフ構造を利用して、コミュニティをまたがる各ノードの低ランクの混合メンバシップ表現を学習する。 MMSBは、ノードのメンバシップ分布がディリクレ分布から独立して引き出されると仮定し、実世界のネットワークに存在する高相関グラフ構造をモデル化する能力を制限する。 本稿では,最近開発された統計リレーショナル学習モデル,ヒンジロスマルコフ乱数場(HL-MRF)を,ノード属性,マルチリレーショナルリンク,および混合メンバーシップ分布との関係性に先行して構築した,柔軟なリッチなMMSBモデルである \textit{Struct-MMSB} を提案する。 本モデルは,重み付き一階述語論理規則を用いた確率的プログラミングテンプレート言語を用いて,モデルの解釈性を高める。 さらに,本モデルは,観測された特徴と会員分布の複雑な組み合わせとして符号化された有意義な潜在変数を用いて,実世界のネットワークにおける潜在特性を学習することができる。 本稿では,潜在変数とパラメータを反復的に学習する期待最大化に基づく推論アルゴリズム,推定アルゴリズムのスケーラブルな確率的変動,hl-mrf構造化事前の重み付けを学習する手法を提案する。 我々は,3種類のネットワークとそれに対応するモデリングシナリオの6つのデータセット上でモデルを評価し,テストログにおける平均15倍の精度向上と,最先端ネットワークモデルと比較した場合の収束の高速化を実証した。

The mixed membership stochastic blockmodel (MMSB) is a popular framework for community detection and network generation. It learns a low-rank mixed membership representation for each node across communities by exploiting the underlying graph structure. MMSB assumes that the membership distributions of the nodes are independently drawn from a Dirichlet distribution, which limits its capability to model highly correlated graph structures that exist in real-world networks. In this paper, we present a flexible richly structured MMSB model, \textit{Struct-MMSB}, that uses a recently developed statistical relational learning model, hinge-loss Markov random fields (HL-MRFs), as a structured prior to model complex dependencies among node attributes, multi-relational links, and their relationship with mixed-membership distributions. Our model is specified using a probabilistic programming templating language that uses weighted first-order logic rules, which enhances the model's interpretability. Further, our model is capable of learning latent characteristics in real-world networks via meaningful latent variables encoded as a complex combination of observed features and membership distributions. We present an expectation-maximization based inference algorithm that learns latent variables and parameters iteratively, a scalable stochastic variation of the inference algorithm, and a method to learn the weights of HL-MRF structured priors. We evaluate our model on six datasets across three different types of networks and corresponding modeling scenarios and demonstrate that our models are able to achieve an improvement of 15\% on average in test log-likelihood and faster convergence when compared to state-of-the-art network models.
翻訳日:2022-12-30 01:10:28 公開日:2020-02-21
# Overlap Local-SGD:分散SGDにおける秘密通信遅延のアルゴリズム的アプローチ

Overlap Local-SGD: An Algorithmic Approach to Hide Communication Delays in Distributed SGD ( http://arxiv.org/abs/2002.09539v1 )

ライセンス: Link先を確認
Jianyu Wang, Hao Liang, Gauri Joshi(参考訳) 分散確率勾配勾配(SGD)は、機械学習アルゴリズムを多数の計算ノードに拡張するために不可欠である。 しかし、通信遅延やランダムノードの遅延といったインフラストラクチャの変動は、特に無線システムやセンサネットワークにおいて分散SGDアルゴリズムの性能を著しく損なう。 本稿では,分散学習手順を高速化するために,通信と計算を重ね合わせるアルゴリズムとしてoverload-local-sgd(およびmomental variant)を提案する。 このアプローチはストラグラー効果を緩和するのにも役立つ。 各ノードにアンカーモデルを追加することでこれを実現する。 複数のローカル更新の後、ローカルにトレーニングされたモデルは、他の人と通信するのではなく、同期されたアンカーモデルへと引き戻される。 CIFAR-10データセットを用いたディープニューラルネットワークのトレーニング実験の結果,Overlap-Local-SGDの有効性が示された。 また,提案アルゴリズムに対する非凸目的関数の収束保証を提供する。

Distributed stochastic gradient descent (SGD) is essential for scaling the machine learning algorithms to a large number of computing nodes. However, the infrastructures variability such as high communication delay or random node slowdown greatly impedes the performance of distributed SGD algorithm, especially in a wireless system or sensor networks. In this paper, we propose an algorithmic approach named Overlap-Local-SGD (and its momentum variant) to overlap the communication and computation so as to speedup the distributed training procedure. The approach can help to mitigate the straggler effects as well. We achieve this by adding an anchor model on each node. After multiple local updates, locally trained models will be pulled back towards the synchronized anchor model rather than communicating with others. Experimental results of training a deep neural network on CIFAR-10 dataset demonstrate the effectiveness of Overlap-Local-SGD. We also provide a convergence guarantee for the proposed algorithm under non-convex objective functions.
翻訳日:2022-12-30 01:09:37 公開日:2020-02-21
# GANにはナッシュ均衡がないかもしれない

GANs May Have No Nash Equilibria ( http://arxiv.org/abs/2002.09124v1 )

ライセンス: Link先を確認
Farzan Farnia, Asuman Ozdaglar(参考訳) generative adversarial networks (gans) は、2人のマシンプレーヤー、ジェネレータと判別器の間のゼロサムゲームであり、データの分布を学習するために設計された。 GANはいくつかのベンチマーク学習タスクで最先端のパフォーマンスを達成したが、GAN minimaxの最適化は依然として大きな理論的および実証的な課題を呈している。 一階最適化法を用いて訓練されたGANは、プレイヤーが目的、すなわち基礎となるゲームのナッシュ均衡を改善することができない安定した解に収束しない。 このような問題は、GANゼロサムゲームにおけるナッシュ平衡解の存在を疑問視する。 本研究では,ganゼロサムゲームが局所nash平衡を持たない可能性があることを理論的および数値的に示す。 GANに適用可能な平衡概念を特徴づけるために、原目的に適用される近似作用素によって与えられる目的関数を持つ新しいゼロサムゲーム、すなわち、近似平衡と呼ばれる解の平衡を考える。 ナッシュ平衡とは異なり、近位平衡はganのシーケンシャルな性質を捉え、生成器はまず判別器を伴って移動する。 我々はワッサーシュタイン GAN 問題における最適生成モデルが近似平衡をもたらすことを証明した。 これらの結果に触発されて、我々は近位学習と呼ばれる新しいアプローチを提案し、GAN問題を解く。 GANミニマックス問題における近位平衡解の存在を示す数値実験について論じる。

Generative adversarial networks (GANs) represent a zero-sum game between two machine players, a generator and a discriminator, designed to learn the distribution of data. While GANs have achieved state-of-the-art performance in several benchmark learning tasks, GAN minimax optimization still poses great theoretical and empirical challenges. GANs trained using first-order optimization methods commonly fail to converge to a stable solution where the players cannot improve their objective, i.e., the Nash equilibrium of the underlying game. Such issues raise the question of the existence of Nash equilibrium solutions in the GAN zero-sum game. In this work, we show through several theoretical and numerical results that indeed GAN zero-sum games may not have any local Nash equilibria. To characterize an equilibrium notion applicable to GANs, we consider the equilibrium of a new zero-sum game with an objective function given by a proximal operator applied to the original objective, a solution we call the proximal equilibrium. Unlike the Nash equilibrium, the proximal equilibrium captures the sequential nature of GANs, in which the generator moves first followed by the discriminator. We prove that the optimal generative model in Wasserstein GAN problems provides a proximal equilibrium. Inspired by these results, we propose a new approach, which we call proximal training, for solving GAN problems. We discuss several numerical experiments demonstrating the existence of proximal equilibrium solutions in GAN minimax problems.
翻訳日:2022-12-30 01:02:27 公開日:2020-02-21
# piano: 多項およびスパース多項ロジスティック回帰のための高速並列反復アルゴリズム

PIANO: A Fast Parallel Iterative Algorithm for Multinomial and Sparse Multinomial Logistic Regression ( http://arxiv.org/abs/2002.09133v1 )

ライセンス: Link先を確認
R. Jyothi and P. Babu(参考訳) 多項ロジスティック回帰は、分類のためのよく研究されたツールであり、画像処理、コンピュータビジョン、バイオインフォマティクスなどの分野で広く使われてきた。 教師付き分類シナリオの下では、多項ロジスティック回帰モデルが重みベクトルを学習し、任意の2つのクラスを区別する。 ビッグデータの出現により、データの浸出は大きな次元の重みベクトルとなり、また多数のクラスが生まれ、古典的な手法は計算的に不可能である。 本稿では,並列反復アルゴリズムを提案する。マルチノミナルロジスティック回帰(piano,multinomial logistic regression)のための並列反復アルゴリズムであり,重みベクトルの各要素を並列に更新できる。 また,その特徴選択性から,スパース多項ロジスティック回帰問題(Sparse Multinomial Logistic Regression problem)を解くために,PSANOを容易に拡張できることも示す。 特に, L1 と l0 の正規化によるスパース多項ロジスティック回帰問題を解くため, PIANO の拡張について検討する。 また, PIANO は多項系およびスパース多項系ロジスティック回帰問題の定常点に収束することを示した。 ピアノを既存の手法と比較するためにシミュレーションを行い,提案手法は収束速度の点で既存の手法よりも優れた性能を示すことがわかった。

Multinomial Logistic Regression is a well-studied tool for classification and has been widely used in fields like image processing, computer vision and, bioinformatics, to name a few. Under a supervised classification scenario, a Multinomial Logistic Regression model learns a weight vector to differentiate between any two classes by optimizing over the likelihood objective. With the advent of big data, the inundation of data has resulted in large dimensional weight vector and has also given rise to a huge number of classes, which makes the classical methods applicable for model estimation not computationally viable. To handle this issue, we here propose a parallel iterative algorithm: Parallel Iterative Algorithm for MultiNomial LOgistic Regression (PIANO) which is based on the Majorization Minimization procedure, and can parallely update each element of the weight vectors. Further, we also show that PIANO can be easily extended to solve the Sparse Multinomial Logistic Regression problem - an extensively studied problem because of its attractive feature selection property. In particular, we work out the extension of PIANO to solve the Sparse Multinomial Logistic Regression problem with l1 and l0 regularizations. We also prove that PIANO converges to a stationary point of the Multinomial and the Sparse Multinomial Logistic Regression problems. Simulations were conducted to compare PIANO with the existing methods, and it was found that the proposed algorithm performs better than the existing methods in terms of speed of convergence.
翻訳日:2022-12-30 01:01:48 公開日:2020-02-21
# メタラーニングによる音声イベント検出

Few-shot acoustic event detection via meta-learning ( http://arxiv.org/abs/2002.09143v1 )

ライセンス: Link先を確認
Bowen Shi, Ming Sun, Krishna C. Puvvada, Chieh-Chi Kao, Spyros Matsoukas, Chao Wang(参考訳) 本論文では,数発の音響イベント検出(AED)について検討する。 わずかながらの学習により、ラベル付きデータで新しいイベントを検出できる。 コンピュータビジョンなどの他の研究分野と比較して、音声認識のための少数ショット学習は研究されていない。 提案手法は, 従来の教師付き手法と, 従来, 様々なメタラーニング手法を用いて, 少数ショットaed問題を定式化し, 異なる手法を探索する。 教師付きベースラインと比較すると,メタラーニングモデルは優れた性能を示し,新たな音声イベントへの一般化に有効であることを示す。 初期化の影響やドメインの不一致などの分析により,AEDにおけるメタラーニングアプローチの利点がさらに検証された。

We study few-shot acoustic event detection (AED) in this paper. Few-shot learning enables detection of new events with very limited labeled data. Compared to other research areas like computer vision, few-shot learning for audio recognition has been under-studied. We formulate few-shot AED problem and explore different ways of utilizing traditional supervised methods for this setting as well as a variety of meta-learning approaches, which are conventionally used to solve few-shot classification problem. Compared to supervised baselines, meta-learning models achieve superior performance, thus showing its effectiveness on generalization to new audio events. Our analysis including impact of initialization and domain discrepancy further validate the advantage of meta-learning approaches in few-shot AED.
翻訳日:2022-12-30 01:01:06 公開日:2020-02-21
# 分類の総コスト最小化のための適応的共変量取得

Adaptive Covariate Acquisition for Minimizing Total Cost of Classification ( http://arxiv.org/abs/2002.09162v1 )

ライセンス: Link先を確認
Daniel Andrade and Yuzuru Okajima(参考訳) 一部のアプリケーションでは、共変量を取得するコストは無視できない。 例えば、医学領域では、患者に糖尿病があるか否かを分類するために、耐糖能の測定は高価である。 各共変量のコストと誤分類のコストをユーザが指定できると仮定すると、我々の目標は分類の(予想された)総コスト、すなわち誤分類のコストと取得した共変量のコストを最小化することである。 この最適化目標を(条件付き)ベイズリスクを用いて定式化し,再帰的手続きを用いて最適解を記述する。 その結果,(1)最適分類器を一般化加法モデルで表現できる,(2)最適な共変量の組は増大するサイズの集合の列に制限される,という2つの仮定が導入された。 この2つの仮定の下で計算効率の良い解が存在することを示す。 さらに,いくつかの医学的データセットにおいて,提案手法が従来手法と比較して最も低い総コストを達成できることが示唆された。 最後に,ユーザが最小限に許容されるリコール(ターゲットリコール)を指定できるようにすることで,すべての誤分類コストをユーザに指定する要件を弱める。 提案手法は,従来の手法よりも誤検出率と共変量獲得コストを最小にしつつ,目標リコールを達成できることを確認した。

In some applications, acquiring covariates comes at a cost which is not negligible. For example in the medical domain, in order to classify whether a patient has diabetes or not, measuring glucose tolerance can be expensive. Assuming that the cost of each covariate, and the cost of misclassification can be specified by the user, our goal is to minimize the (expected) total cost of classification, i.e. the cost of misclassification plus the cost of the acquired covariates. We formalize this optimization goal using the (conditional) Bayes risk and describe the optimal solution using a recursive procedure. Since the procedure is computationally infeasible, we consequently introduce two assumptions: (1) the optimal classifier can be represented by a generalized additive model, (2) the optimal sets of covariates are limited to a sequence of sets of increasing size. We show that under these two assumptions, a computationally efficient solution exists. Furthermore, on several medical datasets, we show that the proposed method achieves in most situations the lowest total costs when compared to various previous methods. Finally, we weaken the requirement on the user to specify all misclassification costs by allowing the user to specify the minimally acceptable recall (target recall). Our experiments confirm that the proposed method achieves the target recall while minimizing the false discovery rate and the covariate acquisition costs better than previous methods.
翻訳日:2022-12-30 01:00:53 公開日:2020-02-21
# 特異値分解法によるスパース主成分の回帰

Sparse principal component regression via singular value decomposition approach ( http://arxiv.org/abs/2002.09188v1 )

ライセンス: Link先を確認
Shuichi Kawano(参考訳) 第1段階は主成分分析(pca)を行い、第2段階は説明変数が第1段階によって得られた主成分に置き換えられる回帰モデルを構成する。 PCAは説明変数のみを用いて実行されるため、主成分は応答変数に関する情報を持たない。 この問題に対処するため,特異値分解法の観点からPCRの1段階手順を提案する。 本手法は, 2つの損失関数, 回帰損失, PCA損失, スパース正規化に基づく。 提案手法により,説明変数と応答変数の両方に関する情報を有する主成分ローディングを得ることができる。 乗算器の交互方向法を用いて推定アルゴリズムを開発した。 提案手法の有効性を示すために数値実験を行った。

Principal component regression (PCR) is a two-stage procedure: the first stage performs principal component analysis (PCA) and the second stage constructs a regression model whose explanatory variables are replaced by principal components obtained by the first stage. Since PCA is performed by using only explanatory variables, the principal components have no information about the response variable. To address the problem, we propose a one-stage procedure for PCR in terms of singular value decomposition approach. Our approach is based upon two loss functions, a regression loss and a PCA loss, with sparse regularization. The proposed method enables us to obtain principal component loadings that possess information about both explanatory variables and a response variable. An estimation algorithm is developed by using alternating direction method of multipliers. We conduct numerical studies to show the effectiveness of the proposed method.
翻訳日:2022-12-30 01:00:08 公開日:2020-02-21
# スパースガウス過程における結び目選択

Knot Selection in Sparse Gaussian Processes ( http://arxiv.org/abs/2002.09538v1 )

ライセンス: Link先を確認
Nathaniel Garton, Jarad Niemi, Alicia Carriquiry(参考訳) 結び目に基づくスパースガウス過程は、フルガウス過程へのスケーラブルな近似としてかなりの成功を収めた。 しかし、結び目選択が限界確率を最適化することによって行われるとき、問題は起こりうる。 例えば、縁面は非常に多様であり、いくつかの結び目が事実上機能しないような準最適結び目配置を引き起こすことがある。 これは特に、必要以上に多くの結び目が使用される場合の問題であり、その結果、精度がほとんど、あるいは全く向上しない計算コストが増大する。 結び目の数と配置を選択するために,一対一の結び目選択アルゴリズムを提案する。 本アルゴリズムはベイズ最適化を用いて, 目的関数として限界確率を用いる場合の病理をほとんど回避し, 良好である可能性が高い結び目を効率的に提案する。 現在の標準手法よりも精度と速度が向上した実験結果を提供する。

Knot-based, sparse Gaussian processes have enjoyed considerable success as scalable approximations to full Gaussian processes. Problems can occur, however, when knot selection is done by optimizing the marginal likelihood. For example, the marginal likelihood surface is highly multimodal, which can cause suboptimal knot placement where some knots serve practically no function. This is especially a problem when many more knots are used than are necessary, resulting in extra computational cost for little to no gains in accuracy. We propose a one-at-a-time knot selection algorithm to select both the number and placement of knots. Our algorithm uses Bayesian optimization to efficiently propose knots that are likely to be good and largely avoids the pathologies encountered when using the marginal likelihood as the objective function. We provide empirical results showing improved accuracy and speed over the current standard approaches.
翻訳日:2022-12-30 00:53:12 公開日:2020-02-21
# 深部ニューラルネットワークの最適化軌道のブレークスルーポイント

The Break-Even Point on Optimization Trajectories of Deep Neural Networks ( http://arxiv.org/abs/2002.09572v1 )

ライセンス: Link先を確認
Stanislaw Jastrzebski, Maciej Szymczak, Stanislav Fort, Devansh Arpit, Jacek Tabor, Kyunghyun Cho, Krzysztof Geras(参考訳) ディープニューラルネットワークのトレーニングの初期段階は、最終的なパフォーマンスに不可欠である。 本研究では,学習初期の確率勾配降下(SGD)のハイパーパラメータが,他の最適化軌道にどのように影響するかを検討する。 我々は、この軌道上において、損失面の曲率と勾配のノイズがsgdによって暗黙的に正規化されるような「破断点」の存在を議論する。 特に,学習初期における学習率の増大が,勾配の分散を減少させ,勾配の共分散の条件付けを改善することを,複数の分類タスクで示している。 これらの効果は最適化の観点から有益であり、分岐点の後に見えるようになる。 また,先行研究を補完することにより,バッチ正規化層を有するニューラルネットワークにおいても,学習率が低いと損失面の条件が悪化することを示した。 要約すると, 損失面の鍵となる特性は, 訓練の初期段階においてSGDに強く影響されている。 認識された効果が一般化に与える影響を研究することは、将来有望な方向である。

The early phase of training of deep neural networks is critical for their final performance. In this work, we study how the hyperparameters of stochastic gradient descent (SGD) used in the early phase of training affect the rest of the optimization trajectory. We argue for the existence of the "break-even" point on this trajectory, beyond which the curvature of the loss surface and noise in the gradient are implicitly regularized by SGD. In particular, we demonstrate on multiple classification tasks that using a large learning rate in the initial phase of training reduces the variance of the gradient, and improves the conditioning of the covariance of gradients. These effects are beneficial from the optimization perspective and become visible after the break-even point. Complementing prior work, we also show that using a low learning rate results in bad conditioning of the loss surface even for a neural network with batch normalization layers. In short, our work shows that key properties of the loss surface are strongly influenced by SGD in the early phase of training. We argue that studying the impact of the identified effects on generalization is a promising future direction.
翻訳日:2022-12-30 00:52:48 公開日:2020-02-21
# 負の証拠を持つマルチチャネルニューラルグラフイベントモデル

A Multi-Channel Neural Graphical Event Model with Negative Evidence ( http://arxiv.org/abs/2002.09575v1 )

ライセンス: Link先を確認
Tian Gao, Dharmashankar Subramanian, Karthikeyan Shanmugam, Debarun Bhattacharjya, Nicholas Mattei(参考訳) イベントデータセットは、時間線上で不規則に発生するさまざまなタイプのイベントのシーケンスであり、多くのドメインでますます普及している。 条件付き強度を使用してイベントをモデル化するための既存の作業は、過去の依存関係をキャプチャするためにいくつかのパラメトリック形式を使用するか、または予測のようなタスクに主にフォーカスする非パラメトリックモデルに依存する。 基礎となる強度関数を推定するために,非パラメトリック深層ニューラルネットワーク手法を提案する。 本研究では,観測不能事象の否定的証拠を,連続するイベント間隔内にフェイクイベントエポックを導入することにより最適に補強する,新しいマルチチャネルRNNを用いる。 本手法は,log-likelihoodで測定したモデルフィッティングタスクにおける最先端ベースラインに対する評価を行う。 合成データセットと実世界のデータセットの両方の実験により、提案手法は、研究されたデータセットのほとんどで既存のベースラインよりも優れていることがわかった。

Event datasets are sequences of events of various types occurring irregularly over the time-line, and they are increasingly prevalent in numerous domains. Existing work for modeling events using conditional intensities rely on either using some underlying parametric form to capture historical dependencies, or on non-parametric models that focus primarily on tasks such as prediction. We propose a non-parametric deep neural network approach in order to estimate the underlying intensity functions. We use a novel multi-channel RNN that optimally reinforces the negative evidence of no observable events with the introduction of fake event epochs within each consecutive inter-event interval. We evaluate our method against state-of-the-art baselines on model fitting tasks as gauged by log-likelihood. Through experiments on both synthetic and real-world datasets, we find that our proposed approach outperforms existing baselines on most of the datasets studied.
翻訳日:2022-12-30 00:52:11 公開日:2020-02-21
# アンカー正規化による高速局所線形回帰

Fast local linear regression with anchor regularization ( http://arxiv.org/abs/2003.05747v1 )

ライセンス: Link先を確認
Mathis Petrovich and Makoto Yamada(参考訳) 回帰は機械学習とデータマイニングにおいて重要なタスクである。 ファイナンス、バイオメディカル、コンピュータビジョンなど様々な分野で応用されている。 近年,ネットワーク情報を用いたクラスタ作成によるローカルモデルの推定を行うネットワークLassoが提案され,その性能が向上した。 本研究では,高速アンカー正規化局所線形法(fall)と呼ばれる,単純かつ効果的な局所モデル学習アルゴリズムを提案する。 より具体的には、各サンプルの局所モデルを事前計算されたアンカーモデルで正規化することで訓練する。 提案アルゴリズムの主な利点は,行列乗算のみの閉形式解が得られること,また,提案アルゴリズムは容易に解釈可能で,高速に計算でき,並列化可能であることである。 合成および実世界のデータセットに関する実験を通じて、FALLは最先端のネットワークであるLassoアルゴリズムと、トレーニング時間(桁違い2桁)を大幅に短縮した精度で比較した。

Regression is an important task in machine learning and data mining. It has several applications in various domains, including finance, biomedical, and computer vision. Recently, network Lasso, which estimates local models by making clusters using the network information, was proposed and its superior performance was demonstrated. In this study, we propose a simple yet effective local model training algorithm called the fast anchor regularized local linear method (FALL). More specifically, we train a local model for each sample by regularizing it with precomputed anchor models. The key advantage of the proposed algorithm is that we can obtain a closed-form solution with only matrix multiplication; additionally, the proposed algorithm is easily interpretable, fast to compute and parallelizable. Through experiments on synthetic and real-world datasets, we demonstrate that FALL compares favorably in terms of accuracy with the state-of-the-art network Lasso algorithm with significantly smaller training time (two orders of magnitude).
翻訳日:2022-12-30 00:51:56 公開日:2020-02-21
# KryptoOracle: Twitter Sentimentsを使ったリアルタイム暗号価格予測プラットフォーム

KryptoOracle: A Real-Time Cryptocurrency Price Prediction Platform Using Twitter Sentiments ( http://arxiv.org/abs/2003.04967v1 )

ライセンス: Link先を確認
Shubhankar Mohapatra, Nauman Ahmed and Paulo Alencar(参考訳) ビットコインなどの暗号通貨は、金融取引や資産譲渡検証といった分野において、交換媒体として広く利用されている。 しかし、高通貨のボラティリティに対処するためのリアルタイム価格予測をサポートし、ソーシャルメディアの感情を含む巨大な異種データボリュームを処理し、フォールトトレランスと永続性をリアルタイムでサポートし、新しい価格と感情データに対処する学習アルゴリズムのリアルタイム適応を提供するソリューションが不足している。 本稿では、twitterの感情に基づく、新しいリアルタイムかつ適応型暗号通貨価格予測プラットフォームであるkryptooracleを紹介する。 統合的でモジュール化されたプラットフォームは (i)大量の入ってくるデータを永続的かつフォールトトレラントな方法で処理するsparkベースのアーキテクチャ (ii)大量の自然言語処理クエリにリアルタイムに応答可能な感情分析を支援するアプローチ (iii)モデルが新しい価格や感情に対応するために重みを適応させるオンライン学習に基づく予測手法。 アーキテクチャ設計の提供に加えて,kryptooracleプラットフォームの実装と実験的評価についても説明している。 全体として、提案されたプラットフォームは意思決定を加速し、新たな機会を明らかにし、利用可能な、より大規模の財務データ量と多様性に基づいて、よりタイムリーな洞察を提供する。

Cryptocurrencies, such as Bitcoin, are becoming increasingly popular, having been widely used as an exchange medium in areas such as financial transaction and asset transfer verification. However, there has been a lack of solutions that can support real-time price prediction to cope with high currency volatility, handle massive heterogeneous data volumes, including social media sentiments, while supporting fault tolerance and persistence in real time, and provide real-time adaptation of learning algorithms to cope with new price and sentiment data. In this paper we introduce KryptoOracle, a novel real-time and adaptive cryptocurrency price prediction platform based on Twitter sentiments. The integrative and modular platform is based on (i) a Spark-based architecture which handles the large volume of incoming data in a persistent and fault tolerant way; (ii) an approach that supports sentiment analysis which can respond to large amounts of natural language processing queries in real time; and (iii) a predictive method grounded on online learning in which a model adapts its weights to cope with new prices and sentiments. Besides providing an architectural design, the paper also describes the KryptoOracle platform implementation and experimental evaluation. Overall, the proposed platform can help accelerate decision-making, uncover new opportunities and provide more timely insights based on the available and ever-larger financial data volume and variety.
翻訳日:2022-12-30 00:51:42 公開日:2020-02-21
# プライバシー保護フェデレーション学習のための匿名化

Anonymizing Data for Privacy-Preserving Federated Learning ( http://arxiv.org/abs/2002.09096v1 )

ライセンス: Link先を確認
Olivia Choudhury, Aris Gkoulalas-Divanis, Theodoros Salonidis, Issa Sylla, Yoonyoung Park, Grace Hsu, Amar Das(参考訳) フェデレーション学習は、データを移動することなく、複数のサイトに分散したデータからグローバルな機械学習モデルをトレーニング可能にする。 これは、データが個人的かつ高感度な情報と結びついており、データ分析手法が規制ガイドラインを確実に遵守しなければならない医療アプリケーションに特に関係している。 フェデレーション学習は生データの共有を阻害するが、トレーニングプロセス中に露出したモデルパラメータや生成された機械学習モデルに対して、プライバシ攻撃を開始することが可能である。 本稿では,連合学習の文脈において,プライバシを提供するための最初の構文的アプローチを提案する。 我々のアプローチは、最先端の差分プライバシーベースのフレームワークとは異なり、GDPRやHIPAAが要求しているように、保護可能なプライバシーレベルをサポートしながら、実用性やモデルパフォーマンスを最大化することを目的としています。 医療領域における2つの重要な課題について,100万人の患者の実世界電子健康データを用いて包括的実証評価を行った。 この結果から,要求されるプライバシーレベルを提供しながら,高いモデル性能を実現するためのアプローチの有効性が示された。 比較研究を通じて,様々なデータセット,実験的なセットアップ,およびプライバシ予算に対して,フェデレーション学習における差分プライバシーベースの手法よりも高いモデルパフォーマンスを提供することを示す。

Federated learning enables training a global machine learning model from data distributed across multiple sites, without having to move the data. This is particularly relevant in healthcare applications, where data is rife with personal, highly-sensitive information, and data analysis methods must provably comply with regulatory guidelines. Although federated learning prevents sharing raw data, it is still possible to launch privacy attacks on the model parameters that are exposed during the training process, or on the generated machine learning model. In this paper, we propose the first syntactic approach for offering privacy in the context of federated learning. Unlike the state-of-the-art differential privacy-based frameworks, our approach aims to maximize utility or model performance, while supporting a defensible level of privacy, as demanded by GDPR and HIPAA. We perform a comprehensive empirical evaluation on two important problems in the healthcare domain, using real-world electronic health data of 1 million patients. The results demonstrate the effectiveness of our approach in achieving high model performance, while offering the desired level of privacy. Through comparative studies, we also show that, for varying datasets, experimental setups, and privacy budgets, our approach offers higher model performance than differential privacy-based techniques in federated learning.
翻訳日:2022-12-30 00:51:20 公開日:2020-02-21
# 深層学習を用いたパーソナライズされた電磁線量測定のための高精度人頭モデルの開発

Development of accurate human head models for personalized electromagnetic dosimetry using deep learning ( http://arxiv.org/abs/2002.09080v1 )

ライセンス: Link先を確認
Essam A. Rashed and Jose Gomez-Tames and Akimasa Hirata(参考訳) 医療画像からのパーソナライズされた頭部モデルの開発は、電気刺激の最適化や安全性評価など、電磁線量測定の分野で重要な話題となっている。 ヒトの頭部モデルは通常、磁気共鳴画像の異なる解剖組織への分割を通じて生成される。 このプロセスは時間がかかり、比較的多くの組織を分割するのに特別な経験を必要とする。 したがって、異なる特定の脳領域の電場を正確に計算することは困難である。 近年,深層学習が人間の脳のセグメンテーションに応用されている。 しかし、ほとんどの研究は脳組織のセグメンテーションのみに焦点を当てており、電磁線ドシメトリーにおいて重要な他の組織にはほとんど注意が払われていない。 本研究では,脳内の電界分布を評価する上で必須となる,人間の頭部構造全体を分節化するための畳み込みニューラルネットワーク forknet のアーキテクチャを提案する。 提案するネットワークは、パーソナライズされた頭部モデルを生成し、経頭蓋磁気刺激時の脳の電界評価に適用することができる。 その結果,提案ネットワークを用いて生成した頭部モデルは,スカンナ内セグメンテーションタスクにおいて手動セグメンテーションにより作成した頭部モデルと強い一致を示した。

The development of personalized human head models from medical images has become an important topic in the electromagnetic dosimetry field, including the optimization of electrostimulation, safety assessments, etc. Human head models are commonly generated via the segmentation of magnetic resonance images into different anatomical tissues. This process is time consuming and requires special experience for segmenting a relatively large number of tissues. Thus, it is challenging to accurately compute the electric field in different specific brain regions. Recently, deep learning has been applied for the segmentation of the human brain. However, most studies have focused on the segmentation of brain tissue only and little attention has been paid to other tissues, which are considerably important for electromagnetic dosimetry. In this study, we propose a new architecture for a convolutional neural network, named ForkNet, to perform the segmentation of whole human head structures, which is essential for evaluating the electrical field distribution in the brain. The proposed network can be used to generate personalized head models and applied for the evaluation of the electric field in the brain during transcranial magnetic stimulation. Our computational results indicate that the head models generated using the proposed network exhibit strong matching with those created via manual segmentation in an intra-scanner segmentation task.
翻訳日:2022-12-30 00:50:46 公開日:2020-02-21
# 予測プロセス分析における深層学習の解釈可能性の検討

An Investigation of Interpretability Techniques for Deep Learning in Predictive Process Analytics ( http://arxiv.org/abs/2002.09192v1 )

ライセンス: Link先を確認
Catarina Moreira and Renuka Sindhgatta and Chun Ouyang and Peter Bruza and Andreas Wichert(参考訳) 本稿では,深層ニューラルネットワークとランダム森林という,医学的意思決定文学において最も成功した2つの学習アルゴリズムの解釈可能性について検討する。 我々は、これらのアルゴリズムを、がん患者に関する情報を含む現実世界の医療データセットに適用し、医療活動の記録から患者のがんの種類を予測するモデルを学習した。 我々は、長期の深層ニューラルネットワークとランダムフォレストを用いて、ニューラルネットワークアーキテクチャに基づく異なるアルゴリズムを探索した。 ブラックボックスの予測の論理について意思決定者に提供する必要性が高まっているため、これらの分類器に解釈を提供する様々な手法も検討した。 この手法の1つでは、これらのニューラルネットワークの隠れた層をインターセプトし、隠れた層における入力の表現を学習するためにオートエンコーダを用いた。 また,無作為林の予測付近の解釈可能なモデルについて検討した。 結果から,モデル予測の周辺で局所的に解釈可能なモデルを学ぶと,アルゴリズムが決定を下す理由の理解が高まることがわかった。 局所的および線形モデルの使用は、特定のインスタンスやデータポイントの予測に使用される特徴を特定するのに役立つ。 がんのタイプに関する有用な洞察を提供する予測に使用される特定の特徴と、十分に一般化されていない特徴が見られます。 さらに, 自己エンコーダを用いた構造化深層学習手法により有意な予測結果が得られ, 患者の異なる種類のがんに対応する非線形クラスタの同定が可能となった。

This paper explores interpretability techniques for two of the most successful learning algorithms in medical decision-making literature: deep neural networks and random forests. We applied these algorithms in a real-world medical dataset containing information about patients with cancer, where we learn models that try to predict the type of cancer of the patient, given their set of medical activity records. We explored different algorithms based on neural network architectures using long short term deep neural networks, and random forests. Since there is a growing need to provide decision-makers understandings about the logic of predictions of black boxes, we also explored different techniques that provide interpretations for these classifiers. In one of the techniques, we intercepted some hidden layers of these neural networks and used autoencoders in order to learn what is the representation of the input in the hidden layers. In another, we investigated an interpretable model locally around the random forest's prediction. Results show learning an interpretable model locally around the model's prediction leads to a higher understanding of why the algorithm is making some decision. Use of local and linear model helps identify the features used in prediction of a specific instance or data point. We see certain distinct features used for predictions that provide useful insights about the type of cancer, along with features that do not generalize well. In addition, the structured deep learning approach using autoencoders provided meaningful prediction insights, which resulted in the identification of nonlinear clusters correspondent to the patients' different types of cancer.
翻訳日:2022-12-30 00:44:53 公開日:2020-02-21
# 予測分布の一致による逆検出と補正

Adversarial Detection and Correction by Matching Prediction Distributions ( http://arxiv.org/abs/2002.09364v1 )

ライセンス: Link先を確認
Giovanni Vacanti and Arnaud Van Looveren(参考訳) 本稿では,機械学習分類器の新しい逆方向検出・補正手法を提案する。この検出器は,初期および再建されたインスタンス上での分類器予測のKullback-Leibler偏差に基づいて,カスタム損失関数で訓練されたオートエンコーダから構成される。 この検出器はMNISTやFashion-MNISTのカーリーニ・ワグナーやSLIDEのような強力な攻撃をほぼ完全に中和し、CIFAR-10では防御ではなく分類モデルへの完全なアクセスが認められている。 本手法は,攻撃者がモデルと防御の双方について十分な知識を持ち,かつ,攻撃の頑健性を調べるホワイトボックス攻撃の場合,いまだに攻撃例を検出することが可能であることを示す。 この手法は非常に柔軟で、モデル性能に悪影響を及ぼす一般的なデータ破損や摂動を検出するためにも使用できる。 この能力をCIFAR-10-Cデータセットで説明する。

We present a novel adversarial detection and correction method for machine learning classifiers.The detector consists of an autoencoder trained with a custom loss function based on the Kullback-Leibler divergence between the classifier predictions on the original and reconstructed instances.The method is unsupervised, easy to train and does not require any knowledge about the underlying attack. The detector almost completely neutralises powerful attacks like Carlini-Wagner or SLIDE on MNIST and Fashion-MNIST, and remains very effective on CIFAR-10 when the attack is granted full access to the classification model but not the defence. We show that our method is still able to detect the adversarial examples in the case of a white-box attack where the attacker has full knowledge of both the model and the defence and investigate the robustness of the attack. The method is very flexible and can also be used to detect common data corruptions and perturbations which negatively impact the model performance. We illustrate this capability on the CIFAR-10-C dataset.
翻訳日:2022-12-30 00:43:54 公開日:2020-02-21
# ラベルランキングに対するマルチクラス分類手法

A Multiclass Classification Approach to Label Ranking ( http://arxiv.org/abs/2002.09420v1 )

ライセンス: Link先を確認
Stephan Cl\'emen\c{c}on, Robin Vogel(参考訳) マルチクラス分類において、目標は、$\mathcal{Y}=\{1,\; \ldots,\; K \}$ with $K\geq 3$, in a r.v. $X$, in its value in $\mathbb{R}^q$ with $q\geq 1$ say, in a classification rule $g:\mathbb{R}^q\to \mathcal{Y}$ with least probability of error $\mathbb{P}\{Y\neq g(X) \}$ に基づいて、ランダムラベル $Y$を予測する方法を学ぶことである。 しかし、幅広い状況において、対象とするタスクはより野心的であり、後続確率 $\eta_y(x)=\mathbb{p}\{y=y \mid x \}$ の順序を減少させることで、y$が$x$に割り当てられる可能性のある全てのラベル値のソートを行う。 本稿では,多クラス分類と後続確率推定(回帰)の中間に位置するこの統計的学習問題の解析に着目し,ラベルランキングとして言及する。 そこで,条件付き選好ベクトル $(\eta_1(x),\; \ldots,\; \eta_k(x))$ を持つbradley-terry-luce-plackett モデルから,入力ベクトル $x$ に割り当てられたランダムな順列 $\sigma$ を観察する代わりに,ラベルランキングルールをトレーニングするための唯一の情報である $y$ が$\sigma^{-1}(1)$ であることに注目した。 RMRの最近の結果に触発されて、適切な雑音条件下では、OVO(One-Versus-One)アプローチは、副産物として、圧倒的な確率でラベルの最適なランク付けを行う。 理論的保証の他に,本稿で推奨されるラベルランキングへのアプローチは,実験結果によって支持される。

In multiclass classification, the goal is to learn how to predict a random label $Y$, valued in $\mathcal{Y}=\{1,\; \ldots,\; K \}$ with $K\geq 3$, based upon observing a r.v. $X$, taking its values in $\mathbb{R}^q$ with $q\geq 1$ say, by means of a classification rule $g:\mathbb{R}^q\to \mathcal{Y}$ with minimum probability of error $\mathbb{P}\{Y\neq g(X) \}$. However, in a wide variety of situations, the task targeted may be more ambitious, consisting in sorting all the possible label values $y$ that may be assigned to $X$ by decreasing order of the posterior probability $\eta_y(X)=\mathbb{P}\{Y=y \mid X \}$. This article is devoted to the analysis of this statistical learning problem, halfway between multiclass classification and posterior probability estimation (regression) and referred to as label ranking here. We highlight the fact that it can be viewed as a specific variant of ranking median regression (RMR), where, rather than observing a random permutation $\Sigma$ assigned to the input vector $X$ and drawn from a Bradley-Terry-Luce-Plackett model with conditional preference vector $(\eta_1(X),\; \ldots,\; \eta_K(X))$, the sole information available for training a label ranking rule is the label $Y$ ranked on top, namely $\Sigma^{-1}(1)$. Inspired by recent results in RMR, we prove that under appropriate noise conditions, the One-Versus-One (OVO) approach to multiclassification yields, as a by-product, an optimal ranking of the labels with overwhelming probability. Beyond theoretical guarantees, the relevance of the approach to label ranking promoted in this article is supported by experimental results.
翻訳日:2022-12-30 00:43:35 公開日:2020-02-21
# 単純分類器からのロバスト性

Robustness from Simple Classifiers ( http://arxiv.org/abs/2002.09422v1 )

ライセンス: Link先を確認
Sharon Qian, Dimitris Kalimeris, Gal Kaplun, Yaron Singer(参考訳) 多くのアプリケーション領域におけるディープニューラルネットワークの成功にもかかわらず、そのようなモデルは堅牢ではない、すなわち、入力の小さな対向的摂動に弱いことが示されている。 このような摂動が発生する理由や、それに対する防御に成功する方法については、広範な研究が行われてきましたが、堅牢性に関する完全な理解はいまだにありません。 本研究では,頑健性と簡易性との関係について検討する。 出力クラスの数を減らすことによって形成される単純な分類器は、逆摂動の影響を受けにくい。 その結果,複雑なマルチクラスモデルをバイナリモデルの集約に分解することで,堅牢性が向上することを示す。 この振る舞いは、異なるデータセットやモデルアーキテクチャ間で一貫性があり、敵のトレーニングのような既知の防御技術と組み合わせることができる。 さらに,標準と頑健な学習体制の切り離しのさらなる証拠を提供する。 特に,精巧なラベル情報は標準精度に寄与するが,堅牢性は損なう。

Despite the vast success of Deep Neural Networks in numerous application domains, it has been shown that such models are not robust i.e., they are vulnerable to small adversarial perturbations of the input. While extensive work has been done on why such perturbations occur or how to successfully defend against them, we still do not have a complete understanding of robustness. In this work, we investigate the connection between robustness and simplicity. We find that simpler classifiers, formed by reducing the number of output classes, are less susceptible to adversarial perturbations. Consequently, we demonstrate that decomposing a complex multiclass model into an aggregation of binary models enhances robustness. This behavior is consistent across different datasets and model architectures and can be combined with known defense techniques such as adversarial training. Moreover, we provide further evidence of a disconnect between standard and robust learning regimes. In particular, we show that elaborate label information can help standard accuracy but harm robustness.
翻訳日:2022-12-30 00:42:41 公開日:2020-02-21
# テンソル型計算への応用による可変除去の進歩

An Advance on Variable Elimination with Applications to Tensor-Based Computation ( http://arxiv.org/abs/2002.09320v1 )

ライセンス: Link先を確認
Adnan Darwiche(参考訳) 本稿では、確率的推論を含む多くのアルゴリズムの基盤となる可変除去の古典的アルゴリズムに関する新しい結果を示す。 結果は関数依存の活用に関連しており、非常に大きな木幅を持つモデル上で推論や学習を効率的に行うことができる。 進歩のハイライトは、一般的に利用される知識のコンパイルに基づいて、スパースな要素やテクニックを必要とせずに、標準(センス)要因で機能することである。 これは、テンソルとその演算を用いた改良された変数除去アルゴリズムの直接実装を可能にするため、特にモデルパラメータの学習において非常に効率的な実装につながる。 さらに,提案手法では,特定の機能的依存関係の知識は必要とせず,それらの依存関係を学習する際に使用することができる。 本稿では,ベイジアンネットワーククエリをテンソルグラフにコンパイルし,テンソル計算の標準ツールを用いてラベル付きデータからパラメータを学習することにより,提案アルゴリズムの有効性を示す。

We present new results on the classical algorithm of variable elimination, which underlies many algorithms including for probabilistic inference. The results relate to exploiting functional dependencies, allowing one to perform inference and learning efficiently on models that have very large treewidth. The highlight of the advance is that it works with standard (dense) factors, without the need for sparse factors or techniques based on knowledge compilation that are commonly utilized. This is significant as it permits a direct implementation of the improved variable elimination algorithm using tensors and their operations, leading to extremely efficient implementations especially when learning model parameters. Moreover, the proposed technique does not require knowledge of the specific functional dependencies, only that they exist, so can be used when learning these dependencies. We illustrate the efficacy of our proposed algorithm by compiling Bayesian network queries into tensor graphs and then learning their parameters from labeled data using a standard tool for tensor computation.
翻訳日:2022-12-30 00:35:29 公開日:2020-02-21
# ハイブリッドアルゴリズムを用いたロバストなビッグデータクラスタリングによる不健全な初期化,動的セントロイド選択,空のクラスタリング問題の解法

A Hybrid Algorithm Based Robust Big Data Clustering for Solving Unhealthy Initialization, Dynamic Centroid Selection and Empty clustering Problems with Analysis ( http://arxiv.org/abs/2002.09380v1 )

ライセンス: Link先を確認
Y. A. Joarder (1) and Mosabbir Ahmed (2) ((1,2) Department of Computer Science and Engineering, World University of Bangladesh (WUB), Dhaka, Bangladesh)(参考訳) ビッグデータは構造化データと非構造化データの両方の膨大な量であり、大きすぎるし、従来の技術では処理が難しい。 クラスタリングアルゴリズムは、現代のアプリケーションによって生成されたデータ量を正確に分析できる強力な学習ツールとして開発された。 データマイニングにおけるクラスタリングは、その特性に基づいた特定のオブジェクト群のグループ化である。 クラスタリングの主な目的は、オブジェクトが主に類似性や特徴に応じて同じクラスタにグループ化されるように、データをクラスタに分類することである。 現在、K-MEANSは、クラスタ分離が集合分離の間よりも多い集合を認識するために、広範囲のゾーンで接続された最も有用な計算である。 開発したアルゴリズムはK-MEANSを用いて,ビッグデータからのクラスタリングにおいて高品質なクラスタリングを行う。 提案アルゴリズムEG K-MEANS : 拡張生成K-MEANSはK-MEANSの3つの問題を主に解決する。 高品質なクラスタリングを実現するために、不健全な初期化、ダイナミックなcentroid選択、空のクラスタリング問題を解決する最善の方法が確保される。

Big Data is a massive volume of both structured and unstructured data that is too large and it also difficult to process using traditional techniques. Clustering algorithms have developed as a powerful learning tool that can exactly analyze the volume of data that produced by modern applications. Clustering in data mining is the grouping of a particular set of objects based on their characteristics. The main aim of clustering is to classified data into clusters such that objects are grouped in the same clusters when they are corresponding according to similarities and features mainly. Till now, K-MEANS is the best utilized calculation connected in a wide scope of zones to recognize gatherings where cluster separations are a lot than between gathering separations. Our developed algorithm works with K-MEANS for high quality clustering during clustering from big data. Our proposed algorithm EG K-MEANS : Extended Generation K-MEANS solves mainly three issues of K-MEANS: unhealthy initialization, dynamic centroid selection and empty clustering. It ensures the best way of preventing unhealthy initialization, dynamic centroid selection and empty clustering problems for getting high quality clustering.
翻訳日:2022-12-30 00:35:13 公開日:2020-02-21
# GenDICE: 定常値の一般化オフライン推定

GenDICE: Generalized Offline Estimation of Stationary Values ( http://arxiv.org/abs/2002.09072v1 )

ライセンス: Link先を確認
Ruiyi Zhang, Bo Dai, Lihong Li, Dale Schuurmans(参考訳) 強化学習やモンテカルロ法で生じる重要な問題は、マルコフ連鎖の定常分布によって定義される量を推定することである。 多くの現実世界のアプリケーションでは、基盤となるトランジッション演算子へのアクセスは、利用可能な環境との追加的なインタラクションなしに、すでに収集された固定されたデータセットに限定されている。 この難易度シナリオでは一貫した推定が可能であり,重要な応用においても効果的な推定が可能となることを示す。 提案手法は, 定常分布と経験分布の相違を補正する比率を推定し, 定常分布の基本的な性質から推定し, 変動分散最小化に基づく制約修正を利用する。 結果として得られるアルゴリズム、GenDICEは単純で効果的である。 一般的な条件下での整合性を証明し、エラー解析を行い、オフラインのPageRankや非政治政策評価を含むベンチマーク問題に対して強い経験的性能を示す。

An important problem that arises in reinforcement learning and Monte Carlo methods is estimating quantities defined by the stationary distribution of a Markov chain. In many real-world applications, access to the underlying transition operator is limited to a fixed set of data that has already been collected, without additional interaction with the environment being available. We show that consistent estimation remains possible in this challenging scenario, and that effective estimation can still be achieved in important applications. Our approach is based on estimating a ratio that corrects for the discrepancy between the stationary and empirical distributions, derived from fundamental properties of the stationary distribution, and exploiting constraint reformulations based on variational divergence minimization. The resulting algorithm, GenDICE, is straightforward and effective. We prove its consistency under general conditions, provide an error analysis, and demonstrate strong empirical performance on benchmark problems, including off-line PageRank and off-policy policy evaluation.
翻訳日:2022-12-30 00:34:38 公開日:2020-02-21
# 逆ファイルk-meansクラスタリング:パフォーマンス分析

Inverted-File k-Means Clustering: Performance Analysis ( http://arxiv.org/abs/2002.09094v1 )

ライセンス: Link先を確認
Kazuo Aoyama, Kazumi Saito, and Tetsuo Ikeda(参考訳) 本稿では,多数のクラスを持つ大規模スパースデータセットに適した逆ファイルk平均クラスタリングアルゴリズム(IVF)を提案する。 このようなデータセットが与えられた場合、IVFは高速かつ低メモリ消費で効率的に動作し、標準のロイドアルゴリズムと同じ解を維持する。 ハイパフォーマンスは2つの異なるデータ表現から生じる。 1つはオブジェクトと平均特徴ベクトルの両方に対するスパース式である。 もう1つは、平均特徴ベクトルのセットに対する逆ファイルデータ構造である。 これらの表現の効果を確認するために、異なるデータ構造と比較式を用いた3つのアルゴリズムを設計する。 超スカラーアウトオブオーダプロセッサと深い階層型メモリシステムを備えた現代のコンピュータシステムにおいて,大規模実文書データセットに適用した場合,ivfは設計したアルゴリズムよりも優れた性能を実現することを実験的に実証した。 また,命令ごとのクロックサイクル(CPI)モデルを導入し,高速化解析を行った。 解析結果から、IVFはキャッシュミスの数、分岐予測、完了命令の3つの性能劣化を抑えることが明らかとなった。

This paper presents an inverted-file k-means clustering algorithm (IVF) suitable for a large-scale sparse data set with potentially numerous classes. Given such a data set, IVF efficiently works at high-speed and with low memory consumption, which keeps the same solution as a standard Lloyd's algorithm. The high performance arises from two distinct data representations. One is a sparse expression for both the object and mean feature vectors. The other is an inverted-file data structure for a set of the mean feature vectors. To confirm the effect of these representations, we design three algorithms using distinct data structures and expressions for comparison. We experimentally demonstrate that IVF achieves better performance than the designed algorithms when they are applied to large-scale real document data sets in a modern computer system equipped with superscalar out-of-order processors and a deep hierarchical memory system. We also introduce a simple yet practical clock-cycle per instruction (CPI) model for speed-performance analysis. Analytical results reveal that IVF suppresses three performance degradation factors: the numbers of cache misses, branch mispredictions, and the completed instructions.
翻訳日:2022-12-30 00:33:36 公開日:2020-02-21
# ディープラーニングのためのファジィレイヤの導入

Introducing Fuzzy Layers for Deep Learning ( http://arxiv.org/abs/2003.00880v1 )

ライセンス: Link先を確認
Stanton R. Price, Steven R. Price, Derek T. Anderson(参考訳) 近年開発された最先端技術の多くは、ある程度機械学習の影響を受けている。 この執筆時点で最も人気があるのは、ディープラーニングの傘下にある人工知能方法論である。 ディープラーニングは、多くのアプリケーションで非常に強力で、非常に複雑で難しい問題に対処できることが示されている。 本稿では,深層学習のための新たな層であるファジィ層について紹介する。 伝統的に、ニューラルネットワークのネットワークアーキテクチャは、入力層、隠された層の組み合わせ、そして出力層で構成されている。 深層学習アーキテクチャにファジィ層を導入して,チェケットやスグノファジィ積分のようなファジィ手法によって表現される強力な集約特性を活用することを提案する。 これまで、ディープラーニングに向けられたファジィなアプローチは、最先端の訓練済みモデル(例えば、AlexNet、VGG16、GoogLeNet、Inception-v3、ResNet-18など)から出力を集約するために、様々な融合戦略を意思決定レベルで適用してきた。 これらの戦略は、画像分類タスクの精度向上を図っているが、ファジファイド中間層や隠蔽層の使用についての調査は行われていない。 本稿では,ピクセル単位の分類を用いた意味セグメンテーションの適用に焦点を当てた,ファジィ戦略をディープラーニングアーキテクチャに組み込んだ新しいディープラーニング戦略を提案する。 試験は、自動道路分割作業のためのアメリカ陸軍試験場で、無人航空システムを介して収集されたデータとともに、ベンチマークデータセット上で実施され、予備的な結果が期待できる。

Many state-of-the-art technologies developed in recent years have been influenced by machine learning to some extent. Most popular at the time of this writing are artificial intelligence methodologies that fall under the umbrella of deep learning. Deep learning has been shown across many applications to be extremely powerful and capable of handling problems that possess great complexity and difficulty. In this work, we introduce a new layer to deep learning: the fuzzy layer. Traditionally, the network architecture of neural networks is composed of an input layer, some combination of hidden layers, and an output layer. We propose the introduction of fuzzy layers into the deep learning architecture to exploit the powerful aggregation properties expressed through fuzzy methodologies, such as the Choquet and Sugueno fuzzy integrals. To date, fuzzy approaches taken to deep learning have been through the application of various fusion strategies at the decision level to aggregate outputs from state-of-the-art pre-trained models, e.g., AlexNet, VGG16, GoogLeNet, Inception-v3, ResNet-18, etc. While these strategies have been shown to improve accuracy performance for image classification tasks, none have explored the use of fuzzified intermediate, or hidden, layers. Herein, we present a new deep learning strategy that incorporates fuzzy strategies into the deep learning architecture focused on the application of semantic segmentation using per-pixel classification. Experiments are conducted on a benchmark data set as well as a data set collected via an unmanned aerial system at a U.S. Army test site for the task of automatic road segmentation, and preliminary results are promising.
翻訳日:2022-12-30 00:25:39 公開日:2020-02-21
# 短期風速予測のための進化的深層学習法--リグルンド洋上風力発電所を事例として

An Evolutionary Deep Learning Method for Short-term Wind Speed Prediction: A Case Study of the Lillgrund Offshore Wind Farm ( http://arxiv.org/abs/2002.09106v1 )

ライセンス: Link先を確認
Mehdi Neshat, Meysam Majidi Nezhad, Ehsan Abbasnejad, Lina Bertling Tjernberg, Davide Astiaso Garcia, Bradley Alexander, Markus Wagner(参考訳) 風力発電の大規模統合には,正確な短期風速予測が不可欠である。 しかし、風速の季節的・確率的特性から予測は困難な課題となっている。 本研究では,2つの長短期記憶(LSTM)ANNモデルの過パラメータを風速予測のために調整するために,一般的な進化的探索アルゴリズムであるCMA-ESを用いたハイブリッド進化的アプローチを用いる。 提案されたハイブリッドアプローチは、バルト海にあるスウェーデンの風力発電所に設置されたオフショア風力タービンから収集されたデータに基づいて訓練される。 実験では10分先(絶対短期)と1時間先(短期)の2つの予測地平線が検討されている。 実験結果から,新しいアプローチは,他の5つの応用機械学習モデル,例えば,多項式ニューラルネットワーク(pnn),フィードフォワードニューラルネットワーク(fnn),非線形自己回帰ニューラルネットワーク(nar),適応ニューロファジー推論システム(anfis)よりも5つの性能基準で優れていることが示唆された。

Accurate short-term wind speed forecasting is essential for large-scale integration of wind power generation. However, the seasonal and stochastic characteristics of wind speed make forecasting a challenging task. This study uses a new hybrid evolutionary approach that uses a popular evolutionary search algorithm, CMA-ES, to tune the hyper-parameters of two Long short-term memory(LSTM) ANN models for wind prediction. The proposed hybrid approach is trained on data gathered from an offshore wind turbine installed in a Swedish wind farm located in the Baltic Sea. Two forecasting horizons including ten-minutes ahead (absolute short term) and one-hour ahead (short term) are considered in our experiments. Our experimental results indicate that the new approach is superior to five other applied machine learning models, i.e., polynomial neural network (PNN), feed-forward neural network (FNN), nonlinear autoregressive neural network (NAR) and adaptive neuro-fuzzy inference system (ANFIS), as measured by five performance criteria.
翻訳日:2022-12-30 00:24:51 公開日:2020-02-21
# 学習に基づく画像圧縮のためのバイナリ確率モデル

Binary Probability Model for Learning Based Image Compression ( http://arxiv.org/abs/2002.09259v1 )

ライセンス: Link先を確認
Th\'eo Ladune (IETR), Pierrick Philippe, Wassim Hamidouche (IETR), Lu Zhang (IETR), Olivier Deforges (IETR)(参考訳) 本稿では,潜在変数に対するより豊かな確率モデルを用いて,学習画像圧縮システムを強化することを提案する。 以前の作業モデルは、ガウス分布またはラプラス分布を持つ潜伏体である。 二進算術符号に着想を得て,3つの二進数と1つの整数を確率モデルで信号する。 緩和法は勾配に基づく訓練を行うように設計されている。 よりリッチな確率モデルは、エントロピー符号化がより良くなり、レートが低下する。 学習画像圧縮(clic)テスト条件における課題実験により,本手法はガウスモデルやラプラスモデルと比較して18%の節約が得られた。

In this paper, we propose to enhance learned image compression systems with a richer probability model for the latent variables. Previous works model the latents with a Gaussian or a Laplace distribution. Inspired by binary arithmetic coding , we propose to signal the latents with three binary values and one integer, with different probability models. A relaxation method is designed to perform gradient-based training. The richer probability model results in a better entropy coding leading to lower rate. Experiments under the Challenge on Learned Image Compression (CLIC) test conditions demonstrate that this method achieves 18% rate saving compared to Gaussian or Laplace models.
翻訳日:2022-12-30 00:24:32 公開日:2020-02-21
# 教師なし言語間単語埋め込みのリファインメント

Refinement of Unsupervised Cross-Lingual Word Embeddings ( http://arxiv.org/abs/2002.09213v1 )

ライセンス: Link先を確認
Magdalena Biesialska and Marta R. Costa-juss\`a(参考訳) 言語間単語埋め込みは、直接バイリンガル信号を使用しなくても多言語語表現を学習できるようにすることにより、高リソース言語と低リソース言語のギャップを埋めることを目的としている。 ライオンの手法のシェアは、事前訓練された埋め込みを共有潜在空間にマッピングするプロジェクションに基づくアプローチである。 これらの手法は主に、言語ベクトル空間を同型とする直交変換に基づいている。 しかし、この基準は必ずしも成立せず、特に形態学的に豊富な言語の場合である。 本稿では,非教師付きバイリンガル単語埋め込みのアライメントを改良する自己教師型手法を提案する。 提案するモデルは,単語のベクトルと対応する翻訳を互いに近づけるだけでなく,長さと中心非分散を強制することで,言語間埋め込みをよりよく調整する。 実験の結果,両言語語彙誘導タスクにおいて最先端の手法よりも優れており,本手法の有効性が示された。

Cross-lingual word embeddings aim to bridge the gap between high-resource and low-resource languages by allowing to learn multilingual word representations even without using any direct bilingual signal. The lion's share of the methods are projection-based approaches that map pre-trained embeddings into a shared latent space. These methods are mostly based on the orthogonal transformation, which assumes language vector spaces to be isomorphic. However, this criterion does not necessarily hold, especially for morphologically-rich languages. In this paper, we propose a self-supervised method to refine the alignment of unsupervised bilingual word embeddings. The proposed model moves vectors of words and their corresponding translations closer to each other as well as enforces length- and center-invariance, thus allowing to better align cross-lingual embeddings. The experimental results demonstrate the effectiveness of our approach, as in most cases it outperforms state-of-the-art methods in a bilingual lexicon induction task.
翻訳日:2022-12-30 00:24:03 公開日:2020-02-21
# 決定の裏にある理由

On The Reasons Behind Decisions ( http://arxiv.org/abs/2002.09284v1 )

ライセンス: Link先を確認
Adnan Darwiche and Auguste Hirth(参考訳) 最近の研究によると、いくつかの一般的な機械学習分類器は、同じ入力出力動作を持つブール回路にコンパイル可能である。 ブール分類器による決定の背景にある理由を明らかにするための理論を提案し、その理論的および実践的な意味について研究する。 私たちは、分類器と決定バイアスに加えて、決定の背後にある十分な、必要、完全な理由といった概念を定義します。 これらの概念が「たとえ...なぜならば、決定は継続する」といった反実的な言明を評価するのにどのように使われるかを示す。 本稿では, トラクタブルブール回路の新たな進歩を基盤として, これらの概念を効率的に計算するアルゴリズムを提案し, ケーススタディを用いて説明する。

Recent work has shown that some common machine learning classifiers can be compiled into Boolean circuits that have the same input-output behavior. We present a theory for unveiling the reasons behind the decisions made by Boolean classifiers and study some of its theoretical and practical implications. We define notions such as sufficient, necessary and complete reasons behind decisions, in addition to classifier and decision bias. We show how these notions can be used to evaluate counterfactual statements such as "a decision will stick even if ... because ... ." We present efficient algorithms for computing these notions, which are based on new advances on tractable Boolean circuits, and illustrate them using a case study.
翻訳日:2022-12-30 00:23:48 公開日:2020-02-21
# 映像予測による制御対象の分離による視覚強化学習の改善

Disentangling Controllable Object through Video Prediction Improves Visual Reinforcement Learning ( http://arxiv.org/abs/2002.09136v1 )

ライセンス: Link先を確認
Yuanyi Zhong, Alexander Schwing, Jian Peng(参考訳) 多くの視覚ベースの強化学習(rl)問題において、エージェントは、ゲームにおけるプレイヤーのアバターや視覚把握と操作におけるロボットアームなど、その視野内の可動物体を制御する。 動作条件付きビデオ予測を活用することで、制御可能なオブジェクトを観測信号から切り離すためのエンドツーエンド学習フレームワークを提案する。 不整合表現は、RLがエージェントに追加の観察チャネルとして有用であることが示されている。 人気のDouble DQNアルゴリズムによる一連のアタリゲームの実験では、サンプル効率とゲーム性能が改善された(正規化されたゲームスコアで測定された222.8%から261.4%)。

In many vision-based reinforcement learning (RL) problems, the agent controls a movable object in its visual field, e.g., the player's avatar in video games and the robotic arm in visual grasping and manipulation. Leveraging action-conditioned video prediction, we propose an end-to-end learning framework to disentangle the controllable object from the observation signal. The disentangled representation is shown to be useful for RL as additional observation channels to the agent. Experiments on a set of Atari games with the popular Double DQN algorithm demonstrate improved sample efficiency and game performance (from 222.8% to 261.4% measured in normalized game scores, with prediction bonus reward).
翻訳日:2022-12-30 00:15:46 公開日:2020-02-21
# 残留知識蒸留

Residual Knowledge Distillation ( http://arxiv.org/abs/2002.09168v1 )

ライセンス: Link先を確認
Mengya Gao, Yujun Shen, Quanquan Li, Chen Change Loy(参考訳) 知識蒸留(KD)はモデル圧縮の最も強力な方法の一つである。 鍵となる考え方は、知識を深い教師モデル(T)からより浅い学生(S)に移すことである。 しかし, 既存の手法は, SとTの学習能力の相違による性能劣化に悩まされており, この問題を補うために, アシスタント(A)を導入して知識を蒸留するResidual Knowledge Distillation (RKD)を提案する。 具体的には、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。 このようにして、SとAは相互に補完し、Tからより良い知識を得る。さらに、計算コストを増大させることなく、与えられたモデルからSとAを導出する効果的な方法が考案される。 広範な実験により,一般的な分類データセットであるcifar-100とimagenetにおいて,最先端の手法を超越した魅力的な結果が得られた。

Knowledge distillation (KD) is one of the most potent ways for model compression. The key idea is to transfer the knowledge from a deep teacher model (T) to a shallower student (S). However, existing methods suffer from performance degradation due to the substantial gap between the learning capacities of S and T. To remedy this problem, this work proposes Residual Knowledge Distillation (RKD), which further distills the knowledge by introducing an assistant (A). Specifically, S is trained to mimic the feature maps of T, and A aids this process by learning the residual error between them. In this way, S and A complement with each other to get better knowledge from T. Furthermore, we devise an effective method to derive S and A from a given model without increasing the total computational cost. Extensive experiments show that our approach achieves appealing results on popular classification datasets, CIFAR-100 and ImageNet, surpassing state-of-the-art methods.
翻訳日:2022-12-30 00:15:19 公開日:2020-02-21
# ターゲットスペーサ正規化によるオーバーフィッティングを回避しつつ、ディープニューラルネットワークの全容量を爆発させる

Exploiting the Full Capacity of Deep Neural Networks while Avoiding Overfitting by Targeted Sparsity Regularization ( http://arxiv.org/abs/2002.09237v1 )

ライセンス: Link先を確認
Karim Huesmann, Soeren Klemm, Lars Linsen and Benjamin Risse(参考訳) オーバーフィッティングは、比較的小さなデータセットでディープニューラルネットワークをトレーニングする際の最も一般的な問題のひとつである。 本稿では、ニューラルネットワークの活性化空間が、新しい標的空間の可視化と正規化戦略を提案するために、オーバーフィッティングの信頼性の高い指標であることを示す。 これらの戦略に基づいて,活性化間隔とフィルタ相関による過度適合を層ごとの層単位で理解し,対処することができる。 本研究は,画像分類性能を著しく向上させながら,分散正規化とバッチ正規化を両立させながら,既知のデータセットやアーキテクチャを効率的に正規化できることを示す。 本研究は, 過度に訓練しても, 過度に訓練しても, 過度に適合することなく, 深層モデルの容量を最大限に活用しながら, 有効かつ差別的な特徴学習を可能にすることを示すことによって, 活性化空間とネットワーク容量の相反する概念に関する新たな知見を明らかにした。

Overfitting is one of the most common problems when training deep neural networks on comparatively small datasets. Here, we demonstrate that neural network activation sparsity is a reliable indicator for overfitting which we utilize to propose novel targeted sparsity visualization and regularization strategies. Based on these strategies we are able to understand and counteract overfitting caused by activation sparsity and filter correlation in a targeted layer-by-layer manner. Our results demonstrate that targeted sparsity regularization can efficiently be used to regularize well-known datasets and architectures with a significant increase in image classification performance while outperforming both dropout and batch normalization. Ultimately, our study reveals novel insights into the contradicting concepts of activation sparsity and network capacity by demonstrating that targeted sparsity regularization enables salient and discriminative feature learning while exploiting the full capacity of deep models without suffering from overfitting, even when trained excessively.
翻訳日:2022-12-30 00:14:47 公開日:2020-02-21
# 訓練中の特徴変化によるモデル重みの効率的な学習

Efficient Learning of Model Weights via Changing Features During Training ( http://arxiv.org/abs/2002.09249v1 )

ライセンス: Link先を確認
Marcell Beregi-Kov\'acs, \'Agnes Baran and Andr\'as Hajdu(参考訳) 本稿では,学習中の特徴を動的に変化させる機械学習モデルを提案する。 私たちの主な動機は、トレーニングプロセス中にモデルを小さなコンテントで更新し、記述性の少ない機能を大きなプールから新しいものに置き換えることです。 大きなメリットは、一般的なプラクティスとは反対に、新しいモデルをスクラッチからトレーニングし始めるのではなく、既に学習済みの重みを維持できるという事実にあります。 この方法では、モデルの複雑さを維持するとともに、同じトレーニング時間内にモデルの精度が向上する大きな特徴プールをスキャンすることができる。 線形回帰やニューラルネットワークに基づくトレーニングを含む,古典的な機械学習シナリオにおいて,本手法の有効性を実証した。 信号処理に対する具体的分析として,単一画素と画素ペアの強度を可能な特徴として,数値分類のためのデータベースmnistの手法を検証した。

In this paper, we propose a machine learning model, which dynamically changes the features during training. Our main motivation is to update the model in a small content during the training process with replacing less descriptive features to new ones from a large pool. The main benefit is coming from the fact that opposite to the common practice we do not start training a new model from the scratch, but can keep the already learned weights. This procedure allows the scan of a large feature pool which together with keeping the complexity of the model leads to an increase of the model accuracy within the same training time. The efficiency of our approach is demonstrated in several classic machine learning scenarios including linear regression and neural network-based training. As a specific analysis towards signal processing, we have successfully tested our approach on the database MNIST for digit classification considering single pixel and pixel-pairs intensities as possible features.
翻訳日:2022-12-30 00:14:31 公開日:2020-02-21
# リカレントニューラルネットワークを用いたリードシートのリズム, 弦, メロディ生成

Rhythm, Chord and Melody Generation for Lead Sheets using Recurrent Neural Networks ( http://arxiv.org/abs/2002.10266v1 )

ライセンス: Link先を確認
Cedric De Boom, Stephanie Van Laere, Tim Verbelen, Bart Dhoedt(参考訳) リカレントニューラルネットワークによって生成される音楽は、方向感覚やコヒーレンスを欠いていることが多い。 そこで我々は,リードシート生成のための2段階LSTMモデルを提案し,まず曲の高調波テンプレートとリズムテンプレートを生成し,その後2段階目においてメロディノートの列を条件付きで生成する。 主観的聴力テストは,我々のアプローチがベースラインを上回り,音楽的コヒーレンス感を高めることを示す。

Music that is generated by recurrent neural networks often lacks a sense of direction and coherence. We therefore propose a two-stage LSTM-based model for lead sheet generation, in which the harmonic and rhythmic templates of the song are produced first, after which, in a second stage, a sequence of melody notes is generated conditioned on these templates. A subjective listening test shows that our approach outperforms the baselines and increases perceived musical coherence.
翻訳日:2022-12-30 00:06:53 公開日:2020-02-21
# 注意に基づくマルチモーダル感性分析のためのゲート機構

Gated Mechanism for Attention Based Multimodal Sentiment Analysis ( http://arxiv.org/abs/2003.01043v1 )

ライセンス: Link先を確認
Ayush Kumar, Jithendra Vepa(参考訳) マルチモーダル感情分析は、ソーシャルメディア投稿、カスタマーサービスコール、ビデオブログとの関係から、最近人気が高まっている。 本稿では,マルチモーダル感情分析の3つの側面について述べる。 1. クロスモーダルインタラクション学習、すなわち、複数のモーダルが感情にどのように寄与するか、 2.マルチモーダルインタラクションと長期依存関係の学習 3. ユニモダルとクロスモダルキューの融合 これら3つのうち, クロスモーダル相互作用の学習は, この問題に有益であることがわかった。 cmu multimodal opinion level sentiment intensity (cmu-mosi) とcmu multimodal opinion sentiment and emotion intensity (cmu-mosei) の2つのベンチマークデータセットで実験を行った。 この2つのタスクに対するアプローチは、それぞれ83.9%と81.1%のアキュラシーをもたらし、これは現在の状態よりも1.6%と1.34%の絶対的な改善です。

Multimodal sentiment analysis has recently gained popularity because of its relevance to social media posts, customer service calls and video blogs. In this paper, we address three aspects of multimodal sentiment analysis; 1. Cross modal interaction learning, i.e. how multiple modalities contribute to the sentiment, 2. Learning long-term dependencies in multimodal interactions and 3. Fusion of unimodal and cross modal cues. Out of these three, we find that learning cross modal interactions is beneficial for this problem. We perform experiments on two benchmark datasets, CMU Multimodal Opinion level Sentiment Intensity (CMU-MOSI) and CMU Multimodal Opinion Sentiment and Emotion Intensity (CMU-MOSEI) corpus. Our approach on both these tasks yields accuracies of 83.9% and 81.1% respectively, which is 1.6% and 1.34% absolute improvement over current state-of-the-art.
翻訳日:2022-12-30 00:06:43 公開日:2020-02-21
# 方向性-ガウス-平滑な進化戦略による強化学習の加速

Accelerating Reinforcement Learning with a Directional-Gaussian-Smoothing Evolution Strategy ( http://arxiv.org/abs/2002.09077v1 )

ライセンス: Link先を確認
Jiaxing Zhang, Hoang Tran, Guannan Zhang(参考訳) 進化戦略(ES)は多くの挑戦的強化学習(RL)タスクにおいて、最先端の深層RL手法に匹敵する大きな可能性を示されてきた。 しかし、現在のesプラクティスには2つの制限があり、それ以上の機能を妨げる可能性がある。 第一に、現在のほとんどの手法はモンテカルロ型勾配推定器を頼りに、ポリシーパラメータが一般にランダムにサンプリングされる探索方向を提案する。 このような推定器の精度が低いため、rlトレーニングは収束が遅く、最適な解に到達するのにより多くのイテレーションが必要となる。 第二に、報酬関数のランドスケープは多くの局所最大値を含み、ESアルゴリズムは早めに収束し、潜在的に大きな報酬を持つパラメータ空間の他の部分を調べることができない。 本研究では,方向性ガウス型平滑化進化戦略(dgs-es)を用いてrlトレーニングを高速化する。 一 高い精度で勾配推定を行い、 二 報酬関数の大規模変動にストレスを与える非局所探索方向を見つけ、局所変動を無視する。 ここでは,DGS-ESが高度にスケーラブルであり,ウォールクロック時間に優れ,他の一般的な政策勾配やESアプローチと競合する報酬スコアが得られることを示す。

Evolution strategy (ES) has been shown great promise in many challenging reinforcement learning (RL) tasks, rivaling other state-of-the-art deep RL methods. Yet, there are two limitations in the current ES practice that may hinder its otherwise further capabilities. First, most current methods rely on Monte Carlo type gradient estimators to suggest search direction, where the policy parameter is, in general, randomly sampled. Due to the low accuracy of such estimators, the RL training may suffer from slow convergence and require more iterations to reach optimal solution. Secondly, the landscape of reward functions can be deceptive and contains many local maxima, causing ES algorithms to prematurely converge and be unable to explore other parts of the parameter space with potentially greater rewards. In this work, we employ a Directional Gaussian Smoothing Evolutionary Strategy (DGS-ES) to accelerate RL training, which is well-suited to address these two challenges with its ability to i) provide gradient estimates with high accuracy, and ii) find nonlocal search direction which lays stress on large-scale variation of the reward function and disregards local fluctuation. Through several benchmark RL tasks demonstrated herein, we show that DGS-ES is highly scalable, possesses superior wall-clock time, and achieves competitive reward scores to other popular policy gradient and ES approaches.
翻訳日:2022-12-30 00:06:18 公開日:2020-02-21
# 公正な関係構造を学習する

Learning Fairness-aware Relational Structures ( http://arxiv.org/abs/2002.09471v1 )

ライセンス: Link先を確認
Yue Zhang, Arti Ramesh(参考訳) バイアスや差別を効果的に回避する公平な機械学習モデルの開発は、近年注目を集めている重要な問題である。 有能な予測のための特徴と変数間の複雑な関係依存を符号化する必要性は、公正で表現力のある関係モデルの開発を必要とする。 本研究では,関係性モデル構造を学習しながら公平性尺度を組み込んだ関係構造学習アルゴリズムfair-a3slを提案する。 統計的パリティ差,過大評価,等化オッズ,等機会など,最近提案された関係性フェアネス尺度を含む幅広い公平度指標をエンコードできる手法は多様である。 既存のアプローチでは、事前決定されたモデル構造のフェアネス測度を予測後に採用しているが、fair-a3slはフェアネス測度に最適化しながら構造を直接学習し、したがってモデルの構造バイアスを取り除くことができる。 3つの異なるモデリングシナリオを表わすデータセット上で,最先端の公平性モデルと比較し,学習したモデル構造の有効性を示す。 一 関係データセット 二 差別を研究するのに広く用いられる偏見予測データセット及び 三 推薦システムデータセット この結果から,Fair-A3SLは,正確な予測を行うことができるが,解釈可能かつ表現的構造を学習できることが示唆された。

The development of fair machine learning models that effectively avert bias and discrimination is an important problem that has garnered attention in recent years. The necessity of encoding complex relational dependencies among the features and variables for competent predictions require the development of fair, yet expressive relational models. In this work, we introduce Fair-A3SL, a fairness-aware structure learning algorithm for learning relational structures, which incorporates fairness measures while learning relational graphical model structures. Our approach is versatile in being able to encode a wide range of fairness metrics such as statistical parity difference, overestimation, equalized odds, and equal opportunity, including recently proposed relational fairness measures. While existing approaches employ the fairness measures on pre-determined model structures post prediction, Fair-A3SL directly learns the structure while optimizing for the fairness measures and hence is able to remove any structural bias in the model. We demonstrate the effectiveness of our learned model structures when compared with the state-of-the-art fairness models quantitatively and qualitatively on datasets representing three different modeling scenarios: i) a relational dataset, ii) a recidivism prediction dataset widely used in studying discrimination, and iii) a recommender systems dataset. Our results show that Fair-A3SL can learn fair, yet interpretable and expressive structures capable of making accurate predictions.
翻訳日:2022-12-30 00:05:53 公開日:2020-02-21