このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200919となっている論文です。

PDF登録状況(公開日: 20200919)

TitleAuthorsAbstract論文公表日・翻訳日
# ペデストリアン検出器の仮想から現実への適応

Virtual to Real adaptation of Pedestrian Detectors ( http://arxiv.org/abs/2001.03032v3 )

ライセンス: Link先を確認
Luca Ciampi, Nicola Messina, Fabrizio Falchi, Claudio Gennaro, Giuseppe Amato(参考訳) コンピュータビジョンによる歩行者検出は、多数のアプリケーションのためのビルディングブロックである。 近年、このようなタスクを実行するための畳み込みニューラルネットワークベースのアーキテクチャへの関心が高まっている。 これらの教師ネットワークの重要な目標の1つは、トレーニング段階で学んだ知識を異なる特徴を持つ新しいシナリオに一般化することである。 この目的を達成するには適切なラベル付きデータセットが不可欠である。 主な問題は、データセットを手動でアノテートすることは通常、多くの人的労力を必要とし、コストがかかることだ。 この目的のために,ビデオゲーム GTA V - Grand Theft Auto V の高写真リアルなグラフィカルエンジンで収集された新たな画像集合である ViPeD (Virtual Pedestrian Dataset) を紹介し,アノテーションを自動的に取得する。 しかし、合成データセットのみをトレーニングする場合、モデルはSynthetic2Real Domain Shiftを経験し、実際の画像に適用するとパフォーマンスが低下する。 このギャップを緩和するために,歩行者検出タスクに適した2つの異なるドメイン適応手法を提案する。 実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータに基づいてトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化し、我々の合成データセットの多様性を活用することができる。 さらに,このドメイン適応手法により,synthetic2real domain shiftの低減と2つのドメインの密接化,実世界画像上でのネットワークテスト時のパフォーマンス向上が実現可能であることを実証する。 コード、モデル、データセットはhttps://ciampluca.github.io/viped/で無料で利用できる。

Pedestrian detection through Computer Vision is a building block for a multitude of applications. Recently, there was an increasing interest in Convolutional Neural Network-based architectures for the execution of such a task. One of these supervised networks' critical goals is to generalize the knowledge learned during the training phase to new scenarios with different characteristics. A suitably labeled dataset is essential to achieve this purpose. The main problem is that manually annotating a dataset usually requires a lot of human effort, and it is costly. To this end, we introduce ViPeD (Virtual Pedestrian Dataset), a new synthetically generated set of images collected with the highly photo-realistic graphical engine of the video game GTA V - Grand Theft Auto V, where annotations are automatically acquired. However, when training solely on the synthetic dataset, the model experiences a Synthetic2Real Domain Shift leading to a performance drop when applied to real-world images. To mitigate this gap, we propose two different Domain Adaptation techniques suitable for the pedestrian detection task, but possibly applicable to general object detection. Experiments show that the network trained with ViPeD can generalize over unseen real-world scenarios better than the detector trained over real-world data, exploiting the variety of our synthetic dataset. Furthermore, we demonstrate that with our Domain Adaptation techniques, we can reduce the Synthetic2Real Domain Shift, making closer the two domains and obtaining a performance improvement when testing the network over the real-world images. The code, the models, and the dataset are made freely available at https://ciampluca.github.io/viped/
翻訳日:2023-01-13 04:50:21 公開日:2020-09-19
# 試行錯誤による安定マッチングの相互学習の複雑さ

The Complexity of Interactively Learning a Stable Matching by Trial and Error ( http://arxiv.org/abs/2002.07363v3 )

ライセンス: Link先を確認
Ehsan Emamjomeh-Zadeh, Yannai A. Gonczarowski, David Kempe(参考訳) 安定したマッチング設定では、対話型学習アルゴリズムが、マッチングの提案、提案されるマッチングが安定しているという応答、または、このマッチングが不安定であることを示すブロッキングペア(逆向きに)という1つのタイプのクエリを、正確に作成できるクエリモデルを検討する。 1対1のマッチング市場では、この粗いクエリモデルで安定したマッチングをインタラクティブに学習する決定論的クエリ複雑性に、本質的には$o(n^2\log n)$という厳密な上限と、このクエリ複雑性を高い確率で達成する効率的なランダム化アルゴリズムが主な結果です。 まず、各エージェントの最大クォータが有界であれば、クエリの複雑さと実行時間が市場規模で多項式となるような対話型学習アルゴリズムを提示する。また、多対多市場においては、決定論的クエリの複雑さを、任意の(例えば、市場規模で線形な)クォータであっても、市場規模で多項式(具体的には$O(n^3 \log n)$)にすることができる。

In a stable matching setting, we consider a query model that allows for an interactive learning algorithm to make precisely one type of query: proposing a matching, the response to which is either that the proposed matching is stable, or a blocking pair (chosen adversarially) indicating that this matching is unstable. For one-to-one matching markets, our main result is an essentially tight upper bound of $O(n^2\log n)$ on the deterministic query complexity of interactively learning a stable matching in this coarse query model, along with an efficient randomized algorithm that achieves this query complexity with high probability. For many-to-many matching markets in which participants have responsive preferences, we first give an interactive learning algorithm whose query complexity and running time are polynomial in the size of the market if the maximum quota of each agent is bounded; our main result for many-to-many markets is that the deterministic query complexity can be made polynomial (more specifically, $O(n^3 \log n)$) in the size of the market even for arbitrary (e.g., linear in the market size) quotas.
翻訳日:2022-12-30 20:54:28 公開日:2020-09-19
# 非多項非線形項をもつシステムの非インタラクティブモデル還元に対する演算子推論

Operator inference for non-intrusive model reduction of systems with non-polynomial nonlinear terms ( http://arxiv.org/abs/2002.09726v2 )

ライセンス: Link先を確認
Peter Benner and Pawan Goyal and Boris Kramer and Benjamin Peherstorfer and Karen Willcox(参考訳) 本研究は、非多項非線形項が空間的に局所的かつ解析形式で与えられる力学系の低次元モデルを学ぶための非帰納的モデル還元法を提案する。 離散化力学系の全モデルの支配方程式や演算子について完全な知識を必要とする最先端のモデル還元法とは対照的に,提案手法では解析形式における非ポリノミカル項のみを必要とし,潜在的にブラックボックスのフルモデル解法を用いて計算されたスナップショットから残りのダイナミクスを学習する。 提案手法は最小二乗問題を用いて線形および多項式非線形力学の演算子を学習し、与えられた非多項式項を右辺に組み込む。 最小二乗問題は線型であり、実際は効率的に解ける。 提案手法は, 偏微分方程式, 拡散反応シャフィー・インファンテモデル, 反応流の管状反応器モデル, 化学分離過程を記述したバッチクロマトグラフィーモデルによって制御される3つの問題について実証した。 数値的な結果から,提案手法は,支配方程式の完全な知識を必要とする最先端の侵入的モデル縮小法を用いて構築されたモデルと同等の精度のモデルを学ぶことができる。

This work presents a non-intrusive model reduction method to learn low-dimensional models of dynamical systems with non-polynomial nonlinear terms that are spatially local and that are given in analytic form. In contrast to state-of-the-art model reduction methods that are intrusive and thus require full knowledge of the governing equations and the operators of a full model of the discretized dynamical system, the proposed approach requires only the non-polynomial terms in analytic form and learns the rest of the dynamics from snapshots computed with a potentially black-box full-model solver. The proposed method learns operators for the linear and polynomially nonlinear dynamics via a least-squares problem, where the given non-polynomial terms are incorporated in the right-hand side. The least-squares problem is linear and thus can be solved efficiently in practice. The proposed method is demonstrated on three problems governed by partial differential equations, namely the diffusion-reaction Chafee-Infante model, a tubular reactor model for reactive flows, and a batch-chromatography model that describes a chemical separation process. The numerical results provide evidence that the proposed approach learns reduced models that achieve comparable accuracy as models constructed with state-of-the-art intrusive model reduction methods that require full knowledge of the governing equations.
翻訳日:2022-12-29 19:19:26 公開日:2020-09-19
# DistNet: 変位回帰による深部追跡--マザーマシンの細菌育成への応用

DistNet: Deep Tracking by displacement regression: application to bacteria growing in the Mother Machine ( http://arxiv.org/abs/2003.07790v2 )

ライセンス: Link先を確認
Jean Ollion and Charles Ollion(参考訳) このマザーマシンは、顕微鏡で数千の細胞を長時間のタイムラプスで観察できる人気のマイクロ流体装置だ。 単細胞レベルでの定量的解析や、遺伝子発現や調節、変異原性、抗生物質に対する反応など多くの細胞過程のキャラクタリゼーションに有用である。 このような実験によって生成される膨大なデータの自動的かつ定量的な分析は、今や限界段階である。 特に、位相コントラスト顕微鏡で撮像された細菌細胞のセグメンテーションと追跡は、高スループットデータと互換性のあるエラー率で、難しい問題である。 本研究では, 細菌の移動の回帰によってトラッキングを行うマルチオブジェクト追跡問題の新規な定式化について述べる。 本手法はセグメント化と追跡を共同で行い,シーケンシャルな情報を利用してセグメント化精度を向上させる。 本稿では,トラッキングエラー率とセグメンテーションエラー率を極端に低くする自己認識機構を活用するディープニューラルネットワークアーキテクチャを提案する。 我々は最先端の手法と比較して優れた性能と速度を示す。 本手法は距離+変位セグメンテーションおよび追跡ネットワークを表す distnet と呼ばれる。 この手法はマザーマシンの顕微鏡データに特に適しているが、その一般的なジョイントトラッキングとセグメンテーションの定式化は、異なるジオメトリを持つ他の多くの問題に適用できる。

The mother machine is a popular microfluidic device that allows long-term time-lapse imaging of thousands of cells in parallel by microscopy. It has become a valuable tool for single-cell level quantitative analysis and characterization of many cellular processes such as gene expression and regulation, mutagenesis or response to antibiotics. The automated and quantitative analysis of the massive amount of data generated by such experiments is now the limiting step. In particular the segmentation and tracking of bacteria cells imaged in phase-contrast microscopy---with error rates compatible with high-throughput data---is a challenging problem. In this work, we describe a novel formulation of the multi-object tracking problem, in which tracking is performed by a regression of the bacteria's displacement, allowing simultaneous tracking of multiple bacteria, despite their growth and division over time. Our method performs jointly segmentation and tracking, leveraging sequential information to increase segmentation accuracy. We introduce a Deep Neural Network architecture taking advantage of a self-attention mechanism which yields extremely low tracking error rate and segmentation error rate. We demonstrate superior performance and speed compared to state-of-the-art methods. Our method is named DiSTNet which stands for DISTance+DISplacement Segmentation and Tracking Network. While this method is particularly well suited for mother machine microscopy data, its general joint tracking and segmentation formulation could be applied to many other problems with different geometries.
翻訳日:2022-12-22 21:03:00 公開日:2020-09-19
# メタラーニングによるソースコードモデルのオンザフライ適応

On-the-Fly Adaptation of Source Code Models using Meta-Learning ( http://arxiv.org/abs/2003.11768v2 )

ライセンス: Link先を確認
Disha Shrivastava, Hugo Larochelle and Daniel Tarlow(参考訳) 見えないローカルコンテキストに適応する能力は、ソースコードの成功モデルが克服しなければならない重要な課題である。 このようなモデルの適応化に対する最も一般的なアプローチの1つは動的評価である。 動的評価では、未確認ファイルでモデルを実行すると、そのファイル内の各トークンを観察した直後にモデルが更新される。 本研究では,メタ学習問題としてコンテキスト適応の問題を枠組み化することを提案する。 我々は、欠落したトークンの予測を改善するために、ファイル内の情報から最も学習しやすいベースソースコードモデルをトレーニングすることを目指している。 動的評価とは異なり、この定式化により、ファイル内のターゲットホールの前と後の両方に、適応のためのより多くのターゲット情報(サポートトークン)を選択できる。 IDEにおけるコード自動補完のダウンストリームタスクを反映した、ラインレベルのメンテナンスと呼ばれる評価設定について検討する。 第一級 maml や reptile といったメタラーニングの最近の進歩を利用して、動的な評価を含む他の適応ベースラインと比較して、大規模な java github コーパスにおける実験におけるパフォーマンスの向上を実証する。 さらに,本研究では,非適応ベースラインと比較して,識別子とリテラルの性能をそれぞれ44 %,リテラルを15 %向上させた。

The ability to adapt to unseen, local contexts is an important challenge that successful models of source code must overcome. One of the most popular approaches for the adaptation of such models is dynamic evaluation. With dynamic evaluation, when running a model on an unseen file, the model is updated immediately after having observed each token in that file. In this work, we propose instead to frame the problem of context adaptation as a meta-learning problem. We aim to train a base source code model that is best able to learn from information in a file to deliver improved predictions of missing tokens. Unlike dynamic evaluation, this formulation allows us to select more targeted information (support tokens) for adaptation, that is both before and after a target hole in a file. We consider an evaluation setting that we call line-level maintenance, designed to reflect the downstream task of code auto-completion in an IDE. Leveraging recent developments in meta-learning such as first-order MAML and Reptile, we demonstrate improved performance in experiments on a large scale Java GitHub corpus, compared to other adaptation baselines including dynamic evaluation. Moreover, our analysis shows that, compared to a non-adaptive baseline, our approach improves performance on identifiers and literals by 44\% and 15\%, respectively.
翻訳日:2022-12-19 21:22:20 公開日:2020-09-19
# RNNアーキテクチャの形式的階層

A Formal Hierarchy of RNN Architectures ( http://arxiv.org/abs/2004.08500v4 )

ライセンス: Link先を確認
William Merrill and Gail Weiss and Yoav Goldberg and Roy Schwartz and Noah A. Smith and Eran Yahav(参考訳) 我々は,RNNアーキテクチャの表現能力の形式的階層を構築した。 階層構造は、RNNのメモリを測定する空間複雑性と、リカレント更新が重み付けされた有限状態マシンで記述できるかどうかという有理再帰という2つの形式的特性に基づいている。 我々はこの階層内にいくつかのRNN変種を配置する。 例えば、LSTMが合理的でないことを証明し、関連するQRNNと正式に分離する(Bradbury et al., 2016)。 また,複数のレイヤを積み重ねたり,異なるプール関数で構成することで,これらのモデルの表現能力を拡張する方法を示す。 この結果は, 飽和RNNの理論に基づくものである(Merrill, 2019)。 これらの発見を公式に不飽和RNNに拡張することは今後の研究に委ねられるが、不飽和RNNの実用的な学習能力は、同様の階層に従うと仮定する。 形式言語における不飽和ネットワークのトレーニングによる実験的発見はこの予想を支持している。

We develop a formal hierarchy of the expressive capacity of RNN architectures. The hierarchy is based on two formal properties: space complexity, which measures the RNN's memory, and rational recurrence, defined as whether the recurrent update can be described by a weighted finite-state machine. We place several RNN variants within this hierarchy. For example, we prove the LSTM is not rational, which formally separates it from the related QRNN (Bradbury et al., 2016). We also show how these models' expressive capacity is expanded by stacking multiple layers or composing them with different pooling functions. Our results build on the theory of "saturated" RNNs (Merrill, 2019). While formally extending these findings to unsaturated RNNs is left to future work, we hypothesize that the practical learnable capacity of unsaturated RNNs obeys a similar hierarchy. Experimental findings from training unsaturated networks on formal languages support this conjecture.
翻訳日:2022-12-12 05:45:43 公開日:2020-09-19
# ドットをつなぐ:コモンセンス質問応答のための知識可能なパス生成器

Connecting the Dots: A Knowledgeable Path Generator for Commonsense Question Answering ( http://arxiv.org/abs/2005.00691v2 )

ライセンス: Link先を確認
Peifeng Wang, Nanyun Peng, Filip Ilievski, Pedro Szekely, Xiang Ren(参考訳) commonsense question answering (qa) は、与えられた文脈で明示的に記述されていない背景知識を必要とする。 先行研究では、この知識を推論するためにコモンセンス知識グラフ(KG)を使用していた。 しかし、これらのkgに完全に依存することは、その範囲と知識の文脈依存を考慮すると十分ではないかもしれない。 本稿では,一般的な共通センスQAフレームワークを知識のある経路生成器で拡張する。 kg内の既存のパスを最先端言語モデルで推定することで、テキスト中の2つのエンティティを動的かつ潜在的に新しいマルチホップ関係パスと接続することを学びます。 このようなパスは、パスジェネレータを微調整することなく、常識的な問題を解くための構造化された証拠を提供することができる。 2つのデータセットにおける実験は、さまざまなトレーニングデータに対して、kgs(最大6%の精度向上)からの知識を十分に依存する、以前の作業よりも優れた方法を示している。 さらに評価すると、生成されたパスは一般的に解釈可能で、新規であり、そのタスクに関連があることが示唆される。

Commonsense question answering (QA) requires background knowledge which is not explicitly stated in a given context. Prior works use commonsense knowledge graphs (KGs) to obtain this knowledge for reasoning. However, relying entirely on these KGs may not suffice, considering their limited coverage and the contextual dependence of their knowledge. In this paper, we augment a general commonsense QA framework with a knowledgeable path generator. By extrapolating over existing paths in a KG with a state-of-the-art language model, our generator learns to connect a pair of entities in text with a dynamic, and potentially novel, multi-hop relational path. Such paths can provide structured evidence for solving commonsense questions without fine-tuning the path generator. Experiments on two datasets show the superiority of our method over previous works which fully rely on knowledge from KGs (with up to 6% improvement in accuracy), across various amounts of training data. Further evaluation suggests that the generated paths are typically interpretable, novel, and relevant to the task.
翻訳日:2022-12-07 11:39:50 公開日:2020-09-19
# Master-Auxiliary:ビデオ異常検出のための効率的な集約戦略

Master-Auxiliary: an efficient aggregation strategy for video anomaly detection ( http://arxiv.org/abs/2005.11645v2 )

ライセンス: Link先を確認
Zhiguo Wang, Zhongliang Yang, Yujin Zhang(参考訳) 監視ビデオ異常検出の目的は、特定のシーンでめったに発生しないイベントを検出することである。 一般に、異なる検出器は異なる異常を検出することができる。 本稿では,複数の検出器を集約する効率的な手法を提案する。 まず、集積戦略は経験により1つの検出器をマスター検出器として選択し、残りの検出器を補助検出器として設定する。 そして、集約戦略は、信頼できる異常(cred-a)フレームおよび信頼できる正常(cred-n)フレームを含む補助検出器から信頼できる情報を抽出する。 その後、各映像フレームをCred-a、Cred-nと判定する周波数をカウントする。 イベントの時間連続性を適用すると、より多くの cred-a と cred-n フレームが推測できる。 最後に、アグリゲーション戦略はCred-aとCred-nの周波数を使ってソフトウェイトを計算し、ソフトウェイトを使ってマスター検出器を補助する。 複数のデータセットで実験を行う。 既存の集約戦略と比較すると,提案手法は最先端のパフォーマンスを実現する。

The aim of surveillance video anomaly detection is to detect events that rarely or never happened in a certain scene. Generally, different detectors can detect different anomalies. This paper proposes an efficient strategy to aggregate multiple detectors. First, the aggregation strategy chooses one detector as master detector by experience, and sets the remaining detectors as auxiliary detectors. Then, the aggregation strategy extracts credible information from auxiliary detectors, including credible abnormal (Cred-a) frames and credible normal (Cred-n) frames. After that, the frequencies that each video frame being judged as Cred-a and Cred-n are counted. Applying the events' time continuity property, more Cred-a and Cred-n frames can be inferred. Finally, the aggregation strategy utilizes the Cred-a and Cred-n frequencies to vote to calculate soft weights, and uses the soft weights to assist the master detector. Experiments are carried out on multiple datasets. Comparing with existing aggregation strategies, the proposed strategy achieves state-of-the-art performance.
翻訳日:2022-11-29 13:51:11 公開日:2020-09-19
# 規則化するか、規則化しないか? 正規化AEにおけるバイアス変動トレードオフ

To Regularize or Not To Regularize? The Bias Variance Trade-off in Regularized AEs ( http://arxiv.org/abs/2006.05838v2 )

ライセンス: Link先を確認
Arnab Kumar Mondal, Himanshu Asnani, Parag Singla, Prathosh AP(参考訳) 正規化オートエンコーダ(RAE)は、神経生成モデルの豊富なクラスを形成する。 彼らは、エンコーダとデコーダの組み合わせを用いて、データと潜在空間のジョイント分配を効果的にモデル化し、潜在空間に先行して規則化を課す。 訓練における安定性などの利点にもかかわらず、AEベースのモデルの性能はジェネレーティブ・アドバイサル・ネットワーク(GAN)のような他の生成モデルよりも優れている水準に達していない。 そこで本論文では,本論文における決定論的aeモデルの生成品質に及ぼす潜在性の影響について検討する。 具体的には、決定論的エンコーダ-デコーダ対(Wasserstein Auto-Encoder (WAE))を持つRAEのクラスを考察し、固定された事前分布である 'textit{a priori} を持つことは、'true' 潜在空間の次元性によらず、考慮された最適化問題の可能性をもたらすことを示す。 さらに, 有限データ構造において, 正の潜伏次元を知りながら, 任意の事前仮定によるバイアス分散トレードオフが存在することを示す。 上記の2つの問題に対する修正として、waesの最適化目的において、柔軟に学習可能な潜在前処理という形で追加の状態空間を導入する。 我々は,学習目標を実現するだけでなく,バイアス分散曲線の異なる点での操作を容易にするために,ae訓練と共同で潜在前駆者の分布を暗黙的に学習する。 複数のデータセットに対する実験を通じてFlexAEと呼ばれるモデルの有効性を示し、AEベースの生成モデルのための新しい最先端技術であることを示す。

Regularized Auto-Encoders (RAEs) form a rich class of neural generative models. They effectively model the joint-distribution between the data and the latent space using an Encoder-Decoder combination, with regularization imposed in terms of a prior over the latent space. Despite their advantages, such as stability in training, the performance of AE based models has not reached the superior standards as that of the other generative models such as Generative Adversarial Networks (GANs). Motivated by this, we examine the effect of the latent prior on the generation quality of deterministic AE models in this paper. Specifically, we consider the class of RAEs with deterministic Encoder-Decoder pairs, Wasserstein Auto-Encoders (WAE), and show that having a fixed prior distribution, \textit{a priori}, oblivious to the dimensionality of the `true' latent space, will lead to the infeasibility of the optimization problem considered. Further, we show that, in the finite data regime, despite knowing the correct latent dimensionality, there exists a bias-variance trade-off with any arbitrary prior imposition. As a remedy to both the issues mentioned above, we introduce an additional state space in the form of flexibly learnable latent priors, in the optimization objective of the WAEs. We implicitly learn the distribution of the latent prior jointly with the AE training, which not only makes the learning objective feasible but also facilitates operation on different points of the bias-variance curve. We show the efficacy of our model, called FlexAE, through several experiments on multiple datasets, and demonstrate that it is the new state-of-the-art for the AE based generative models.
翻訳日:2022-11-23 04:13:29 公開日:2020-09-19
# 顔形態攻撃に対する加齢の影響について:脆弱性と検出

On the Influence of Ageing on Face Morph Attacks: Vulnerability and Detection ( http://arxiv.org/abs/2007.02684v2 )

ライセンス: Link先を確認
Sushma Venkatesh, Kiran Raja, Raghavendra Ramachandra, Christoph Busch(参考訳) 顔モーフィング攻撃は、境界制御アプリケーションに広くデプロイされている顔認識システム(FRS)の新たな脆弱性を示すため、重大な懸念を引き起こしている。 顔形態形成プロセスは、複数のデータ被写体からの画像を使用し、画像混合操作を行い、高品質な形態画像を生成する。 生成した形態画像は、合成画像に寄与するデータ対象の生体特性に類似した視覚特性を示し、人間とFRSの両方がそのような攻撃を検出するのを困難にしている。 本稿では,老化の影響下での変形画像に対するcots(commercial-off-the-shelf)frsの脆弱性について体系的に検討する。 そこで我々は,MorphAgeデータセットと呼ぶ,MORPH II顔データセットから得られた年齢変化を考慮した新しい形態付き顔データセットを導入した。 データセットには、年齢間隔に基づく2つのビンがあり、最初のbin - morphage-iデータセットは、年齢変化が1年から2年の1002のユニークなデータセットを持ち、morphage-iiデータセットは、年齢間隔が2年から5年の516のデータセットで構成されている。 モーフィング攻撃の脆弱性を効果的に評価するために、現実的なシナリオにおいてその脆弱性を効果的に定量化するために、新しい評価指標であるFMMPMR(Fully Mated Morphed Presentation Match Rate)を導入する。 2つの異なるCOTS FRS(COTS I - Cognitec と COTS II - Neurotechnology)を用いて、脆弱性を加齢とともに定量化する。 さらに,5種類のMorph Detection Detection (MAD) 技術を評価し,その検出性能を加齢とともに評価した。

Face morphing attacks have raised critical concerns as they demonstrate a new vulnerability of Face Recognition Systems (FRS), which are widely deployed in border control applications. The face morphing process uses the images from multiple data subjects and performs an image blending operation to generate a morphed image of high quality. The generated morphed image exhibits similar visual characteristics corresponding to the biometric characteristics of the data subjects that contributed to the composite image and thus making it difficult for both humans and FRS, to detect such attacks. In this paper, we report a systematic investigation on the vulnerability of the Commercial-Off-The-Shelf (COTS) FRS when morphed images under the influence of ageing are presented. To this extent, we have introduced a new morphed face dataset with ageing derived from the publicly available MORPH II face dataset, which we refer to as MorphAge dataset. The dataset has two bins based on age intervals, the first bin - MorphAge-I dataset has 1002 unique data subjects with the age variation of 1 year to 2 years while the MorphAge-II dataset consists of 516 data subjects whose age intervals are from 2 years to 5 years. To effectively evaluate the vulnerability for morphing attacks, we also introduce a new evaluation metric, namely the Fully Mated Morphed Presentation Match Rate (FMMPMR), to quantify the vulnerability effectively in a realistic scenario. Extensive experiments are carried out by using two different COTS FRS (COTS I - Cognitec and COTS II - Neurotechnology) to quantify the vulnerability with ageing. Further, we also evaluate five different Morph Attack Detection (MAD) techniques to benchmark their detection performance with ageing.
翻訳日:2022-11-13 03:20:33 公開日:2020-09-19
# 解釈及び促進のための規則被覆

Rule Covering for Interpretation and Boosting ( http://arxiv.org/abs/2007.06379v2 )

ライセンス: Link先を確認
S. Ilker Birbil, Mert Edali, Birol Yuceoglu(参考訳) 木に基づくアンサンブル手法の解釈と促進のための2つのアルゴリズムを提案する。 どちらのアルゴリズムも、決定木の集合から抽出された一連の規則で構築された数学的プログラミングモデルを利用する。 目的は、すべてのサンプルをカバーする最小限のルールで最小限の総不純物を得ることである。 最初のアルゴリズムは、訓練されたランダムな森林モデルから得られる決定木を収集する。 その結果,提案手法はランダム林モデル解釈に使用可能なルールをほんの数個だけ選択できることがわかった。 さらに、結果のルールセットはランダム森林モデルの精度レベルと密接に一致している。 線形プログラミングにおける列生成アルゴリズムに着想を得た第2のアルゴリズムは,ルール生成方式を用いて決定木を増強する。 線形プログラミングモデルの双対最適解を標本重みとして用いて、精度を向上させるような規則のみを得る。 計算研究により,2番目のアルゴリズムは,他のよく知られたブースティング手法と競合して動作することがわかった。 我々の実装はまた、両方のアルゴリズムが既存のランダムフォレストと決定木パッケージと自明に結合可能であることも示している。

We propose two algorithms for interpretation and boosting of tree-based ensemble methods. Both algorithms make use of mathematical programming models that are constructed with a set of rules extracted from an ensemble of decision trees. The objective is to obtain the minimum total impurity with the least number of rules that cover all the samples. The first algorithm uses the collection of decision trees obtained from a trained random forest model. Our numerical results show that the proposed rule covering approach selects only a few rules that could be used for interpreting the random forest model. Moreover, the resulting set of rules closely matches the accuracy level of the random forest model. Inspired by the column generation algorithm in linear programming, our second algorithm uses a rule generation scheme for boosting decision trees. We use the dual optimal solutions of the linear programming models as sample weights to obtain only those rules that would improve the accuracy. With a computational study, we observe that our second algorithm performs competitively with the other well-known boosting methods. Our implementations also demonstrate that both algorithms can be trivially coupled with the existing random forest and decision tree packages.
翻訳日:2022-11-10 22:56:08 公開日:2020-09-19
# ディープネットワークの早期停止:二重降下と排除方法

Early Stopping in Deep Networks: Double Descent and How to Eliminate it ( http://arxiv.org/abs/2007.10099v2 )

ライセンス: Link先を確認
Reinhard Heckel and Fatih Furkan Yilmaz(参考訳) 大きな深層ネットワークのような過度パラメータ化されたモデルはしばしば二重降下現象を示すが、モデルサイズ、エラーの最初の関数は減少し、最後に減少する。 この興味深い二重降下行動は、トレーニング時代の機能としても起こり、トレーニング時代がモデルの複雑さを制御するために生じると推測されている。 本稿では, ネットワークの異なる部分が異なるエポックで学習されることから生じる2つ以上のバイアス分散トレードオフの重畳が原因であり, ステップサイズを適切にスケールすることでこれを排除することで, 早期停止性能を著しく向上させることができることを示す。 これを分析的に示す 一 異なるスケールされた特徴がバイアス分散トレードオフの重なりを生じさせる線形回帰 二 第一層及び第二層がそれぞれバイアス分散トレードオフを管理する二層ニューラルネットワーク。 この理論に触発されて、2つの標準畳み込みネットワークを実証的に研究し、異なる層の段差調整によるエポックな二重降下の除去が早期停止性能を著しく向上させることを示した。

Over-parameterized models, such as large deep networks, often exhibit a double descent phenomenon, whereas a function of model size, error first decreases, increases, and decreases at last. This intriguing double descent behavior also occurs as a function of training epochs and has been conjectured to arise because training epochs control the model complexity. In this paper, we show that such epoch-wise double descent arises for a different reason: It is caused by a superposition of two or more bias-variance tradeoffs that arise because different parts of the network are learned at different epochs, and eliminating this by proper scaling of stepsizes can significantly improve the early stopping performance. We show this analytically for i) linear regression, where differently scaled features give rise to a superposition of bias-variance tradeoffs, and for ii) a two-layer neural network, where the first and second layer each govern a bias-variance tradeoff. Inspired by this theory, we study two standard convolutional networks empirically and show that eliminating epoch-wise double descent through adjusting stepsizes of different layers improves the early stopping performance significantly.
翻訳日:2022-11-08 12:46:44 公開日:2020-09-19
# ContentWise Impressions: 印象を含む産業データセット

ContentWise Impressions: An Industrial Dataset with Impressions Included ( http://arxiv.org/abs/2008.01212v2 )

ライセンス: Link先を確認
Fernando Benjam\'in P\'erez Maurera, Maurizio Ferrari Dacrema, Lorenzo Saule, Mario Scriminaci, Paolo Cremonesi(参考訳) 本稿では,インターネット上でメディアコンテンツを配信するOver-The-Topメディアサービスから,映画とテレビシリーズの暗黙のインタラクションと印象の集合であるContentWise Impressionsデータセットを紹介する。 データセットは、インプレッションの可用性、すなわち、ユーザに提示されるレコメンデーション、サイズ、そしてオープンソースであることによって、すでに利用可能な他のマルチメディアレコメンデーションデータセットと区別される。 本稿では,データ収集プロセス,前処理の適用状況,特徴,統計を,他の一般的なデータセットと比較した場合に述べる。 また、オープンソースデータセットにおけるユーザインプレッションの可用性から恩恵を受けることができるいくつかのユースケースと研究の質問についても強調する。 さらに、データをロードして分割するソフトウェアツールや、ユーザインタラクションとインプレッションの両方を複数の一般的な推奨アルゴリズムで使用する方法の例もリリースしています。

In this article, we introduce the ContentWise Impressions dataset, a collection of implicit interactions and impressions of movies and TV series from an Over-The-Top media service, which delivers its media contents over the Internet. The dataset is distinguished from other already available multimedia recommendation datasets by the availability of impressions, i.e., the recommendations shown to the user, its size, and by being open-source. We describe the data collection process, the preprocessing applied, its characteristics, and statistics when compared to other commonly used datasets. We also highlight several possible use cases and research questions that can benefit from the availability of user impressions in an open-source dataset. Furthermore, we release software tools to load and split the data, as well as examples of how to use both user interactions and impressions in several common recommendation algorithms.
翻訳日:2022-11-03 07:16:11 公開日:2020-09-19
# 新たなTwitterデータセットを用いた新型コロナウイルスの誤報コミュニティの特徴

Characterizing COVID-19 Misinformation Communities Using a Novel Twitter Dataset ( http://arxiv.org/abs/2008.00791v4 )

ライセンス: Link先を確認
Shahan Ali Memon and Kathleen M. Carley(参考訳) 陰謀説から偽の治療法や偽の治療法まで、新型コロナウイルスはオンラインで偽情報の拡散の温床となっている。 オンラインで偽情報を解読し、訂正する方法を特定することは、これまで以上に重要である。 本稿では、競合する2つの誤報コミュニティをオンライン化するための方法論と分析について述べる。 (i)誤報を積極的に投稿している誤報ユーザ又はユーザ (二)真情報を積極的に広めているユーザ、又は誤情報を発信しているユーザ。 この研究の目標は2つある。 (i)研究コミュニティが有意義な分析を行うために使用できる、様々な注釈付きtwitterデータセットを収集すること。 (2)ネットワーク構造,言語パターン,および他のコミュニティのメンバシップの観点から,対象とする2つのコミュニティを特徴付ける。 分析の結果, 誤情報コミュニティは情報コミュニティよりも密集し, 組織化され, 偽情報の量が多い可能性が示唆された。 私たちの分析では、誤用されたユーザーの大多数が反vaxxersである可能性も示唆しています。 最後に、社会言語学的な分析から、covid-19インフォームドユーザの方が、誤ったユーザよりも物語を使う傾向が示されている。

From conspiracy theories to fake cures and fake treatments, COVID-19 has become a hot-bed for the spread of misinformation online. It is more important than ever to identify methods to debunk and correct false information online. In this paper, we present a methodology and analyses to characterize the two competing COVID-19 misinformation communities online: (i) misinformed users or users who are actively posting misinformation, and (ii) informed users or users who are actively spreading true information, or calling out misinformation. The goals of this study are two-fold: (i) collecting a diverse set of annotated COVID-19 Twitter dataset that can be used by the research community to conduct meaningful analysis; and (ii) characterizing the two target communities in terms of their network structure, linguistic patterns, and their membership in other communities. Our analyses show that COVID-19 misinformed communities are denser, and more organized than informed communities, with a possibility of a high volume of the misinformation being part of disinformation campaigns. Our analyses also suggest that a large majority of misinformed users may be anti-vaxxers. Finally, our sociolinguistic analyses suggest that COVID-19 informed users tend to use more narratives than misinformed users.
翻訳日:2022-11-03 07:00:15 公開日:2020-09-19
# 大規模映像データを用いたASRシステムの構築

Weakly Supervised Construction of ASR Systems with Massive Video Data ( http://arxiv.org/abs/2008.01300v2 )

ライセンス: Link先を確認
Mengli Cheng, Chengyu Wang, Xu Hu, Jun Huang, Xiaobo Wang(参考訳) スクラッチから自動音声認識(ASR)システムを構築することは、主に大量の音声データを書き起こしで注釈付けする時間と費用がかかるため、非常に困難である。 いくつかの教師なし事前学習モデルが提案されているが、そのようなモデルを直接適用することは、より多くのラベルが付けられれば、大きなコストなしでトレーニングデータを得ることができる。 本稿では,大規模ビデオデータを用いたASRシステム構築のための弱教師付きフレームワークを提案する。 ビデオは字幕に合わせた人間の音声を含むことが多いため,映像を重要な知識源とみなし,光学文字認識(OCR)に基づく映像から高品質な音声を抽出する効果的な手法を提案する。 基礎となるASRモデルは、弱い教師付き事前トレーニングの後、ドメイン固有のターゲットトレーニングデータセットに適合するように微調整することができる。 広範な実験により,マンダリン音声認識のための6つの公開データセットに対して,最新の結果を容易に生成できることを示した。

Building Automatic Speech Recognition (ASR) systems from scratch is significantly challenging, mostly due to the time-consuming and financially-expensive process of annotating a large amount of audio data with transcripts. Although several unsupervised pre-training models have been proposed, applying such models directly might still be sub-optimal if more labeled, training data could be obtained without a large cost. In this paper, we present a weakly supervised framework for constructing ASR systems with massive video data. As videos often contain human-speech audios aligned with subtitles, we consider videos as an important knowledge source, and propose an effective approach to extract high-quality audios aligned with transcripts from videos based on Optical Character Recognition (OCR). The underlying ASR model can be fine-tuned to fit any domain-specific target training datasets after weakly supervised pre-training. Extensive experiments show that our framework can easily produce state-of-the-art results on six public datasets for Mandarin speech recognition.
翻訳日:2022-11-02 23:49:14 公開日:2020-09-19
# 単一ソース深部教師なしビジュアルドメイン適応の検討

A Review of Single-Source Deep Unsupervised Visual Domain Adaptation ( http://arxiv.org/abs/2009.00155v3 )

ライセンス: Link先を確認
Sicheng Zhao, Xiangyu Yue, Shanghang Zhang, Bo Li, Han Zhao, Bichen Wu, Ravi Krishna, Joseph E. Gonzalez, Alberto L. Sangiovanni-Vincentelli, Sanjit A. Seshia, Kurt Keutzer(参考訳) 大規模ラベル付きトレーニングデータセットによって、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクで優れている。 しかし、多くのアプリケーションでは、大量のラベル付きデータを取得するのに費用がかかり、時間がかかる。 限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている。 残念ながら、ドメイン間の直接転送は、ドメインシフトやデータセットバイアスがあるため、しばしばパフォーマンスが悪くなります。 ドメイン適応(Domain adapt)は、異なる(しかし関連する)ターゲットドメインでうまく機能するソースドメインからモデルを学習することを目的とした機械学習パラダイムである。 本稿では,視覚タスクに焦点をあてた最新の単一ソース深層教師なしドメイン適応手法を概観し,今後の研究に向けた新たな視点について考察する。 まず、異なるドメイン適応戦略の定義と既存のベンチマークデータセットの記述から始める。 次に, 離散性に基づく手法, 逆判別法, 逆生成法, 自己スーパービジョンに基づく手法など, 単元非教師なしドメイン適応法の異なるカテゴリを要約, 比較する。 最後に,今後の研究の方向性を課題と可能な解決策で論じる。

Large-scale labeled training datasets have enabled deep neural networks to excel across a wide range of benchmark vision tasks. However, in many applications, it is prohibitively expensive and time-consuming to obtain large quantities of labeled data. To cope with limited labeled training data, many have attempted to directly apply models trained on a large-scale labeled source domain to another sparsely labeled or unlabeled target domain. Unfortunately, direct transfer across domains often performs poorly due to the presence of domain shift or dataset bias. Domain adaptation is a machine learning paradigm that aims to learn a model from a source domain that can perform well on a different (but related) target domain. In this paper, we review the latest single-source deep unsupervised domain adaptation methods focused on visual tasks and discuss new perspectives for future research. We begin with the definitions of different domain adaptation strategies and the descriptions of existing benchmark datasets. We then summarize and compare different categories of single-source unsupervised domain adaptation methods, including discrepancy-based methods, adversarial discriminative methods, adversarial generative methods, and self-supervision-based methods. Finally, we discuss future research directions with challenges and possible solutions.
翻訳日:2022-10-23 01:02:58 公開日:2020-09-19
# covid-transformer:ユニバーサル文エンコーダを用いたtwitter上のcovid-19トレンドトピックの検出

Covid-Transformer: Detecting COVID-19 Trending Topics on Twitter Using Universal Sentence Encoder ( http://arxiv.org/abs/2009.03947v3 )

ライセンス: Link先を確認
Meysam Asgari-Chenaghlu, Narjes Nikzad-Khasmakhi, Shervin Minaee(参考訳) 新型コロナウイルス(covid-19)はパンデミックにつながり、世界200カ国以上に影響を及ぼしている。 世界的な影響により、covid-19はほとんど至るところで人々の大きな関心事となっているため、covid-19関連のトピックについて、世界中から大量のツイートが寄せられている。 この研究では、ツイートを分析し、トレンドトピックやTwitter上の人々の大きな関心事を検出することで、状況をよりよく理解し、より良い計画を立てることができます。 より具体的には、最近のツイートのメイントピックを検出するユニバーサル・センテンス・エンコーダに基づくモデルを提案する。 ツイートの意味表現と類似性を導出するために,普遍文エンコーダを用いた。 その後、文の類似性と埋め込みを使い、k-meansクラスタリングアルゴリズムにフィードし、類似したツイートをグループ化する(意味的に)。 その後、ディープラーニングに基づくテキスト要約アルゴリズムを使用してクラスタサマリーを取得し、各クラスタの基盤となるトピックを明らかにする。 実験結果から,本モデルでは,大量のツイートを文レベルで処理することで,非常に有意義なトピックを検出できることを示した。 このフレームワークは特定のデータ分布に制限がないため、covid-19ではなく、他のソーシャルメディアや他のコンテキストからトレンドトピックを検出するために使用できる。 実験の結果,TF-IDFや潜在ディリクレ割り当て(LDA)など,他のベースラインに対する提案手法の優位性が確認された。

The novel corona-virus disease (also known as COVID-19) has led to a pandemic, impacting more than 200 countries across the globe. With its global impact, COVID-19 has become a major concern of people almost everywhere, and therefore there are a large number of tweets coming out from every corner of the world, about COVID-19 related topics. In this work, we try to analyze the tweets and detect the trending topics and major concerns of people on Twitter, which can enable us to better understand the situation, and devise better planning. More specifically we propose a model based on the universal sentence encoder to detect the main topics of Tweets in recent months. We used universal sentence encoder in order to derive the semantic representation and the similarity of tweets. We then used the sentence similarity and their embeddings, and feed them to K-means clustering algorithm to group similar tweets (in semantic sense). After that, the cluster summary is obtained using a text summarization algorithm based on deep learning, which can uncover the underlying topics of each cluster. Through experimental results, we show that our model can detect very informative topics, by processing a large number of tweets on sentence level (which can preserve the overall meaning of the tweets). Since this framework has no restriction on specific data distribution, it can be used to detect trending topics from any other social media and any other context rather than COVID-19. Experimental results show superiority of our proposed approach to other baselines, including TF-IDF, and latent Dirichlet allocation (LDA).
翻訳日:2022-10-20 20:38:41 公開日:2020-09-19
# 文書分類のためのケースドセマンティック・位置自己認識ネットワーク

Cascaded Semantic and Positional Self-Attention Network for Document Classification ( http://arxiv.org/abs/2009.07148v2 )

ライセンス: Link先を確認
Juyong Jiang, Jie Zhang, Kai Zhang(参考訳) トランスフォーマーは言語モデリングのための学習表現において大きな成功を収めている。 しかし、意味情報(単語埋め込み)を位置(または時間的)情報(単語順)で体系的に集約する方法には、まだ課題が残されている。 本研究では、文書分類の文脈において、カスケード意味と位置自己注意ネットワーク(CSPAN)を用いて2つの情報ソースを集約する新しいアーキテクチャを提案する。 CSPANは、Bi-LSTMにカスケードされたセマンティック自己認識層を使用して、セマンティックおよび位置情報を逐次的に処理し、残余接続を介してそれらを適応的に結合する。 一般的な位置符号化方式と比較して、cspanは意味論と単語の位置の相互作用をより解釈可能かつ適応的に活用でき、コンパクトなモデルサイズと高い収束率を同時に保持しながら分類性能を著しく向上させることができる。 文書分類のためのベンチマークデータセットのcspanモデルについて, 注意深いアブレーション研究を用いて評価し, 研究結果と比較し, 奨励効果を示す。

Transformers have shown great success in learning representations for language modelling. However, an open challenge still remains on how to systematically aggregate semantic information (word embedding) with positional (or temporal) information (word orders). In this work, we propose a new architecture to aggregate the two sources of information using cascaded semantic and positional self-attention network (CSPAN) in the context of document classification. The CSPAN uses a semantic self-attention layer cascaded with Bi-LSTM to process the semantic and positional information in a sequential manner, and then adaptively combine them together through a residue connection. Compared with commonly used positional encoding schemes, CSPAN can exploit the interaction between semantics and word positions in a more interpretable and adaptive manner, and the classification performance can be notably improved while simultaneously preserving a compact model size and high convergence rate. We evaluate the CSPAN model on several benchmark data sets for document classification with careful ablation studies, and demonstrate the encouraging results compared with state of the art.
翻訳日:2022-10-18 06:06:21 公開日:2020-09-19
# グラフベース半教師付き学習のためのコントラストおよび生成グラフ畳み込みネットワーク

Contrastive and Generative Graph Convolutional Networks for Graph-based Semi-Supervised Learning ( http://arxiv.org/abs/2009.07111v2 )

ライセンス: Link先を確認
Sheng Wan and Shirui Pan and Jian Yang and Chen Gong(参考訳) グラフベースのSemi-Supervised Learning (SSL)は、少数のラベル付きデータのラベルをグラフ経由で残りの巨大なラベル付きデータに転送することを目的としている。 最も人気のあるグラフベースのsslアプローチの1つとして、最近提案されたグラフ畳み込みネットワーク(gcns)は、ニューラルネットワークの表現力とグラフ構造を組み合わせることで、著しく進歩している。 それでも、既存のグラフベースの手法はSSLの中核的な問題、すなわち監督の欠如に直接対処しないため、その性能は依然として非常に限られている。 本稿では,GCNに基づく新しいSSLアルゴリズムを提案し,データ類似性とグラフ構造を両立させて監視信号を強化する。 まず、半教師付きコントラスト損失を設計することにより、同一データの異なるビューまたは同じクラスのデータ間の一致を最大化することで、改善されたノード表現を生成することができる。 したがって、豊富なラベル付きデータと、あまり価値のないラベル付きデータは、識別ノード表現を学習するための豊富な監視情報を共同で提供し、その後の分類結果の改善に役立つ。 次に、入力特徴に関するグラフ生成損失を用いて、データ特徴と入力グラフトポロジの根底にある決定的関係をSSLの補助的な監視信号として抽出する。 様々な実世界のデータセットにおける集中的な実験結果は、他の最先端手法と比較して、アルゴリズムの有効性を確証している。

Graph-based Semi-Supervised Learning (SSL) aims to transfer the labels of a handful of labeled data to the remaining massive unlabeled data via a graph. As one of the most popular graph-based SSL approaches, the recently proposed Graph Convolutional Networks (GCNs) have gained remarkable progress by combining the sound expressiveness of neural networks with graph structure. Nevertheless, the existing graph-based methods do not directly address the core problem of SSL, i.e., the shortage of supervision, and thus their performances are still very limited. To accommodate this issue, a novel GCN-based SSL algorithm is presented in this paper to enrich the supervision signals by utilizing both data similarities and graph structure. Firstly, by designing a semi-supervised contrastive loss, improved node representations can be generated via maximizing the agreement between different views of the same data or the data from the same class. Therefore, the rich unlabeled data and the scarce yet valuable labeled data can jointly provide abundant supervision information for learning discriminative node representations, which helps improve the subsequent classification result. Secondly, the underlying determinative relationship between the data features and input graph topology is extracted as supplementary supervision signals for SSL via using a graph generative loss related to the input features. Intensive experimental results on a variety of real-world datasets firmly verify the effectiveness of our algorithm compared with other state-of-the-art methods.
翻訳日:2022-10-18 05:40:57 公開日:2020-09-19
# 決定論的シミュレーションにおけるロコモーション課題に対するMAP-Elitesの競合性

Competitiveness of MAP-Elites against Proximal Policy Optimization on locomotion tasks in deterministic simulations ( http://arxiv.org/abs/2009.08438v2 )

ライセンス: Link先を確認
Szymon Brych and Antoine Cully(参考訳) ロボットと自動化の重要性の高まりは、進化的アルゴリズム(EA)や強化学習(RL)といった様々なアプローチを通じて得られる学習可能なコントローラの需要を生み出します。 残念ながら、これらの2種類のアルゴリズムは主に独立して開発されており、現代のEAと深いRLアルゴリズムを比較する研究はごくわずかである。 擬似六足歩行ロボットの移動制御系生成におけるPPO (Proximal Policy Optimization) は, 最新のEAである多次元表現型エリートアーカイブ (MAP-Elites) により, 最先端のRL法よりも優れた性能を実現することができることを示す。 さらに、広範なハイパーパラメータチューニングにより、MAP-エリートは種子とハイパーパラメータセット間でより堅牢性を示す。 本稿では、EAと現代の計算資源を組み合わせることで、期待できる特性を示し、制御学習の最先端に貢献する可能性を実証する。

The increasing importance of robots and automation creates a demand for learnable controllers which can be obtained through various approaches such as Evolutionary Algorithms (EAs) or Reinforcement Learning (RL). Unfortunately, these two families of algorithms have mainly developed independently and there are only a few works comparing modern EAs with deep RL algorithms. We show that Multidimensional Archive of Phenotypic Elites (MAP-Elites), which is a modern EA, can deliver better-performing solutions than one of the state-of-the-art RL methods, Proximal Policy Optimization (PPO) in the generation of locomotion controllers for a simulated hexapod robot. Additionally, extensive hyper-parameter tuning shows that MAP-Elites displays greater robustness across seeds and hyper-parameter sets. Generally, this paper demonstrates that EAs combined with modern computational resources display promising characteristics and have the potential to contribute to the state-of-the-art in controller learning.
翻訳日:2022-10-17 11:40:44 公開日:2020-09-19
# 第36回論理プログラミング国際会議(技術通信)

Proceedings 36th International Conference on Logic Programming (Technical Communications) ( http://arxiv.org/abs/2009.09158v1 )

ライセンス: Link先を確認
Francesco Ricca (University of Calabria), Alessandra Russo (Imperial College London), Sergio Greco (University of Calabria), Nicola Leone (University of Calabria), Alexander Artikis (University of Piraeus), Gerhard Friedrich (Universit\"at Klagenfurt), Paul Fodor (Stony Brook University), Angelika Kimmig (Cardiff University), Francesca Lisi (University of Bari Aldo Moro), Marco Maratea (University of Genova), Alessandra Mileo (INSIGHT Centre for Data Analytics), Fabrizio Riguzzi (Universit\`a di Ferrara)(参考訳) 1982年にマルセイユで開かれた最初の会議以来、ICLPは論理プログラミングの研究を示す主要な国際イベントとなっている。 基礎: 意味論、形式主義、回答集合プログラミング、非単調な推論、知識表現。 - 宣言型プログラミング:推論エンジン、分析、型およびモード推論、部分的評価、抽象解釈、変換、検証、検証、デバッグ、プロファイリング、テスト、ロジックベースのドメイン固有言語、制約処理ルール。 関連パラダイムとシナジー:帰納的および共帰的論理プログラミング、制約論理プログラミング、sat、smtおよびcspソルバとの相互作用、型推論および定理証明のための論理プログラミング技術、議論、確率的論理プログラミング、オブジェクト指向および関数型プログラミングとの関係、記述論理、ニューラルシンボリック機械学習、ハイブリッドディープラーニング、シンボリック推論。 -実装:並行性と分散、オブジェクト、コーディネーション、モビリティ、仮想マシン、コンパイル、高次システム、タイプシステム、モジュール、制約処理ルール、メタプログラミング、外部インターフェース、ユーザインターフェース。 -応用:データベース、ビッグデータ、データ統合とフェデレーション、ソフトウェア工学、自然言語処理、Webおよびセマンティックウェブ、エージェント、人工知能、バイオインフォマティクス、教育、計算生命科学、教育、サイバーセキュリティ、ロボティクス。

Since the first conference held in Marseille in 1982, ICLP has been the premier international event for presenting research in logic programming. Contributions are solicited in all areas of logic programming and related areas, including but not restricted to: - Foundations: Semantics, Formalisms, Answer-Set Programming, Non-monotonic Reasoning, Knowledge Representation. - Declarative Programming: Inference engines, Analysis, Type and mode inference, Partial evaluation, Abstract interpretation, Transformation, Validation, Verification, Debugging, Profiling, Testing, Logic-based domain-specific languages, constraint handling rules. - Related Paradigms and Synergies: Inductive and Co-inductive Logic Programming, Constraint Logic Programming, Interaction with SAT, SMT and CSP solvers, Logic programming techniques for type inference and theorem proving, Argumentation, Probabilistic Logic Programming, Relations to object-oriented and Functional programming, Description logics, Neural-Symbolic Machine Learning, Hybrid Deep Learning and Symbolic Reasoning. - Implementation: Concurrency and distribution, Objects, Coordination, Mobility, Virtual machines, Compilation, Higher Order, Type systems, Modules, Constraint handling rules, Meta-programming, Foreign interfaces, User interfaces. - Applications: Databases, Big Data, Data Integration and Federation, Software Engineering, Natural Language Processing, Web and Semantic Web, Agents, Artificial Intelligence, Bioinformatics, Education, Computational life sciences, Education, Cybersecurity, and Robotics.
翻訳日:2022-10-16 21:47:23 公開日:2020-09-19
# 支配集合の組合せ最適化について(文学調査,新モデル)

On combinatorial optimization for dominating sets (literature survey, new models) ( http://arxiv.org/abs/2009.09288v1 )

ライセンス: Link先を確認
Mark Sh. Levin(参考訳) 本稿は,連結支配集合問題(基本問題と多重基準問題)のいくつかのバージョンに焦点をあてる。 基礎的問題定式化と解法に関する文献調査を行った。 簡素な数値例によって, 基本連結支配集合問題を示す。 集合問題(マルチセット推定)を支配できる新しい整数計画法を提案する。

The paper focuses on some versions of connected dominating set problems: basic problems and multicriteria problems. A literature survey on basic problem formulations and solving approaches is presented. The basic connected dominating set problems are illustrated by simplifyed numerical examples. New integer programming formulations of dominating set problems (with multiset estimates) are suggested.
翻訳日:2022-10-16 21:46:43 公開日:2020-09-19
# ML技術を用いたCOVID-19パンデミックの悪性URLの検出

Detecting Malicious URLs of COVID-19 Pandemic using ML technologies ( http://arxiv.org/abs/2009.09224v1 )

ライセンス: Link先を確認
Jamil Ispahany and Rafiqul Islam(参考訳) 新型コロナウイルス(COVID-19)の流行を通じて、悪意のある攻撃がこれまで以上に広まり、被害を受けてきた。 悪意のある侵入者は、最近行われた多くのサイバー犯罪に責任を持ち、アイデンティティやip盗難、金融犯罪、重要なインフラへのサイバー攻撃など、多くのサイバー脅威の原因となっている。 機械学習(ML)は、多くの高度に複雑で洗練された現実世界の問題を解くことで、過去10年間に目立った研究分野として証明されてきた。 本稿では、現在ITユーザにとって脅威となっている新型コロナウイルスのパンデミックにより、悪意のあるURLの増加を検出するMLベースの分類手法を提案する。 我々は、大量のオープンソースデータを使用し、開発したツールを使って特徴ベクトルを生成する前処理を行い、包括的に悪意のある脅威重みを使ってMLモデルを訓練しました。 私たちのMLモデルは、新型コロナウイルスのURLの脅威要因を予測するために、エントロピーなしでテストされています。 この実証的な証拠は、私たちの手法が、攻撃ライフサイクルの初期にcovid-19関連の脅威を軽減するための有望なメカニズムであることを証明しています。

Throughout the COVID-19 outbreak, malicious attacks have become more pervasive and damaging than ever. Malicious intruders have been responsible for most cybercrimes committed recently and are the cause for a growing number of cyber threats, including identity and IP thefts, financial crimes, and cyber-attacks to critical infrastructures. Machine learning (ML) has proven itself as a prominent field of study over the past decade by solving many highly complex and sophisticated real-world problems. This paper proposes an ML-based classification technique to detect the growing number of malicious URLs, due to the COVID-19 pandemic, which is currently considered a threat to IT users. We have used a large volume of Open Source data and preprocessed it using our developed tool to generate feature vectors and we trained the ML model using the apprehensive malicious threat weight. Our ML model has been tested, with and without entropy to forecast the threatening factors of COVID-19 URLs. The empirical evidence proves our methods to be a promising mechanism to mitigate COVID-19 related threats early in the attack lifecycle.
翻訳日:2022-10-16 21:46:39 公開日:2020-09-19
# 非負のテンソル因子分解を用いたcovid-19の時空間的話題ダイナミクスの理解

Understanding the Spatio-temporal Topic Dynamics of Covid-19 using Nonnegative Tensor Factorization: A Case Study ( http://arxiv.org/abs/2009.09253v1 )

ライセンス: Link先を確認
Thirunavukarasu Balasubramaniam, Richi Nayak, Md Abul Bashar(参考訳) ソーシャルメディアプラットフォームは、何十億もの人々が自分の考えや活動をユビキタスに共有できるようにすることで、データ駆動の世界を促進する。 この膨大なデータを適切に分析すれば、人々の行動に関する有用な洞察が得られる。 Covid-19パンデミックの下では、議論されているトピックや場所(空間)、議論されている時間(時間)について、人々のオンライン行動を理解することが、これまで以上に重要な時です。 巨大なソーシャルメディアデータの複雑さと品質の低さを考えると、有効な時空間的トピック検出手法が必要である。 本稿では,ソーシャルメディアデータのテンソルベース表現と非負テンソル因子化(NTF)を提案する。 オーストラリアのtwittersphereのcovid-19関連ツイートについて、covid-19に関する時空間的トピックダイナミクスを識別・可視化するケーススタディを提示した。

Social media platforms facilitate mankind a data-driven world by enabling billions of people to share their thoughts and activities ubiquitously. This huge collection of data, if analysed properly, can provide useful insights into people's behavior. More than ever, now is a crucial time under the Covid-19 pandemic to understand people's online behaviors detailing what topics are being discussed, and where (space) and when (time) they are discussed. Given the high complexity and poor quality of the huge social media data, an effective spatio-temporal topic detection method is needed. This paper proposes a tensor-based representation of social media data and Non-negative Tensor Factorization (NTF) to identify the topics discussed in social media data along with the spatio-temporal topic dynamics. A case study on Covid-19 related tweets from the Australia Twittersphere is presented to identify and visualize spatio-temporal topic dynamics on Covid-19
翻訳日:2022-10-16 21:46:20 公開日:2020-09-19
# 自己確認リファクタリングの自動分類に向けて

Toward the Automatic Classification of Self-Affirmed Refactoring ( http://arxiv.org/abs/2009.09279v1 )

ライセンス: Link先を確認
Eman Abdullah AlOmar, Mohamed Wiem Mkaouer, Ali Ouni(参考訳) SAR(Self-Affirmed Refactoring)の概念は、開発者がコミットメッセージでリファクタリングアクティビティをドキュメント化する方法について調査するために導入された。 前回の調査ではリファクタリングのパターンを手動で識別し、リファクタリングに関連するコミットのみを考慮して、内部品質属性、外部品質属性、コードの臭いを含む3つの一般的な品質改善カテゴリを定義しました。 しかし、このアプローチはコミットメッセージの手動検査に大きく依存しています。 本稿では,まずコミットが開発者関連リファクタリングイベントを記述しているかを識別し,リファクタリング共通品質改善カテゴリに従って分類する2段階アプローチを提案する。 具体的には、N-Gram TF-IDF機能選択とバイナリとマルチクラス分類器を組み合わせることで、リファクタリングの分類を品質改善カテゴリに基づいて自動化する新しいモデルを構築する。 我々は,オープンソースのJavaプロジェクトから抽出した合計2,867件のコミットメッセージを用いて,我々のモデルに挑戦する。 その結果,本モデルでは,(1)SARコミットを正確に分類し,パターンベースおよびランダム分類器アプローチより優れ,さらに40種類のSARパターンの発見が可能であり,(2)比較的小さなトレーニングデータセットでも最大90%のF測定値が得られることがわかった。

The concept of Self-Affirmed Refactoring (SAR) was introduced to explore how developers document their refactoring activities in commit messages, i.e., developers' explicit documentation of refactoring operations intentionally introduced during a code change. In our previous study, we have manually identified refactoring patterns and defined three main common quality improvement categories, including internal quality attributes, external quality attributes, and code smells, by only considering refactoring-related commits. However, this approach heavily depends on the manual inspection of commit messages. In this paper, we propose a two-step approach to first identify whether a commit describes developer-related refactoring events, then to classify it according to the refactoring common quality improvement categories. Specifically, we combine the N-Gram TF-IDF feature selection with binary and multiclass classifiers to build a new model to automate the classification of refactorings based on their quality improvement categories. We challenge our model using a total of 2,867 commit messages extracted from well-engineered open-source Java projects. Our findings show that (1) our model is able to accurately classify SAR commits, outperforming the pattern-based and random classifier approaches, and allowing the discovery of 40 more relevant SAR patterns, and (2) our model reaches an F-measure of up to 90% even with a relatively small training dataset.
翻訳日:2022-10-16 21:46:01 公開日:2020-09-19
# TLSハンドシェイクによるマルチセッションWebサイトフィンガープリントについて

On Multi-Session Website Fingerprinting over TLS Handshake ( http://arxiv.org/abs/2009.09284v1 )

ライセンス: Link先を確認
Aida Ramezani, Amirhossein Khajehpour, Mahdi Jafari Siavoshani(参考訳) ユーザのインターネットトラフィックデータとアクティビティの分析は,インターネット上でのサービス品質の維持や,接続の異常検出とセキュア化のための高品質なレコメンデーションシステムの提供など,ユーザエクスペリエンスに一定の影響を与えている。 インターネットが複雑なネットワークであることを考えると、各アクティビティのパケットを分解することはできない。 そのため、インターネットユーザが所定の時間内に行うすべてのアクティビティを識別できるモデルが必要になります。 本稿では,ユーザが特定の期間に訪問したwebサイトを予測できるマルチラベル分類器を生成するためのディープラーニング手法を提案する。 このモデルはTLSv1.2とTLSv1.3 Client Helloパケットの時系列に現れるサーバ名を抽出することで機能する。 テストデータの結果と、時間系列情報を用いて性能を向上させることを証明するため、同じ目的で開発された単純な完全連結ニューラルネットワークを比較した。 さらなる評価のために、人為的データセットと修正データセットを用いてモデルをテストし、異なる状況下でモデルの精度を確認する。 最後に,提案モデルでは,テストデータセットでは95%,修正データセットでは90%以上,人工データセットでは90%以上の精度を達成した。

Analyzing users' Internet traffic data and activities has a certain impact on users' experiences in different ways, from maintaining the quality of service on the Internet and providing users with high-quality recommendation systems to anomaly detection and secure connection. Considering that the Internet is a complex network, we cannot disintegrate the packets for each activity. Therefore we have to have a model that can identify all the activities an Internet user does in a given period of time. In this paper, we propose a deep learning approach to generate a multi-label classifier that can predict the websites visited by a user in a certain period. This model works by extracting the server names appearing in chronological order in the TLSv1.2 and TLSv1.3 Client Hello packets. We compare the results on the test data with a simple fully-connected neural network developed for the same purpose to prove that using the time-sequential information improves the performance. For further evaluations, we test the model on a human-made dataset and a modified dataset to check the model's accuracy under different circumstances. Finally, our proposed model achieved an accuracy of 95% on the test dataset and above 90% on both the modified dataset and the human-made dataset.
翻訳日:2022-10-16 21:45:38 公開日:2020-09-19
# 持続的ホモロジーに基づく機械学習による多重爆発荷重下におけるトンネル破壊特性の解析

Analysis of tunnel failure characteristics under multiple explosion loads based on persistent homology-based machine learning ( http://arxiv.org/abs/2009.10069v1 )

ライセンス: Link先を確認
Shengdong Zhang, Shihui You, Longfei Chen, Xiaofei Liu(参考訳) 外部爆発源の荷重下におけるトンネル破壊特性の研究は,トンネル設計と保護において重要な問題であり,特にトンネル破壊過程のインテリジェントなトポロジ的特徴記述を構築することが重要である。 爆発荷重を受けるトンネルの破壊特性を離散要素法と持続的ホモロジーに基づく機械学習を用いて記述する。 まず, 浅い埋設トンネルの離散要素モデルが離散要素ソフトウェアに確立され, 爆薬負荷はサン=ヴェナント原理により表面に作用する一様分散荷重と等価であり, 複数の爆薬荷重下でのトンネルの動的応答を反復計算により求めた。 周囲の岩石の位相的特性は永続的ホモロジーに基づく機械学習によって研究される。 爆発荷重を受けるトンネルの幾何学的、物理的、ユニット間特性を抽出し、永続的ホモロジーのトポロジカルな量と周囲の岩石の破壊特性との非線形マッピング関係を確立し、トンネルの破壊特性のインテリジェントな記述の結果を得る。 本研究は,最長のベティ1バーコードの長さがトンネルの安定性と密接に関連していることを示し,トンネル破壊の早期警戒に有効であること,トンネル破壊過程をインテリジェントに記述することで,トンネル工学的保護の新たなアイデアを提供することができることを示した。

The study of tunnel failure characteristics under the load of external explosion source is an important problem in tunnel design and protection, in particular, it is of great significance to construct an intelligent topological feature description of the tunnel failure process. The failure characteristics of tunnels under explosive loading are described by using discrete element method and persistent homology-based machine learning. Firstly, the discrete element model of shallow buried tunnel was established in the discrete element software, and the explosive load was equivalent to a series of uniformly distributed loads acting on the surface by Saint-Venant principle, and the dynamic response of the tunnel under multiple explosive loads was obtained through iterative calculation. The topological characteristics of surrounding rock is studied by persistent homology-based machine learning. The geometric, physical and interunit characteristics of the tunnel subjected to explosive loading are extracted, and the nonlinear mapping relationship between the topological quantity of persistent homology, and the failure characteristics of the surrounding rock is established, and the results of the intelligent description of the failure characteristics of the tunnel are obtained. The research shows that the length of the longest Betty 1 bar code is closely related to the stability of the tunnel, which can be used for effective early warning of the tunnel failure, and an intelligent description of the tunnel failure process can be established to provide a new idea for tunnel engineering protection.
翻訳日:2022-10-16 21:45:18 公開日:2020-09-19
# 強化学習による極性コードの構築

Construction of Polar Codes with Reinforcement Learning ( http://arxiv.org/abs/2009.09277v1 )

ライセンス: Link先を確認
Yun Liao, Seyyed Ali Hashemi, John Cioffi, Andrea Goldsmith(参考訳) 本稿では,逐次キャンセラリスト(SCL)デコーダの極符号構成問題をモーズトラバースゲームとして定式化し,強化学習技術により解くことができる。 提案手法は,信頼性の高いビットチャネルのソートや選択に依存しない新しい極符号構築手法を提供する。 代わりに、この手法は入力ビットを純粋にシーケンシャルに凍結するかどうかを決定する。 この手法により、sclデコーダの極符号構成を最適化し、迷路を横断する期待報酬を最大化する等価性が描画される。 シミュレーションの結果,逐次キャセラレーションデコーダ用に設計された標準極符号構成は,フレーム誤り率に関してSCLデコーダにもはや最適ではないことがわかった。 対照的に、シミュレーションでは、合理的なトレーニングによって、ゲームベースの構築手法は、様々なコード長とデコーダに対して、フレームエラー率の低いコード構成を見つける。

This paper formulates the polar-code construction problem for the successive-cancellation list (SCL) decoder as a maze-traversing game, which can be solved by reinforcement learning techniques. The proposed method provides a novel technique for polar-code construction that no longer depends on sorting and selecting bit-channels by reliability. Instead, this technique decides whether the input bits should be frozen in a purely sequential manner. The equivalence of optimizing the polar-code construction for the SCL decoder under this technique and maximizing the expected reward of traversing a maze is drawn. Simulation results show that the standard polar-code constructions that are designed for the successive-cancellation decoder are no longer optimal for the SCL decoder with respect to the frame error rate. In contrast, the simulations show that, with a reasonable amount of training, the game-based construction method finds code constructions that have lower frame-error rate for various code lengths and decoders compared to standard constructions.
翻訳日:2022-10-16 21:44:55 公開日:2020-09-19
# PlantCLEF 2020 チャレンジにおける部分領域適応の逆整合学習

Adversarial Consistent Learning on Partial Domain Adaptation of PlantCLEF 2020 Challenge ( http://arxiv.org/abs/2009.09289v1 )

ライセンス: Link先を確認
Youshan Zhang and Brian D. Davison(参考訳) ドメイン適応は、豊富なラベル付きソースドメインからラベルのないターゲットドメインに知識を転送する際に存在するドメインシフト問題を緩和する最も重要なテクニックの1つである。 部分的なドメイン適応は、ターゲットカテゴリがソースカテゴリのサブセットである場合のシナリオに対処する。 本稿では,クロスドメイン植物画像の効率的な表現を可能にするために,まず事前学習したモデルから深い特徴を抽出し,部分的ドメイン適応のための統合深層アーキテクチャで逆一貫性学習(acl$)を開発する。 ソースドメインの分類損失、逆学習損失、特徴一貫性損失で構成される。 逆学習損失は、ソースとターゲットドメイン間のドメイン不変の機能を維持することができる。 さらに、特徴整合性損失は2つのドメイン間のきめ細かい特徴遷移を保存することができる。 また、ソースドメイン内の無関係なカテゴリを低重み付けすることで、2つのドメインの共有カテゴリを見つけます。 実験の結果,NASNetLargeモデルから提案された$ACL$アーキテクチャによるトレーニング機能がPlantCLEF 2020 Challengeで有望な結果をもたらすことが示された。

Domain adaptation is one of the most crucial techniques to mitigate the domain shift problem, which exists when transferring knowledge from an abundant labeled sourced domain to a target domain with few or no labels. Partial domain adaptation addresses the scenario when target categories are only a subset of source categories. In this paper, to enable the efficient representation of cross-domain plant images, we first extract deep features from pre-trained models and then develop adversarial consistent learning ($ACL$) in a unified deep architecture for partial domain adaptation. It consists of source domain classification loss, adversarial learning loss, and feature consistency loss. Adversarial learning loss can maintain domain-invariant features between the source and target domains. Moreover, feature consistency loss can preserve the fine-grained feature transition between two domains. We also find the shared categories of two domains via down-weighting the irrelevant categories in the source domain. Experimental results demonstrate that training features from NASNetLarge model with proposed $ACL$ architecture yields promising results on the PlantCLEF 2020 Challenge.
翻訳日:2022-10-16 21:38:23 公開日:2020-09-19
# ヒトモデルの自動テンプレートマッチングのための高分解能化

High-Resolution Augmentation for Automatic Template-Based Matching of Human Models ( http://arxiv.org/abs/2009.09312v1 )

ライセンス: Link先を確認
Riccardo Marin, Simone Melzi, Emanuele Rodol\`a, Umberto Castellani(参考訳) 変形可能な人体形状の3次元形状マッチングのための新しいアプローチを提案する。 提案手法は,本質的なスペクトルマッチングパイプライン,形態素モデル,外生的な詳細精細化という,3つの異なるツールの併用に基づく。 これらのツールを併用することにより,マッチングの質を大幅に向上すると同時に,各ツールが個別に提示する重要な問題を解消することが可能になる。 本稿では,入力形状間のメッシュ分解ミスマッチが存在する場合でも,高精度な対応を可能にする,革新的な高分解能増強(HRA)戦略を提案する。 この拡張は、採用可能な形態素モデルによって課される解決限界に対する効果的な回避策を提供する。 hraのグローバル版とローカライズ版は、表面部分分割法の新しい改良戦略を表している。 提案するパイプラインの精度を複数の難解なベンチマークで実証し,その効果を表面登録とテクスチャ転送で示している。

We propose a new approach for 3D shape matching of deformable human shapes. Our approach is based on the joint adoption of three different tools: an intrinsic spectral matching pipeline, a morphable model, and an extrinsic details refinement. By operating in conjunction, these tools allow us to greatly improve the quality of the matching while at the same time resolving the key issues exhibited by each tool individually. In this paper we present an innovative High-Resolution Augmentation (HRA) strategy that enables highly accurate correspondence even in the presence of significant mesh resolution mismatch between the input shapes. This augmentation provides an effective workaround for the resolution limitations imposed by the adopted morphable model. The HRA in its global and localized versions represents a novel refinement strategy for surface subdivision methods. We demonstrate the accuracy of the proposed pipeline on multiple challenging benchmarks, and showcase its effectiveness in surface registration and texture transfer.
翻訳日:2022-10-16 21:38:02 公開日:2020-09-19
# 推薦のための事前学習による知識伝達:概観と展望

Knowledge Transfer via Pre-training for Recommendation: A Review and Prospect ( http://arxiv.org/abs/2009.09226v1 )

ライセンス: Link先を確認
Zheni Zeng, Chaojun Xiao, Yuan Yao, Ruobing Xie, Zhiyuan Liu, Fen Lin, Leyu Lin and Maosong Sun(参考訳) レコメンダシステムは、ユーザに対してアイテムレコメンデーションを提供することを目的としており、現実世界のシナリオでは、通常、データスパーシティの問題(コールドスタートなど)に直面します。 最近、事前学習されたモデルによって、ドメインとタスク間の知識転送の有効性が示され、レコメンダシステムにおけるデータスパーシティ問題を軽減する可能性がある。 本調査ではまず,事前学習による推薦システムのレビューを行う。 さらに,実験による推薦システムに対する事前学習の利点を示す。 最後に,事前学習を伴うレコメンデータシステムの今後の研究の方向性について述べる。

Recommender systems aim to provide item recommendations for users, and are usually faced with data sparsity problem (e.g., cold start) in real-world scenarios. Recently pre-trained models have shown their effectiveness in knowledge transfer between domains and tasks, which can potentially alleviate the data sparsity problem in recommender systems. In this survey, we first provide a review of recommender systems with pre-training. In addition, we show the benefits of pre-training to recommender systems through experiments. Finally, we discuss several promising directions for future research for recommender systems with pre-training.
翻訳日:2022-10-16 21:37:49 公開日:2020-09-19
# 多変量時系列解析のためのGated Res2Net

Gated Res2Net for Multivariate Time Series Analysis ( http://arxiv.org/abs/2009.11705v1 )

ライセンス: Link先を確認
Chao Yang, Mingxing Jiang, Zhongwen Guo and Yuan Liu(参考訳) 多変量時系列解析はデータマイニングにおいて重要な問題である。 トレーニング用時系列データの増加に伴い、時系列分析の分野におけるディープニューラルネットワークの実装が一般的になりつつある。 最近提案されたバックボーンであるRes2Netは、異なるフィルタ群を接続することで、マルチスケールの表現能力を改善することにより、最先端ネットワークをさらに改善することができる。 しかし、Res2Netは特徴マップの相関を無視し、情報相互作用プロセスの制御を欠いている。 そこで本稿では,多変量時系列解析のためのゲート機構とRes2Net,すなわちGated Res2Net(GRes2Net)に基づくバックボーン畳み込みニューラルネットワークを提案する。 階層的な残差的な接続は、元の特徴マップ、以前の出力特徴マップ、次の入力特徴マップに基づいて値が計算されるゲートに影響され、特徴マップ間の相関をより効果的に考慮される。 ゲート機構を利用することで、ネットワークは情報送信の過程を制御できるので、時間的情報と特徴マップ間の相関の両方をよりよく捉え、活用することができる。 2つの分類データセットと2つの予測データセットを含む4つの多変量時系列データセット上でGRes2Netを評価する。 その結果, GRes2Netは最先端手法よりも優れた性能を示し, 優位性を示した。

Multivariate time series analysis is an important problem in data mining because of its widespread applications. With the increase of time series data available for training, implementing deep neural networks in the field of time series analysis is becoming common. Res2Net, a recently proposed backbone, can further improve the state-of-the-art networks as it improves the multi-scale representation ability through connecting different groups of filters. However, Res2Net ignores the correlations of the feature maps and lacks the control on the information interaction process. To address that problem, in this paper, we propose a backbone convolutional neural network based on the thought of gated mechanism and Res2Net, namely Gated Res2Net (GRes2Net), for multivariate time series analysis. The hierarchical residual-like connections are influenced by gates whose values are calculated based on the original feature maps, the previous output feature maps and the next input feature maps thus considering the correlations between the feature maps more effectively. Through the utilization of gated mechanism, the network can control the process of information sending hence can better capture and utilize the both the temporal information and the correlations between the feature maps. We evaluate the GRes2Net on four multivariate time series datasets including two classification datasets and two forecasting datasets. The results demonstrate that GRes2Net have better performances over the state-of-the-art methods thus indicating the superiority
翻訳日:2022-10-16 21:37:39 公開日:2020-09-19
# シモン・ザ・ラッパー(shimon the rapper) - 人間のロボットによるラッパー戦闘のリアルタイムシステム

Shimon the Rapper: A Real-Time System for Human-Robot Interactive Rap Battles ( http://arxiv.org/abs/2009.09234v1 )

ライセンス: Link先を確認
Richard Savery, Lisa Zahray, Gil Weinberg(参考訳) 本研究では,ヒップホップスタイルの人間とロボットのリアルタイムなリリック即興システムを提案する。 本システムは人間のラッパーから音声入力を受け取り,その意味を解析し,音楽溝上でロボットによってラップバックされた応答を生成する。 リアルタイムインタラクティブ音楽システムとのこれまでの作業は、主にインストゥルメンタルなアウトプットに焦点を当てており、ロボットとの音声インタラクションは検討されてきたが、音楽的な文脈では研究されていない。 我々の生成システムには、検閲、音声、リズム、リズム、リズムのカスタムメソッドと、音素埋め込みに基づく新しいディープラーニングパイプラインが含まれる。 ラップのパフォーマンスには、ロボットのジェスチャーと口の動きの同期が伴う。 システムで克服された主な技術的課題は、リズムの開発、低レイテンシとデータセット検閲の実行である。 映像調査とサンプルテキストの出力により,システムのいくつかの側面を評価した。 コメントの分析の結果,システム全体の認識は肯定的であった。 ヒップホップデータセットでトレーニングしたモデルは,コヒーレンス,韻律品質,楽しさにおいて,我々の金属データセットよりも有意に高く評価された。 参加者は、未知のキーワードから生成された出力よりも、与えられた入力句によって生成された出力を好む。

We present a system for real-time lyrical improvisation between a human and a robot in the style of hip hop. Our system takes vocal input from a human rapper, analyzes the semantic meaning, and generates a response that is rapped back by a robot over a musical groove. Previous work with real-time interactive music systems has largely focused on instrumental output, and vocal interactions with robots have been explored, but not in a musical context. Our generative system includes custom methods for censorship, voice, rhythm, rhyming and a novel deep learning pipeline based on phoneme embeddings. The rap performances are accompanied by synchronized robotic gestures and mouth movements. Key technical challenges that were overcome in the system are developing rhymes, performing with low-latency and dataset censorship. We evaluated several aspects of the system through a survey of videos and sample text output. Analysis of comments showed that the overall perception of the system was positive. The model trained on our hip hop dataset was rated significantly higher than our metal dataset in coherence, rhyme quality, and enjoyment. Participants preferred outputs generated by a given input phrase over outputs generated from unknown keywords, indicating that the system successfully relates its output to its input.
翻訳日:2022-10-16 21:37:18 公開日:2020-09-19
# 自動運転車のローカライゼーションに最適なグリッドマップとは? 多様な照明, 交通, 環境下における評価

What is the Best Grid-Map for Self-Driving Cars Localization? An Evaluation under Diverse Types of Illumination, Traffic, and Environment ( http://arxiv.org/abs/2009.09308v1 )

ライセンス: Link先を確認
Filipe Mutz, Thiago Oliveira-Santos, Avelino Forechi, Karin S. Komati, Claudine Badue, Felipe M. G. Fran\c{c}a, Alberto F. De Souza(参考訳) 自動運転車のローカライゼーションは、地図の更新、オブジェクトの追跡、計画などのタスクに必要である。 ローカライゼーションアルゴリズムは、しばしば車のポーズを推定するために地図を利用する。 複数のマップの維持・使用は計算コストがかかるため、各アプリケーションにどのマップが適切かを分析することが重要である。 本研究では, 占有率, 反射率, 色, 意味的グリッドマップを用いた場合の粒子フィルタの局所化の精度を比較することにより, 解析のためのデータを提供する。 私たちの知る限りでは、そのような評価は文献に欠けている。 セマンティクスとカラーグリッドマップを構築するために、光検出と測位(lidar)センサーからの点雲は、前面カメラによって撮影された画像と融合される。 深層ニューラルネットワークを用いた画像から意味情報を抽出する。 様々な環境で、照明と交通の様々な条件下で実験が行われる。 その結果, 占有グリッドマップはより正確な位置推定につながり, 反射率グリッドマップが続くことがわかった。 ほとんどのシナリオでは、セマンティックグリッドマップによる局所化は、壊滅的な損失を伴わずに位置追跡を保ったが、エラーは前より2倍から3倍大きい。 カラーグリッドマップは、オンラインデータとマップを比較するために、ロバストな計量であるエントロピー相関係数を用いても不正確で不安定なローカライゼーションを導いた。

The localization of self-driving cars is needed for several tasks such as keeping maps updated, tracking objects, and planning. Localization algorithms often take advantage of maps for estimating the car pose. Since maintaining and using several maps is computationally expensive, it is important to analyze which type of map is more adequate for each application. In this work, we provide data for such analysis by comparing the accuracy of a particle filter localization when using occupancy, reflectivity, color, or semantic grid maps. To the best of our knowledge, such evaluation is missing in the literature. For building semantic and colour grid maps, point clouds from a Light Detection and Ranging (LiDAR) sensor are fused with images captured by a front-facing camera. Semantic information is extracted from images with a deep neural network. Experiments are performed in varied environments, under diverse conditions of illumination and traffic. Results show that occupancy grid maps lead to more accurate localization, followed by reflectivity grid maps. In most scenarios, the localization with semantic grid maps kept the position tracking without catastrophic losses, but with errors from 2 to 3 times bigger than the previous. Colour grid maps led to inaccurate and unstable localization even using a robust metric, the entropy correlation coefficient, for comparing online data and the map.
翻訳日:2022-10-16 21:36:56 公開日:2020-09-19
# ロスレスcfa画像と映像圧縮の改善のためのロスレスホワイトバランス

Lossless White Balance For Improved Lossless CFA Image and Video Compression ( http://arxiv.org/abs/2009.09137v1 )

ライセンス: Link先を確認
Yeejin Lee, and Keigo Hirakawa(参考訳) カラーフィルタアレイ(Color filter array)は、カメラセンサーの画素検出器上に配置されたピクセルサイズのフィルタの空間多重化である。 このようなセンサが捉えた生センサデータの、最先端のロスレスコーディング技術は、リフト方式を用いて空間的あるいはクロスカラーな相関を利用する。 本稿では,昇降型無損失ホワイトバランスアルゴリズムを提案する。 生センサデータに適用すると、印加された色覚信号の空間帯域幅が減少する。 我々は、このホワイトバランスをロスレスCFAサブサンプリング画像/ビデオ圧縮の前処理ステップとして使用し、生センサデータの全体的な符号化効率を向上させることを提案する。

Color filter array is spatial multiplexing of pixel-sized filters placed over pixel detectors in camera sensors. The state-of-the-art lossless coding techniques of raw sensor data captured by such sensors leverage spatial or cross-color correlation using lifting schemes. In this paper, we propose a lifting-based lossless white balance algorithm. When applied to the raw sensor data, the spatial bandwidth of the implied chrominance signals decreases. We propose to use this white balance as a pre-processing step to lossless CFA subsampled image/video compression, improving the overall coding efficiency of the raw sensor data.
翻訳日:2022-10-16 21:36:37 公開日:2020-09-19
# 視覚オドメトリー法の展望と自動運転への応用

A Review of Visual Odometry Methods and Its Applications for Autonomous Driving ( http://arxiv.org/abs/2009.09193v1 )

ライセンス: Link先を確認
Kai Li Lim and Thomas Br\"aunl(参考訳) 自律運転アプリケーションの研究は近年,コンピュータビジョンに基づくアプローチの増加を観察している。 排他的視覚ベースのシステムを開発する試みにおいて、視覚オドメトリは、車輪オドメトリや慣性測定の代わりに、運動推定と自己局所化を達成するための重要な要素としてしばしば考えられている。 本稿では,自律運転を重視した視覚計測に関連のある手法について,最近のレビューを行う。 本総説では, 単眼, 立体視, 視覚慣性形態の視覚計測を対象とし, 応用に関する分析を行った。 研究の現状で直面する問題を概説し、レビューした作品を要約するために議論が展開される。 本稿では,視覚オドメトリーの今後の展開を支援するための今後の研究提案をまとめる。

The research into autonomous driving applications has observed an increase in computer vision-based approaches in recent years. In attempts to develop exclusive vision-based systems, visual odometry is often considered as a key element to achieve motion estimation and self-localisation, in place of wheel odometry or inertial measurements. This paper presents a recent review to methods that are pertinent to visual odometry with an emphasis on autonomous driving. This review covers visual odometry in their monocular, stereoscopic and visual-inertial form, individually presenting them with analyses related to their applications. Discussions are drawn to outline the problems faced in the current state of research, and to summarise the works reviewed. This paper concludes with future work suggestions to aid prospective developments in visual odometry.
翻訳日:2022-10-16 21:36:27 公開日:2020-09-19
# 空間分解によるスパイキングニューラルネットワークの資源認識マッピング

Enabling Resource-Aware Mapping of Spiking Neural Networks via Spatial Decomposition ( http://arxiv.org/abs/2009.09298v1 )

ライセンス: Link先を確認
Adarsha Balaji, Shihao Song, Anup Das, Jeffrey Krichmar, Nikil Dutt, James Shackleford, Nagarajan Kandasamy, Francky Catthoor(参考訳) モデル複雑性の増大に伴い、スパイキングニューラルネットワーク(SNN)ベースのアプリケーションをタイルベースのニューロモーフィックハードウェアにマッピングすることはますます困難になっている。 これは、タイル(クロスバー)上のシナプス貯蔵資源はシナプス後ニューロンごとに一定の数のシナプス前接続しか収容できないためである。 ニューロンごとに多くのシナプス前接続を持つ複雑なsnモデルの場合、トレーニング後、タイルリソースに適合するためにいくつかの接続を刈り取る必要があり、モデル品質(例えば精度)が失われる。 本研究では,多くのシナプス前結合を持つニューロン関数を,各ニューラルネットワークユニットが関数計算ノードであり,2つのシナプス前結合を持つ同種ニューラルネットワークユニットに分解する新しいアンローリング手法を提案する。 この空間分解技術はクロスバー利用を著しく改善し、すべてのシナプス前接続を維持し、接続切断によるモデル品質の損失を生じさせない。 提案手法を既存のSNNマッピングフレームワークに統合し,DYNAP-SEの最先端のニューロモルフィックハードウェア上での機械学習アプリケーションを用いて評価する。 その結果,平均で60%のクロスバー,9倍のシナプス利用,62%のハードウェアの無駄エネルギー,0.8%から4.6%のモデル品質向上が得られた。

With growing model complexity, mapping Spiking Neural Network (SNN)-based applications to tile-based neuromorphic hardware is becoming increasingly challenging. This is because the synaptic storage resources on a tile, viz. a crossbar, can accommodate only a fixed number of pre-synaptic connections per post-synaptic neuron. For complex SNN models that have many pre-synaptic connections per neuron, some connections may need to be pruned after training to fit onto the tile resources, leading to a loss in model quality, e.g., accuracy. In this work, we propose a novel unrolling technique that decomposes a neuron function with many pre-synaptic connections into a sequence of homogeneous neural units, where each neural unit is a function computation node, with two pre-synaptic connections. This spatial decomposition technique significantly improves crossbar utilization and retains all pre-synaptic connections, resulting in no loss of the model quality derived from connection pruning. We integrate the proposed technique within an existing SNN mapping framework and evaluate it using machine learning applications on the DYNAP-SE state-of-the-art neuromorphic hardware. Our results demonstrate an average 60% lower crossbar requirement, 9x higher synapse utilization, 62% lower wasted energy on the hardware, and between 0.8% and 4.6% increase in model quality.
翻訳日:2022-10-16 21:29:58 公開日:2020-09-19
# ENAS4D:動的推論のための効率的なマルチステージCNNアーキテクチャ探索

ENAS4D: Efficient Multi-stage CNN Architecture Search for Dynamic Inference ( http://arxiv.org/abs/2009.09182v1 )

ライセンス: Link先を確認
Zhihang Yuan, Xin Liu, Bingzhe Wu, Guangyu Sun(参考訳) 動的推論は畳み込みニューラルネットワーク(CNN)の計算コストを削減するための実現可能な方法であり、各入力サンプルの計算を動的に調整することができる。 動的推論を実現する方法の1つは、各ステージに予測層を持つサブネットワークを含むマルチステージニューラルネットワークを使用することである。 入力サンプルの推論は、ステージの予測が十分に自信を持っていれば、早期段階から離脱することができる。 しかし、マルチステージCNNアーキテクチャを設計するのは簡単ではない。 本稿では,よく設計された検索空間における動的推論のための最適多段階CNNアーキテクチャを効率的に探索できる汎用フレームワークENAS4Dを提案する。 まず,多段階畳み込みを用いた探索空間構築手法を提案する。 検索空間には、異なるレイヤー数、異なるカーネルサイズ、各ステージの異なるチャンネル数、入力サンプルの解像度が含まれる。 そして、多様なマルチステージCNNアーキテクチャのサンプリングをサポートする、一度限りのネットワークをトレーニングする。 特別な多段階ネットワークは、追加のトレーニングなしで、一度限りのネットワークから得ることができる。 最後に,1回限りのネットワークを利用して計算コストから精度をトレードオフする最適多段階ネットワークを効率的に探索する手法を提案する。 ImageNet分類タスクの実験は、ENAS4Dによって探索された多段CNNが、ダンマ推論の最先端手法よりも一貫して優れていることを示した。 特に、ネットワークは平均185mのmacで74.4%のimagenet top-1精度を達成している。

Dynamic inference is a feasible way to reduce the computational cost of convolutional neural network(CNN), which can dynamically adjust the computation for each input sample. One of the ways to achieve dynamic inference is to use multi-stage neural network, which contains a sub-network with prediction layer at each stage. The inference of a input sample can exit from early stage if the prediction of the stage is confident enough. However, design a multi-stage CNN architecture is a non-trivial task. In this paper, we introduce a general framework, ENAS4D, which can efficiently search for optimal multi-stage CNN architecture for dynamic inference in a well-designed search space. Firstly, we propose a method to construct the search space with multi-stage convolution. The search space include different numbers of layers, different kernel sizes and different numbers of channels for each stage and the resolution of input samples. Then, we train a once-for-all network that supports to sample diverse multi-stage CNN architecture. A specialized multi-stage network can be obtained from the once-for-all network without additional training. Finally, we devise a method to efficiently search for the optimal multi-stage network that trades the accuracy off the computational cost taking the advantage of once-for-all network. The experiments on the ImageNet classification task demonstrate that the multi-stage CNNs searched by ENAS4D consistently outperform the state-of-the-art method for dyanmic inference. In particular, the network achieves 74.4% ImageNet top-1 accuracy under 185M average MACs.
翻訳日:2022-10-16 21:29:07 公開日:2020-09-19
# 糖尿病網膜症画像における対側曝露攻撃

Adversarial Exposure Attack on Diabetic Retinopathy Imagery ( http://arxiv.org/abs/2009.09231v1 )

ライセンス: Link先を確認
Yupeng Cheng, Felix Juefei-Xu, Qing Guo, Huazhu Fu, Xiaofei Xie, Shang-Wei Lin, Weisi Lin, Yang Liu(参考訳) 糖尿病網膜症(DR)は、世界でも主要な視覚喪失の原因であり、多くの最先端の研究が強力なディープニューラルネットワーク(DNN)を構築し、網膜基底画像(RFI)を介してDR症例を自動的に分類している。 しかしながら、RFIは広く存在するカメラ露光の影響を受け、DNNの露光に対する堅牢性はまれである。 本稿では, 対向攻撃の観点からこの問題を考察し, 全く新しいタスク, すなわち, 対向画像を生成する対向的露光攻撃を, 非常に高い転送性でDNNを誤解させる画像露出の調整により同定する。 この目的のために我々はまず,乗算摂動に基づく露光攻撃という簡単な手法を実装し,この新しい課題を明らかにした。 そこで,本研究では,ラプラシアン・ピラミド空間における被曝攻撃を要素別ブラケット被曝融合問題として捉えた,逆ブラケット被曝融合を提案する。 さらに,高転送性を実現するために,素子ワイド乗算操作を畳み込みまで拡張した畳み込みブラケット露光融合を提案する。 提案手法は,ResNet50,MobileNet,EfficientNetなどの先進DNNを用いて実際のDRデータセット上で検証し,高い画像品質と転送攻撃の成功率が得られることを示す。 本手法は,DNNによるDR自動診断に対する潜在的な脅威を明らかにし,将来,露光障害のあるDR自動診断法の開発に有効である。

Diabetic retinopathy (DR) is a leading cause of vision loss in the world and numerous cutting-edge works have built powerful deep neural networks (DNNs) to automatically classify the DR cases via the retinal fundus images (RFIs). However, RFIs are usually affected by the widely existing camera exposure while the robustness of DNNs to the exposure is rarely explored. In this paper, we study this problem from the viewpoint of adversarial attack and identify a totally new task, i.e., adversarial exposure attack generating adversarial images by tuning image exposure to mislead the DNNs with significantly high transferability. To this end, we first implement a straightforward method, i.e., multiplicative-perturbation-based exposure attack, and reveal the big challenges of this new task. Then, to make the adversarial image naturalness, we propose the adversarial bracketed exposure fusion that regards the exposure attack as an element-wise bracketed exposure fusion problem in the Laplacian-pyramid space. Moreover, to realize high transferability, we further propose the convolutional bracketed exposure fusion where the element-wise multiplicative operation is extended to the convolution. We validate our method on the real public DR dataset with the advanced DNNs, e.g., ResNet50, MobileNet, and EfficientNet, showing our method can achieve high image quality and success rate of the transfer attack. Our method reveals the potential threats to the DNN-based DR automated diagnosis and can definitely benefit the development of exposure-robust automated DR diagnosis method in the future.
翻訳日:2022-10-16 21:28:30 公開日:2020-09-19
# EfficientDeRain: 高能率単一画像レイニングのための画素ワイドディレーションフィルタの学習

EfficientDeRain: Learning Pixel-wise Dilation Filtering for High-Efficiency Single-Image Deraining ( http://arxiv.org/abs/2009.09238v1 )

ライセンス: Link先を確認
Qing Guo, Jingyang Sun, Felix Juefei-Xu, Lei Ma, Xiaofei Xie, Wei Feng, Yang Liu(参考訳) 単一像のデレーニングは、未知の降雨モデルのため、かなり難しい。 既存の手法では、現実世界の様々な状況をカバーすることがほとんどなく、複雑な最適化や漸進的な洗練を必要としない雨モデルが想定されることが多い。 しかし、これはこれらの手法の効率性と多くの効率クリティカルな応用に大きく影響する。 このギャップを埋めるために、本稿では、単一像のデライン化を一般的な画像強調問題とみなし、もともと10~ms以内の降雨画像(平均6~ms)を処理できるモデルフリーデライン法、すなわちエフィシエントデレイン(EfficientDeRain)を提案し、これと似たデレイン効果を実現しつつ、最先端の手法(RCDNet)の80倍以上の速度で処理できる。 まず,新しい画素分割フィルタを提案する。 特に、各画素に適したマルチスケールカーネルを効率的に予測できるカーネル予測ネットワークから推定された画素毎のカーネルで雨画像をフィルタリングする。 次に,合成データと実データとのギャップを解消するために,実際の雨画像処理のためのネットワーク学習を支援する効果的なデータ拡張手法(すなわちrainmix)を提案し,合成データと実世界の雨データの両方について包括的評価を行い,本手法の有効性と効率性を示す。 私たちはモデルとコードをhttps://github.com/tsingqguo/ efficientderain.gitでリリースします。

Single-image deraining is rather challenging due to the unknown rain model. Existing methods often make specific assumptions of the rain model, which can hardly cover many diverse circumstances in the real world, making them have to employ complex optimization or progressive refinement. This, however, significantly affects these methods' efficiency and effectiveness for many efficiency-critical applications. To fill this gap, in this paper, we regard the single-image deraining as a general image-enhancing problem and originally propose a model-free deraining method, i.e., EfficientDeRain, which is able to process a rainy image within 10~ms (i.e., around 6~ms on average), over 80 times faster than the state-of-the-art method (i.e., RCDNet), while achieving similar de-rain effects. We first propose the novel pixel-wise dilation filtering. In particular, a rainy image is filtered with the pixel-wise kernels estimated from a kernel prediction network, by which suitable multi-scale kernels for each pixel can be efficiently predicted. Then, to eliminate the gap between synthetic and real data, we further propose an effective data augmentation method (i.e., RainMix) that helps to train network for real rainy image handling.We perform comprehensive evaluation on both synthetic and real-world rainy datasets to demonstrate the effectiveness and efficiency of our method. We release the model and code in https://github.com/tsingqguo/efficientderain.git.
翻訳日:2022-10-16 21:27:50 公開日:2020-09-19
# マルチスケールオーダvladプールを用いた深部局所特徴を用いた都市規模視覚位置認識

City-Scale Visual Place Recognition with Deep Local Features Based on Multi-Scale Ordered VLAD Pooling ( http://arxiv.org/abs/2009.09255v1 )

ライセンス: Link先を確認
Duc Canh Le, Chan Hyun Youn(参考訳) 視覚的場所認識は、メタデータなしで純粋な視覚的外観に基づいて画像に描かれた場所を認識するタスクである。 視覚的位置認識における課題は、照明条件の変化、カメラ視点、スケールだけでなく、シーンレベルの画像の特徴や、エリアの異なる特徴にも起因している。 これらの課題を解決するためには、画像の局所的な識別性とグローバルな意味的文脈の両方を考慮する必要がある。 一方でデータセットの多様性は、より一般的なモデルを開発し、この分野の進歩を進める上でも特に重要である。 本稿では,コンテントベース画像検索に基づく都市規模における位置認識のための完全自動システムを提案する。 コミュニティの主な貢献は3つの側面にあります。 まず,視覚位置認識の包括的解析を行い,一般的な画像検索タスクと比較して,課題のユニークな課題をスケッチする。 次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。 最後に,アプリケーションベースの研究に特に不可欠な位置認識のための新しいデータセットを提案する。 さらに, 広範囲にわたる実験を通じて, 画像検索と位置認識の両方における様々な問題を分析し, 検索モデルの性能向上のための知見を与える。

Visual place recognition is the task of recognizing a place depicted in an image based on its pure visual appearance without metadata. In visual place recognition, the challenges lie upon not only the changes in lighting conditions, camera viewpoint, and scale, but also the characteristic of scene level images and the distinct features of the area. To resolve these challenges, one must consider both the local discriminativeness and the global semantic context of images. On the other hand, the diversity of the datasets is also particularly important to develop more general models and advance the progress of the field. In this paper, we present a fully-automated system for place recognition at a city-scale based on content-based image retrieval. Our main contributions to the community lie in three aspects. Firstly, we take a comprehensive analysis of visual place recognition and sketch out the unique challenges of the task compared to general image retrieval tasks. Next, we propose yet a simple pooling approach on top of convolutional neural network activations to embed the spatial information into the image representation vector. Finally, we introduce new datasets for place recognition, which are particularly essential for application-based research. Furthermore, throughout extensive experiments, various issues in both image retrieval and place recognition are analyzed and discussed to give some insights for improving the performance of retrieval models in reality.
翻訳日:2022-10-16 21:27:23 公開日:2020-09-19
# 名目的複合連鎖抽出 : 意味に富む語彙連鎖の新しい課題

Nominal Compound Chain Extraction: A New Task for Semantic-enriched Lexical Chain ( http://arxiv.org/abs/2009.09173v1 )

ライセンス: Link先を確認
Bobo Li and Hao Fei and Yafeng Ren and Donghong Ji(参考訳) 語彙連鎖は文書中の凝集語から成り、これはテキストの基盤構造を意味し、それによって下流のNLPタスクを容易にする。 それにもかかわらず、既存の研究は、単純な表層レキシコンを浅い構文連想で検出することに焦点を当てており、意味認識された語彙化合物や潜在意味フレーム(例えばトピック)を無視している。 本稿では,新しい課題であるNCCE(Nominal Compound Chain extract)を紹介し,同じ意味的トピックを共有するすべての名目化合物を抽出・クラスタリングする。 さらに,そのタスクを2段階の予測(複合抽出と連鎖検出)としてモデル化し,提案したジョイントフレームワークを用いて処理する。 このモデルは、コンテキスト化された文書表現を得るためにBERTエンコーダを使用する。 また、hownetは豊富なセム情報を提供する外部リソースとして活用されている。 実験は手動で注釈付けしたコーパスに基づき,NCCEタスクの必要性と,共同アプローチの有効性を実証した。

Lexical chain consists of cohesion words in a document, which implies the underlying structure of a text, and thus facilitates downstream NLP tasks. Nevertheless, existing work focuses on detecting the simple surface lexicons with shallow syntax associations, ignoring the semantic-aware lexical compounds as well as the latent semantic frames, (e.g., topic), which can be much more crucial for real-world NLP applications. In this paper, we introduce a novel task, Nominal Compound Chain Extraction (NCCE), extracting and clustering all the nominal compounds that share identical semantic topics. In addition, we model the task as a two-stage prediction (i.e., compound extraction and chain detection), which is handled via a proposed joint framework. The model employs the BERT encoder to yield contextualized document representation. Also, HowNet is exploited as external resources for offering rich sememe information. The experiments are based on our manually annotated corpus, and the results prove the necessity of the NCCE task as well as the effectiveness of our joint approach.
翻訳日:2022-10-16 21:20:21 公開日:2020-09-19
# 対話型マルチタスク学習によるテキスト正規化による攻撃的言語検出

Aggressive Language Detection with Joint Text Normalization via Adversarial Multi-task Learning ( http://arxiv.org/abs/2009.09174v1 )

ライセンス: Link先を確認
Shengqiong Wu and Hao Fei and Donghong Ji(参考訳) テキスト中の攻撃的言語検出(ALD)は,NLPコミュニティにおいて重要な応用の1つである。 既存の作品の多くはaldを神経モデルとの規則的な分類として扱っているが、ソーシャルメディアのテキストの固有の競合は無視している。 本稿では,多タスク学習フレームワークを用いて,テキスト正規化(tn)を共同で行うことで,aldの改善を目指す。 ALDとTN用のプライベートエンコーダはそれぞれタスク固有の機能検索に重点を置いており、共有エンコーダは2つのタスクで基礎となる共通機能を学ぶ。 対人訓練中、タスク判別器はALDまたはTNの別個の学習を区別する。 4つのALDデータセットによる実験結果から,我々のモデルは異なる設定下において,大きなマージンで全てのベースラインを上回り,ALDとの共同学習の必要性が示された。 本手法をよりよく理解するためにさらなる分析を行う。

Aggressive language detection (ALD), detecting the abusive and offensive language in texts, is one of the crucial applications in NLP community. Most existing works treat ALD as regular classification with neural models, while ignoring the inherent conflicts of social media text that they are quite unnormalized and irregular. In this work, we target improving the ALD by jointly performing text normalization (TN), via an adversarial multi-task learning framework. The private encoders for ALD and TN focus on the task-specific features retrieving, respectively, and the shared encoder learns the underlying common features over two tasks. During adversarial training, a task discriminator distinguishes the separate learning of ALD or TN. Experimental results on four ALD datasets show that our model outperforms all baselines under differing settings by large margins, demonstrating the necessity of joint learning the TN with ALD. Further analysis is conducted for a better understanding of our method.
翻訳日:2022-10-16 21:20:00 公開日:2020-09-19
# bioalbert:生体医学的実体認識のためのシンプルで効果的な事前学習言語モデル

BioALBERT: A Simple and Effective Pre-trained Language Model for Biomedical Named Entity Recognition ( http://arxiv.org/abs/2009.09223v1 )

ライセンス: Link先を確認
Usman Naseem, Matloob Khushi, Vinay Reddy, Sakthivel Rajendran, Imran Razzak, Jinman Kim(参考訳) 近年,バイオメディカル文書の増加とともに,自然言語処理アルゴリズムの進歩とともに,バイオメディカル名称の実体認識(BioNER)の研究が指数関数的に増加している。 しかし、バイオNERの研究は、生物医学領域におけるNERが示すように困難である。 (i)訓練データの量が少ないため、しばしば制限される。 (ii)エンティティはそのコンテキストに応じて複数のタイプや概念を参照することができる。 (iii)サブドメイン特有の頭字語に依存すること。 既存のBioNERアプローチはこれらの問題を無視し、一般的なコーパスで訓練された最先端(SOTA)モデルを直接採用する。 本稿では,生物医学的文脈依存型nerを捉えるために設計された大規模生物医学コーパスに基づく効果的なドメイン固有言語モデルとして,生物医学的アルバート(生物医学的テキストマイニング用トランスフォーマーからのライト双方向エンコーダ表現)を提案する。 ALBERTでは,文脈依存表現をよりよく学習するために文間コヒーレンスをモデル化し,メモリ消費を低減し,BioNERのトレーニング速度を向上するためにパラメータ削減技術を導入した。 実験では,4種類のエンティティを持つ8つのバイオメディカルNERベンチマークデータセットにおいて,SOTA BioNERモデルよりも優れた性能を示した。 我々は、研究コミュニティが将来の研究で使用できる4種類のバイオアルバートモデルを訓練した。

In recent years, with the growing amount of biomedical documents, coupled with advancement in natural language processing algorithms, the research on biomedical named entity recognition (BioNER) has increased exponentially. However, BioNER research is challenging as NER in the biomedical domain are: (i) often restricted due to limited amount of training data, (ii) an entity can refer to multiple types and concepts depending on its context and, (iii) heavy reliance on acronyms that are sub-domain specific. Existing BioNER approaches often neglect these issues and directly adopt the state-of-the-art (SOTA) models trained in general corpora which often yields unsatisfactory results. We propose biomedical ALBERT (A Lite Bidirectional Encoder Representations from Transformers for Biomedical Text Mining) bioALBERT, an effective domain-specific language model trained on large-scale biomedical corpora designed to capture biomedical context-dependent NER. We adopted a self-supervised loss used in ALBERT that focuses on modelling inter-sentence coherence to better learn context-dependent representations and incorporated parameter reduction techniques to lower memory consumption and increase the training speed in BioNER. In our experiments, BioALBERT outperformed comparative SOTA BioNER models on eight biomedical NER benchmark datasets with four different entity types. We trained four different variants of BioALBERT models which are available for the research community to be used in future research.
翻訳日:2022-10-16 21:19:44 公開日:2020-09-19
# 単語クラスの柔軟性:深い文脈化アプローチ

Word class flexibility: A deep contextualized approach ( http://arxiv.org/abs/2009.09241v1 )

ライセンス: Link先を確認
Bai Li, Guillaume Thomas, Yang Xu, Frank Rudzicz(参考訳) 単語クラスの柔軟性は、異なる文法カテゴリーで単一の単語形式が使用される現象を指す。 言語型学における広範な研究は、言語間での単語クラスの柔軟性を特徴付けようと試みてきたが、この現象を正確にかつ大規模に定量化することは難しかった。 単語クラス柔軟性の規則性を探求する原理的手法を提案する。 本手法は,単語間の意味的シフト(名詞-動詞,動詞-名詞など)を定量的に定量化するための文脈型単語埋め込みにおける最近の研究に基づいており,本手法を37言語に適用する。 文脈的埋め込みは、英語の単語におけるクラス変動の人間の判断を捉えるだけでなく、言語間でのクラス柔軟性の共有傾向を明らかにする。 具体的には, フレキシブル・レムマが支配的な単語・クラスで使用される場合, 単語・クラス・フレキシビリティが方向性のプロセスであるという観点から, より意味的な変化が生じる。 本研究は,言語型学における深層文脈モデルの有用性を強調した。

Word class flexibility refers to the phenomenon whereby a single word form is used across different grammatical categories. Extensive work in linguistic typology has sought to characterize word class flexibility across languages, but quantifying this phenomenon accurately and at scale has been fraught with difficulties. We propose a principled methodology to explore regularity in word class flexibility. Our method builds on recent work in contextualized word embeddings to quantify semantic shift between word classes (e.g., noun-to-verb, verb-to-noun), and we apply this method to 37 languages. We find that contextualized embeddings not only capture human judgment of class variation within words in English, but also uncover shared tendencies in class flexibility across languages. Specifically, we find greater semantic variation when flexible lemmas are used in their dominant word class, supporting the view that word class flexibility is a directional process. Our work highlights the utility of deep contextualized models in linguistic typology.
翻訳日:2022-10-16 21:19:19 公開日:2020-09-19
# ミナンカバウ語における計算言語学:感性分析と機械翻訳に関する研究

Towards Computational Linguistics in Minangkabau Language: Studies on Sentiment Analysis and Machine Translation ( http://arxiv.org/abs/2009.09309v1 )

ライセンス: Link先を確認
Fajri Koto, Ikhwan Koto(参考訳) 一部の言語学者(rusmali et al., 1985; crouch, 2009)はミナンカバウの形態と構文の定義をかなり試みているが、注釈付きリソースの不足のため、この言語における情報処理はまだ存在しない。 本研究では,TwitterとWikipediaから抽出・構築した感情分析と機械翻訳の2つのMinangkabauコーパスをリリースする。 我々は,従来の機械学習とLSTMやTransformerといったシーケンス・ツー・シーケンスモデルを用いて,ミナンカバウ語で最初の計算言語学を行う。 最初の実験では、インドネシアで訓練されたモデルを用いて、Minangkabauテキストの分類性能が著しく低下することを示した。 一方、機械翻訳実験では、バイリンガル辞書を用いた簡単な単語間翻訳がBLEUスコアでLSTMとTransformerモデルより優れている。

Although some linguists (Rusmali et al., 1985; Crouch, 2009) have fairly attempted to define the morphology and syntax of Minangkabau, information processing in this language is still absent due to the scarcity of the annotated resource. In this work, we release two Minangkabau corpora: sentiment analysis and machine translation that are harvested and constructed from Twitter and Wikipedia. We conduct the first computational linguistics in Minangkabau language employing classic machine learning and sequence-to-sequence models such as LSTM and Transformer. Our first experiments show that the classification performance over Minangkabau text significantly drops when tested with the model trained in Indonesian. Whereas, in the machine translation experiment, a simple word-to-word translation using a bilingual dictionary outperforms LSTM and Transformer model in terms of BLEU score.
翻訳日:2022-10-16 21:19:00 公開日:2020-09-19
# オフワールドオープンピットマイニングのためのマルチロボットコントローラとタスクキューの共進化

Co-Evolution of Multi-Robot Controllers and Task Cues for Off-World Open Pit Mining ( http://arxiv.org/abs/2009.09149v1 )

ライセンス: Link先を確認
Jekan Thangavelautham and Yinan Xu(参考訳) ロボットは、月の露天掘りに理想的であり、鈍く、汚く、危険なタスクである。 課題は、ますます多くのロボットで生産性を高めることだ。 本稿では,マルチロボット探査や現場準備シナリオに使用するスケーラブルなコントローラを開発するための新しい手法を提案する。 コントローラは空白のスレートから始まり、人間による操作スクリプトや、掘削機の運動学とダイナミクスの詳細なモデリングを必要としない。 人工神経組織(ant)アーキテクチャは、自律ロボットチームがリソース収集を行うための制御システムとして使用される。 この制御アーキテクチャは、可変トポロジーの神経ネットワーク構造と粗いコード戦略を組み合わせることで、特定の領域を組織内で開発することができる。 この分野での我々の研究は、自律分散ロボットの群れが最適な運用密度を持っていることを示している。 ロボットが少なすぎると労働力が不足し、多くのロボットが敵意を抱き、ロボットがお互いの仕事を解き放ち、群れの中で立ち往生する。 本稿では,グループパフォーマンスをさらに向上させ,反抗を最小限に抑えるためのテンプレートとタスクの手がかりについて検討する。 本研究は,光ビーコンとタスクキューが,重度の時間制約などのストレス条件下でのロボット性能向上に有効であることを示す。

Robots are ideal for open-pit mining on the Moon as its a dull, dirty, and dangerous task. The challenge is to scale up productivity with an ever-increasing number of robots. This paper presents a novel method for developing scalable controllers for use in multi-robot excavation and site-preparation scenarios. The controller starts with a blank slate and does not require human-authored operations scripts nor detailed modeling of the kinematics and dynamics of the excavator. The 'Artificial Neural Tissue' (ANT) architecture is used as a control system for autonomous robot teams to perform resource gathering. This control architecture combines a variable-topology neural-network structure with a coarse-coding strategy that permits specialized areas to develop in the tissue. Our work in this field shows that fleets of autonomous decentralized robots have an optimal operating density. Too few robots result in insufficient labor, while too many robots cause antagonism, where the robots undo each other's work and are stuck in gridlock. In this paper, we explore the use of templates and task cues to improve group performance further and minimize antagonism. Our results show light beacons and task cues are effective in sparking new and innovative solutions at improving robot performance when placed under stressful situations such as severe time-constraint.
翻訳日:2022-10-16 21:18:45 公開日:2020-09-19
# Saccharomyces cerevisiae の糖分解経路における動態パラメータ同定の集団最適化

Population-based Optimization for Kinetic Parameter Identification in Glycolytic Pathway in Saccharomyces cerevisiae ( http://arxiv.org/abs/2010.06456v1 )

ライセンス: Link先を確認
Ewelina Weglarz-Tomczak, Jakub M. Tomczak, Agoston E. Eiben, Stanley Brul(参考訳) システム生物学のモデルは生物学的過程の数学的記述であり、疑問に答え、生物学的現象をよりよく理解するために用いられる。 動的モデルは、個々の種の生産と消費率によってネットワークを表現する。 モデル内の反応の速度を記述する通常の微分方程式はパラメータの集合を含む。 パラメータは生物学的システムを理解し分析する上で重要な量である。 さらに、運動パラメータの摂動は、突然変異や環境変化を含む細胞内および細胞外因子による系のアップレギュレーションと相関する。 そこで本研究では,生物経路のモデルを用いてパラメータ値を特定し,その潜在的な摂動/脱落を指摘する。 本稿では,入力・出力データ(選択された代謝物の時間経過)のみに基づいて,動的モデルの運動パラメータを識別可能な集団ベース最適化フレームワークを提案する。 本手法は,測定不能パラメータの同定だけでなく,パラメータの偏差の検出にも有効である。 本稿では,Saccharomyces cerevisiaeにおけるよく研究された糖分解経路の例を紹介する。

Models in systems biology are mathematical descriptions of biological processes that are used to answer questions and gain a better understanding of biological phenomena. Dynamic models represent the network through rates of the production and consumption for the individual species. The ordinary differential equations that describe rates of the reactions in the model include a set of parameters. The parameters are important quantities to understand and analyze biological systems. Moreover, the perturbation of the kinetic parameters are correlated with upregulation of the system by cell-intrinsic and cell-extrinsic factors, including mutations and the environment changes. Here, we aim at using well-established models of biological pathways to identify parameter values and point their potential perturbation/deviation. We present our population-based optimization framework that is able to identify kinetic parameters in the dynamic model based on only input and output data (i.e., timecourses of selected metabolites). Our approach can deal with the identification of the non-measurable parameters as well as with discovering deviation of the parameters. We present our proposed optimization framework on the example of the well-studied glycolytic pathway in Saccharomyces cerevisiae.
翻訳日:2022-10-16 21:18:23 公開日:2020-09-19
# ウィンレート推定と余剰最大化によるバイドシェーディング

Bid Shading by Win-Rate Estimation and Surplus Maximization ( http://arxiv.org/abs/2009.09259v1 )

ライセンス: Link先を確認
Shengjun Pan, Brendan Kitts, Tian Zhou, Hao He, Bharatbhushan Shetty, Aaron Flores, Djordje Gligorijevic, Junwei Pan, Tingyu Mao, San Gultekin and Jianlong Zhang(参考訳) 本稿では,SSP (Sell-Side Platform) の最小バイスフィードバックに依存しない新たなウィンレート型入札シェーディングアルゴリズム(WR)について述べる。 この方法は、変更されたロジスティック回帰を用いて、それぞれの日陰入札価格から利益を予測する。 関数形式はリアルタイムバイディング(RTB)システムのキー要件である実行時の高速な最大化を可能にする。 本手法による生産結果と他のアルゴリズムについて報告する。 入札シェーディングは一般的に広告主に大きな価値をもたらし、インプレッション当たりの価格を半額の約55%に下げることができた。 さらに、本論文で述べられている特定のアプローチは、最も高い利率を入札するベンチマーク手法よりも広告主の利益率を7%上回っている。 私たちはまた、業界販売側のプラットフォームシェーディングサービスよりも4.3%高い黒字を報告しています。 さらに,アルゴリズムを予算管理装置に統合した場合,eCPM,eCPC,eCPAは3%~7%低下した。 上記の利益は主に余剰関数の明示的な最大化によるものであり、他のアルゴリズムも同様のアプローチを活用できることに注意する。

This paper describes a new win-rate based bid shading algorithm (WR) that does not rely on the minimum-bid-to-win feedback from a Sell-Side Platform (SSP). The method uses a modified logistic regression to predict the profit from each possible shaded bid price. The function form allows fast maximization at run-time, a key requirement for Real-Time Bidding (RTB) systems. We report production results from this method along with several other algorithms. We found that bid shading, in general, can deliver significant value to advertisers, reducing price per impression to about 55% of the unshaded cost. Further, the particular approach described in this paper captures 7% more profit for advertisers, than do benchmark methods of just bidding the most probable winning price. We also report 4.3% higher surplus than an industry Sell-Side Platform shading service. Furthermore, we observed 3% - 7% lower eCPM, eCPC and eCPA when the algorithm was integrated with budget controllers. We attribute the gains above as being mainly due to the explicit maximization of the surplus function, and note that other algorithms can take advantage of this same approach.
翻訳日:2022-10-16 21:12:47 公開日:2020-09-19
# 深層ネットワーク訓練のためのスパース通信

Sparse Communication for Training Deep Networks ( http://arxiv.org/abs/2009.09271v1 )

ライセンス: Link先を確認
Negar Foroutan Eghlidi and Martin Jaggi(参考訳) 同期確率勾配降下法(sgd)は、ディープラーニングモデルの分散トレーニングに用いられる最も一般的な方法である。 このアルゴリズムでは、各ワーカーは局所的な勾配を他の労働者と共有し、すべての労働者の平均勾配を用いてパラメータを更新する。 分散トレーニングは計算時間を短縮するが、勾配交換に伴う通信オーバーヘッドはアルゴリズムのスケーラビリティのボトルネックとなる。 通信を必要とする勾配を減らすために多くの圧縮技術が提案されている。 しかし、勾配の圧縮は問題にさらに別のオーバーヘッドをもたらす。 本研究では,複数の圧縮スキームを調査し,3つのキーパラメータが性能に与える影響を検証した。 また,性能向上の方法や,標準的なSGDに近い性能を維持しつつ通信を減らし,単純なスペーシフィケーション方式であるランダムブロックスペーシフィケーションを導入している。

Synchronous stochastic gradient descent (SGD) is the most common method used for distributed training of deep learning models. In this algorithm, each worker shares its local gradients with others and updates the parameters using the average gradients of all workers. Although distributed training reduces the computation time, the communication overhead associated with the gradient exchange forms a scalability bottleneck for the algorithm. There are many compression techniques proposed to reduce the number of gradients that needs to be communicated. However, compressing the gradients introduces yet another overhead to the problem. In this work, we study several compression schemes and identify how three key parameters affect the performance. We also provide a set of insights on how to increase performance and introduce a simple sparsification scheme, random-block sparsification, that reduces communication while keeping the performance close to standard SGD.
翻訳日:2022-10-16 21:12:30 公開日:2020-09-19
# ディープラーニングの性能解析による高度な持続的脅威攻撃の早期検出

Early detection of the advanced persistent threat attack using performance analysis of deep learning ( http://arxiv.org/abs/2009.10524v1 )

ライセンス: Link先を確認
Javad Hassannataj Joloudari, Mojtaba Haderbadi, Amir Mashmool, Mohammad GhasemiGol, Shahab S., Amir Mosavi(参考訳) 被害者システムに対する最も一般的かつ重要な破壊攻撃の1つは、advanced persistent threat (apt)-attackである。 APT攻撃者は、情報を取得し、ネットワークのインフラに関する金銭的利益を得ることにより、敵対的な目標を達成することができる。 秘密のAPT攻撃を検出するソリューションの1つは、ネットワークトラフィックを使用することである。 APT攻撃の性質は、長期にわたるネットワーク上の攻撃の性質と、高いトラフィックのためにネットワークがクラッシュする可能性があるという事実から、この種の攻撃を検出することは困難である。 そこで本研究では,NSL-KDDデータセット上でのAPT攻撃の時間的検出と分類に,C5.0決定木,ベイジアンネットワーク,ディープニューラルネットワークなどの機械学習手法を用いる。 さらに、これらのモデルの実験には10倍のクロス検証法が用いられる。 その結果、c5.0決定木、ベイズネットワーク、および6層ディープラーニングモデルの精度(acc)をそれぞれ95.64%、88.37%、98.85%とし、また、偽陽性率(fpr)の重要な基準として、c5.0決定木、ベイズネットワーク、および6層ディープラーニングモデルのfpr値を2.56、10.47および1.13とする。 また, 感性, 特異性, 精度, 偽陰性率, F測定などの他の基準についても検討し, 実験結果から, 自動多層抽出による深層学習モデルは, 他の分類モデルと比較してAPT対応のタイムリーな検出に最適であることが示された。

One of the most common and important destructive attacks on the victim system is Advanced Persistent Threat (APT)-attack. The APT attacker can achieve his hostile goals by obtaining information and gaining financial benefits regarding the infrastructure of a network. One of the solutions to detect a secret APT attack is using network traffic. Due to the nature of the APT attack in terms of being on the network for a long time and the fact that the network may crash because of high traffic, it is difficult to detect this type of attack. Hence, in this study, machine learning methods such as C5.0 decision tree, Bayesian network and deep neural network are used for timely detection and classification of APT-attacks on the NSL-KDD dataset. Moreover, 10-fold cross validation method is used to experiment these models. As a result, the accuracy (ACC) of the C5.0 decision tree, Bayesian network and 6-layer deep learning models is obtained as 95.64%, 88.37% and 98.85%, respectively, and also, in terms of the important criterion of the false positive rate (FPR), the FPR value for the C5.0 decision tree, Bayesian network and 6-layer deep learning models is obtained as 2.56, 10.47 and 1.13, respectively. Other criterions such as sensitivity, specificity, accuracy, false negative rate and F-measure are also investigated for the models, and the experimental results show that the deep learning model with automatic multi-layered extraction of features has the best performance for timely detection of an APT-attack comparing to other classification models.
翻訳日:2022-10-16 21:11:55 公開日:2020-09-19
# マンモグラムスクリーニングにおける局所的・大域的情報を利用した深層ニューラルネットワークによる偽陽性生検の低減

Reducing false-positive biopsies with deep neural networks that utilize local and global information in screening mammograms ( http://arxiv.org/abs/2009.09282v1 )

ライセンス: Link先を確認
Nan Wu and Zhe Huang and Yiqiu Shen and Jungkyu Park and Jason Phang and Taro Makino and S. Gene Kim and Kyunghyun Cho and Laura Heacock and Linda Moy and Krzysztof J. Geras(参考訳) 乳がんは女性にとって最も一般的ながんであり、何十万もの不要な生検が世界中で膨大なコストで行われている。 良性組織であることが判明した生検率を低下させることが重要である。 本研究では,生検病変を悪性または良性と分類する深層ニューラルネットワーク(dnn)を構築し,これらのネットワークを放射線科医に提供し,偽陽性所見の数がさらに減少することを目標とした。 我々は,小型画像パッチから学習するDNNの性能を向上させるために,画像全体から学習したサリエンシマップのグローバルコンテキストをその推論に組み込むことにより,関心領域を評価する際のグローバルコンテキストに対する放射線学者の考え方と類似する。 141,473例のマンモグラフィ検査を229,426点検した。 464の良性病変と136の悪性病変からなるテストセットで,AUCは0.8。

Breast cancer is the most common cancer in women, and hundreds of thousands of unnecessary biopsies are done around the world at a tremendous cost. It is crucial to reduce the rate of biopsies that turn out to be benign tissue. In this study, we build deep neural networks (DNNs) to classify biopsied lesions as being either malignant or benign, with the goal of using these networks as second readers serving radiologists to further reduce the number of false positive findings. We enhance the performance of DNNs that are trained to learn from small image patches by integrating global context provided in the form of saliency maps learned from the entire image into their reasoning, similar to how radiologists consider global context when evaluating areas of interest. Our experiments are conducted on a dataset of 229,426 screening mammography exams from 141,473 patients. We achieve an AUC of 0.8 on a test set consisting of 464 benign and 136 malignant lesions.
翻訳日:2022-10-16 21:10:25 公開日:2020-09-19
# 確率的しきい値モデル木:外挿を扱う木に基づくアンサンブル法

Stochastic Threshold Model Trees: A Tree-Based Ensemble Method for Dealing with Extrapolation ( http://arxiv.org/abs/2009.09171v1 )

ライセンス: Link先を確認
Kohei Numata and Kenichi Tanaka(参考訳) 化学の分野では、機械学習を用いて構築された統計モデルから未知の化合物の性質を予測する多くの試みがある。 多くの既知の化合物が存在する領域(補間領域)では、正確なモデルを構築することができる。 対照的に、既知の化合物(外挿領域)が存在しない地域のデータは一般的に予測が難しい。 しかし, 新規材料の開発においては, この外挿領域を探索し, 前例のない物性を持つ化合物を発見することが望ましい。 本稿では,従来の補間法の精度を維持しつつ,データの傾向を反映した外挿法である確率的しきい値モデル木(stmt)を提案する。 人工データと実データの両方を用いてSTMTの挙動を確認する。 実データの場合、精度が大幅に向上することはないが、予測精度が顕著に向上する化合物が1つ存在し、STMTが外挿領域のデータ傾向を反映していることが示唆されている。 提案手法は,新素材開発などの状況において,より効率的な探索に寄与すると考えられる。

In the field of chemistry, there have been many attempts to predict the properties of unknown compounds from statistical models constructed using machine learning. In an area where many known compounds are present (the interpolation area), an accurate model can be constructed. In contrast, data in areas where there are no known compounds (the extrapolation area) are generally difficult to predict. However, in the development of new materials, it is desirable to search this extrapolation area and discover compounds with unprecedented physical properties. In this paper, we propose Stochastic Threshold Model Trees (STMT), an extrapolation method that reflects the trend of the data, while maintaining the accuracy of conventional interpolation methods. The behavior of STMT is confirmed through experiments using both artificial and real data. In the case of the real data, although there is no significant overall improvement in accuracy, there is one compound for which the prediction accuracy is notably improved, suggesting that STMT reflects the data trends in the extrapolation area. We believe that the proposed method will contribute to more efficient searches in situations such as new material development.
翻訳日:2022-10-16 21:03:33 公開日:2020-09-19
# 因果波のダイナミクスを推論、予測、推論する

Inferring, Predicting, and Denoising Causal Wave Dynamics ( http://arxiv.org/abs/2009.09187v1 )

ライセンス: Link先を確認
Matthias Karlbauer, Sebastian Otte, Hendrik P.A. Lensch, Thomas Scholten, Volker Wulfmeyer, and Martin V. Butz(参考訳) 新たな分散ニューラルネットワークアーキテクチャ(distana)は、生成的かつ再帰的なグラフ畳み込みニューラルネットワークである。 グリッドやメッシュをローカルにパラメータ化できる横接続ネットワークモジュールとして実装する。 DISTANAは、空間的に分散された非線形動的プロセスの背後にある因果関係を特定するように設計されている。 DISTANAは、時間的畳み込みネットワークやConvLSTMなど、複雑な空間波伝搬ベンチマークにおいて、再帰パターンが観測されることを考えると、データストリームの認知に非常に適していることが示される。 安定かつ正確なクローズドループ予測を数百の時間ステップで生成する。 さらに、ノイズを効果的にフィルタリングできる -- 自動エンコーダの原則を適用したり、遅延したニューラルステートアクティビティを振り返りにチューニングすることで、さらに改善することができる。 その結果,ディスタナは脳画像,サプライネットワーク,水流,土壌・気象データパターンなど,現実世界の時空間ダイナミクスをモデル化する準備ができていることが確認された。

The novel DISTributed Artificial neural Network Architecture (DISTANA) is a generative, recurrent graph convolution neural network. It implements a grid or mesh of locally parameterizable laterally connected network modules. DISTANA is specifically designed to identify the causality behind spatially distributed, non-linear dynamical processes. We show that DISTANA is very well-suited to denoise data streams, given that re-occurring patterns are observed, significantly outperforming alternative approaches, such as temporal convolution networks and ConvLSTMs, on a complex spatial wave propagation benchmark. It produces stable and accurate closed-loop predictions even over hundreds of time steps. Moreover, it is able to effectively filter noise -- an ability that can be improved further by applying denoising autoencoder principles or by actively tuning latent neural state activities retrospectively. Results confirm that DISTANA is ready to model real-world spatio-temporal dynamics such as brain imaging, supply networks, water flow, or soil and weather data patterns.
翻訳日:2022-10-16 21:02:54 公開日:2020-09-19
# 単一エージェントの再構成選択戦略による強化特徴選択の簡略化

Simplifying Reinforced Feature Selection via Restructured Choice Strategy of Single Agent ( http://arxiv.org/abs/2009.09230v1 )

ライセンス: Link先を確認
Xiaosa Zhao, Kunpeng Liu, Wei Fan, Lu Jiang, Xiaowei Zhao, Minghao Yin, and Yanjie Fu(参考訳) 機能選択は、下流予測タスクのパフォーマンスを最適化するために機能のサブセットを選択することを目的としている。 近年,マルチエージェント強化機能選択(MARFS)を導入して,機能選択の自動化を実現している。 MARFSは選択プロセスの自動化を楽しむが、MARFSは内容と次元の点でデータ複雑さに悩まされるだけでなく、エージェント数に関して指数関数的に計算コストが増加する。 強化学習環境下でのエージェントの選択プロセスを簡素化して、特徴選択の効率性とコストを改善することができるか? そこで我々は,再構成された選択戦略と統合した単一エージェント強化機能選択手法を開発した。 特に、再構成された選択戦略には以下のものがある。 1) 複数のエージェントを使わずに,複数の機能の選択タスクを処理するために,単一のエージェントのみを利用する。 2) 1 つのエージェントがスキャンごとに複数の選択/選択決定を行えるようにするための走査法を開発した。 3)複数の特徴に対するエージェントのスキャニング順序を優先するために,予測的特徴ラベルとの関連性を利用する。 4) 状態表現を改善するために,特徴の符号化インデックス情報と統合された畳み込み自動エンコーダアルゴリズムを提案する。 5) 探索プロセスを容易にするために,予測精度と特徴冗長性の両方を考慮した報奨スキームを設計する。 最後に,提案手法の有効性と有効性を示すための実験結果について述べる。

Feature selection aims to select a subset of features to optimize the performances of downstream predictive tasks. Recently, multi-agent reinforced feature selection (MARFS) has been introduced to automate feature selection, by creating agents for each feature to select or deselect corresponding features. Although MARFS enjoys the automation of the selection process, MARFS suffers from not just the data complexity in terms of contents and dimensionality, but also the exponentially-increasing computational costs with regard to the number of agents. The raised concern leads to a new research question: Can we simplify the selection process of agents under reinforcement learning context so as to improve the efficiency and costs of feature selection? To address the question, we develop a single-agent reinforced feature selection approach integrated with restructured choice strategy. Specifically, the restructured choice strategy includes: 1) we exploit only one single agent to handle the selection task of multiple features, instead of using multiple agents. 2) we develop a scanning method to empower the single agent to make multiple selection/deselection decisions in each round of scanning. 3) we exploit the relevance to predictive labels of features to prioritize the scanning orders of the agent for multiple features. 4) we propose a convolutional auto-encoder algorithm, integrated with the encoded index information of features, to improve state representation. 5) we design a reward scheme that take into account both prediction accuracy and feature redundancy to facilitate the exploration process. Finally, we present extensive experimental results to demonstrate the efficiency and effectiveness of the proposed method.
翻訳日:2022-10-16 21:02:28 公開日:2020-09-19
# 再帰的エキスパート:動的環境における学習システムの効率的な最適混合

Recursive Experts: An Efficient Optimal Mixture of Learning Systems in Dynamic Environments ( http://arxiv.org/abs/2009.09249v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) シークエンシャルラーニングシステムは、意思決定から最適化まで、さまざまな問題で使用され、そこでは、自然に対する「信条」(意見)を提供し、フィードバックに基づいてこの信念を更新して、コストや損失を最小化(あるいは最大化)する(逆に、ユーティリティや利益)。 目的は、自然のフィードバック(状態)に固有の時間的関係を利用して目標に達することである。 この関係を利用して、様々なアプリケーションに漸近的に最適な特定の学習システムを設計することができる。 しかし、問題の枠組みが定常でない場合、すなわち自然の状態が時々任意に変化する場合、システムによってなされた過去の累積的信念の修正は役に立たず、適応性に欠けるとシステムが失敗する可能性がある。 この適応性は特定のケース(例えば凸最適化)で直接実装できるが、一般的な学習タスクでは単純ではない。 そこで本研究では,動的環境に対する再帰的エキスパート(recursive experts)と呼ぶ,一般的な逐次学習システムのための効率的な混合フレームワークを提案する。 この目的のために、我々は学習システムを自由に組み込んだハイパーエキスパートを設計し、特定の方法で再帰的にマージすることで、最小の最適後悔を一定要因まで達成する。 初期システムから適応システムへの計算複雑性の乗算的増加は、対数時間要素のみである。

Sequential learning systems are used in a wide variety of problems from decision making to optimization, where they provide a 'belief' (opinion) to nature, and then update this belief based on the feedback (result) to minimize (or maximize) some cost or loss (conversely, utility or gain). The goal is to reach an objective by exploiting the temporal relation inherent to the nature's feedback (state). By exploiting this relation, specific learning systems can be designed that perform asymptotically optimal for various applications. However, if the framework of the problem is not stationary, i.e., the nature's state sometimes changes arbitrarily, the past cumulative belief revision done by the system may become useless and the system may fail if it lacks adaptivity. While this adaptivity can be directly implemented in specific cases (e.g., convex optimization), it is mostly not straightforward for general learning tasks. To this end, we propose an efficient optimal mixture framework for general sequential learning systems, which we call the recursive experts for dynamic environments. For this purpose, we design hyper-experts that incorporate the learning systems at our disposal and recursively merge in a specific way to achieve minimax optimal regret bounds up to constant factors. The multiplicative increases in computational complexity from the initial system to our adaptive system are only logarithmic-in-time factors.
翻訳日:2022-10-16 21:02:04 公開日:2020-09-19
# オンライン自己説明からの知識の蒸留によるイントロスペクティブラーニング

Introspective Learning by Distilling Knowledge from Online Self-explanation ( http://arxiv.org/abs/2009.09140v1 )

ライセンス: Link先を確認
Jindong Gu and Zhiliang Wu and Volker Tresp(参考訳) 近年、ディープニューラルネットワークの個々の分類を説明するために多くの説明法が提案されている。 しかし、学習プロセスを改善するために生成された説明を活用する方法はあまり検討されていない。 特権情報として、モデルの説明は、モデル自体の学習プロセスのガイドに利用することができる。 コミュニティでは、モデルのトレーニングを指導するために使用される特権情報も強力な教師モデルからの知識である。 本研究の目的は,知識蒸留からアイデアを借りることで,自己説明を活用して学習プロセスを改善することである。 まず,教師ネットワークから学生ネットワークに伝達される知識の有効成分を調査することから始める。 本研究は,教師の授業内容と授業内容の類似性の両方が,知識蒸留の成功に寄与していることを明らかにする。 そこで本研究では,オンライン自己説明から知識を抽出し,イントロスペクティブ学習の実践を提案する。 イントロスペクティブ学習手順で訓練されたモデルは、標準学習手順で訓練されたモデルよりも、異なる正規化法で訓練されたモデルよりも優れています。 ピアネットワークや教師ネットワークから学んだモデルと比較すると、私たちのモデルは競争力があり、ピアも教師も必要としない。

In recent years, many explanation methods have been proposed to explain individual classifications of deep neural networks. However, how to leverage the created explanations to improve the learning process has been less explored. As the privileged information, the explanations of a model can be used to guide the learning process of the model itself. In the community, another intensively investigated privileged information used to guide the training of a model is the knowledge from a powerful teacher model. The goal of this work is to leverage the self-explanation to improve the learning process by borrowing ideas from knowledge distillation. We start by investigating the effective components of the knowledge transferred from the teacher network to the student network. Our investigation reveals that both the responses in non-ground-truth classes and class-similarity information in teacher's outputs contribute to the success of the knowledge distillation. Motivated by the conclusion, we propose an implementation of introspective learning by distilling knowledge from online self-explanations. The models trained with the introspective learning procedure outperform the ones trained with the standard learning procedure, as well as the ones trained with different regularization methods. When compared to the models learned from peer networks or teacher networks, our models also show competitive performance and requires neither peers nor teachers.
翻訳日:2022-10-16 21:01:40 公開日:2020-09-19
# プレトレーニングとショットを用いた少数ショット学習 : プレトレーニングサンプルによる強化

Few-shot learning using pre-training and shots, enriched by pre-trained samples ( http://arxiv.org/abs/2009.09172v1 )

ライセンス: Link先を確認
Detlef Schmicker(参考訳) 我々は手書き桁のEMNISTデータセットを用いて、数ショット学習のための簡単なアプローチをテストする。 完全に接続されたニューラルネットワークは、10桁のサブセットで事前トレーニングされ、未訓練の桁で少数ショットの学習に使用される。 2つの基本的な考え方が導入された: 数ショットの学習において、第1層の学習は無効となり、すべてのショットにおいて、予め定義されたしきい値条件を満たすまで、予め訓練された4つの桁と共に、予め未知の桁が使用される。 こうして10発の撮影で90%の精度が得られます。

We use the EMNIST dataset of handwritten digits to test a simple approach for few-shot learning. A fully connected neural network is pre-trained with a subset of the 10 digits and used for few-shot learning with untrained digits. Two basic ideas are introduced: during few-shot learning the learning of the first layer is disabled, and for every shot a previously unknown digit is used together with four previously trained digits for the gradient descend, until a predefined threshold condition is fulfilled. This way we reach about 90% accuracy after 10 shots.
翻訳日:2022-10-16 21:01:21 公開日:2020-09-19
# ハイパースペクトル画像分類のための自動グラフ学習によるマルチレベルグラフ畳み込みネットワーク

Multi-Level Graph Convolutional Network with Automatic Graph Learning for Hyperspectral Image Classification ( http://arxiv.org/abs/2009.09196v1 )

ライセンス: Link先を確認
Sheng Wan and Chen Gong and Shirui Pan and Jie Yang and Jian Yang(参考訳) 近年,ディープラーニング,特にグラフ畳み込みネットワーク(GCN)は,ハイパースペクトル画像(HSI)分類において顕著な性能を示している。 しかし、現在のGCNベースの手法では、グラフ構築と画像分類を2つの別々のタスクとして扱い、しばしば準最適性能をもたらす。 これらの手法のもう一つの欠点は、主にグラフノード間の局所的なペアワイズの重要性をモデル化する一方で、HSIのグローバルなコンテキスト情報をキャプチャする能力に欠けることである。 本稿では,hsi分類のための自動グラフ学習法(mgcn-agl)を備えた多レベルgcnを提案する。 注意機構を用いて空間隣接領域間の重要度を特徴付けることにより、最も関連性の高い情報を適応的に組み込んで意思決定を行うことで、空間コンテキストをエンコードして局所レベルでグラフ情報を形成することができる。 さらに,HSIの多様な空間的文脈から得られるメリットを活用し,生成した表現の表現力を高めるために,局所レベルのグラフ畳み込みに複数の経路を利用する。 グローバルな文脈関係を再構築するために、mgcn-aglは、局所レベルで生成された表現表現に基づいて、画像領域間の長距離依存性を符号化する。 そして、遠方領域を接続する再構成グラフエッジに沿って推論を行う。 そして、マルチレベル情報を適応的に融合してネットワーク出力を生成する。 すなわち、グラフ学習と画像分類は統合されたフレームワークに統合され、相互に恩恵を受けることができる。 3つの実世界のハイパースペクトルデータセットで大規模な実験が行われ、最先端の手法よりも優れていることが示されている。

Nowadays, deep learning methods, especially the Graph Convolutional Network (GCN), have shown impressive performance in hyperspectral image (HSI) classification. However, the current GCN-based methods treat graph construction and image classification as two separate tasks, which often results in suboptimal performance. Another defect of these methods is that they mainly focus on modeling the local pairwise importance between graph nodes while lack the capability to capture the global contextual information of HSI. In this paper, we propose a Multi-level GCN with Automatic Graph Learning method (MGCN-AGL) for HSI classification, which can automatically learn the graph information at both local and global levels. By employing attention mechanism to characterize the importance among spatially neighboring regions, the most relevant information can be adaptively incorporated to make decisions, which helps encode the spatial context to form the graph information at local level. Moreover, we utilize multiple pathways for local-level graph convolution, in order to leverage the merits from the diverse spatial context of HSI and to enhance the expressive power of the generated representations. To reconstruct the global contextual relations, our MGCN-AGL encodes the long range dependencies among image regions based on the expressive representations that have been produced at local level. Then inference can be performed along the reconstructed graph edges connecting faraway regions. Finally, the multi-level information is adaptively fused to generate the network output. In this means, the graph learning and image classification can be integrated into a unified framework and benefit each other. Extensive experiments have been conducted on three real-world hyperspectral datasets, which are shown to outperform the state-of-the-art methods.
翻訳日:2022-10-16 21:01:10 公開日:2020-09-19
# 質問はコーパスを要約できるか? COVID-19研究における質問生成の活用

Can questions summarize a corpus? Using question generation for characterizing COVID-19 research ( http://arxiv.org/abs/2009.09290v1 )

ライセンス: Link先を確認
Gabriela Surita, Rodrigo Nogueira, Roberto Lotufo(参考訳) テキストデータに潜んでいる質問は何ですか? 本研究では,質問生成モデルを用いて文書の集合を探索する。 提案手法は,コーパス上に事前学習した質問生成モデルを適用し,各質問を頻度と時間で集約する。 このテクニックは,大量のテキストデータを要約するためのトピックモデリングやワードクラウドといった手法に代わるものだ。 その結果、covid-19に関連する科学記事のコーパスにcolums2questionを適用すると、そのトピックに関する関連する質問が得られることがわかった。 最も頻繁な質問は、"What is covid 19"と"What is the treatment for covid"である。 もっとも頻繁な質問は「集団免疫のしきい値」と「ウイルス侵入におけるace2の役割は何か」である。 提案手法は,コビッドQA質問応答データセットから27問のうち13問に類似した質問を生成する。 実験を再現するコードと生成された質問は、https://github.com/unicamp-dl/corpus2question.com/で閲覧できます。

What are the latent questions on some textual data? In this work, we investigate using question generation models for exploring a collection of documents. Our method, dubbed corpus2question, consists of applying a pre-trained question generation model over a corpus and aggregating the resulting questions by frequency and time. This technique is an alternative to methods such as topic modelling and word cloud for summarizing large amounts of textual data. Results show that applying corpus2question on a corpus of scientific articles related to COVID-19 yields relevant questions about the topic. The most frequent questions are "what is covid 19" and "what is the treatment for covid". Among the 1000 most frequent questions are "what is the threshold for herd immunity" and "what is the role of ace2 in viral entry". We show that the proposed method generated similar questions for 13 of the 27 expert-made questions from the CovidQA question answering dataset. The code to reproduce our experiments and the generated questions are available at: https://github.com/unicamp-dl/corpus2question
翻訳日:2022-10-16 21:00:43 公開日:2020-09-19
# 人間も学ぶ:最適化された人間の入力を用いたより良い人間-AIインタラクション

Humans learn too: Better Human-AI Interaction using Optimized Human Inputs ( http://arxiv.org/abs/2009.09266v1 )

ライセンス: Link先を確認
Johannes Schneider(参考訳) 人間はますますAIコンポーネントを持つシステムに依存している。 AIコミュニティは通常、人間の入力を与えられたものとして扱い、AIモデルのみを最適化する。 この考え方は一方的であり、人間が学習できるという事実も無視している。 この作業では、人間の入力はモデルを修正しながら、aiモデルとのインタラクションを改善するために最適化されます。 最適化された入力には、それらを作成する方法の指示が伴います。 人間が時間を節約し、エラーを減らすことができるが、元の入力に必要となる変更は限られている。 サンプルを反復的に修正する連続的および離散的な最適化手法を提案する。 人間の手書き入力に対する人間の研究を含む定量的・定性的な評価は、生成された提案がエラー率を低下させ、元のサンプルと控えめにしか作らないことを示します。

Humans rely more and more on systems with AI components. The AI community typically treats human inputs as a given and optimizes AI models only. This thinking is one-sided and it neglects the fact that humans can learn, too. In this work, human inputs are optimized for better interaction with an AI model while keeping the model fixed. The optimized inputs are accompanied by instructions on how to create them. They allow humans to save time and cut on errors, while keeping required changes to original inputs limited. We propose continuous and discrete optimization methods modifying samples in an iterative fashion. Our quantitative and qualitative evaluation including a human study on different hand-generated inputs shows that the generated proposals lead to lower error rates, require less effort to create and differ only modestly from the original samples.
翻訳日:2022-10-16 21:00:27 公開日:2020-09-19
# 重み付き特徴支援ベクターマシンを用いた特徴量に基づくマンモグラム画像分類

Features based Mammogram Image Classification using Weighted Feature Support Vector Machine ( http://arxiv.org/abs/2009.09300v1 )

ライセンス: Link先を確認
S. Kavitha, K.K. Thyagharajan(参考訳) マンモグラム画像分類の既存の研究では、ニューラルネットワーク(NN)やサポートベクトルマシン(SVM)などの教師付き分類器とともに、特定のタイプの臨床データまたは画像の特徴が考慮されている。 本稿では,乳房組織型を重み付き特徴支持ベクターマシン (wfsvm) を用いて良性または悪性と自動分類し, 偏差を最大化する原理を用いて, 関連する特徴に重みを割り当てることにより, 予め計算された核機能を構築する。 当初、マンモグラム画像のMIASデータセットをトレーニングとテストセットに分割し、入力画像にノイズ除去やバックグラウンド除去などの前処理技術を適用し、関心領域(ROI)を特定する。 ROIから統計的特徴とテクスチャ的特徴を抽出し、そのデータセットから直接臨床特徴を得る。 トレーニングデータセットの抽出した特徴を用いて、重み付けされた特徴と、トレーニングモデルファイルを生成するWFSVMをトレーニングするための事前計算された線形カーネルを構築する。 このモデルファイルを使用すると、テストサンプルのカーネルマトリックスは良性または悪性に分類される。 この分析によると、テクスチャ機能はWFSVMやSVMの他の機能よりも精度が高い。 しかしながら、WFSVMで生成されたサポートベクトルの数は、SVM分類器よりも少ない。

In the existing research of mammogram image classification, either clinical data or image features of a specific type is considered along with the supervised classifiers such as Neural Network (NN) and Support Vector Machine (SVM). This paper considers automated classification of breast tissue type as benign or malignant using Weighted Feature Support Vector Machine (WFSVM) through constructing the precomputed kernel function by assigning more weight to relevant features using the principle of maximizing deviations. Initially, MIAS dataset of mammogram images is divided into training and test set, then the preprocessing techniques such as noise removal and background removal are applied to the input images and the Region of Interest (ROI) is identified. The statistical features and texture features are extracted from the ROI and the clinical features are obtained directly from the dataset. The extracted features of the training dataset are used to construct the weighted features and precomputed linear kernel for training the WFSVM, from which the training model file is created. Using this model file the kernel matrix of test samples is classified as benign or malignant. This analysis shows that the texture features have resulted in better accuracy than the other features with WFSVM and SVM. However, the number of support vectors created in WFSVM is less than the SVM classifier.
翻訳日:2022-10-16 20:54:34 公開日:2020-09-19
# 低精度グラフニューラルネットワークの学習

Learned Low Precision Graph Neural Networks ( http://arxiv.org/abs/2009.09232v1 )

ライセンス: Link先を確認
Yiren Zhao, Duo Wang, Daniel Bates, Robert Mullins, Mateja Jamnik, Pietro Lio(参考訳) ディープグラフニューラルネットワーク(GNN)は、さまざまなグラフタスクにおいて有望なパフォーマンスを示すが、現時点では実行にはコストがかかり、DNNに適用される最適化の多くを欠いている。 ネットワークアーキテクチャサーチ(NAS)を用いて,GNNを最小あるいは無性能で体系的に定量化する方法を初めて示す。 我々はgnnの量子化探索空間を定義する。 提案したNASメカニズムは、LPGNAS(Low Precision Graph NAS)と呼ばれ、アーキテクチャと量子化の選択を区別できるように制約する。 LPGNASは、単一の検索ラウンドでバックプロパゲーションを使用して、GNN内の様々なコンポーネントの最適な量子化戦略と組み合わせて最適なアーキテクチャを学習する。 8つの異なるデータセットにおいて、グラフ内の未確認ノードを分類するタスクを解決するため、LPGNASは、手動設計のネットワークや他のNAS結果に類似した精度で、モデルサイズとバッファサイズの両方が大幅に削減された量子化されたモデルを生成する。 特にPubmedデータセットでは、LPGNASは他の7つのマニュアルや検索されたベースラインと比較してパレートフロンティアの精度が向上し、モデルサイズは2.3倍削減されるが、NASの競合製品と比較して精度は0.4%向上する。 最後に, 広範囲なデータセットの量子化統計値から, W4A8(4ビット重み, 8ビットアクティベーション)の量子化戦略が, GNN量子化の障害となる可能性が示唆された。

Deep Graph Neural Networks (GNNs) show promising performance on a range of graph tasks, yet at present are costly to run and lack many of the optimisations applied to DNNs. We show, for the first time, how to systematically quantise GNNs with minimal or no loss in performance using Network Architecture Search (NAS). We define the possible quantisation search space of GNNs. The proposed novel NAS mechanism, named Low Precision Graph NAS (LPGNAS), constrains both architecture and quantisation choices to be differentiable. LPGNAS learns the optimal architecture coupled with the best quantisation strategy for different components in the GNN automatically using back-propagation in a single search round. On eight different datasets, solving the task of classifying unseen nodes in a graph, LPGNAS generates quantised models with significant reductions in both model and buffer sizes but with similar accuracy to manually designed networks and other NAS results. In particular, on the Pubmed dataset, LPGNAS shows a better size-accuracy Pareto frontier compared to seven other manual and searched baselines, offering a 2.3 times reduction in model size but a 0.4% increase in accuracy when compared to the best NAS competitor. Finally, from our collected quantisation statistics on a wide range of datasets, we suggest a W4A8 (4-bit weights, 8-bit activations) quantisation strategy might be the bottleneck for naive GNN quantisations.
翻訳日:2022-10-16 20:54:09 公開日:2020-09-19
# 長短項マスキングトランスフォーマー : 文書レベルニューラルマシン翻訳のための単純だが効果的なベースライン

Long-Short Term Masking Transformer: A Simple but Effective Baseline for Document-level Neural Machine Translation ( http://arxiv.org/abs/2009.09127v1 )

ライセンス: Link先を確認
Pei Zhang, Boxing Chen, Niyu Ge, Kai Fan(参考訳) 多くの文書レベルのニューラルマシン翻訳(NMT)システムは、コンテキスト認識アーキテクチャの有用性を探求しており、通常はパラメータの数の増加と計算複雑性を必要とする。 しかし、ベースラインモデルにはほとんど注意が払われていない。 本稿では,文書レベルの翻訳における標準変圧器の長所と短所を広く研究し,自己回帰特性が一貫性と誤り蓄積の長所の両方を同時にもたらすことを発見した。 そこで本研究では, 標準変圧器の上部に有意な簡易な長短項マスキング・セルフアテンションを適用し, 長距離依存性を効果的に捉え, 誤差の伝播を低減させる手法を提案する。 本稿では,2つの公開文書レベルデータセットに対するアプローチを検討する。 BLEUの強い結果が得られ、談話現象を捉えることができる。

Many document-level neural machine translation (NMT) systems have explored the utility of context-aware architecture, usually requiring an increasing number of parameters and computational complexity. However, few attention is paid to the baseline model. In this paper, we research extensively the pros and cons of the standard transformer in document-level translation, and find that the auto-regressive property can simultaneously bring both the advantage of the consistency and the disadvantage of error accumulation. Therefore, we propose a surprisingly simple long-short term masking self-attention on top of the standard transformer to both effectively capture the long-range dependence and reduce the propagation of errors. We examine our approach on the two publicly available document-level datasets. We can achieve a strong result in BLEU and capture discourse phenomena.
翻訳日:2022-10-16 20:52:57 公開日:2020-09-19
# 攻撃への学習 : 現実の状況下でのテキスト・アタックを目指して

Learning to Attack: Towards Textual Adversarial Attacking in Real-world Situations ( http://arxiv.org/abs/2009.09192v1 )

ライセンス: Link先を確認
Yuan Zang, Bairu Hou, Fanchao Qi, Zhiyuan Liu, Xiaojun Meng, Maosong Sun(参考訳) 敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。 自然言語処理の分野では, 被害者モデルに対するアクセシビリティが異なっており, 様々な攻撃モデルが提案されている。 その中でも、被害者モデルの出力のみを必要とする攻撃モデルは、現実の敵攻撃の状況に適合する。 しかし、高い攻撃性能を達成するためには、これらのモデルは通常、犠牲者モデルに何度も問い合わせる必要がある。 そこで本研究では,攻撃履歴から学習し,攻撃をより効率的に行うための強化学習に基づく攻撃モデルを提案する。 実験では、感情分析、テキスト分類、自然言語推論など複数のタスクのベンチマークデータセット上で、最先端モデルをいくつか攻撃することにより、モデルを評価する。 実験により,本モデルが最近提案したベースライン手法よりも優れた攻撃性能と高効率を実現することを示す。 また、我々の攻撃モデルは、敵の訓練によって被害者モデルにより堅牢性をもたらす可能性がある。 この論文のすべてのコードとデータは公開されます。

Adversarial attacking aims to fool deep neural networks with adversarial examples. In the field of natural language processing, various textual adversarial attack models have been proposed, varying in the accessibility to the victim model. Among them, the attack models that only require the output of the victim model are more fit for real-world situations of adversarial attacking. However, to achieve high attack performance, these models usually need to query the victim model too many times, which is neither efficient nor viable in practice. To tackle this problem, we propose a reinforcement learning based attack model, which can learn from attack history and launch attacks more efficiently. In experiments, we evaluate our model by attacking several state-of-the-art models on the benchmark datasets of multiple tasks including sentiment analysis, text classification and natural language inference. Experimental results demonstrate that our model consistently achieves both better attack performance and higher efficiency than recently proposed baseline methods. We also find our attack model can bring more robustness improvement to the victim model by adversarial training. All the code and data of this paper will be made public.
翻訳日:2022-10-16 20:52:07 公開日:2020-09-19
# SecDD: ニューラルネットワークを遠隔トレーニングするための効率的かつセキュアな方法

SecDD: Efficient and Secure Method for Remotely Training Neural Networks ( http://arxiv.org/abs/2009.09155v1 )

ライセンス: Link先を確認
Ilia Sucholutsky, Matthias Schonlau(参考訳) 私たちは、安全でないチャネル上でリモートにデプロイされたニューラルネットワークをセキュアかつ効率的にトレーニングするための方法を作成するために、一般的には、ディープラーニングアルゴリズムの最悪の品質である、高い計算コスト、大きなデータの要求、説明責任の欠如、超パラメータ選択への高い依存、過度な適合、および敵の摂動に対する脆弱性を活用する。

We leverage what are typically considered the worst qualities of deep learning algorithms - high computational cost, requirement for large data, no explainability, high dependence on hyper-parameter choice, overfitting, and vulnerability to adversarial perturbations - in order to create a method for the secure and efficient training of remotely deployed neural networks over unsecured channels.
翻訳日:2022-10-16 20:51:23 公開日:2020-09-19
# プライバシーを守るガンを潜伏させる: 画像に秘密を隠す

Subverting Privacy-Preserving GANs: Hiding Secrets in Sanitized Images ( http://arxiv.org/abs/2009.09283v1 )

ライセンス: Link先を確認
Kang Liu, Benjamin Tan, Siddharth Garg(参考訳) 前例のないデータ収集と共有は、プライバシーの懸念を悪化させ、画像から機密性の高い属性を取り除き、他のタスクに有用な情報を保持するプライバシ保存ツールへの関心を高めた。 現在、最先端のアプローチでは、例えば、ユーザの身元を漏らさずに、信頼できる表情認識を可能にするために、プライバシ保護生成敵ネットワーク(PP-GAN)を使用している。 しかし、PP-GANはプライバシの正式な証明を提供しておらず、代わりに、ディープラーニング(DL)ベースの識別器の機密属性の分類精度を用いて、情報漏洩を実験的に測定することに頼っている。 本研究では,既存の顔表情認識のためのプライバシー保護型GANを置き換えることにより,このようなチェックの厳密さを疑問視する。 このようなpp-ganのサニタイズされた出力画像に感度の高い識別データを隠して後で抽出することは可能であり、プライバシチェックを満たしながら入力画像全体を再構築することも可能である。 PP-GANアーキテクチャによるアプローチを実証し,2つの公開データセットを用いた質的,定量的評価を行った。 私たちの実験結果は、pp-gansのより厳密なプライバシーチェックの必要性に関する基本的な疑問を提起し、これらの社会的影響に対する洞察を提供する。

Unprecedented data collection and sharing have exacerbated privacy concerns and led to increasing interest in privacy-preserving tools that remove sensitive attributes from images while maintaining useful information for other tasks. Currently, state-of-the-art approaches use privacy-preserving generative adversarial networks (PP-GANs) for this purpose, for instance, to enable reliable facial expression recognition without leaking users' identity. However, PP-GANs do not offer formal proofs of privacy and instead rely on experimentally measuring information leakage using classification accuracy on the sensitive attributes of deep learning (DL)-based discriminators. In this work, we question the rigor of such checks by subverting existing privacy-preserving GANs for facial expression recognition. We show that it is possible to hide the sensitive identification data in the sanitized output images of such PP-GANs for later extraction, which can even allow for reconstruction of the entire input images, while satisfying privacy checks. We demonstrate our approach via a PP-GAN-based architecture and provide qualitative and quantitative evaluations using two public datasets. Our experimental results raise fundamental questions about the need for more rigorous privacy checks of PP-GANs, and we provide insights into the social impact of these.
翻訳日:2022-10-16 20:45:34 公開日:2020-09-19
# 自動分散シフトのための隠れインセンティブ

Hidden Incentives for Auto-Induced Distributional Shift ( http://arxiv.org/abs/2009.09153v1 )

ライセンス: Link先を確認
David Krueger, Tegan Maharaj, Jan Leike(参考訳) 機械学習システムによる決定は世界への影響を増大させているが、機械学習アルゴリズムではそのような影響は存在しないと仮定することが一般的である。 例として、コンテンツレコメンデーションにおけるi.d.仮定の使用がある。 実際、表示された(選択された)コンテンツは、ユーザの認識や好みを変えたり、あるいはそれらを追い払うことさえでき、ユーザの分布が変化します。 本稿では,ADS(Auto-induced Distributional shift)という用語を導入し,アルゴリズムが自身の入力の分布に変化をもたらす現象について述べる。 私たちのゴールは、機械学習システムがADSを活用しないことを保証し、実行時にパフォーマンスを向上させることです。 メタ学習の導入などの学習アルゴリズムの変更は、自動誘導分布シフト(HI-ADS)に隠れたインセンティブをもたらす可能性があることを実証する。 この問題に対処するため,コンテンツレコメンデーションにおけるHI-ADSの「ユニットテスト」とHI-ADSの緩和戦略,およびHI-ADSによる実世界の課題をモデル化するための玩具環境を紹介する。 メタラーニングとqラーニングの両方がユニットテストに失敗することがあるが、緩和戦略を使用するとパスする。

Decisions made by machine learning systems have increasing influence on the world, yet it is common for machine learning algorithms to assume that no such influence exists. An example is the use of the i.i.d. assumption in content recommendation. In fact, the (choice of) content displayed can change users' perceptions and preferences, or even drive them away, causing a shift in the distribution of users. We introduce the term auto-induced distributional shift (ADS) to describe the phenomenon of an algorithm causing a change in the distribution of its own inputs. Our goal is to ensure that machine learning systems do not leverage ADS to increase performance when doing so could be undesirable. We demonstrate that changes to the learning algorithm, such as the introduction of meta-learning, can cause hidden incentives for auto-induced distributional shift (HI-ADS) to be revealed. To address this issue, we introduce `unit tests' and a mitigation strategy for HI-ADS, as well as a toy environment for modelling real-world issues with HI-ADS in content recommendation, where we demonstrate that strong meta-learners achieve gains in performance via ADS. We show meta-learning and Q-learning both sometimes fail unit tests, but pass when using our mitigation strategy.
翻訳日:2022-10-16 20:43:40 公開日:2020-09-19
# deapキャッシュ: 深いevictionの受け入れとキャッシュのプリフェッチ

DEAP Cache: Deep Eviction Admission and Prefetching for Cache ( http://arxiv.org/abs/2009.09206v1 )

ライセンス: Link先を確認
Ayush Mangal, Jitesh Jain, Keerat Kaur Guliani, Omkar Bhalerao(参考訳) キャッシングを改善するための学習ポリシーの最近のアプローチは、プリフェッチ、入場、退行プロセスのうち1つだけをターゲットにしている。 対照的に,我々は機械学習を用いて3つのポリシーすべてを学ぶためのエンドツーエンドパイプラインを提案する。 また,大規模コーパスにおけるプレトレーニングの成功からインスピレーションを得て,タスクの専門的な埋め込みを学習する。 過去のミスに基づくシーケンス予測タスクとしてプレフェッチをモデル化する。 キャッシングのための2つの直交基本属性は周波数と直交性であることを示す先行研究に続いて,オンライン強化学習手法を用いて2つの直交エビテーション戦略間の最適ポリシー分布を学習する。 従来のアプローチでは,過去を未来を示す指標として用いていたが,その代わりに,深層ネットワークの能力を活用して未来的なトレンドを捉え,そこから解放と受け入れの学習に利用することで,マルチタスク方式で将来の頻度と傾向を明示的にモデル化した。 また,本手法では,非定常データキャッシュの問題に対処するため,カーネル密度推定を用いてオンライン形式でデータの分散をモデル化する。 我々は,このアプローチを機械学習を用いてキャッシュ戦略の3つの要素をすべて学習し,今後の作業のために実用的な配置を改善するための"概念の証明"として提示する。

Recent approaches for learning policies to improve caching, target just one out of the prefetching, admission and eviction processes. In contrast, we propose an end to end pipeline to learn all three policies using machine learning. We also take inspiration from the success of pretraining on large corpora to learn specialized embeddings for the task. We model prefetching as a sequence prediction task based on past misses. Following previous works suggesting that frequency and recency are the two orthogonal fundamental attributes for caching, we use an online reinforcement learning technique to learn the optimal policy distribution between two orthogonal eviction strategies based on them. While previous approaches used the past as an indicator of the future, we instead explicitly model the future frequency and recency in a multi-task fashion with prefetching, leveraging the abilities of deep networks to capture futuristic trends and use them for learning eviction and admission. We also model the distribution of the data in an online fashion using Kernel Density Estimation in our approach, to deal with the problem of caching non-stationary data. We present our approach as a "proof of concept" of learning all three components of cache strategies using machine learning and leave improving practical deployment for future work.
翻訳日:2022-10-16 20:42:59 公開日:2020-09-19
# 重要サンプリングを用いたカーネルリッジ回帰と地震応答予測への応用

Kernel Ridge Regression Using Importance Sampling with Application to Seismic Response Prediction ( http://arxiv.org/abs/2009.09136v1 )

ライセンス: Link先を確認
Farhad Pourkamali-Anaraki, Mohammad Amin Hariri-Ardebili, Lydia Morawiec(参考訳) カーネルリッジ回帰を含むスケーラブルカーネル法は、大規模なデータセットからランドマークポイントを選択するNystrom法を用いて低ランク行列近似に依存することが多い。 ランドマークを選択する既存のアプローチは、入力または特徴空間で大きな行列で計算を操作および実行する必要があるため、通常計算的に要求される。 本稿では、我々の貢献を2つにまとめる。 最初の貢献は、効率的な2段階アプローチを用いて多様性を促進する新しいランドマーク選択法を提案することである。 私たちのランドマーク選択技術は、第1ステップで重要度を計算し、データ全体を1回のパスで計算する、粗い戦略に従っています。 第2のステップは、構築されたコアセット上でk平均クラスタリングを実行し、得られたセントロイドをランドマークとして使用する。 したがって,提案手法は精度と効率のトレードオフを調整できる。 第2の貢献は, 地震荷重と材料不確実性による構造応答の予測にカーネル法を応用した, いくつかのランドマーク選択手法の性能評価である。 提案したランドマーク選択方式がベースラインに対して有効であることを示す。

Scalable kernel methods, including kernel ridge regression, often rely on low-rank matrix approximations using the Nystrom method, which involves selecting landmark points from large data sets. The existing approaches to selecting landmarks are typically computationally demanding as they require manipulating and performing computations with large matrices in the input or feature space. In this paper, our contribution is twofold. The first contribution is to propose a novel landmark selection method that promotes diversity using an efficient two-step approach. Our landmark selection technique follows a coarse to fine strategy, where the first step computes importance scores with a single pass over the whole data. The second step performs K-means clustering on the constructed coreset to use the obtained centroids as landmarks. Hence, the introduced method provides tunable trade-offs between accuracy and efficiency. Our second contribution is to investigate the performance of several landmark selection techniques using a novel application of kernel methods for predicting structural responses due to earthquake load and material uncertainties. Our experiments exhibit the merits of our proposed landmark selection scheme against baselines.
翻訳日:2022-10-16 20:42:37 公開日:2020-09-19