このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200214となっている論文です。

PDF登録状況(公開日: 20200214)

TitleAuthorsAbstract論文公表日・翻訳日
# インボイスライン項目マッチングのためのフィードバックを用いたオンライン類似学習

Online Similarity Learning with Feedback for Invoice Line Item Matching ( http://arxiv.org/abs/2001.00288v2 )

ライセンス: Link先を確認
Chandresh Kumar Maurya, Neelamadhav Gantayat, Sampath Dechu, Tomas Horvath(参考訳) 大企業におけるP2P(Properure to Pay Process)は、エンタープライズオペレーション向けの製品やサービスの調達を扱うバックエンドのビジネスプロセスである。 調達は、不当なベンダーに購入注文を発行し、ベンダーが提出した請求書は厳格な検証プロセスを経て支払われる。 p2pプロセスを編成するエージェントは、しばしば請求書中の製品またはサービス記述を購入注文のものと一致させ、注文されたアイテムが提供されたかサービスされたかを検証するという問題に遭遇する。 例えば、請求書と購入順の記述は TRES 739mL CD KER Smooth と TRES 0.739L CD KER Smth で、単語レベルでは異なるが同じ項目を参照できる。 典型的なP2Pプロセスでは、エージェントは支払いのために請求書が投稿される前に類似した商品を手動で選択するよう求められる。 ビジネスプロセスにおけるこのステップは、手動、繰り返し、面倒で、コストがかかります。 記述は十分に表現されていないため、既存の意味的・統語的テキスト類似性アプローチを直接適用することはできない。 本稿では,様々な種類のエージェントのフィードバックデータを用いて,上記の問題を解決するための2つの方法を提案する。 エージェントのフィードバックが記述間の相対的なランク付けの形であれば、類似度ランキングアルゴリズムを用いる。 エージェントのフィードバックがマッチやノーマッチのような絶対値であれば、分類類似性アルゴリズムを用いる。 また,本手法の有効性に対する脅威を提示し,製品分類とカタログを用いた治療の可能性を示す。 本稿では,提案手法の多くのベンチマークと実世界のデータセットに対する比較効果と効率を示す。

The procure to pay process (P2P) in large enterprises is a back-end business process which deals with the procurement of products and services for enterprise operations. Procurement is done by issuing purchase orders to impaneled vendors and invoices submitted by vendors are paid after they go through a rigorous validation process. Agents orchestrating P2P process often encounter the problem of matching a product or service descriptions in the invoice to those in purchase order and verify if the ordered items are what have been supplied or serviced. For example, the description in the invoice and purchase order could be TRES 739mL CD KER Smooth and TRES 0.739L CD KER Smth which look different at word level but refer to the same item. In a typical P2P process, agents are asked to manually select the products which are similar before invoices are posted for payment. This step in the business process is manual, repetitive, cumbersome, and costly. Since descriptions are not well-formed sentences, we cannot apply existing semantic and syntactic text similarity approaches directly. In this paper, we present two approaches to solve the above problem using various types of available agent's recorded feedback data. If the agent's feedback is in the form of a relative ranking between descriptions, we use similarity ranking algorithm. If the agent's feedback is absolute such as match or no-match, we use classification similarity algorithm. We also present the threats to the validity of our approach and present a possible remedy making use of product taxonomy and catalog. We showcase the comparative effectiveness and efficiency of the proposed approaches over many benchmarks and real-world data sets.
翻訳日:2023-01-16 03:44:47 公開日:2020-02-14
# Affordance Mapsで動くことを学ぶ

Learning to Move with Affordance Maps ( http://arxiv.org/abs/2001.02364v2 )

ライセンス: Link先を確認
William Qi, Ravi Teja Mullapudi, Saurabh Gupta, Deva Ramanan(参考訳) 物理的空間を自律的に探索し、ナビゲートする能力は、家庭用のロボット掃除機から自動運転車まで、事実上あらゆる移動型自律エージェントの基本的な要件である。 従来のSLAMベースの探索とナビゲーションのアプローチは、シーン幾何学の活用に重点を置いていたが、動的オブジェクト(他のエージェントなど)や意味的制約(濡れた床や戸口など)をモデル化できなかった。 学習ベースのrlエージェントは、意味的情報と幾何学的情報の両方を組み込むことができるが、非効率なサンプルであり、新しい設定への一般化が困難であり、解釈が難しいため、魅力的な選択肢である。 本稿では,両世界の長所を,従来の幾何学的プランナーと組み合わせることで,効果的に訓練されたシーンの空間的表現を学習するモジュール的アプローチと組み合わせる。 具体的には,行動的自己監督体験の収集を通じて,シーンのどの部分がナビゲート可能かを明らかにする空間的余裕マップを予測できるエージェントを設計した。 静的世界を仮定するほとんどのシミュレーション環境とは対照的に,vizdoomシミュレータでは,様々な動的アクタとハザードを含む大規模ランダム生成マップを用いてアプローチを評価した。 学習可能なアフォーアンスマップは,探索とナビゲーションの両面で従来のアプローチを補強し,性能を大幅に改善できることを示す。

The ability to autonomously explore and navigate a physical space is a fundamental requirement for virtually any mobile autonomous agent, from household robotic vacuums to autonomous vehicles. Traditional SLAM-based approaches for exploration and navigation largely focus on leveraging scene geometry, but fail to model dynamic objects (such as other agents) or semantic constraints (such as wet floors or doorways). Learning-based RL agents are an attractive alternative because they can incorporate both semantic and geometric information, but are notoriously sample inefficient, difficult to generalize to novel settings, and are difficult to interpret. In this paper, we combine the best of both worlds with a modular approach that learns a spatial representation of a scene that is trained to be effective when coupled with traditional geometric planners. Specifically, we design an agent that learns to predict a spatial affordance map that elucidates what parts of a scene are navigable through active self-supervised experience gathering. In contrast to most simulation environments that assume a static world, we evaluate our approach in the VizDoom simulator, using large-scale randomly-generated maps containing a variety of dynamic actors and hazards. We show that learned affordance maps can be used to augment traditional approaches for both exploration and navigation, providing significant improvements in performance.
翻訳日:2023-01-13 12:47:40 公開日:2020-02-14
# 深層カーネル学習によるシーケンス予測のためのステップワイズモデル選択

Stepwise Model Selection for Sequence Prediction via Deep Kernel Learning ( http://arxiv.org/abs/2001.03898v3 )

ライセンス: Link先を確認
Yao Zhang, Daniel Jarrett, Mihaela van der Schaar(参考訳) 自動機械学習(AutoML)における重要な問題は、モデル選択である。 シーケンシャルな設定におけるユニークな課題は、最適モデル自体が時間とともに変化し、各時点に利用可能な特徴やラベルの分布に依存するという事実である。 本稿では,本手法におけるモデル選択の課題に取り組むために,新しいベイズ最適化(bo)アルゴリズムを提案する。 これは各ステップのパフォーマンスを独自のブラックボックス関数として扱うことで実現される。 そこで我々は,複数のブラックボックス関数の最適化問題を協調的かつ効率的に解くために,ディープカーネル学習(DKL)を用いてブラックボックス関数間の潜在的な相関関係を利用する。 最善の知識を得るためには、シーケンス予測のためのステップワイズモデル選択(sms)の問題を最初に定式化し、この目的のために効率的な共同学習アルゴリズムを設計し、実証する。 提案手法は,複数の実世界のデータセットを用いて,様々なシーケンス予測タスクにおいて,標準的なBOアルゴリズムと多目的BOアルゴリズムより優れていることを確認した。

An essential problem in automated machine learning (AutoML) is that of model selection. A unique challenge in the sequential setting is the fact that the optimal model itself may vary over time, depending on the distribution of features and labels available up to each point in time. In this paper, we propose a novel Bayesian optimization (BO) algorithm to tackle the challenge of model selection in this setting. This is accomplished by treating the performance at each time step as its own black-box function. In order to solve the resulting multiple black-box function optimization problem jointly and efficiently, we exploit potential correlations among black-box functions using deep kernel learning (DKL). To the best of our knowledge, we are the first to formulate the problem of stepwise model selection (SMS) for sequence prediction, and to design and demonstrate an efficient joint-learning algorithm for this purpose. Using multiple real-world datasets, we verify that our proposed method outperforms both standard BO and multi-objective BO algorithms on a variety of sequence prediction tasks.
翻訳日:2023-01-12 04:32:28 公開日:2020-02-14
# HumBug Zooniverse:クラウドソースの音響蚊データセット

HumBug Zooniverse: a crowd-sourced acoustic mosquito dataset ( http://arxiv.org/abs/2001.04733v2 )

ライセンス: Link先を確認
Ivan Kiskin, Adam D. Cobb, Lawrence Wang, Stephen Roberts(参考訳) 蚊はマラリアの唯一の媒介者であり、毎年数十万人が死亡している。 潜在的な蚊ベクターの数と位置を理解することは、マラリア感染の減少を助けるために最重要となる。 近年,深層学習は生物音響分類に広く利用されている。 この分野でさらなる研究応用を可能にするため,蚊のオーディオ記録のデータセットを新たにリリースした。 1万5,434個の2秒間のラベルを1万5,434枚入手し、そのうち約10%が蚊のイベントを象徴しています。 本稿では、ログメル特徴量に基づいて畳み込みニューラルネットワークをトレーニングし、ラベルの情報内容を示すデータセットの例を示す。 これは、マラリアのあらゆる側面を研究する人々にとって重要なリソースとなり、生体音響検出と信号処理のための既存のオーディオデータセットを追加することを願っている。

Mosquitoes are the only known vector of malaria, which leads to hundreds of thousands of deaths each year. Understanding the number and location of potential mosquito vectors is of paramount importance to aid the reduction of malaria transmission cases. In recent years, deep learning has become widely used for bioacoustic classification tasks. In order to enable further research applications in this field, we release a new dataset of mosquito audio recordings. With over a thousand contributors, we obtained 195,434 labels of two second duration, of which approximately 10 percent signify mosquito events. We present an example use of the dataset, in which we train a convolutional neural network on log-Mel features, showcasing the information content of the labels. We hope this will become a vital resource for those researching all aspects of malaria, and add to the existing audio datasets for bioacoustic detection and signal processing.
翻訳日:2023-01-11 12:25:23 公開日:2020-02-14
# リアルタイムエンタープライズネットワークのためのインテリジェントで時間効率の良いddos識別フレームワークsad-f: sparkベースの異常検出フレームワーク

An Intelligent and Time-Efficient DDoS Identification Framework for Real-Time Enterprise Networks SAD-F: Spark Based Anomaly Detection Framework ( http://arxiv.org/abs/2001.08155v2 )

ライセンス: Link先を確認
Awais Ahmed, Sufian Hameed, Muhammad Rafi, Qublai Khan Ali Mirza(参考訳) 異常検出は、ネットワーク内の悪意あるアクティビティを防止し、正統なユーザのためにリソースを常に確保するための重要なステップである。 様々な研究から、古典的異常検知器は小さなサンプルデータでうまく機能するが、故障の確率はリアルタイム(非サンプリングデータ)のトラフィックデータで増加することが判明した。 本稿では,異なる機械学習技術を用いたDDoS異常検出のためのセキュリティ解析手法について検討する。 本稿では,システムへの入力として実際のトラフィックを扱う新しいアプローチを提案する。 さらに,提案フレームワークの性能因子を,標準ハードウェア,ローエンドシステム,ハイエンドシステムを含む3種類のテストベッド上で比較検討した。 各セクションでテストベッドのハードウェア詳細について論じる。 本稿では,アノマリーアタックの(近距離)リアルタイム検出における分類器の性能について検討する。 本研究は, 異常検出プロセスにおいて, 一般的なモデリング問題と同様に重要な特徴選択プロセスにも焦点をあてた。 特徴選択のためのいくつかの手法が研究され、適切な特徴選択がモデルの実行時間(トラフィックファイルやトラフィックキャプチャプロセスに依存する)で性能を向上させることが観察された。

Anomaly detection is a crucial step for preventing malicious activities in the network and keeping resources available all the time for legitimate users. It is noticed from various studies that classical anomaly detectors work well with small and sampled data, but the chances of failures increase with real-time (non-sampled data) traffic data. In this paper, we will be exploring security analytic techniques for DDoS anomaly detection using different machine learning techniques. In this paper, we are proposing a novel approach which deals with real traffic as input to the system. Further, we study and compare the performance factor of our proposed framework on three different testbeds including normal commodity hardware, low-end system, and high-end system. Hardware details of testbeds are discussed in the respective section. Further in this paper, we investigate the performance of the classifiers in (near) real-time detection of anomalies attacks. This study also focused on the feature selection process that is as important for the anomaly detection process as it is for general modeling problems. Several techniques have been studied for feature selection and it is observed that proper feature selection can increase performance in terms of model's execution time - which totally depends upon the traffic file or traffic capturing process.
翻訳日:2023-01-07 23:53:19 公開日:2020-02-14
# 高速なプロジェクションフリーオンライン学習

Faster Projection-free Online Learning ( http://arxiv.org/abs/2001.11568v2 )

ライセンス: Link先を確認
Elad Hazan and Edgar Minasyan(参考訳) 多くのオンライン学習問題において、勾配に基づく方法の計算ボトルネックは投影演算である。 このため、多くの問題において最も効率的なアルゴリズムは、射影を線形最適化によって置き換えるフランク=ウルフ法に基づいている。 しかし、一般的な場合、オンライン射影自由法は射影法よりも多くの反復を必要とする:最もよく知られた後悔境界スケールは$T^{3/4}$である。 フランク=ウルフ法の様々な変種に関する研究にもかかわらず、この境界は10年間変わっていない。 本稿では, オンライン凸最適化に$t^{2/3}$を保証し, 円滑なコスト関数と1イテレーション当たりの線形最適化計算を実現した, 効率的なプロジェクションフリーアルゴリズムを提案する。 従来のFrank-Wolfe手法とは対照的に,本アルゴリズムはFollow-the-Perturbed-Leader法を用いて導出され,オンラインプライマリ・デュアル・フレームワークを用いて解析される。

In many online learning problems the computational bottleneck for gradient-based methods is the projection operation. For this reason, in many problems the most efficient algorithms are based on the Frank-Wolfe method, which replaces projections by linear optimization. In the general case, however, online projection-free methods require more iterations than projection-based methods: the best known regret bound scales as $T^{3/4}$. Despite significant work on various variants of the Frank-Wolfe method, this bound has remained unchanged for a decade. In this paper we give an efficient projection-free algorithm that guarantees $T^{2/3}$ regret for general online convex optimization with smooth cost functions and one linear optimization computation per iteration. As opposed to previous Frank-Wolfe approaches, our algorithm is derived using the Follow-the-Perturbed-Leader method and is analyzed using an online primal-dual framework.
翻訳日:2023-01-05 12:03:35 公開日:2020-02-14
# CTCに基づく音声活動検出と統合したエンドツーエンド音声認識

End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice Activity Detection ( http://arxiv.org/abs/2002.00551v2 )

ライセンス: Link先を確認
Takenori Yoshimura, Tomoki Hayashi, Kazuya Takeda and Shinji Watanabe(参考訳) 本稿では,音声活動検出(VAD)機能とエンド・ツー・エンドの音声認識機能を統合し,非常に長い音声記録を翻訳する。 我々はコネクショニスト時間分類(CTC)とCTC/アテンションアーキテクチャの拡張に焦点を当てた。 注意に基づくアーキテクチャとは対照的に、CTC(pre-)softmax出力による欲求検索に基づいて、入力同期ラベル予測を行うことができる。 この予測には連続した長いブランクラベルが含まれており、非音声領域と見なすことができる。 我々は、ラベルを単純なしきい値で音声セグメントを検出する手がかりとして用いる。 閾値は、従来のVADハイパーパラメータよりも直感的で制御しやすい非音声領域の長さと直接関連している。 実験結果から,提案手法は従来のエネルギーベースおよびニューラルネットワークベースのvad法でベースライン法を上回り,rtfを0.2以下で達成した。 提案手法が公開されている。

This paper integrates a voice activity detection (VAD) function with end-to-end automatic speech recognition toward an online speech interface and transcribing very long audio recordings. We focus on connectionist temporal classification (CTC) and its extension of CTC/attention architectures. As opposed to an attention-based architecture, input-synchronous label prediction can be performed based on a greedy search with the CTC (pre-)softmax output. This prediction includes consecutive long blank labels, which can be regarded as a non-speech region. We use the labels as a cue for detecting speech segments with simple thresholding. The threshold value is directly related to the length of a non-speech region, which is more intuitive and easier to control than conventional VAD hyperparameters. Experimental results on unsegmented data show that the proposed method outperformed the baseline methods using the conventional energy-based and neural-network-based VAD methods and achieved an RTF less than 0.2. The proposed method is publicly available.
翻訳日:2023-01-04 09:25:18 公開日:2020-02-14
# Transformer Transducer: Transformer Encoder と RNN-T Loss を用いたストリーム型音声認識モデル

Transformer Transducer: A Streamable Speech Recognition Model with Transformer Encoders and RNN-T Loss ( http://arxiv.org/abs/2002.02562v2 )

ライセンス: Link先を確認
Qian Zhang, Han Lu, Hasim Sak, Anshuman Tripathi, Erik McDermott, Stephen Koo, Shankar Kumar(参考訳) 本稿では,ストリーミング音声認識システムで使用可能なTransformerエンコーダを用いたエンドツーエンド音声認識モデルを提案する。 自己アテンションに基づくトランスフォーマー計算ブロックは、オーディオシーケンスとラベルシーケンスの両方を独立にエンコードするために使用される。 オーディオエンコーダとラベルエンコーダの両方からのアクティベーションをフィードフォワード層と組み合わせて、音響フレーム位置とラベル履歴の組合せ毎にラベル空間上の確率分布を算出する。 これは、Transformerエンコーダの代わりに情報エンコーディングにRNNを使用するRecurrent Neural Network Transducer (RNN-T)モデルに似ている。 このモデルはストリーミング復号化に適したRNN-T損失で訓練されている。 本稿では, トランスフォーマー層における自己付着の左コンテキストを制限することで, ストリーミングの計算性が向上することを示すlibrispeechデータセットについて報告する。 また、我々のモデルの全注目バージョンが、LibriSpeechベンチマークの最先端の精度を上回ります。 また,本モデルでは,今後のフレーム数を限定することで,全注意と限定注意とのギャップを埋めることができることを示した。

In this paper we present an end-to-end speech recognition model with Transformer encoders that can be used in a streaming speech recognition system. Transformer computation blocks based on self-attention are used to encode both audio and label sequences independently. The activations from both audio and label encoders are combined with a feed-forward layer to compute a probability distribution over the label space for every combination of acoustic frame position and label history. This is similar to the Recurrent Neural Network Transducer (RNN-T) model, which uses RNNs for information encoding instead of Transformer encoders. The model is trained with the RNN-T loss well-suited to streaming decoding. We present results on the LibriSpeech dataset showing that limiting the left context for self-attention in the Transformer layers makes decoding computationally tractable for streaming, with only a slight degradation in accuracy. We also show that the full attention version of our model beats the-state-of-the art accuracy on the LibriSpeech benchmarks. Our results also show that we can bridge the gap between full attention and limited attention versions of our model by attending to a limited number of future frames.
翻訳日:2023-01-03 05:02:10 公開日:2020-02-14
# 組合せ最適化のための強化量子インスピレーションアルゴリズム

Reinforcement Learning Enhanced Quantum-inspired Algorithm for Combinatorial Optimization ( http://arxiv.org/abs/2002.04676v2 )

ライセンス: Link先を確認
Dmitrii Beloborodov (1), A. E. Ulanov (1), Jakob N. Foerster (2), Shimon Whiteson (2), A. I. Lvovsky (1 and 2) ((1) Russian Quantum Center, (2) University of Oxford)(参考訳) 量子ハードウェアと量子インスパイアされたアルゴリズムは、組合せ最適化でますます人気が高まっている。 しかし、これらのアルゴリズムは各問題インスタンスに対して注意深いハイパーパラメータチューニングを必要とする可能性がある。 我々は、量子インスパイアされたアルゴリズムと共に強化学習エージェントを用いて、最大カット問題に相当するIsingエネルギー最小化問題を解く。 エージェントは、最近見られたソリューションを改善することを目的として、パラメータの1つをチューニングすることでアルゴリズムを制御する。 エージェントがローカルオプティマから逃れるのを手助けする,安定したセルフプレイトレーニングのシングルプレイヤーバージョンを実現するための新しいR3手法を提案する。 任意の問題インスタンスにおけるトレーニングは、ランダムに生成された問題を訓練したエージェントから転送学習を適用することで促進することができる。 提案手法は,イジング問題に対する高品質解を高い確率でサンプリングし,ベースラインヒューリスティックスとブラックボックスハイパーパラメータ最適化手法を両立させる。

Quantum hardware and quantum-inspired algorithms are becoming increasingly popular for combinatorial optimization. However, these algorithms may require careful hyperparameter tuning for each problem instance. We use a reinforcement learning agent in conjunction with a quantum-inspired algorithm to solve the Ising energy minimization problem, which is equivalent to the Maximum Cut problem. The agent controls the algorithm by tuning one of its parameters with the goal of improving recently seen solutions. We propose a new Rescaled Ranked Reward (R3) method that enables stable single-player version of self-play training that helps the agent to escape local optima. The training on any problem instance can be accelerated by applying transfer learning from an agent trained on randomly generated problems. Our approach allows sampling high-quality solutions to the Ising problem with high probability and outperforms both baseline heuristics and a black-box hyperparameter optimization approach.
翻訳日:2023-01-02 01:11:48 公開日:2020-02-14
# 学習による高次元構造分布の効率的な距離近似

Efficient Distance Approximation for Structured High-Dimensional Distributions via Learning ( http://arxiv.org/abs/2002.05378v2 )

ライセンス: Link先を確認
Arnab Bhattacharyya, Sutanu Gayen, Kuldeep S. Meel, N. V. Vinodchandran(参考訳) 我々は,構造化高次元分布のクラスに対して効率的な距離近似アルゴリズムを設計する。 Specifically, we show algorithms for the following problems: - Given sample access to two Bayesian networks $P_1$ and $P_2$ over known directed acyclic graphs $G_1$ and $G_2$ having $n$ nodes and bounded in-degree, approximate $d_{tv}(P_1,P_2)$ to within additive error $\epsilon$ using $poly(n,\epsilon)$ samples and time - Given sample access to two ferromagnetic Ising models $P_1$ and $P_2$ on $n$ variables with bounded width, approximate $d_{tv}(P_1, P_2)$ to within additive error $\epsilon$ using $poly(n,\epsilon)$ samples and time - Given sample access to two $n$-dimensional Gaussians $P_1$ and $P_2$, approximate $d_{tv}(P_1, P_2)$ to within additive error $\epsilon$ using $poly(n,\epsilon)$ samples and time - Given access to observations from two causal models $P$ and $Q$ on $n$ variables that are defined over known causal graphs, approximate $d_{tv}(P_a, Q_a)$ to within additive error $\epsilon$ using $poly(n,\epsilon)$ samples, where $P_a$ and $Q_a$ are the interventional distributions obtained by the intervention $do(A=a)$ on $P$ and $Q$ respectively for a particular variable $A$. 我々の結果は、これらのよく研究された問題に対する最初の効率的な距離近似アルゴリズムである。 これらは分布学習アルゴリズムへの単純で一般的な接続を用いて導出される。 距離近似アルゴリズムは、上述した構造化高次元分布の近接性をテストするための新しい効率的なアルゴリズムである。

We design efficient distance approximation algorithms for several classes of structured high-dimensional distributions. Specifically, we show algorithms for the following problems: - Given sample access to two Bayesian networks $P_1$ and $P_2$ over known directed acyclic graphs $G_1$ and $G_2$ having $n$ nodes and bounded in-degree, approximate $d_{tv}(P_1,P_2)$ to within additive error $\epsilon$ using $poly(n,\epsilon)$ samples and time - Given sample access to two ferromagnetic Ising models $P_1$ and $P_2$ on $n$ variables with bounded width, approximate $d_{tv}(P_1, P_2)$ to within additive error $\epsilon$ using $poly(n,\epsilon)$ samples and time - Given sample access to two $n$-dimensional Gaussians $P_1$ and $P_2$, approximate $d_{tv}(P_1, P_2)$ to within additive error $\epsilon$ using $poly(n,\epsilon)$ samples and time - Given access to observations from two causal models $P$ and $Q$ on $n$ variables that are defined over known causal graphs, approximate $d_{tv}(P_a, Q_a)$ to within additive error $\epsilon$ using $poly(n,\epsilon)$ samples, where $P_a$ and $Q_a$ are the interventional distributions obtained by the intervention $do(A=a)$ on $P$ and $Q$ respectively for a particular variable $A$. Our results are the first efficient distance approximation algorithms for these well-studied problems. They are derived using a simple and general connection to distribution learning algorithms. The distance approximation algorithms imply new efficient algorithms for {\em tolerant} testing of closeness of the above-mentioned structured high-dimensional distributions.
翻訳日:2023-01-01 13:50:20 公開日:2020-02-14
# ganilla: 画像からイラストへの翻訳のための生成的広告ネットワーク

GANILLA: Generative Adversarial Networks for Image to Illustration Translation ( http://arxiv.org/abs/2002.05638v2 )

ライセンス: Link先を確認
Samet Hicsonmez, Nermin Samet, Emre Akbas, Pinar Duygulu(参考訳) 本稿では,未完成のイメージ・ツー・イメージ翻訳の新たな領域として,児童書の挿絵を探求する。 現状の画像から画像への翻訳モデルは、スタイルとコンテンツの両方を転送することに成功したが、両者を同時に転送することはできなかった。 本稿では,この問題に対処する新しいジェネレータネットワークを提案し,その結果のネットワークがスタイルとコンテンツのバランスを良くすることを示す。 未ペア画像から画像への変換のための、明確に定義された、あるいは合意された評価指標は存在しない。 これまでのところ、画像翻訳モデルの成功は、限られた数の画像に対する主観的、定性的比較に基づいている。 この問題に対処するために,コンテンツとスタイルを別個の分類器を用いて考慮し,画像と画像の照合モデルの定量的評価を行うフレームワークを提案する。 この新しい評価フレームワークでは,提案モデルが現在のデータ集合の最先端モデルよりも優れた性能を発揮する。 私たちのコードと事前トレーニングされたモデルは、https://github.com/giddyyupp/ganillaで確認できます。

In this paper, we explore illustrations in children's books as a new domain in unpaired image-to-image translation. We show that although the current state-of-the-art image-to-image translation models successfully transfer either the style or the content, they fail to transfer both at the same time. We propose a new generator network to address this issue and show that the resulting network strikes a better balance between style and content. There are no well-defined or agreed-upon evaluation metrics for unpaired image-to-image translation. So far, the success of image translation models has been based on subjective, qualitative visual comparison on a limited number of images. To address this problem, we propose a new framework for the quantitative evaluation of image-to-illustration models, where both content and style are taken into account using separate classifiers. In this new evaluation framework, our proposed model performs better than the current state-of-the-art models on the illustrations dataset. Our code and pretrained models can be found at https://github.com/giddyyupp/ganilla.
翻訳日:2023-01-01 13:31:34 公開日:2020-02-14
# geom-gcn:幾何グラフ畳み込みネットワーク

Geom-GCN: Geometric Graph Convolutional Networks ( http://arxiv.org/abs/2002.05287v2 )

ライセンス: Link先を確認
Hongbin Pei, Bingzhe Wei, Kevin Chen-Chuan Chang, Yu Lei, Bo Yang(参考訳) メッセージパッシングニューラルネットワーク(MPNN)は、さまざまな現実世界のアプリケーションにおいて、グラフ上の表現学習に成功している。 しかし、MPNNのアグリゲータの2つの根本的な弱点は、グラフ構造化されたデータを表現する能力を制限することである。 異なる視点から弱点に気付いた研究はほとんどない。 古典的ニューラルネットワークとネットワーク幾何学の観察から,グラフニューラルネットワークの2つの弱点を克服するための新しい幾何集約スキームを提案する。 基本的な考え方の背後には、グラフ上のアグリゲーションは、グラフの基盤となる連続的な空間の恩恵を受けることができる。 提案手法は置換不変であり,ノード埋め込み,構造近傍,バイレベルアグリゲーションの3つのモジュールからなる。 また,この手法をジオメトリグラフ畳み込みネットワーク(geometric graph convolutional networks)と呼ぶグラフ畳み込みネットワークにおいて実装し,グラフ上でのトランスダクティブ学習を行う。 実験結果から,提案したGeom-GCNは,グラフの幅広いオープンデータセット上で最先端の性能を達成した。 コードはhttps://github.com/graphdml-uiuc-jlu/geom-gcnで入手できる。

Message-passing neural networks (MPNNs) have been successfully applied to representation learning on graphs in a variety of real-world applications. However, two fundamental weaknesses of MPNNs' aggregators limit their ability to represent graph-structured data: losing the structural information of nodes in neighborhoods and lacking the ability to capture long-range dependencies in disassortative graphs. Few studies have noticed the weaknesses from different perspectives. From the observations on classical neural network and network geometry, we propose a novel geometric aggregation scheme for graph neural networks to overcome the two weaknesses. The behind basic idea is the aggregation on a graph can benefit from a continuous space underlying the graph. The proposed aggregation scheme is permutation-invariant and consists of three modules, node embedding, structural neighborhood, and bi-level aggregation. We also present an implementation of the scheme in graph convolutional networks, termed Geom-GCN (Geometric Graph Convolutional Networks), to perform transductive learning on graphs. Experimental results show the proposed Geom-GCN achieved state-of-the-art performance on a wide range of open datasets of graphs. Code is available at https://github.com/graphdml-uiuc-jlu/geom-gcn.
翻訳日:2023-01-01 09:34:29 公開日:2020-02-14
# 感情コミュニケーションにおける情報

The Information in Emotion Communication ( http://arxiv.org/abs/2002.08470v1 )

ライセンス: Link先を確認
Alison Duncan Kerr and Kevin Scharp(参考訳) 動物が感情を使ってコミュニケーションを行うとき、どのくらいの情報が伝達されるのか? 感情が人間や他の種のコミュニケーションシステムとして使われることは明らかである。 ここで提示される感情情報の定量的理論は、コミュニケーションシステムにおけるシャノンの情報に関する数学的理論に基づいている。 この理論は、感情コミュニケーションの無数の側面を説明し、研究のための数十の新しい方向を提供する。 これは、現在支配的な感情拡散の「伝染」理論よりも優れている。 感情コミュニケーションの情報理論の重要な応用の1つは、今日のオンラインの感情操作に対して、ソーシャルネットワークのための感情セキュリティシステムの開発を可能にすることである。

How much information is transmitted when animals use emotions to communicate? It is clear that emotions are used as communication systems in humans and other species. The quantitative theory of emotion information presented here is based on Shannon's mathematical theory of information in communication systems. The theory explains myriad aspects of emotion communication and offers dozens of new directions for research. It is superior to the "contagion" theory of emotion spreading, which is currently dominant. One important application of the information theory of emotion communication is that it permits the development of emotion security systems for social networks to guard against the widespread emotion manipulation we see online today.
翻訳日:2023-01-01 05:19:35 公開日:2020-02-14
# モノのインターネットの最適価格:機械学習によるアプローチ

Optimal Pricing of Internet of Things: A Machine Learning Approach ( http://arxiv.org/abs/2002.05929v1 )

ライセンス: Link先を確認
Mohammad Abu Alsheikh, Dinh Thai Hoang, Dusit Niyato, Derek Leong, Ping Wang, and Zhu Han(参考訳) IoT(Internet of Things)は、センサーに埋め込まれたデバイスから大量のデータを生成する。 IoTデータにより、機械学習を使って収益性の高いサービスを作成することができる。 しかし、以前の研究では、機械学習ベースのIoTサービスの最適価格とバンドルの問題に対処していない。 本稿では,機械学習の観点からデータの価値とサービス品質を定義する。 当社は、データベンダがサービスプロバイダにデータを販売しているIoT市場モデルと、IoTサービスを顧客に提供しているサービスプロバイダで構成されています。 次に、IoTサービスのスタンドアロンおよびバンドル販売のための最適な価格体系を紹介します。 スタンドアロンサービス販売では、サービスプロバイダは購入したデータとサービスサブスクリプション料金のサイズを最適化し、利益を最大化する。 サービスバンドルでは、グループ化されたIoTサービスのサブスクリプション料金とデータサイズが最適化され、協調的なサービスプロバイダの総利益を最大化する。 IoTサービスのバンドルは、スタンドアロンの販売と比較して、サービスプロバイダの利益を最大化します。 バンドルサービスの利益分配のために,協調ゲーム理論のコアとシャプリーソリューションの概念を,バンドル連合における協調サービス提供者間での報酬の効率的かつ公平な配分として適用する。

Internet of things (IoT) produces massive data from devices embedded with sensors. The IoT data allows creating profitable services using machine learning. However, previous research does not address the problem of optimal pricing and bundling of machine learning-based IoT services. In this paper, we define the data value and service quality from a machine learning perspective. We present an IoT market model which consists of data vendors selling data to service providers, and service providers offering IoT services to customers. Then, we introduce optimal pricing schemes for the standalone and bundled selling of IoT services. In standalone service sales, the service provider optimizes the size of bought data and service subscription fee to maximize its profit. For service bundles, the subscription fee and data sizes of the grouped IoT services are optimized to maximize the total profit of cooperative service providers. We show that bundling IoT services maximizes the profit of service providers compared to the standalone selling. For profit sharing of bundled services, we apply the concepts of core and Shapley solutions from cooperative game theory as efficient and fair allocations of payoffs among the cooperative service providers in the bundling coalition.
翻訳日:2023-01-01 05:17:29 公開日:2020-02-14
# 量子系の実験からの学習モデル

Learning models of quantum systems from experiments ( http://arxiv.org/abs/2002.06169v1 )

ライセンス: Link先を確認
Antonio A. Gentile, Brian Flynn, Sebastian Knauer, Nathan Wiebe, Stefano Paesani, Christopher E. Granade, John G. Rarity, Raffaele Santagati, Anthony Laing(参考訳) 相互作用する量子粒子の孤立系はハミルトン作用素によって記述される。 ハミルトンモデルは、科学や産業全体を通して物理および化学プロセスの研究と分析を支えているため、それらが表すシステムに忠実であることは重要である。 しかし、量子系の相互作用を直接観察することは不可能であるため、実験データから量子系のハミルトンモデルの定式化とテストは困難である。 本稿では,教師なし機械学習を用いて実験からハミルトンモデルを取り出す手法を提案し,実証する。 我々は,スピンバス環境と相互作用する窒素空孔中の電子スピンを実験的に実験し,最大86%の成功率を数値的に求めた。 意味のある表現を復元する科学を学習できるエージェントを構築することで、量子システムの物理学に関するさらなる洞察を得ることができる。

An isolated system of interacting quantum particles is described by a Hamiltonian operator. Hamiltonian models underpin the study and analysis of physical and chemical processes throughout science and industry, so it is crucial they are faithful to the system they represent. However, formulating and testing Hamiltonian models of quantum systems from experimental data is difficult because it is impossible to directly observe which interactions the quantum system is subject to. Here, we propose and demonstrate an approach to retrieving a Hamiltonian model from experiments, using unsupervised machine learning. We test our methods experimentally on an electron spin in a nitrogen-vacancy interacting with its spin bath environment, and numerically, finding success rates up to 86%. By building agents capable of learning science, which recover meaningful representations, we can gain further insight on the physics of quantum systems.
翻訳日:2023-01-01 05:17:13 公開日:2020-02-14
# TwinBERT: 効率的な検索のための双構造化BERTモデルに対する知識の蒸留

TwinBERT: Distilling Knowledge to Twin-Structured BERT Models for Efficient Retrieval ( http://arxiv.org/abs/2002.06275v1 )

ライセンス: Link先を確認
Wenhao Lu, Jian Jiao, Ruofei Zhang(参考訳) BERTのような事前訓練された言語モデルは、様々なNLPタスクにおいて大きな成功を収め、優れた性能は、低遅延IRシステムでの応用を妨げる計算リソースの要求が高い。 本稿では,TwinBERT モデルを用いて,クエリとドキュメントをそれぞれ表現するツイン構造化BERT ライクなエンコーダと,埋め込みを組み合わせ,類似度スコアを生成するクロスレイヤを提案する。 2つの入力文が結合してエンコードされるBERTとは異なり、TwinBERTはエンコード中にそれらを分離し、クエリとドキュメントの埋め込みを独立して生成する。 実行時に残される計算は、クエリエンコーディングとクエリドキュメントの交差のみから行われる。 この単一の変更は、大量の計算時間とリソースを節約し、それによって効率を大幅に改善する。 さらに, BERTモデルと同等の性能を維持しつつ, 計算コストをさらに削減するために, ネットワーク層とトレーニング戦略がいくつか提案されている。 最後に、TwinBERTの2つのバージョンを検索・関連タスクとして開発し、それぞれがBERT-Baseモデルに対して近接またはオンパー性能を実現する。 モデルは教師/学生のフレームワークに従ってトレーニングされ、主要な検索エンジンの1つからのデータで評価された。 実験の結果、推定時間は大幅に短縮され、cpu上では20ミリ秒程度に制御され、同時に、微調整されたbertベースモデルによる性能向上もほぼ維持された。 モデルのプロダクションシステムへの統合は、レイテンシーに無視できる影響を与えながら、関連メトリクスにおいて顕著な改善を示した。

Pre-trained language models like BERT have achieved great success in a wide variety of NLP tasks, while the superior performance comes with high demand in computational resources, which hinders the application in low-latency IR systems. We present TwinBERT model for effective and efficient retrieval, which has twin-structured BERT-like encoders to represent query and document respectively and a crossing layer to combine the embeddings and produce a similarity score. Different from BERT, where the two input sentences are concatenated and encoded together, TwinBERT decouples them during encoding and produces the embeddings for query and document independently, which allows document embeddings to be pre-computed offline and cached in memory. Thereupon, the computation left for run-time is from the query encoding and query-document crossing only. This single change can save large amount of computation time and resources, and therefore significantly improve serving efficiency. Moreover, a few well-designed network layers and training strategies are proposed to further reduce computational cost while at the same time keep the performance as remarkable as BERT model. Lastly, we develop two versions of TwinBERT for retrieval and relevance tasks correspondingly, and both of them achieve close or on-par performance to BERT-Base model. The model was trained following the teacher-student framework and evaluated with data from one of the major search engines. Experimental results showed that the inference time was significantly reduced and was firstly controlled around 20ms on CPUs while at the same time the performance gain from fine-tuned BERT-Base model was mostly retained. Integration of the models into production systems also demonstrated remarkable improvements on relevance metrics with negligible influence on latency.
翻訳日:2023-01-01 05:16:59 公開日:2020-02-14
# 深層学習を用いた機能近赤外分光法による精密応力評価

Accurate Stress Assessment based on functional Near Infrared Spectroscopy using Deep Learning Approach ( http://arxiv.org/abs/2002.06282v1 )

ライセンス: Link先を確認
Mahya Mirbagheri, Ata Jodeiri, Naser Hakimi, Vahid Zakeri, Seyed Kamaledin Setarehdan(参考訳) ストレスは人間の健康を脅かす主要な要因の1つとして知られている。 脳や心臓関連信号を分析してストレスを評価するか緩和するために、多くの研究がなされている。 本研究では,健常者10名の脳の機能的近赤外分光法(fnirs)による信号を用いて,モントリオール・イメージングストレス課題によって引き起こされるストレスを深層学習システムを用いて評価する。 提案するディープラーニングシステムは,主に2つの部分から構成される。まず,情報的特徴マップを構築するために,一次元畳み込みニューラルネットワークを用いる。 次に、応力存在確率を予測するために、深い完全連結層のスタックを用いる。 実験の結果, トレーニングされたfNIRSモデルは, 88.52~0.77%の精度で応力分類を行うことがわかった。 fnirs測定に基づいて訓練された深層学習システムの採用は、同じ実験手順を用いたfnirs研究で提案された既存の方法よりも高い応力分類精度をもたらす。 提案手法は予測のばらつきが少ないほど安定性が向上することを示す。 さらに、計算コストの低さは、リアルタイムストレス評価に適用できる可能性を開く。

Stress is known as one of the major factors threatening human health. A large number of studies have been performed in order to either assess or relieve stress by analyzing the brain and heart-related signals. In this study, signals produced by functional Near-Infrared Spectroscopy (fNIRS) of the brain recorded from 10 healthy volunteers are employed to assess the stress induced by the Montreal Imaging Stress Task by means of a deep learning system. The proposed deep learning system consists of two main parts: First, the one-dimensional convolutional neural network is employed to build informative feature maps. Then, a stack of deep fully connected layers is used to predict the stress existence probability. Experiment results showed that the trained fNIRS model performs stress classification by achieving 88.52 -+ 0.77% accuracy. Employment of the proposed deep learning system trained on the fNIRS measurements leads to higher stress classification accuracy than the existing methods proposed in fNIRS studies in which the same experimental procedure has been employed. The proposed method suggests better stability with lower variation in prediction. Furthermore, its low computational cost opens up the possibility to be applied in real-time stress assessment.
翻訳日:2023-01-01 05:16:33 公開日:2020-02-14
# ニューラルネットワークプロセッサアーキテクチャを用いたバッチアルゴリズム高速化のための最適スケジューリングアーキテクチャ

An optimal scheduling architecture for accelerating batch algorithms on Neural Network processor architectures ( http://arxiv.org/abs/2002.07062v1 )

ライセンス: Link先を確認
Phani Kumar Nyshadham, Mohit Sinha, Biswajit Mishra, H S Vijay(参考訳) ニューラルネットワークトポロジでは、アルゴリズムはデータテンソルのバッチ上で動作する。 データのバッチは通常、並列に実行されるコンピューティングコアにスケジュールされる。 データバッチ上で動作するアルゴリズムにとって、最適なバッチスケジューリングアーキテクチャは、ハードウェアリソースを適切に活用することで、非常に必要となる。 本稿では,最適な計算パワー利用を実現するスケジューリングアーキテクチャを用いて,ニューラルネットワークのバッチアルゴリズムを高速化する。 提案した最適スケジューリングアーキテクチャはHWに組み込むこともできるし、SWのみで実装することもできる。 その結果,提案したアーキテクチャは,従来のソリューションと比較してバッチアルゴリズムの高速化を図っている。 提案されたアイデアは、ニューラルネットワークのためのhpcアーキテクチャに適用される。

In neural network topologies, algorithms are running on batches of data tensors. The batches of data are typically scheduled onto the computing cores which execute in parallel. For the algorithms running on batches of data, an optimal batch scheduling architecture is very much needed by suitably utilizing hardware resources - thereby resulting in significant reduction training and inference time. In this paper, we propose to accelerate the batch algorithms for neural networks through a scheduling architecture enabling optimal compute power utilization. The proposed optimal scheduling architecture can be built into HW or can be implemented in SW alone which can be leveraged for accelerating batch algorithms. The results demonstrate that the proposed architecture speeds up the batch algorithms compared to the previous solutions. The proposed idea applies to any HPC architecture meant for neural networks.
翻訳日:2023-01-01 05:16:14 公開日:2020-02-14
# Boosted Locality Sensitive Hashing: ソース分離のための差別的なバイナリコード

Boosted Locality Sensitive Hashing: Discriminative Binary Codes for Source Separation ( http://arxiv.org/abs/2002.06239v1 )

ライセンス: Link先を確認
Sunwoo Kim, Haici Yang, Minje Kim(参考訳) 音声強調タスクは、ディープラーニング技術の進歩によって大幅に改善されているが、計算の複雑さが増大するコストが伴う。 本研究では,音声スペクトルを効率よく表現する局所性に敏感なハッシュ符号を学習するための適応的促進手法を提案する。 学習したハッシュコードは、複雑な機械学習モデルの代替として、特にリソースに制約のある環境に対処するために、単一チャネルの音声認識タスクに使用される。 適応ブースティングアルゴリズムは,単純なロジスティック回帰を弱い学習者として学習する。 一度訓練すると、その二分分類結果は、テストノイズ音声の各スペクトルをビット文字列に変換する。 簡単なビットワイズ演算はハミング距離を計算し、学習ノイズ音声スペクトルの辞書でK-アネアレストマッチングフレームを見つけ、関連する理想二乗マスクを平均化し、その試験混合物の復調マスクを推定する。 提案する学習アルゴリズムは,ハッシュ符号の自己相似行列と原スペクトルとの距離を,誤分類率よりも最小にするために,投影法を訓練するという意味で,AdaBoostと異なる。 我々は,様々なノイズタイプを持つティミットコーパス上での識別ハッシュコードを評価し,その性能と複雑性について深層学習法と比較した。

Speech enhancement tasks have seen significant improvements with the advance of deep learning technology, but with the cost of increased computational complexity. In this study, we propose an adaptive boosting approach to learning locality sensitive hash codes, which represent audio spectra efficiently. We use the learned hash codes for single-channel speech denoising tasks as an alternative to a complex machine learning model, particularly to address the resource-constrained environments. Our adaptive boosting algorithm learns simple logistic regressors as the weak learners. Once trained, their binary classification results transform each spectrum of test noisy speech into a bit string. Simple bitwise operations calculate Hamming distance to find the K-nearest matching frames in the dictionary of training noisy speech spectra, whose associated ideal binary masks are averaged to estimate the denoising mask for that test mixture. Our proposed learning algorithm differs from AdaBoost in the sense that the projections are trained to minimize the distances between the self-similarity matrix of the hash codes and that of the original spectra, rather than the misclassification rate. We evaluate our discriminative hash codes on the TIMIT corpus with various noise types, and show comparative performance to deep learning methods in terms of denoising performance and complexity.
翻訳日:2023-01-01 05:15:42 公開日:2020-02-14
# 深部テンソル圧縮のバック・アンド・フォース予測

Back-and-Forth prediction for deep tensor compression ( http://arxiv.org/abs/2002.07036v1 )

ライセンス: Link先を確認
Hyomin Choi and Robert A. Cohen and Ivan V. Bajic(参考訳) ニューラルネットワークとコラボレーティブインテリジェンスのような最近のAIアプリケーションは、様々なコンピュータデバイス間で深い特徴テンソルを転送する。 これにより、デバイス間の帯域制限のあるチャネルの使用を最適化するためにテンソル圧縮が必要である。 本稿では,深い特徴量テンソルに対して開発したback-and-forth (baf) 予測法を提案する。 提案手法は, モデル内の深部から抽出した特徴テンソルの圧縮に必要なビット数を, ネットワーク重みの調整を必要とせず, 検出性能を劣化させることなく, 大幅に削減できることを示す。 ネットワークの精度の低下を1%未満と2%に抑えながら, テンソルサイズの62%と75%の削減を実現した。

Recent AI applications such as Collaborative Intelligence with neural networks involve transferring deep feature tensors between various computing devices. This necessitates tensor compression in order to optimize the usage of bandwidth-constrained channels between devices. In this paper we present a prediction scheme called Back-and-Forth (BaF) prediction, developed for deep feature tensors, which allows us to dramatically reduce tensor size and improve its compressibility. Our experiments with a state-of-the-art object detector demonstrate that the proposed method allows us to significantly reduce the number of bits needed for compressing feature tensors extracted from deep within the model, with negligible degradation of the detection performance and without requiring any retraining of the network weights. We achieve a 62% and 75% reduction in tensor size while keeping the loss in accuracy of the network to less than 1% and 2%, respectively.
翻訳日:2023-01-01 05:15:19 公開日:2020-02-14
# マルチタスク協調インテリジェンスのためのビット割り当て

Bit Allocation for Multi-Task Collaborative Intelligence ( http://arxiv.org/abs/2002.07048v1 )

ライセンス: Link先を確認
Saeed Ranjbar Alvar and Ivan V. Baji\'c(参考訳) 近年の研究では、コラボレーティブ・インテリジェンス(CI)が、モバイルデバイスにAIベースのサービスを展開する上で有望なフレームワークであることが示されている。 CIでは、モバイルデバイスとクラウドの間にディープニューラルネットワークが分割される。 モバイルで得られた深い特徴は圧縮されてクラウドに転送され、推論が完了する。 これまでの文献では、モバイルからクラウドへの1つの深い機能テンソルの転送に重点を置いていた。 このような方法は、複数の分岐とスキップ接続を持つ最近の高性能ネットワークには適用できない。 本稿では,マルチストリームマルチタスクCIのための最初のビット割り当て手法を提案する。 まず,異なる深部特徴テンソルに割り当てられたビットレートの関数として,複数のタスクの結合歪みのモデルを構築した。 そこで,提案モデルを用いて,全レート制約下でのレートゆらぎ最適化問題を解き,転送するテンソルの最適レート割当を求める。 実験により,提案手法の有効性を,いくつかの代替ビット割り当て法と比較した。

Recent studies have shown that collaborative intelligence (CI) is a promising framework for deployment of Artificial Intelligence (AI)-based services on mobile devices. In CI, a deep neural network is split between the mobile device and the cloud. Deep features obtained at the mobile are compressed and transferred to the cloud to complete the inference. So far, the methods in the literature focused on transferring a single deep feature tensor from the mobile to the cloud. Such methods are not applicable to some recent, high-performance networks with multiple branches and skip connections. In this paper, we propose the first bit allocation method for multi-stream, multi-task CI. We first establish a model for the joint distortion of the multiple tasks as a function of the bit rates assigned to different deep feature tensors. Then, using the proposed model, we solve the rate-distortion optimization problem under a total rate constraint to obtain the best rate allocation among the tensors to be transferred. Experimental results illustrate the efficacy of the proposed scheme compared to several alternative bit allocation methods.
翻訳日:2023-01-01 05:15:04 公開日:2020-02-14
# 大域的・局所的な心的制約を伴う記述論理の満足度と問合せ

Satisfiability and Query Answering in Description Logics with Global and Local Cardinality Constraints ( http://arxiv.org/abs/2002.06072v1 )

ライセンス: Link先を確認
Franz Baader, Bartosz Bednarczyk and Sebastian Rudolph(参考訳) 本稿では,前報で導入された大域的および局所的濃度制約を混合できる表現型記述論理 (dl) alcscc++について紹介・検討する。 一方で, 満足度検査や他の標準推論問題の複雑さを増大させるものではないことを証明した。 一方、言語に逆の役割を追加すると、充足可能性問題は決定不能になる。 さらに、逆役割がなくても、このdlに付随するクエリの補足は決定不能であることが判明した。 我々は,グローバル制約とローカル制約が混在せず,グローバル制約が適切に制限されていなければ,クエリの決定可能性を取り戻すことができることを示す。 後者の結果は局所非巡回モデルの構築に基づいており、制限された設定におけるクエリの含意をABox整合性、すなわちALCSCCにおけるABox整合性w.r.t.制限された濃度制約に還元する。

We introduce and investigate the expressive description logic (DL) ALCSCC++, in which the global and local cardinality constraints introduced in previous papers can be mixed. On the one hand, we prove that this does not increase the complexity of satisfiability checking and other standard inference problems. On the other hand, the satisfiability problem becomes undecidable if inverse roles are added to the languages. In addition, even without inverse roles, conjunctive query entailment in this DL turns out to be undecidable. We prove that decidability of querying can be regained if global and local constraints are not mixed and the global constraints are appropriately restricted. The latter result is based on a locally-acyclic model construction, and it reduces query entailment to ABox consistency in the restricted setting, i.e., to ABox consistency w.r.t. restricted cardinality constraints in ALCSCC, for which we can show an ExpTime upper bound.
翻訳日:2023-01-01 05:09:13 公開日:2020-02-14
# 単一話者選好を有する住宅市場におけるパレート最適性チェックの最適手順

An Optimal Procedure to Check Pareto-Optimality in House Markets with Single-Peaked Preferences ( http://arxiv.org/abs/2002.11660v1 )

ライセンス: Link先を確認
Aur\'elie Beynier and Nicolas Maudet and Simon Rey and Parham Shams(参考訳) 実際、厳格な選好の領域では、トップトレーディングサイクルアルゴリズムがパレート最適性、個人的合理性、戦略実証性を保証する唯一の手順であることが知られている。 しかし、単一話者領域では状況が異なっている。 実際、Bade氏はCrawlerという、同じ特性を享受する代替の手順を紹介した。 本稿では,このクローラについてさらに検討し,単一話者の選好に対してパレートオプティリティであるかどうかを最適に検証し,より一般的なドメインにおけるパレートオプティリティの検証に使用される既知の手法を改良したダイバーを提案する。 また,コミュニケーションの複雑さの観点から,ダイバーが漸近的に最適であることを示す。

Recently, the problem of allocating one resource per agent with initial endowments (house markets) has seen a renewed interest: indeed, while in the domain of strict preferences the Top Trading Cycle algorithm is known to be the only procedure guaranteeing Pareto-optimality, individual rationality, and strategy proofness. However, the situation differs in the single-peaked domain. Indeed, Bade presented the Crawler, an alternative procedure enjoying the same properties, with the additional advantage of being implementable in obviously dominant strategies. In this paper we further investigate the Crawler and propose the Diver, a variant which checks optimally whether an allocation is Pareto-optimal for single-peaked preferences, thus improving over known techniques used for checking Pareto-optimality in more general domains. We also prove that the Diver is asymptotically optimal in terms of communication complexity.
翻訳日:2023-01-01 05:08:35 公開日:2020-02-14
# 音声言語理解システムにおける対話履歴の統合

Dialogue history integration into end-to-end signal-to-concept spoken language understanding systems ( http://arxiv.org/abs/2002.06012v1 )

ライセンス: Link先を確認
Natalia Tomashenko, Christian Raymond, Antoine Caubriere, Renato De Mori, Yannick Esteve(参考訳) 本研究では,音声言語理解システム(SLU)における対話履歴の埋め込みについて検討する。 本稿では,音声信号から直接意味情報を抽出するシナリオを,単一エンドツーエンドニューラルネットワークモデルを用いて考察する。 対話履歴をエンドツーエンドのsluシステムに統合する提案を行った。 ダイアログ履歴は、ダイアログ履歴埋め込みベクトル(いわゆるhベクトル)の形式で表現され、システム性能を改善するために、エンドツーエンドのSLUモデルに追加情報として提供される。 本報告では,最後のダイアログシステム応答からユーザから期待される概念のバッグ・オブ・コンセプトを予測する教師型全埋め込み,選択されたセマンティックな概念のセットのみを予測する教師型全埋め込み(実験において最も頻繁なエラーに対応する),そして,(3)教師型非教師型埋め込みの3つの方法を提案する。 セマンティクススロット充填タスクのためのメディアコーパス実験により,提案するh-ベクトルがモデル性能を向上させることを実証した。

This work investigates the embeddings for representing dialog history in spoken language understanding (SLU) systems. We focus on the scenario when the semantic information is extracted directly from the speech signal by means of a single end-to-end neural network model. We proposed to integrate dialogue history into an end-to-end signal-to-concept SLU system. The dialog history is represented in the form of dialog history embedding vectors (so-called h-vectors) and is provided as an additional information to end-to-end SLU models in order to improve the system performance. Three following types of h-vectors are proposed and experimentally evaluated in this paper: (1) supervised-all embeddings predicting bag-of-concepts expected in the answer of the user from the last dialog system response; (2) supervised-freq embeddings focusing on predicting only a selected set of semantic concept (corresponding to the most frequent errors in our experiments); and (3) unsupervised embeddings. Experiments on the MEDIA corpus for the semantic slot filling task demonstrate that the proposed h-vectors improve the model performance.
翻訳日:2023-01-01 05:07:53 公開日:2020-02-14
# 高速及びユニバーサル・スタイル転送による超音波画像分割のための残像シフト

Remove Appearance Shift for Ultrasound Image Segmentation via Fast and Universal Style Transfer ( http://arxiv.org/abs/2002.05844v1 )

ライセンス: Link先を確認
Zhendong Liu, Xin Yang, Rui Gao, Shengfeng Liu, Haoran Dou, Shuangchi He, Yuhao Huang, Yankai Huang, Huanjia Luo, Yuanji Zhang, Yi Xiong, Dong Ni(参考訳) ディープニューラルネットワーク(DNN)は、特に超音波(US)画像セグメンテーションにおいて、画像の外観変化が発生すると性能劣化に悩まされる。 本稿では,出現シフトを除去し,DNNの一般化能力を向上させるための,新しい直感的なフレームワークを提案する。 私たちの作品には3つのハイライトがある。 まず,米国画像ではこれまで検討されていなかった外観変化を取り除くために,普遍的なスタイル移行の精神に従う。 画像構造の詳細を犠牲にすることなく、任意のスタイルコンテンツ転送を可能にする。 第2に,Adaptive Instance Normalizationブロックを併用して,臨床用USスキャンに必要なリアルタイム速度を実現した。 第3に,ターゲット方式のus画像とus画像が適切に一致していることを保証するため,効率的かつ効果的なスタイル画像選択戦略を提案する。 2つの大きな米国データセットの実験により、DNNを様々な外見変化に対して堅牢にする最先端の手法よりも、我々の手法が優れていることが示された。

Deep Neural Networks (DNNs) suffer from the performance degradation when image appearance shift occurs, especially in ultrasound (US) image segmentation. In this paper, we propose a novel and intuitive framework to remove the appearance shift, and hence improve the generalization ability of DNNs. Our work has three highlights. First, we follow the spirit of universal style transfer to remove appearance shifts, which was not explored before for US images. Without sacrificing image structure details, it enables the arbitrary style-content transfer. Second, accelerated with Adaptive Instance Normalization block, our framework achieved real-time speed required in the clinical US scanning. Third, an efficient and effective style image selection strategy is proposed to ensure the target-style US image and testing content US image properly match each other. Experiments on two large US datasets demonstrate that our methods are superior to state-of-the-art methods on making DNNs robust against various appearance shifts.
翻訳日:2023-01-01 05:07:31 公開日:2020-02-14
# 単一画像超解像のためのマルチレベル特徴融合機構

Multi-Level Feature Fusion Mechanism for Single Image Super-Resolution ( http://arxiv.org/abs/2002.05962v1 )

ライセンス: Link先を確認
Jiawen Lyn(参考訳) 畳み込みニューラルネットワーク(CNN)は、Single Image Super Resolution(SISR)で広く使われているため、SISRは近年大きな成功を収めている。 ネットワークが深まるにつれて、ネットワークの学習能力はますます強力になる。 しかし、CNNに基づくSISR手法の多くは階層的特徴とネットワークの学習能力を完全に活用していない。 これらの特徴は、後続のレイヤによって直接抽出できないため、前のレイヤ階層情報は、後続のレイヤの出力と性能にほとんど影響を与えない。 この問題を解決するために,グローバルな中間機能を完全に活用可能なMLRN(Multi-Level Feature Fusion Network)を提案する。 また、基本モジュールとしてFeature Skip Fusion Block (FSFblock)を導入します。 各ブロックは、生のマルチスケール特徴と融合マルチレベル特徴に直接抽出し、特徴空間相関を学習することができる。 全体論的アプローチの特徴間の相関は、情報機構の連続的グローバルメモリにつながる。 公開データセットに対する大規模な実験により,MLRNが提案する手法が実装可能であることが判明した。

Convolution neural network (CNN) has been widely used in Single Image Super Resolution (SISR) so that SISR has been a great success recently. As the network deepens, the learning ability of network becomes more and more powerful. However, most SISR methods based on CNN do not make full use of hierarchical feature and the learning ability of network. These features cannot be extracted directly by subsequent layers, so the previous layer hierarchical information has little impact on the output and performance of subsequent layers relatively poor. To solve above problem, a novel Multi-Level Feature Fusion network (MLRN) is proposed, which can take full use of global intermediate features. We also introduce Feature Skip Fusion Block (FSFblock) as basic module. Each block can be extracted directly to the raw multiscale feature and fusion multi-level feature, then learn feature spatial correlation. The correlation among the features of the holistic approach leads to a continuous global memory of information mechanism. Extensive experiments on public datasets show that the method proposed by MLRN can be implemented, which is favorable performance for the most advanced methods.
翻訳日:2023-01-01 05:07:04 公開日:2020-02-14
# なぜ線画は機能するのか? 実在論の仮説

Why Do Line Drawings Work? A Realism Hypothesis ( http://arxiv.org/abs/2002.06260v1 )

ライセンス: Link先を確認
Aaron Hertzmann(参考訳) 自然界に存在しないにもかかわらず、線画から物体の同一性や3次元形状を認識できるのはなぜか。 本稿では,人間の視覚系が線描を概ね現実的なイメージであるかのように知覚する,という仮説を立てる。 また、人間の観察者に正確な形状を伝えるために線画の技法が選択される。 この仮説のいくつかの意味と変種が研究されている。

Why is it that we can recognize object identity and 3D shape from line drawings, even though they do not exist in the natural world? This paper hypothesizes that the human visual system perceives line drawings as if they were approximately realistic images. Moreover, the techniques of line drawing are chosen to accurately convey shape to a human observer. Several implications and variants of this hypothesis are explored.
翻訳日:2023-01-01 05:06:49 公開日:2020-02-14
# システムの信頼性に対する因果関係のベイズ学習

Bayesian Learning of Causal Relationships for System Reliability ( http://arxiv.org/abs/2002.06084v1 )

ライセンス: Link先を確認
Xuewen Yu, Jim Q. Smith and Linda Nichols(参考訳) 因果理論は医学や公衆衛生に多くの応用が加えられている。 しかし、信頼性の規律の中では、因果関係はこの分野で重要な概念であるが、理論的な関心ははるかに少ない。 本稿では,確立された因果方法論のいくつかの側面,特に連鎖イベントグラフを,障害の確率モデリングを支援するために信頼性理論の領域にどのように変換できるかを実証する。 さらに、信頼性に特有な様々な領域固有の因果性の概念がより一般的な因果代数にどのようにインポートできるかを示し、これらの規律が相互にどのように情報を伝達するかを示す。 本論文は,大規模配電会社に関連する保守記録の詳細な分析により報告する。 これらの自然言語テキストに埋め込まれた因果仮説を抽出し,ここで紹介した新しいグラフィカル・フレームワークを用いて解析する。

Causal theory is now widely developed with many applications to medicine and public health. However within the discipline of reliability, although causation is a key concept in this field, there has been much less theoretical attention. In this paper, we will demonstrate how some aspects of established causal methodology can be translated via trees, and more specifically chain event graphs, into domain of reliability theory to help the probability modeling of failures. We further show how various domain specific concepts of causality particular to reliability can be imported into more generic causal algebras and so demonstrate how these disciplines can inform each other. This paper is informed by a detailed analysis of maintenance records associated with a large electrical distribution company. Causal hypotheses embedded within these natural language texts are extracted and analyzed using the new graphical framework we introduced here.
翻訳日:2023-01-01 05:06:42 公開日:2020-02-14
# 学習手法を用いた3次元骨格に基づく行動認識に関する調査

A Survey on 3D Skeleton-Based Action Recognition Using Learning Method ( http://arxiv.org/abs/2002.05907v1 )

ライセンス: Link先を確認
Bin Ren, Mengyuan Liu, Runwei Ding, Hong Liu(参考訳) 3Dスケルトンに基づく行動認識は、スケルトンが潜在的に有利なため、コンピュータビジョンにおいて活発な話題となっている。 その結果,従来の手工芸的特徴と学習的特徴を含む印象的な作品が長年にわたって行われてきた。 しかし、以前の行動認識に関する調査は、主にビデオやRGBデータに重点を置いており、骨格データに関連する既存のレビューは、主に特定のデータセット上での骨格データの表現や一部の古典的テクニックのパフォーマンスを示している。 また、深層学習手法は長年にわたってこの分野に適用されてきたが、深層学習アーキテクチャの観点からの紹介やレビューに関して、関連する懸念はない。 これらの限界を打破するために、この調査はまず行動認識の必要性と3次元骨格データの重要性を強調した。 次に、リカレントニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)、グラフ畳み込みニューラルネットワーク(GCN)に基づくメインストリーム動作認識技術について、データ駆動方式で概説する。 最後に、最大の3DスケルトンデータセットであるNTU-RGB+Dと、その新しいエディションであるNTU-RGB+D 120について、いくつかの既存のトップランクアルゴリズムを伴って、簡単な講演を行う。 われわれの知る限り、これは3Dスケルトンデータを用いたディープラーニングに基づく行動認識に関する総合的な議論を行う最初の研究である。

3D skeleton-based action recognition, owing to the latent advantages of skeleton, has been an active topic in computer vision. As a consequence, there are lots of impressive works including conventional handcraft feature based and learned feature based have been done over the years. However, previous surveys about action recognition mostly focus on the video or RGB data dominated methods, and the scanty existing reviews related to skeleton data mainly indicate the representation of skeleton data or performance of some classic techniques on a certain dataset. Besides, though deep learning methods has been applied to this field for years, there is no related reserach concern about an introduction or review from the perspective of deep learning architectures. To break those limitations, this survey firstly highlight the necessity of action recognition and the significance of 3D-skeleton data. Then a comprehensive introduction about Recurrent Neural Network(RNN)-based, Convolutional Neural Network(CNN)-based and Graph Convolutional Network(GCN)-based main stream action recognition techniques are illustrated in a data-driven manner. Finally, we give a brief talk about the biggest 3D skeleton dataset NTU-RGB+D and its new edition called NTU-RGB+D 120, accompanied with several existing top rank algorithms within those two datasets. To our best knowledge, this is the first research which give an overall discussion over deep learning-based action recognitin using 3D skeleton data.
翻訳日:2023-01-01 04:59:46 公開日:2020-02-14
# 事象追跡のための網膜イベントからの物体運動推定のエンドツーエンド学習

End-to-end Learning of Object Motion Estimation from Retinal Events for Event-based Object Tracking ( http://arxiv.org/abs/2002.05911v1 )

ライセンス: Link先を確認
Haosheng Chen, David Suter, Qiangqiang Wu, Hanzi Wang(参考訳) 非同期バイオインスパイアされた視覚センサであるイベントカメラは、コンピュータビジョンと人工知能に大きな可能性を示している。 しかし、イベントカメラのオブジェクトレベルの動き推定やトラッキングへの応用はまだ初期段階にある。 この研究の主なアイデアは、イベントベースのオブジェクトトラッキングのためのパラメトリックオブジェクトレベルのモーション/トランスフォーメーションモデルを学習し、回帰するための、新しいディープニューラルネットワークを提案することである。 この目的を達成するために、非同期網膜イベントの時空間情報を明確な動きパターンを持つTSLTDフレームに効果的に符号化する、線形時間分解(TSLTD)表現を用いた同期時間曲面を提案する。 我々は、TSLTDフレームのシーケンスを新しい網膜運動回帰ネットワーク(RMRNet)に供給し、エンドツーエンドの5-DoFオブジェクトのモーションレグレッションを実行する。 本手法は,従来のカメラやイベントカメラをベースとした最先端の物体追跡手法と比較する。 実験の結果, 高速動作や低照度条件など様々な難易度環境において, 提案手法が優れていることがわかった。

Event cameras, which are asynchronous bio-inspired vision sensors, have shown great potential in computer vision and artificial intelligence. However, the application of event cameras to object-level motion estimation or tracking is still in its infancy. The main idea behind this work is to propose a novel deep neural network to learn and regress a parametric object-level motion/transform model for event-based object tracking. To achieve this goal, we propose a synchronous Time-Surface with Linear Time Decay (TSLTD) representation, which effectively encodes the spatio-temporal information of asynchronous retinal events into TSLTD frames with clear motion patterns. We feed the sequence of TSLTD frames to a novel Retinal Motion Regression Network (RMRNet) to perform an end-to-end 5-DoF object motion regression. Our method is compared with state-of-the-art object tracking methods, that are based on conventional cameras or event cameras. The experimental results show the superiority of our method in handling various challenging environments such as fast motion and low illumination conditions.
翻訳日:2023-01-01 04:59:19 公開日:2020-02-14
# リモートセンシング画像における高密度物体の計数

Counting dense objects in remote sensing images ( http://arxiv.org/abs/2002.05928v1 )

ライセンス: Link先を確認
Guangshuai Gao, Qingjie Liu, Yunhong Wang(参考訳) ある画像から興味のあるオブジェクトの正確な数を推定することは、難しいが重要な課題である。 この問題に対処し、大きな進展を達成するための重要な努力がなされているが、リモートセンシング画像からの地上物体の数をほとんど研究していない。 本稿では,リモートセンシング画像から高密度物体を数えることに興味がある。 自然界における対象数と比較すると, 大規模変動, 複雑な乱雑な背景, 配向の任意性など, 課題がある。 さらに重要なことに、データの不足はこの分野の研究の発展を厳しく制限している。 これらの課題に対処するために,我々はまず,ビル,港湾の混雑船,大型車両,駐車場の小型車両の4種類の物体を含む,リモートセンシング画像に基づく大規模物体カウントデータセットを構築した。 次に,入力画像の密度マップを生成する新しいニューラルネットワークを設計することで,データセットのベンチマークを行う。 提案するネットワークは,畳み込みブロックアテンションモジュール(CBAM),スケールピラミッドモジュール(SPM),変形可能な畳み込みモジュール(DCM)の3つの部分から構成される。 提案したデータセットと最先端技術との比較実験により,提案したデータセットの課題と,本手法の優位性と有効性を示す。

Estimating accurate number of interested objects from a given image is a challenging yet important task. Significant efforts have been made to address this problem and achieve great progress, yet counting number of ground objects from remote sensing images is barely studied. In this paper, we are interested in counting dense objects from remote sensing images. Compared with object counting in natural scene, this task is challenging in following factors: large scale variation, complex cluttered background and orientation arbitrariness. More importantly, the scarcity of data severely limits the development of research in this field. To address these issues, we first construct a large-scale object counting dataset based on remote sensing images, which contains four kinds of objects: buildings, crowded ships in harbor, large-vehicles and small-vehicles in parking lot. We then benchmark the dataset by designing a novel neural network which can generate density map of an input image. The proposed network consists of three parts namely convolution block attention module (CBAM), scale pyramid module (SPM) and deformable convolution module (DCM). Experiments on the proposed dataset and comparisons with state of the art methods demonstrate the challenging of the proposed dataset, and superiority and effectiveness of our method.
翻訳日:2023-01-01 04:59:01 公開日:2020-02-14
# 4次元時空間fMRIデータのハイブリッド3DCNNと3DC-LSTMに基づくモデル:ABIDE自閉症分類研究

A Hybrid 3DCNN and 3DC-LSTM based model for 4D Spatio-temporal fMRI data: An ABIDE Autism Classification study ( http://arxiv.org/abs/2002.05981v1 )

ライセンス: Link先を確認
Ahmed El-Gazzar, Mirjam Quaak, Leonardo Cerliani, Peter Bloem, Guido van Wingen and Rajat Mani Thomas(参考訳) 機能的磁気共鳴イメージング(fMRI)は、脳内の空間的位置の関数として神経活動の時間的ダイナミクスを捉えている。 したがって、fMRIスキャンは4次元 (3-space + 1-time) テンソルとして表現される。 fMRIの時空間パターンは行動や臨床症状として現れると広く信じられている。 fMRIの高次元性(\sim$1 million)とデータセットの限定濃度の制約により、そのようなパターンの抽出は困難である。 これらのハードルを克服するための標準的なアプローチは、有用な情報の損失を犠牲にして、時間や空間のアクティベーションを要約することで、データの次元を減らすことである。 本稿では,3次元CNNと3次元畳み込みLSTMを用いて,全4次元データから時空間特徴を抽出できるエンドツーエンドアルゴリズムを提案する。 本研究は,abideデータセット上で提案するモデルを評価し,休息状態のfmriデータから自閉症スペクトラム障害(asd)を分類する能力を示す。 提案手法は,NYUサイトとUMサイトにおいて,F1スコア0.78,0.7の単一サイトにおいて,技術結果の状態を達成できることを示す。

Functional Magnetic Resonance Imaging (fMRI) captures the temporal dynamics of neural activity as a function of spatial location in the brain. Thus, fMRI scans are represented as 4-Dimensional (3-space + 1-time) tensors. And it is widely believed that the spatio-temporal patterns in fMRI manifests as behaviour and clinical symptoms. Because of the high dimensionality ($\sim$ 1 Million) of fMRI, and the added constraints of limited cardinality of data sets, extracting such patterns are challenging. A standard approach to overcome these hurdles is to reduce the dimensionality of the data by either summarizing activation over time or space at the expense of possible loss of useful information. Here, we introduce an end-to-end algorithm capable of extracting spatiotemporal features from the full 4-D data using 3-D CNNs and 3-D Convolutional LSTMs. We evaluate our proposed model on the publicly available ABIDE dataset to demonstrate the capability of our model to classify Autism Spectrum Disorder (ASD) from resting-state fMRI data. Our results show that the proposed model achieves state of the art results on single sites with F1-scores of 0.78 and 0.7 on NYU and UM sites, respectively.
翻訳日:2023-01-01 04:58:39 公開日:2020-02-14
# クロススペクトル眼マッチングのためのスペクトル変換

Spectrum Translation for Cross-Spectral Ocular Matching ( http://arxiv.org/abs/2002.06228v1 )

ライセンス: Link先を確認
Kevin Hernandez Diaz, Fernando Alonso-Fernandez, Josef Bigun(参考訳) クロススペクトル検証は生体計測において大きな問題であり、特に眼領域では、画像の反射特性が、使用する領域やスペクトルによって異なるためである。 本稿では,近赤外画像と視光画像のスペクトル変換における条件付き逆ネットワークの利用について検討する。 本研究では,変換画像の全体的な視覚品質と,学習中の識別システムの精度低下に基づく変換解析を行う。 本稿では,ポリuデータベースを用いて生体認証システムを提案する。1つはソフトマックスとクロスエントロピー損失を訓練したシャムネットワーク,もう1つは三重項損失ネットワークである。 nir用に訓練された三重項損失ネットワークを用いて実nir画像と可視スペクトルから変換された偽画像とのユークリッド距離を求めると、eerは1\%であった。 また,ベースラインアルゴリズムを用いて過去の結果よりも優れていた。

Cross-spectral verification remains a big issue in biometrics, especially for the ocular area due to differences in the reflected features in the images depending on the region and spectrum used. In this paper, we investigate the use of Conditional Adversarial Networks for spectrum translation between near infra-red and visual light images for ocular biometrics. We analyze the transformation based on the overall visual quality of the transformed images and the accuracy drop of the identification system when trained with opposing data. We use the PolyU database and propose two different systems for biometric verification, the first one based on Siamese Networks trained with Softmax and Cross-Entropy loss, and the second one a Triplet Loss network. We achieved an EER of 1\% when using a Triplet Loss network trained for NIR and finding the Euclidean distance between the real NIR images and the fake ones translated from the visible spectrum. We also outperform previous results using baseline algorithms.
翻訳日:2023-01-01 04:58:02 公開日:2020-02-14
# amodal instance segmentationのための階層埋め込み

Layered Embeddings for Amodal Instance Segmentation ( http://arxiv.org/abs/2002.06264v1 )

ライセンス: Link先を確認
Yanfeng Liu, Eric Psota, Lance P\'erez(参考訳) 提案手法は,可視部分とオクルード部分の両方を明示的に含むことにより,意味インスタンスセグメンテーションの表現出力を拡張する。 完全な畳み込みネットワークは、2つの層に一貫したピクセルレベルの埋め込みを生成するように訓練され、クラスタ化されると、結果は各インスタンスの完全な空間範囲と深さ順序を伝達する。 その結果,ネットワークは咬合の有無で完全なマスクを正確に推定でき,トップダウンバウンディングボックスアプローチよりも優れていた。 ソースコード: https://github.com/yanfengliu/layered_embeddings

The proposed method extends upon the representational output of semantic instance segmentation by explicitly including both visible and occluded parts. A fully convolutional network is trained to produce consistent pixel-level embedding across two layers such that, when clustered, the results convey the full spatial extent and depth ordering of each instance. Results demonstrate that the network can accurately estimate complete masks in the presence of occlusion and outperform leading top-down bounding-box approaches. Source code available at https://github.com/yanfengliu/layered_embeddings
翻訳日:2023-01-01 04:57:46 公開日:2020-02-14
# 形状再構成とウェーブレットフレームを組み込んだ残留スパースファジィ$C$平均クラスタリング

Residual-Sparse Fuzzy $C$-Means Clustering Incorporating Morphological Reconstruction and Wavelet frames ( http://arxiv.org/abs/2002.08418v1 )

ライセンス: Link先を確認
Cong Wang, Witold Pedrycz, ZhiWu Li, MengChu Zhou, Jun Zhao(参考訳) いくつかの外れ値、ノイズ、強度の不均一性を含む観測画像を直接利用する代わりに、その理想的な値(例えばノイズフリー画像)の使用はクラスタリングに好影響を与える。 したがって、観測画像とその理想値の間の残差(例えば未知ノイズ)を正確に推定することは重要な課題である。 そこで本稿では,形態的再構成操作とタイトウェーブレットフレーム変換を組み合わせたファジィ$C$-Means (FCM) アルゴリズムを提案する。 ディテール保存とノイズ抑制との健全なトレードオフを実現するために、観察した画像をフィルタリングするために形態学的再構成を用いる。 観測画像とフィルタ画像を組み合わせることにより、重み付き和画像を生成する。 タイトなウェーブレットフレームシステムは画像のスパース表現を有するので、重み付けされた和画像の分解に用いられ、対応する特徴集合を形成する。 クラスタリングのためのデータとして,特徴集合とその理想値の間の残差に対して$\ell_0$正規化項を付与することにより,残差の好適な推定が得られ,理想値がクラスタリングに参加することを示す改良fcmアルゴリズムを提案する。 画像分割において自然に遭遇するため、空間情報もクラスタリングに導入される。 さらに、残余の推定をより信頼性の高いものにする。 改良されたFCMアルゴリズムのセグメンテーション効果をさらに高めるために,クラスタリングによって生成されたラベルを円滑にするために形態的再構成を用いる。 最後に、プロトタイプ及び平滑化ラベルに基づいて、タイトなウェーブレットフレーム再構成操作を用いてセグメント画像の再構成を行う。 合成, 医用, カラー画像に対する実験結果から, 提案アルゴリズムは効率的かつ効率的であり, 他のアルゴリズムよりも優れていた。

Instead of directly utilizing an observed image including some outliers, noise or intensity inhomogeneity, the use of its ideal value (e.g. noise-free image) has a favorable impact on clustering. Hence, the accurate estimation of the residual (e.g. unknown noise) between the observed image and its ideal value is an important task. To do so, we propose an $\ell_0$ regularization-based Fuzzy $C$-Means (FCM) algorithm incorporating a morphological reconstruction operation and a tight wavelet frame transform. To achieve a sound trade-off between detail preservation and noise suppression, morphological reconstruction is used to filter an observed image. By combining the observed and filtered images, a weighted sum image is generated. Since a tight wavelet frame system has sparse representations of an image, it is employed to decompose the weighted sum image, thus forming its corresponding feature set. Taking it as data for clustering, we present an improved FCM algorithm by imposing an $\ell_0$ regularization term on the residual between the feature set and its ideal value, which implies that the favorable estimation of the residual is obtained and the ideal value participates in clustering. Spatial information is also introduced into clustering since it is naturally encountered in image segmentation. Furthermore, it makes the estimation of the residual more reliable. To further enhance the segmentation effects of the improved FCM algorithm, we also employ the morphological reconstruction to smoothen the labels generated by clustering. Finally, based on the prototypes and smoothed labels, the segmented image is reconstructed by using a tight wavelet frame reconstruction operation. Experimental results reported for synthetic, medical, and color images show that the proposed algorithm is effective and efficient, and outperforms other algorithms.
翻訳日:2023-01-01 04:57:37 公開日:2020-02-14
# 表情認識のための深層学習に基づく決定の検証

Verifying Deep Learning-based Decisions for Facial Expression Recognition ( http://arxiv.org/abs/2003.00828v1 )

ライセンス: Link先を確認
Ines Rieger, Rene Kollmann, Bettina Finzel, Dominik Seuss, Ute Schmid(参考訳) 高性能なニューラルネットワークは、いまだに非関連機能に偏りがある。 しかし, 臨床痛み治療などの高リスク領域では, 信頼性と堅牢性が特に重要である。 そこで我々は3つのステップからなる検証パイプラインを提案する。 まず,ニューラルネットワークを用いて表情を分類する。 次に,画素に基づく説明を作成するために,層間相関伝播を適用する。 最後に、これらの視覚的説明を、顔領域に関する境界ボックス法に基づいて定量化する。 以上の結果から,ニューラルネットワークは最先端の結果を得るが,視覚的説明から,関連する顔面領域を考慮できないことが明らかとなった。

Neural networks with high performance can still be biased towards non-relevant features. However, reliability and robustness is especially important for high-risk fields such as clinical pain treatment. We therefore propose a verification pipeline, which consists of three steps. First, we classify facial expressions with a neural network. Next, we apply layer-wise relevance propagation to create pixel-based explanations. Finally, we quantify these visual explanations based on a bounding-box method with respect to facial regions. Although our results show that the neural network achieves state-of-the-art results, the evaluation of the visual explanations reveals that relevant facial regions may not be considered.
翻訳日:2023-01-01 04:57:08 公開日:2020-02-14
# HULK: 責任のある自然言語処理のためのエネルギー効率ベンチマークプラットフォーム

HULK: An Energy Efficiency Benchmark Platform for Responsible Natural Language Processing ( http://arxiv.org/abs/2002.05829v1 )

ライセンス: Link先を確認
Xiyou Zhou, Zhiyu Chen, Xiaoyong Jin, William Yang Wang(参考訳) 計算集約型事前訓練モデルは、GLUEのような多くの自然言語処理ベンチマークをリードしている。 しかし、モデルトレーニングと推論の過程におけるエネルギー効率は重要なボトルネックとなる。 本稿では,自然言語処理のためのマルチタスクエネルギー効率ベンチマークプラットフォームであるHULKを紹介する。 HULKでは、時間とコストの観点から事前学習したモデルのエネルギー効率を比較する。 ベースラインベンチマークの結果は、さらなる分析のために提供される。 異なる事前学習モデルの微調整効率は、異なるタスク間で大きく異なり、パラメータ数が少なくても必ずしも効率が向上するとは限らない。 このような現象を分析し,事前学習モデルのマルチタスク効率を比較する方法を示した。 私たちのプラットフォームはhttps://sites.engineering.ucsb.edu/~xiyou/hulk/で利用可能です。

Computation-intensive pretrained models have been taking the lead of many natural language processing benchmarks such as GLUE. However, energy efficiency in the process of model training and inference becomes a critical bottleneck. We introduce HULK, a multi-task energy efficiency benchmarking platform for responsible natural language processing. With HULK, we compare pretrained models' energy efficiency from the perspectives of time and cost. Baseline benchmarking results are provided for further analysis. The fine-tuning efficiency of different pretrained models can differ a lot among different tasks and fewer parameter number does not necessarily imply better efficiency. We analyzed such phenomenon and demonstrate the method of comparing the multi-task efficiency of pretrained models. Our platform is available at https://sites.engineering.ucsb.edu/~xiyou/hulk/.
翻訳日:2023-01-01 04:49:27 公開日:2020-02-14
# コンテキスト的臨床的BERT埋め込みを用いた患者の苦情の理解

Understanding patient complaint characteristics using contextual clinical BERT embeddings ( http://arxiv.org/abs/2002.05902v1 )

ライセンス: Link先を確認
Budhaditya Saha, Sanal Lisboa, Shameek Ghosh(参考訳) 臨床会話の応用において、抽出された実体は患者の苦情の主主題である症状や疾患を捉える傾向がある。 しかし、彼らは主に、時間、発症、重大さなどの苦情の特徴を認識できなかった。 例えば、入力が"i have a headache and it is extreme"である場合、最先端のモデルは主症状(頭痛)のみを認識するが、頭痛を特徴付ける"extreme"の重篤な要因は無視する。 本稿では,一般利用者が症状を臨床医に説明する場面において,症状のような実体の特徴を2段階的に検出する手法を考案する。 臨床テキストのエンコードにはWord2VecとBERTを用いる。 出力を変換し、タスクをマルチラベル分類問題として再設定する。 最後に、処理された符号化と線形判別分析(lda)アルゴリズムを組み合わせることで、主エンティティの特性を分類する。 実験の結果,本手法は最先端モデルよりも40~50%精度が向上した。

In clinical conversational applications, extracted entities tend to capture the main subject of a patient's complaint, namely symptoms or diseases. However, they mostly fail to recognize the characterizations of a complaint such as the time, the onset, and the severity. For example, if the input is "I have a headache and it is extreme", state-of-the-art models only recognize the main symptom entity - headache, but ignore the severity factor of "extreme", that characterizes headache. In this paper, we design a two-stage approach to detect the characterizations of entities like symptoms presented by general users in contexts where they would describe their symptoms to a clinician. We use Word2Vec and BERT to encode clinical text given by the patients. We transform the output and re-frame the task as multi-label classification problem. Finally, we combine the processed encodings with the Linear Discriminant Analysis (LDA) algorithm to classify the characterizations of the main entity. Experimental results demonstrate that our method achieves 40-50% improvement on the accuracy over the state-of-the-art models.
翻訳日:2023-01-01 04:49:17 公開日:2020-02-14
# 信頼できるAI

Trustworthy AI ( http://arxiv.org/abs/2002.06276v1 )

ライセンス: Link先を確認
Jeannette M. Wing(参考訳) AIの約束は巨大だ。 AIシステムは、私たちの街路や家庭で十分なパフォーマンスをすでに達成しています。 しかし、それらは脆く不公平である。 社会がAIシステムの利点を享受するためには、社会はそれらを信頼する必要がある。 信頼できるコンピューティングの数十年の進歩にインスパイアされた私たちは、信頼できるプロパティがAIシステムに求めるものを提案する。 一連の新しい研究課題を列挙することで、AIへの信頼を確保するための1つのアプローチ、形式的検証を探求する。 信頼できるAIは、信頼できるコンピューティングとフォーマルな方法の両方に注目する。

The promise of AI is huge. AI systems have already achieved good enough performance to be in our streets and in our homes. However, they can be brittle and unfair. For society to reap the benefits of AI systems, society needs to be able to trust them. Inspired by decades of progress in trustworthy computing, we suggest what trustworthy properties would be desired of AI systems. By enumerating a set of new research questions, we explore one approach--formal verification--for ensuring trust in AI. Trustworthy AI ups the ante on both trustworthy computing and formal methods.
翻訳日:2023-01-01 04:48:38 公開日:2020-02-14
# 自己文脈ニューラルネットワークによる腹部CT像の肝分画と自己監督輪郭留置

Liver Segmentation in Abdominal CT Images via Auto-Context Neural Network and Self-Supervised Contour Attention ( http://arxiv.org/abs/2002.05895v1 )

ライセンス: Link先を確認
Minyoung Chung, Jingyu Lee, Jeongjin Lee, and Yeong-Gil Shin(参考訳) 肝の正確な画像分割は、その大きな形状のばらつきと不明瞭な境界のために難しい問題である。 完全畳み込みニューラルネットワーク(cnns)の応用は画期的な結果を示しているが、限定的な研究は一般化のパフォーマンスに焦点を当てている。 本研究では,腹部CT画像に肝セグメンテーションのためのCNNを導入し,高い一般化性能と精度を示した。 一般化性能を向上させるため,まず1つのcnnでauto-contextアルゴリズムを提案する。 提案するauto-contextニューラルネットワークは,事前形状を求めるために有効な高レベル残差推定を行う。 同一の双対経路は、肝臓の正確な後方分析のための相互補完的特徴を表現するために効果的に訓練される。 さらに,自己教師付き輪郭スキームを用いてネットワークを拡張する。 地中輪郭をペナルティ化し,失敗により多くの輪郭注意を集中させることにより,スパース輪郭の特徴を訓練した。 実験の結果,提案したネットワークはハウスドルフ距離の10.31%を削減することにより,最先端ネットワークと比較して精度が向上した。 訓練と検査には180個の腹部CT画像を用いた。 最先端のニューラルネットワークと比較するために、2倍のクロスバリデーションを示す。 一般化の性能を検証するために, 新規なN-フォルダクロスバリデーションを行う。 提案するネットワークは,ネットワーク間で最適な一般化性能を示した。 さらに,基礎となる概念の重要性を包括的に支持する一連のアブレーション実験を行う。

Accurate image segmentation of the liver is a challenging problem owing to its large shape variability and unclear boundaries. Although the applications of fully convolutional neural networks (CNNs) have shown groundbreaking results, limited studies have focused on the performance of generalization. In this study, we introduce a CNN for liver segmentation on abdominal computed tomography (CT) images that shows high generalization performance and accuracy. To improve the generalization performance, we initially propose an auto-context algorithm in a single CNN. The proposed auto-context neural network exploits an effective high-level residual estimation to obtain the shape prior. Identical dual paths are effectively trained to represent mutual complementary features for an accurate posterior analysis of a liver. Further, we extend our network by employing a self-supervised contour scheme. We trained sparse contour features by penalizing the ground-truth contour to focus more contour attentions on the failures. The experimental results show that the proposed network results in better accuracy when compared to the state-of-the-art networks by reducing 10.31% of the Hausdorff distance. We used 180 abdominal CT images for training and validation. Two-fold cross-validation is presented for a comparison with the state-of-the-art neural networks. Novel multiple N-fold cross-validations are conducted to verify the performance of generalization. The proposed network showed the best generalization performance among the networks. Additionally, we present a series of ablation experiments that comprehensively support the importance of the underlying concepts.
翻訳日:2023-01-01 04:48:12 公開日:2020-02-14
# DeepPlume:高解像度のリアルタイム空気品質マッピング

DeepPlume: Very High Resolution Real-Time Air Quality Mapping ( http://arxiv.org/abs/2002.10394v1 )

ライセンス: Link先を確認
Gr\'egoire Jauvion, Thibaut Cassard, Boris Quennehen, David Lissmyr(参考訳) 本稿では, 窒素ジオキシド (no2) , オゾン (o3) および粒子状物質 (pm2.5, pm10, それぞれ2.5 um, 10 um以下の粒子) のリアルタイム濃度を共同で予測できるエンジンを提案する。 エンジンは世界の大部分をカバーし、リアルタイムの官庁の測度、大気モデル予測、土地被覆データ、道路網、交通量推定で供給され、数十mの範囲で非常に高解像度の予測を生成する。 この解像度は、ストリートレベルの空気質マッピングや空気質調整ルーティングといった非常に革新的な用途にエンジンを適応させる。 Plume Labsは同様の予測エンジンを配備し、個人や企業に空気の質データを提供することを目的とした製品をいくつか作っている。 明快さと再現性のために、ここで提示されたエンジンはこの論文のために特別に作られており、Plume Labsの製品とはかなり異なる。 主な違いは、エンジンに供給するデータソースである。特に、この予測エンジンは、モバイルセンサーの測定を含まない。

This paper presents an engine able to predict jointly the real-time concentration of the main pollutants harming people's health: nitrogen dioxyde (NO2), ozone (O3) and particulate matter (PM2.5 and PM10, which are respectively the particles whose size are below 2.5 um and 10 um). The engine covers a large part of the world and is fed with real-time official stations measures, atmospheric models' forecasts, land cover data, road networks and traffic estimates to produce predictions with a very high resolution in the range of a few dozens of meters. This resolution makes the engine adapted to very innovative applications like street-level air quality mapping or air quality adjusted routing. Plume Labs has deployed a similar prediction engine to build several products aiming at providing air quality data to individuals and businesses. For the sake of clarity and reproducibility, the engine presented here has been built specifically for this paper and differs quite significantly from the one used in Plume Labs' products. A major difference is in the data sources feeding the engine: in particular, this prediction engine does not include mobile sensors measurements.
翻訳日:2023-01-01 04:42:06 公開日:2020-02-14
# オンライン労働市場における公平なチーム形成のためのアルゴリズム

Algorithms for Fair Team Formation in Online Labour Marketplaces ( http://arxiv.org/abs/2002.11621v1 )

ライセンス: Link先を確認
Giorgio Barnab\`o and Adriano Fazzone and Stefano Leonardi and Chris Schwiegelshohn(参考訳) コミュニケーションコストの急激な減少とインターネットベースの労働市場(guru.com, feelancer.com, mturk.com, upwork.comなど)の普及により、フリーランシング作業は至るところで成長を続けており、多くの研究者や実践者がアウトソーシングとクラウドソーシングの利点を探究している。 雇用者はこれらのプラットフォームを使用して、特定のタスクを完了するために労働者のグループを見つけることが多いため、研究者はチーム形成とマッチングアルゴリズムの研究と効果的なインセンティブスキームの設計に集中してきた。 しかし、最近になって、これらの選択とマッチングの手順を実行するアルゴリズムを通じて導入された不公平なバイアスについて、いくつかの懸念が提起された。 このため、研究者たちはこれらのオンラインマーケットプレースに関連するアルゴリズムの公正性の研究を始め、しばしば発生するアルゴリズムバイアスを克服するインテリジェントな方法を模索している。 広範に言えば、例えば、機械学習とアルゴリズムデータ分析ツールを使って労働者を雇用するプロセスは、国籍や性別の理由からさえ、意図せずも差別されないことを保証することを目的としている。 それぞれの作業者が1つ以上のスキルを持ち、すべての作業者が重複しない2つ以上のクラス(例えば、男女)に分割されるオンライン労働市場が与えられた場合、私たちは、与えられたタスクを完了するために必要なスキルをすべて備えたチームを見つけ、すべてのクラスから同じ人数の人を配置できるアルゴリズムを設計したいと考えています。 我々は,公平なチーム形成問題に対する近似結果と,問題自体に対する4つのアルゴリズムを提供する。 また,オンライン労働市場における実データを用いた実験を行い,アルゴリズムの有効性を検証した。

As freelancing work keeps on growing almost everywhere due to a sharp decrease in communication costs and to the widespread of Internet-based labour marketplaces (e.g., guru.com, feelancer.com, mturk.com, upwork.com), many researchers and practitioners have started exploring the benefits of outsourcing and crowdsourcing. Since employers often use these platforms to find a group of workers to complete a specific task, researchers have focused their efforts on the study of team formation and matching algorithms and on the design of effective incentive schemes. Nevertheless, just recently, several concerns have been raised on possibly unfair biases introduced through the algorithms used to carry out these selection and matching procedures. For this reason, researchers have started studying the fairness of algorithms related to these online marketplaces, looking for intelligent ways to overcome the algorithmic bias that frequently arises. Broadly speaking, the aim is to guarantee that, for example, the process of hiring workers through the use of machine learning and algorithmic data analysis tools does not discriminate, even unintentionally, on grounds of nationality or gender. In this short paper, we define the Fair Team Formation problem in the following way: given an online labour marketplace where each worker possesses one or more skills, and where all workers are divided into two or more not overlapping classes (for examples, men and women), we want to design an algorithm that is able to find a team with all the skills needed to complete a given task, and that has the same number of people from all classes. We provide inapproximability results for the Fair Team Formation problem together with four algorithms for the problem itself. We also tested the effectiveness of our algorithmic solutions by performing experiments using real data from an online labor marketplace.
翻訳日:2023-01-01 04:41:46 公開日:2020-02-14
# Social-WaGDAT: Wasserstein Graph Double-Attention Networkによる対話型軌道予測

Social-WaGDAT: Interaction-aware Trajectory Prediction via Wasserstein Graph Double-Attention Network ( http://arxiv.org/abs/2002.06241v1 )

ライセンス: Link先を確認
Jiachen Li, Hengbo Ma, Zhihao Zhang, Masayoshi Tomizuka(参考訳) 環境の効果的な理解と周囲の動的障害物の正確な軌道予測は、高度にインタラクティブで混み合ったシナリオをナビゲートする際に安全かつ高品質な計画を実現するために、インテリジェントなモバイルシステム(自動運転車やソーシャルロボットなど)にとって不可欠である。 シーン進化における頻繁な相互作用や不確実性のため,各エージェントに対して,異なるエンティティに対する関係推論を可能とし,将来的な軌跡の分布を予測システムに提供することが望まれる。 本稿では,関係帰納的バイアスを動的グラフ表現に組み込んで明示的なインタラクションモデリングへ一歩前進させ,軌跡情報とシーンコンテキスト情報の両方を活用するマルチエージェント軌道予測のためのジェネリック生成型ニューラルネットワーク(social-wagdat)を提案する。 また, 車両軌道予測に有効なキネマティック制約層を適用し, 物理的実現性を保証するだけでなく, モデル性能を向上させる。 提案システムは, 歩行者, 自転車, 路上車両を対象とする3つのベンチマークデータセットを用いて, 軌道予測を行う。 実験結果から,予測精度の点で,本モデルが様々なベースラインアプローチよりも優れた性能を示すことが示された。

Effective understanding of the environment and accurate trajectory prediction of surrounding dynamic obstacles are indispensable for intelligent mobile systems (like autonomous vehicles and social robots) to achieve safe and high-quality planning when they navigate in highly interactive and crowded scenarios. Due to the existence of frequent interactions and uncertainty in the scene evolution, it is desired for the prediction system to enable relational reasoning on different entities and provide a distribution of future trajectories for each agent. In this paper, we propose a generic generative neural system (called Social-WaGDAT) for multi-agent trajectory prediction, which makes a step forward to explicit interaction modeling by incorporating relational inductive biases with a dynamic graph representation and leverages both trajectory and scene context information. We also employ an efficient kinematic constraint layer applied to vehicle trajectory prediction which not only ensures physical feasibility but also enhances model performance. The proposed system is evaluated on three public benchmark datasets for trajectory prediction, where the agents cover pedestrians, cyclists and on-road vehicles. The experimental results demonstrate that our model achieves better performance than various baseline approaches in terms of prediction accuracy.
翻訳日:2023-01-01 04:40:40 公開日:2020-02-14
# 深層学習によるバイナリ線形符号のためのadmmに基づくデコーダ

ADMM-based Decoder for Binary Linear Codes Aided by Deep Learning ( http://arxiv.org/abs/2002.07601v1 )

ライセンス: Link先を確認
Yi Wei, Ming-Min Zhao, Min-Jian Zhao, and Ming Lei(参考訳) 近年のディープラーニング(dl)に着想を得た本研究では,バイナリ線形コードに対するディープニューラルネットワークを用いた復号アルゴリズムを提案する。 ディープ・アンフォールディングの概念に基づいて,乗算器の交互方向のデコーダ(ADMM)を展開させてデコードネットワークを設計する。 さらに,提案するネットワークの2つの改良版を提案する。 1つ目はペナルティパラメータをイテレーション依存のものに変換し、もう1つは特別に設計されたペナルティ関数を採用する。 その結果,DL支援デコーダは,様々な低密度パリティチェック (LDPC) 符号に対して,従来のADMM補償デコーダよりも高い性能を示した。

Inspired by the recent advances in deep learning (DL), this work presents a deep neural network aided decoding algorithm for binary linear codes. Based on the concept of deep unfolding, we design a decoding network by unfolding the alternating direction method of multipliers (ADMM)-penalized decoder. In addition, we propose two improved versions of the proposed network. The first one transforms the penalty parameter into a set of iteration-dependent ones, and the second one adopts a specially designed penalty function, which is based on a piecewise linear function with adjustable slopes. Numerical results show that the resulting DL-aided decoders outperform the original ADMM-penalized decoder for various low density parity check (LDPC) codes with similar computational complexity.
翻訳日:2023-01-01 04:39:36 公開日:2020-02-14
# モデルベース機械学習によるデータ駆動シンボル検出

Data-Driven Symbol Detection via Model-Based Machine Learning ( http://arxiv.org/abs/2002.07806v1 )

ライセンス: Link先を確認
Nariman Farsad, Nir Shlezinger, Andrea J. Goldsmith and Yonina C. Eldar(参考訳) デジタル通信システムにおけるシンボル検出器の設計は、従来、送信されたシンボルと受信機の観測信号の関係を記述する統計チャネルモデルに依存していた。 本稿では、機械学習(ml)とモデルに基づくアルゴリズムを組み合わせたシンボル検出設計のためのデータ駆動フレームワークについて述べる。 このハイブリッドアプローチでは、ビタビ法、BCJR検出、マルチインプット多重出力(MIMO)ソフトディフェクトキャンセリング(SIC)などのよく知られたチャネルモデルベースのアルゴリズムをMLベースのアルゴリズムで拡張し、チャネルモデル依存性を除去し、受信機がこれらのアルゴリズムをデータからのみ実装することを学ぶ。 データ駆動型受信機は、基礎となるチャネルモデルが十分に理解されていない、非常に複雑である、あるいは基礎となる物理を十分に捉えていないシステムに最も適している。 我々のアプローチは、チャネルモデルに基づく計算を、少数のデータからトレーニングできる専用ニューラルネットワークに置き換えるだけで、一般的なアルゴリズムはそのまま維持できるという点でユニークなものです。 これらの手法は, 正確なチャネル入出力統計関係やチャネル状態情報の不確かさを知らずに, モデルベースアルゴリズムの最適に近い性能が得られることを示す。

The design of symbol detectors in digital communication systems has traditionally relied on statistical channel models that describe the relation between the transmitted symbols and the observed signal at the receiver. Here we review a data-driven framework to symbol detection design which combines machine learning (ML) and model-based algorithms. In this hybrid approach, well-known channel-model-based algorithms such as the Viterbi method, BCJR detection, and multiple-input multiple-output (MIMO) soft interference cancellation (SIC) are augmented with ML-based algorithms to remove their channel-model-dependence, allowing the receiver to learn to implement these algorithms solely from data. The resulting data-driven receivers are most suitable for systems where the underlying channel models are poorly understood, highly complex, or do not well-capture the underlying physics. Our approach is unique in that it only replaces the channel-model-based computations with dedicated neural networks that can be trained from a small amount of data, while keeping the general algorithm intact. Our results demonstrate that these techniques can yield near-optimal performance of model-based algorithms without knowing the exact channel input-output statistical relationship and in the presence of channel state information uncertainty.
翻訳日:2023-01-01 04:39:22 公開日:2020-02-14
# 知覚運動型ブラックボックスコスト関数に基づく音声強調のためのDNNの安定トレーニング

Stable Training of DNN for Speech Enhancement based on Perceptually-Motivated Black-Box Cost Function ( http://arxiv.org/abs/2002.05879v1 )

ライセンス: Link先を確認
Masaki Kawanaka, Yuma Koizumi, Ryoichi Miyazaki and Kohei Yatabe(参考訳) 強調信号の主観的音質の向上は、音声強調における最も重要なミッションの1つである。 主観的品質を評価するために, PESQ (perceptual evaluation of speech quality) など, 知覚的動機付け型主観的音質評価(OSQA)に関するいくつかの手法が提案されている。 しかし、DNNパラメータに関して人気のあるOSQAが微分不可能であるため、ディープニューラルネットワーク(DNN)のトレーニングにこのような手段を直接使用することはできない。 そこで本研究では,OSQAのスコアを補助的DNNで近似し,その勾配を一次DNNのトレーニングに用いることを提案する。 このアプローチの1つの問題は、スコアの近似誤差によるトレーニングの不安定性である。 この問題を解決するために,強化学習から借用した安定化手法を提案する。 PESQのスコア向上を目的とした実験では,提案手法が提案されている。 i) DNN を安定してトレーニングして PESQ を増加させることができる。 (ii)公開データセットにおける最先端PSSQスコアを達成し、 (iii)主観評価に基づく従来の方法よりも音質が良好であった。

Improving subjective sound quality of enhanced signals is one of the most important missions in speech enhancement. For evaluating the subjective quality, several methods related to perceptually-motivated objective sound quality assessment (OSQA) have been proposed such as PESQ (perceptual evaluation of speech quality). However, direct use of such measures for training deep neural network (DNN) is not allowed in most cases because popular OSQAs are non-differentiable with respect to DNN parameters. Therefore, the previous study has proposed to approximate the score of OSQAs by an auxiliary DNN so that its gradient can be used for training the primary DNN. One problem with this approach is instability of the training caused by the approximation error of the score. To overcome this problem, we propose to use stabilization techniques borrowed from reinforcement learning. The experiments, aimed to increase the score of PESQ as an example, show that the proposed method (i) can stably train a DNN to increase PESQ, (ii) achieved the state-of-the-art PESQ score on a public dataset, and (iii) resulted in better sound quality than conventional methods based on subjective evaluation.
翻訳日:2023-01-01 04:33:30 公開日:2020-02-14
# セルフアテンションによる電気盗難検出

Electricity Theft Detection with self-attention ( http://arxiv.org/abs/2002.06219v1 )

ライセンス: Link先を確認
Paulo Finardi, Israel Campiotti, Gustavo Plensack, Rafael Derradi de Souza, Rodrigo Nogueira, Gustavo Pinheiro, Roberto Lotufo(参考訳) 本研究では,中国のステートグリッドによる日常的な電力消費を示す非バランスな現実的データセット上での電気盗難検出に対処する,新たな自己注意機構モデルを提案する。 私たちの重要な貢献は、拡張畳み込みと結合し、カーネルサイズの畳み込みで統一されたマルチヘッド自己保持機構の導入である。 さらに、欠落した値の位置を特定するためのバイナリ入力チャネル(Binary Mask)を導入し、ネットワークがこれらの値の扱い方を学習できるようにする。 本モデルでは,従来のベースライン作業に対して,AUCが$0.926$であり,17\%以上の改善が達成されている。 コードはgithubのhttps://github.com/neuralmind-ai/electricity-theft-detection-with-self-attentionで入手できる。

In this work we propose a novel self-attention mechanism model to address electricity theft detection on an imbalanced realistic dataset that presents a daily electricity consumption provided by State Grid Corporation of China. Our key contribution is the introduction of a multi-head self-attention mechanism concatenated with dilated convolutions and unified by a convolution of kernel size $1$. Moreover, we introduce a binary input channel (Binary Mask) to identify the position of the missing values, allowing the network to learn how to deal with these values. Our model achieves an AUC of $0.926$ which is an improvement in more than $17\%$ with respect to previous baseline work. The code is available on GitHub at https://github.com/neuralmind-ai/electricity-theft-detection-with-self-attention.
翻訳日:2023-01-01 04:32:36 公開日:2020-02-14
# 生物学的ランダムウォーク:病気遺伝子の優先順位付けにおける異種データの統合

Biological Random Walks: integrating heterogeneous data in disease gene prioritization ( http://arxiv.org/abs/2002.07064v1 )

ライセンス: Link先を確認
Michele Gentili, Leonardo Martini, Manuela Petti, Lorenzo Farina and Luca Becchetti(参考訳) 本研究は,ネットワーク伝搬に基づく遺伝子優先化アルゴリズムにおいて生物情報を活用するための統一フレームワークを提案する。 乳がんデータに対する予備的な結果は、intertoomeベースのアルゴリズムによって潜在的な候補として同定されないが、乳がんにかかわるあるいは関連する可能性のある遺伝子の優先順位付けなど、最先端のベースラインよりも大幅に改善している。

This work proposes a unified framework to leverage biological information in network propagation-based gene prioritization algorithms. Preliminary results on breast cancer data show significant improvements over state-of-the-art baselines, such as the prioritization of genes that are not identified as potential candidates by interactome-based algorithms, but that appear to be involved in/or potentially related to breast cancer, according to a functional analysis based on recent literature.
翻訳日:2023-01-01 04:31:40 公開日:2020-02-14
# 時間型および周波数型畳み込みニューラルネットワークにおけるバイリニアプーリングを用いた音響シーン分類

Acoustic Scene Classification Using Bilinear Pooling on Time-liked and Frequency-liked Convolution Neural Network ( http://arxiv.org/abs/2002.07065v1 )

ライセンス: Link先を確認
Xing Yong Kek, Cheng Siong Chin, Ye Li(参考訳) 音響シーン分類(asc)タスクに取り組む現在の手法は、音声波形をログメルスペクトログラムに前処理し、畳み込みニューラルネットワーク(cnn)の入力表現として使用するという2つのステップで記述できる。 このパラダイムシフトは、このフレームワークモデルが(ESC-50)データセット上のASCタスクの最先端の結果を達成し、ベースラインモデルよりも20.5%向上する64.5%の精度を達成したDCASE 2016と、ベースラインシステムに関して6.4%と9%改善した90.0%(開発)と86.2%(評価)の精度を持つDCASE 2016データセットの後に発生した。 本稿では,音楽情報検索(mir)の分野で人気を集めている高調波音源分離法(hpss)を用いて,高調波音源分離法(harmonic and percussive source separation)について検討した。 ASCタスクにおけるCNNモデルの入力表現としてHPSSを用いた研究は行われているが,本論文では,各周波数偏り領域における深い特徴の抽出を専門とする2つのCNNを,それぞれに周波数偏り領域における深い特徴の抽出を専門とする2つのCNNをキュレートすることにより,分離した高調波成分とパーカッシブ成分の活用の可能性について検討する。 これら2つのCNNから抽出された深い特徴は、双線形プールによって結合される。 したがって、音響シーンの分類における2ストリーム時間と周波数CNNアーキテクチャのアプローチを提案する。 このモデルはDCASE 2019サブタスク1aデータセットで評価されており、Kaggle Leadership Private and Public Boardによると、開発データセットで平均65%のスコアを得ている。

The current methodology in tackling Acoustic Scene Classification (ASC) task can be described in two steps, preprocessing of the audio waveform into log-mel spectrogram and then using it as the input representation for Convolutional Neural Network (CNN). This paradigm shift occurs after DCASE 2016 where this framework model achieves the state-of-the-art result in ASC tasks on the (ESC-50) dataset and achieved an accuracy of 64.5%, which constitute to 20.5% improvement over the baseline model, and DCASE 2016 dataset with an accuracy of 90.0% (development) and 86.2% (evaluation), which constitute a 6.4% and 9% improvements with respect to the baseline system. In this paper, we explored the use of harmonic and percussive source separation (HPSS) to split the audio into harmonic audio and percussive audio, which has received popularity in the field of music information retrieval (MIR). Although works have been done in using HPSS as input representation for CNN model in ASC task, this paper further investigate the possibility on leveraging the separated harmonic component and percussive component by curating 2 CNNs which tries to understand harmonic audio and percussive audio in their natural form, one specialized in extracting deep features in time biased domain and another specialized in extracting deep features in frequency biased domain, respectively. The deep features extracted from these 2 CNNs will then be combined using bilinear pooling. Hence, presenting a two-stream time and frequency CNN architecture approach in classifying acoustic scene. The model is being evaluated on DCASE 2019 sub task 1a dataset and scored an average of 65% on development dataset, Kaggle Leadership Private and Public board.
翻訳日:2023-01-01 04:31:29 公開日:2020-02-14
# 終端ASRのための注意型話者メモリを用いた教師なし話者適応

Unsupervised Speaker Adaptation using Attention-based Speaker Memory for End-to-End ASR ( http://arxiv.org/abs/2002.06165v1 )

ライセンス: Link先を確認
Leda Sar{\i}, Niko Moritz, Takaaki Hori, Jonathan Le Roux(参考訳) 本稿では,終端音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。 提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。 結果のメモリベクトル(Mベクトル)は、E2Eニューラルネットワークモデルの音響的特徴または隠蔽層活性化に連結される。 E2E ASRシステムは、接続型時間分類とアテンションベースのエンコーダ・デコーダアーキテクチャに基づいている。 WSJとTED-Lium2 ASRベンチマークを用いて、エンコーダニューラルネットワークの異なる層に挿入する際のMベクターとiベクターの結果を比較した。 実験時に補助的な話者埋め込み抽出システムを必要としないMベクターは、単話者発話のiベクターと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示した。

We propose an unsupervised speaker adaptation method inspired by the neural Turing machine for end-to-end (E2E) automatic speech recognition (ASR). The proposed model contains a memory block that holds speaker i-vectors extracted from the training data and reads relevant i-vectors from the memory through an attention mechanism. The resulting memory vector (M-vector) is concatenated to the acoustic features or to the hidden layer activations of an E2E neural network model. The E2E ASR system is based on the joint connectionist temporal classification and attention-based encoder-decoder architecture. M-vector and i-vector results are compared for inserting them at different layers of the encoder neural network using the WSJ and TED-LIUM2 ASR benchmarks. We show that M-vectors, which do not require an auxiliary speaker embedding extraction system at test time, achieve similar word error rates (WERs) compared to i-vectors for single speaker utterances and significantly lower WERs for utterances in which there are speaker changes.
翻訳日:2023-01-01 04:23:57 公開日:2020-02-14
# 動的最適化問題におけるジェンダー遺伝的アルゴリズム

Gender Genetic Algorithm in the Dynamic Optimization Problem ( http://arxiv.org/abs/2002.05882v1 )

ライセンス: Link先を確認
P.A. Golovinski, S.A. Kolodyazhnyi(参考訳) ジェンダー遺伝的アルゴリズムを用いた高速プロセスの最適化手法について述べる。 従来の遺伝的アルゴリズムとの違いは、人工個体群を2つの性に分けることである。 雄の亜集団は、他の部分集合の雌よりも大きな突然変異とより強い選択を受ける。 この分離により、オスの亜集団の変動と雌部の適応性の固定によって、集団全体の急速な適応性を変化に結びつけることができる。 最適解の探索におけるボルドウィン効果の形での追加的な個別学習の効果の利点は、通常の性別遺伝アルゴリズムと比較して観察される。 ボルドウィン効果を持つ遺伝的アルゴリズムの有望な応用として,自然火災の消火のダイナミクスを指摘した。

A general approach to optimizing fast processes using a gender genetic algorithm is described. Its difference from the more traditional genetic algorithm it contains division the artificial population into two sexes. Male subpopulations undergo large mutations and more strong selection compared to female individuals from another subset. This separation allows combining the rapid adaptability of the entire population to changes due to the variation of the male subpopulation with fixation of adaptability in the female part. The advantage of the effect of additional individual learning in the form of Boldwin effect in finding optimal solutions is observed in comparison with the usual gender genetic algorithm. As a promising application of the gender genetic algorithm with the Boldwin effect, the dynamics of extinguishing natural fires is pointed.
翻訳日:2023-01-01 04:23:37 公開日:2020-02-14
# 分割確率最大化学習を用いたスパイキングニューラルネットワークの効果的なAERオブジェクト分類

Effective AER Object Classification Using Segmented Probability-Maximization Learning in Spiking Neural Networks ( http://arxiv.org/abs/2002.06199v1 )

ライセンス: Link先を確認
Qianhui Liu, Haibo Ruan, Dong Xing, Huajin Tang, Gang Pan(参考訳) アドレスイベント表現(AER)カメラは,従来のフレームベースカメラに比べて高時間分解能と低消費電力の利点から近年注目されている。 AERカメラは、視覚入力を非同期な離散イベントとして記録するので、生物学的に信頼性が高く、ニューロモルフィックハードウェア上でエネルギー効率が高いスパイキングニューラルネットワーク(SNN)と協調するのに本質的に適している。 しかし、この新しい表現に効果的な学習アルゴリズムがないため、SNNを使ってAERオブジェクトの分類を行うのはまだ難しい。 そこで本研究では,spa(segmented probability-maximization)学習アルゴリズムを用いたaerオブジェクト分類モデルを提案する。 技術的には 1)SPA学習アルゴリズムは,ニューロン応答の信頼性と学習の有効性を向上させるため,サンプルが属するクラスの確率を反復的に最大化する。 2)SPAにピーク検出(PD)機構を導入して,学習によってイベントストリーム全体の情報を完全に活用できるかに基づいて,情報ポイントセグメントをセグメント毎に検出する。 実験結果から, 最先端手法と比較して, 我々のモデルの方が有効であるだけでなく, 一定の精度に達するために必要な情報も少ないことがわかった。

Address event representation (AER) cameras have recently attracted more attention due to the advantages of high temporal resolution and low power consumption, compared with traditional frame-based cameras. Since AER cameras record the visual input as asynchronous discrete events, they are inherently suitable to coordinate with the spiking neural network (SNN), which is biologically plausible and energy-efficient on neuromorphic hardware. However, using SNN to perform the AER object classification is still challenging, due to the lack of effective learning algorithms for this new representation. To tackle this issue, we propose an AER object classification model using a novel segmented probability-maximization (SPA) learning algorithm. Technically, 1) the SPA learning algorithm iteratively maximizes the probability of the classes that samples belong to, in order to improve the reliability of neuron responses and effectiveness of learning; 2) a peak detection (PD) mechanism is introduced in SPA to locate informative time points segment by segment, based on which information within the whole event stream can be fully utilized by the learning. Extensive experimental results show that, compared to state-of-the-art methods, not only our model is more effective, but also it requires less information to reach a certain level of accuracy.
翻訳日:2023-01-01 04:23:29 公開日:2020-02-14
# マルチエージェント強化学習におけるマルチタスク学習のための拡張マルコフゲーム

Extended Markov Games to Learn Multiple Tasks in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2002.06000v1 )

ライセンス: Link先を確認
Borja G. Le\'on and Francesco Belardinelli(参考訳) 形式的手法と強化学習(RL)の組み合わせは、最近、シングルエージェントRLがマルチタスク仕様を学ぶ方法として関心を集めている。 本稿では、この収束をマルチエージェント設定に拡張し、拡張マルコフゲームスを、複数のRLエージェントが同時に様々な非マルコフ仕様を学習できる汎用数学的モデルとして正式に定義する。 この新しいモデルを導入するために、このフレームワーク上で動作するrlアルゴリズムの実証テストに加えて、形式的な定義と証明を提供する。 具体的には、2つの異なる論理ベースのマルチエージェントrlアルゴリズムを訓練し、非マルコフ共安全ltl仕様の多様な設定を解決する。

The combination of Formal Methods with Reinforcement Learning (RL) has recently attracted interest as a way for single-agent RL to learn multiple-task specifications. In this paper we extend this convergence to multi-agent settings and formally define Extended Markov Games as a general mathematical model that allows multiple RL agents to concurrently learn various non-Markovian specifications. To introduce this new model we provide formal definitions and proofs as well as empirical tests of RL algorithms running on this framework. Specifically, we use our model to train two different logic-based multi-agent RL algorithms to solve diverse settings of non-Markovian co-safe LTL specifications.
翻訳日:2023-01-01 04:23:07 公開日:2020-02-14
# セルフアダプションとマルチヘッドセルフアテンションを用いた音声強調

Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention ( http://arxiv.org/abs/2002.05873v1 )

ライセンス: Link先を確認
Yuma Koizumi, Kohei Yatabe, Marc Delcroix, Yoshiki Masuyama, Daiki Takeuchi(参考訳) 本稿では,補助話者認識機能を用いた音声強調のための自己適応手法について検討し,テスト発話から直接適応する話者表現を抽出する。 ディープニューラルネットワーク(DNN)に基づく音声強調の従来の研究は、主に話者独立モデルの構築に焦点を当てている。 一方、音声認識や合成を含む音声応用においては、対象話者へのモデル適応が精度を向上させることが知られている。 本研究は,音声強調のためのDNNを,テストフェーズにおいて補助的な誘導信号なしで未知話者に適用できるかどうかである。 これを実現するために,音声強調と話者識別のマルチタスク学習を採用し,話者識別分岐の最終隠れ層の出力を補助的特徴として利用する。 さらに,音声と雑音の長期依存性を捉えるために,マルチヘッド自己注意を用いる。 公開データセットによる実験結果から,我々の戦略は最先端の性能を達成し,従来の手法よりも主観的品質を向上することが示された。

This paper investigates a self-adaptation method for speech enhancement using auxiliary speaker-aware features; we extract a speaker representation used for adaptation directly from the test utterance. Conventional studies of deep neural network (DNN)--based speech enhancement mainly focus on building a speaker independent model. Meanwhile, in speech applications including speech recognition and synthesis, it is known that model adaptation to the target speaker improves the accuracy. Our research question is whether a DNN for speech enhancement can be adopted to unknown speakers without any auxiliary guidance signal in test-phase. To achieve this, we adopt multi-task learning of speech enhancement and speaker identification, and use the output of the final hidden layer of speaker identification branch as an auxiliary feature. In addition, we use multi-head self-attention for capturing long-term dependencies in the speech and noise. Experimental results on a public dataset show that our strategy achieves the state-of-the-art performance and also outperform conventional methods in terms of subjective quality.
翻訳日:2023-01-01 04:21:15 公開日:2020-02-14
# 相互情報の効率的な近似による高速公正回帰

Fast Fair Regression via Efficient Approximations of Mutual Information ( http://arxiv.org/abs/2002.06200v1 )

ライセンス: Link先を確認
Daniel Steinberg, Alistair Reid, Simon O'Callaghan, Finnian Lattimore, Lachlan McCalman, Tiberio Caetano(参考訳) アルゴリズム的公平性におけるほとんどの仕事は、例えば誰かにローンを与えるかどうかなど、個別の結果に焦点を当てている。 これらの分類設定では、サブポピュレーション間の結果の比率を比較することにより、独立性、分離性、満足度などのグループフェアネス基準を直接測定することができる。 しかし、多くの重要な問題は、リスクスコアや保険料などの実際の評価結果の予測を必要とする。 このような回帰環境では、条件付き確率密度関数間の情報理論的な発散を推定する必要があるため、グループの公平性基準の測定は計算的に困難である。 本稿では,レグレッションモデルの独立性,分離性,十分群フェアネス基準を(条件付き)相互情報定義から高速に近似し,正規化リスク最小化フレームワーク内でのフェアネスの実施にレギュラーサのような近似を用いる。 実世界のデータセットの実験では、計算効率が優れているにもかかわらず、我々のアルゴリズムは依然として最先端の精度/フェアネスのトレードオフを示す。

Most work in algorithmic fairness to date has focused on discrete outcomes, such as deciding whether to grant someone a loan or not. In these classification settings, group fairness criteria such as independence, separation and sufficiency can be measured directly by comparing rates of outcomes between subpopulations. Many important problems however require the prediction of a real-valued outcome, such as a risk score or insurance premium. In such regression settings, measuring group fairness criteria is computationally challenging, as it requires estimating information-theoretic divergences between conditional probability density functions. This paper introduces fast approximations of the independence, separation and sufficiency group fairness criteria for regression models from their (conditional) mutual information definitions, and uses such approximations as regularisers to enforce fairness within a regularised risk minimisation framework. Experiments in real-world datasets indicate that in spite of its superior computational efficiency our algorithm still displays state-of-the-art accuracy/fairness tradeoffs.
翻訳日:2023-01-01 04:15:02 公開日:2020-02-14
# 多層パーセプトロンと鯨最適化アルゴリズムのハイブリッドモデルによる風速予測

Wind speed prediction using a hybrid model of the multi-layer perceptron and whale optimization algorithm ( http://arxiv.org/abs/2002.06226v1 )

ライセンス: Link先を確認
Saeed Samadianfard, Sajjad Hashemi, Katayoun Kargar, Mojtaba Izadyar, Ali Mostafaeipour, Amir Mosavi, Narjes Nabipour, Shahaboddin Shamshirband(参考訳) 風力発電は再生可能エネルギー源であり、多くの経済的、環境的、社会的利益がある。 再生可能風力の向上と制御のためには、風速を高精度に予測するモデルを活用することが不可欠である。 データの事前処理の必要条件や重要性を無視し、単一の予測モデルを使うことができないため、従来のモデルの多くは風速予測の性能に乏しい。 本研究は,イラン北部の目標地点における風速予測のために,2004-2014年に限定されたデータを用いた新しい手法(MLP-WOA)を構築するために,多層パーセプトロンモデル (MLP) と Whale Optimization Algorithm (WOA) を組み合わせたものである。 その後、MLP-WOAモデルが10駅それぞれに使用され、訓練用の9駅、試験用の10駅(アスタラ駅、バンダル-E-アンザリ駅、ラシュト駅、マンジール駅、ジランデ駅、タレシュ駅、キヤシャール駅、ラヒジャン駅、マスレー駅、デイラマン駅)がその後のハイブリッドモデルの精度を高めるために使用された。 対象局毎の風速予測におけるハイブリッドモデルの能力は,woaオプティマイザを用いないmlpモデルと比較した。 明確な結果を決定するために、多くの統計性能が利用された。 MLP-WOAモデルは10駅すべてでスタンドアローンのMLPモデルよりも正確な結果を得た。 ハイブリッドモデルでは, RMSE, SI, REの値が低く, NSE, WI, KGEの値が高かった。 WOA最適化アルゴリズムは,MLPモデルの予測精度を向上し,正確な風速予測に有効である可能性が示唆された。

Wind power as a renewable source of energy, has numerous economic, environmental and social benefits. In order to enhance and control renewable wind power, it is vital to utilize models that predict wind speed with high accuracy. Due to neglecting of requirement and significance of data preprocessing and disregarding the inadequacy of using a single predicting model, many traditional models have poor performance in wind speed prediction. In the current study, for predicting wind speed at target stations in the north of Iran, the combination of a multi-layer perceptron model (MLP) with the Whale Optimization Algorithm (WOA) used to build new method (MLP-WOA) with a limited set of data (2004-2014). Then, the MLP-WOA model was utilized at each of the ten target stations, with the nine stations for training and tenth station for testing (namely: Astara, Bandar-E-Anzali, Rasht, Manjil, Jirandeh, Talesh, Kiyashahr, Lahijan, Masuleh, and Deylaman) to increase the accuracy of the subsequent hybrid model. The capability of the hybrid model in wind speed forecasting at each target station was compared with the MLP model without the WOA optimizer. To determine definite results, numerous statistical performances were utilized. For all ten target stations, the MLP-WOA model had precise outcomes than the standalone MLP model. The hybrid model had acceptable performances with lower amounts of the RMSE, SI and RE parameters and higher values of NSE, WI, and KGE parameters. It was concluded that the WOA optimization algorithm can improve the prediction accuracy of MLP model and may be recommended for accurate wind speed prediction.
翻訳日:2023-01-01 04:14:27 公開日:2020-02-14
# グラフデコンボリューション生成

Graph Deconvolutional Generation ( http://arxiv.org/abs/2002.07087v1 )

ライセンス: Link先を確認
Daniel Flam-Shepherd, Tony Wu and Alan Aspuru-Guzik(参考訳) グラフ生成は非常に重要なタスクであり、グラフは科学と工学のさまざまな領域で見られる。 本研究では,Erdos-Renyiランダムグラフモデルであるグラフ変分オートエンコーダ(GVAE)の現代的な等価性に着目した。 このモデルは、エッジとノードが独立であると仮定し、マルチ層パーセプトロンデコーダを用いてグラフ全体を生成する。 これらの仮定の結果、GVAEはトレーニング分布の一致が困難であり、高価なグラフマッチング手法に依存している。 我々は、GVAEのエンコーダとデコーダにメッセージパッシングニューラルネットワークを構築することにより、このモデルのクラスを改善した。 私たちは小さな有機分子を 生成する特定のタスクをモデルで示します

Graph generation is an extremely important task, as graphs are found throughout different areas of science and engineering. In this work, we focus on the modern equivalent of the Erdos-Renyi random graph model: the graph variational autoencoder (GVAE). This model assumes edges and nodes are independent in order to generate entire graphs at a time using a multi-layer perceptron decoder. As a result of these assumptions, GVAE has difficulty matching the training distribution and relies on an expensive graph matching procedure. We improve this class of models by building a message passing neural network into GVAE's encoder and decoder. We demonstrate our model on the specific task of generating small organic molecules
翻訳日:2023-01-01 04:13:40 公開日:2020-02-14
# データ効率の良いエンドツーエンド言語理解アーキテクチャ

A Data Efficient End-To-End Spoken Language Understanding Architecture ( http://arxiv.org/abs/2002.05955v1 )

ライセンス: Link先を確認
Marco Dinarelli, Nikita Kapoor, Bassam Jabaian, and Laurent Besacier(参考訳) 音声言語理解(SLU)と意味解析のためのエンドツーエンドアーキテクチャが最近提案されている。 大量のデータに基づいて、これらのモデルは音響的および言語的系列的特徴を学習する。 このようなアーキテクチャはドメイン、インテント、スロット検出といったコンテキストにおいて非常に優れた結果をもたらします。 そのため、多くの場合、モデルはパフォーマンスを高めるために外部言語モデルと組み合わせられる。 本稿では、事前学習した外部モジュールを追加せずに、エンドツーエンドで訓練されたデータ効率システムを提案する。 我々のアプローチの重要な特徴は、音響、言語、セマンティックモデルを次々と訓練するインクリメンタルなトレーニング手順である。 提案モデルは妥当なサイズで,小規模のトレーニングデータセットを用いて,最新技術に関する競合結果を達成している。 特に、MEDIA/testでは24.02%のコンセプトエラー率(CER)に達し、MEDIA/trainでは追加データなしでトレーニングを行う。

End-to-end architectures have been recently proposed for spoken language understanding (SLU) and semantic parsing. Based on a large amount of data, those models learn jointly acoustic and linguistic-sequential features. Such architectures give very good results in the context of domain, intent and slot detection, their application in a more complex semantic chunking and tagging task is less easy. For that, in many cases, models are combined with an external language model to enhance their performance. In this paper we introduce a data efficient system which is trained end-to-end, with no additional, pre-trained external module. One key feature of our approach is an incremental training procedure where acoustic, language and semantic models are trained sequentially one after the other. The proposed model has a reasonable size and achieves competitive results with respect to state-of-the-art while using a small training dataset. In particular, we reach 24.02% Concept Error Rate (CER) on MEDIA/test while training on MEDIA/train without any additional data.
翻訳日:2023-01-01 04:12:57 公開日:2020-02-14
# リスク条件付き統計的学習

Statistical Learning with Conditional Value at Risk ( http://arxiv.org/abs/2002.05826v1 )

ライセンス: Link先を確認
Tasuku Soma and Yuichi Yoshida(参考訳) 本稿では,予測損失よりも損失の条件付き値付きリスク(CVaR)を用いて,学習アルゴリズムの性能を評価するリスク逆統計学習フレームワークを提案する。 この枠組みの確率的勾配勾配に基づくアルゴリズムを考案する。 CVaR最適化の既存の研究は、基礎となる分布に直接アクセスする必要があるが、我々のアルゴリズムは、i.d.\サンプルのみが与えられるというより弱い仮定をしている。 凸とリプシッツの損失関数に対して、我々のアルゴリズムは、最適なCVaRに対して$O(1/\sqrt{n})$-convergenceを持ち、$n$はサンプル数であることを示す。 非凸および滑らかな損失関数に対して、CVaR 上の一般化を示す。 各種機械学習タスクの数値実験により,本アルゴリズムは他のベースラインアルゴリズムと比較してCVaRを効果的に最小化することを示した。

We propose a risk-averse statistical learning framework wherein the performance of a learning algorithm is evaluated by the conditional value-at-risk (CVaR) of losses rather than the expected loss. We devise algorithms based on stochastic gradient descent for this framework. While existing studies of CVaR optimization require direct access to the underlying distribution, our algorithms make a weaker assumption that only i.i.d.\ samples are given. For convex and Lipschitz loss functions, we show that our algorithm has $O(1/\sqrt{n})$-convergence to the optimal CVaR, where $n$ is the number of samples. For nonconvex and smooth loss functions, we show a generalization bound on CVaR. By conducting numerical experiments on various machine learning tasks, we demonstrate that our algorithms effectively minimize CVaR compared with other baseline algorithms.
翻訳日:2023-01-01 04:05:40 公開日:2020-02-14
# 上昇モデリングのためのランク付けの学習

Learning to rank for uplift modeling ( http://arxiv.org/abs/2002.05897v1 )

ライセンス: Link先を確認
Floris Devriendt, Tias Guns and Wouter Verbeke(参考訳) uplift modelingはマーケティングや顧客の保持といった分野で効果的に使われており、キャンペーンや治療によって対応しそうな顧客をターゲットにしている。 アップリフトモデルはアップリフトスコアを生成し、基本的にランキングを作成するために使用される。 むしろ,アップリフトモデリングの文脈において,学習からランクへのテクニックの可能性を検討することで,ランク付けの学習方法を検討する。 本稿では,現在使用されている異なるグローバルアップリフトモデリング手法の統一的な形式化を提案し,これらを学習からランクへのフレームワークに組み込む方法について検討する。 さらに,PCG(Progressed cumulative gain)と呼ばれる上昇曲線の下での領域の最適化に焦点をあてた,学習からランクまでの新しい指標を導入する。 我々は、PCGによるランク付けを最適化するLambdaMARTを用いて、標準的な学習とランクのメトリクスよりも改善された結果を示す。 最後に,学習からランクまでのモデルが,特定の目標深度を最適化するためにどのように学習できるかを示す。

Uplift modeling has effectively been used in fields such as marketing and customer retention, to target those customers that are most likely to respond due to the campaign or treatment. Uplift models produce uplift scores which are then used to essentially create a ranking. We instead investigate to learn to rank directly by looking into the potential of learning-to-rank techniques in the context of uplift modeling. We propose a unified formalisation of different global uplift modeling measures in use today and explore how these can be integrated into the learning-to-rank framework. Additionally, we introduce a new metric for learning-to-rank that focusses on optimizing the area under the uplift curve called the promoted cumulative gain (PCG). We employ the learning-to-rank technique LambdaMART to optimize the ranking according to PCG and show improved results over standard learning-to-rank metrics and equal to improved results when compared with state-of-the-art uplift modeling. Finally, we show how learning-to-rank models can learn to optimize a certain targeting depth, however, these results do not generalize on the test set.
翻訳日:2023-01-01 04:05:03 公開日:2020-02-14
# Never Give Up: 直接探索戦略を学ぶ

Never Give Up: Learning Directed Exploration Strategies ( http://arxiv.org/abs/2002.06038v1 )

ライセンス: Link先を確認
Adri\`a Puigdom\`enech Badia, Pablo Sprechmann, Alex Vitvitskyi, Daniel Guo, Bilal Piot, Steven Kapturowski, Olivier Tieleman, Mart\'in Arjovsky, Alexander Pritzel, Andew Bolt, Charles Blundell(参考訳) そこで我々は,多岐にわたる探索政策を学習することで,ハード探索ゲームを解決するための強化学習エージェントを提案する。 エージェントの最近の経験よりk-nearest近傍を用いたエピソディックメモリに基づく本質的報酬を構築し,探索方針を訓練することにより,エージェントが環境内のすべての状態を繰り返し再訪することを奨励する。 自己教師付き逆ダイナミクスモデルは、近くのルックアップの埋め込みを訓練するために使われ、エージェントが制御できるものに新しいシグナルを偏らせる。 我々は,uvfa(universal value function approximators)の枠組みを用いて,探索と搾取のトレードオフが異なる同じニューラルネットワークを用いて,多数の有向探索政策を同時に学習する。 異なる探索・探索の度合いで同じニューラルネットワークを使用することで、効果的な搾取政策をもたらす探索的政策から移動が実証される。 提案手法は,異なる環境インスタンス上で並列に実行する多数のアクターから大量のエクスペリエンスを収集する,現代的な分散rlエージェントで実行するように組み込むことができる。 本手法は,Atari-57スイートのハード探索におけるベースエージェントの性能を2倍にし,残りのゲーム間で高いスコアを維持し,平均値1344.0%を得る。 提案手法は, 実演や手作りの機能を使わずに, ピットフォールゲームにおいて, 非ゼロ報酬(平均スコア8,400)を達成した最初のアルゴリズムである。

We propose a reinforcement learning agent to solve hard exploration games by learning a range of directed exploratory policies. We construct an episodic memory-based intrinsic reward using k-nearest neighbors over the agent's recent experience to train the directed exploratory policies, thereby encouraging the agent to repeatedly revisit all states in its environment. A self-supervised inverse dynamics model is used to train the embeddings of the nearest neighbour lookup, biasing the novelty signal towards what the agent can control. We employ the framework of Universal Value Function Approximators (UVFA) to simultaneously learn many directed exploration policies with the same neural network, with different trade-offs between exploration and exploitation. By using the same neural network for different degrees of exploration/exploitation, transfer is demonstrated from predominantly exploratory policies yielding effective exploitative policies. The proposed method can be incorporated to run with modern distributed RL agents that collect large amounts of experience from many actors running in parallel on separate environment instances. Our method doubles the performance of the base agent in all hard exploration in the Atari-57 suite while maintaining a very high score across the remaining games, obtaining a median human normalised score of 1344.0%. Notably, the proposed method is the first algorithm to achieve non-zero rewards (with a mean score of 8,400) in the game of Pitfall! without using demonstrations or hand-crafted features.
翻訳日:2023-01-01 04:04:43 公開日:2020-02-14
# 切り換えのないサンプリングによる離散ランダム変数の勾配推定

Estimating Gradients for Discrete Random Variables by Sampling without Replacement ( http://arxiv.org/abs/2002.06043v1 )

ライセンス: Link先を確認
Wouter Kool, Herke van Hoof, Max Welling(参考訳) 代替のないサンプリングに基づく離散確率変数に対する期待値に対する偏りのない推定器を導出し、重複サンプルを避けるために分散を減少させる。 この推定器は3つの異なる推定器のラオ黒色化として導出できることを示す。 提案手法を強化剤と組み合わせることで, ポリシー勾配推定器を得るとともに, モデル評価を必要とせず, 内蔵制御変量器を用いてその分散を低減できる。 得られた推定器は他の勾配推定器と密接に関連している。 玩具問題,カテゴリー的変分オートエンコーダ,構造的予測問題を用いて実験したところ,我々の推定器は高いエントロピー設定と低いエントロピー設定の両方において常に最高の推定器であることがわかった。

We derive an unbiased estimator for expectations over discrete random variables based on sampling without replacement, which reduces variance as it avoids duplicate samples. We show that our estimator can be derived as the Rao-Blackwellization of three different estimators. Combining our estimator with REINFORCE, we obtain a policy gradient estimator and we reduce its variance using a built-in control variate which is obtained without additional model evaluations. The resulting estimator is closely related to other gradient estimators. Experiments with a toy problem, a categorical Variational Auto-Encoder and a structured prediction problem show that our estimator is the only estimator that is consistently among the best estimators in both high and low entropy settings.
翻訳日:2023-01-01 04:04:16 公開日:2020-02-14
# グラフニューラルネットワークの一般化と表現限界

Generalization and Representational Limits of Graph Neural Networks ( http://arxiv.org/abs/2002.06157v1 )

ライセンス: Link先を確認
Vikas K. Garg, Stefanie Jegelka, and Tommi Jaakkola(参考訳) グラフニューラルネットワーク(GNN)に関する2つの基本的な問題に対処する。 まず、ローカル情報に完全に依存するGNNでは、いくつかの重要なグラフ特性を計算できないことを示す。 そのようなgnnには、標準的なメッセージパッシングモデルや、ローカルグラフ構造(メッセージの相対方向やローカルポート順序など)を利用して各ノードの隣接を識別する、より強力な空間的変種が含まれている。 我々の治療には、新しいグラフ理論的形式が含まれる。 第2に、メッセージパッシングGNNに対して、最初のデータ依存の一般化境界を提供する。 この分析は、GNNの局所的な置換不変性を明示的に説明している。 私たちのバウンダリは、既存のVC次元ベースのGNN保証よりもはるかに厳格で、リカレントニューラルネットワークのRademacherバウンダリと同等です。

We address two fundamental questions about graph neural networks (GNNs). First, we prove that several important graph properties cannot be computed by GNNs that rely entirely on local information. Such GNNs include the standard message passing models, and more powerful spatial variants that exploit local graph structure (e.g., via relative orientation of messages, or local port ordering) to distinguish neighbors of each node. Our treatment includes a novel graph-theoretic formalism. Second, we provide the first data dependent generalization bounds for message passing GNNs. This analysis explicitly accounts for the local permutation invariance of GNNs. Our bounds are much tighter than existing VC-dimension based guarantees for GNNs, and are comparable to Rademacher bounds for recurrent neural networks.
翻訳日:2023-01-01 04:03:23 公開日:2020-02-14
# 引数マイニングにおける関係予測のためのデータセット独立基数集合

A Dataset Independent Set of Baselines for Relation Prediction in Argument Mining ( http://arxiv.org/abs/2003.04970v1 )

ライセンス: Link先を確認
Oana Cocarascu, Elena Cabrio, Serena Villata, Francesca Toni(参考訳) 議論マイニング(Argument Mining)は、テキストから議論的コンポーネントを抽出し、議論的関係(すなわち、支援と攻撃)を予測する研究分野である。 特に、議論間の関係を予測するために文献で多くのアプローチが提案され、この目的のためにアプリケーション固有の注釈付きリソースが構築された。 これらの資源が同じタスクで実験するために作られたという事実にもかかわらず、これらのデータセットのかなりの部分にうまく適用できる単一の関係予測方法の定義は、Argument Miningにおけるオープンな研究問題である。 これは、文献で提案されたどの手法も、あるリソースから別のリソースへ容易に移植できないことを意味する。 本稿では,議論的関係予測タスクの文献に提案されているすべてのデータセットについて,同質な結果を得るデータセット独立性強い神経ベースラインを提案することで,この問題に対処する。 したがって,提案手法が議論的関係予測タスクでどれだけうまく機能するかをより効果的に比較するために,Argument Miningコミュニティがベースラインを利用できる。

Argument Mining is the research area which aims at extracting argument components and predicting argumentative relations (i.e.,support and attack) from text. In particular, numerous approaches have been proposed in the literature to predict the relations holding between the arguments, and application-specific annotated resources were built for this purpose. Despite the fact that these resources have been created to experiment on the same task, the definition of a single relation prediction method to be successfully applied to a significant portion of these datasets is an open research problem in Argument Mining. This means that none of the methods proposed in the literature can be easily ported from one resource to another. In this paper, we address this problem by proposing a set of dataset independent strong neural baselines which obtain homogeneous results on all the datasets proposed in the literature for the argumentative relation prediction task. Thus, our baselines can be employed by the Argument Mining community to compare more effectively how well a method performs on the argumentative relation prediction task.
翻訳日:2023-01-01 03:56:25 公開日:2020-02-14
# ペルシアのソーシャルメディアにおける畳み込みニューラルネットワークによる知覚分析

Convolutional Neural Networks for Sentiment Analysis in Persian Social Media ( http://arxiv.org/abs/2002.06233v1 )

ライセンス: Link先を確認
Morteza Rohanian, Mostafa Salehi, Ali Darzi, Vahid Ranjbar(参考訳) ソーシャルメディアの普及に伴い、結果として得られるデータは、私たちの周りのさまざまな現象を分析し理解するための豊富なリソースとして使用できる。 感情分析システムは、これらのデータを用いて、ある文書の中の特定のエンティティに対するソーシャルメディアユーザーの態度を求める。 本稿では,異なるフィルタを用いて入力データに畳み込みの層を適用することで,文を2クラスと5クラスに分類する畳み込みニューラルネットワーク(cnn)を用いたペルシャテキストの感情分析手法を提案する。 本研究では,ペルシャのソーシャルメディアテキストの3つの異なるデータセットについて,曲線計量下の領域を用いて評価した。 最終結果は、特に短いテキストに対するペルシア語の感情分類のための従来の機械学習手法の開発よりもCNNを使うことの利点を示している。

With the social media engagement on the rise, the resulting data can be used as a rich resource for analyzing and understanding different phenomena around us. A sentiment analysis system employs these data to find the attitude of social media users towards certain entities in a given document. In this paper we propose a sentiment analysis method for Persian text using Convolutional Neural Network (CNN), a feedforward Artificial Neural Network, that categorize sentences into two and five classes (considering their intensity) by applying a layer of convolution over input data through different filters. We evaluated the method on three different datasets of Persian social media texts using Area under Curve metric. The final results show the advantage of using CNN over earlier attempts at developing traditional machine learning methods for Persian texts sentiment classification especially for short texts.
翻訳日:2023-01-01 03:56:08 公開日:2020-02-14
# ダイエットの変圧器

Transformer on a Diet ( http://arxiv.org/abs/2002.06170v1 )

ライセンス: Link先を確認
Chenguang Wang, Zihao Ye, Aston Zhang, Zheng Zhang, Alexander J. Smola(参考訳) トランスフォーマーは、シーケンス情報を効率的にキャプチャする能力のおかげで、広く使われている。 しかし、BERT や GPT-2 のような最近の開発は、有効性を重視した重いアーキテクチャしか提供していない。 本稿では,より少ない計算量を持つトランスフォーマーが競合する結果をもたらすかどうかを明らかにするために,慎重に設計された3つの光トランスアーキテクチャについて検討する。 言語モデルベンチマークデータセットの実験結果から,そのようなトレードオフが期待できることが示唆され,ライトトランスフォーマーは70%のパラメータをベストに削減する一方で,標準トランスフォーマーと比較して競合的なパープレキシティを得ることができる。 ソースコードは公開されている。

Transformer has been widely used thanks to its ability to capture sequence information in an efficient way. However, recent developments, such as BERT and GPT-2, deliver only heavy architectures with a focus on effectiveness. In this paper, we explore three carefully-designed light Transformer architectures to figure out whether the Transformer with less computations could produce competitive results. Experimental results on language model benchmark datasets hint that such trade-off is promising, and the light Transformer reduces 70% parameters at best, while obtains competitive perplexity compared to standard Transformer. The source code is publicly available.
翻訳日:2023-01-01 03:55:31 公開日:2020-02-14
# 短発話における遠距離話者認識のための深部話者埋め込み

Deep Speaker Embeddings for Far-Field Speaker Recognition on Short Utterances ( http://arxiv.org/abs/2002.06033v1 )

ライセンス: Link先を確認
Aleksei Gusev, Vladimir Volokhov, Tseren Andzhukaev, Sergey Novoselov, Galina Lavrentyeva, Marina Volkova, Alice Gazizullina, Andrey Shulipa, Artem Gorlanov, Anastasia Avdeeva, Artem Ivanov, Alexander Kozlov, Timur Pekhovsky, Yuri Matveev(参考訳) 深層話者埋め込みに基づく話者認識システムは,初期のNIST SRE(Speaker Recognition Evaluation)データセットで得られた結果に基づいて,制御条件における顕著な性能を実現している。 現実的な観点では、バーチャルアシスタント(Amazon Alexa、Google Home、AppleSiriなど)への関心が高まっていることを考慮すると、制御不能な雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。 本稿では,2つの目標を達成するためのアプローチを提案する。 a)環境騒音、残響及び残響の存在下での遠距離話者認証システムの品質向上 b)短い発話におけるシステム品質劣化の低減。 これらの目的で,TDNN(TimeDelay Neural Network)ブロックとResNet(Residual Neural Network)ブロックに基づくディープニューラルネットワークアーキテクチャを検討した。 最先端の埋め込み抽出器とその訓練手順を実験した。 得られた結果から, ResNet アーキテクチャは, 長調・短調両方の話者検証品質において, 標準的な x-vector 手法よりも優れていたことが確認された。 また,音声活動検出装置,異なるスコアリングモデル,適応およびスコア正規化手法の影響についても検討した。 実験結果は、VoxCeleb1、VoxCeleb2、VOiCESデータセットの公開データおよび検証プロトコルに対して提示される。

Speaker recognition systems based on deep speaker embeddings have achieved significant performance in controlled conditions according to the results obtained for early NIST SRE (Speaker Recognition Evaluation) datasets. From the practical point of view, taking into account the increased interest in virtual assistants (such as Amazon Alexa, Google Home, AppleSiri, etc.), speaker verification on short utterances in uncontrolled noisy environment conditions is one of the most challenging and highly demanded tasks. This paper presents approaches aimed to achieve two goals: a) improve the quality of far-field speaker verification systems in the presence of environmental noise, reverberation and b) reduce the system qualitydegradation for short utterances. For these purposes, we considered deep neural network architectures based on TDNN (TimeDelay Neural Network) and ResNet (Residual Neural Network) blocks. We experimented with state-of-the-art embedding extractors and their training procedures. Obtained results confirm that ResNet architectures outperform the standard x-vector approach in terms of speaker verification quality for both long-duration and short-duration utterances. We also investigate the impact of speech activity detector, different scoring models, adaptation and score normalization techniques. The experimental results are presented for publicly available data and verification protocols for the VoxCeleb1, VoxCeleb2, and VOiCES datasets.
翻訳日:2023-01-01 03:55:19 公開日:2020-02-14
# 人間の嗜好を学習するRLエージェント

RL agents Implicitly Learning Human Preferences ( http://arxiv.org/abs/2002.06137v1 )

ライセンス: Link先を確認
Nevan Wichers(参考訳) 現実世界では、RLエージェントは人間の嗜好を満たすことで報われるべきである。 RLエージェントは, 環境下での人間の嗜好を暗黙的に学習する。 シミュレーションされた人間の好みがRLエージェントのニューラルネットワークの活性化に基づいて満たされるかどうかを予測するために分類器を訓練する。 生の環境状態における分類器のトレーニングは .8 auc となる。 RLエージェントのアクティベーションから分類器をトレーニングするのも、オートエンコーダからのアクティベーションのトレーニングよりはるかに優れている。 ヒトの嗜好分類器は、RL剤の報酬機能として使用することができ、RL剤をヒトにとってより有益にすることができる。

In the real world, RL agents should be rewarded for fulfilling human preferences. We show that RL agents implicitly learn the preferences of humans in their environment. Training a classifier to predict if a simulated human's preferences are fulfilled based on the activations of a RL agent's neural network gets .93 AUC. Training a classifier on the raw environment state gets only .8 AUC. Training the classifier off of the RL agent's activations also does much better than training off of activations from an autoencoder. The human preference classifier can be used as the reward function of an RL agent to make RL agent more beneficial for humans.
翻訳日:2023-01-01 03:54:59 公開日:2020-02-14
# 状態変数・帯域問題・PMDPについて

On State Variables, Bandit Problems and POMDPs ( http://arxiv.org/abs/2002.06238v1 )

ライセンス: Link先を確認
Warren B Powell(参考訳) 状態変数はシーケンシャルな決定問題の最も微妙な次元である。 これは、意思決定が観察や学習に影響を与える、アクティブな学習問題(バンド問題)の文脈で特に当てはまります。 シーケンシャルな決定問題をモデル化する私たちの標準的フレームワークを説明し、私たちが主張できる状態変数の定義を示す: 適切にモデル化されたシーケンシャルな決定問題はマルコフ的です。 次に, 部分可観測マルコフ決定問題(pomdps)の新たな二元的視点を提示し, 実決定問題のモデルはすべて(多分)非マルコフであることを示す。 これらの視点は、集団におけるインフルエンザの観察と治療の文脈を用いて説明し、この設定における4つの政策のすべて例を示す。 我々は、この考え方をマルチエージェント問題にどのように拡張するかを示す。

State variables are easily the most subtle dimension of sequential decision problems. This is especially true in the context of active learning problems (bandit problems") where decisions affect what we observe and learn. We describe our canonical framework that models {\it any} sequential decision problem, and present our definition of state variables that allows us to claim: Any properly modeled sequential decision problem is Markovian. We then present a novel two-agent perspective of partially observable Markov decision problems (POMDPs) that allows us to then claim: Any model of a real decision problem is (possibly) non-Markovian. We illustrate these perspectives using the context of observing and treating flu in a population, and provide examples of all four classes of policies in this setting. We close with an indication of how to extend this thinking to multiagent problems.
翻訳日:2023-01-01 03:48:52 公開日:2020-02-14
# ビジネスプロセスのワークロード予測 - プロセスマイニングとリカレントニューラルネットワークに基づくアプローチ

Workload Prediction of Business Processes -- An Approach Based on Process Mining and Recurrent Neural Networks ( http://arxiv.org/abs/2002.11675v1 )

ライセンス: Link先を確認
Fabrizio Albertetti, Hatem Ghorbel(参考訳) 産業4.0として知られる産業機械の相互接続性とデジタル化の最近の進歩は、新しい分析技術への道を開いた。 実際、プロダクション関連のデータの可用性とリッチさは、新しいデータ駆動方式を可能にします。 本稿では,(1)企業の過去のワークロードを再構築し,(2)ニューラルネットワークを用いてワークロードを予測する,人工知能を活用したプロセスマイニング手法を提案する。 我々の方法は、製造に関連するビジネスプロセスの歴史を表すログに依存する。 これらのログは、供給と需要の定量化に使用され、リカレントニューラルネットワークモデルに入力され、顧客の注文を予測する。 これらの順序を満たすための対応するアクティビティは、トレース頻度やアクティビティの類似性などの基準に基づいて、履歴からリプレイメカニズムでサンプリングされる。 本手法の評価と実例は,Heraeus Materials SAの管理プロセス上で実施される。 1年間のテストセットでのワークロード予測は、1週間の予測でMAPEスコアが19%に達する。 このケーススタディは合理的な正確さを示唆し, 歴史的作業負荷の理解と具体的な予測が組み合わさって, 経営決定を支援するのに大いに役立ち, 中期的な資源計画によるコスト削減を図っている。

Recent advances in the interconnectedness and digitization of industrial machines, known as Industry 4.0, pave the way for new analytical techniques. Indeed, the availability and the richness of production-related data enables new data-driven methods. In this paper, we propose a process mining approach augmented with artificial intelligence that (1) reconstructs the historical workload of a company and (2) predicts the workload using neural networks. Our method relies on logs, representing the history of business processes related to manufacturing. These logs are used to quantify the supply and demand and are fed into a recurrent neural network model to predict customer orders. The corresponding activities to fulfill these orders are then sampled from history with a replay mechanism, based on criteria such as trace frequency and activities similarity. An evaluation and illustration of the method is performed on the administrative processes of Heraeus Materials SA. The workload prediction on a one-year test set achieves an MAPE score of 19% for a one-week forecast. The case study suggests a reasonable accuracy and confirms that a good understanding of the historical workload combined to articulated predictions are of great help for supporting management decisions and can decrease costs with better resources planning on a medium-term level.
翻訳日:2023-01-01 03:48:00 公開日:2020-02-14
# スキップ接続が重要である: ResNetsで生成された逆例の転送可能性について

Skip Connections Matter: On the Transferability of Adversarial Examples Generated with ResNets ( http://arxiv.org/abs/2002.05990v1 )

ライセンス: Link先を確認
Dongxian Wu, Yisen Wang, Shu-Tao Xia, James Bailey, Xingjun Ma(参考訳) スキップ接続は、ResNet、WideResNet、DenseNet、ResNeXtといった現在の最先端のディープニューラルネットワーク(DNN)の重要なコンポーネントである。 より深く、より強力なdnnの構築に成功したにもかかわらず、我々はスキップ接続の驚くべきセキュリティの弱点を見出します。 スキップ接続を使用することで、高度に転送可能な逆例を簡単に生成できる。 特に、resnetのような(スキップ接続を伴う)ニューラルネットワークでは、勾配はスキップ接続または残余モジュールを介してバックプロパゲートすることができる。 減衰係数に従って余剰加群よりもスキップ接続からより多くの勾配を用いることで、高い移動性を持つ逆例を作成できることがわかった。 本手法はSkip Gradient Method(SGM)と呼ばれる。 我々は、ResNets、DenseNets、Inceptions、Inception-ResNet、Squeeze-and-Excitation Network (SENet)、堅牢に訓練されたDNNを含む最先端のDNNに対して包括的な転送攻撃を行う。 ほぼすべてのケースにおいて,SGMを勾配流に適用することにより,クラフト攻撃の伝達性を大幅に向上させることができることを示す。 さらに、SGMは既存のブラックボックス攻撃技術と容易に組み合わせられ、最先端のトランスファービリティー法よりも高い改善が得られる。 我々の発見は、DNNのアーキテクチャ脆弱性に関する新たな研究を動機づけるだけでなく、セキュアなDNNアーキテクチャの設計に関するさらなる課題も開きます。

Skip connections are an essential component of current state-of-the-art deep neural networks (DNNs) such as ResNet, WideResNet, DenseNet, and ResNeXt. Despite their huge success in building deeper and more powerful DNNs, we identify a surprising security weakness of skip connections in this paper. Use of skip connections allows easier generation of highly transferable adversarial examples. Specifically, in ResNet-like (with skip connections) neural networks, gradients can backpropagate through either skip connections or residual modules. We find that using more gradients from the skip connections rather than the residual modules according to a decay factor, allows one to craft adversarial examples with high transferability. Our method is termed Skip Gradient Method(SGM). We conduct comprehensive transfer attacks against state-of-the-art DNNs including ResNets, DenseNets, Inceptions, Inception-ResNet, Squeeze-and-Excitation Network (SENet) and robustly trained DNNs. We show that employing SGM on the gradient flow can greatly improve the transferability of crafted attacks in almost all cases. Furthermore, SGM can be easily combined with existing black-box attack techniques, and obtain high improvements over state-of-the-art transferability methods. Our findings not only motivate new research into the architectural vulnerability of DNNs, but also open up further challenges for the design of secure DNN architectures.
翻訳日:2023-01-01 03:47:22 公開日:2020-02-14
# GSANet:グローバルおよび選択的注意によるセマンティックセグメンテーション

GSANet: Semantic Segmentation with Global and Selective Attention ( http://arxiv.org/abs/2003.00830v1 )

ライセンス: Link先を確認
Qingfeng Liu, Mostafa El-Khamy, Dongwoon Bai, Jungwon Lee(参考訳) 本稿では,意味セグメンテーションのための新しいディープラーニングアーキテクチャを提案する。 提案したGSANet(Global and Selective Attention Network)は,Atrous Spatial Pyramid Pooling (ASPP) を特徴とし,新たな疎度なグローバルアテンションと,抽出した深部特徴から多スケールのコンテキスト情報を集約する凝縮拡散機構を展開させる新規な選択的アテンションを特徴としている。 GSA-ASPP出力を処理し、ソフトマックスボリュームを最適化するために、選択的アテンションデコーダも提案されている。 エッジデバイスでの低レイテンシに最適化されたfxn(low-complexity feature extraction network)mobilenetedgeを用いて,セマンティックセグメンテーションネットワークのパフォーマンスを初めてベンチマークした。 我々はGSANetがMobileNetEdgeとより正確なセグメンテーションをもたらすことを示し、Xceptionのような強力なFXNを持つことを示した。 GSANetはADE20kとCityscapesのデータセットの最先端セマンティックセマンティックセマンティクスの精度を改善している。

This paper proposes a novel deep learning architecture for semantic segmentation. The proposed Global and Selective Attention Network (GSANet) features Atrous Spatial Pyramid Pooling (ASPP) with a novel sparsemax global attention and a novel selective attention that deploys a condensation and diffusion mechanism to aggregate the multi-scale contextual information from the extracted deep features. A selective attention decoder is also proposed to process the GSA-ASPP outputs for optimizing the softmax volume. We are the first to benchmark the performance of semantic segmentation networks with the low-complexity feature extraction network (FXN) MobileNetEdge, that is optimized for low latency on edge devices. We show that GSANet can result in more accurate segmentation with MobileNetEdge, as well as with strong FXNs, such as Xception. GSANet improves the state-of-art semantic segmentation accuracy on both the ADE20k and the Cityscapes datasets.
翻訳日:2023-01-01 03:46:35 公開日:2020-02-14
# 太陽放射推定における可変選択のための異なる種類のニッチ遺伝的アルゴリズムの比較

A comparison of different types of Niching Genetic Algorithms for variable selection in solar radiation estimation ( http://arxiv.org/abs/2002.06036v1 )

ライセンス: Link先を確認
Jorge Bustos, Victor A. Jimenez, Adrian Will(参考訳) 変数選択問題は一般に1つの解よりも多く存在し、時にはできるだけ多くの解を見つける価値がある。 このような問題に応用された進化的アルゴリズムは、最適解を見つける最良の方法の1つであることが証明されている。 さらに、ニーチ遺伝的アルゴリズム(NGA)として知られる、すべてのまたはほぼ全ての局所最適化を見つけるために設計された変種が存在する。 この課題を達成するために、いくつかの異なるNGA手法が開発されている。 本研究は,アルゼンチンのトゥクマンに分布する4つの気象観測所の気候データベースに適用した8種類のニチング手法の挙動を比較した。 目標は、推定方法によって入力変数として使われた異なる入力変数の集合を見つけることである。 最終結果は, 推定誤差の低さと分散誤差の低さ, 多数の異なる結果と計算時間の低さに基づいて評価した。 2つ目の実験は、臨界変数を同定する手法の能力を研究するために行われた。 最善の結果は決定論的群集によって得られた。 対照的に、Steady State Worst Among Most similar and Probabilistic Crowdingは良い結果を示したが、処理時間が長く、重要な要因を決定する能力も低かった。

Variable selection problems generally present more than a single solution and, sometimes, it is worth to find as many solutions as possible. The use of Evolutionary Algorithms applied to this kind of problem proves to be one of the best methods to find optimal solutions. Moreover, there are variants designed to find all or almost all local optima, known as Niching Genetic Algorithms (NGA). There are several different NGA methods developed in order to achieve this task. The present work compares the behavior of eight different niching techniques, applied to a climatic database of four weather stations distributed in Tucuman, Argentina. The goal is to find different sets of input variables that have been used as the input variable by the estimation method. Final results were evaluated based on low estimation error and low dispersion error, as well as a high number of different results and low computational time. A second experiment was carried out to study the capability of the method to identify critical variables. The best results were obtained with Deterministic Crowding. In contrast, Steady State Worst Among Most Similar and Probabilistic Crowding showed good results but longer processing times and less ability to determine the critical factors.
翻訳日:2023-01-01 03:46:13 公開日:2020-02-14
# 筋反応に対する運動皮質刺激のマッピング:ディープニューラルネットワークモデルによるアプローチ

Mapping Motor Cortex Stimulation to Muscle Responses: A Deep Neural Network Modeling Approach ( http://arxiv.org/abs/2002.06250v1 )

ライセンス: Link先を確認
Md Navid Akbar, Mathew Yarossi, Marc Martinez-Gost, Marc A. Sommer, Moritz Dannhauer, Sumientra Rampersad, Dana Brooks, Eugene Tunik, Deniz Erdo\u{g}mu\c{s}(参考訳) 対応する脳刺激から筋反応を確実にモデル化できるディープニューラルネットワーク(DNN)は、多数の基礎科学や応用ユースケースに対する協調運動制御の知識を高める可能性がある。 このような症例には、脳卒中による神経障害による異常な運動パターンの理解や、ペア結合刺激のような神経学的回復のための刺激に基づく介入が含まれる。 本研究では, 有限要素シミュレーション, 経験的神経応答プロファイル, 畳み込みオートエンコーダ, 分離ディープネットワークマッパー, マルチ筋肉活性化記録などを用いて, 運動野の経頭蓋磁気刺激を対応する筋反応にマッピングするネットワークであるm2m-netの最適性能に, 最小二乗誤差のモデルが推奨される。 異なるモデリングアプローチとアーキテクチャの背景にある理論的根拠について議論し、それらの結果を対比する。 さらに,複雑性と性能分析のトレードオフを比較検討するために,m2m-net の2つの古典的情報基準の拡張など,様々な手法を検討する。 最後に, 運動野刺激を筋への直接的および相乗的結合の組合せにマッピングするモデルが, 入力時に神経応答プロファイルを用いることで, 最善であることがわかった。

A deep neural network (DNN) that can reliably model muscle responses from corresponding brain stimulation has the potential to increase knowledge of coordinated motor control for numerous basic science and applied use cases. Such cases include the understanding of abnormal movement patterns due to neurological injury from stroke, and stimulation based interventions for neurological recovery such as paired associative stimulation. In this work, potential DNN models are explored and the one with the minimum squared errors is recommended for the optimal performance of the M2M-Net, a network that maps transcranial magnetic stimulation of the motor cortex to corresponding muscle responses, using: a finite element simulation, an empirical neural response profile, a convolutional autoencoder, a separate deep network mapper, and recordings of multi-muscle activation. We discuss the rationale behind the different modeling approaches and architectures, and contrast their results. Additionally, to obtain a comparative insight of the trade-off between complexity and performance analysis, we explore different techniques, including the extension of two classical information criteria for M2M-Net. Finally, we find that the model analogous to mapping the motor cortex stimulation to a combination of direct and synergistic connection to the muscles performs the best, when the neural response profile is used at the input.
翻訳日:2023-01-01 03:45:53 公開日:2020-02-14
# 道路センサデータにおけるシンボリック回帰による交通モデリングと予測

Traffic Modelling and Prediction via Symbolic Regression on Road Sensor Data ( http://arxiv.org/abs/2002.06095v1 )

ライセンス: Link先を確認
Alina Patelli, Victoria Lush, Aniko Ekart, Elisabeth Ilie-Zudor(参考訳) 都市交通センシングインフラの継続的な拡張により、広く利用可能な道路関連データの量が急増した。 その結果、都市全体の道路整備計画から通勤体験の改善に至るまでの問題に関する決定は、完全に人間に委ねられるのではなく、都市交通の計算モデルによって伝達される。 交通管理の自動化は研究コミュニティから大きな注目を集めているが、ほとんどのアプローチは高速道路をターゲットにしており、限られた時間帯に有効な予測や、新しい場所での交通を正確に予測するために利用可能なモデルの高価な再訓練が必要である。 本稿では,ラグ演算子により強化された記号回帰に基づく,新しいかつ正確な交通流予測手法を提案する。 提案手法は,高速道路よりも予測が難しい都市道路の複雑度に適したロバストモデルを生成する。 さらに、最大9週間モデルを再トレーニングする必要もない。 さらに,提案手法は,道路ネットワークの他のセグメントに転送可能なモデルを生成する。 本稿では,ダルムシュタットの都市インフラから収集したデータについて広範な実験を行った。

The continuous expansion of the urban traffic sensing infrastructure has led to a surge in the volume of widely available road related data. Consequently, increasing effort is being dedicated to the creation of intelligent transportation systems, where decisions on issues ranging from city-wide road maintenance planning to improving the commuting experience are informed by computational models of urban traffic instead of being left entirely to humans. The automation of traffic management has received substantial attention from the research community, however, most approaches target highways, produce predictions valid for a limited time window or require expensive retraining of available models in order to accurately forecast traffic at a new location. In this article, we propose a novel and accurate traffic flow prediction method based on symbolic regression enhanced with a lag operator. Our approach produces robust models suitable for the intricacies of urban roads, much more difficult to predict than highways. Additionally, there is no need to retrain the model for a period of up to 9 weeks. Furthermore, the proposed method generates models that are transferable to other segments of the road network, similar to, yet geographically distinct from the ones they were initially trained on. We demonstrate the achievement of these claims by conducting extensive experiments on data collected from the Darmstadt urban infrastructure.
翻訳日:2023-01-01 03:45:28 公開日:2020-02-14
# Replicated Runsにおけるクラスタリング手法による遅延ディリクレ割当の安定性評価による信頼性向上

Improving Reliability of Latent Dirichlet Allocation by Assessing Its Stability Using Clustering Techniques on Replicated Runs ( http://arxiv.org/abs/2003.04980v1 )

ライセンス: Link先を確認
Jonas Rieger, Lars Koppers, Carsten Jentsch, and J\"org Rahnenf\"uhrer(参考訳) 大規模なテキストコーパストピックモデリングの編成には便利なツールがある。 広く使われている手法はLDA(Latent Dirichlet Allocation)であり、潜在トピックの混合としてテキストの集合内の単一テキストをモデル化する生成確率モデルである。 話題への単語の割り当ては、一般的にLDAの結果が完全に再現できないような初期値に依存する。 さらに、Gibbs Samplingによる再割り当ては条件分布に基づいており、同じテキストデータ上で複製された実行の結果が異なる。 この事実は日常的に無視されることが多い。 LDAの結果の信頼性を向上させることを目的としている。 そこで本研究では,複製実行におけるldaの安定性について検討する。 修正ジャカード係数を用いて、2つの生成トピックの類似性を定量化する。 このような類似性を使ってトピックをクラスタ化することができる。 2つのLDA実行が類似トピックのペアを生成するというアイデアに基づいて,階層クラスタリング結果のための新しいプルーニングアルゴリズムを提案する。 このアプローチにより、ldaモデルの安定性を定量化するための新しい測度 s-clop ({\bf s}imilarity of multiple sets by {\bf c}lustering with {\bf lo}cal {\bf p}runing) が導かれる。 本稿では,この指標の特徴について論じ,それを新聞記事から得られる実データに適用した。 その結果,s-clopはldaモデルの安定性や,その話題を単語分布で特徴づける他のトピックモデリング手法を評価するのに有用であることがわかった。 新たに提案したLDA安定化尺度に基づいて,信頼性を高め,トピックモデリングに基づく実験結果の再現性を向上させる手法を提案する。 この信頼性の向上は、LDAを複数回実行し、プロトタイプとして最も代表的なラン、すなわちLDAのランを他のすべてのランと平均的類似度で実行することで得られる。

For organizing large text corpora topic modeling provides useful tools. A widely used method is Latent Dirichlet Allocation (LDA), a generative probabilistic model which models single texts in a collection of texts as mixtures of latent topics. The assignments of words to topics rely on initial values such that generally the outcome of LDA is not fully reproducible. In addition, the reassignment via Gibbs Sampling is based on conditional distributions, leading to different results in replicated runs on the same text data. This fact is often neglected in everyday practice. We aim to improve the reliability of LDA results. Therefore, we study the stability of LDA by comparing assignments from replicated runs. We propose to quantify the similarity of two generated topics by a modified Jaccard coefficient. Using such similarities, topics can be clustered. A new pruning algorithm for hierarchical clustering results based on the idea that two LDA runs create pairs of similar topics is proposed. This approach leads to the new measure S-CLOP ({\bf S}imilarity of multiple sets by {\bf C}lustering with {\bf LO}cal {\bf P}runing) for quantifying the stability of LDA models. We discuss some characteristics of this measure and illustrate it with an application to real data consisting of newspaper articles from \textit{USA Today}. Our results show that the measure S-CLOP is useful for assessing the stability of LDA models or any other topic modeling procedure that characterize its topics by word distributions. Based on the newly proposed measure for LDA stability, we propose a method to increase the reliability and hence to improve the reproducibility of empirical findings based on topic modeling. This increase in reliability is obtained by running the LDA several times and taking as prototype the most representative run, that is the LDA run with highest average similarity to all other runs.
翻訳日:2023-01-01 03:39:30 公開日:2020-02-14
# 粒子競合と協調による画像分割のためのネットワークの構築

Building Networks for Image Segmentation using Particle Competition and Cooperation ( http://arxiv.org/abs/2002.06001v1 )

ライセンス: Link先を確認
Fabricio Breve(参考訳) 粒子競合と協調 (PCC) はグラフに基づく半教師あり学習手法である。 pccをインタラクティブな画像分割タスクに適用すると、ピクセルはネットワークノードに変換され、各ノードは画像から抽出された一連の特徴間の距離に応じて、そのkネアレスト近傍に接続される。 PCCを供給するための適切なネットワークの構築は、より良いセグメンテーション結果を達成するために不可欠である。 しかし、ある特徴は他の特徴よりも重要であり、その特徴は、セグメント化される画像の特性によって異なる。 本稿では,候補ネットワークを評価する指標を提案する。 したがって,ネットワーク構築は,提案した指標に基づいて特徴量の最適化を行う問題となる。 計算機シミュレーションはmicrosoft grabcutデータベースから得られた実世界画像上で行われ,提案手法の有効性を示す。

Particle competition and cooperation (PCC) is a graph-based semi-supervised learning approach. When PCC is applied to interactive image segmentation tasks, pixels are converted into network nodes, and each node is connected to its k-nearest neighbors, according to the distance between a set of features extracted from the image. Building a proper network to feed PCC is crucial to achieve good segmentation results. However, some features may be more important than others to identify the segments, depending on the characteristics of the image to be segmented. In this paper, an index to evaluate candidate networks is proposed. Thus, building the network becomes a problem of optimizing some feature weights based on the proposed index. Computer simulations are performed on some real-world images from the Microsoft GrabCut database, and the segmentation results related in this paper show the effectiveness of the proposed method.
翻訳日:2023-01-01 03:38:35 公開日:2020-02-14
# 意味的関連性と分類学的単語埋め込み

Semantic Relatedness and Taxonomic Word Embeddings ( http://arxiv.org/abs/2002.06235v1 )

ライセンス: Link先を確認
Magdalena Kacmajor and John D. Kelleher and Filip Klubicka and Alfredo Maldonado(参考訳) 本稿では,分類学的な単語埋め込みを扱う一連の論文を関連付ける。 意味的関連性には異なる種類があり、異なる語彙表現は異なる関係性の形式を符号化している点に注意することから始まる。 意味的関連性の中で特に重要な区別は、セマンティックと分類学的関連性である。 次に,分類学上のランダムウォークによって生成された合成コーパス上で訓練された分類学組込みを解析する実験をいくつか紹介する。 これらの実験は、合成コーパスの特性、例えばレアワードの割合が、コーパスが生成する知識グラフの形状によってどのように影響を受けるかを示す。 最後に,自然コーパスと合成コーパスの相対的大きさの相互作用を,分類学と主題的埋め込みが組み合わさった場合の埋め込みのパフォーマンスについて検討する。

This paper connects a series of papers dealing with taxonomic word embeddings. It begins by noting that there are different types of semantic relatedness and that different lexical representations encode different forms of relatedness. A particularly important distinction within semantic relatedness is that of thematic versus taxonomic relatedness. Next, we present a number of experiments that analyse taxonomic embeddings that have been trained on a synthetic corpus that has been generated via a random walk over a taxonomy. These experiments demonstrate how the properties of the synthetic corpus, such as the percentage of rare words, are affected by the shape of the knowledge graph the corpus is generated from. Finally, we explore the interactions between the relative sizes of natural and synthetic corpora on the performance of embeddings when taxonomic and thematic embeddings are combined.
翻訳日:2023-01-01 03:38:02 公開日:2020-02-14
# シンボリック知識ベースを用いた推論のためのスケーラブルニューラルネットワーク

Scalable Neural Methods for Reasoning With a Symbolic Knowledge Base ( http://arxiv.org/abs/2002.06115v1 )

ライセンス: Link先を確認
William W. Cohen, Haitian Sun, R. Alex Hofer, Matthew Siegler(参考訳) 本稿では,Sparse-matrix reified KB と呼ばれる記号的知識ベース (KB) の表現方法について述べる。 この表現は、完全に微分可能で、kbの本来の意味論に忠実で、マルチホップ推論をモデル化するのに十分な表現力を持ち、現実的な大きなkbで使えるほどスケーラブルである神経モジュールを可能にする。 スパースマトリックスを再構成したkbは、複数のgpuに分散でき、数千万のエンティティや事実にスケールでき、ナイーブなスパースマトリックスの実装よりも桁違いに高速である。 改良されたkbは、非常に単純なエンドツーエンドアーキテクチャにより、2種類のタスクを表すいくつかのベンチマークで競合性能を得ることができる。

We describe a novel way of representing a symbolic knowledge base (KB) called a sparse-matrix reified KB. This representation enables neural modules that are fully differentiable, faithful to the original semantics of the KB, expressive enough to model multi-hop inferences, and scalable enough to use with realistically large KBs. The sparse-matrix reified KB can be distributed across multiple GPUs, can scale to tens of millions of entities and facts, and is orders of magnitude faster than naive sparse-matrix implementations. The reified KB enables very simple end-to-end architectures to obtain competitive performance on several benchmarks representing two families of tasks: KB completion, and learning semantic parsers from denotations.
翻訳日:2023-01-01 03:37:20 公開日:2020-02-14
# dynaにおける周波数ベース探索制御

Frequency-based Search-control in Dyna ( http://arxiv.org/abs/2002.05822v1 )

ライセンス: Link先を確認
Yangchen Pan, Jincheng Mei, Amir-massoud Farahmand(参考訳) モデルに基づく強化学習は、サンプル効率を改善するための成功戦略として実証的に実証されている。 特にDynaは、学習と計画を統合するエレガントなモデルベースのアーキテクチャであり、モデルを使用することの柔軟性を提供する。 dynaの最も重要なコンポーネントの1つは、search-controlと呼ばれ、モデルに問い合わせてシミュレーションされた経験を得る状態または状態-アクションペアを生成するプロセスを指す。 探索制御は学習効率の向上に不可欠である。 本研究では,値関数の高周波領域を探索し,単純かつ新しい探索制御手法を提案する。 信号処理からのシャノンサンプリング定理に基づいて, 高周波信号の再構成により多くのサンプルを必要とすることを示す。 我々は,高周波関数の近似がより困難であることを実証的に示す。 値関数の高周波領域からの状態を使用して、より多くのサンプルを取得するためにモデルに問い合わせるべきです。 我々は、勾配とヘシアンノルムによる関数の周波数を局所的に測定する簡単な戦略を開発し、このアプローチの理論的正当化を提供する。 次にDynaの検索制御に我々の戦略を適用し、ベンチマーク領域におけるその特性と有効性を示す実験を行う。

Model-based reinforcement learning has been empirically demonstrated as a successful strategy to improve sample efficiency. In particular, Dyna is an elegant model-based architecture integrating learning and planning that provides huge flexibility of using a model. One of the most important components in Dyna is called search-control, which refers to the process of generating state or state-action pairs from which we query the model to acquire simulated experiences. Search-control is critical in improving learning efficiency. In this work, we propose a simple and novel search-control strategy by searching high frequency regions of the value function. Our main intuition is built on Shannon sampling theorem from signal processing, which indicates that a high frequency signal requires more samples to reconstruct. We empirically show that a high frequency function is more difficult to approximate. This suggests a search-control strategy: we should use states from high frequency regions of the value function to query the model to acquire more samples. We develop a simple strategy to locally measure the frequency of a function by gradient and hessian norms, and provide theoretical justification for this approach. We then apply our strategy to search-control in Dyna, and conduct experiments to show its property and effectiveness on benchmark domains.
翻訳日:2023-01-01 03:37:07 公開日:2020-02-14
# ARMS:不正検出のための自動ルール管理システム

ARMS: Automated rules management system for fraud detection ( http://arxiv.org/abs/2002.06075v1 )

ライセンス: Link先を確認
David Apar\'icio, Ricardo Barata, Jo\~ao Bravo, Jo\~ao Tiago Ascens\~ao, Pedro Bizarro(参考訳) 不正検出は金融サービスにおいて不可欠であり、犯罪行為を大幅に減らし、企業や顧客にとってかなりの資源を節約する可能性がある。 オンライン不正検出は、入ってくる取引を合法か不正かのどちらかにリアルタイムで分類する。 現代の不正検出システムは、人間の専門家によって定義された機械学習モデルとルールで構成されている。 多くの場合、ルールのパフォーマンスは、概念のドリフト、特に敵対的な性質によって、時間とともに低下する。 さらに、計算コストが高いか、手作業によるレビューのためにトランザクションを送信するため、メンテナンスにコストがかかる場合もある。 本稿では,個々のルールの貢献度を評価する自動ルール管理システムARMSを提案し,ヒューリスティック検索とユーザ定義の損失関数を用いたアクティブなルールセットを最適化する。 異なるアクション(例えば、受け入れ、警告、減少)、優先順位、ブラックリスト、大規模なデータセット(数百のルールと数百万のトランザクション)を扱うなど、ドメイン固有の重要な要件に準拠している。 2つの現実世界のクライアントのルールベースのシステムを最適化するためにARMSを使用します。 その結果、元のルール(ある場合約50%、もう一方の場合約20%)のほんの一部を使って、元のシステムのパフォーマンス(リコール、偽陽性率など)を維持することができることがわかった。

Fraud detection is essential in financial services, with the potential of greatly reducing criminal activities and saving considerable resources for businesses and customers. We address online fraud detection, which consists of classifying incoming transactions as either legitimate or fraudulent in real-time. Modern fraud detection systems consist of a machine learning model and rules defined by human experts. Often, the rules performance degrades over time due to concept drift, especially of adversarial nature. Furthermore, they can be costly to maintain, either because they are computationally expensive or because they send transactions for manual review. We propose ARMS, an automated rules management system that evaluates the contribution of individual rules and optimizes the set of active rules using heuristic search and a user-defined loss-function. It complies with critical domain-specific requirements, such as handling different actions (e.g., accept, alert, and decline), priorities, blacklists, and large datasets (i.e., hundreds of rules and millions of transactions). We use ARMS to optimize the rule-based systems of two real-world clients. Results show that it can maintain the original systems' performance (e.g., recall, or false-positive rate) using only a fraction of the original rules (~ 50% in one case, and ~ 20% in the other).
翻訳日:2023-01-01 03:36:35 公開日:2020-02-14