このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210213となっている論文です。

PDF登録状況(公開日: 20210213)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 機械学習によるマンモグラム画像解析の自動化 [全文訳有]

Using Machine Learning to Automate Mammogram Images Analysis ( http://arxiv.org/abs/2012.03151v2 )

ライセンス: CC0 1.0
Xuejiao Tang, Liuhua Zhang, Wenbin Zhang, Xin Huang, Vasileios Iosifidis, Zhen Liu, Mingli Zhang, Enza Messina and Ji Zhang(参考訳) 乳癌は、女性における肺癌の2番目の死因である。 X線マンモグラフィーによる乳癌の早期発見は死亡率を効果的に低下させたと考えられている。 しかし、比較的高い偽陽性率と、マンモグラフィ技術の特異性は依然として残っている。 本研究では,コンピュータ支援によるマンモグラム自動解析システムを提案し,マンモグラム画像を3つの連続画像処理,特徴選択,画像分類段階からなる正常または癌のいずれかとして自動的に識別する。 システムの設計において、離散ウェーブレット変換 (daubechies 2, daubechies 4, biorthogonal 6.8) とフーリエコサイン変換 (fourier cosine transform) は、最初にマンモグラム画像を解析し、統計的特徴を抽出するために用いられた。 次に,エントロピーに基づく特徴選択手法を実装し,特徴量を削減する。 最後に,異なるパターン認識手法(バックプロパゲーションネットワーク,線形判別分析,ナイーブベイズ分類器を含む)と投票分類方式を採用した。 各分類戦略の性能は感度,特異性,精度,および受信器操作曲線を用いた一般性能について評価した。 本手法は,カナダ・ニューファンドランド州東部保健部とラブラドール州のデータセットを用いて検証した。 実験の結果,提案したマンモグラム自動解析システムは分類性能を効果的に向上できることが示された。

Breast cancer is the second leading cause of cancer-related death after lung cancer in women. Early detection of breast cancer in X-ray mammography is believed to have effectively reduced the mortality rate. However, a relatively high false positive rate and a low specificity in mammography technology still exist. In this work, a computer-aided automatic mammogram analysis system is proposed to process the mammogram images and automatically discriminate them as either normal or cancerous, consisting of three consecutive image processing, feature selection, and image classification stages. In designing the system, the discrete wavelet transforms (Daubechies 2, Daubechies 4, and Biorthogonal 6.8) and the Fourier cosine transform were first used to parse the mammogram images and extract statistical features. Then, an entropy-based feature selection method was implemented to reduce the number of features. Finally, different pattern recognition methods (including the Back-propagation Network, the Linear Discriminant Analysis, and the Naive Bayes Classifier) and a voting classification scheme were employed. The performance of each classification strategy was evaluated for sensitivity, specificity, and accuracy and for general performance using the Receiver Operating Curve. Our method is validated on the dataset from the Eastern Health in Newfoundland and Labrador of Canada. The experimental results demonstrated that the proposed automatic mammogram analysis system could effectively improve the classification performances.
翻訳日:2021-05-22 10:09:08 公開日:2021-02-13
# (参考訳) クラスタリング問題に対する説明可能性の価格について [全文訳有]

On the price of explainability for some clustering problems ( http://arxiv.org/abs/2101.01576v2 )

ライセンス: CC BY-SA 4.0
Eduardo Laber, Lucas Murtinho(参考訳) クラスタリングタスクの説明可能性の価格は、目的関数の観点から、最終的な分割を説明可能に強制した場合、避けられない損失と定義できる。 ここでは、k$-means、k$-medians、k$-centers、maximum-spacingといったクラスタ問題に対するこの価格を調査します。 我々は,決定木を用いて説明可能性を実現する自然モデルに対して,上下境界を提供する。 k$-means と $k$-medians の問題に対して、上限は [moshkovitz et.] によって得られる問題を改善する。 al, icml 20]低次元の場合。 もう1つの貢献は、$k$-means問題に対する説明可能なクラスタリングを構築するための単純で効率的なアルゴリズムである。 我々は,その性能が決定木に基づく説明可能なクラスタリング技術の現状よりも優れているという実証的な証拠を提供する。

The price of explainability for a clustering task can be defined as the unavoidable loss,in terms of the objective function, if we force the final partition to be explainable. Here, we study this price for the following clustering problems: $k$-means, $k$-medians, $k$-centers and maximum-spacing. We provide upper and lower bounds for a natural model where explainability is achieved via decision trees. For the $k$-means and $k$-medians problems our upper bounds improve those obtained by [Moshkovitz et. al, ICML 20] for low dimensions. Another contribution is a simple and efficient algorithm for building explainable clusterings for the $k$-means problem. We provide empirical evidence that its performance is better than the current state of the art for decision-tree based explainable clustering.
翻訳日:2021-04-11 15:23:22 公開日:2021-02-13
# 陰影検出・除去のための合成影からの学習

Learning from Synthetic Shadows for Shadow Detection and Removal ( http://arxiv.org/abs/2101.01713v2 )

ライセンス: Link先を確認
Naoto Inoue, Toshihiko Yamasaki(参考訳) シャドウ除去はコンピュータビジョンとコンピュータグラフィックスにおいて重要な課題である。 最近のシャドウ除去は、実対のシャドウ/シャドウフリーまたはシャドウ/シャドウ/マスクイメージデータセット上のすべてのトレイン畳み込みニューラルネットワーク(CNN)にアプローチしている。 しかし、大規模で多様で正確なデータセットを得ることは大きな課題であり、未知の形状/強度を持つ影画像上の学習モデルの性能を制限する。 この課題を克服するために,synshadowという,新しい大規模合成シャドウ・シャドウフリー・マット画像トリプレットデータセットと合成パイプラインを提案する。 物理的に接地した影照明モデルを拡張し、影のない画像、マット画像、影減衰パラメータを任意に組み合わせた影画像を合成する。 SynShadowの多様性,量,品質から,SynShadowで訓練されたシャドウ除去モデルが,様々な形状や強度のシャドウ除去に有効であることを示す。 さらに,synshadow-pre-train edモデルからの微調整だけで,既存のシャドウ検出と削除モデルが改善されることを示す。 コードはhttps://github.com/n aoto0804/SynShadowで公開されている。

Shadow removal is an essential task in computer vision and computer graphics. Recent shadow removal approaches all train convolutional neural networks (CNN) on real paired shadow/shadow-free or shadow/shadow-free/m ask image datasets. However, obtaining a large-scale, diverse, and accurate dataset has been a big challenge, and it limits the performance of the learned models on shadow images with unseen shapes/intensities. To overcome this challenge, we present SynShadow, a novel large-scale synthetic shadow/shadow-free/m atte image triplets dataset and a pipeline to synthesize it. We extend a physically-grounded shadow illumination model and synthesize a shadow image given an arbitrary combination of a shadow-free image, a matte image, and shadow attenuation parameters. Owing to the diversity, quantity, and quality of SynShadow, we demonstrate that shadow removal models trained on SynShadow perform well in removing shadows with diverse shapes and intensities on some challenging benchmarks. Furthermore, we show that merely fine-tuning from a SynShadow-pre-traine d model improves existing shadow detection and removal models. Codes are publicly available at https://github.com/n aoto0804/SynShadow.
翻訳日:2021-04-11 11:33:21 公開日:2021-02-13
# (参考訳) Max-Affine Spline Insights in Deep Network Pruning [全文訳有]

Max-Affine Spline Insights Into Deep Network Pruning ( http://arxiv.org/abs/2101.02338v2 )

ライセンス: CC BY 4.0
Randall Balestriero, Haoran You, Zhihan Lu, Yutong Kou, Huihong Shi, Yingyan Lin, Richard Baraniuk(参考訳) 本稿では,Deep Networks (DNs) におけるプルーニングの重要性と,(1) ランダム初期化から訓練された高度にパラメータ化されたDNのプルーニングと(2) 初期化された小さなDNのトレーニングの関係について検討する。 多くの場合、実践者はランダムな初期化のみに頼ることができるため、dnのプラニングを基礎的に理解する必要がある。 現在の文献は、プルーニングがDNsの意思決定境界に与える影響、プルーニングの解釈方法、およびそれに対応するプルーニング技術の設計方法に関する理論的理解を欠いている。 これらの問題に対処するため,我々はCPA(Continuous Piecewise Affine)DNの理論的解析に最近の進歩を採用することを提案する。 この観点から、アーリーバード(EB)チケット現象を検出し、現在のプルーニング技術に対する解釈可能性を提供し、原則的プルーニング戦略を開発することができる。 研究の各段階において,我々はクレームと結果を裏付ける広範囲な実験を行い,新たなプルーニング法ではなくDNプルーニングに対する現在の理解を高めることを目的としている一方で,我々はスプラインプルーニング基準をレイヤーワイドで,グローバルプルーニング基準は最先端プルーニング法と同程度あるいはそれ以上に向上する。

In this paper, we study the importance of pruning in Deep Networks (DNs) and the yin & yang relationship between (1) pruning highly overparametrized DNs that have been trained from random initialization and (2) training small DNs that have been "cleverly" initialized. As in most cases practitioners can only resort to random initialization, there is a strong need to develop a grounded understanding of DN pruning. Current literature remains largely empirical, lacking a theoretical understanding of how pruning affects DNs' decision boundary, how to interpret pruning, and how to design corresponding principled pruning techniques. To tackle those questions, we propose to employ recent advances in the theoretical analysis of Continuous Piecewise Affine (CPA) DNs. From this perspective, we will be able to detect the early-bird (EB) ticket phenomenon, provide interpretability into current pruning techniques, and develop a principled pruning strategy. In each step of our study, we conduct extensive experiments supporting our claims and results; while our main goal is to enhance the current understanding towards DN pruning instead of developing a new pruning method, our spline pruning criteria in terms of layerwise and global pruning is on par with or even outperforms state-of-the-art pruning methods.
翻訳日:2021-04-10 21:57:51 公開日:2021-02-13
# (参考訳) 連続時間リカレントニューラルネットワークの波動関数 [全文訳有]

The Wavefunction of Continuous-Time Recurrent Neural Networks ( http://arxiv.org/abs/2102.09399v1 )

ライセンス: CC BY 4.0
Ikjyot Singh Kohli and Michael C. Haslam(参考訳) 本稿では,連続時間リカレントニューラルネットワーク(CTRNN)における量子波動関数の導出の可能性を検討する。 まず、連続時間リカレントニューラルネットワークの古典力学を記述した2次元力学系から始め、それからハミルトニアンを導出した。 その後、ワイル量子化を用いてヒルベルト空間 $\mathbb{H} = L^2(\mathbb{R})$ でこのハミルトニアンを量子化する。 次に,神経回路構造に対応するkummerの合流超幾何関数を用いて波動関数を与えるschrodinger方程式を解いた。 infinityで空間境界条件を適用することで、ニューラルネットワークの重みとハイパーパラメータの条件/制約を導出することができ、それによって、そのニューラルネットワークの最適な重みを見出す性質に関する洞察が得られる可能性がある。

In this paper, we explore the possibility of deriving a quantum wavefunction for continuous-time recurrent neural network (CTRNN). We did this by first starting with a two-dimensional dynamical system that describes the classical dynamics of a continuous-time recurrent neural network, and then deriving a Hamiltonian. After this, we quantized this Hamiltonian on a Hilbert space $\mathbb{H} = L^2(\mathbb{R})$ using Weyl quantization. We then solved the Schrodinger equation which gave us the wavefunction in terms of Kummer's confluent hypergeometric function corresponding to the neural network structure. Upon applying spatial boundary conditions at infinity, we were able to derive conditions/restricti ons on the weights and hyperparameters of the neural network, which could potentially give insights on the the nature of finding optimal weights of said neural networks.
翻訳日:2021-04-06 05:09:53 公開日:2021-02-13
# データ駆動地球物理予測:カーネル法によるシンプルで低コストで正確なベースライン

Data-driven geophysical forecasting: Simple, low-cost, and accurate baselines with kernel methods ( http://arxiv.org/abs/2103.10935v1 )

ライセンス: Link先を確認
Boumediene Hamzi, Romit Maulik, Houman Owhadi(参考訳) 物理系を力学系としてモデル化し、データからベクトル場を回帰することは、そのような系のエミュレータを学ぶ簡単な方法である。 これらのエミュレータのカーネルもデータ(クロスバリデーションの変種であるカーネルフローを使用)から学習されると、結果のデータ駆動モデルは方程式ベースのモデルよりも高速であるだけでなく、長い短期記憶ニューラルネットワークのようなニューラルネットワークよりも訓練が容易であることを示す。 さらに、それらは後者よりも正確で予測的です。 大域海面温度の観測データに基づいて訓練すると,予測計算コストと精度の点で古典的偏微分方程式モデルと比較して,かなりの利得が得られた。 北米大陸の気温に関する公的に利用可能な再分析データをトレーニングすると、気候学や持続性に基づく予測技術よりも大幅に改善が見られた。

Modeling geophysical systems as dynamical systems and regressing their vector field from data is a simple way to learn emulators for such systems. We show that when the kernel of these emulators is also learned from data (using kernel flows, a variant of cross-validation), then the resulting data-driven models are not only faster than equation-based models but are easier to train than neural networks such as the long short-term memory neural network. In addition, they are also more accurate and predictive than the latter. When trained on observational data for the global sea-surface temperature, considerable gains are observed by the proposed technique in comparison to classical partial differential equation-based models in terms of forecast computational cost and accuracy. When trained on publicly available re-analysis data for temperatures in the North-American continent, we see significant improvements over climatology and persistence based forecast techniques.
翻訳日:2021-04-05 00:36:08 公開日:2021-02-13
# 光薄膜設計のための強化学習法

A Reinforcement learning method for Optical Thin-Film Design ( http://arxiv.org/abs/2102.09398v1 )

ライセンス: Link先を確認
Anqing Jiang, Liangyao Chen, Osamu Yoshie(参考訳) 機械学習、特にディープラーニングは、光学薄膜逆設計に関連する手法を劇的に変えている。 この研究の大部分は、光学薄膜のパラメータ最適化(層厚、構造サイズ)に焦点を当てている。 問題となるのは、自動的な素材検索である。 本研究では,光薄膜逆設計のための新しいエンドツーエンドアルゴリズムを提案する。 この方法は、教師なし学習、強化学習(RL)の能力を組み合わせ、人間の介入なしに光学薄膜を設計するための遺伝的アルゴリズムを含む。 さらに,いくつかの具体例を用いて,この手法を用いて多層太陽吸収素子のスペクトルを最適化する方法を示した。

Machine learning, especially deep learning, is dramatically changing the methods associated with optical thin-film inverse design. The vast majority of this research has focused on the parameter optimization (layer thickness, and structure size) of optical thin-films. A challenging problem that arises is an automated material search. In this work, we propose a new end-to-end algorithm for optical thin-film inverse design. This method combines the ability of unsupervised learning, reinforcement learning(RL) and includes a genetic algorithm to design an optical thin-film without any human intervention. Furthermore, with several concrete examples, we have shown how one can use this technique to optimize the spectra of a multi-layer solar absorber device.
翻訳日:2021-04-05 00:35:52 公開日:2021-02-13
# (参考訳) WER-BERT:バランスの取れた正規分類パラダイムにおけるBERTによるWERの自動推定 [全文訳有]

WER-BERT: Automatic WER Estimation with BERT in a Balanced Ordinal Classification Paradigm ( http://arxiv.org/abs/2101.05478v2 )

ライセンス: CC BY 4.0
Akshay Krishna Sheshadri, Anvesh Rao Vijjini, Sukhdeep Kharbanda(参考訳) 単語誤り率(WER)を用いて自動音声認識(ASR)システムを評価する。 しかし、この計算では、音声信号を手動で書き起こして、基礎的な真理を得る必要がある。 音声信号の書き起こしはコストがかかるプロセスであるため,音声信号の書き起こしと音声信号の特徴のみを頼りに,音声システムのWERを自動的に予測する自動WER評価法が開発されている。 WERは連続変数であるが、以前の研究では、e-WERを分類問題として仮定することは回帰よりも効果的であることが示されている。 しかし、分類設定に変換する一方で、これらのアプローチは重いクラス不均衡に苦しむ。 本稿では,e-werの分類における新しいバランスのとれたパラダイムを提案する。 このパラダイム内では、E-WERのための音声機能を備えたBERTベースのアーキテクチャであるWER-BERTも提案する。 さらに,e-WER分類の順序性に取り組むために,距離損失関数を導入する。 提案手法とパラダイムは,Google CloudのSpeech-to-Text APIである,Librispeechデータセットと商用(ブラックボックス)ASRシステムに基づいて評価される。 結果と実験により,WER-BERTは自動WER推定において新たな最先端技術を確立していることが示された。

Automatic Speech Recognition (ASR) systems are evaluated using Word Error Rate (WER), which is calculated by comparing the number of errors between the ground truth and the transcription of the ASR system. This calculation, however, requires manual transcription of the speech signal to obtain the ground truth. Since transcribing audio signals is a costly process, Automatic WER Evaluation (e-WER) methods have been developed to automatically predict the WER of a speech system by only relying on the transcription and the speech signal features. While WER is a continuous variable, previous works have shown that positing e-WER as a classification problem is more effective than regression. However, while converting to a classification setting, these approaches suffer from heavy class imbalance. In this paper, we propose a new balanced paradigm for e-WER in a classification setting. Within this paradigm, we also propose WER-BERT, a BERT based architecture with speech features for e-WER. Furthermore, we introduce a distance loss function to tackle the ordinal nature of e-WER classification. The proposed approach and paradigm are evaluated on the Librispeech dataset and a commercial (black box) ASR system, Google Cloud's Speech-to-Text API. The results and experiments demonstrate that WER-BERT establishes a new state-of-the-art in automatic WER estimation.
翻訳日:2021-03-29 08:45:26 公開日:2021-02-13
# 異種GNNを用いた知識保存型インクリメンタルソーシャルイベント検出

Knowledge-Preserving Incremental Social Event Detection via Heterogeneous GNNs ( http://arxiv.org/abs/2101.08747v2 )

ライセンス: Link先を確認
Yuwei Cao, Hao Peng, Jia Wu, Yingtong Dou, Jianxin Li, Philip S. Yu(参考訳) 社会イベントは集団の社会的行動や公共の関心事に対する貴重な洞察を与え、製品レコメンデーションや危機管理といった分野に多くの応用をもたらす。 ソーシャルメッセージの複雑さとストリーミング性は、知識の獲得、保存、拡張が重要な関心事であるインクリメンタルな学習環境において、ソーシャルイベント検出にアピールする。 インクリメンタルクラスタリングやコミュニティ検出に基づく手法を含む既存の手法は、ソーシャルデータに含まれる豊富なセマンティクスや構造情報を無視して、限られた量の知識を学習する。 また、それまでの知識を記憶することはできない。 本稿では,社会的事象を段階的に検出するための知識保存型不均一グラフニューラルネットワーク(KPGNN)を提案する。 より詳しい知識を得るために、KPGNNは複雑なソーシャルメッセージを統一されたソーシャルグラフにモデル化し、データ利用を促進し、知識抽出のためのGNNの表現力を探る。 着信データに継続的に適応するために、kpgnnはイベントクラスの変化に対応する対比的損失項を採用する。 また、GNNの帰納学習能力を活用して、イベントを効率的に検出し、これまで見つからなかったデータからその知識を拡張する。 大規模なソーシャルストリームを扱うため、KPGNNはスケーラブルなトレーニングのためにミニバッチサブグラフサンプリング戦略を採用し、動的埋め込み空間を維持するために定期的に古いデータを削除している。 KPGNNは機能エンジニアリングを必要とせず、チューニングするハイパーパラメータも少ない。 実験結果から, KPGNNの各種ベースラインに対する優位性が示された。

Social events provide valuable insights into group social behaviors and public concerns and therefore have many applications in fields such as product recommendation and crisis management. The complexity and streaming nature of social messages make it appealing to address social event detection in an incremental learning setting, where acquiring, preserving, and extending knowledge are major concerns. Most existing methods, including those based on incremental clustering and community detection, learn limited amounts of knowledge as they ignore the rich semantics and structural information contained in social data. Moreover, they cannot memorize previously acquired knowledge. In this paper, we propose a novel Knowledge-Preserving Incremental Heterogeneous Graph Neural Network (KPGNN) for incremental social event detection. To acquire more knowledge, KPGNN models complex social messages into unified social graphs to facilitate data utilization and explores the expressive power of GNNs for knowledge extraction. To continuously adapt to the incoming data, KPGNN adopts contrastive loss terms that cope with a changing number of event classes. It also leverages the inductive learning ability of GNNs to efficiently detect events and extends its knowledge from previously unseen data. To deal with large social streams, KPGNN adopts a mini-batch subgraph sampling strategy for scalable training, and periodically removes obsolete data to maintain a dynamic embedding space. KPGNN requires no feature engineering and has few hyperparameters to tune. Extensive experiment results demonstrate the superiority of KPGNN over various baselines.
翻訳日:2021-03-21 07:52:17 公開日:2021-02-13
# (参考訳) パレートフロント抽出のためのハイブリッド2段階ニューラル最適化 [全文訳有]

A Hybrid 2-stage Neural Optimization for Pareto Front Extraction ( http://arxiv.org/abs/2101.11684v2 )

ライセンス: CC BY 4.0
Gurpreet Singh, Soumyajit Gupta, Matthew Lease, Clint Dawson(参考訳) 分類、推薦、ランキングの問題は、しばしば追加の制約(例えば公平さや多様性の基準を満たすために)を伴う競合目標を伴う。 このような最適化問題は極めて困難であり、しばしば非凸関数とユーザの好みを考慮することでトレードオフのバランスをとる。 Paretoソリューションは、複数の競合目標を共同で最適化するための最適なフロンティアを表します。 頻繁に使用される線形スカラー化戦略の大きな障害は、結果の最適化問題が必ずしも大域的最適に収束するとは限らないことである。 さらに、そのようなメソッドは実行時に1つのソリューションポイントだけを返す。 Paretoソリューションセットは、異なるトレードオフ選択のための複数の実行上のそのようなグローバルオプティマイマのすべてのサブセットです。 したがって、パレートフロントは線形スカラー化問題の複数の実行でのみ保証され、全ての実行はそれぞれの大域的最適に収束する。 したがって、現実的な問題に対するParetoフロントの抽出は、かなりの計算オーバーヘッド、スケーラビリティの制限、精度の低下など、計算的に困難である。 本論文では,データ次元による精度とスケール(空間と時間),機能や制約の数を特徴とする,堅牢で低コスト,二段階,ハイブリッドなニューラルパレート最適化手法を提案する。 第1段階(ニューラルネットワーク)は、目標や制約に対する凸性の仮定なしに、フリッツ・ジョン条件を判別器として、弱いパレートフロントを効率的に抽出する。 第2段階(効率の良いパレートフィルタ)は、ステージ1から弱い前面を与えられた強いパレート最適部分集合を抽出する。 fritz-john条件は、true と network extract weak pareto front の間の近似誤差の理論的境界を与える。 数値実験は、標準的なベンチマーク問題と事前の作業からの公正度最適化タスクの精度と効率を実証する。

Classification, recommendation, and ranking problems often involve competing goals with additional constraints (e.g., to satisfy fairness or diversity criteria). Such optimization problems are quite challenging, often involving non-convex functions along with considerations of user preferences in balancing trade-offs. Pareto solutions represent optimal frontiers for jointly optimizing multiple competing objectives. A major obstacle for frequently used linear-scalarization strategies is that the resulting optimization problem might not always converge to a global optimum. Furthermore, such methods only return one solution point per run. A Pareto solution set is a subset of all such global optima over multiple runs for different trade-off choices. Therefore, a Pareto front can only be guaranteed with multiple runs of the linear-scalarization problem, where all runs converge to their respective global optima. Consequently, extracting a Pareto front for practical problems is computationally intractable with substantial computational overheads, limited scalability, and reduced accuracy. We propose a robust, low cost, two-stage, hybrid neural Pareto optimization approach that is accurate and scales (compute space and time) with data dimensions, as well as number of functions and constraints. The first stage (neural network) efficiently extracts a weak Pareto front, using Fritz-John conditions as the discriminator, with no assumptions of convexity on the objectives or constraints. The second stage (efficient Pareto filter) extracts the strong Pareto optimal subset given the weak front from stage 1. Fritz-John conditions provide us with theoretical bounds on approximation error between the true and network extracted weak Pareto front. Numerical experiments demonstrates the accuracy and efficiency on a canonical set of benchmark problems and a fairness optimization task from prior works.
翻訳日:2021-03-13 20:53:11 公開日:2021-02-13
# (参考訳) ant lionによる多層パーセプトロンネットワークの合成, 生物地理学に基づくdragonflyアルゴリズムによる進化戦略 侵襲的雑草とリーグチャンピオン最適化ハイブリッドアルゴリズムによる住宅の暖房負荷予測 [全文訳有]

Synthesizing multi-layer perceptron network with ant lion, biogeography-based dragonfly algorithm evolutionary strategy invasive weed and league champion optimization hybrid algorithms in predicting heating load in residential buildings ( http://arxiv.org/abs/2102.08928v1 )

ライセンス: CC BY 4.0
Hossein Moayedi, Amir Mosavi(参考訳) 熱負荷(hl)の正確な近似の意義は、複数の神経-メタヒューリスティックモデルの中で最も効率的な予測モデルを識別するための研究の第一の動機である。 提案モデルは,多層パーセプトロンネットワーク(MLP)をアリライオン最適化(ALO),生物地理学に基づく最適化(BBO),トンボアルゴリズム(DA),進化戦略(ES),侵入雑草最適化(IWO),リーグチャンピオン最適化(LCA)ハイブリッドアルゴリズムで合成する。 各アンサンブルは運用人口の観点で最適化されている。 その結果, ALO-MLP, BBO-MLP, DA-MLP, ES-MLP, IWO-MLP, LCA-MLPはそれぞれ350, 400, 200, 500, 50, 300の人口に対して最高の成績を示した。 比較はランキングシステムによって行われた。 得られた総合スコア (OS) に基づいて、BBO (OS = 36) は最も有能な最適化手法として機能し、ALO (OS = 27) とES (OS = 20) が続く。 これらのアルゴリズムの効率的な性能のため、対応するMLPはHL解析に使用される従来の手法の代替として有望である。

The significance of heating load (HL) accurate approximation is the primary motivation of this research to distinguish the most efficient predictive model among several neural-metaheuristic models. The proposed models are through synthesizing multi-layer perceptron network (MLP) with ant lion optimization (ALO), biogeography-based optimization (BBO), dragonfly algorithm (DA), evolutionary strategy (ES), invasive weed optimization (IWO), and league champion optimization (LCA) hybrid algorithms. Each ensemble is optimized in terms of the operating population. Accordingly, the ALO-MLP, BBO-MLP, DA-MLP, ES-MLP, IWO-MLP, and LCA-MLP presented their best performance for population sizes of 350, 400, 200, 500, 50, and 300, respectively. The comparison was carried out by implementing a ranking system. Based on the obtained overall scores (OSs), the BBO (OS = 36) featured as the most capable optimization technique, followed by ALO (OS = 27) and ES (OS = 20). Due to the efficient performance of these algorithms, the corresponding MLPs can be promising substitutes for traditional methods used for HL analysis.
翻訳日:2021-02-18 23:45:30 公開日:2021-02-13
# (参考訳) 深層学習による暗号通貨価格分類における技術取引とソーシャルメディア指標について

On Technical Trading and Social Media Indicators in Cryptocurrencies 7; Price Classification Through Deep Learning ( http://arxiv.org/abs/2102.08189v1 )

ライセンス: CC BY 4.0
Marco Ortu, Nicola Uras, Claudio Conversano, Giuseppe Destefanis, Silvia Bartolucci(参考訳) 深層学習アルゴリズムを用いて、2017年1月から2021年1月までの時間別および日次データの暗号通貨価格変動の予測可能性を分析することを目的としている。 実験では,技術指標,取引指標,ソーシャルメディア指標の3つの特徴を用いて,技術指標のみの \textit{restricted model} と技術指標,取引指標,ソーシャルメディア指標の \textit{unrestricted model} を検討した。 取引・ソーシャルメディア指標の考慮が、古典的な技術的変数(価格のリターンなど)とともに、暗号通貨価格の変化の予測に顕著な改善をもたらすかどうかを検証した。 我々は、bitcoinとethereumの2つの暗号通貨の量と価値(この研究の時点で)について調査を行った。 時系列分類問題で使用される4つの異なる機械学習アルゴリズムを実装した: \textit{Multi Layers Perceptron (MLP)}、 \textit{Convolutional Neural Network (CNN)}、 \textit{Long Short Term Memory (LSTM) ニューラルネットワーク}、および \textit{Attention Long Short Term Memory (ALSTM)}。 テスト試料の分散問題を検討するために, 高度なブートストラップ法を用いて実験を考案し, より信頼性の高いモデルの性能評価を可能にした。 さらに、実装アルゴリズムごとに最高の \textit{hyperparameters} 値を見つけるために \textit{grid search} テクニックが使われた。 この研究は、時間ごとの結果に基づいて、制限のないモデルが制限されたモデルを上回ることを示している。 古典的な技術指標への取引指標の追加は、制限モデルのための51-55\%の範囲から制限なしモデルのための67-84\%への精度の増加とともに、ビットコインとイーサリアム価格の変更予測の精度を向上させます。

This work aims to analyse the predictability of price movements of cryptocurrencies on both hourly and daily data observed from January 2017 to January 2021, using deep learning algorithms. For our experiments, we used three sets of features: technical, trading and social media indicators, considering a \textit{restricted model} of only technical indicators and an \textit{unrestricted model} with technical, trading and social media indicators. We verified whether the consideration of trading and social media indicators, along with the classic technical variables (such as price's returns), leads to a significative improvement in the prediction of cryptocurrencies price's changes. We conducted the study on the two highest cryptocurrencies in volume and value (at the time of the study): Bitcoin and Ethereum. We implemented four different machine learning algorithms typically used in time-series classification problems: \textit{Multi Layers Perceptron (MLP)}, \textit{Convolutional Neural Network (CNN)}, \textit{Long Short Term Memory (LSTM) neural network} and \textit{Attention Long Short Term Memory (ALSTM)}. We devised the experiments using the advanced bootstrap technique to consider the variance problem on test samples, which allowed us to evaluate a more reliable estimate of the model's performance. Furthermore, the \textit{Grid Search} technique was used to find the best \textit{hyperparameters} values for each implemented algorithm. The study shows that, based on the hourly frequency results, the unrestricted model outperforms the restricted one. The addition of the trading indicators to the classic technical indicators improves the accuracy of Bitcoin and Ethereum price's changes prediction, with an increase of accuracy from a range of 51-55\% for the restricted model, to 67-84\% for the unrestricted model.
翻訳日:2021-02-18 07:53:29 公開日:2021-02-13
# (参考訳) アクティビティ記述からのインタラクティブ学習

Interactive Learning from Activity Description ( http://arxiv.org/abs/2102.07024v1 )

ライセンス: CC BY 4.0
Khanh Nguyen, Dipendra Misra, Robert Schapire, Miro Dud\'ik, Patrick Shafto(参考訳) 本稿では,要求充足エージェントを言語的に記述することで,要求充足エージェントの訓練を可能にする対話型学習プロトコルを提案する。 我々のプロトコルは、模倣学習(IL)や強化学習(RL)といった従来のアルゴリズムと相補的な利点を提供する対話型学習アルゴリズムの新たなファミリーを生み出します。 我々は,このプロトコルを実践的に実装し,純粋に言語記述フィードバックを用いた2つの要求充足問題をエージェントに訓練するアルゴリズムを開発した。 RLベースラインと比較してサンプル効率が良く,ILベースラインと比較して,フィードバックプロバイダにエージェント固有の専門知識を必要とせず,競争的な成功率を達成した。 また,教師と環境に対する一定の仮定の下でのアルゴリズムの理論的保証も提供する。

We present a novel interactive learning protocol that enables training request-fulfilling agents by verbally describing their activities. Our protocol gives rise to a new family of interactive learning algorithms that offer complementary advantages against traditional algorithms like imitation learning (IL) and reinforcement learning (RL). We develop an algorithm that practically implements this protocol and employ it to train agents in two challenging request-fulfilling problems using purely language-description feedback. Empirical results demonstrate the strengths of our algorithm: compared to RL baselines, it is more sample-efficient; compared to IL baselines, it achieves competitive success rates while not requiring feedback providers to have agent-specific expertise. We also provide theoretical guarantees of the algorithm under certain assumptions on the teacher and the environment.
翻訳日:2021-02-17 19:33:30 公開日:2021-02-13
# (参考訳) ディープRA:CNNによる放射線障害の予知に留意 [全文訳有]

DeepRA: Predicting Joint Damage From Radiographs Using CNN with Attention ( http://arxiv.org/abs/2102.06982v1 )

ライセンス: CC BY 4.0
Neelambuj Chaturvedi(参考訳) 関節リウマチ(RA)の関節損傷は手動による手足のX線検査により評価した。 これは退屈な作業であり、主観的評価が低いレート間合意につながる訓練された専門家を必要とする。 手や足の関節レベルの損傷を自動的に予測するアルゴリズムは、このプロセスを最適化するのに役立つ。 本稿では,対象物検出と畳み込みニューラルネットワークに注意を向けた2段階のアプローチを提案する。 このアプローチはra患者の手足x線写真を用いて評価されており、svhスコアに対して31%と19%の改善率である関節レベルの狭化とエロージョンシャープファンデルハイデ(svh)スコアの予測において、重み付き根平均二乗誤差(rmse)が1.358と1.404である。 提案手法は, 重み付き絶対誤差が1.456で, 平均値と比較して79%改善した患者に対する手足x線撮影の全体的な損傷を予測した。 また,本手法は,注意重みを用いたモデル予測について,深層学習モデルのブラックボックス性を考える上で欠かせない説明を提供する。 提案されたアプローチは、ドリームチャレンジが主催するRA2ドリームチャレンジで開発され、ラジオグラフからの全体および関節レベルの狭くおよび浸食SvHスコアを予測する第4および第8の位置を確保しました。

Joint damage in Rheumatoid Arthritis (RA) is assessed by manually inspecting and grading radiographs of hands and feet. This is a tedious task which requires trained experts whose subjective assessment leads to low inter-rater agreement. An algorithm which can automatically predict the joint level damage in hands and feet can help optimize this process, which will eventually aid the doctors in better patient care and research. In this paper, we propose a two-staged approach which amalgamates object detection and convolution neural networks with attention which can efficiently and accurately predict the overall and joint level narrowing and erosion from patients radiographs. This approach has been evaluated on hands and feet radiographs of patients suffering from RA and has achieved a weighted root mean squared error (RMSE) of 1.358 and 1.404 in predicting joint level narrowing and erosion Sharp van der Heijde (SvH) scores which is 31% and 19% improvement with respect to the baseline SvH scores, respectively. The proposed approach achieved a weighted absolute error of 1.456 in predicting the overall damage in hands and feet radiographs for the patients which is a 79% improvement as compared to the baseline. Our method also provides an inherent capability to provide explanations for model predictions using attention weights, which is essential given the black box nature of deep learning models. The proposed approach was developed during the RA2 Dream Challenge hosted by Dream Challenges and secured 4th and 8th position in predicting overall and joint level narrowing and erosion SvH scores from radiographs.
翻訳日:2021-02-17 17:46:47 公開日:2021-02-13
# (参考訳) 半監督画像分類のためのマルチクラスジェネラティブ・アドバーサリー・ネット [全文訳有]

Multi-class Generative Adversarial Nets for Semi-supervised Image Classification ( http://arxiv.org/abs/2102.06944v1 )

ライセンス: CC BY 4.0
Saman Motamed and Farzad Khalvati(参考訳) 目に見えない画像の生成からドメイン適応まで、GAN(Generative Adversarial Networks)の応用は、視覚とグラフィックの問題の分野で広く広がっています。 特定のクラスの分布を学習し画像を生成するganの顕著な能力により、半教師付き分類タスクに使用できる。 しかし、画像の2つのクラスが類似した特性を持つ場合、ganは2つのクラスの分類を一般化し妨げることを学ぶかもしれない。 本稿では,MNIST と Fashion-MNIST のデータセットから得られた様々な画像を用いて,GAN の一般化を図っている。 半教師付き学習フレームワークにおいて、画像の類似クラスにおけるマルチクラス分類を改善するため、GANの従来の訓練の修正を提案する。

From generating never-before-seen images to domain adaptation, applications of Generative Adversarial Networks (GANs) spread wide in the domain of vision and graphics problems. With the remarkable ability of GANs in learning the distribution and generating images of a particular class, they can be used for semi-supervised classification tasks. However, the problem is that if two classes of images share similar characteristics, the GAN might learn to generalize and hinder the classification of the two classes. In this paper, we use various images from MNIST and Fashion-MNIST datasets to illustrate how similar images cause the GAN to generalize, leading to the poor classification of images. We propose a modification to the traditional training of GANs that allows for improved multi-class classification in similar classes of images in a semi-supervised learning framework.
翻訳日:2021-02-17 16:57:44 公開日:2021-02-13
# (参考訳) リモートセンシングにおける深層学習アルゴリズムの重み付け初期化技術:最新動向と今後の展望 [全文訳有]

Weight Initialization Techniques for Deep Learning Algorithms in Remote Sensing: Recent Trends and Future Perspectives ( http://arxiv.org/abs/2102.07004v1 )

ライセンス: CC BY 4.0
Wadii Boulila, Maha Driss, Mohamed Al-Sarem, Faisal Saeed, Moez Krichen(参考訳) 過去10年間に、多くのアプリケーション分野において、新しいディープラーニング手法を提供することに焦点が当てられた研究がいくつかある。 しかし,深層学習における重み初期化プロセスについて検討した例はほとんどないが,その重要性は深層学習性能の向上に向けられている。 これは、この有望な研究分野に新しい技術を提案する上での技術的困難によって正当化できる。 本稿では,リモートセンシングにおける深層アルゴリズムの重み初期化技術に関する調査を行う。 この調査は、実践者がこの有望な分野でさらなる研究を進めるのに役立つだろう。 本論文は,深層学習モデルにおける重み初期化に着目した最初の調査である。

During the last decade, several research works have focused on providing novel deep learning methods in many application fields. However, few of them have investigated the weight initialization process for deep learning, although its importance is revealed in improving deep learning performance. This can be justified by the technical difficulties in proposing new techniques for this promising research field. In this paper, a survey related to weight initialization techniques for deep algorithms in remote sensing is conducted. This survey will help practitioners to drive further research in this promising field. To the best of our knowledge, this paper constitutes the first survey focusing on weight initialization for deep learning models.
翻訳日:2021-02-17 16:06:02 公開日:2021-02-13
# 可変重要度スコア

Variable importance scores ( http://arxiv.org/abs/2102.07765v1 )

ライセンス: Link先を確認
Wei-Yin Loh and Peigen Zhou(参考訳) 応答を予測することの重要性に対する変数のスコア付けは、不明確な概念である。 いくつかの方法が提案されているが、その性能はほとんど知られていない。 本稿では,GUIDEアルゴリズムに基づく11手法の比較評価と更新手法を用いて,そのギャップを埋める。 欠落した値のないデータに対しては、8つのメソッドのバイアスが示され、それぞれが応答から独立している場合でも、異なるタイプの変数に対して高いスコアまたは低いスコアを与える。 残りの4つのメソッドのうち、2つだけが欠落した値を持つデータに適用可能であり、GUIDEだけがバイアスのないデータである。 ガイドは、他のスコア脱バイアス方法に適用可能な自己調整ステップを使用することで、偏りを解消する。 GUIDEはまた、95および99%の信頼性レベルで重要でない変数と重要な変数を区別するためのしきい値を生成します。 最後に,3つのデータセットにおけるスコアと予測力の関係について検討した。 その結果,多くの手法のスコアは条件付き予測力よりも限界予測力と一致していることがわかった。

Scoring of variables for importance in predicting a response is an ill-defined concept. Several methods have been proposed but little is known of their performance. This paper fills the gap with a comparative evaluation of eleven methods and an updated one based on the GUIDE algorithm. For data without missing values, eight of the methods are shown to be biased in that they give higher or lower scores to different types of variables, even when all are independent of the response. Of the remaining four methods, only two are applicable to data with missing values, with GUIDE the only unbiased one. GUIDE achieves unbiasedness by using a self-calibrating step that is applicable to other methods for score de-biasing. GUIDE also yields a threshold for distinguishing important from unimportant variables at 95 and 99 percent confidence levels; the technique is applicable to other methods as well. Finally, the paper studies the relationship of the scores to predictive power in three data sets. It is found that the scores of many methods are more consistent with marginal predictive power than conditional predictive power.
翻訳日:2021-02-17 15:02:26 公開日:2021-02-13
# (参考訳) クラスタリング 左チャージ型多変量時系列 [全文訳有]

Clustering Left-Censored Multivariate Time-Series ( http://arxiv.org/abs/2102.07005v1 )

ライセンス: CC BY 4.0
Irene Y. Chen, Rahul G. Krishnan, David Sontag(参考訳) 教師なし学習は、データのパターンを明らかにする。 しかし、異なる種類のノイズは、実世界の時系列データから有用なサブ構造の発見を妨げる可能性がある。 本研究では,クラスタリング作業における左検閲の干渉を軽減することに焦点を当てる。 クラスタと左検閲が特定できる条件を提供し、その結果、検閲時間を修正しながらクラスタ化された時系列データの深い生成的連続時間モデルを開発する。 複数のベンチマークを上回っている合成データに対して,正確,安定,かつ解釈可能な結果を示す。 本研究は,現実世界の問題に対するフレームワークの有用性を示すために,左検閲が疾患表現型付けの課題にどのように悪影響を及ぼすかを検討した。 実際には、診断時の患者は病気の異なる段階にある ― 患者が医療を求める時期の違いのために、遅かれ早かれ、そのような不一致は教師なしの学習アルゴリズムを組み合わせることができる。 2つの臨床データセットでは、この形態の検閲を修正し、既知の臨床サブタイプを回復する。

Unsupervised learning seeks to uncover patterns in data. However, different kinds of noise may impede the discovery of useful substructure from real-world time-series data. In this work, we focus on mitigating the interference of left-censorship in the task of clustering. We provide conditions under which clusters and left-censorship may be identified; motivated by this result, we develop a deep generative, continuous-time model of time-series data that clusters while correcting for censorship time. We demonstrate accurate, stable, and interpretable results on synthetic data that outperform several benchmarks. To showcase the utility of our framework on real-world problems, we study how left-censorship can adversely affect the task of disease phenotyping, resulting in the often incorrect assumption that longitudinal patient data are aligned by disease stage. In reality, patients at the time of diagnosis are at different stages of the disease -- both late and early due to differences in when patients seek medical care and such discrepancy can confound unsupervised learning algorithms. On two clinical datasets, our model corrects for this form of censorship and recovers known clinical subtypes.
翻訳日:2021-02-17 13:40:42 公開日:2021-02-13
# (参考訳) ガウスノイズ注入における非対称重機とインシシットバイアス

Asymmetric Heavy Tails and Implicit Bias in Gaussian Noise Injections ( http://arxiv.org/abs/2102.07006v1 )

ライセンス: CC BY 4.0
Alexander Camuto, Xiaoyu Wang, Lingjiong Zhu, Chris Holmes, Mert G\"urb\"uzbalaban, Umut \c{S}im\c{s}ekli(参考訳) ガウスノイズインジェクション(ガウスノイズインジェクション、英: Gaussian noise Injections、GNI)は、ニューラルネットワークをトレーニングするための単純で広く使われている正規化手法のファミリーであり、最適化アルゴリズムの反復毎に加法的あるいは乗法的ガウスノイズをネットワークアクティベーションに注入する。 本稿では,sgdのダイナミクスに対する注入ノイズの影響であるgnisのいわゆる「インプリシット効果」に着目した。 この効果はSGD勾配更新において非対称な重み付き雑音を引き起こすことを示す。 この修正力学をモデル化するために、まず、非対称重み付き雑音の一般族によって駆動されるランゲヴィン型確率微分方程式を開発する。 このモデルを用いて、GNIが尾の重みと非対称性のレベルによって異なる「単純バイアス」を誘導することを正式に証明する。 実験の結果,gnisで訓練されたニューラルネットワークの異なるタイプは,提案するダイナミクスによくモデル化されており,これらのインジェクションの暗黙的効果は,ネットワークの性能を低下させるバイアスを引き起こすことが明らかとなった。

Gaussian noise injections (GNIs) are a family of simple and widely-used regularisation methods for training neural networks, where one injects additive or multiplicative Gaussian noise to the network activations at every iteration of the optimisation algorithm, which is typically chosen as stochastic gradient descent (SGD). In this paper we focus on the so-called `implicit effect' of GNIs, which is the effect of the injected noise on the dynamics of SGD. We show that this effect induces an asymmetric heavy-tailed noise on SGD gradient updates. In order to model this modified dynamics, we first develop a Langevin-like stochastic differential equation that is driven by a general family of asymmetric heavy-tailed noise. Using this model we then formally prove that GNIs induce an `implicit bias', which varies depending on the heaviness of the tails and the level of asymmetry. Our empirical results confirm that different types of neural networks trained with GNIs are well-modelled by the proposed dynamics and that the implicit effect of these injections induces a bias that degrades the performance of networks.
翻訳日:2021-02-17 13:16:15 公開日:2021-02-13
# (参考訳) Saliency-Aware Class Agnostic Food Image Segmentation [全文訳有]

Saliency-Aware Class-Agnostic Food Image Segmentation ( http://arxiv.org/abs/2102.06882v1 )

ライセンス: CC BY 4.0
Sri Kalyan Yarlagadda, Daniel Mas Montserrat, David Guerra, Carol J. Boushey, Deborah A. Kerr, Fengqing Zhu(参考訳) 画像に基づく食事アセスメント手法の進歩により、栄養専門家や研究者は、スマートフォンやウェアラブルデバイスで消費される食品の画像を取得する食事アセスメントの精度を向上させることができた。 これらの画像はコンピュータビジョンを用いて分析され、食品のエネルギーと栄養分を推定する。 食品が位置する画像の領域を決定する食品画像分割は、このプロセスにおいて重要な役割を果たします。 現在のメソッドはデータに依存しており、異なる種類の食品ではうまく一般化できない。 そこで本研究では,クラス別食品画像分割手法を提案する。 本手法では,食事開始前と食事後とで,一対の食事シーン画像を使用する。 画像の前と後の両方からの情報を使用して、食品のクラスに関する事前の情報なしで、過度の欠落したオブジェクトを見つけることで、食品イメージをセグメント化できます。 そこで我々は,人間の視覚システム(HVS)の注目を導くトップダウンサリエンシー(topdown saliency)のパラダイムを,一対の画像中のサリエント欠落オブジェクトを見つけるタスクに基づいてモデル化する。 本手法は,食餌研究から得られた食品画像から検証し,有望な結果を得た。

Advances in image-based dietary assessment methods have allowed nutrition professionals and researchers to improve the accuracy of dietary assessment, where images of food consumed are captured using smartphones or wearable devices. These images are then analyzed using computer vision methods to estimate energy and nutrition content of the foods. Food image segmentation, which determines the regions in an image where foods are located, plays an important role in this process. Current methods are data dependent, thus cannot generalize well for different food types. To address this problem, we propose a class-agnostic food image segmentation method. Our method uses a pair of eating scene images, one before start eating and one after eating is completed. Using information from both the before and after eating images, we can segment food images by finding the salient missing objects without any prior information about the food class. We model a paradigm of top down saliency which guides the attention of the human visual system (HVS) based on a task to find the salient missing objects in a pair of images. Our method is validated on food images collected from a dietary study which showed promising results.
翻訳日:2021-02-17 10:14:17 公開日:2021-02-13
# (参考訳) LTL2Action:マルチタスクRLのためのLTL命令の一般化 [全文訳有]

LTL2Action: Generalizing LTL Instructions for Multi-Task RL ( http://arxiv.org/abs/2102.06858v1 )

ライセンス: CC BY 4.0
Pashootan Vaezipoor, Andrew Li, Rodrigo Toro Icarte, Sheila McIlraith(参考訳) 我々は,マルチタスク環境における指示に従うために,深層強化学習(RL)エージェントを指導する問題に対処する。 我々は、ドメイン固有の語彙を用いて命令を指定するために、よく知られた形式言語(線形時間論理(LTL))を用いる。 LTLの構成構文とセマンティクスを活用する新しい学習アプローチを提案し、RLエージェントはトレーニング中に観察されない新しい指示に一般化するタスクコンディショニングポリシーを学ぶことができます。 LTLの表現力は、条件や代替実現を含む複雑な時間的拡張行動の多様性の仕様をサポートする。 離散的かつ連続的な領域の実験は、LTL命令が与えられた場合の(目に見えない)タスクを学習する際のアプローチの強みを実証する。

We address the problem of teaching a deep reinforcement learning (RL) agent to follow instructions in multi-task environments. We employ a well-known formal language -- linear temporal logic (LTL) -- to specify instructions, using a domain-specific vocabulary. We propose a novel approach to learning that exploits the compositional syntax and the semantics of LTL, enabling our RL agent to learn task-conditioned policies that generalize to new instructions, not observed during training. The expressive power of LTL supports the specification of a diversity of complex temporally extended behaviours that include conditionals and alternative realizations. Experiments on discrete and continuous domains demonstrate the strength of our approach in learning to solve (unseen) tasks, given LTL instructions.
翻訳日:2021-02-17 09:27:51 公開日:2021-02-13
# (参考訳) フレームレットによるグラフニューラルネットワークの強化 [全文訳有]

How Framelets Enhance Graph Neural Networks ( http://arxiv.org/abs/2102.06986v1 )

ライセンス: CC BY 4.0
Xuebin Zheng, Bingxin Zhou, Junbin Gao, Yu Guang Wang, Pietro Lio, Ming Li, Guido Montufar(参考訳) 本稿では,フレームレット変換に基づくグラフニューラルネットワークの組み立て手法を提案する。 後者はグラフ構造化データのマルチスケール表現を提供する。 フレームレットシステムでは,グラフ特徴を低域と高域の周波数に分解してネットワークトレーニングの抽出を行い,フレームレットに基づくグラフ畳み込みを定義する。 フレームレット分解はグラフ特徴を低域と高域のスペクトルに集約することでグラフプール戦略を自然に誘導し、グラフデータの特徴値と幾何の両方を考慮し、合計情報を保存する。 提案するフレームレット畳み込みとプーリングを用いたグラフニューラルネットワークは,様々なノードおよびグラフ予測タスクにおいて最先端のパフォーマンスを実現する。 さらに,フレームレット畳み込みのための新しいアクティベーションとして,異なるスケールで高周波情報をしきい値として縮小を提案する。 reluと比較して、フレームレット畳み込みの縮小は、デノイジングと信号圧縮の観点からグラフニューラルネットワークモデルを改善する: フレームレット分解から高パス係数を正確に切り離すことで、ノードと構造の両方のノイズを大幅に削減することができ、信号は予測性能が良く保存されたまま元の半分以下のサイズに圧縮することができる。

This paper presents a new approach for assembling graph neural networks based on framelet transforms. The latter provides a multi-scale representation for graph-structured data. With the framelet system, we can decompose the graph feature into low-pass and high-pass frequencies as extracted features for network training, which then defines a framelet-based graph convolution. The framelet decomposition naturally induces a graph pooling strategy by aggregating the graph feature into low-pass and high-pass spectra, which considers both the feature values and geometry of the graph data and conserves the total information. The graph neural networks with the proposed framelet convolution and pooling achieve state-of-the-art performance in many types of node and graph prediction tasks. Moreover, we propose shrinkage as a new activation for the framelet convolution, which thresholds the high-frequency information at different scales. Compared to ReLU, shrinkage in framelet convolution improves the graph neural network model in terms of denoising and signal compression: noises in both node and structure can be significantly reduced by accurately cutting off the high-pass coefficients from framelet decomposition, and the signal can be compressed to less than half its original size with the prediction performance well preserved.
翻訳日:2021-02-17 08:44:15 公開日:2021-02-13
# (参考訳) ロバスト最適輸送について:計算複雑性、低ランク近似、バリセンター計算

On Robust Optimal Transport: Computational Complexity, Low-rank Approximation, and Barycenter Computation ( http://arxiv.org/abs/2102.06857v1 )

ライセンス: CC BY 4.0
Khang Le, Huy Nguyen, Quang Nguyen, Nhat Ho, Tung Pham, Hung Bui(参考訳) 我々は, 限界制約をkullback-leiblerダイバージェンスで緩和することにより定式化した, 最適輸送の2つの頑健なバージョン, $\textit{robust semi-constrained optimal transport}$ (rsot) と $\textit{robust unconstrained optimal transport}$ (rot) を考える。 離散設定における両方の問題に対して、$n$ が確率分布のサポート数である $\widetilde{\mathcal{O}}(\frac{n^2}{\varepsilon})$ で RSOT と ROT の $\varepsilon$-近似を生成する Sinkhorn ベースのアルゴリズムを提案する。 さらに、n$ に対するシンクホーンベースのアルゴリズムの複雑さの依存性を減らすために、これらのシンクホーンベースのアルゴリズムに渡す前に、rsot と rot の両方のカーネル行列をランク $r$ の行列で近似するために nystr\"{o}m 法を適用する。 これらの新しいアルゴリズムは $\widetilde{\mathcal{O}}(n r^2 + \frac{nr}{\varepsilon})$ランタイムを持ち、RSOT と ROT $\varepsilon$-approx imations を得る。 最後に、RSOT に基づくバリセンタ問題である $\textit{Robust Semi-Constrained Barycenter}$ problem (RSBP) を検討し、確率分布の離散的な設定で RSBP を解くために、 $\textbf{Normalized-RobustIBP }$ algorithm と呼ばれる堅牢な反復的ブレグマン射影アルゴリズムを開発する。 RSBPの$\varepsilon$-approx imated solutionは、$\widetilde{\mathcal{O}}(\frac{mn^2}{\varepsilon})$ time using $\textbf{Normalized-RobustIBP }$ algorithm when $m = 2$, than the previous complexity $\widetilde{\mathcal{O}}(\frac{mn^2}{\varepsilon^2})$ of IBP algorithm for approximating the Wasserstein barycenter(英語版)$で実現できることを示した。 広範な実験は我々の理論結果を確認する。

We consider two robust versions of optimal transport, named $\textit{Robust Semi-constrained Optimal Transport}$ (RSOT) and $\textit{Robust Unconstrained Optimal Transport}$ (ROT), formulated by relaxing the marginal constraints with Kullback-Leibler divergence. For both problems in the discrete settings, we propose Sinkhorn-based algorithms that produce $\varepsilon$-approx imations of RSOT and ROT in $\widetilde{\mathcal{O}}(\frac{n^2}{\varepsilon})$ time, where $n$ is the number of supports of the probability distributions. Furthermore, to reduce the dependency of the complexity of the Sinkhorn-based algorithms on $n$, we apply Nystr\"{o}m method to approximate the kernel matrix in both RSOT and ROT by a matrix of rank $r$ before passing it to these Sinkhorn-based algorithms. We demonstrate that these new algorithms have $\widetilde{\mathcal{O}}(n r^2 + \frac{nr}{\varepsilon})$ runtime to obtain the RSOT and ROT $\varepsilon$-approx imations. Finally, we consider a barycenter problem based on RSOT, named $\textit{Robust Semi-Constrained Barycenter}$ problem (RSBP), and develop a robust iterative Bregman projection algorithm, called $\textbf{Normalized-RobustIBP }$ algorithm, to solve the RSBP in the discrete settings of probability distributions. We show that an $\varepsilon$-approx imated solution of the RSBP can be achieved in $\widetilde{\mathcal{O}}(\frac{mn^2}{\varepsilon})$ time using $\textbf{Normalized-RobustIBP }$ algorithm when $m = 2$, which is better than the previous complexity $\widetilde{\mathcal{O}}(\frac{mn^2}{\varepsilon^2})$ of IBP algorithm for approximating the Wasserstein barycenter. Extensive experiments confirm our theoretical results.
翻訳日:2021-02-17 07:24:37 公開日:2021-02-13
# (参考訳) ネットワークにおける低位潜時メソスケール構造の学習

Learning low-rank latent mesoscale structures in networks ( http://arxiv.org/abs/2102.06984v1 )

ライセンス: CC BY 4.0
Hanbaek Lyu, Yacoub H. Kureh, Joshua Vendrow, Mason A. Porter(参考訳) ネットワークを用いて、物理的、生物学的、社会的、情報科学の複雑なシステムにおけるエンティティ間の相互作用のアーキテクチャを符号化することが一般的である。 さらに、複雑なシステムの大規模挙動を研究するには、ネットワーク内のメソスケール構造をそのような行動に影響を与えるビルディングブロックとして研究することが重要である。 本稿では,ネットワークにおける低ランクメソスケール構造を記述するための新しいアプローチを提案し,いくつかの合成ネットワークモデルと経験的友情,協調,タンパク質-タンパク質相互作用(PPI)ネットワークを用いたアプローチについて述べる。 これらのネットワークは比較的少数の「相対的モチーフ」を持ち、固定メソスケールでほとんどのサブネットワークを近似することができる。 我々は、ネットワークサンプリング法と非負行列分解法を組み合わせた「ネットワーク辞書学習」(NDL)と呼ばれるアルゴリズムを用いて、与えられたネットワークの潜在モチーフを学習する。 潜在モチーフの集合を用いてネットワークをエンコードする能力は、比較、デノイング、エッジ推論といったネットワーク分析タスクに幅広い応用がある。 さらに、新しいネットワークデノイジングと再構築(NDR)アルゴリズムを使用して、破損したネットワークから直接学習する潜在的なモチーフのみを使用して、破損したネットワークをデノイズする方法を実証します。

It is common to use networks to encode the architecture of interactions between entities in complex systems in the physical, biological, social, and information sciences. Moreover, to study the large-scale behavior of complex systems, it is important to study mesoscale structures in networks as building blocks that influence such behavior. In this paper, we present a new approach for describing low-rank mesoscale structure in networks, and we illustrate our approach using several synthetic network models and empirical friendship, collaboration, and protein--protein interaction (PPI) networks. We find that these networks possess a relatively small number of `latent motifs' that together can successfully approximate most subnetworks at a fixed mesoscale. We use an algorithm that we call "network dictionary learning" (NDL), which combines a network sampling method and nonnegative matrix factorization, to learn the latent motifs of a given network. The ability to encode a network using a set of latent motifs has a wide range of applications to network-analysis tasks, such as comparison, denoising, and edge inference. Additionally, using our new network denoising and reconstruction (NDR) algorithm, we demonstrate how to denoise a corrupted network by using only the latent motifs that one learns directly from the corrupted networks.
翻訳日:2021-02-17 07:22:46 公開日:2021-02-13
# (参考訳) モデル能力向上のための自己再生・若返りCNN [全文訳有]

Self-Reorganizing and Rejuvenating CNNs for Increasing Model Capacity Utilization ( http://arxiv.org/abs/2102.06870v1 )

ライセンス: CC BY 4.0
Wissam J. Baddar, Seungju Han, Seonmin Rhee, Jae-Joon Han(参考訳) 本稿では,ニューラルネットワークの計算資源利用を改善するための生物学的手法として,自己再構成・再生型畳み込みニューラルネットワークを提案する。 提案手法では,畳み込み層のチャネルアクティベーションを利用して,その層パラメータを再構成する。 再編成されたパラメータは、パラメータ冗長性を避けるためにクラスタ化される。 このように、類似の活性化を持つ冗長ニューロンは、残りのパラメータが回復する余地をマージする。 再生されたパラメータは、再構成された生存パラメータから学んだことを補うために異なる特徴を学ぶ。 その結果,ネットワークの容量利用はネットワーク構造を変えることなく,ベースラインネットワークの性能を向上させることができた。 提案手法は、トレーニング段階で様々なネットワークアーキテクチャに適用するか、その性能を向上させる事前トレーニングモデルに適用することができる。 実験の結果,提案手法はモデルに依存しず,ネットワーク容量の増大により性能が向上するバックボーンアーキテクチャに適用可能であることがわかった。

In this paper, we propose self-reorganizing and rejuvenating convolutional neural networks; a biologically inspired method for improving the computational resource utilization of neural networks. The proposed method utilizes the channel activations of a convolution layer in order to reorganize that layers parameters. The reorganized parameters are clustered to avoid parameter redundancies. As such, redundant neurons with similar activations are merged leaving room for the remaining parameters to rejuvenate. The rejuvenated parameters learn different features to supplement those learned by the reorganized surviving parameters. As a result, the network capacity utilization increases improving the baseline network performance without any changes to the network structure. The proposed method can be applied to various network architectures during the training stage, or applied to a pre-trained model improving its performance. Experimental results showed that the proposed method is model-agnostic and can be applied to any backbone architecture increasing its performance due to the elevated utilization of the network capacity.
翻訳日:2021-02-17 06:44:40 公開日:2021-02-13
# (参考訳) 多様なHausa言語データセットの最初の大規模コレクション [全文訳有]

The first large scale collection of diverse Hausa language datasets ( http://arxiv.org/abs/2102.06991v1 )

ライセンス: CC BY 4.0
Isa Inuwa-Dutse(参考訳) ハウサ語はアフロアシア語のフィラムに属し、他のサハラ以南のアフリカ語よりも第一言語話者が多い。 話者の大半はナイジェリア北部と南部に居住し、ニジェール共和国では1億人以上がこの言語を話していると推定されている。 そのため、チャド語で最も多く話されている言語である。 ハウサはサハラ以南のアフリカの言語の中でよく研究され、文書化された言語と考えられているが、NLP関連のタスクに利用するリソースが限られているため、自然言語処理(NLP)の観点からは低リソース言語と見なされている。 これはアフリカのほとんどの言語に共通するものであり、現代社会の要求を満たすために様々な下流タスクの実行のペースをサポートし、高速化するリソースでそのような言語を充実させることが重要です。 有用なデータセット、特にニュースサイトや宗教的なテキストは存在するが、コーパスにはより多くの多様性が必要である。 我々は,refutable web サイト と online social media network から,形式形式と形式的の両方からなるデータ集合の広範なコレクションを提供する。 このコレクションは、既存のコーポラよりも大規模で多様で、言語の特異性をキャプチャする最初の、最大のHausaソーシャルメディアデータ投稿を提供します。 このコレクションは並列データセットも含んでおり、スプリアスや熱狂的なオンラインコンテンツの検出などの分野でアプリケーションによる機械翻訳などのタスクに使用することができる。 収集、前処理、データの取得方法から、キュレーションプロセスを説明し、データを使用して対処できるいくつかの研究問題を推測します。

Hausa language belongs to the Afroasiatic phylum, and with more first-language speakers than any other sub-Saharan African language. With a majority of its speakers residing in the Northern and Southern areas of Nigeria and the Republic of Niger, respectively, it is estimated that over 100 million people speak the language. Hence, making it one of the most spoken Chadic language. While Hausa is considered well-studied and documented language among the sub-Saharan African languages, it is viewed as a low resource language from the perspective of natural language processing (NLP) due to limited resources to utilise in NLP-related tasks. This is common to most languages in Africa; thus, it is crucial to enrich such languages with resources that will support and speed the pace of conducting various downstream tasks to meet the demand of the modern society. While there exist useful datasets, notably from news sites and religious texts, more diversity is needed in the corpus. We provide an expansive collection of curated datasets consisting of both formal and informal forms of the language from refutable websites and online social media networks, respectively. The collection is large and more diverse than the existing corpora by providing the first and largest set of Hausa social media data posts to capture the peculiarities in the language. The collection also consists of a parallel dataset, which can be used for tasks such as machine translation with applications in areas such as the detection of spurious or inciteful online content. We describe the curation process -- from the collection, preprocessing and how to obtain the data -- and proffer some research problems that could be addressed using the data.
翻訳日:2021-02-17 06:17:58 公開日:2021-02-13
# (参考訳) ビデオから3次元対話ジェスチャを学習する [全文訳有]

Learning Speech-driven 3D Conversational Gestures from Video ( http://arxiv.org/abs/2102.06837v1 )

ライセンス: CC BY 4.0
Ikhsanul Habibie, Weipeng Xu, Dushyant Mehta, Lingjie Liu, Hans-Peter Seidel, Gerard Pons-Moll, Mohamed Elgharib, Christian Theobalt(参考訳) 音声入力から仮想キャラクタの3次元顔と頭部のアニメーションだけでなく,3次元対話体と手ジェスチャーの両方を自動的に,共同で合成する手法を提案する。 本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。 会話体ジェスチャーの合成はマルチモーダル問題であり、多くの類似したジェスチャーは同じ入力音声を伴う可能性がある。 本研究では,入力音声機能と組み合わせることで,生成した3D身体動作のシーケンスの可搬性を計測するGAN(Generative Adversarial Network)ベースのモデルを訓練する。 われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。 そこで本研究では,映像コーパスに最先端のモノクロアプローチを適用し,手のポーズ推定と密集した3d顔性能の把握を行う。 このようにして、複雑なインスタディオモーションキャプチャーソリューションを利用する従来のアルゴリズムよりも桁違いに多くのデータをトレーニングし、より表現力のある合成アルゴリズムを訓練することができる。 我々の実験とユーザスタディは、我々の音声合成フル3Dキャラクタアニメーションの最先端のクオリティを示す。

We propose the first approach to automatically and jointly synthesize both the synchronous 3D conversational body and hand gestures, as well as 3D face and head animations, of a virtual character from speech input. Our algorithm uses a CNN architecture that leverages the inherent correlation between facial expression and hand gestures. Synthesis of conversational body gestures is a multi-modal problem since many similar gestures can plausibly accompany the same input speech. To synthesize plausible body gestures in this setting, we train a Generative Adversarial Network (GAN) based model that measures the plausibility of the generated sequences of 3D body motion when paired with the input audio features. We also contribute a new way to create a large corpus of more than 33 hours of annotated body, hand, and face data from in-the-wild videos of talking people. To this end, we apply state-of-the-art monocular approaches for 3D body and hand pose estimation as well as dense 3D face performance capture to the video corpus. In this way, we can train on orders of magnitude more data than previous algorithms that resort to complex in-studio motion capture solutions, and thereby train more expressive synthesis algorithms. Our experiments and user study show the state-of-the-art quality of our speech-synthesized full 3D character animations.
翻訳日:2021-02-17 04:31:47 公開日:2021-02-13
# (参考訳) 超高解像度画像における高速高精度バーコード検出 [全文訳有]

Fast, Accurate Barcode Detection in Ultra High-Resolution Images ( http://arxiv.org/abs/2102.06868v1 )

ライセンス: CC BY-SA 4.0
Jerome Quenum, Kehan Wang, Avideh Zakhor(参考訳) 超高分解能(UHR)画像における物体検出は、対象物のスケールが異なるため、長い間コンピュータビジョンにおいて困難な問題でした。 バーコード検出に関しては、UHR入力イメージを小さなサイズに再サイズすることは、しばしば関連する情報の損失につながりますが、直接処理することは非常に非効率で計算的に高価です。 本稿では,UHR画像の様々なスケールのバーコードを高速かつ正確に検出するセマンティックセグメンテーションを提案する。 私たちのパイプラインでは、10k$\times$10k以上の画像の修正されたリージョン提案ネットワーク(rpn)と、新たに提案されたy-netセグメンテーションネットワークと、各セグメンテーションバーコードマスクにバウンディングボックスを配置する後処理ワークフローが関与しています。 エンドツーエンドのシステムは16ミリ秒のレイテンシを持ち、YOLOv4より2.5\times$、Mask RCNNより5.9\times$速い。 精度の面では, 合成データセット上で, YOLOv4 と Mask R-CNN をそれぞれ$mAP$ 5.5% と 47.1% で比較した。 生成された合成バーコードデータセットとそのコードはhttp://www.github.co m/viplab/BSBD/で公開しました。

Object detection in Ultra High-Resolution (UHR) images has long been a challenging problem in computer vision due to the varying scales of the targeted objects. When it comes to barcode detection, resizing UHR input images to smaller sizes often leads to the loss of pertinent information, while processing them directly is highly inefficient and computationally expensive. In this paper, we propose using semantic segmentation to achieve a fast and accurate detection of barcodes of various scales in UHR images. Our pipeline involves a modified Region Proposal Network (RPN) on images of size greater than 10k$\times$10k and a newly proposed Y-Net segmentation network, followed by a post-processing workflow for fitting a bounding box around each segmented barcode mask. The end-to-end system has a latency of 16 milliseconds, which is $2.5\times$ faster than YOLOv4 and $5.9\times$ faster than Mask RCNN. In terms of accuracy, our method outperforms YOLOv4 and Mask R-CNN by a $mAP$ of 5.5% and 47.1% respectively, on a synthetic dataset. We have made available the generated synthetic barcode dataset and its code at http://www.github.co m/viplab/BSBD/.
翻訳日:2021-02-17 04:12:54 公開日:2021-02-13
# (参考訳) ストリップテンソルネットワークを用いた2次元構造分割 [全文訳有]

Segmenting two-dimensional structures with strided tensor networks ( http://arxiv.org/abs/2102.06900v1 )

ライセンス: CC BY 4.0
Raghavendra Selvan, Erik B Dam, Jens Petersen(参考訳) テンソルネットワークは高次元テンソルを含む演算の効率的な近似を提供し、量子多体系のモデル化に広く利用されている。 近年、教師付き学習はテンソルネットワークで試みられ、主に画像分類などのタスクに焦点を当てている。 本研究では,高分解能医療画像上で動作可能な監督画像分割のためのテンソルネットワークの新規な定式化を提案する。 入力画像の非重なり合うパッチ上の行列積状態(MPS)テンソルネットワークを用いて,高次元空間における画素単位の線形分類規則を学習することによりセグメンテーションマスクを予測する。 提案モデルはバックプロパゲーションを用いてエンドツーエンドでトレーニング可能である。 パラメータの複雑さを減らすために、Strided Tensor Networkとして実装されている。 提案手法の性能を2つの医療画像データセットで評価し,関連するベースラインと比較した。 評価の結果, ストライドテンソルネットワークは, 資源の少ないCNNモデルと比較して, 競争性能が向上することがわかった。 また,本実験に基づき,セグメンテーションタスクにおける完全線形モデルの利用可能性について検討する。

Tensor networks provide an efficient approximation of operations involving high dimensional tensors and have been extensively used in modelling quantum many-body systems. More recently, supervised learning has been attempted with tensor networks, primarily focused on tasks such as image classification. In this work, we propose a novel formulation of tensor networks for supervised image segmentation which allows them to operate on high resolution medical images. We use the matrix product state (MPS) tensor network on non-overlapping patches of a given input image to predict the segmentation mask by learning a pixel-wise linear classification rule in a high dimensional space. The proposed model is end-to-end trainable using backpropagation. It is implemented as a Strided Tensor Network to reduce the parameter complexity. The performance of the proposed method is evaluated on two public medical imaging datasets and compared to relevant baselines. The evaluation shows that the strided tensor network yields competitive performance compared to CNN-based models while using fewer resources. Additionally, based on the experiments we discuss the feasibility of using fully linear models for segmentation tasks.
翻訳日:2021-02-17 04:03:49 公開日:2021-02-13
# (参考訳) JPEG圧縮における離散コサイン変換 [全文訳有]

Discrete Cosine Transform in JPEG Compression ( http://arxiv.org/abs/2102.06968v1 )

ライセンス: CC BY 4.0
Jacob John(参考訳) 画像圧縮は,今日では絶対的に必要とされている。 インターネット時代が到来すると、ファイルを圧縮して他のユーザーと共有することは必然的です。 帯域幅の限られた接続でもファイルを送信するために、画像品質を維持しながらファイルサイズを減らすためにいくつかの努力が行われています。 本稿では,共同写真エキスパートグループやjpegファイルフォーマットにおける画像圧縮における離散コサイン変換やdctの必要性について述べる。 そこで本研究では,まずDCTとJPEG圧縮について述べる。 前節では、JPEG圧縮がDCTによってどのように実装されているかを論じている。 最後のセクションでは、画像処理におけるDCTのさらなる実世界の応用について説明します。

Image Compression has become an absolute necessity in today's day and age. With the advent of the Internet era, compressing files to share among other users is quintessential. Several efforts have been made to reduce file sizes while still maintain image quality in order to transmit files even on limited bandwidth connections. This paper discusses the need for Discrete Cosine Transform or DCT in the compression of images in Joint Photographic Experts Group or JPEG file format. Via an intensive literature study, this paper first introduces DCT and JPEG Compression. The section preceding it discusses how JPEG compression is implemented by DCT. The last section concludes with further real world applications of DCT in image processing.
翻訳日:2021-02-17 03:52:25 公開日:2021-02-13
# (参考訳) 群分離オートエンコーダの収束について [全文訳有]

On the convergence of group-sparse autoencoders ( http://arxiv.org/abs/2102.07003v1 )

ライセンス: CC BY 4.0
Emmanouil Theodosis, Bahareh Tolooshams, Pranay Tankala, Abiy Tasissa, Demba Ba(参考訳) モデルに基づくディープラーニングアーキテクチャの理論解析における最近のアプローチでは、隠れた層が疎い生成モデルから生じる浅いreluネットワークにおける勾配降下の収束が研究されている。 構造化されたスパーシティを付与するアーキテクチャの成功を動機に、様々なジェネレーションモデルに対応するグループスパースオートエンコーダを導入し、研究するとともに、グループスパースRELUアクティベーション機能を利用して、特定の層の非ゼロユニットをブロックに強制的に発生させる。 クラスタリングモデルの場合、アクティブなユニットの同じグループで発生する入力は同じクラスタに属します。 提案するオートエンコーダの浅部インスタンスの勾配ダイナミクスを解析し,グループスパース生成モデルに付着したデータを用いて学習する。 この設定では、ネットワークパラメータを生成行列の近傍に収束させることを理論的に証明する。 本モデルの有効性を数値解析により検証し,グループスパースReLUを用いたネットワークの性能を,スパース符号化とパラメータ回復の両方において従来のReLUを用いたネットワークと比較した。 また、シミュレーション結果と相関する実データ実験を行い、構造化スパーシティモデルのクラスタリング能力を強調します。

Recent approaches in the theoretical analysis of model-based deep learning architectures have studied the convergence of gradient descent in shallow ReLU networks that arise from generative models whose hidden layers are sparse. Motivated by the success of architectures that impose structured forms of sparsity, we introduce and study a group-sparse autoencoder that accounts for a variety of generative models, and utilizes a group-sparse ReLU activation function to force the non-zero units at a given layer to occur in blocks. For clustering models, inputs that result in the same group of active units belong to the same cluster. We proceed to analyze the gradient dynamics of a shallow instance of the proposed autoencoder, trained with data adhering to a group-sparse generative model. In this setting, we theoretically prove the convergence of the network parameters to a neighborhood of the generating matrix. We validate our model through numerical analysis and highlight the superior performance of networks with a group-sparse ReLU compared to networks that utilize traditional ReLUs, both in sparse coding and in parameter recovery tasks. We also provide real data experiments to corroborate the simulated results, and emphasize the clustering capabilities of structured sparsity models.
翻訳日:2021-02-17 01:30:19 公開日:2021-02-13
# (参考訳) スマートホームにおけるGPSPiChain-Blockchai nベースの自己完結型家族セキュリティシステム [全文訳有]

GPSPiChain-Blockchai n based Self-Contained Family Security System in Smart Home ( http://arxiv.org/abs/2102.06884v1 )

ライセンス: CC BY 4.0
Ali Raza, Lachlan Hardy, Erin Roehrer, Soonja Yeom, Byeong ho Kang(参考訳) テクノロジーの進歩により、パーソナルコンピューティングデバイスは人々の生活や家庭に適応し、さらに統合されます。 テクノロジーの社会への統合は、特に子供や高齢者を含む脆弱な人々にとって、誰が、何が機密情報にアクセスできるかを制御するという欲求も高まります。 ブロックチェーンが世界に革命をもたらす技術として登場し、時間の経過とともに位置データの不変の監査証跡を持つことが可能になりました。 家庭内の安価な機器を介してプロセスを制御することにより、そのような個人データにアクセスできる人を制御できます。 本稿では、家族のスマートフォンの同意の場所を追跡するブロックチェーンベースの家族セキュリティシステムを提案する。 家族のスマートフォンの位置は、コンピュータ上の家族の自宅に設置されたノードを介してアクセス可能なプライベートブロックチェーンにログされ、格納される。 家族の所在に関するデータは、家族単位に留まり、いかなる第三者にも渡らない。 システムは小さなスケール(1つのマイニング器と2つのノード)で実装され、システムの限界とともに技術的実現可能性について議論する。 さらなる研究は、スマートホーム環境へのシステムの統合、およびブロックチェーンの不変性を使用して、特に脆弱な人々のための追跡の倫理的実装をカバーします。

With advancements in technology, personal computing devices are better adapted for and further integrated into people's lives and homes. The integration of technology into society also results in an increasing desire to control who and what has access to sensitive information, especially for vulnerable people including children and the elderly. With blockchain coming in to the picture as a technology that can revolutionise the world, it is now possible to have an immutable audit trail of locational data over time. By controlling the process through inexpensive equipment in the home, it is possible to control whom has access to such personal data. This paper presents a blockchain based family security system for tracking the location of consenting family members' smart phones. The locations of the family members' smart phones are logged and stored in a private blockchain which can be accessed through a node installed in the family home on a computer. The data for the whereabouts of family members stays within the family unit and does not go to any third party. The system is implemented in a small scale (one miner and two other nodes) and the technical feasibility is discussed along with the limitations of the system. Further research will cover the integration of the system into a smart home environment, and ethical implementations of tracking, especially of vulnerable people, using the immutability of blockchain.
翻訳日:2021-02-16 23:11:24 公開日:2021-02-13
# (参考訳) コラボレーティブ・インテリジェンス:挑戦と機会 [全文訳有]

Collaborative Intelligence: Challenges and Opportunities ( http://arxiv.org/abs/2102.06841v1 )

ライセンス: CC BY 4.0
Ivan V. Baji\'c, Weisi Lin, Yonghong Tian(参考訳) 本稿では,コラボレーションインテリジェンス(CI)の新たな領域について概観する。 私たちの目標は、重要な発展が信号処理と関連する分野から来ると予想される、ますます重要性のこの分野の課題と機会の信号処理コミュニティへの認識を高めることです。 本稿は,ciにおける技術の現状を調査し,機能圧縮,エラーレジリエンス,プライバシ,システムレベル設計における信号処理関連の課題を特に強調する。

This paper presents an overview of the emerging area of collaborative intelligence (CI). Our goal is to raise awareness in the signal processing community of the challenges and opportunities in this area of growing importance, where key developments are expected to come from signal processing and related disciplines. The paper surveys the current state of the art in CI, with special emphasis on signal processing-related challenges in feature compression, error resilience, privacy, and system-level design.
翻訳日:2021-02-16 21:42:42 公開日:2021-02-13
# (参考訳) ダム底口におけるハイブリッド型人工知能による空気需要予測 [全文訳有]

Hybrid Artificial Intelligence Methods for Predicting Air Demand in Dam Bottom Outlet ( http://arxiv.org/abs/2102.06929v1 )

ライセンス: CC BY 4.0
Aliakbar Narimani, Mahdi Moghimi, Amir Mosavi(参考訳) ダムのような経済的な価値が比較的高い大きなインフラでは、異なる運転条件下で関連する水力施設の適切な運用を確保することが最も重要である。 ダムの油圧装置の正しい運転を確実にし、ゲートや下流トンネルなどの損傷を防止し、実験室モデルを構築し、いくつかのテストを実施することが不可欠である(人工知能に基づくスマートセンサーの進歩が不可欠である)。 ダム底口への損傷の原因の1つは、ダム施設に影響を与える可能性がある下流およびゲート間のキャビテーションであり、空気通気はそれを改善するための解決策である。 本研究では,イラン各地の6つのダムを用いて,下流トンネル内の空気の流入を実験的に評価した。 3つの人工知能ニューラルネットワーク(ANN)ベースの機械学習(ML)アルゴリズムを使用して、底口の空気エアレーションをモデル化し予測する。 提案モデルは遺伝的アルゴリズム(GA)、粒子群最適化(PSO)、すなわちANN-GA、ANN-PSO、ANFIS-PSOで訓練される。 ゲートの体積率と開口率という2つの流体力学変数は、全ての底部出口モデルへの入力として用いられる。 その結果、最も最適なモデルがANFIS-PSOであり、ANN-GAやANN-PSOと比較して依存値を予測できることがわかった。 ダムのゲートパラメータの体積率と開口率の重要性は、適切な空気通気のためにより効果的です。

In large infrastructures such as dams, which have a relatively high economic value, ensuring the proper operation of the associated hydraulic facilities in different operating conditions is of utmost importance. To ensure the correct and successful operation of the dam's hydraulic equipment and prevent possible damages, including gates and downstream tunnel, to build laboratory models and perform some tests are essential (the advancement of the smart sensors based on artificial intelligence is essential). One of the causes of damage to dam bottom outlets is cavitation in downstream and between the gates, which can impact on dam facilities, and air aeration can be a solution to improve it. In the present study, six dams in different provinces in Iran has been chosen to evaluate the air entrainment in the downstream tunnel experimentally. Three artificial neural networks (ANN) based machine learning (ML) algorithms are used to model and predict the air aeration in the bottom outlet. The proposed models are trained with genetic algorithms (GA), particle swarm optimization (PSO), i.e., ANN-GA, ANN-PSO, and ANFIS-PSO. Two hydrodynamic variables, namely volume rate and opening percentage of the gate, are used as inputs into all bottom outlet models. The results showed that the most optimal model is ANFIS-PSO to predict the dependent value compared with ANN-GA and ANN-PSO. The importance of the volume rate and opening percentage of the dams' gate parameters is more effective for suitable air aeration.
翻訳日:2021-02-16 20:32:46 公開日:2021-02-13
# (参考訳) 単音素波形からの多声楽器分類のための深い畳み込み・再帰的ネットワーク [全文訳有]

Deep Convolutional and Recurrent Networks for Polyphonic Instrument Classification from Monophonic Raw Audio Waveforms ( http://arxiv.org/abs/2102.06930v1 )

ライセンス: CC BY 4.0
Kleanthis Avramidis, Agelos Kratimenos, Christos Garoufis, Athanasia Zlatintsi and Petros Maragos(参考訳) サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。 しかし、効率的な特徴抽出器としてのディープニューラルネットワークの出現により、分類目的に音声信号を直接利用できるようになった。 本論文では,生の波形を深層学習モデルに入力するだけで,ポリフォニックオーディオにおける楽器の認識を試みる。 計算コストが低く、プリプロセッシングが最小限であるエンドツーエンドのクラスバイフィアを構築するために、残留接続を組み込んだ様々な繰り返しおよび畳み込みアーキテクチャを検討し、パラメータ化します。 多数の残存接続を持つ並列CNN-BiGRUモデルを活用し、トレーニング可能なパラメータを大幅に削減しながら、競争的な分類スコアとIRMASテストセットによる有用なインサイトを得ます。

Sound Event Detection and Audio Classification tasks are traditionally addressed through time-frequency representations of audio signals such as spectrograms. However, the emergence of deep neural networks as efficient feature extractors has enabled the direct use of audio signals for classification purposes. In this paper, we attempt to recognize musical instruments in polyphonic audio by only feeding their raw waveforms into deep learning models. Various recurrent and convolutional architectures incorporating residual connections are examined and parameterized in order to build end-to-end classi-fiers with low computational cost and only minimal preprocessing. We obtain competitive classification scores and useful instrument-wise insight through the IRMAS test set, utilizing a parallel CNN-BiGRU model with multiple residual connections, while maintaining a significantly reduced number of trainable parameters.
翻訳日:2021-02-16 17:31:02 公開日:2021-02-13
# PAQ:6500万件の質問と、それで何ができるのか

PAQ: 65 Million Probably-Asked Questions and What You Can Do With Them ( http://arxiv.org/abs/2102.07033v1 )

ライセンス: Link先を確認
Patrick Lewis and Yuxiang Wu and Linqing Liu and Pasquale Minervini and Heinrich K\"uttler and Aleksandra Piktus and Pontus Stenetorp and Sebastian Riedel(参考訳) クローズドブックQA(CBQA)モデルやQAペアレトリバーなど,質問応答(QA)ペアを直接活用するオープンドメイン質問回答モデルは,テキストコーパスから検索・読解する従来のモデルと比較して,速度とメモリの面で有望であることを示す。 QAペアレトリバーは、解釈可能な回答、高度な制御を提供し、新しい知識でテスト時に更新するのも簡単です。 しかし、これらのモデルは、ウィキペディアのようなテキストコーパスと比較して利用可能なQAペアによって、ほとんど知識がカバーされないため、検索と読み取りシステムの正確さに欠ける。 改良されたQAペアモデルを実現するために,65MのQAペアを自動生成する非常に大きなリソースであるProbably Asked Questions (PAQ)を導入する。 PAQを補完する新しいQAペアレトリバー、RePAQを紹介します。 私たちは、PAQがテスト質問をプリエンプンし、キャッシュし、RePAQが最近の検索と読み取りモデルの精度に一致するようにします。 PAQを用いて、同等のベースラインを5%上回り、RePAQを15%以上追従するCBQAモデルを訓練し、明示的な検索の有効性を示す。 RePAQは、高い精度を維持しながら、サイズ(500MB以下)や速度(毎秒1K以上の質問)を設定できる。 最後に, 選択QAにおけるRePAQの強さを実証し, 誤答の可能性を排除した。 これにより、repaqはより高価な最先端モデルに ``back-off" を適用でき、最先端モデル単独よりも正確で2倍高速である複合システムへと繋がる。

Open-domain Question Answering models which directly leverage question-answer (QA) pairs, such as closed-book QA (CBQA) models and QA-pair retrievers, show promise in terms of speed and memory compared to conventional models which retrieve and read from text corpora. QA-pair retrievers also offer interpretable answers, a high degree of control, and are trivial to update at test time with new knowledge. However, these models lack the accuracy of retrieve-and-read systems, as substantially less knowledge is covered by the available QA-pairs relative to text corpora like Wikipedia. To facilitate improved QA-pair models, we introduce Probably Asked Questions (PAQ), a very large resource of 65M automatically-genera ted QA-pairs. We introduce a new QA-pair retriever, RePAQ, to complement PAQ. We find that PAQ preempts and caches test questions, enabling RePAQ to match the accuracy of recent retrieve-and-read models, whilst being significantly faster. Using PAQ, we train CBQA models which outperform comparable baselines by 5%, but trail RePAQ by over 15%, indicating the effectiveness of explicit retrieval. RePAQ can be configured for size (under 500MB) or speed (over 1K questions per second) whilst retaining high accuracy. Lastly, we demonstrate RePAQ's strength at selective QA, abstaining from answering when it is likely to be incorrect. This enables RePAQ to ``back-off" to a more expensive state-of-the-art model, leading to a combined system which is both more accurate and 2x faster than the state-of-the-art model alone.
翻訳日:2021-02-16 16:15:55 公開日:2021-02-13
# 蒸留二重降下

Distilling Double Descent ( http://arxiv.org/abs/2102.06849v1 )

ライセンス: Link先を確認
Andrew Cotter, Aditya Krishna Menon, Harikrishna Narasimhan, Ankit Singh Rawat, Sashank J. Reddi, Yichen Zhou(参考訳) 蒸留は、別個の「教師」モデルによってラベル付けされた例に基づいて、それ自体がラベル付きデータセットでトレーニングされる「スチューデント」モデルを訓練する技法である。 蒸留「仕事」の理由の最も一般的な説明は、教師モデルから学生に \emph{soft} ラベル、 \eg 確率または自信が提供されるという仮定を前提としています。 本研究では,教師モデルが過度にパラメータ化されている場合であっても,学生モデルのトレーニングに非常に大きなホールドアウトラベルのないデータセットを使用することで,従来型アプローチよりも優れたモデルが実現可能であることを示す。 この現象の説明は「二重降下」に関する最近の研究に基づいている。 モデルの複雑さがトレーニングデータの記憶に必要な量を大幅に上回ると、その複雑さが直感的に増すと、 \emph{better} が一般化されることが観察されている。 研究者たちは、それが起きているいくつかの設定を特定し、それを説明するためのさまざまな試みを行った(今のところ、部分的には成功していない)。 対照的に、我々はこれらの質問を避けて、高度に過小評価された教師が二重降下によって過剰フィッティングを回避できることを示すことによって、この現象を<emph{exploit} しようとする一方で、この教師によってラベル付けされたより大きな独立データセットで訓練された生徒は、トレーニングセットの大きさによって過大フィッティングを避ける。

Distillation is the technique of training a "student" model based on examples that are labeled by a separate "teacher" model, which itself is trained on a labeled dataset. The most common explanations for why distillation "works" are predicated on the assumption that student is provided with \emph{soft} labels, \eg probabilities or confidences, from the teacher model. In this work, we show, that, even when the teacher model is highly overparameterized, and provides \emph{hard} labels, using a very large held-out unlabeled dataset to train the student model can result in a model that outperforms more "traditional" approaches. Our explanation for this phenomenon is based on recent work on "double descent". It has been observed that, once a model's complexity roughly exceeds the amount required to memorize the training data, increasing the complexity \emph{further} can, counterintuitively, result in \emph{better} generalization. Researchers have identified several settings in which it takes place, while others have made various attempts to explain it (thus far, with only partial success). In contrast, we avoid these questions, and instead seek to \emph{exploit} this phenomenon by demonstrating that a highly-overparameter ized teacher can avoid overfitting via double descent, while a student trained on a larger independent dataset labeled by this teacher will avoid overfitting due to the size of its training set.
翻訳日:2021-02-16 16:14:49 公開日:2021-02-13
# 生物学的にプラズブルな視覚意図モデルと深層学習を組み合わせた視覚障害自動検出の改良

Improving Automated Visual Fault Detection by Combining a Biologically Plausible Model of Visual Attention with Deep Learning ( http://arxiv.org/abs/2102.06955v1 )

ライセンス: Link先を確認
Frederik Beuth, Tobias Schlosser, Michael Friedrich, Danny Kowerko(参考訳) 生物学的処理の原則と人間の認識の能力を機械ビジョンや工学システムに移行させることは、長期的な目標である。 そのような原則の1つは、視覚的注意、シーンの一部に処理に焦点を当てたスマートな人間の概念です。 このコントリビューションでは、半導体製造領域におけるウェーハの欠陥パターンの自動検出の改善に注意を払います。 以前は、KNN、SVM、MLPなどの古典的な機械学習アプローチを頻繁に使用していましたが、すでにディープニューラルネットワーク(DNN)のような現代的なアプローチを使用している人もいます。 しかし、ドメインの1つの問題は、欠陥がしばしば非常に小さく、チップまたはウェーハのより大きなサイズ内で検出されなければならないことです。 したがって、ピクセルの大きさの小さな構造は、膨大な量の画像データで検出されなければなりません。 この問題を解決する人間の脳の興味深い原則の1つは視覚的注意である。 そこで我々は,視覚自動検査のための生物学的に妥当な視覚的注意モデルを構築した。 本稿では,視覚注意と深層ニューラルネットワークのハイブリッドシステムを提案する。 実証されたように、当社のシステムは、81%から92%の精度の向上、および67%から88%の欠陥を検出する精度の向上などの決定的な利点を達成しています。 したがって、エラー率は19%から8%に減少し、特にチップの欠陥を検出するために33%から12%に減少します。 これらの結果から,視覚検査システムの性能が大幅に向上することが示唆された。 さらに,本アプリケーションにおける生物学的アテンションモデルの特定の利点を同定し,標準的なディープラーニングアプローチを,注意を伴わない代替手段として評価する。 この研究は"IECON 2020"で公開されたオリジナルのカンファレンス記事の拡張arXivバージョンであり、視覚的注意について拡張されている。

It is a long-term goal to transfer biological processing principles as well as the power of human recognition into machine vision and engineering systems. One of such principles is visual attention, a smart human concept which focuses processing on a part of a scene. In this contribution, we utilize attention to improve the automatic detection of defect patterns for wafers within the domain of semiconductor manufacturing. Previous works in the domain have often utilized classical machine learning approaches such as KNNs, SVMs, or MLPs, while a few have already used modern approaches like deep neural networks (DNNs). However, one problem in the domain is that the faults are often very small and have to be detected within a larger size of the chip or even the wafer. Therefore, small structures in the size of pixels have to be detected in a vast amount of image data. One interesting principle of the human brain for solving this problem is visual attention. Hence, we employ here a biologically plausible model of visual attention for automatic visual inspection. We propose a hybrid system of visual attention and a deep neural network. As demonstrated, our system achieves among other decisive advantages an improvement in accuracy from 81% to 92%, and an increase in accuracy for detecting faults from 67% to 88%. Hence, the error rates are reduced from 19% to 8%, and notably from 33% to 12% for detecting a fault in a chip. These results show that attention can greatly improve the performance of visual inspection systems. Furthermore, we conduct a broad evaluation, identifying specific advantages of the biological attention model in this application, and benchmarks standard deep learning approaches as an alternative with and without attention. This work is an extended arXiv version of the original conference article published in "IECON 2020", which has been extended regarding visual attention.
翻訳日:2021-02-16 16:13:09 公開日:2021-02-13
# 配車網における平衡逆補強学習

Equilibrium Inverse Reinforcement Learning for Ride-hailing Vehicle Network ( http://arxiv.org/abs/2102.06854v1 )

ライセンス: Link先を確認
Takuma Oda(参考訳) ユビキタスモバイルコンピューティングにより、配車サービスはライダーとドライバーの膨大な行動データを収集し、リアルタイムで供給と需要のマッチングを最適化することができます。 これらのモビリティサービスプロバイダは、要求に車両を割り当てることで市場をある程度コントロールしているが、労働者は通常、割り当てられたタスクがない場合は自由に運転できるので、自己関心のあるドライバーの行動から生じる不確実性に対処する必要がある。 本研究では,疎結合グラフにおける乗用車マッチングの問題を定式化し,マルチエージェント環境における平衡政策を導出するアルゴリズムを提案する。 提案手法は,提案手法を組み合わせることで,期待状態訪問の最適ポリシーを推定し,マルチエージェント状態訪問頻度を計算する。 さらに、トレーニングデータとはかなり異なるダイナミクスを持つ環境に転送可能なドライバーの報酬関数を学ぶ方法を開発した。 実世界のタクシー軌道データを用いて,時空間の供給需要分布の変化とデータ品質の劣化に対するロバスト性を評価した。 すべての車両が共有する平衡ポリシーを得るのに必要な計算時間はエージェントの数に依存しません。現実世界のサービスの規模でさえ、単一のCPUでほんの数秒しかかかりません。

Ubiquitous mobile computing have enabled ride-hailing services to collect vast amounts of behavioral data of riders and drivers and optimize supply and demand matching in real time. While these mobility service providers have some degree of control over the market by assigning vehicles to requests, they need to deal with the uncertainty arising from self-interested driver behavior since workers are usually free to drive when they are not assigned tasks. In this work, we formulate the problem of passenger-vehicle matching in a sparsely connected graph and proposed an algorithm to derive an equilibrium policy in a multi-agent environment. Our framework combines value iteration methods to estimate the optimal policy given expected state visitation and policy propagation to compute multi-agent state visitation frequencies. Furthermore, we developed a method to learn the driver's reward function transferable to an environment with significantly different dynamics from training data. We evaluated the robustness to changes in spatio-temporal supply-demand distributions and deterioration in data quality using a real-world taxi trajectory dataset; our approach significantly outperforms several baselines in terms of imitation accuracy. The computational time required to obtain an equilibrium policy shared by all vehicles does not depend on the number of agents, and even on the scale of real-world services, it takes only a few seconds on a single CPU.
翻訳日:2021-02-16 16:11:07 公開日:2021-02-13
# 韻律強化学習のための破損ロバストアルゴリズムの改良

Improved Corruption Robust Algorithms for Episodic Reinforcement Learning ( http://arxiv.org/abs/2102.06875v1 )

ライセンス: Link先を確認
Yifang Chen, Simon S. Du, Kevin Jamieson(参考訳) 基礎システムの報酬と遷移確率の両方において,未知の敵的腐敗下でのエピソディック強化学習について検討した。 我々は,既存の結果(lykouris et al., 2020)と比較して,表構成全体の腐敗に関して,厳密な後悔の限界を達成する新しいアルゴリズムを提案する。 具体的には、第一に、私たちの後悔の境界は、破損したエピソードの総数だけではなく、合計報酬の腐敗と移行の腐敗のより正確な数値に依存します。 第二に、私たちの後悔の境界は、重複的にではなく、$\sqrt{T}$に関して、腐敗の数を付加的に表示させる強化学習設定の最初のものです。 その結果、汚職防止政策のメタアルゴリズムとプラグインフリーのサブアルゴリズムを組み合わせた一般的なアルゴリズムフレームワークが得られた。 メタアルゴリズムやサブアルゴリズムの置き換えは、フレームワークを拡張して、潜在的により多くの構造を持つ他の破損した設定に対処する。

We study episodic reinforcement learning under unknown adversarial corruptions in both the rewards and the transition probabilities of the underlying system. We propose new algorithms which, compared to the existing results in (Lykouris et al., 2020), achieve strictly better regret bounds in terms of total corruptions for the tabular setting. To be specific, firstly, our regret bounds depend on more precise numerical values of total rewards corruptions and transition corruptions, instead of only on the total number of corrupted episodes. Secondly, our regret bounds are the first of their kind in the reinforcement learning setting to have the number of corruptions show up additively with respect to $\sqrt{T}$ rather than multiplicatively. Our results follow from a general algorithmic framework that combines corruption-robust policy elimination meta-algorithms, and plug-in reward-free exploration sub-algorithms. Replacing the meta-algorithm or sub-algorithm may extend the framework to address other corrupted settings with potentially more structure.
翻訳日:2021-02-16 16:10:45 公開日:2021-02-13
# ThetA -- 距離パラメータによる高速かつ堅牢なクラスタリング

ThetA -- fast and robust clustering via a distance parameter ( http://arxiv.org/abs/2102.07028v1 )

ライセンス: Link先を確認
Eleftherios Garyfallidis, Shreyas Fadnavis, Jong Sung Park, Bramsh Qamar Chandio, Javier Guaje, Serge Koudoro, Nasim Anousheh(参考訳) クラスタリングは機械学習の根本的な問題であり、遠隔ベースのアプローチが数十年にわたってこの分野を支配してきた。 この一連の問題は、クラスタ数を選択したkクラスタにデータを分割することで、しばしば取り組まれる。 長年にわたってこれらのラインに大きな進歩を遂げてきましたが、クラスターや寸法の数が増えるにつれて、現在のアプローチは局所的なミニマに留まり、最適以下の解決策をもたらすことがよく知られています。 本研究では, Theta-based Algorithms (ThetA) と呼ばれる新しい距離しきい値法を提案する。 実験的な比較と複雑性分析により,提案手法が既存のアプローチよりも,a)クラスタリング精度,b)時間複雑性よりも優れていることを示す。 さらに,多くの問題に対して,学習Kと比較して最適なしきい値の学習が簡単なことを示し,さらに,高次元のデータセットの空間性をThetAがいかに推測できるかを示す。

Clustering is a fundamental problem in machine learning where distance-based approaches have dominated the field for many decades. This set of problems is often tackled by partitioning the data into K clusters where the number of clusters is chosen apriori. While significant progress has been made on these lines over the years, it is well established that as the number of clusters or dimensions increase, current approaches dwell in local minima resulting in suboptimal solutions. In this work, we propose a new set of distance threshold methods called Theta-based Algorithms (ThetA). Via experimental comparisons and complexity analyses we show that our proposed approach outperforms existing approaches in: a) clustering accuracy and b) time complexity. Additionally, we show that for a large class of problems, learning the optimal threshold is straightforward in comparison to learning K. Moreover, we show how ThetA can infer the sparsity of datasets in higher dimensions.
翻訳日:2021-02-16 16:10:25 公開日:2021-02-13
# 注意共有によるクロスドメイン時系列予測

Cross-domain Time Series Forecasting with Attention Sharing ( http://arxiv.org/abs/2102.06828v1 )

ライセンス: Link先を確認
Xiaoyong Jin, Youngsuk Park, Danielle Maddix, Bernie Wang, Xifeng Yan(参考訳) 近年、時系列予測の分野では、ディープニューラルネットワークの人気が高まっています。 成功のおもな理由は、複数の関連時間系列にわたるcom-plextemporic dynamicsを効果的に捉える能力である。 しかし、これらの深い予測者の利点は、十分な量のデータの存在によってのみ現れ始める。 これは、時系列の数が少なかったり、時系列ごとの観測が限られていたりする、prac-ticeの典型的な予測問題の原因となる。 データ希少性の問題に対処するため,新たなドメイン適応フレームワークであるDomain Adaptation Forecaster(DAF)を提案する。このフレームワークは,他の関連ドメインの統計的強みを豊富なデータサンプル(ソース)でレバーエイジングし,限られたデータ(ターゲット)で間接領域のパフォーマンスを向上させる。 特に、ドメイン間のドメイン識別器と、個々のドメインに対するプリベートモジュールを備えたアテンションベースの共有モジュールを提案する。 これにより、ドメイン固有の機能をトレーニングしながら、ドメイン不変の潜在機能を生成させることで、ソースとターゲットドメインを共同でトレーニングすることができる。 提案手法は、合成データセットと実世界のデータセットの最先端のベースラインを上回ります。

Recent years have witnessed deep neural net-works gaining increasing popularity in the field oftime series forecasting. A primary reason of theirsuccess is their ability to effectively capture com-plex temporal dynamics across multiple relatedtime series. However, the advantages of thesedeep forecasters only start to emerge in the pres-ence of a sufficient amount of data. This poses achallenge for typical forecasting problems in prac-tice, where one either has a small number of timeseries, or limited observations per time series, orboth. To cope with the issue of data scarcity, wepropose a novel domain adaptation framework,Domain Adaptation Forecaster (DAF), that lever-ages the statistical strengths from another relevantdomain with abundant data samples (source) toimprove the performance on the domain of inter-est with limited data (target). In particular, we pro-pose an attention-based shared module with a do-main discriminator across domains as well as pri-vate modules for individual domains. This allowsus to jointly train the source and target domains bygenerating domain-invariant latent features whileretraining domain-specific features. Extensive ex-periments on various domains demonstrate thatour proposed method outperforms state-of-the-artbase lines on synthetic and real-world datasets.
翻訳日:2021-02-16 16:06:41 公開日:2021-02-13
# インスタンス識別自己監督型表現学習における負のサンプルの理解

Understanding Negative Samples in Instance Discriminative Self-supervised Representation Learning ( http://arxiv.org/abs/2102.06866v1 )

ライセンス: Link先を確認
Kento Nozawa, Issei Sato(参考訳) インスタンス識別型自己教師付き表現学習は、教師なしの性質と下流タスクのための情報的特徴表現によって注目を集めている。 自己監督型表現学習は、実際には教師付きクラスの数よりもネガティブなサンプルを使用することが多い。 しかし、既存の分析には矛盾があり、理論的には多くの負のサンプルは教師付き性能を劣化させるが、実証的に性能は向上する。 負のサンプルに関するこの実験結果を理論的に説明します。 CIFAR-10/100データセットの数値実験を行い,本解析の実証的検証を行った。

Instance discriminative self-supervised representation learning has been attracted attention thanks to its unsupervised nature and informative feature representation for downstream tasks. Self-supervised representation learning commonly uses more negative samples than the number of supervised classes in practice. However, there is an inconsistency in the existing analysis; theoretically, a large number of negative samples degrade supervised performance, while empirically, they improve the performance. We theoretically explain this empirical result regarding negative samples. We empirically confirm our analysis by conducting numerical experiments on CIFAR-10/100 datasets.
翻訳日:2021-02-16 16:06:22 公開日:2021-02-13
# 類似性信頼データから学ぶ

Learning from Similarity-Confidenc e Data ( http://arxiv.org/abs/2102.06879v1 )

ライセンス: Link先を確認
Yuzhou Cao, Lei Feng, Yitian Xu, Bo An, Gang Niu, Masashi Sugiyama(参考訳) 近年,大量のデータのラベル付けに要するコストや労力を削減するために,教師付き学習が注目されている。 本稿では,類似度を示す信頼度を有するラベル付きデータペアのみから効果的なバイナリ分類を学習することを目的とした,類似度信頼(sconf)データから学習する,新しい弱教師付き学習問題について検討する(例2つが同一クラスに属する場合に類似する)。 そこで本研究では,Sconfデータのみから計算可能な分類リスクの偏りのない推定値を提案し,推定誤差境界が最適収束率を達成することを示した。 フレキシブルモデルを用いた場合の潜在過充足を軽減するため,提案するリスク推定器にさらにリスク補正手法を適用する。 実験の結果,提案手法の有効性が示された。

Weakly supervised learning has drawn considerable attention recently to reduce the expensive time and labor consumption of labeling massive data. In this paper, we investigate a novel weakly supervised learning problem of learning from similarity-confidenc e (Sconf) data, where we aim to learn an effective binary classifier from only unlabeled data pairs equipped with confidence that illustrates their degree of similarity (two examples are similar if they belong to the same class). To solve this problem, we propose an unbiased estimator of the classification risk that can be calculated from only Sconf data and show that the estimation error bound achieves the optimal convergence rate. To alleviate potential overfitting when flexible models are used, we further employ a risk correction scheme on the proposed risk estimator. Experimental results demonstrate the effectiveness of the proposed methods.
翻訳日:2021-02-16 16:06:14 公開日:2021-02-13
# オンライン見習い学習

Online Apprenticeship Learning ( http://arxiv.org/abs/2102.06924v1 )

ライセンス: Link先を確認
Lior Shani, Tom Zahavy and Shie Mannor(参考訳) 見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。 代わりに、あるポリシーに従って行動する専門家がサンプリングした軌道を観察します。 目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。 エージェントが環境と対話しながら専門家と相性良く行動することが期待されるal(online apprenticeship learning; oal)のオンライン版について紹介する。 提案手法は,2つのミラー降下に基づく非回帰アルゴリズムを組み合わせることで,OAL問題を効果的に解くことができることを示す。 この目的のために、$O(\sqrt{K})$ regret を持つ収束アルゴリズムを導出し、$K$ は MDP との相互作用の数であり、利用可能な専門家軌道の量に依存する追加の線形誤差項である。 重要な点として,本アルゴリズムは各イテレーションでMPPを解く必要がなくなり,従来のAL手法よりも実用的になる。 最後に, GAIL \cite{ho2016generative} と類似性を持つアルゴリズムの深い変種を実装するが, 判別器をOAL問題で学習したコストに置き換える。 我々のシミュレーションは、我々の理論上のアプローチがベースラインより優れていることを示す。

In Apprenticeship Learning (AL), we are given a Markov Decision Process (MDP) without access to the cost function. Instead, we observe trajectories sampled by an expert that acts according to some policy. The goal is to find a policy that matches the expert's performance on some predefined set of cost functions. We introduce an online variant of AL (Online Apprenticeship Learning; OAL), where the agent is expected to perform comparably to the expert while interacting with the environment. We show that the OAL problem can be effectively solved by combining two mirror descent based no-regret algorithms: one for policy optimization and another for learning the worst case cost. To this end, we derive a convergent algorithm with $O(\sqrt{K})$ regret, where $K$ is the number of interactions with the MDP, and an additional linear error term that depends on the amount of expert trajectories available. Importantly, our algorithm avoids the need to solve an MDP at each iteration, making it more practical compared to prior AL methods. Finally, we implement a deep variant of our algorithm which shares some similarities to GAIL \cite{ho2016generative}, but where the discriminator is replaced with the costs learned by the OAL problem. Our simulations demonstrate our theoretically grounded approach outperforms the baselines.
翻訳日:2021-02-16 16:06:00 公開日:2021-02-13
# 半教師付き分類のためのグラフ畳み込み:線形分離性と分散一般化の改善

Graph Convolution for Semi-Supervised Classification: Improved Linear Separability and Out-of-Distribution Generalization ( http://arxiv.org/abs/2102.06966v1 )

ライセンス: Link先を確認
Aseem Baranwal, Kimon Fountoulakis, Aukosh Jagannath(参考訳) 近年,グラフィカル情報の存在下での半教師付き分類への関心が高まっている。 グラフ畳み込みを適用した後にデータを分類することに最も基本的なレベルで依存する新しいクラスの学習モデルが登場しました。 このアプローチのメリットを理解するために、データは確率ブロックモデルのノード属性に対応するガウス型混合物の分類について検討する。 グラフ畳み込みは、データが線形に分離可能な状態を約$1/\sqrt{D}$で拡張し、$D$はノードの期待程度であり、それ自体の混合モデルデータと比較する。 さらに、グラフ畳み込み後のクロスエントロピー損失を最小化して得られる線形分類器は、見えないデータがトレーニングデータと異なるクラス内およびクラス間エッジ確率を持つことができる分布外データに一般化する。

Recently there has been increased interest in semi-supervised classification in the presence of graphical information. A new class of learning models has emerged that relies, at its most basic level, on classifying the data after first applying a graph convolution. To understand the merits of this approach, we study the classification of a mixture of Gaussians, where the data corresponds to the node attributes of a stochastic block model. We show that graph convolution extends the regime in which the data is linearly separable by a factor of roughly $1/\sqrt{D}$, where $D$ is the expected degree of a node, as compared to the mixture model data on its own. Furthermore, we find that the linear classifier obtained by minimizing the cross-entropy loss after the graph convolution generalizes to out-of-distribution data where the unseen data can have different intra- and inter-class edge probabilities from the training data.
翻訳日:2021-02-16 16:05:39 公開日:2021-02-13
# 逐次テスト問題のクラスに対する拡散近似

Diffusion Approximations for a Class of Sequential Testing Problems ( http://arxiv.org/abs/2102.07030v1 )

ライセンス: Link先を確認
Victor F. Araman, Rene Caldentey(参考訳) 我々は、未知のパラメータに依存する報酬関数を最大化するために、アクションを選択する必要がある意思決定者を考える。 意思決定者は、実験を行い、さらに情報を集めるために、アクションを取るのを遅らせることができる。 ベイズ逐次実験フレームワークを用いて意思決定者の問題をモデル化し,動的計画法と拡散漸近解析を用いて解く。 そのため、単位時間当たりに実施される平均的な実験数と個々の実験のインフォメーション性が低くなるように、問題をスケールする。 このような体制の下で、我々は、問題の性質とその解に関する多くの重要な洞察を提供する連続実験問題の拡散近似を導出する。 我々の解法はまた、問題の複雑さは、意思決定者が選択できる一連の行動のカーディナリティとのみ二次的に成長することを示している。 我々は,品揃え選択と新製品の導入という文脈で,具体的アプリケーションを用いた方法論と結果を紹介する。 具体的には,市場に出品する商品の最適品揃えの選択を希望し,消費者の嗜好について不透明な売り手の問題について検討する。 電子商取引における新興の慣行に触発されて、最終的な品揃え決定が下される前に、売り手は群衆投票システムを使ってこれらの嗜好を学習できると仮定する。 この文脈では,学習の価値を評価するために広範な数値解析を行い,拡散近似から導かれるヒューリスティックスの有効性と頑健性を示す。

We consider a decision maker who must choose an action in order to maximize a reward function that depends also on an unknown parameter {\Theta}. The decision maker can delay taking the action in order to experiment and gather additional information on {\Theta}. We model the decision maker's problem using a Bayesian sequential experimentation framework and use dynamic programming and diffusion-asymptotic analysis to solve it. For that, we scale our problem in a way that both the average number of experiments that is conducted per unit of time is large and the informativeness of each individual experiment is low. Under such regime, we derive a diffusion approximation for the sequential experimentation problem, which provides a number of important insights about the nature of the problem and its solution. Our solution method also shows that the complexity of the problem grows only quadratically with the cardinality of the set of actions from which the decision maker can choose. We illustrate our methodology and results using a concrete application in the context of assortment selection and new product introduction. Specifically, we study the problem of a seller who wants to select an optimal assortment of products to launch into the marketplace and is uncertain about consumers' preferences. Motivated by emerging practices in e-commerce, we assume that the seller is able to use a crowdvoting system to learn these preferences before a final assortment decision is made. In this context, we undertake an extensive numerical analysis to assess the value of learning and demonstrate the effectiveness and robustness of the heuristics derived from the diffusion approximation.
翻訳日:2021-02-16 16:05:21 公開日:2021-02-13
# GANのWasserstein近位

Wasserstein Proximal of GANs ( http://arxiv.org/abs/2102.06862v1 )

ライセンス: Link先を確認
Alex Tong Lin, Wuchen Li, Stanley Osher, Guido Montufar(参考訳) 生成器にWasserstein-2 metric proximalを適用することにより,生成敵ネットワークを訓練する新しい方法を提案する。 このアプローチはwasserstein information geometryに基づいている。 確率空間からパラメータ空間へ最適な輸送構造を引き戻すことによって、パラメータ化不変自然勾配を定義する。 暗黙的な深層生成モデルのパラメータ更新のための繰り返し正規化器を簡易に実装する。 本実験では, ウォールクロック時間, Fr\'echet Inception Distance の点で, トレーニングの速度と安定性を改善することを実証した。

We introduce a new method for training generative adversarial networks by applying the Wasserstein-2 metric proximal on the generators. The approach is based on Wasserstein information geometry. It defines a parametrization invariant natural gradient by pulling back optimal transport structures from probability space to parameter space. We obtain easy-to-implement iterative regularizers for the parameter updates of implicit deep generative models. Our experiments demonstrate that this method improves the speed and stability of training in terms of wall-clock time and Fr\'echet Inception Distance.
翻訳日:2021-02-16 16:01:15 公開日:2021-02-13
# Smoothed Online Learningを再考

Revisiting Smoothed Online Learning ( http://arxiv.org/abs/2102.06933v1 )

ライセンス: Link先を確認
Lijun Zhang, Wei Jiang, Shiyin Lu, Tianbao Yang(参考訳) 本稿では,オンライン学習者がヒットコストと切り替えコストの両方に苦しむスムーズなオンライン学習の問題を再考し,競争率と切り替えコストに対する動的後悔という2つのパフォーマンス指標を目標とした。 競争比を縛るために、各ラウンドで打つコストが学習者に知られていると仮定し、打つコストと切り換えコストの重み付け合計を単純に最小化する勾配アルゴリズムを調査します。 我々の理論的解析によれば、グリーディアルゴリズムは単純ではあるが、$\alpha$-polyhedral関数の$+ \frac{2}{\alpha}$-competitive、$\lambda$-quadratic成長関数の$+O(\frac{1}{\lambda})$-competitive、$\lambda$-quadratic成長関数の$+ \frac{2}{\sqrt{\lambda}}$-competitive、$\lambda$-quadratic成長関数の$+ \frac{2}{\sqrt{\lambda}}$-competitiveである。 スイッチングコストに対する動的後悔を和らげるために、我々はオンライン凸最適化の標準設定に従い、ヒットコストは凸だが、予測を行う前に学習者から隠蔽される。 動的後悔のために設計された既存のアルゴリズムであるAderを修正し、パフォーマンスを測定する際のスイッチングコストをわずかに考慮します。 提案アルゴリズムはSmoothed Aderと名付けられ, 動的後悔に対して最適な$O(\sqrt{T(1+P_T)})を切替コストで有界とし, コンパレータ列のパス長を$P_T$とする。 さらに,各ラウンドの始めに打上げコストが利用可能であれば,境界勾配条件を使わずに同様の保証が得られる。

In this paper, we revisit the problem of smoothed online learning, in which the online learner suffers both a hitting cost and a switching cost, and target two performance metrics: competitive ratio and dynamic regret with switching cost. To bound the competitive ratio, we assume the hitting cost is known to the learner in each round, and investigate the greedy algorithm which simply minimizes the weighted sum of the hitting cost and the switching cost. Our theoretical analysis shows that the greedy algorithm, although straightforward, is $1+ \frac{2}{\alpha}$-competitive for $\alpha$-polyhedral functions, $1+O(\frac{1}{\lambda})$-competitive for $\lambda$-quadratic growth functions, and $1 + \frac{2}{\sqrt{\lambda}}$-competitive for convex and $\lambda$-quadratic growth functions. To bound the dynamic regret with switching cost, we follow the standard setting of online convex optimization, in which the hitting cost is convex but hidden from the learner before making predictions. We modify Ader, an existing algorithm designed for dynamic regret, slightly to take into account the switching cost when measuring the performance. The proposed algorithm, named as Smoothed Ader, attains an optimal $O(\sqrt{T(1+P_T)})$ bound for dynamic regret with switching cost, where $P_T$ is the path-length of the comparator sequence. Furthermore, if the hitting cost is accessible in the beginning of each round, we obtain a similar guarantee without the bounded gradient condition.
翻訳日:2021-02-16 15:58:05 公開日:2021-02-13
# モーメント法の最後の反復収束について

On the Last Iterate Convergence of Momentum Methods ( http://arxiv.org/abs/2102.07002v1 )

ライセンス: Link先を確認
Xiaoyu Li and Mingrui Liu and Francesco Orabona(参考訳) SGD with Momentum (SGDM) は機械学習問題の大規模最適化に広く利用されている。 しかし、このアルゴリズムの理論的理解は完全ではない。 実際、最近の結果でさえも、平均化スキームや有界領域への射影のようなアルゴリズムの変更が必要であり、実際には使われない。 また、SGDMでは下限は知られていない。 本稿では、任意の定数運動量係数に対して、$T$ ステップの後に SGDM の最後の反復がエラー $\Omega(\frac{\log T}{\sqrt{T}})$ に苦しむ Lipschitz および凸関数が存在することを初めて証明する。 この事実に基づいて,<emph{increasing momentum} と \emph{shrinking updates} を用いたFollow-The-Regulariz ed-Leader-based SGDMアルゴリズムの新たなクラスについて検討する。 これらのアルゴリズムでは、制約のない凸最適化問題に対して、最後の反復が最適収束$O(\frac{1}{\sqrt{T}})$であることが示される。 さらに、凸関数と滑らかな関数の補間設定において、我々の新しいSGDMアルゴリズムは自動的に$O(\frac{\log T}{T})$の速度で収束することを示す。 実証結果も示されています。

SGD with Momentum (SGDM) is widely used for large scale optimization of machine learning problems. Yet, the theoretical understanding of this algorithm is not complete. In fact, even the most recent results require changes to the algorithm like an averaging scheme and a projection onto a bounded domain, which are never used in practice. Also, no lower bound is known for SGDM. In this paper, we prove for the first time that for any constant momentum factor, there exists a Lipschitz and convex function for which the last iterate of SGDM suffers from an error $\Omega(\frac{\log T}{\sqrt{T}})$ after $T$ steps. Based on this fact, we study a new class of (both adaptive and non-adaptive) Follow-The-Regulariz ed-Leader-based SGDM algorithms with \emph{increasing momentum} and \emph{shrinking updates}. For these algorithms, we show that the last iterate has optimal convergence $O (\frac{1}{\sqrt{T}})$ for unconstrained convex optimization problems. Further, we show that in the interpolation setting with convex and smooth functions, our new SGDM algorithm automatically converges at a rate of $O(\frac{\log T}{T})$. Empirical results are shown as well.
翻訳日:2021-02-16 15:57:23 公開日:2021-02-13
# 拡散MRIのための回転不変深層学習

Rotation-Equivariant Deep Learning for Diffusion MRI ( http://arxiv.org/abs/2102.06942v1 )

ライセンス: Link先を確認
Philip M\"uller, Vladimir Golkov, Valentina Tomassini, Daniel Cremers(参考訳) 畳み込みネットワークは成功しているが、最近は回転や翻訳で等価である新しいニューラルネットワークによってパフォーマンスが上がっている。 これらの新しいネットワークは、各画像機能のそれぞれの方向を個別に学習するのに苦労しないため、よりうまく機能する。 これまでのところ、2Dデータと3Dデータに対して提案されている。 ここでは,これらを6次元拡散MRIデータに一般化し,画像空間における3次元ロト変換と,画像形成によって予測される$q$-空間における3次元回転の整合性を保証する。 このような等変深度学習は拡散MRIに適しており、神経線維のような微細構造的・マクロ構造的特徴が様々な方向に現れる可能性があること、また、回転等変深度学習でさえ、多くの拡散MRIタスクに最適な方法である。 多発性硬化症病変の分節化に対する等変性手法の検証を行った。 提案するニューラルネットワークは,非回転同変深層学習と比較して,より優れた結果を得るとともに,トレーニングのためのスキャンを少なくする。 また、古典的拡散MRI法よりも深層学習の利点を全て継承する。 私たちの実装はhttps://github.com/p hilip-mueller/equiva riant-deep-dmriで利用可能です。

Convolutional networks are successful, but they have recently been outperformed by new neural networks that are equivariant under rotations and translations. These new networks work better because they do not struggle with learning each possible orientation of each image feature separately. So far, they have been proposed for 2D and 3D data. Here we generalize them to 6D diffusion MRI data, ensuring joint equivariance under 3D roto-translations in image space and the matching 3D rotations in $q$-space, as dictated by the image formation. Such equivariant deep learning is appropriate for diffusion MRI, because microstructural and macrostructural features such as neural fibers can appear at many different orientations, and because even non-rotation-equivar iant deep learning has so far been the best method for many diffusion MRI tasks. We validate our equivariant method on multiple-sclerosis lesion segmentation. Our proposed neural networks yield better results and require fewer scans for training compared to non-rotation-equivar iant deep learning. They also inherit all the advantages of deep learning over classical diffusion MRI methods. Our implementation is available at https://github.com/p hilip-mueller/equiva riant-deep-dmri and can be used off the shelf without understanding the mathematical background.
翻訳日:2021-02-16 15:54:57 公開日:2021-02-13
# Reader-Aware Topic ModelingとSaliency Detectionによる多様なコメント生成

Generating Diversified Comments via Reader-Aware Topic Modeling and Saliency Detection ( http://arxiv.org/abs/2102.06856v1 )

ライセンス: Link先を確認
Wei Wang, Piji Li, Hai-Tao Zheng(参考訳) 自動コメント生成は、ニュースコンテンツ理解と言語生成におけるモデルの能力を検証するための特別な課題である。 コメントは、ニュース記事に有意義で興味深い情報を伝えるだけでなく、多様性の基本的な手がかりとして扱う様々な読者特性を暗示している。 しかし,コメント生成手法のほとんどでは,満足度情報抽出のみに焦点が当てられているが,コメントによって示唆される読者認識要因は無視されている。 この問題に対処するため,我々は,生成したコメントの品質を向上させるために,読者認識型トピックモデリングとサリエンシー情報検出フレームワークを提案する。 読者対応トピックモデリングのために,読者コメントからの潜在意味学習と話題マイニングのための変分生成クラスタリングアルゴリズムを設計した。 サリエンシー情報検出のために、ニュースコンテンツを推定してサリエンシー情報を選択するBernoulli分布について紹介します。 得られたトピック表現および選択されたサリエンシー情報はデコーダに組み込まれ、多種多様で有益なコメントを生成する。 3つのデータセットの実験結果から,本フレームワークは,自動メトリックとヒューマン評価の両面で既存のベースラインメソッドを上回っていることが示された。 潜在的な倫理的問題も詳細に議論されている。

Automatic comment generation is a special and challenging task to verify the model ability on news content comprehension and language generation. Comments not only convey salient and interesting information in news articles, but also imply various and different reader characteristics which we treat as the essential clues for diversity. However, most of the comment generation approaches only focus on saliency information extraction, while the reader-aware factors implied by comments are neglected. To address this issue, we propose a unified reader-aware topic modeling and saliency information detection framework to enhance the quality of generated comments. For reader-aware topic modeling, we design a variational generative clustering algorithm for latent semantic learning and topic mining from reader comments. For saliency information detection, we introduce Bernoulli distribution estimating on news content to select saliency information. The obtained topic representations as well as the selected saliency information are incorporated into the decoder to generate diversified and informative comments. Experimental results on three datasets show that our framework outperforms existing baseline methods in terms of both automatic metrics and human evaluation. The potential ethical issues are also discussed in detail.
翻訳日:2021-02-16 15:51:53 公開日:2021-02-13
# ラベル分布のキャプチャ: NLI におけるケーススタディ

Capturing Label Distribution: A Case Study in NLI ( http://arxiv.org/abs/2102.06859v1 )

ライセンス: Link先を確認
Shujian Zhang, Chengyue Gong, Eunsol Choi(参考訳) 自然言語推論タスクにおける人間固有の不一致(注釈ラベル分布)を推定する。 予測されたラベルエントロピーに一致する予測されたラベル分布のポストホックスムージングは非常に効果的です。 このような単純な操作はklの発散をほぼ半分減らすことができるが、大多数のラベル予測精度やラベル分布の学習は改善されない。 この目的のために、トレーニングに複数の参照を持つ少数の例を紹介します。 トレーニングの例ごとに1つの参照を収集する標準的な慣行から逸脱し、固定されたアノテーション予算の下で複数の参照を収集することでより正確な精度が得られることを確かめる。 最後に,これら2つの手法を比較し,ラベル分布推定を改善するための豊富な解析を行う。

We study estimating inherent human disagreement (annotation label distribution) in natural language inference task. Post-hoc smoothing of the predicted label distribution to match the expected label entropy is very effective. Such simple manipulation can reduce KL divergence by almost half, yet will not improve majority label prediction accuracy or learn label distributions. To this end, we introduce a small amount of examples with multiple references into training. We depart from the standard practice of collecting a single reference per each training example, and find that collecting multiple references can achieve better accuracy under the fixed annotation budget. Lastly, we provide rich analyses comparing these two methods for improving label distribution estimation.
翻訳日:2021-02-16 15:51:34 公開日:2021-02-13
# ルーティングアルゴリズムによる商品輸送問題解決

Goods Transportation Problem Solving via Routing Algorithm ( http://arxiv.org/abs/2102.06943v1 )

ライセンス: Link先を確認
Mikhail Shchukin, Aymen Ben Said, Andre Lobo Teixeira(参考訳) 本稿では,商品輸送問題の特定の事例を対象としたグラフベースのヒューリスティック型ルーティングアルゴリズムの開発背景について概説する。 提案アルゴリズムは、配送経路の各横断区間に対する推定コストを最小化し、所定の無方向輸送グラフ上の商品の需要を満たす最適化問題を解く。 ルーティングアルゴリズムの動作を議論し,提案した問題解決手法の総合評価を行う。

This paper outlines the ideas behind developing a graph-based heuristic-driven routing algorithm designed for a particular instance of a goods transportation problem with a single good type. The proposed algorithm solves the optimization problem of satisfying the demand of goods on a given undirected transportation graph with minimizing the estimated cost for each traversed segment of the delivery path. The operation of the routing algorithm is discussed and overall evaluation of the proposed problem solving technique is given.
翻訳日:2021-02-16 15:49:27 公開日:2021-02-13
# 顔提示検出のためのディープクラスタリングによる非教師付きドメイン適応

Adversarial Unsupervised Domain Adaptation Guided with Deep Clustering for Face Presentation Attack Detection ( http://arxiv.org/abs/2102.06864v1 )

ライセンス: Link先を確認
Yomna Safaa El-Din, Mohamed N. Moustafa and Hani Mahdi(参考訳) 顔提示攻撃検知(PAD)は、多くのアプリケーションで広く使われている顔認識システムを確保するために注目されている。 従来の対スプーフィング手法は、テストがトレーニングに使用される同じドメインからのものであると仮定して提案されており、目に見えない攻撃シナリオでうまく一般化できない。 訓練されたモデルは、トレーニングデータで利用可能な取得センサーと攻撃タイプにオーバーフィットする傾向があります。 そこで本研究では,pad一般化能力を向上させるために,ドメイン適応(da)に基づくエンドツーエンド学習フレームワークを提案する。 ラベル付きソースドメインサンプルはクロスエントロピー損失による特徴抽出器と分類器のトレーニングに使用され、ターゲットドメインからの教師なしデータは逆daアプローチで利用され、モデルがドメイン不変な特徴を学習する。 DAのみをPADで使用すると、ソースドメインと異なるデバイスと攻撃タイプで異なる条件で取得されるターゲットドメインにうまく適応できない。 そこで,対象ドメインの固有の特性を維持するために,対象サンプルの深層クラスタリングを行う。 訓練と深層クラスタリングをエンドツーエンドに実施し、提案したDeep Clustering Guided Unsupervised Domain Adaptation (DCDA) が対象ドメインの最先端分類エラーと比較してより一般化された情報を学習できることを検証する。

Face Presentation Attack Detection (PAD) has drawn increasing attentions to secure the face recognition systems that are widely used in many applications. Conventional face anti-spoofing methods have been proposed, assuming that testing is from the same domain used for training, and so cannot generalize well on unseen attack scenarios. The trained models tend to overfit to the acquisition sensors and attack types available in the training data. In light of this, we propose an end-to-end learning framework based on Domain Adaptation (DA) to improve PAD generalization capability. Labeled source-domain samples are used to train the feature extractor and classifier via cross-entropy loss, while unsupervised data from the target domain are utilized in adversarial DA approach causing the model to learn domain-invariant features. Using DA alone in face PAD fails to adapt well to target domain that is acquired in different conditions with different devices and attack types than the source domain. And so, in order to keep the intrinsic properties of the target domain, deep clustering of target samples is performed. Training and deep clustering are performed end-to-end, and experiments performed on several public benchmark datasets validate that our proposed Deep Clustering guided Unsupervised Domain Adaptation (DCDA) can learn more generalized information compared with the state-of-the-art classification error on the target domain.
翻訳日:2021-02-16 15:47:06 公開日:2021-02-13
# CPP-Net:Nucleus Segmentationのためのコンテキスト対応ポリゴン提案ネットワーク

CPP-Net: Context-aware Polygon Proposal Network for Nucleus Segmentation ( http://arxiv.org/abs/2102.06867v1 )

ライセンス: Link先を確認
Shengcong Chen, Changxing Ding, Minfeng Liu, and Dacheng Tao(参考訳) 核分裂は、核の混雑した分布とぼやけた境界のために難しい作業です。 近年のアプローチは、接触と重なり合う原子核を区別するために多角形を用いて核を表現し、有望な性能を達成した。 各ポリゴンは、単一の核のための遠心ピクセルの特徴によって予測される遠心-境界距離のセットで表されます。 しかし、セントロイドピクセルだけでは、堅牢な予測に十分な文脈情報を提供していない。 この問題に対処するため,核分割のためのコンテキスト対応ポリゴン提案ネットワーク(CPP-Net)を提案する。 まず、距離予測のために各セル内の1つのピクセルではなく1つのポイントセットをサンプリングする。 この戦略は文脈情報を大幅に強化し、予測の堅牢性を向上させる。 次に,サンプリングされた点集合から予測を適応的に融合する信頼度に基づく重み付けモジュールを提案する。 第3に,予測された多角形形状を制約した新しい形状認識損失(sap)を提案する。 ここで、sap損失は、遠心確率マップと画素から境界距離マップを異なる核表現にマッピングすることで事前学習される追加のネットワークに基づいている。 広範な実験は提案されたCPP-Netの各コンポーネントの有効性を正当化する。 最後に、CPP-Netは3つの公開データベース(DSB2018、BBBC06、PanNuke)で最先端のパフォーマンスを達成する。 この論文のコードはリリースされる。

Nucleus segmentation is a challenging task due to the crowded distribution and blurry boundaries of nuclei. Recent approaches represent nuclei by means of polygons to differentiate between touching and overlapping nuclei and have accordingly achieved promising performance. Each polygon is represented by a set of centroid-to-boundary distances, which are in turn predicted by features of the centroid pixel for a single nucleus. However, using the centroid pixel alone does not provide sufficient contextual information for robust prediction. To handle this problem, we propose a Context-aware Polygon Proposal Network (CPP-Net) for nucleus segmentation. First, we sample a point set rather than one single pixel within each cell for distance prediction. This strategy substantially enhances contextual information and thereby improves the robustness of the prediction. Second, we propose a Confidence-based Weighting Module, which adaptively fuses the predictions from the sampled point set. Third, we introduce a novel Shape-Aware Perceptual (SAP) loss that constrains the shape of the predicted polygons. Here, the SAP loss is based on an additional network that is pre-trained by means of mapping the centroid probability map and the pixel-to-boundary distance maps to a different nucleus representation. Extensive experiments justify the effectiveness of each component in the proposed CPP-Net. Finally, CPP-Net is found to achieve state-of-the-art performance on three publicly available databases, namely DSB2018, BBBC06, and PanNuke. Code of this paper will be released.
翻訳日:2021-02-16 15:46:37 公開日:2021-02-13
# 精製光フロー推定のための正規化畳み込みアップサンプリング

Normalized Convolution Upsampling for Refined Optical Flow Estimation ( http://arxiv.org/abs/2102.06979v1 )

ライセンス: Link先を確認
Abdelrahman Eldesokey, Michael Felsberg(参考訳) 光フローは、畳み込みニューラルネットワーク(CNN)が大きなブレークスルーをもたらした回帰タスクである。 しかし、これはコストボリュームとピラミッド表現の使用による計算上の大きな要求が伴う。 これは4分の1の解像度でフロー予測を生成し、テスト時間中にバイリニア補間を用いてサンプリングすることで緩和された。 したがって、細かい詳細は通常失われ、後処理はそれらを復元するために必要です。 光フローCNNのトレーニング中にフルレゾリューションフローを生成するための効率的なジョイントアップサンプリングアプローチであるNormalized Convolution UPsampler(NCUP)を提案します。 提案手法では,アップサンプリングタスクをスパース問題として定式化し,正規化畳み込みニューラルネットワークを用いて解く。 我々は,粗い光フローcnn (pwcnet) を用いてエンド・ツー・エンドを訓練した場合の既存のジョイント・アップサンプリング手法に対するupsamplerの評価を行い,少なくとも1桁のパラメータを持つフライングチェアズ・データセット上の他のすべてのアプローチよりも優れていることを示す。 さらに,リカレントオプティカルフローcnn(raft)を用いてアップサンプラーをテストし,sintelベンチマークによる最新結果を約6%の誤差低減とkittiデータセットのオンペアで達成し,パラメータを7.5%削減した(図1参照)。 最後に、我々のアップサンプラーは、異なるデータセットでトレーニングおよび評価を行う際に、RAFTよりも優れた一般化能力を示す。

Optical flow is a regression task where convolutional neural networks (CNNs) have led to major breakthroughs. However, this comes at major computational demands due to the use of cost-volumes and pyramidal representations. This was mitigated by producing flow predictions at quarter the resolution, which are upsampled using bilinear interpolation during test time. Consequently, fine details are usually lost and post-processing is needed to restore them. We propose the Normalized Convolution UPsampler (NCUP), an efficient joint upsampling approach to produce the full-resolution flow during the training of optical flow CNNs. Our proposed approach formulates the upsampling task as a sparse problem and employs the normalized convolutional neural networks to solve it. We evaluate our upsampler against existing joint upsampling approaches when trained end-to-end with a a coarse-to-fine optical flow CNN (PWCNet) and we show that it outperforms all other approaches on the FlyingChairs dataset while having at least one order fewer parameters. Moreover, we test our upsampler with a recurrent optical flow CNN (RAFT) and we achieve state-of-the-art results on Sintel benchmark with ~6% error reduction, and on-par on the KITTI dataset, while having 7.5% fewer parameters (see Figure 1). Finally, our upsampler shows better generalization capabilities than RAFT when trained and evaluated on different datasets.
翻訳日:2021-02-16 15:46:15 公開日:2021-02-13
# 生物多様性と分類学的尺度に基づく新しいバイオインスパイアテクスチャ記述器

A Novel Bio-Inspired Texture Descriptor based on Biodiversity and Taxonomic Measures ( http://arxiv.org/abs/2102.06997v1 )

ライセンス: Link先を確認
Steve Tsham Mpinda Ataky and Alessandro Lameiras Koerich(参考訳) テクスチャは、物体の粗さや表面の反射の相違の物理的特性に起因する反復パターンを形成する画像強度の変化として定義することができます。 テクスチャが非決定論的に複雑なパターンのシステムを形成すると考えると、生物多様性の概念はその特徴付けに役立つ。 本論文では、多様性や豊かさ、分類学的特徴など、多様なパターンの複雑なシステムを定量化できる新しい手法を提案する。 提案手法は,各画像チャネルを種生態系とみなし,種多様性と豊かさの度合いを計算し,テクスチャを記述するための分類学的尺度である。 提案されたアプローチは、生態学的パターンの不変性特性を利用して、置換、回転、および翻訳不変記述子を構築する。 自然テクスチャ画像の3つのデータセットと病理組織画像の2つのデータセットの実験結果は,提案するテクスチャディスクリプタがいくつかのテクスチャディスクリプタや深い方法よりも優れていることを示した。

Texture can be defined as the change of image intensity that forms repetitive patterns, resulting from physical properties of the object's roughness or differences in a reflection on the surface. Considering that texture forms a complex system of patterns in a non-deterministic way, biodiversity concepts can help to its characterization. In this paper, we propose a novel approach capable of quantifying such a complex system of diverse patterns through species diversity and richness, and taxonomic distinctiveness. The proposed approach considers each image channel as a species ecosystem and computes species diversity and richness measures as well as taxonomic measures to describe the texture. The proposed approach takes advantage of the invariance characteristics of ecological patterns to build a permutation, rotation, and translation invariant descriptor. Experimental results on three datasets of natural texture images and two datasets of histopathological images have shown that the proposed texture descriptor has advantages over several texture descriptors and deep methods.
翻訳日:2021-02-16 15:45:49 公開日:2021-02-13
# persim:パーソナライズシミュレータによる異種エージェントによるデータ効率の高いオフライン強化学習

PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous Agents via Personalized Simulators ( http://arxiv.org/abs/2102.06961v1 )

ライセンス: Link先を確認
Anish Agarwal, Abdullah Alomar, Varkey Alumootil, Devavrat Shah, Dennis Shen, Zhi Xu, Cindy Yang(参考訳) 我々は、重度のデータ不足下で不均一なエージェントを持つオフライン強化学習(RL)を考える。 最新のオフラインおよびモデルベースのRLメソッドのパフォーマンスは、「MountainCar」や「CartPole」などの一般的な「解決済み」ベンチマーク設定であっても、そのような限られたデータ可用性を考えると大幅に低下します。 この課題に対処するために、我々はPerSimと呼ばれるモデルベースのオフラインRLアプローチを提案し、ポリシーを学ぶ前に、各エージェントの履歴軌跡をまとめて利用することで、各エージェントのパーソナライズされたシミュレータを学習する。 エージェント間の遷移ダイナミクスがエージェント、状態、およびアクションに関連する潜在因子の潜在関数として表現できることを仮定し、その後、理論上、この関数は分離可能なエージェント、状態、およびアクション潜在関数の「低いランク」分解によってよく近似されていることを証明した。 この表現は、ごくわずかなオフラインデータであってもエージェント毎の遷移ダイナミクスを効果的に学習するためのシンプルで規則化されたニューラルネットワークアーキテクチャを提案し、いくつかのベンチマーク環境とRLメソッドにわたって広範な実験を行います。 このアプローチの一貫した改善は、状態のダイナミクス予測と結果報酬の観点で測定され、限られた履歴データを利用してエージェント間のパーソナライズされたポリシーを同時に学習する上で、フレームワークの有効性を確認します。

We consider offline reinforcement learning (RL) with heterogeneous agents under severe data scarcity, i.e., we only observe a single historical trajectory for every agent under an unknown, potentially sub-optimal policy. We find that the performance of state-of-the-art offline and model-based RL methods degrade significantly given such limited data availability, even for commonly perceived "solved" benchmark settings such as "MountainCar" and "CartPole". To address this challenge, we propose a model-based offline RL approach, called PerSim, where we first learn a personalized simulator for each agent by collectively using the historical trajectories across all agents prior to learning a policy. We do so by positing that the transition dynamics across agents can be represented as a latent function of latent factors associated with agents, states, and actions; subsequently, we theoretically establish that this function is well-approximated by a "low-rank" decomposition of separable agent, state, and action latent functions. This representation suggests a simple, regularized neural network architecture to effectively learn the transition dynamics per agent, even with scarce, offline data.We perform extensive experiments across several benchmark environments and RL methods. The consistent improvement of our approach, measured in terms of state dynamics prediction and eventual reward, confirms the efficacy of our framework in leveraging limited historical data to simultaneously learn personalized policies across agents.
翻訳日:2021-02-16 15:40:25 公開日:2021-02-13
# グラフニューラルネットワークのブリッジングと統計的リレーショナルラーニング:リレーショナルワンクラスGCN

Bridging Graph Neural Networks and Statistical Relational Learning: Relational One-Class GCN ( http://arxiv.org/abs/2102.07007v1 )

ライセンス: Link先を確認
Devendra Singh Dhami (1), Siwen Yan (2), Sriraam Natarajan (2) ((1) TU Darmstadt, (2) The University of Texas at Dallas)(参考訳) リレーショナルデータに対するグラフ畳み込みネットワーク(GCN)の学習の問題を検討する。 具体的には,従来のリンク予測とノード分類問題をリレーショナルモデリングタスクとして捉え,gcnsへのリレーショナル拡張を開発する。 本手法は,頂点が目標の三重項に対応する関係密度推定手法を用いて二次グラフを構築する。 我々は、二次グラフを用いた学習機能の重要性と、一般的に使用される隣接行列よりも距離行列を用いる利点を強調した。 私たちの包括的な実証的評価は、$\mathbf{12}$異なるGCNモデル、リレーショナル埋め込み技術、ルール学習技術、リレーショナルモデルに対するアプローチの優位性を示しています。

We consider the problem of learning Graph Convolutional Networks (GCNs) for relational data. Specifically, we consider the classic link prediction and node classification problems as relational modeling tasks and develop a relational extension to GCNs. Our method constructs a secondary graph using relational density estimation techniques where vertices correspond to the target triples. We emphasize the importance of learning features using the secondary graph and the advantages of employing a distance matrix over the typically used adjacency matrix. Our comprehensive empirical evaluation demonstrates the superiority of our approach over $\mathbf{12}$ different GCN models, relational embedding techniques, rule learning techniques and relational models.
翻訳日:2021-02-16 15:39:56 公開日:2021-02-13
# 時空間複雑性を伴うネットワークゲームにおけるモデリング協調

Modelling Cooperation in Network Games with Spatio-Temporal Complexity ( http://arxiv.org/abs/2102.06911v1 )

ライセンス: Link先を確認
Michiel A. Bakker, Richard Everett, Laura Weidinger, Iason Gabriel, William S. Isaac, Joel Z. Leibo, Edward Hughes(参考訳) 現実の世界は、コンピュータネットワークを横断するパケットのルーティングから灌水システムの管理まで、自己関心のエージェントによる集団行動を必要とするマルチエージェントの問題に悩まされている。 このようなシステムは個人に対して局所的なインセンティブを持ち、その行動がグループ全体の成果に影響を及ぼす。 エージェントの相互作用を記述する適切なメカニズムを考えると、グループは短期的な利己的なインセンティブに直面しても社会的に有益な結果を得ることができる。 多くの場合、集合的な行動問題はグラフ構造を持ち、そのトポロジーは局所的な決定と創発的なグローバル効果の関係を決定づける。 このようなシナリオはネットワークゲームのレンズを通して大きな注目を集めている。 しかし、この抽象化は通常、協力を促進するメカニズムの設計に関連する幾何学や時間などの重要な寸法を崩壊させる。 並列的な作業では、複雑なグリッドワールドドメインにおける自己組織化協調の出現をモデル化する上で、マルチエージェントの深層強化学習が大きな可能性を示している。 ここでは,このパラダイムをグラフ構造集団行動問題に適用する。 エージェント・ソサイエティを多エージェント深層強化学習を用いて多種多様なメカニズムをシミュレートし、時間とともに異なる平衡間の明確な遷移を見いだす。 我々は,関連文献に触発された分析ツールを定義して社会成果を計測し,これらを用いて異なる環境介入の有効性に関する結論を導出する。 本手法は,人間および人工エージェントシステムにおける機構設計に影響を及ぼす。

The real world is awash with multi-agent problems that require collective action by self-interested agents, from the routing of packets across a computer network to the management of irrigation systems. Such systems have local incentives for individuals, whose behavior has an impact on the global outcome for the group. Given appropriate mechanisms describing agent interaction, groups may achieve socially beneficial outcomes, even in the face of short-term selfish incentives. In many cases, collective action problems possess an underlying graph structure, whose topology crucially determines the relationship between local decisions and emergent global effects. Such scenarios have received great attention through the lens of network games. However, this abstraction typically collapses important dimensions, such as geometry and time, relevant to the design of mechanisms promoting cooperation. In parallel work, multi-agent deep reinforcement learning has shown great promise in modelling the emergence of self-organized cooperation in complex gridworld domains. Here we apply this paradigm in graph-structured collective action problems. Using multi-agent deep reinforcement learning, we simulate an agent society for a variety of plausible mechanisms, finding clear transitions between different equilibria over time. We define analytic tools inspired by related literatures to measure the social outcomes, and use these to draw conclusions about the efficacy of different environmental interventions. Our methods have implications for mechanism design in both human and artificial agent systems.
翻訳日:2021-02-16 15:32:00 公開日:2021-02-13
# 複数のシーケンス、タスク、ユーザーレベルを持つオンラインゲームにおけるシーケンス推奨

Sequential Recommendation in Online Games with Multiple Sequences, Tasks and User Levels ( http://arxiv.org/abs/2102.06950v1 )

ライセンス: Link先を確認
Si Chen, Yuqiu Qian, Hui Li, Chen Lin(参考訳) オンラインゲームは、これまでにない速さで成長している数十億ドルの業界です。 オンラインゲーム用のレコメンダシステム(RS)は、様々なアクションタイプのアクションシーケンスに基づいて、異なるユーザーレベルでプレイヤーの異なる欲求を満たす必要があるため、ユニークな課題に直面している。 シーケンシャルRSは存在するが、主にシングルシーケンス、シングルタスク、シングルユーザーレベルである。 本論文では、オンラインゲームにおける複雑なデータをフル活用できるTencent Gamesプラットフォームにおいて、複数シーケンス、複数タスク、複数ユーザレベル(M$^3$Recと略される)に対する新しいシーケンシャルレコメンデーションモデルについて紹介する。 私たちはGraph Neural Networkとマルチタスク学習を利用してM$^3$Recを設計し、Tencent Gamesの異種シーケンシャルレコメンデーションシナリオにおける複雑な情報をモデル化します。 Tencent Gamesプラットフォームの3つのオンラインゲームにおけるM$^3$Recの有効性を、オフラインおよびオンライン評価の両方で検証する。 その結果、M$^3$Recはオンラインゲームにおけるレコメンデーションの課題にうまく対処し、最新のシーケンシャルレコメンデーションアプローチと比較して優れたレコメンデーションを生成します。

Online gaming is a multi-billion-dollar industry, which is growing faster than ever before. Recommender systems (RS) for online games face unique challenges since they must fulfill players' distinct desires, at different user levels, based on their action sequences of various action types. Although many sequential RS already exist, they are mainly single-sequence, single-task, and single-user-level. In this paper, we introduce a new sequential recommendation model for multiple sequences, multiple tasks, and multiple user levels (abbreviated as M$^3$Rec) in Tencent Games platform, which can fully utilize complex data in online games. We leverage Graph Neural Network and multi-task learning to design M$^3$Rec in order to model the complex information in the heterogeneous sequential recommendation scenario of Tencent Games. We verify the effectiveness of M$^3$Rec on three online games of Tencent Games platform, in both offline and online evaluations. The results show that M$^3$Rec successfully addresses the challenges of recommendation in online games, and it generates superior recommendations compared with state-of-the-art sequential recommendation approaches.
翻訳日:2021-02-16 15:31:38 公開日:2021-02-13
# 拡張型ゲームにおける効率的な逸脱型と後視性学習

Efficient Deviation Types and Learning for Hindsight Rationality in Extensive-Form Games ( http://arxiv.org/abs/2102.06973v1 )

ライセンス: Link先を確認
Dustin Morrill, Ryan D'Orazio, Marc Lanctot, James R. Wright, Michael Bowling, Amy Greenwald(参考訳) 後ろ向き合理性(英: hindsight rationality)とは、非回帰学習のダイナミクスを規定し、相互に媒介する平衡との共同合理性行動を記述するマルチエージェント・汎用ゲームへのアプローチである。 広形式ゲーム(EFG)における偏差タイプの空間を探索し、適度な長さのゲームで効率的に計算できる強力なタイプを発見します。 具体的には、より広いクラス内で以前に研究された型を部分配列偏差と呼ぶ4つの新しいタイプの偏差を同定する。 時間選択後悔最小化の概念を反実的後悔最小化 (CFR) に統合し, EFGにおける偏差の一般クラスと自然クラスに対して, 後向きに合理的な拡張形式後悔最小化 (EFR) アルゴリズムを導入する。 各部分シーケンス偏差タイプに対応する EFR のインスタンス化と後悔境界を提供します。 さらに,一般的なベンチマークゲームにおいて,異なる偏差型を持つERFの性能について,徹底的な実証分析を行った。 理論が示すように、EFRをより強い偏差でインスタンス化すると、より弱い偏差よりも優れた振舞いが生じる。

Hindsight rationality is an approach to playing multi-agent, general-sum games that prescribes no-regret learning dynamics and describes jointly rational behavior with mediated equilibria. We explore the space of deviation types in extensive-form games (EFGs) and discover powerful types that are efficient to compute in games with moderate lengths. Specifically, we identify four new types of deviations that subsume previously studied types within a broader class we call partial sequence deviations. Integrating the idea of time selection regret minimization into counterfactual regret minimization (CFR), we introduce the extensive-form regret minimization (EFR) algorithm that is hindsight rational for a general and natural class of deviations in EFGs. We provide instantiations and regret bounds for EFR that correspond to each partial sequence deviation type. In addition, we present a thorough empirical analysis of EFR's performance with different deviation types in common benchmark games. As theory suggests, instantiating EFR with stronger deviations leads to behavior that tends to outperform that of weaker deviations.
翻訳日:2021-02-16 15:31:16 公開日:2021-02-13
# 多段階分散マッチング市場:不確かな選好と戦略行動

Multi-Stage Decentralized Matching Markets: Uncertain Preferences and Strategic Behaviors ( http://arxiv.org/abs/2102.06988v1 )

ライセンス: Link先を確認
Xiaowu Dai and Michael I. Jordan(参考訳) 一致する市場はしばしば多段階かつ分散的に組織される。 さらに、現実世界のマッチングマーケットの参加者は、しばしば不確実な嗜好を持つ。 本稿では,非パラメトリックな統計的アプローチと変分解析に基づいて,このような設定で最適戦略を学ぶための枠組みを考案する。 提案手法は,「より低い不確実性境界」と「キャリブド分散マッチング」の概念に基づき,参加者の期待した報酬を最大化するための効率的なアルゴリズムを提案する。 我々は,不確実性レベルが特徴の福祉対フェアネストレードオフが存在することを示す。 参加者は戦略的に競争を減らし、予想されるペイオフを増やすために低い不確実性のレベルを支持します。 分散市場の混雑を解消するシグナル伝達機構について検討し,シグナル伝達の効果が不均一であることを見いだし,参加者やマッチングステージへの依存を示す。 シングルステージマッチングと比較して、マルチステージマッチングで参加者がより良くなることを証明します。 遅延受理手順は、ステージ数に制限を課せず、効率と公平性を達成するが、一部の参加者はマルチステージマッチングよりも悪くなる可能性がある。 シミュレーションによる理論予測と大学進学時の実データを用いた実験の側面を示す。

Matching markets are often organized in a multi-stage and decentralized manner. Moreover, participants in real-world matching markets often have uncertain preferences. This article develops a framework for learning optimal strategies in such settings, based on a nonparametric statistical approach and variational analysis. We propose an efficient algorithm, built upon concepts of "lower uncertainty bound" and "calibrated decentralized matching," for maximizing the participants' expected payoff. We show that there exists a welfare-versus-fairn ess trade-off that is characterized by the uncertainty level of acceptance. Participants will strategically act in favor of a low uncertainty level to reduce competition and increase expected payoff. We study signaling mechanisms that help to clear the congestion in such decentralized markets and find that the effects of signaling are heterogeneous, showing a dependence on the participants and matching stages. We prove that participants can be better off with multi-stage matching compared to single-stage matching. The deferred acceptance procedure assumes no limit on the number of stages and attains efficiency and fairness but may make some participants worse off than multi-stage matching. We demonstrate aspects of the theoretical predictions through simulations and an experiment using real data from college admissions.
翻訳日:2021-02-16 15:29:06 公開日:2021-02-13
# 環境形成による副作用の軽減

Mitigating Negative Side Effects via Environment Shaping ( http://arxiv.org/abs/2102.07017v1 )

ライセンス: Link先を確認
Sandhya Saisubramanian and Shlomo Zilberstein(参考訳) 非構造化環境で作動するエージェントは、設計時に識別が難しい負の副作用(NSE)を生じることが多い。 エージェントは人間のフィードバックから副作用を軽減することを学ぶことができますが、そのようなフィードバックはしばしば高価であり、学習率はエージェントの状態表現に敏感です。 フィードバックの提供を超えて、人間はエージェントをどのように支援できるかを検討し、NSEの影響を軽減するための幅広い知識を活用します。 私たちはこの問題を、切り離された目的を持った人間エージェントチームとして定式化します。 エージェントは割り当てられたタスクを最適化し、そのアクションがNSEを生成する。 人間は、エージェントが割り当てられたタスクを完了させる能力に影響を与えることなく、エージェントの副作用の影響を軽減するために、小さな再構成アクションを通じて環境を形作る。 本稿では,この問題を解き,理論特性を解析するアルゴリズムを提案する。 被験者との実験を通じて,nseの影響を軽減するために,環境の微調整を行うユーザの意欲を評価する。 提案手法は,エージェントが割り当てられたタスクを完了させる能力に影響を与えずに,nseを効果的に緩和できることを示す。

Agents operating in unstructured environments often produce negative side effects (NSE), which are difficult to identify at design time. While the agent can learn to mitigate the side effects from human feedback, such feedback is often expensive and the rate of learning is sensitive to the agent's state representation. We examine how humans can assist an agent, beyond providing feedback, and exploit their broader scope of knowledge to mitigate the impacts of NSE. We formulate this problem as a human-agent team with decoupled objectives. The agent optimizes its assigned task, during which its actions may produce NSE. The human shapes the environment through minor reconfiguration actions so as to mitigate the impacts of the agent's side effects, without affecting the agent's ability to complete its assigned task. We present an algorithm to solve this problem and analyze its theoretical properties. Through experiments with human subjects, we assess the willingness of users to perform minor environment modifications to mitigate the impacts of NSE. Empirical evaluation of our approach shows that the proposed framework can successfully mitigate NSE, without affecting the agent's ability to complete its assigned task.
翻訳日:2021-02-16 15:28:43 公開日:2021-02-13
# コンボリューションニューラルネットワーク, サポートベクターマシン, ソベルフィルタの融合による新型コロナウイルス患者のX線画像による正確な検出

Fusion of convolution neural network, support vector machine and Sobel filter for accurate detection of COVID-19 patients using X-ray images ( http://arxiv.org/abs/2102.06883v1 )

ライセンス: Link先を確認
Danial Sharifrazi, Roohallah Alizadehsani, Mohamad Roshanzamir, Javad Hassannataj Joloudari, Afshin Shoeibi, Mahboobeh Jafari, Sadiq Hussain, Zahra Alizadeh Sani, Fereshteh Hasanzadeh, Fahime Khozeimeh, Abbas Khosravi, Saeid Nahavandi, Maryam Panahiazar, Assef Zare, Sheikh Mohammed Shariful Islam, U Rajendra Acharya(参考訳) 新型コロナウイルス(COVID-19)は現在、世界中で流行する最も一般的な伝染病である。 この病気の主な課題は、二次感染と1人から別の人に広がることを防ぐための一次診断です。 そのため、新型コロナウイルスの迅速診断のための臨床手順とともに、自動診断システムを使用することが不可欠である。 肺および胸部X線撮影のCT画像を用いた人工知能技術は、Covid-19診断のための高い診断性能を得る可能性がある。 本研究では, コンボリューションニューラルネットワーク(CNN), サポートベクターマシン(SVM), ソベルフィルタを融合させて, X線画像を用いたCOVID-19の検出を提案する。 新しいx線画像データセットを収集し、ソベルフィルタを用いて高パスフィルタを施し、画像のエッジを得る。 その後、これらの画像はCNNのディープラーニングモデルに供給され、10倍のクロスバリデーション戦略を持つSVM分類子が続く。 この方法は、少ないデータで学習できるように設計されている。 以上の結果から,covid-19の検出精度が99.02%のcnn-svm(cnn-svm+sobel)であった。 Sobelフィルタを使用することでCNNのパフォーマンスが向上することを示した。 他の多くの研究とは異なり、この方法は事前訓練されたネットワークを使用しない。 また,6つの公開データベースを用いて開発モデルを検証し,最高の性能を得た。 したがって 開発したモデルは 臨床応用の準備が整い

The coronavirus (COVID-19) is currently the most common contagious disease which is prevalent all over the world. The main challenge of this disease is the primary diagnosis to prevent secondary infections and its spread from one person to another. Therefore, it is essential to use an automatic diagnosis system along with clinical procedures for the rapid diagnosis of COVID-19 to prevent its spread. Artificial intelligence techniques using computed tomography (CT) images of the lungs and chest radiography have the potential to obtain high diagnostic performance for Covid-19 diagnosis. In this study, a fusion of convolutional neural network (CNN), support vector machine (SVM), and Sobel filter is proposed to detect COVID-19 using X-ray images. A new X-ray image dataset was collected and subjected to high pass filter using a Sobel filter to obtain the edges of the images. Then these images are fed to CNN deep learning model followed by SVM classifier with ten-fold cross validation strategy. This method is designed so that it can learn with not many data. Our results show that the proposed CNN-SVM with Sobel filtering (CNN-SVM+Sobel) achieved the highest classification accuracy of 99.02% in accurate detection of COVID-19. It showed that using Sobel filter can improve the performance of CNN. Unlike most of the other researches, this method does not use a pre-trained network. We have also validated our developed model using six public databases and obtained the highest performance. Hence, our developed model is ready for clinical application
翻訳日:2021-02-16 15:26:59 公開日:2021-02-13
# ディーププロトタイプツリーによるアルツハイマー病の進行を表わす

Representing Alzheimer's Disease Progression via Deep Prototype Tree ( http://arxiv.org/abs/2102.06847v1 )

ライセンス: Link先を確認
Lu Zhang, Li Wang, Dajiang Zhu(参考訳) 何十年もの間、アルツハイマー病(AD)とその前駆体 - 軽度の認知障害(MCI)の予測能力の観点から、さまざまな予測アプローチが提案および評価されています。 その多くは、異なる臨床グループやフェーズ(例えば、縦断研究)間の統計的差異の予測や同定に焦点を当てている。 AD開発とAD関連段階間の遷移状態の連続性は、特に二項分類や多項分類において見過ごされている。 近年、ADの進行モデルがいくつか研究されているが、主に特定のバイオマーカーの順序を決定・比較するために設計された。 AD進行の幅広い範囲で患者の状態を効果的に予測する方法が検討されている。 本研究では,AD進行の連続を木構造として計算モデル化する新しい構造学習法を開発した。 異なる臨床グループ間の本質的な関係を深い方法で新しいプロトタイプ学習を行うことで、プロトタイプとして捉え、AD開発のための継続的なプロセスでそれらを表現することができます。 本手法をDeep Prototype Learningと命名し,学習木構造をDeep Prototype Tree - DPTreeとした。 DPTreeは、AD進行を反映した軌道として異なる臨床段階を表し、個人をこの連続軌道に投影することによって臨床状態を予測します。 このようにして、DPTreeはAD発達のどの段階(5つのグループで77.8%の精度)の患者に対して効率的な予測を行うだけでなく、AD進行過程全体の投影位置を調べることでより多くの情報を提供することができる。

For decades, a variety of predictive approaches have been proposed and evaluated in terms of their predicting capability for Alzheimer's Disease (AD) and its precursor - mild cognitive impairment (MCI). Most of them focused on prediction or identification of statistical differences among different clinical groups or phases (e.g., longitudinal studies). The continuous nature of AD development and transition states between successive AD related stages have been overlooked, especially in binary or multi-class classification. Though a few progression models of AD have been studied recently, they mainly designed to determine and compare the order of specific biomarkers. How to effectively predict the individual patient's status within a wide spectrum of AD progression has been understudied. In this work, we developed a novel structure learning method to computationally model the continuum of AD progression as a tree structure. By conducting a novel prototype learning with a deep manner, we are able to capture intrinsic relations among different clinical groups as prototypes and represent them in a continuous process for AD development. We named this method as Deep Prototype Learning and the learned tree structure as Deep Prototype Tree - DPTree. DPTree represents different clinical stages as a trajectory reflecting AD progression and predict clinical status by projecting individuals onto this continuous trajectory. Through this way, DPTree can not only perform efficient prediction for patients at any stages of AD development (77.8% accuracy for five groups), but also provide more information by examining the projecting locations within the entire AD progression process.
翻訳日:2021-02-16 15:23:47 公開日:2021-02-13
# HAWKS:クラスタ分析のためのChallenging Benchmark Setsの進化

HAWKS: Evolving Challenging Benchmark Sets for Cluster Analysis ( http://arxiv.org/abs/2102.06940v1 )

ライセンス: Link先を確認
Cameron Shand, Richard Allmendinger, Julia Handl, Andrew Webb, and John Keane(参考訳) クラスタリングアルゴリズムの総合的なベンチマークは、 (i) - この教師なし学習アプローチのユニークな数学的定義の解明と (ii) - クラスタリングアルゴリズムで採用される生成モデルやクラスタリング基準と内部クラスタバリデーションの指標との依存性の2つの主要な要因によって難しい。 したがって、厳格なベンチマークのベストプラクティスと、それが特定のアプリケーションのコンテキスト外でまったく可能かどうかに関する合意はありません。 ここでは、合成データセットはクラスタリングアルゴリズムの評価において重要な役割を担わなければならないが、クラスタリングアルゴリズムのパフォーマンスに影響を及ぼす多様な特性を適切にカバーするベンチマークを構築する必要があると論じる。 フレームワークであるHAWKSを通じて、そのようなベンチマークの柔軟な生成をサポートするために進化的アルゴリズムが果たす重要な役割を実証し、簡単な修正と拡張を可能にします。 i)手がかりのプロパティの集合と一致するベンチマークデータの進化、(ii) 与えられたアルゴリズムのペア間のパフォーマンスの相違を予見するデータセットの生成。 我々の研究は、広範囲のアルゴリズムに十分に挑戦するクラスタリングベンチマークの設計と、特定のアプローチの強みと弱みに関する洞察を深めることに意味があります。

Comprehensive benchmarking of clustering algorithms is rendered difficult by two key factors: (i)~the elusiveness of a unique mathematical definition of this unsupervised learning approach and (ii)~dependencies between the generating models or clustering criteria adopted by some clustering algorithms and indices for internal cluster validation. Consequently, there is no consensus regarding the best practice for rigorous benchmarking, and whether this is possible at all outside the context of a given application. Here, we argue that synthetic datasets must continue to play an important role in the evaluation of clustering algorithms, but that this necessitates constructing benchmarks that appropriately cover the diverse set of properties that impact clustering algorithm performance. Through our framework, HAWKS, we demonstrate the important role evolutionary algorithms play to support flexible generation of such benchmarks, allowing simple modification and extension. We illustrate two possible uses of our framework: (i)~the evolution of benchmark data consistent with a set of hand-derived properties and (ii)~the generation of datasets that tease out performance differences between a given pair of algorithms. Our work has implications for the design of clustering benchmarks that sufficiently challenge a broad range of algorithms, and for furthering insight into the strengths and weaknesses of specific approaches.
翻訳日:2021-02-16 15:23:20 公開日:2021-02-13
# 対戦型事例ゲームにおける混合ナッシュ平衡

Mixed Nash Equilibria in the Adversarial Examples Game ( http://arxiv.org/abs/2102.06905v1 )

ライセンス: Link先を確認
Laurent Meunier, Meyer Scetbon, Rafael Pinot, Jamal Atif, Yann Chevaleyre(参考訳) 本稿では,ゲーム理論的な観点からの敵対的例の問題に取り組む。 攻撃者および分類者によって形成されるゼロサムゲームにおける混合ナッシュ平衡の存在のオープンな問題を検討する。 従来の作業では,1人のプレイヤーのみがランダム化戦略を使用できるが,分類器と攻撃者の両方に対してランダム化を検討する必要がある。 このゲームは双対性ギャップがなく、常に近似的なナッシュ平衡を許容することを示す。 また、このゲームの価値を概算する分類器の混合を学習する最初の最適化アルゴリズムである \emph{i.e} も提供する。 最適に堅牢なランダム化分類器を構築する手順。

This paper tackles the problem of adversarial examples from a game theoretic point of view. We study the open question of the existence of mixed Nash equilibria in the zero-sum game formed by the attacker and the classifier. While previous works usually allow only one player to use randomized strategies, we show the necessity of considering randomization for both the classifier and the attacker. We demonstrate that this game has no duality gap, meaning that it always admits approximate Nash equilibria. We also provide the first optimization algorithms to learn a mixture of classifiers that approximately realizes the value of this game, \emph{i.e.} procedures to build an optimally robust randomized classifier.
翻訳日:2021-02-16 15:16:01 公開日:2021-02-13
# crosslight: クロスレイヤー最適化されたシリコンフォトニックニューラルネットワークアクセラレータ

CrossLight: A Cross-Layer Optimized Silicon Photonic Neural Network Accelerator ( http://arxiv.org/abs/2102.06960v1 )

ライセンス: Link先を確認
Febin Sunny, Asif Mirza, Mahdi Nikdast, and Sudeep Pasricha(参考訳) ドメイン固有のニューラルネットワークアクセラレータは近年、cpuやgpuに比べてエネルギー効率が向上し、推論性能が向上したため、関心が高まっている。 本稿では,シリコンフォトニクスを利用したクロス層最適化ニューラルネットワークアクセラレータCrossLightを提案する。 crosslightには、プロセスバリエーションと熱クロストークに対するレジリエンスのためのデバイスレベルエンジニアリング、推論レイテンシ低減のための回路レベルチューニング拡張、高分解能化、エネルギー効率向上、スループット向上のためのアーキテクチャレベルの最適化が含まれている。 平均して、CrossLightは16ビット解像度で9.5倍のエネルギー/ビットと15.9倍高い性能を提供する。

Domain-specific neural network accelerators have seen growing interest in recent years due to their improved energy efficiency and inference performance compared to CPUs and GPUs. In this paper, we propose a novel cross-layer optimized neural network accelerator called CrossLight that leverages silicon photonics. CrossLight includes device-level engineering for resilience to process variations and thermal crosstalk, circuit-level tuning enhancements for inference latency reduction, and architecture-level optimization to enable higher resolution, better energy-efficiency, and improved throughput. On average, CrossLight offers 9.5x lower energy-per-bit and 15.9x higher performance-per-watt at 16-bit resolution than state-of-the-art photonic deep learning accelerators.
翻訳日:2021-02-16 15:15:52 公開日:2021-02-13