このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201126となっている論文です。

PDF登録状況(公開日: 20201126)

TitleAuthorsAbstract論文公表日・翻訳日
# 指数重み正規化平滑均質ニューラルネットワークの勾配降下の帰納的バイアス

Inductive Bias of Gradient Descent for Exponentially Weight Normalized Smooth Homogeneous Neural Nets ( http://arxiv.org/abs/2010.12909v2 )

ライセンス: Link先を確認
Depen Morwani, Harish G. Ramaswamy(参考訳) 重み正規化平滑な均質ニューラルネットの勾配降下の帰納的バイアスを指数的またはクロスエントロピー損失を訓練した場合に解析する。 本分析では,半径方向に沿った重量の更新を促進する指数的重み正規化(EWN)に焦点を当てた。 本稿では,EWNを用いた勾配流路が適応的な学習速度を持つ標準ネットワーク上での勾配流路と等価であることを示し,漸近的相対空間性を好む方法で重みを更新する。 これらの結果は、適切な適応学習率によって勾配降下を抑えることができる。 この設定における損失の漸近収束率は$\theta(\frac{1}{t(\log t)^2})$であり、ネットワークの深さとは独立である。 これらの結果と標準重量正規化(swn)および非正規化アーキテクチャの帰納的バイアスを比較し,それらの合成データセットへの影響を実証する。 これは、プルナブルニューラルネットワークの学習における潜在的な応用を実証する。

We analyze the inductive bias of gradient descent for weight normalized smooth homogeneous neural nets, when trained on exponential or cross-entropy loss. Our analysis focuses on exponential weight normalization (EWN), which encourages weight updates along the radial direction. This paper shows that the gradient flow path with EWN is equivalent to gradient flow on standard networks with an adaptive learning rate, and hence causes the weights to be updated in a way that prefers asymptotic relative sparsity. These results can be extended to hold for gradient descent via an appropriate adaptive learning rate. The asymptotic convergence rate of the loss in this setting is given by $\Theta(\frac{1}{t(\log t)^2})$, and is independent of the depth of the network. We contrast these results with the inductive bias of standard weight normalization (SWN) and unnormalized architectures, and demonstrate their implications on synthetic data sets.Experimental results on simple data sets and architectures support our claim on sparse EWN solutions, even with SGD. This demonstrates its potential applications in learning prunable neural networks.
翻訳日:2022-10-03 12:16:08 公開日:2020-11-26
# 成人・幼児の視覚分類における眼球追跡変数の自動選択

Automatic selection of eye tracking variables in visual categorization in adults and infants ( http://arxiv.org/abs/2010.15047v2 )

ライセンス: Link先を確認
Samuel Rivera, Catherine A. Best, Hyungwook Yim, Dirk B. Walther, Vladimir M. Sloutsky, Aleix M. Martinez(参考訳) 視覚カテゴリの視覚分類と学習は初期発症を示すが、初期分類の基本的なメカニズムはよく分かっていない。 これらのメカニズムを調べるための主な制限要因は、乳幼児の協力期間(10~15分)であり、複数の試験を行う余地がほとんどない。 視覚的注意に強く結びついているため、視線追跡はカテゴリー学習のメカニズムにアクセスする上で有望な方法である。 しかし、リッチアイトラッキングデータのどの側面にフォーカスするか、研究者はどのように決めるべきか? これまで、眼球追跡変数は一般に手動選択され、眼球追跡データのバイアスにつながる可能性がある。 本稿では,視覚カテゴリの非学習者から学習者を判別するための有用性の分析に基づいて,視線追跡変数を自動選択する手法を提案する。 乳幼児と成人にカテゴリー学習課題を提示し,眼球運動の追跡を行った。 その後, 持続時間, 確率, 潜時, 固定順, 眼球運動順を含む眼球追跡変数の完全集合を抽出した。 ANOVAランキング,ベイズランキング,L1正規化ロジスティック回帰という,学習者の非学習者の識別に有用な3つの統計手法を比較した。 判別変数の小さな集合を同定する際,これらの手法の間に顕著な一致が認められた。 また、同じ視線追跡変数によって、成人の非学習者や6か月から8ヶ月の幼児から71%以上の確率でカテゴリー学習者を分類できる。

Visual categorization and learning of visual categories exhibit early onset, however the underlying mechanisms of early categorization are not well understood. The main limiting factor for examining these mechanisms is the limited duration of infant cooperation (10-15 minutes), which leaves little room for multiple test trials. With its tight link to visual attention, eye tracking is a promising method for getting access to the mechanisms of category learning. But how should researchers decide which aspects of the rich eye tracking data to focus on? To date, eye tracking variables are generally handpicked, which may lead to biases in the eye tracking data. Here, we propose an automated method for selecting eye tracking variables based on analyses of their usefulness to discriminate learners from non-learners of visual categories. We presented infants and adults with a category learning task and tracked their eye movements. We then extracted an over-complete set of eye tracking variables encompassing durations, probabilities, latencies, and the order of fixations and saccadic eye movements. We compared three statistical techniques for identifying those variables among this large set that are useful for discriminating learners form non-learners: ANOVA ranking, Bayes ranking, and L1 regularized logistic regression. We found remarkable agreement between these methods in identifying a small set of discriminant variables. Moreover, the same eye tracking variables allow us to classify category learners from non-learners among adults and 6- to 8-month-old infants with accuracies above 71%.
翻訳日:2022-10-02 05:56:16 公開日:2020-11-26
# FusiformNet: 異なるレベルで差別的な顔の特徴を抽出する

FusiformNet: Extracting Discriminative Facial Features on Different Levels ( http://arxiv.org/abs/2011.00577v3 )

ライセンス: Link先を確認
Kyo Takano(参考訳) ここ数年、Deep Neural Networkに基づく顔認識の研究は、タスク固有の損失関数、画像の正規化と拡張、ネットワークアーキテクチャなどのアプローチで進化してきた。 しかし、人間の顔が人によってどう違うかに注目するアプローチはほとんどない。 対人差が一般的にも局所的にも人間の顔に現れることを前提として,識別的顔の特徴を生かした特徴抽出のための新しい枠組みであるFusiformNetを提案する。 ワイルドベンチマークでラベル付き顔の画像制限設定でテストされ、外部データ、画像拡張、正規化、特別な損失関数なしで96.67%の最先端の精度を達成した。 同様に、この方法はCASIA-WebFaceデータセットで事前トレーニングされた場合、以前の最先端と同等に実行される。 一般的な特徴と局所的な特徴の両方を抽出できる能力を考えると、FusiformNetの機能は顔認識に限らず、他のDNNベースのタスクにも拡張できる。

Over the last several years, research on facial recognition based on Deep Neural Network has evolved with approaches like task-specific loss functions, image normalization and augmentation, network architectures, etc. However, there have been few approaches with attention to how human faces differ from person to person. Premising that inter-personal differences are found both generally and locally on the human face, I propose FusiformNet, a novel framework for feature extraction that leverages the nature of discriminative facial features. Tested on Image-Unrestricted setting of Labeled Faces in the Wild benchmark, this method achieved a state-of-the-art accuracy of 96.67% without labeled outside data, image augmentation, normalization, or special loss functions. Likewise, the method also performed on a par with previous state-of-the-arts when pre-trained on CASIA-WebFace dataset. Considering its ability to extract both general and local facial features, the utility of FusiformNet may not be limited to facial recognition but also extend to other DNN-based tasks.
翻訳日:2022-09-30 23:28:44 公開日:2020-11-26
# シーン意味セグメンテーション駆動のためのドメイン適応知識蒸留

Domain Adaptive Knowledge Distillation for Driving Scene Semantic Segmentation ( http://arxiv.org/abs/2011.08007v2 )

ライセンス: Link先を確認
Divya Kothandaraman, Athira Nambiar, Anurag Mittal(参考訳) 実用的な自動運転システムは、メモリ制約とドメインギャップの問題という2つの重要な課題に直面している。 本稿では,限られたメモリを持つモデルにおいて,ドメイン適応知識を学習するための新しい手法を提案する。 我々はこれを「ドメイン適応知識蒸留」と呼び、異なるレベルで知識を効果的に区別するために多段階蒸留戦略を提案することにより、教師なしドメイン適応意味セグメンテーションの文脈でこれに対処する。 さらに,教師の擬似ラベルを利用した新しいクロスエントロピー損失について紹介する。 これらの擬似教師ラベルは多面的な役割を担っている。 (i)教員ネットワークから学生ネットワークへの知識蒸留 (ii)問題は完全に管理されていない対象ドメインイメージの根拠真理のプロキシとして機能する。 ドメイン適応知識を蒸留する4つのパラダイムを導入し,実物間及び合成実物間シナリオに関する広範な実験およびアブレーション研究を行う。 提案手法の有効性を実証する実験を行った。

Practical autonomous driving systems face two crucial challenges: memory constraints and domain gap issues. In this paper, we present a novel approach to learn domain adaptive knowledge in models with limited memory, thus bestowing the model with the ability to deal with these issues in a comprehensive manner. We term this as "Domain Adaptive Knowledge Distillation" and address the same in the context of unsupervised domain-adaptive semantic segmentation by proposing a multi-level distillation strategy to effectively distil knowledge at different levels. Further, we introduce a novel cross entropy loss that leverages pseudo labels from the teacher. These pseudo teacher labels play a multifaceted role towards: (i) knowledge distillation from the teacher network to the student network & (ii) serving as a proxy for the ground truth for target domain images, where the problem is completely unsupervised. We introduce four paradigms for distilling domain adaptive knowledge and carry out extensive experiments and ablation studies on real-to-real as well as synthetic-to-real scenarios. Our experiments demonstrate the profound success of our proposed method.
翻訳日:2022-09-30 05:29:14 公開日:2020-11-26
# VEGA: エンドツーエンドのAutoMLパイプラインを目指す

VEGA: Towards an End-to-End Configurable AutoML Pipeline ( http://arxiv.org/abs/2011.01507v4 )

ライセンス: Link先を確認
Bochao Wang, Hang Xu, Jiajin Zhang, Chen Chen, Xiaozhi Fang, Yixing Xu, Ning Kang, Lanqing Hong, Chenhan Jiang, Xinyue Cai, Jiawei Li, Fengwei Zhou, Yong Li, Zhicheng Liu, Xinghao Chen, Kai Han, Han Shu, Dehua Song, Yunhe Wang, Wei Zhang, Chunjing Xu, Zhenguo Li, Wenzhi Liu, Tong Zhang(参考訳) Automated Machine Learning (AutoML)は、機械学習モデルの自動発見とデプロイのための重要な産業ソリューションである。 しかし、統合されたAutoMLシステムの設計には、設定性、スケーラビリティ、統合性、プラットフォームの多様性の4つの大きな課題がある。 本稿では,複数のハードウェアプラットフォームに互換性と最適化を施した,効率的かつ包括的なAutoMLフレームワークであるVEGAを紹介する。 a) VEGAパイプラインは、Neural Architecture Search(NAS)、Hyperparameter Optimization(HPO)、Auto Data Augmentation、Model Compression、Fully Trainなど、AutoMLのさまざまなモジュールを統合する。 b) 様々な検索アルゴリズムとタスクをサポートするため,我々は,新しいきめ細かな検索空間とその記述言語を設計し,異なる検索アルゴリズムやタスクへの適応を容易にする。 c) ディープラーニングフレームワークの共通コンポーネントを統一インターフェースに抽象化する。 VEGAは複数のバックエンドとハードウェアで実行できる。 複数のタスクに関する大規模なベンチマーク実験は、VEGAが既存のAutoMLアルゴリズムを改善し、SOTAメソッドに対して新しい高性能モデルを発見することを実証している。例えば、検索されたDNetモデル動物園は、EfficientNet-B5より10倍、ImageNet上のRegNetX-32GFより9.2倍高速である。 VEGAはhttps://github.com/huawei-noah/vega.comでオープンソース化されている。

Automated Machine Learning (AutoML) is an important industrial solution for automatic discovery and deployment of the machine learning models. However, designing an integrated AutoML system faces four great challenges of configurability, scalability, integrability, and platform diversity. In this work, we present VEGA, an efficient and comprehensive AutoML framework that is compatible and optimized for multiple hardware platforms. a) The VEGA pipeline integrates various modules of AutoML, including Neural Architecture Search (NAS), Hyperparameter Optimization (HPO), Auto Data Augmentation, Model Compression, and Fully Train. b) To support a variety of search algorithms and tasks, we design a novel fine-grained search space and its description language to enable easy adaptation to different search algorithms and tasks. c) We abstract the common components of deep learning frameworks into a unified interface. VEGA can be executed with multiple back-ends and hardwares. Extensive benchmark experiments on multiple tasks demonstrate that VEGA can improve the existing AutoML algorithms and discover new high-performance models against SOTA methods, e.g. the searched DNet model zoo for Ascend 10x faster than EfficientNet-B5 and 9.2x faster than RegNetX-32GF on ImageNet. VEGA is open-sourced at https://github.com/huawei-noah/vega.
翻訳日:2022-09-30 05:21:24 公開日:2020-11-26
# 意味セグメンテーションマスクのマップベース検証に向けて

Towards Map-Based Validation of Semantic Segmentation Masks ( http://arxiv.org/abs/2011.08008v2 )

ライセンス: Link先を確認
Laura von Rueden, Tim Wirtz, Fabian Hueger, Jan David Schneider, Christian Bauckhage(参考訳) 自動運転のための人工知能は、安全性と堅牢性に関する厳しい要件を満たす必要がある。 我々は、与えられた事実ラベルだけでなく、追加のa-priori知識を用いて、自動運転車の機械学習モデルを検証することを提案する。 特に,街路地図データを用いてセマンティックセグメンテーションマスクの乾燥領域を検証することを提案する。 地図に基づく検証によって予測誤差を発見できることを示す最初の結果を示す。

Artificial intelligence for autonomous driving must meet strict requirements on safety and robustness. We propose to validate machine learning models for self-driving vehicles not only with given ground truth labels, but also with additional a-priori knowledge. In particular, we suggest to validate the drivable area in semantic segmentation masks using given street map data. We present first results, which indicate that prediction errors can be uncovered by map-based validation.
翻訳日:2022-09-30 03:59:48 公開日:2020-11-26
# 確率的安全性保証によるリアクティブ動作計画

Reactive motion planning with probabilistic safety guarantees ( http://arxiv.org/abs/2011.03590v2 )

ライセンス: Link先を確認
Yuxiao Chen, Ugo Rosolia, Chuchu Fan, Aaron D. Ames, and Richard Murray(参考訳) 複数のエージェントを持つ環境での運動計画は、自動運転車や補助ロボットのような多くの重要な自律的アプリケーションにとって重要である。 本稿では,制御エージェントが複数の非制御エージェントと環境を共有できるモーションプランニングの問題について考察する。 まず、制御されていないエージェントの予測モデルを訓練し、シナリオに基づいて短い地平線内で全ての可能な軌道を予測する。 予測はモデル予測制御に基づいて動作計画モジュールに送信される。 予測モデルの一般化は,ポストブローミング,サポートベクターマシン(svm),コンフォメーション解析の3つの方法によって達成され,いずれも予測者の正しさの確率的保証を生成できることを示した。 提案手法は,自動運転のシナリオを模擬したシミュレーションで実証された。

Motion planning in environments with multiple agents is critical to many important autonomous applications such as autonomous vehicles and assistive robots. This paper considers the problem of motion planning, where the controlled agent shares the environment with multiple uncontrolled agents. First, a predictive model of the uncontrolled agents is trained to predict all possible trajectories within a short horizon based on the scenario. The prediction is then fed to a motion planning module based on model predictive control. We proved generalization bound for the predictive model using three different methods, post-bloating, support vector machine (SVM), and conformal analysis, all capable of generating stochastic guarantees of the correctness of the predictor. The proposed approach is demonstrated in simulation in a scenario emulating autonomous highway driving.
翻訳日:2022-09-29 05:52:02 公開日:2020-11-26
# 新型コロナウイルス(covid-19)感染活動例の予測における小標本サイズの呪い

Curse of Small Sample Size in Forecasting of the Active Cases in COVID-19 Outbreak ( http://arxiv.org/abs/2011.03628v2 )

ライセンス: Link先を確認
Mert Nak{\i}p, Onur \c{C}opur, C\"uneyt G\"uzeli\c{s}(参考訳) 新型コロナウイルス(covid-19)パンデミックの間、このパンデミックの感染者数とその他の将来の傾向を予測するために、膨大な数の試みが行われてきた。 しかし、信頼性の高い方法では、新型コロナウイルスのアウトブレイクの基本的な特徴の中長期的な進化を許容できる精度で予測できない。 本稿では,この予測問題における機械学習モデルの故障について説明する。 本稿では, 線形回帰モデルにより, 2週間の期間にのみ高い予測精度が得られたが, 比較的複雑な機械学習モデルでは, 低誤差で長期予測を学習する可能性があり, 高い一般化能力を有するような予測が得られないことを示す。 本論文では,十分なサンプル数の不足が予測モデルの予測性能の低下の原因であることを示唆している。 有効事例に関する予測結果の信頼性は、予測者の一般化誤差に対する期待値として使用されるクロスバリデーション予測誤差の観点から測定する。 アクティブなケースと最も関連性の高い情報を活用するために,様々な変数に対して特徴選択を行う。 特徴選択法として,ラッソ回帰を用いて特徴選択法,再帰的特徴選択法,特徴選択法をそれぞれ適用し,特徴選択を行わないモデルと比較した。 さらに, 線形回帰, 多重層知覚, 長短項記憶モデルを比較し, 上記の特徴選択法と合わせて, アクティブケースの予測に用いている。 以上の結果から,covid-19データのサンプルサイズが小さければ3日以内で,高い汎化能を有する能動的症例の正確な予測が可能であることが示された。

During the COVID-19 pandemic, a massive number of attempts on the predictions of the number of cases and the other future trends of this pandemic have been made. However, they fail to predict, in a reliable way, the medium and long term evolution of fundamental features of COVID-19 outbreak within acceptable accuracy. This paper gives an explanation for the failure of machine learning models in this particular forecasting problem. The paper shows that simple linear regression models provide high prediction accuracy values reliably but only for a 2-weeks period and that relatively complex machine learning models, which have the potential of learning long term predictions with low errors, cannot achieve to obtain good predictions with possessing a high generalization ability. It is suggested in the paper that the lack of a sufficient number of samples is the source of low prediction performance of the forecasting models. The reliability of the forecasting results about the active cases is measured in terms of the cross-validation prediction errors, which are used as expectations for the generalization errors of the forecasters. To exploit the information, which is of most relevant with the active cases, we perform feature selection over a variety of variables. We apply different feature selection methods, namely the Pairwise Correlation, Recursive Feature Selection, and feature selection by using the Lasso regression and compare them to each other and also with the models not employing any feature selection. Furthermore, we compare Linear Regression, Multi-Layer Perceptron, and Long-Short Term Memory models each of which is used for prediction active cases together with the mentioned feature selection methods. Our results show that the accurate forecasting of the active cases with high generalization ability is possible up to 3 days only because of the small sample size of COVID-19 data.
翻訳日:2022-09-29 04:33:56 公開日:2020-11-26
# 低周波脳波による手の動きの深層学習に基づく分類

Deep learning-based classification of fine hand movements from low frequency EEG ( http://arxiv.org/abs/2011.06791v2 )

ライセンス: Link先を確認
Giulia Bressan, Selina C. Wriessnegger, Giulia Cisotto(参考訳) 脳波信号から異なる手の動きの分類は、脳-コンピュータインタフェースの運動再生への応用など、関連する研究課題を表している。 そこで我々は,手の動き(触覚,握力,手のひら,横方向のつかみ)を自覚的モーダルで行う2つの異なるデータセットを解析した。 提案する畳み込みニューラルネットワーク(convolutional neural network, cnn)のトレーニングとテストを行い,その分類性能を,確立された2つの機械学習モデル,すなわち縮小ldaとランダムフォレストと比較した。 従来の文献と比較して神経科学分野の知識を生かし,いわゆる運動関連皮質電位(MRCP)に基づいてCNNモデルを訓練した。 低周波数での脳波振幅変調、すなわち (0.3, 3) Hz は、運動のいくつかの特性、例えば、つかみの種類、力レベル、速度を符号化することが証明されている。 我々はCNNが両方のデータセットで優れた性能を示し、ベースラインモデルと似ているか優れていることを示した。 また、ベースラインと比較して、我々のCNNはより軽量でより高速な前処理手順を必要としており、例えば多くの脳-コンピュータインタフェースアプリケーションにおいて、オンラインモダリティで使用するための道を開いた。

The classification of different fine hand movements from EEG signals represents a relevant research challenge, e.g., in brain-computer interface applications for motor rehabilitation. Here, we analyzed two different datasets where fine hand movements (touch, grasp, palmar and lateral grasp) were performed in a self-paced modality. We trained and tested a newly proposed convolutional neural network (CNN), and we compared its classification performance into respect to two well-established machine learning models, namely, a shrinked-LDA and a Random Forest. Compared to previous literature, we took advantage of the knowledge of the neuroscience field, and we trained our CNN model on the so-called Movement Related Cortical Potentials (MRCPs)s. They are EEG amplitude modulations at low frequencies, i.e., (0.3, 3) Hz, that have been proved to encode several properties of the movements, e.g., type of grasp, force level and speed. We showed that CNN achieved good performance in both datasets and they were similar or superior to the baseline models. Also, compared to the baseline, our CNN requires a lighter and faster pre-processing procedure, paving the way for its possible use in an online modality, e.g., for many brain-computer interface applications.
翻訳日:2022-09-25 23:52:35 公開日:2020-11-26
# 効率的な異常検出のためのGANとオートエンコーダの組み合わせ

Combining GANs and AutoEncoders for Efficient Anomaly Detection ( http://arxiv.org/abs/2011.08102v2 )

ライセンス: Link先を確認
Fabio Carrara (1), Giuseppe Amato (1), Luca Brombin, Fabrizio Falchi (1), Claudio Gennaro (1) ((1) ISTI CNR, Pisa, Italy)(参考訳) 本研究では,画像の異常検出のための新しい手法であるCBiGANを提案する。この手法では,BiGANのエンコーダとデコーダの両方において,整合性制約が正規化項として導入され,モデリング能力と再構成整合性が極めて良好である。提案手法はMVTec AD(高解像度画像の教師なし異常検出のための実世界のベンチマーク)で評価され,標準ベースラインと最先端アプローチとの比較を行う。 実験により, 提案手法はBiGANの定式化性能を高いマージンで向上し, 計算コストを低減しつつ, 最先端反復法と相容れない性能を示した。 また,本モデルがテクスチャ型異常検出に特に有効であることも確認した。 私たちのコードはhttps://github.com/fabiocarrara/cbigan-ad/で利用可能です。

In this work, we propose CBiGAN -- a novel method for anomaly detection in images, where a consistency constraint is introduced as a regularization term in both the encoder and decoder of a BiGAN. Our model exhibits fairly good modeling power and reconstruction consistency capability. We evaluate the proposed method on MVTec AD -- a real-world benchmark for unsupervised anomaly detection on high-resolution images -- and compare against standard baselines and state-of-the-art approaches. Experiments show that the proposed method improves the performance of BiGAN formulations by a large margin and performs comparably to expensive state-of-the-art iterative methods while reducing the computational cost. We also observe that our model is particularly effective in texture-type anomaly detection, as it sets a new state of the art in this category. Our code is available at https://github.com/fabiocarrara/cbigan-ad/.
翻訳日:2022-09-24 23:20:44 公開日:2020-11-26
# CVEGAN:圧縮ビデオエンハンスメントのための知覚型GAN

CVEGAN: A Perceptually-inspired GAN for Compressed Video Enhancement ( http://arxiv.org/abs/2011.09190v2 )

ライセンス: Link先を確認
Di Ma, Fan Zhang and David R. Bull(参考訳) 本稿では,圧縮映像品質向上のためのジェネレーティブ・アドバイザリアル・ネットワーク(CVEGAN)を提案する。 CVEGANジェネレータは、新しいMul2Resブロック(複数のレベルの残留学習枝を持つ)、強化された残留非局所ブロック(ERNB)、拡張された畳み込みブロックアテンションモジュール(ECBAM)を使用することで恩恵を受ける。 ERNBは、表現能力を改善するために識別器にも採用されている。 トレーニング戦略は、相対論的球面GAN(ReSphereGAN)トレーニング手法と新しい知覚的損失関数を併用するために、特にビデオ圧縮アプリケーションのために再設計されている。 提案手法は後処理 (PP) と空間分解能適応 (SRA) の2つの典型的なビデオ圧縮強化ツールの文脈で完全に評価されている。 CVEGANはMPEG HEVCビデオコーディングテストモデル(HM16.20)に完全に統合されており、実験結果から、複数のデータセットにまたがる両方のコーディングツールのための既存の最先端アーキテクチャよりも、コーディングの大幅な向上(PPは28%、SRAは38%)が示されている。

We propose a new Generative Adversarial Network for Compressed Video quality Enhancement (CVEGAN). The CVEGAN generator benefits from the use of a novel Mul2Res block (with multiple levels of residual learning branches), an enhanced residual non-local block (ERNB) and an enhanced convolutional block attention module (ECBAM). The ERNB has also been employed in the discriminator to improve the representational capability. The training strategy has also been re-designed specifically for video compression applications, to employ a relativistic sphere GAN (ReSphereGAN) training methodology together with new perceptual loss functions. The proposed network has been fully evaluated in the context of two typical video compression enhancement tools: post-processing (PP) and spatial resolution adaptation (SRA). CVEGAN has been fully integrated into the MPEG HEVC video coding test model (HM16.20) and experimental results demonstrate significant coding gains (up to 28% for PP and 38% for SRA compared to the anchor) over existing state-of-the-art architectures for both coding tools across multiple datasets.
翻訳日:2022-09-24 05:07:00 公開日:2020-11-26
# 性別ロバスト性:画像特性の変動を伴う顔認識システムにおける性別検出のロバスト性

GenderRobustness: Robustness of Gender Detection in Facial Recognition Systems with variation in Image Properties ( http://arxiv.org/abs/2011.10472v2 )

ライセンス: Link先を確認
Sharadha Srinivasan, Madan Musuvathi(参考訳) 近年では、暗黙のバイアスを持つコンピュータビジョンの人工知能システムやアルゴリズムに対する非難が高まっている。 これらの会話が普及し、広範なテストを実行し、その地平線を広げることで、システムは改善していますが、まだバイアスがあります。 バイアスが存在すると言われるシステムの1つに顔認識システムがあり、性別、民族、肌の色、その他の顔の特徴に基づいて偏見が観察されている。 これらのシステムが現在の産業のあらゆる部門で使われているという事実を考えると、これはさらに厄介だ。 犯罪の特定と同じくらい重要なものから、出席者を登録するほど単純なものまで、これらのシステムは特に近年、巨大な市場を獲得している。 これらのシステムの開発者がバイアスを最小限あるいは理想的には存在しないものに保ち、特定の性別、人種、階級を選ばせることや、システムに正しく認識できないために偽の告発を受けやすくするといった大きな問題を避けるには、それ自体が十分な理由である。

In recent times, there have been increasing accusations on artificial intelligence systems and algorithms of computer vision of possessing implicit biases. Even though these conversations are more prevalent now and systems are improving by performing extensive testing and broadening their horizon, biases still do exist. One such class of systems where bias is said to exist is facial recognition systems, where bias has been observed on the basis of gender, ethnicity, skin tone and other facial attributes. This is even more disturbing, given the fact that these systems are used in practically every sector of the industries today. From as critical as criminal identification to as simple as getting your attendance registered, these systems have gained a huge market, especially in recent years. That in itself is a good enough reason for developers of these systems to ensure that the bias is kept to a bare minimum or ideally non-existent, to avoid major issues like favoring a particular gender, race, or class of people or rather making a class of people susceptible to false accusations due to inability of these systems to correctly recognize those people.
翻訳日:2022-09-24 04:38:57 公開日:2020-11-26
# 誰もがサインアップ:スポンジ言語から写真リアルな手話ビデオへ

Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign Language Video ( http://arxiv.org/abs/2011.09846v4 )

ライセンス: Link先を確認
Ben Saunders, Necati Cihan Camgoz, Richard Bowden(参考訳) 難聴者コミュニティが真に理解し受け入れるためには、自動手話生成(SLP)システムが写真リアリスティックシグナーを生成する必要がある。 グラフィカルなアバターに基づく以前のアプローチは不人気であることが証明されているが、スケルトンポーズ配列を生成する最近の神経SLP研究は、聴覚障害者には理解できないことが示されている。 本稿では,音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルであるSignGANを提案する。 本研究では,混合密度ネットワーク(MDN)を用いたトランスフォーマーアーキテクチャを用いて,音声言語から骨格ポーズへの変換を行う。 次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。 これにより、手書きテキストから直接翻訳された手話ビデオの写実的な制作が可能になる。 さらに,合成された手画像の品質を著しく向上し,キーポイント空間で動作し,動きのぼかしに起因する問題を回避する新しいキーポイントベース損失関数を提案する。 さらに,多種多様な手話データセット上でのトレーニングを可能にし,推論時のシグナーの出現を制御可能な映像生成手法を提案する。 放送映像から抽出した8種類の手話インタプリタのデータセットを用いて,SignGANは定量的な測定と人間の知覚研究において,すべてのベースライン法を著しく上回っていることを示す。

To be truly understandable and accepted by Deaf communities, an automatic Sign Language Production (SLP) system must generate a photo-realistic signer. Prior approaches based on graphical avatars have proven unpopular, whereas recent neural SLP works that produce skeleton pose sequences have been shown to be not understandable to Deaf viewers. In this paper, we propose SignGAN, the first SLP model to produce photo-realistic continuous sign language videos directly from spoken language. We employ a transformer architecture with a Mixture Density Network (MDN) formulation to handle the translation from spoken language to skeletal pose. A pose-conditioned human synthesis model is then introduced to generate a photo-realistic sign language video from the skeletal pose sequence. This allows the photo-realistic production of sign videos directly translated from written text. We further propose a novel keypoint-based loss function, which significantly improves the quality of synthesized hand images, operating in the keypoint space to avoid issues caused by motion blur. In addition, we introduce a method for controllable video generation, enabling training on large, diverse sign language datasets and providing the ability to control the signer appearance at inference. Using a dataset of eight different sign language interpreters extracted from broadcast footage, we show that SignGAN significantly outperforms all baseline methods for quantitative metrics and human perceptual studies.
翻訳日:2022-09-23 20:16:42 公開日:2020-11-26
# NOMA強化屋内知能ロボットの経路設計と資源管理

Path Design and Resource Management for NOMA enhanced Indoor Intelligent Robots ( http://arxiv.org/abs/2011.11745v2 )

ライセンス: Link先を確認
Ruikang Zhong, Xiao Liu, Yuanwei Liu, Yue Chen and Xianbin Wang(参考訳) 通信可能な屋内知的ロボット(IR)サービスフレームワークを提案し,非直交多重アクセス(NOMA)技術を採用し,信頼性の高い通信を実現する。 国際電気通信連合(ITU)が最近提案した超近代屋内チャネルモデルと協調して,無線地図を構築するために室内レイアウトとチャネル状態を決定論的に記述できるレゴモデリング手法を提案する。 調査対象の無線マップは,トレーニング時間とハードウェアコストを節約できる強化学習エージェントを訓練するための仮想環境として起動される。 提案した通信モデルに基づいて、指定されたミッション目的地に到達するために必要なIRの動きと対応するダウンリンク電力配分ポリシーを共同最適化し、IRのミッション効率と通信信頼性を最大化する。 この最適化問題を解決するために,Deep Transfer Deterministic Policy gradient (DT-DPG)アルゴリズムという新しい強化学習手法を提案する。 我々のシミュレーション結果は 1)NOMA技術により、IRの通信信頼性が効果的に向上する。 2) 無線地図は仮想学習環境に適しており、その統計チャネル状態情報はトレーニング効率を約30%向上させる。 3)提案したDT-DPGアルゴリズムは,最適化性能,トレーニング時間,非局所最適化能力の観点から,従来のDeep Deterministic Policy gradient (DDPG)アルゴリズムよりも優れている。

A communication enabled indoor intelligent robots (IRs) service framework is proposed, where non-orthogonal multiple access (NOMA) technique is adopted to enable highly reliable communications. In cooperation with the ultramodern indoor channel model recently proposed by the International Telecommunication Union (ITU), the Lego modeling method is proposed, which can deterministically describe the indoor layout and channel state in order to construct the radio map. The investigated radio map is invoked as a virtual environment to train the reinforcement learning agent, which can save training time and hardware costs. Build on the proposed communication model, motions of IRs who need to reach designated mission destinations and their corresponding down-link power allocation policy are jointly optimized to maximize the mission efficiency and communication reliability of IRs. In an effort to solve this optimization problem, a novel reinforcement learning approach named deep transfer deterministic policy gradient (DT-DPG) algorithm is proposed. Our simulation results demonstrate that 1) With the aid of NOMA techniques, the communication reliability of IRs is effectively improved; 2) The radio map is qualified to be a virtual training environment, and its statistical channel state information improves training efficiency by about 30%; 3) The proposed DT-DPG algorithm is superior to the conventional deep deterministic policy gradient (DDPG) algorithm in terms of optimization performance, training time, and anti-local optimum ability.
翻訳日:2022-09-22 03:15:03 公開日:2020-11-26
# 強化学習によるラストアクションの学習原理

Learning Principle of Least Action with Reinforcement Learning ( http://arxiv.org/abs/2011.11891v2 )

ライセンス: Link先を確認
Zehao Jin, Joshua Yao-Yu Lin, Siao-Fong Li(参考訳) 自然は、物体が伝播する経済的方法を好むため、強化学習によって物理学を理解する手段を提供する。 古典力学の場合には、自然は、作用 $\mathcal{s}$ と呼ばれるラグランジアンの積分に従って、経路に沿って移動する対象を好む。 報酬/報酬を$\mathcal{S}$の関数として設定することを考えると、エージェントは強化学習によって様々な環境における粒子の物理的軌道を学習することができる。 本研究では,屈折率の異なる材料に光がどのように伝播するかを学習し,q-ラーニングに基づくアルゴリズムを用いて,スネルの法則やフェルマーの原理で得られた解と同等の最小時間経路を回復できることを検証した。 また,経路積分形式に対する強化学習アプローチの類似性についても論じる。

Nature provides a way to understand physics with reinforcement learning since nature favors the economical way for an object to propagate. In the case of classical mechanics, nature favors the object to move along the path according to the integral of the Lagrangian, called the action $\mathcal{S}$. We consider setting the reward/penalty as a function of $\mathcal{S}$, so the agent could learn the physical trajectory of particles in various kinds of environments with reinforcement learning. In this work, we verified the idea by using a Q-Learning based algorithm on learning how light propagates in materials with different refraction indices, and show that the agent could recover the minimal-time path equivalent to the solution obtained by Snell's law or Fermat's Principle. We also discuss the similarity of our reinforcement learning approach to the path integral formalism.
翻訳日:2022-09-21 14:13:38 公開日:2020-11-26
# k-meansクラスタリングによるスケッチの有効性とスパース

Effective and Sparse Count-Sketch via k-means clustering ( http://arxiv.org/abs/2011.12046v2 )

ライセンス: Link先を確認
Yuhan Wang, Zijian Lei, Liang Lan(参考訳) Count-sketch は、入力データ行列 X を O(nnz(X)) 時間でスケッチできる一般的な行列スケッチアルゴリズムであり、nnz(X) は X のゼロでないエントリの数を表す。 したがって、カウントスケッチは機械学習における高次元課題への対処に広く用いられている。 しかし、count-sketchの主な制限は2つある:(1)count-sketchを使用するスケッチ行列はランダムに生成され、xの固有のデータ特性を考慮しない。 この密集したスケッチマトリクスは、後の機械学習タスクを元のスパースデータxよりも計算コストが高くなる可能性がある。この2つの制限に対処するために、count-sketch法の再構成誤差を分析して、count-sketchとk-meansクラスタリングの興味深い関係を示す。 そこで本研究では,k-meansクラスタリングアルゴリズムを用いて数値スケッチの再構成誤差を低減し,低次元スケッチ行列を得る。 さらに,-L1球投射による勾配降下を用いたk平均クラスタリングの解法を提案し,スパーススケッチ行列を生成する。 6つの実生活分類データセットに基づく実験結果から,提案手法は従来のカウントスケッチや一般的な行列スケッチアルゴリズムよりも精度が高いことを示した。 また,本手法は他の手法よりもスペーサースケッチデータ行列を生成するので,提案手法の予測コストは他の手法よりも小さくなることを示す。

Count-sketch is a popular matrix sketching algorithm that can produce a sketch of an input data matrix X in O(nnz(X))time where nnz(X) denotes the number of non-zero entries in X. The sketched matrix will be much smaller than X while preserving most of its properties. Therefore, count-sketch is widely used for addressing high-dimensionality challenge in machine learning. However, there are two main limitations of count-sketch: (1) The sketching matrix used count-sketch is generated randomly which does not consider any intrinsic data properties of X. This data-oblivious matrix sketching method could produce a bad sketched matrix which will result in low accuracy for subsequent machine learning tasks (e.g.classification); (2) For highly sparse input data, count-sketch could produce a dense sketched data matrix. This dense sketch matrix could make the subsequent machine learning tasks more computationally expensive than on the original sparse data X. To address these two limitations, we first show an interesting connection between count-sketch and k-means clustering by analyzing the reconstruction error of the count-sketch method. Based on our analysis, we propose to reduce the reconstruction error of count-sketch by using k-means clustering algorithm to obtain the low-dimensional sketched matrix. In addition, we propose to solve k-mean clustering using gradient descent with -L1 ball projection to produce a sparse sketched matrix. Our experimental results based on six real-life classification datasets have demonstrated that our proposed method achieves higher accuracy than the original count-sketch and other popular matrix sketching algorithms. Our results also demonstrate that our method produces a sparser sketched data matrix than other methods and therefore the prediction cost of our method will be smaller than other matrix sketching methods.
翻訳日:2022-09-21 13:57:02 公開日:2020-11-26
# OrgMining 2.0: イベントログから組織モデルマイニングを行う新しいフレームワーク

OrgMining 2.0: A Novel Framework for Organizational Model Mining from Event Logs ( http://arxiv.org/abs/2011.12445v2 )

ライセンス: Link先を確認
Jing Yang, Chun Ouyang, Wil M.P. van der Aalst, Arthur H.M. ter Hofstede, Yang Yu(参考訳) 人的資源に関する適切な構造を提供することで、運用を合理化し、組織の競争力を高めることができる。 この目標を達成するために、現代組織は、常に変化する環境に直面しながら、人的資源グループ化の正確かつタイムリーな理解を得る必要がある。 プロセスマイニングの利用は、情報システムに保存されたイベントログデータを利用することで、ニーズに対処するための有望な方法を提供する。 イベントログからビジネスプロセスに参加しているリソースの実際の振る舞いに関する知識を抽出することで、プロセス実行に関連する人的資源のデファクトグループ化の分析を容易にする組織モデルを構築することができる。 それでも、リソースグループ化の分析に最先端のプロセスマイニングを適用する場合、オープンリサーチのギャップは引き続き解決される。 例えば、組織モデルの発見は、プロセス実行のコンテキストとのつながりが限られているだけである。 また、イベントログデータに対する組織モデルを評価する厳格なソリューションはまだ提案されていない。 本稿では,プロセス実行知識と資源グループを結合する組織モデルのよりリッチな定義に基づく新しいフレームワークを開発することにより,これらの研究課題に取り組むことを目的とする。 組織モデルの適合性チェックの概念を導入することにより、組織モデルの効果的な評価を可能にし、イベントログに基づくリソースグループ化の分析と改善のための基盤を提供する。 組織モデル発見の枠組みに根ざしたアプローチを提案し、実生活イベントログの実験を行い、組織モデルを発見し評価することで、このフレームワークの有効性を実証する。

Providing appropriate structures around human resources can streamline operations and thus facilitate the competitiveness of an organization. To achieve this goal, modern organizations need to acquire an accurate and timely understanding of human resource grouping while faced with an ever-changing environment. The use of process mining offers a promising way to help address the need through utilizing event log data stored in information systems. By extracting knowledge about the actual behavior of resources participating in business processes from event logs, organizational models can be constructed, which facilitate the analysis of the de facto grouping of human resources relevant to process execution. Nevertheless, open research gaps remain to be addressed when applying the state-of-the-art process mining to analyze resource grouping. For one, the discovery of organizational models has only limited connections with the context of process execution. For another, a rigorous solution that evaluates organizational models against event log data is yet to be proposed. In this paper, we aim to tackle these research challenges by developing a novel framework built upon a richer definition of organizational models coupling resource grouping with process execution knowledge. By introducing notions of conformance checking for organizational models, the framework allows effective evaluation of organizational models, and therefore provides a foundation for analyzing and improving resource grouping based on event logs. We demonstrate the feasibility of this framework by proposing an approach underpinned by the framework for organizational model discovery, and also conduct experiments on real-life event logs to discover and evaluate organizational models.
翻訳日:2022-09-21 13:55:47 公開日:2020-11-26
# グローバルsfmのための効率的な初期ポーズグラフ生成

Efficient Initial Pose-graph Generation for Global SfM ( http://arxiv.org/abs/2011.11986v2 )

ライセンス: Link先を確認
Daniel Barath, Dmytro Mishkin, Ivan Eichhardt, Ilia Shipachev, Jiri Matas(参考訳) そこで本研究では,グローバルなStructure-from-Motionアルゴリズムの初期ポーズグラフ生成を高速化する方法を提案する。 ポーズグラフ作成の最も時間を要するステップであるflnnによる仮の点対応とransacによる幾何学的検証を避けるために,画像対は通常連続的にマッチングされるという事実に基づく2つの新しい手法を提案する。 これにより、部分的に構築されたポーズグラフのパスから候補相対ポーズを回収することができる。 画像のグローバルな類似性とポーズグラフエッジの品質を考慮したA*トラバースのヒューリスティックを提案する。 経路からの相対的なポーズが与えられると、ディスクリプタベースの特徴マッチングは既知のエピポーラ幾何を利用して「軽量化」される。 RANSACを適用した場合のPROSACに基づくサンプリングを高速化するため,従来の推定値から不整合確率で対応を順序付けする第3の手法を提案する。 アルゴリズムは1dsfmデータセットから402130のイメージペアでテストされ、17回マッチングした機能をスピードアップし、5回のポーズ推定を行う。

We propose ways to speed up the initial pose-graph generation for global Structure-from-Motion algorithms. To avoid forming tentative point correspondences by FLANN and geometric verification by RANSAC, which are the most time-consuming steps of the pose-graph creation, we propose two new methods - built on the fact that image pairs usually are matched consecutively. Thus, candidate relative poses can be recovered from paths in the partly-built pose-graph. We propose a heuristic for the A* traversal, considering global similarity of images and the quality of the pose-graph edges. Given a relative pose from a path, descriptor-based feature matching is made "light-weight" by exploiting the known epipolar geometry. To speed up PROSAC-based sampling when RANSAC is applied, we propose a third method to order the correspondences by their inlier probabilities from previous estimations. The algorithms are tested on 402130 image pairs from the 1DSfM dataset and they speed up the feature matching 17 times and pose estimation 5 times.
翻訳日:2022-09-21 13:28:14 公開日:2020-11-26
# マルチモーダル学習による医療施設の畳み込みによる臨床成績予測の改善

Improving Clinical Outcome Predictions Using Convolution over Medical Entities with Multimodal Learning ( http://arxiv.org/abs/2011.12349v2 )

ライセンス: Link先を確認
Batuhan Bardak and Mehmet Tan(参考訳) 患者の死亡率と滞在期間(ロス)の早期予測は、患者の生命を救い、病院の資源を管理するのに不可欠である。 電子健康記録(EHR)の可用性は、医療領域に大きな影響を与え、臨床問題を予測するためにいくつかの研究がなされている。 しかし,小ささと高次元性のため,多くの研究は臨床ノートの恩恵を受けなかった。 本研究は, 臨床ノートから医療機関を抽出し, 時系列機能に加えて追加機能として活用し, 予測精度の向上を図る。 我々は、医療機関と患者の時系列ICU信号を効果的に組み合わせて学習するだけでなく、Word2vecやFastTextといった様々な埋め込み技術が医療機関に与える影響を比較することができる畳み込み型マルチモーダルアーキテクチャを提案する。 実験では,提案手法が臨床タスクにおいて異なるマルチモーダルアーキテクチャを含む他のすべてのベースラインモデルよりも頑健に優れることを示す。 提案するメソッドのコードはhttps://github.com/tanlab/convolutionmedicalnerで利用可能である。

Early prediction of mortality and length of stay(LOS) of a patient is vital for saving a patient's life and management of hospital resources. Availability of electronic health records(EHR) makes a huge impact on the healthcare domain and there has seen several works on predicting clinical problems. However, many studies did not benefit from the clinical notes because of the sparse, and high dimensional nature. In this work, we extract medical entities from clinical notes and use them as additional features besides time-series features to improve our predictions. We propose a convolution based multimodal architecture, which not only learns effectively combining medical entities and time-series ICU signals of patients, but also allows us to compare the effect of different embedding techniques such as Word2vec, FastText on medical entities. In the experiments, our proposed method robustly outperforms all other baseline models including different multimodal architectures for all clinical tasks. The code for the proposed method is available at https://github.com/tanlab/ConvolutionMedicalNer.
翻訳日:2022-09-21 12:45:24 公開日:2020-11-26
# 機械学習カンファレンスのレビュープロセスの分析

Analyzing the Machine Learning Conference Review Process ( http://arxiv.org/abs/2011.12919v2 )

ライセンス: Link先を確認
David Tran, Alex Valtchanov, Keshav Ganapathy, Raymond Feng, Eric Slud, Micah Goldblum, Tom Goldstein(参考訳) 主流の機械学習カンファレンスは、近年、参加者の数が劇的に増加し、さまざまな視点が増加している。 機械学習コミュニティのメンバーは、受け入れ決定のランダム性から機関バイアスまで、噂を耳にしがちだ。 本研究は,2017年から2020年にかけてiclrに提出された論文の包括的調査を通じて,レビュープロセスを批判的に分析する。 レビュースコアと受理決定における再現性/ランダム性を定量化し、スコアが紙の影響と相関するかどうかを検討する。 本研究は, 紙の品質管理においても, 受否決定の制度的偏見が強いことを示唆する。 さらに,男女差の証拠も見いだされ,女性著者は男性よりもスコアが低く,受入率も低く,用紙1枚あたりの引用率も低かった。 今後のカンファレンスオーガナイザのためのレコメンデーションで作業を終えます。

Mainstream machine learning conferences have seen a dramatic increase in the number of participants, along with a growing range of perspectives, in recent years. Members of the machine learning community are likely to overhear allegations ranging from randomness of acceptance decisions to institutional bias. In this work, we critically analyze the review process through a comprehensive study of papers submitted to ICLR between 2017 and 2020. We quantify reproducibility/randomness in review scores and acceptance decisions, and examine whether scores correlate with paper impact. Our findings suggest strong institutional bias in accept/reject decisions, even after controlling for paper quality. Furthermore, we find evidence for a gender gap, with female authors receiving lower scores, lower acceptance rates, and fewer citations per paper than their male counterparts. We conclude our work with recommendations for future conference organizers.
翻訳日:2022-09-21 12:08:10 公開日:2020-11-26
# デンマークがtrec covid-19 challengeに参加:covid-19に関する正確な生物医学的科学的情報検索から学んだ教訓

Denmark's Participation in the Search Engine TREC COVID-19 Challenge: Lessons Learned about Searching for Precise Biomedical Scientific Information on COVID-19 ( http://arxiv.org/abs/2011.12684v2 )

ライセンス: Link先を確認
Lucas Chaves Lima, Casper Hansen, Christian Hansen, Dongsheng Wang, Maria Maistro, Birger Larsen, Jakob Grue Simonsen and Christina Lioma(参考訳) 本稿では,コペンハーゲン大学とアルボーグ大学という2つのデンマークの大学が,米国国立標準技術研究所(NIST)とそのテキスト検索会議(TREC)部門が主催する,COVID-19(2020 TREC-COVID Challenge)に関する国際検索エンジンコンペティションに参加することを述べる。 このコンペの目的は、covid-19の正確な生物医学的情報を取得するための最良の検索エンジン戦略を見つけることであり、その時点では、covid-19 -- the covid-19 open research dataset (cord-19) に関するキュレートされた科学文献のデータセットが最大だった。 CORD-19は2020年3月、米国ホワイトハウスによるテクノロジーコミュニティへの行動を呼びかけた結果であり、その後間もなく、アレン・インスティチュート・フォー・AI、チャン・ザッカーバーグ・イニシアチブ、ジョージタウン大学のセキュリティ・新興技術センター、Microsoft、アメリカ国立衛生研究所の国立医学図書館のAIコンペティションとしてKaggleに投稿された。 CORD-19には、新型コロナウイルス(COVID-19)、SARS-CoV-2(SARS-CoV-2)、関連する新型コロナウイルスに関する20万以上の学術論文(うち10万件は全文)が含まれていた。 trec-covidチャレンジは、最良の方法を求めました a) バイオメディカルの専門家が作成したクエリに応答して、正確で正確な科学的情報を検索し、 (b)クエリとの関連により、この情報を徐々にランク付けする。 本稿では,TREC-COVIDコンペティションのセットアップ,それへの参加,そして,パンデミックの最中に,高度に専門化されたクエリに応答して,急速に増大する文学のコーパスから,正確な科学的情報を取得するという急性課題に直面した際の,最先端技術に関する考察と教訓について述べる。

This report describes the participation of two Danish universities, University of Copenhagen and Aalborg University, in the international search engine competition on COVID-19 (the 2020 TREC-COVID Challenge) organised by the U.S. National Institute of Standards and Technology (NIST) and its Text Retrieval Conference (TREC) division. The aim of the competition was to find the best search engine strategy for retrieving precise biomedical scientific information on COVID-19 from the largest, at that point in time, dataset of curated scientific literature on COVID-19 -- the COVID-19 Open Research Dataset (CORD-19). CORD-19 was the result of a call to action to the tech community by the U.S. White House in March 2020, and was shortly thereafter posted on Kaggle as an AI competition by the Allen Institute for AI, the Chan Zuckerberg Initiative, Georgetown University's Center for Security and Emerging Technology, Microsoft, and the National Library of Medicine at the US National Institutes of Health. CORD-19 contained over 200,000 scholarly articles (of which more than 100,000 were with full text) about COVID-19, SARS-CoV-2, and related coronaviruses, gathered from curated biomedical sources. The TREC-COVID challenge asked for the best way to (a) retrieve accurate and precise scientific information, in response to some queries formulated by biomedical experts, and (b) rank this information decreasingly by its relevance to the query. In this document, we describe the TREC-COVID competition setup, our participation to it, and our resulting reflections and lessons learned about the state-of-art technology when faced with the acute task of retrieving precise scientific information from a rapidly growing corpus of literature, in response to highly specialised queries, in the middle of a pandemic.
翻訳日:2022-09-21 03:49:05 公開日:2020-11-26
# 非線形変形プロキシによる医用画像解析のためのプライバシー保護

Privacy Preserving for Medical Image Analysis via Non-Linear Deformation Proxy ( http://arxiv.org/abs/2011.12835v2 )

ライセンス: Link先を確認
Bach Ngoc Kim, Jose Dolz, Christian Desrosiers, Pierre-Marc Jodoin(参考訳) 患者識別を保ちながら多中心医療画像の分析を可能にするクライアントサーバシステムを提案する。 本手法では,入力画像に疑似ランダムな非線形変形を適用することで患者同一性を保護する。 これによりプロキシイメージがサーバに送信され、処理が行われる。 そしてサーバは、クライアントが標準形式に戻す、変形した処理された画像を返却する。 システムには3つの要素があります 1)擬似ランダム変形関数を生成する流れ場発生装置。 2) 処理画像から患者同一性を学ぶシアム判別器 3)プロキシ画像の内容を分析する医用画像処理ネットワーク。 システムは対角的にエンドツーエンドに訓練される。 判別器を騙すことにより、フローフィールド生成器は、入力画像と出力結果の両方から被写体の同一性を排除して回復する双方向の非線形変形を生成する。 エンドツーエンドのトレーニングの後、フローフィールドジェネレータはクライアント側に配置され、セグメンテーションネットワークはサーバ側に配置される。 提案手法は, 2つの異なるデータセットから得られた画像を用いて, mri脳分割のタスクで検証する。 その結果,本手法のセグメンテーション精度は非符号化画像で訓練されたシステムに似ているが,被写体同一性回復能力は大幅に低下することがわかった。

We propose a client-server system which allows for the analysis of multi-centric medical images while preserving patient identity. In our approach, the client protects the patient identity by applying a pseudo-random non-linear deformation to the input image. This results into a proxy image which is sent to the server for processing. The server then returns back the deformed processed image which the client reverts to a canonical form. Our system has three components: 1) a flow-field generator which produces a pseudo-random deformation function, 2) a Siamese discriminator that learns the patient identity from the processed image, 3) a medical image processing network that analyzes the content of the proxy images. The system is trained end-to-end in an adversarial manner. By fooling the discriminator, the flow-field generator learns to produce a bi-directional non-linear deformation which allows to remove and recover the identity of the subject from both the input image and output result. After end-to-end training, the flow-field generator is deployed on the client side and the segmentation network is deployed on the server side. The proposed method is validated on the task of MRI brain segmentation using images from two different datasets. Results show that the segmentation accuracy of our method is similar to a system trained on non-encoded images, while considerably reducing the ability to recover subject identity.
翻訳日:2022-09-21 03:42:14 公開日:2020-11-26
# データ駆動戦略に基づくロバストかつ投機的不動産価格モデルの構築

Towards robust and speculation-reduction real estate pricing models based on a data-driven strategy ( http://arxiv.org/abs/2012.09115v1 )

ライセンス: Link先を確認
Vladimir Vargas-Calder\'on and Jorge E. Camargo(参考訳) 多くの国では、不動産評価は、鑑定者のデータ収集・解釈・不動産価格のモデル化能力に依存する従来の手法に基づいている。 不動産オンラインプラットフォームの利用が増え、大量の情報が存在することから、主観性、コスト、不公平といった従来の価格モデルの多くの欠点を克服する可能性がある。 本稿では,人的バイアスを低減させる価格推定のための機械学習手法に基づくデータ駆動不動産価格モデルを提案する。 2016年から2020年にかけて収集した178,865個のフラットリストをテストした。 その結果,提案手法はロバストで正確な不動産価格推定が可能であることがわかった。 このケーススタディは、開発途上国の地方自治体が、すべての不動産市場の利害関係者の公正性を高め、価格投機を減らした大規模なデータセットに基づいて不動産価格モデルについて議論し、構築するインセンティブとなる。

In many countries, real estate appraisal is based on conventional methods that rely on appraisers' abilities to collect data, interpret it and model the price of a real estate property. With the increasing use of real estate online platforms and the large amount of information found therein, there exists the possibility of overcoming many drawbacks of conventional pricing models such as subjectivity, cost, unfairness, among others. In this paper we propose a data-driven real estate pricing model based on machine learning methods to estimate prices reducing human bias. We test the model with 178,865 flats listings from Bogot\'a, collected from 2016 to 2020. Results show that the proposed state-of-the-art model is robust and accurate in estimating real estate prices. This case study serves as an incentive for local governments from developing countries to discuss and build real estate pricing models based on large data sets that increases fairness for all the real estate market stakeholders and reduces price speculation.
翻訳日:2022-09-20 12:54:41 公開日:2020-11-26
# Rを用いたソーシャルメディアネットワークデータの分析 : ユーザ,コメント,コミュニケーションパターンの半自動スクリーニング

Analysing Social Media Network Data with R: Semi-Automated Screening of Users, Comments and Communication Patterns ( http://arxiv.org/abs/2011.13327v1 )

ライセンス: Link先を確認
Dennis Klinkhammer(参考訳) ソーシャルメディアプラットフォーム上でのコミュニケーションは、文化的かつ政治的に重要なだけでなく、社会全体に広まりつつある。 ユーザーはソーシャルメディアプラットフォームを介して通信するだけでなく、情報を検索したり広めたり、情報自体を投稿したりすることもできる。 しかし、フェイクニュース、ヘイトスピーチ、さらには過激化要素は、現代のコミュニケーションの形式の一部である。 これらのメカニズムとコミュニケーションパターンの基本的な理解は、子どものいじめや極端な政治的視点など、ネガティブなコミュニケーション形態に対抗するのに役立つ。 この目的のために、基礎となるコミュニケーションパターンを分解し、個々のユーザーを追跡し、ソーシャルメディアプラットフォーム上でコメントや範囲を検査するための方法が提示される。 この近似は、フレーミングされたソーシャルネットワークとトピックが考慮されている場合、特にアクティブなユーザーを100%の精度で識別することができる。 しかし、ヘイトスピーチ、フェイクニュース、過激化要素を広めるユーザに対する感度と特異性を確保するためには、方法論と反作用アプローチがさらに動的で柔軟でなければならない。

Communication on social media platforms is not only culturally and politically relevant, it is also increasingly widespread across societies. Users not only communicate via social media platforms, but also search specifically for information, disseminate it or post information themselves. However, fake news, hate speech and even radicalizing elements are part of this modern form of communication: Sometimes with far-reaching effects on individuals and societies. A basic understanding of these mechanisms and communication patterns could help to counteract negative forms of communication, e.g. bullying among children or extreme political points of view. To this end, a method will be presented in order to break down the underlying communication patterns, to trace individual users and to inspect their comments and range on social media platforms; Or to contrast them later on via qualitative research. This approeach can identify particularly active users with an accuracy of 100 percent, if the framing social networks as well as the topics are taken into account. However, methodological as well as counteracting approaches must be even more dynamic and flexible to ensure sensitivity and specifity regarding users who spread hate speech, fake news and radicalizing elements.
翻訳日:2022-09-20 12:44:07 公開日:2020-11-26
# 適応非線形制御のための後悔境界

Regret Bounds for Adaptive Nonlinear Control ( http://arxiv.org/abs/2011.13101v1 )

ライセンス: Link先を確認
Nicholas M. Boffi and Stephen Tu and Jean-Jacques E. Slotine(参考訳) 非モデル化外乱を受ける既知の離散時間非線形系を適応的に制御する問題について検討する。 確率的条件下では不確実性に一致した適応非線形制御に対する最初の有限時間後悔境界を証明し、不規則な乱の完全な知識を持つオラクルコントローラと比較して、一定の同値適応制御に苦しむ後悔は期待値$\widetilde{O}(\sqrt{T})$で上界となることを示す。 さらに、入力が$k$のタイムステップ遅延を受けると、後悔は$\widetilde{O}(k \sqrt{T})$に分解される。 非線形制御理論(リャプノフ安定性と収縮理論)における古典的安定性の概念と、オンライン凸最適化による現代の後悔分析の関連性について述べる。 安定性理論を用いることで、挑戦的な無限水平単軌道設定を解析できる。

We study the problem of adaptively controlling a known discrete-time nonlinear system subject to unmodeled disturbances. We prove the first finite-time regret bounds for adaptive nonlinear control with matched uncertainty in the stochastic setting, showing that the regret suffered by certainty equivalence adaptive control, compared to an oracle controller with perfect knowledge of the unmodeled disturbances, is upper bounded by $\widetilde{O}(\sqrt{T})$ in expectation. Furthermore, we show that when the input is subject to a $k$ timestep delay, the regret degrades to $\widetilde{O}(k \sqrt{T})$. Our analysis draws connections between classical stability notions in nonlinear control theory (Lyapunov stability and contraction theory) and modern regret analysis from online convex optimization. The use of stability theory allows us to analyze the challenging infinite-horizon single trajectory setting.
翻訳日:2022-09-20 12:43:47 公開日:2020-11-26
# MPC構築のための入力凸ニューラルネットワーク

Input Convex Neural Networks for Building MPC ( http://arxiv.org/abs/2011.13227v1 )

ライセンス: Link先を確認
Felix B\"unning, Adrian Schalbetter, Ahmed Aboudonia, Mathias Hudoba de Badyn, Philipp Heer, John Lygeros(参考訳) 建物のモデル予測制御は、エネルギー消費を大幅に削減することができる。 建物のための第一原理モデルの作成と維持に必要なコストと労力は、この領域でデータ駆動モデリングを魅力的な代替手段にする。 MPCでは、モデルが最適化問題の基礎を形成し、その解がシステムに適用される制御信号を提供する。 この最適化問題をリアルタイムで繰り返し解決しなければならないという事実は、使用可能な学習アーキテクチャの制約を意味する。 ここでは、MPC構築に使用する1ステップの予測に対して一般的には凸である入力凸ニューラルネットワークを適用する。 我々は,多段階予測のための凸入出力関係を実現するために,その構造と重み付けに付加的な制約を導入する。 スイスのアパートにおける実生活MPC実験において,モデル精度に対する追加制約の結果を評価し,そのモデルをテストする。 2つの5日間の冷却実験において、入力凸ニューラルネットワークを用いたMPCは、冷却エネルギー消費を最小限に抑えながら室温を快適な制約内に保持することができる。

Model Predictive Control in buildings can significantly reduce their energy consumption. The cost and effort necessary for creating and maintaining first principle models for buildings make data-driven modelling an attractive alternative in this domain. In MPC the models form the basis for an optimization problem whose solution provides the control signals to be applied to the system. The fact that this optimization problem has to be solved repeatedly in real-time implies restrictions on the learning architectures that can be used. Here, we adapt Input Convex Neural Networks that are generally only convex for one-step predictions, for use in building MPC. We introduce additional constraints to their structure and weights to achieve a convex input-output relationship for multistep ahead predictions. We assess the consequences of the additional constraints for the model accuracy and test the models in a real-life MPC experiment in an apartment in Switzerland. In two five-day cooling experiments, MPC with Input Convex Neural Networks is able to keep room temperatures within comfort constraints while minimizing cooling energy consumption.
翻訳日:2022-09-20 12:43:27 公開日:2020-11-26
# 強化学習を用いたモデル予測制御更新間隔の最適化

Optimization of the Model Predictive Control Update Interval Using Reinforcement Learning ( http://arxiv.org/abs/2011.13365v1 )

ライセンス: Link先を確認
Eivind B{\o}hn, Sebastien Gros, Signe Moe, Tor Arne Johansen(参考訳) 制御アプリケーションでは、コントローラの複雑さと性能と利用可能な計算資源に関して、しばしば妥協が必要である。 例えば、組み込み制御アプリケーションにおける典型的なハードウェアプラットフォームは、メモリと処理能力に制限があるマイクロコントローラであり、バッテリー駆動アプリケーションでは、制御システムはエネルギー消費のかなりの部分を占めることができる。 本稿では,制御対象に合わせて計算コストを明示的に最適化するコントローラアーキテクチャを提案する。 これは高レベルで計算コストのかかるコントローラが計画を生成する3部構成で実現され、計算的にシンプルなコントローラは予測エラーを補償して実行され、再計算ポリシーは計画の再計算をいつ行うかを決定する。 本稿では,高レベルの計画生成コントローラとしてモデル予測制御(MPC),簡易な補償コントローラとして線形状態フィードバック制御,再計算ポリシーを学ぶために強化学習(RL)を用いる。 2つの例のシミュレーション結果は、MPCアプローチを改善するアーキテクチャの能力を示し、制御目的と拡張された計算資源の性能を測る合理的な妥協を見出す。

In control applications there is often a compromise that needs to be made with regards to the complexity and performance of the controller and the computational resources that are available. For instance, the typical hardware platform in embedded control applications is a microcontroller with limited memory and processing power, and for battery powered applications the control system can account for a significant portion of the energy consumption. We propose a controller architecture in which the computational cost is explicitly optimized along with the control objective. This is achieved by a three-part architecture where a high-level, computationally expensive controller generates plans, which a computationally simpler controller executes by compensating for prediction errors, while a recomputation policy decides when the plan should be recomputed. In this paper, we employ model predictive control (MPC) as the high-level plan-generating controller, a linear state feedback controller as the simpler compensating controller, and reinforcement learning (RL) to learn the recomputation policy. Simulation results for two examples showcase the architecture's ability to improve upon the MPC approach and find reasonable compromises weighing the performance on the control objective and the computational resources expended.
翻訳日:2022-09-20 12:42:53 公開日:2020-11-26
# 結果の不一致

Outcome Indistinguishability ( http://arxiv.org/abs/2011.13426v1 )

ライセンス: Link先を確認
Cynthia Dwork and Michael P. Kim and Omer Reingold and Guy N. Rothblum and Gal Yona(参考訳) 予測アルゴリズムは、一般に「確率」と理解されている個人に数字を割り当てる。がん診断後の5年間の生存確率は? そしてそれが、人生を変える決定の基礎となるのです。 複雑性理論と暗号学で発達した計算不一致性の理解に基づいて,アウトカム不一致性を紹介する。 結果が区別できない予測者は、自然が生み出した実生活観察に基づいて効率的に反論できない結果の生成モデルを得る。 結果識別不能定義の階層について検討し,その厳密性は,識別者が対象の予測者にアクセス可能な程度で向上する。 その結果,アウトカム不識別性は従来研究されていた不識別性の概念と定性的に異なる挙動を示した。 まず、階層のあらゆるレベルで構成を提供します。 そして,最近開発された機械を平均的な細粒度硬さの証明に利用し,より厳密な結果の区別不能性の複雑さを低く評価した。 この難易度の結果は、アルゴリズムのリスク予測機器を検査する際、監査人は単なる歴史的予測ではなく、アルゴリズムへのオラクルアクセスを与えられるべきであるという政治的議論の最初の科学的根拠を提供する。

Prediction algorithms assign numbers to individuals that are popularly understood as individual "probabilities" -- what is the probability of 5-year survival after cancer diagnosis? -- and which increasingly form the basis for life-altering decisions. Drawing on an understanding of computational indistinguishability developed in complexity theory and cryptography, we introduce Outcome Indistinguishability. Predictors that are Outcome Indistinguishable yield a generative model for outcomes that cannot be efficiently refuted on the basis of the real-life observations produced by Nature. We investigate a hierarchy of Outcome Indistinguishability definitions, whose stringency increases with the degree to which distinguishers may access the predictor in question. Our findings reveal that Outcome Indistinguishability behaves qualitatively differently than previously studied notions of indistinguishability. First, we provide constructions at all levels of the hierarchy. Then, leveraging recently-developed machinery for proving average-case fine-grained hardness, we obtain lower bounds on the complexity of the more stringent forms of Outcome Indistinguishability. This hardness result provides the first scientific grounds for the political argument that, when inspecting algorithmic risk prediction instruments, auditors should be granted oracle access to the algorithm, not simply historical predictions.
翻訳日:2022-09-20 12:42:35 公開日:2020-11-26
# 聴覚情報とデモグラフィ情報を用いた肺疾患診断のためのニューラルネットワーク

Neural Networks for Pulmonary Disease Diagnosis using Auditory and Demographic Information ( http://arxiv.org/abs/2011.13194v1 )

ライセンス: Link先を確認
Morteza Hosseini, Haoran Ren, Hasib-Al Rashid, Arnab Neelim Mazumder, Bharat Prakash, and Tinoosh Mohsenin(参考訳) 肺疾患は世界中で毎年何百万もの生命に影響を与えている。 新型の肺感染症である新型コロナウイルス(covid-19)のパンデミックは、呼吸器疾患のマシン支援診断に研究コミュニティの注目を集めている。 そこで本研究では,呼吸障害の分類に機械学習を応用し,診断システムの感度と特異性を高めるためのデータセットとして,相関情報(本研究における聴覚情報と人口統計情報)を多用する枠組みを提案する。 まず,deep convolutional neural network (dcnns) を用いて,公表された肺聴覚データセットの処理と分類を行い,データセット内の既存の人口統計情報を活用し,人口統計情報と連携して聴覚情報に基づいてトレーニングした場合,肺分類の精度が5%向上することを示す。 コンピュータビジョンを用いて人口統計データを抽出できるので、別の並列DCNNを用いて、コンピュータが視認する被験者の人口統計情報を推定することを提案する。 最後に、ユーザの指先で医療システムを実現するための提案として、NVIDIA TX2開発ボードの処理コンポーネントへの聴覚DCNNモデルの展開特性を測定する。

Pulmonary diseases impact millions of lives globally and annually. The recent outbreak of the pandemic of the COVID-19, a novel pulmonary infection, has more than ever brought the attention of the research community to the machine-aided diagnosis of respiratory problems. This paper is thus an effort to exploit machine learning for classification of respiratory problems and proposes a framework that employs as much correlated information (auditory and demographic information in this work) as a dataset provides to increase the sensitivity and specificity of a diagnosing system. First, we use deep convolutional neural networks (DCNNs) to process and classify a publicly released pulmonary auditory dataset, and then we take advantage of the existing demographic information within the dataset and show that the accuracy of the pulmonary classification increases by 5% when trained on the auditory information in conjunction with the demographic information. Since the demographic data can be extracted using computer vision, we suggest using another parallel DCNN to estimate the demographic information of the subject under test visioned by the processing computer. Lastly, as a proposition to bring the healthcare system to users' fingertips, we measure deployment characteristics of the auditory DCNN model onto processing components of an NVIDIA TX2 development board.
翻訳日:2022-09-20 12:35:36 公開日:2020-11-26
# Covid-19パンデミックにおける経済リスク評価のための教師なし学習

Unsupervised learning for economic risk evaluation in the context of Covid-19 pandemic ( http://arxiv.org/abs/2011.13350v1 )

ライセンス: Link先を確認
Santiago Cortes and Yullys M. Quintero(参考訳) 新型コロナウイルス(COVID-19)パンデミックにおけるドラコニア対策の正当化は、個人の権利の制限だけでなく、経済への影響によっても困難であった。 この研究の目的は、同様の健康政策を実施するべき地域を特定するための機械学習アプローチを提供することである。 そこで我々は,教師なし学習と時系列予測を通じて,新たな事例の予測を考慮し,経済的影響の概念を提示するシステムを開発した。 このシステムは、システムのレジリエンスを改善するために、計算上の制約と低いメンテナンス要件を考慮して構築された。 最後に、このシステムはコロンビアのCOVID-19のシミュレーションとデータ分析のためのWebアプリケーションの一部としてデプロイされた(https://covid19.dis.eafit.edu.co)。

Justifying draconian measures during the Covid-19 pandemic was difficult not only because of the restriction of individual rights, but also because of its economic impact. The objective of this work is to present a machine learning approach to identify regions that should implement similar health policies. For that end, we successfully developed a system that gives a notion of economic impact given the prediction of new incidental cases through unsupervised learning and time series forecasting. This system was built taking into account computational restrictions and low maintenance requirements in order to improve the system's resilience. Finally this system was deployed as part of a web application for simulation and data analysis of COVID-19, in Colombia, available at (https://covid19.dis.eafit.edu.co).
翻訳日:2022-09-20 12:34:57 公開日:2020-11-26
# shapeflow: tensorflow用の動的シェイプインタプリタ

ShapeFlow: Dynamic Shape Interpreter for TensorFlow ( http://arxiv.org/abs/2011.13452v1 )

ライセンス: Link先を確認
Sahil Verma and Zhendong Su(参考訳) これはtensorflowの動的抽象インタプリタで、ディープラーニングコードの最も一般的なバグの1つである、テンソル形状の非互換性エラーを素早く検出する。 ShapeFlowはTensorFlowと同じAPIを共有しているが、抽象ドメインであるテンソル形状のみをキャプチャして出力する。 ShapeFlowは、TensorFlowが使用している計算グラフと同様、カスタム形状の計算グラフを構築する。 ShapeFlowはプログラマによるコードアノテーションやコード修正を必要としないため、便利である。 本研究では、従来の実証研究によって収集された52プログラムのShapeFlowを評価し、TensorFlowと比較して形状不整合誤差をいかに高速かつ正確に把握できるかを示す。 最悪の場合のトレーニングデータセットのサイズと、より現実的なデータセットサイズです。 shapeflowは、シェイプ非互換性エラー(偽陽性なし、偽陰性なし)を高精度に検出し、1番目のベースラインで平均499倍、24倍のスピードアップを高い効率で検出する。 ShapeFlowは機械学習開発者の役に立つ実用的なツールだと思います。 私たちはGitHubでShapeFlowをオープンソースにして、開発者と研究コミュニティの両方に公開します。

We present ShapeFlow, a dynamic abstract interpreter for TensorFlow which quickly catches tensor shape incompatibility errors, one of the most common bugs in deep learning code. ShapeFlow shares the same APIs as TensorFlow but only captures and emits tensor shapes, its abstract domain. ShapeFlow constructs a custom shape computational graph, similar to the computational graph used by TensorFlow. ShapeFlow requires no code annotation or code modification by the programmer, and therefore is convenient to use. We evaluate ShapeFlow on 52 programs collected by prior empirical studies to show how fast and accurately it can catch shape incompatibility errors compared to TensorFlow. We use two baselines: a worst-case training dataset size and a more realistic dataset size. ShapeFlow detects shape incompatibility errors highly accurately -- with no false positives and a single false negative -- and highly efficiently -- with an average speed-up of 499X and 24X for the first and second baseline, respectively. We believe ShapeFlow is a practical tool that benefits machine learning developers. We will open-source ShapeFlow on GitHub to make it publicly available to both the developer and research communities.
翻訳日:2022-09-20 12:34:46 公開日:2020-11-26
# 音楽ジェスチャーの対話型機械学習

Interactive Machine Learning of Musical Gesture ( http://arxiv.org/abs/2011.13487v1 )

ライセンス: Link先を確認
Federico Ghelli Visi and Atau Tanaka(参考訳) 本稿では,音楽ジェスチャの分析と設計に応用する対話型機械学習(iml)技術の概要について述べる。 我々は、音声合成システムで行うことを目的として、人間の身体動作にAIM技術を適用し、分析し、適用することに関連する主な課題とニーズを概観する。 本稿では,複雑な合成技術とのインタラクションや,AIML(Assisted Interactive Machine Learning)と呼ばれるインタラクションパラダイムにおける強化学習(Reinforcement Learning, RL)によるインタラクション可能性の探索など,さまざまなタスクに異なるアルゴリズムが利用できるかについて議論する。 本章は,4曲の楽曲開発において,これらの技法のいくつかが著者によってどのように採用されたかを説明するとともに,IMLが音楽実践にもたらす意味を概説した。

This chapter presents an overview of Interactive Machine Learning (IML) techniques applied to the analysis and design of musical gestures. We go through the main challenges and needs related to capturing, analysing, and applying IML techniques to human bodily gestures with the purpose of performing with sound synthesis systems. We discuss how different algorithms may be used to accomplish different tasks, including interacting with complex synthesis techniques and exploring interaction possibilities by means of Reinforcement Learning (RL) in an interaction paradigm we developed called Assisted Interactive Machine Learning (AIML). We conclude the chapter with a description of how some of these techniques were employed by the authors for the development of four musical pieces, thus outlining the implications that IML have for musical practice.
翻訳日:2022-09-20 12:34:25 公開日:2020-11-26
# 機械学習による高速IRドロップ推定

Fast IR Drop Estimation with Machine Learning ( http://arxiv.org/abs/2011.13491v1 )

ライセンス: Link先を確認
Zhiyao Xie, Hai Li, Xiaoqing Xu, Jiang Hu, Yiran Chen(参考訳) IRドロップ制約は、ほとんどすべてのチップ設計で適用される基本的な要件である。 しかし、その評価には時間がかかるため、違反を修正するための緩和技術には多くのイテレーションが必要になる可能性がある。 そのため、設計のターンアラウンド時間を短縮するために、高速で正確なIRドロップ予測が重要となる。 近年、機械学習(ML)技術は、多くの分野でその可能性と成功のために、高速IRドロップ推定のために活発に研究されている。 これらの研究は様々な設計段階を対象としており、異なるMLアルゴリズムが採用され、カスタマイズされる。 本稿では,ML を用いた IR ドロップ推定手法の最近の進歩を概観する。 また、電子設計自動化(EDA)におけるMLアプリケーションで直面するいくつかの一般的な課題について議論し、従来の手法とMLモデルを統合して、EDAツールをより効率的にする方法を実証する手段としても機能する。

IR drop constraint is a fundamental requirement enforced in almost all chip designs. However, its evaluation takes a long time, and mitigation techniques for fixing violations may require numerous iterations. As such, fast and accurate IR drop prediction becomes critical for reducing design turnaround time. Recently, machine learning (ML) techniques have been actively studied for fast IR drop estimation due to their promise and success in many fields. These studies target at various design stages with different emphasis, and accordingly, different ML algorithms are adopted and customized. This paper provides a review to the latest progress in ML-based IR drop estimation techniques. It also serves as a vehicle for discussing some general challenges faced by ML applications in electronics design automation (EDA), and demonstrating how to integrate ML models with conventional techniques for the better efficiency of EDA tools.
翻訳日:2022-09-20 12:34:11 公開日:2020-11-26
# FIST:自動設計フローパラメータチューニングのための特徴重要サンプリングとツリーベース手法

FIST: A Feature-Importance Sampling and Tree-Based Method for Automatic Design Flow Parameter Tuning ( http://arxiv.org/abs/2011.13493v1 )

ライセンス: Link先を確認
Zhiyao Xie, Guan-Qi Fang, Yu-Hung Huang, Haoxing Ren, Yanqing Zhang, Brucek Khailany, Shao-Yun Fang, Jiang Hu, Yiran Chen, Erick Carvajal Barboza(参考訳) 設計フローパラメータはチップの設計品質に最も重要であり、その効果を評価するのに苦痛を伴う長い時間を要する。 実際、フローパラメータチューニングは通常、設計者の経験に基づいて、アドホックな方法で手動で実行される。 本研究では,限られた試行数で最高の設計品質を求めることを目的とした,機械学習に基づく自動パラメータチューニング手法を提案する。 機械学習エンジンを単にプラグインする代わりに、チューニング効率を向上させるためにクラスタリングと近似サンプリング技術を開発した。 この手法の特徴抽出は,従来の設計から知識を再利用することができる。 さらに,最先端のxgboostモデルを利用し,オーバーフィッティングを克服するための新しい動的木手法を提案する。 ベンチマーク回路を用いた実験結果から,提案手法は設計品質の25%向上,サンプリングコストの37%削減を実現していることがわかった。 我々のアプローチは2つの産業設計でさらに検証されている。 可能なパラメータセットの0.02%以下をサンプリングすることで、経験豊富な設計者が手作業で調整した最良のソリューションと比較して、面積を1.83%と1.43%削減できる。

Design flow parameters are of utmost importance to chip design quality and require a painfully long time to evaluate their effects. In reality, flow parameter tuning is usually performed manually based on designers' experience in an ad hoc manner. In this work, we introduce a machine learning-based automatic parameter tuning methodology that aims to find the best design quality with a limited number of trials. Instead of merely plugging in machine learning engines, we develop clustering and approximate sampling techniques for improving tuning efficiency. The feature extraction in this method can reuse knowledge from prior designs. Furthermore, we leverage a state-of-the-art XGBoost model and propose a novel dynamic tree technique to overcome overfitting. Experimental results on benchmark circuits show that our approach achieves 25% improvement in design quality or 37% reduction in sampling cost compared to random forest method, which is the kernel of a highly cited previous work. Our approach is further validated on two industrial designs. By sampling less than 0.02% of possible parameter sets, it reduces area by 1.83% and 1.43% compared to the best solutions hand-tuned by experienced designers.
翻訳日:2022-09-20 12:33:57 公開日:2020-11-26
# PowerNet:最大畳み込みニューラルネットワークによる移動可能な動的IRドロップ推定

PowerNet: Transferable Dynamic IR Drop Estimation via Maximum Convolutional Neural Network ( http://arxiv.org/abs/2011.13494v1 )

ライセンス: Link先を確認
Zhiyao Xie, Haoxing Ren, Brucek Khailany, Ye Sheng, Santosh Santosh, Jiang Hu, Yiran Chen(参考訳) IRドロップは、ほとんどすべてのチップ設計に必要な基本的な制約である。 しかし、その評価は通常、違反を修正するための緩和技術を妨げるのに長い時間がかかる。 本研究では,畳み込みニューラルネットワーク(CNN)に基づく高速な動的IRドロップ推定手法であるPowerNetを開発した。 ベクトルベースとベクトルレスのIR分析の両方を処理できる。 さらに、提案するcnnモデルは汎用的で、異なる設計に移行可能である。 これは、モデルが特定の設計にのみ適用可能な、既存の機械学習(ML)アプローチとは対照的である。 実験結果から,PowerNetはベクトルレスIRドロップの課題に対して,最新のML手法を9%精度で上回り,正確なIRドロップ商用ツールに比べて30倍の高速化を実現していることがわかった。 さらに、PowerNetによってガイドされた緩和ツールは、2つの工業設計でそれぞれIRドロップホットスポットを26%減らし、31%減らし、電力グリッドに非常に限定的な変更を加える。

IR drop is a fundamental constraint required by almost all chip designs. However, its evaluation usually takes a long time that hinders mitigation techniques for fixing its violations. In this work, we develop a fast dynamic IR drop estimation technique, named PowerNet, based on a convolutional neural network (CNN). It can handle both vector-based and vectorless IR analyses. Moreover, the proposed CNN model is general and transferable to different designs. This is in contrast to most existing machine learning (ML) approaches, where a model is applicable only to a specific design. Experimental results show that PowerNet outperforms the latest ML method by 9% in accuracy for the challenging case of vectorless IR drop and achieves a 30 times speedup compared to an accurate IR drop commercial tool. Further, a mitigation tool guided by PowerNet reduces IR drop hotspots by 26% and 31% on two industrial designs, respectively, with very limited modification on their power grids.
翻訳日:2022-09-20 12:33:40 公開日:2020-11-26
# サンフランシスコ湾地域における家賃予測のための統計的・機械学習アルゴリズムの比較

A Comparison of Statistical and Machine Learning Algorithms for Predicting Rents in the San Francisco Bay Area ( http://arxiv.org/abs/2011.14924v1 )

ライセンス: Link先を確認
Paul Waddell and Arezoo Besharati-Zadeh(参考訳) 都市交通と土地利用モデルは、計画アプリケーションに有用なモデルシステムの開発に理論と統計的モデリング手法を用いてきた。 機械学習手法は「ブラックボックス」が多すぎると考えられており、解釈性に欠けており、土地利用や交通モデリングの文献に限られている。 そこで本研究では,予測精度を第一に重要視するユースケースを提示し,ランダムな森林回帰と,通常の最小二乗法を用いた複数回帰法を比較し,craigslist webサイトから収集した大量のレンタルリストを用いて,サンフランシスコベイエリアの平方フィート当たりの賃貸料を予測した。 その結果,ランダムフォレストモデルの予測精度は著しく高いものの,ほぼ排他的アクセシビリティ変数を用いて,両モデルから有用な予測が得られることがわかった。

Urban transportation and land use models have used theory and statistical modeling methods to develop model systems that are useful in planning applications. Machine learning methods have been considered too 'black box', lacking interpretability, and their use has been limited within the land use and transportation modeling literature. We present a use case in which predictive accuracy is of primary importance, and compare the use of random forest regression to multiple regression using ordinary least squares, to predict rents per square foot in the San Francisco Bay Area using a large volume of rental listings scraped from the Craigslist website. We find that we are able to obtain useful predictions from both models using almost exclusively local accessibility variables, though the predictive accuracy of the random forest model is substantially higher.
翻訳日:2022-09-20 12:33:24 公開日:2020-11-26
# モバイルデバイス用物体検出処理パイプラインの省エネルギー化:解析と意味

Energy Drain of the Object Detection Processing Pipeline for Mobile Devices: Analysis and Implications ( http://arxiv.org/abs/2011.13075v1 )

ライセンス: Link先を確認
Haoxin Wang, BaekGyu Kim, Jiang Xie and Zhu Han(参考訳) オブジェクト検出にディープラーニングを適用することで、現実世界の複雑なオブジェクトを正確に検出し、分類することができる。 しかし、このテクノロジーは計算集約的でエネルギー消費が強いため、現在、ディープラーニングを使用するモバイルアプリケーションはほとんどない。 本稿は,我々の知る限り,モバイル拡張現実(AR)クライアントのエネルギー消費と,CNNベースのオブジェクト検出を行うための検出遅延について,スマートフォン上でも,あるいはエッジサーバ上でも,初めて詳細な実験を行ったものである。 スマートフォン上でのエネルギー消費量を正確に測定し、対象検出処理パイプラインの各フェーズで消費されるエネルギーのブレークダウンを得るため、新しい計測戦略を提案する。 我々は,モバイルarクライアントのエネルギー分析を精査し,cnnに基づくオブジェクト検出のエネルギー消費に関するいくつかの興味深い視点を明らかにした。 さらに,実験結果をもとに,いくつかの知見と研究機会を提案する。 本研究から得られた知見は,cnnに基づく物体検出におけるエネルギー効率の高い処理パイプラインの設計を導く。

Applying deep learning to object detection provides the capability to accurately detect and classify complex objects in the real world. However, currently, few mobile applications use deep learning because such technology is computation-intensive and energy-consuming. This paper, to the best of our knowledge, presents the first detailed experimental study of a mobile augmented reality (AR) client's energy consumption and the detection latency of executing Convolutional Neural Networks (CNN) based object detection, either locally on the smartphone or remotely on an edge server. In order to accurately measure the energy consumption on the smartphone and obtain the breakdown of energy consumed by each phase of the object detection processing pipeline, we propose a new measurement strategy. Our detailed measurements refine the energy analysis of mobile AR clients and reveal several interesting perspectives regarding the energy consumption of executing CNN-based object detection. Furthermore, several insights and research opportunities are proposed based on our experimental results. These findings from our experimental study will guide the design of energy-efficient processing pipeline of CNN-based object detection.
翻訳日:2022-09-20 12:33:07 公開日:2020-11-26
# 制約グラフを用いた生成レイアウトモデリング

Generative Layout Modeling using Constraint Graphs ( http://arxiv.org/abs/2011.13417v1 )

ライセンス: Link先を確認
Wamiq Para, Paul Guerrero, Tom Kelly, Leonidas Guibas, Peter Wonka(参考訳) レイアウト生成のための新しい生成モデルを提案する。 3つのステップでレイアウトを生成します。 まず,レイアウト要素をレイアウトグラフのノードとして生成する。 次にレイアウト要素間の制約をレイアウトグラフのエッジとして計算する。 第3に,制約付き最適化を用いて最終レイアウトを解く。 最初の2ステップでは、最近のトランスフォーマーアーキテクチャを構築します。 レイアウト最適化は制約を効率的に実装する。 私たちの作品はユーザ入力を必要とせず、高品質なレイアウトを生み出し、条件付きレイアウト生成のための多くの新しい機能を可能にします。

We propose a new generative model for layout generation. We generate layouts in three steps. First, we generate the layout elements as nodes in a layout graph. Second, we compute constraints between layout elements as edges in the layout graph. Third, we solve for the final layout using constrained optimization. For the first two steps, we build on recent transformer architectures. The layout optimization implements the constraints efficiently. We show three practical contributions compared to the state of the art: our work requires no user input, produces higher quality layouts, and enables many novel capabilities for conditional layout generation.
翻訳日:2022-09-20 12:27:06 公開日:2020-11-26
# CNNベースのPoisson Regressionを用いたパッチの脳病変容積のモデル化

Modelling brain lesion volume in patches with CNN-based Poisson Regression ( http://arxiv.org/abs/2011.13927v1 )

ライセンス: Link先を確認
Kevin Raina(参考訳) 臨床反応には病変進展のモニタリングが重要である。 病変の体積などの統計は客観的で解釈が容易であり、臨床医が病変の成長や崩壊を評価するのに役立つ。 CNNは医療画像のセグメンテーションにおいて、大きなコンテキスト内で有用な特徴とそれに関連する効率的な反復的パッチベースのトレーニングを生成する能力のために一般的に使用されている。 多くのCNNアーキテクチャは、優れたセグメンテーションを得るために数十万のパラメータを必要とする。 本研究では,磁気共鳴(MR)画像から予め定義されたパッチサイズにおける病変ボクセル数を推定するために,効率的な計算コストの高いCNNを実装した。 CNNの出力はパッチ上の条件付きポアソンパラメータとして解釈され、標準のミニバッチ勾配勾配を用いることができる。 isles2015 (siss) データは, 生の特徴量から病変容積を推定することにより, 病変容積が大きい病変像を86%のペア標本パッチで正確に同定し, モデルを訓練し, 評価する。 セグメンテーションのためのモデル選択を支援するために, 病変量を推定する手法の開発と利用について論じる。

Monitoring the progression of lesions is important for clinical response. Summary statistics such as lesion volume are objective and easy to interpret, which can help clinicians assess lesion growth or decay. CNNs are commonly used in medical image segmentation for their ability to produce useful features within large contexts and their associated efficient iterative patch-based training. Many CNN architectures require hundreds of thousands parameters to yield a good segmentation. In this work, an efficient, computationally inexpensive CNN is implemented to estimate the number of lesion voxels in a predefined patch size from magnetic resonance (MR) images. The output of the CNN is interpreted as the conditional Poisson parameter over the patch, allowing standard mini-batch gradient descent to be employed. The ISLES2015 (SISS) data is used to train and evaluate the model, which by estimating lesion volume from raw features, accurately identified the lesion image with the larger lesion volume for 86% of paired sample patches. An argument for the development and use of estimating lesion volumes to also aid in model selection for segmentation is made.
翻訳日:2022-09-20 12:26:59 公開日:2020-11-26
# 胸部X線写真のための深度学習に基づく画像検索システムとその新型コロナウイルス臨床応用

Deep Metric Learning-based Image Retrieval System for Chest Radiograph and its Clinical Applications in COVID-19 ( http://arxiv.org/abs/2012.03663v1 )

ライセンス: Link先を確認
Aoxiao Zhong, Xiang Li, Dufan Wu, Hui Ren, Kyungsang Kim, Younggon Kim, Varun Buch, Nir Neumark, Bernardo Bizzo, Won Young Tak, Soo Young Park, Yu Rim Lee, Min Kyu Kang, Jung Gil Park, Byung Seok Kim, Woo Jin Chung, Ning Guo, Ittai Dayan, Mannudeep K. Kalra, Quanzheng Li(参考訳) 近年,深層学習に基づく画像解析手法が,コンピュータ支援による検出,診断,予後に広く応用され,新型コロナウイルス(covid-19)パンデミックの公衆衛生危機においてその価値が示された。 胸部X線写真(CXR)は、特に米国では、新型コロナウイルス患者のトリアージ、診断、モニタリングにおいて重要な役割を果たしている。 CXRの混合信号や非特異信号を考えると、類似画像と関連する臨床情報の両方を提供するCXRの画像検索モデルは、直接画像診断モデルよりも臨床的に有意義である。 本研究では,深層メトリック学習に基づく新しいcxr画像検索モデルを開発した。 画像からラベルへの直接マッピングを学習することを目的とした従来の診断モデルとは異なり、提案モデルは画像の埋め込み空間を最適化することを目的としており、同じラベルと類似した内容の画像をまとめる。 ハードマイニングサンプリング戦略とアテンションメカニズムを用いて、最適化された埋め込み空間を学習し、クエリ画像に類似した画像を提供する。 このモデルは、3つの異なるソースから収集された国際的な多サイトcovid-19データセットでトレーニングされ、検証される。 COVID-19画像検索および診断タスクの実験結果から、CXR分析および患者管理のための堅牢なソリューションとして提案されたモデルが有効であることが示された。 このモデルは、新しいデータセットからさらなるトレーニングなしで画像の特徴を抽出するために事前訓練されたモデルを適用する、別の臨床判断支援タスクで転送可能性についてもテストされる。 これらの結果は,CXRの検索,診断,予後において,深層学習に基づく画像検索モデルが極めて効率的であることを示し,COVID-19患者の治療・管理に非常に有用であることを示す。

In recent years, deep learning-based image analysis methods have been widely applied in computer-aided detection, diagnosis and prognosis, and has shown its value during the public health crisis of the novel coronavirus disease 2019 (COVID-19) pandemic. Chest radiograph (CXR) has been playing a crucial role in COVID-19 patient triaging, diagnosing and monitoring, particularly in the United States. Considering the mixed and unspecific signals in CXR, an image retrieval model of CXR that provides both similar images and associated clinical information can be more clinically meaningful than a direct image diagnostic model. In this work we develop a novel CXR image retrieval model based on deep metric learning. Unlike traditional diagnostic models which aims at learning the direct mapping from images to labels, the proposed model aims at learning the optimized embedding space of images, where images with the same labels and similar contents are pulled together. It utilizes multi-similarity loss with hard-mining sampling strategy and attention mechanism to learn the optimized embedding space, and provides similar images to the query image. The model is trained and validated on an international multi-site COVID-19 dataset collected from 3 different sources. Experimental results of COVID-19 image retrieval and diagnosis tasks show that the proposed model can serve as a robust solution for CXR analysis and patient management for COVID-19. The model is also tested on its transferability on a different clinical decision support task, where the pre-trained model is applied to extract image features from a new dataset without any further training. These results demonstrate our deep metric learning based image retrieval model is highly efficient in the CXR retrieval, diagnosis and prognosis, and thus has great clinical value for the treatment and management of COVID-19 patients.
翻訳日:2022-09-20 12:26:40 公開日:2020-11-26
# frenet空間の長期短期計画のためのエンド・ツー・エンド深層強化学習手法

An End-to-end Deep Reinforcement Learning Approach for the Long-term Short-term Planning on the Frenet Space ( http://arxiv.org/abs/2011.13098v1 )

ライセンス: Link先を確認
Majid Moghadam, Ali Alizadeh, Engin Tekin and Gabriel Hugh Elkaim(参考訳) 道路利用者の行動予測の複雑さ,環境の多様性,交通相互作用の複雑化などにより,自動運転車の戦術的意思決定と戦略的行動計画が困難である。 本稿では,自動運転車の意思決定と行動計画に対する,新しいエンドツーエンドの連続的深層強化学習手法を提案する。 はじめて、Frenet空間上の状態と行動空間の両方を定義し、周囲のアクターの動的および交通的相互作用よりも運転挙動が道路曲率に変化しないようにする。 エージェントは、周辺車両の過去の軌跡の時系列データを受信し、時間チャネルに沿って畳み込みニューラルネットワークを適用して背骨の特徴を抽出する。 このアルゴリズムは、フィードバックコントローラが追跡するフレネットフレーム上の連続時空間軌道を生成する。 CARLAにおける広汎な高忠実度高速道路シミュレーションは、様々な交通シナリオにおける一般的なベースラインと離散強化学習と比較して、提案手法の優位性を示している。 さらに,1000のランダムなテストシナリオに対して,より包括的な性能評価を行うことで,提案手法の利点を確認した。

Tactical decision making and strategic motion planning for autonomous highway driving are challenging due to the complication of predicting other road users' behaviors, diversity of environments, and complexity of the traffic interactions. This paper presents a novel end-to-end continuous deep reinforcement learning approach towards autonomous cars' decision-making and motion planning. For the first time, we define both states and action spaces on the Frenet space to make the driving behavior less variant to the road curvatures than the surrounding actors' dynamics and traffic interactions. The agent receives time-series data of past trajectories of the surrounding vehicles and applies convolutional neural networks along the time channels to extract features in the backbone. The algorithm generates continuous spatiotemporal trajectories on the Frenet frame for the feedback controller to track. Extensive high-fidelity highway simulations on CARLA show the superiority of the presented approach compared with commonly used baselines and discrete reinforcement learning on various traffic scenarios. Furthermore, the proposed method's advantage is confirmed with a more comprehensive performance evaluation against 1000 randomly generated test scenarios.
翻訳日:2022-09-20 12:25:49 公開日:2020-11-26
# MIDI機器のリアルタイム誤り訂正と性能支援

Real-time error correction and performance aid for MIDI instruments ( http://arxiv.org/abs/2011.13122v1 )

ライセンス: Link先を確認
Georgi Marinov(参考訳) 即興演奏や不慣れな曲であっても、ライブ演奏中にわずかな間違いを犯すことは、見事なリスナーによって容易に発見できる。 例えば、古典時代のソナタで誤って演奏された非常に不協和音や、繰り返しモチーフの突然のオフキー音である。 そうしたエラーを識別して修正する問題は、人工知能によってアプローチできる -- もし訓練された人間が簡単にできるなら、コンピューターは、できるだけ正確にエラーを素早く見つけられるように訓練できるかもしれない。 リアルタイムにエラーを識別し、自動修正する能力は、演奏するミュージシャンにとって非常に有用であるだけでなく、プロデューサーにとって貴重な資産であり、わずかな不完全さによる過剰な重複と再記録を許容する。 本稿では,関連問題に対する最先端ソリューションについて検討し,そのリアルタイム適用性に着目した音楽誤り検出と修正のための新しいソリューションについて検討する。 提案手法では,音楽の文脈や理論による誤り検出や,適切なデータセットに基づいて訓練された事前定義された音楽情報や規則を持たない教師付き学習モデルを検討する。 提示されたソリューションは、純粋に音楽的誤りの修正に焦点を合わせ、生のオーディオ領域ではなく、オーディオ(MIDI)のハイレベルな表現で動作し、電子楽器(MIDIキーボード/ピアノ)から入力を受け、サンプリング装置に送信する前に必要に応じて変更する。 本研究は,midi機器のリアルタイム誤り訂正と性能支援のために,複数の汎用リカレントニューラルネットワークの設計を提案し,結果,限界,今後の改善の可能性について議論する。 また、最新の人工知能プラットフォームとツールを使用することで、研究結果をエンドユーザー音楽愛好家やプロデューサー、パフォーマーに容易にアクセスできるようにすることも強調している。

Making a slight mistake during live music performance can easily be spotted by an astute listener, even if the performance is an improvisation or an unfamiliar piece. An example might be a highly dissonant chord played by mistake in a classical-era sonata, or a sudden off-key note in a recurring motif. The problem of identifying and correcting such errors can be approached with artificial intelligence -- if a trained human can easily do it, maybe a computer can be trained to spot the errors quickly and just as accurately. The ability to identify and auto-correct errors in real-time would be not only extremely useful to performing musicians, but also a valuable asset for producers, allowing much fewer overdubs and re-recording of takes due to small imperfections. This paper examines state-of-the-art solutions to related problems and explores novel solutions for music error detection and correction, focusing on their real-time applicability. The explored approaches consider error detection through music context and theory, as well as supervised learning models with no predefined musical information or rules, trained on appropriate datasets. Focusing purely on correcting musical errors, the presented solutions operate on a high-level representation of the audio (MIDI) instead of the raw audio domain, taking input from an electronic instrument (MIDI keyboard/piano) and altering it when needed before it is sent to the sampler. This work proposes multiple general recurrent neural network designs for real-time error correction and performance aid for MIDI instruments, discusses the results, limitations, and possible future improvements. It also emphasizes on making the research results easily accessible to the end user - music enthusiasts, producers and performers -- by using the latest artificial intelligence platforms and tools.
翻訳日:2022-09-20 12:25:31 公開日:2020-11-26
# 安価中心であること--異種多エージェント集中型ゲームにおける安定性

Being Central on the Cheap: Stability in Heterogeneous Multiagent Centrality Games ( http://arxiv.org/abs/2011.13163v1 )

ライセンス: Link先を確認
Gabriel Istrate and Cosmin Bonchi\c{s}(参考訳) エージェントがネットワーク中心性を最大化するために(コスト的に)リンクを形成しようとする戦略的ネットワーク形成ゲームについて検討する。 我々のモデルはジャクソンとウォリンスキーの対称接続モデルから派生しているが、減衰中心性(ジャクソン=ウォリンスキーモデルに導入された)を古典的中心性やゲーム理論的中心性に置き換えることで、エージェントユーティリティの多様性を可能にしている。 我々は、漸近的に対角安定なネットワーク、すなわち、十分に小さな正のエッジコストに対して対角安定なネットワークを特徴づけることに主に関心を持っている。 ネットワーク中央性(英語版)に対する公理的アプローチにより、中央性ユーティリティ関数の豊富な組み合わせに対する安定したネットワークを予測し、"コア周辺"や"リッチクラブ"ネットワークのような構造特性を連想させる特徴を持つ安定したネットワークを得る。 すなわち、すべてのネットワークが安定したネットワークである可能性がある。 -また、安定したネットワークの構造からエージェントユーティリティのかなりの量を推測できることもしばしば示します。

We study strategic network formation games in which agents attempt to form (costly) links in order to maximize their network centrality. Our model derives from Jackson and Wolinsky's symmetric connection model, but allows for heterogeneity in agent utilities by replacing decay centrality (implicit in the Jackson-Wolinsky model) by a variety of classical centrality and game-theoretic measures of centrality. We are primarily interested in characterizing the asymptotically pairwise stable networks, i.e. those networks that are pairwise stable for all sufficiently small, positive edge costs. We uncover a rich typology of stability: - we give an axiomatic approach to network centrality that allows us to predict the stable network for a rich set of combination of centrality utility functions, yielding stable networks with features reminiscent of structural properties such as "core periphery" and "rich club" networks. - We show that a simple variation on the model renders it universal, i.e. every network may be a stable network. - We also show that often we can infer a significant amount about agent utilities from the structure of stable networks.
翻訳日:2022-09-20 12:24:24 公開日:2020-11-26
# 不均一な末尾依存の生成学習

Generative Learning of Heterogeneous Tail Dependence ( http://arxiv.org/abs/2011.13132v1 )

ライセンス: Link先を確認
Xiangqian Sun, Xing Yan, Qi Wu(参考訳) ビジネスデータや財務データでしばしば発生する複雑な依存構造を捉えるための多変量生成モデルを提案する。 我々のモデルは、各次元のすべての対間の不均一かつ非対称なテール依存を特徴とし、また、辺縁のテールにおける不均一性と非対称性を許容する。 モデル構造の重要な利点は,データセットの次元が大きくなるにつれて,パラメータ推定プロセスにおける誤差の伝播が難しくなるため,非常にスケーラブルである点である。 しかし,この場合のパラメータ推定には,閉形式密度関数の欠如による可能性推定は不可能である。 代わりに、パラメータを学習するための新しいモーメント学習アルゴリズムを考案する。 モデルとその推定器の有効性を実証するために,シミュレーションおよび実世界のデータセットを用いて実験を行った。 その結果、このフレームワークはコプラベースのベンチマークや最近の類似モデルと比較して、より優れた有限サンプル性能が得られることがわかった。

We propose a multivariate generative model to capture the complex dependence structure often encountered in business and financial data. Our model features heterogeneous and asymmetric tail dependence between all pairs of individual dimensions while also allowing heterogeneity and asymmetry in the tails of the marginals. A significant merit of our model structure is that it is not prone to error propagation in the parameter estimation process, hence very scalable, as the dimensions of datasets grow large. However, the likelihood methods are infeasible for parameter estimation in our case due to the lack of a closed-form density function. Instead, we devise a novel moment learning algorithm to learn the parameters. To demonstrate the effectiveness of the model and its estimator, we test them on simulated as well as real-world datasets. Results show that this framework gives better finite-sample performance compared to the copula-based benchmarks as well as recent similar models.
翻訳日:2022-09-20 12:23:51 公開日:2020-11-26
# 正のアンラベレス生存データ解析

Positive-Unlabelled Survival Data Analysis ( http://arxiv.org/abs/2011.13161v1 )

ライセンス: Link先を確認
Tomoki Toyabe, Yasuhiro Hasegawa, and Takahiro Hoshino(参考訳) 本稿では,観察中に事象が生じた被験者に対して,ポジティブなデータ生存時間を,ポジティブなデータとして,かつ、不ラベルなデータ検閲時間として,ポジティブなデータ生存時間として観察する,ポジティブな非ラベルデータの新たな枠組みを考察する。 本研究は,(1)正のデータで検閲時間が観測された場合,(2)観察されなかった場合の2つの事例を考察する。 どちらの場合も、パラメトリックモデル、非パラメトリックモデル、機械学習モデルおよびこれらのモデルの推定戦略を開発した。 シミュレーション研究により, 従来の生存分析では偏りが強く, 提案手法は有効な結果が得られることが示された。

In this paper, we consider a novel framework of positive-unlabeled data in which as positive data survival times are observed for subjects who have events during the observation time as positive data and as unlabeled data censoring times are observed but whether the event occurs or not are unknown for some subjects. We consider two cases: (1) when censoring time is observed in positive data, and (2) when it is not observed. For both cases, we developed parametric models, nonparametric models, and machine learning models and the estimation strategies for these models. Simulation studies show that under this data setup, traditional survival analysis may yield severely biased results, while the proposed estimation method can provide valid results.
翻訳日:2022-09-20 12:17:35 公開日:2020-11-26
# 非リジッドパズル

Non-Rigid Puzzles ( http://arxiv.org/abs/2011.13076v1 )

ライセンス: Link先を確認
Or Litany, Emanuele Rodol\`a, Alex Bronstein, Michael Bronstein, Daniel Cremers(参考訳) 形状対応はコンピュータグラフィックスや視覚の基本的な問題であり、アニメーション、テクスチャマッピング、ロボットビジョン、医療画像、考古学など様々な問題に応用されている。 形状が非剛性変形を許容し、部分的ビューのみが使用可能な環境では、この問題は非常に困難になる。 そこで本研究では,非剛性多部形状マッチングアルゴリズムを提案する。 非剛性変形中の参照形状とその複数の部品が与えられると仮定する。 これらのクエリ部品はそれぞれ、クラッタによってさらに汚染され、他の部分と重複し、欠落している部分や冗長な部分がある可能性がある。 提案手法は,参照モデルのセグメンテーションと,部分の(部分集合)への密接な対応を同時に解決する。 合成および実走査による実験結果から,この難解なシナリオに対処する上で,本手法の有効性が示された。

Shape correspondence is a fundamental problem in computer graphics and vision, with applications in various problems including animation, texture mapping, robotic vision, medical imaging, archaeology and many more. In settings where the shapes are allowed to undergo non-rigid deformations and only partial views are available, the problem becomes very challenging. To this end, we present a non-rigid multi-part shape matching algorithm. We assume to be given a reference shape and its multiple parts undergoing a non-rigid deformation. Each of these query parts can be additionally contaminated by clutter, may overlap with other parts, and there might be missing parts or redundant ones. Our method simultaneously solves for the segmentation of the reference model, and for a dense correspondence to (subsets of) the parts. Experimental results on synthetic as well as real scans demonstrate the effectiveness of our method in dealing with this challenging matching scenario.
翻訳日:2022-09-20 12:17:03 公開日:2020-11-26
# 正則化による関節再建と校正

Joint Reconstruction and Calibration using Regularization by Denoising ( http://arxiv.org/abs/2011.13391v1 )

ライセンス: Link先を確認
Mingyang Xie, Yu Sun, Jiaming Liu, Brendt Wohlberg, and Ulugbek S. Kamilov(参考訳) 正則化(regularization by denoising, red)は、逆問題を解くための広く適用可能なフレームワークである。 REDは、多くのアプリケーションで最先端のパフォーマンスを提供することが示されているが、既存のREDアルゴリズムは、イメージングシステムを特徴付ける計測演算子の正確な知識を必要とし、測定演算子がパラメトリック不確実性を持つ問題に適用性を制限する。 そこで我々は,未知画像の再構成とともに測定者の共同校正を可能にするCalibrated RED (Cal-RED) と呼ばれる新しい手法を提案する。 cal-redは、従来の赤い方法論を、測定オペレータのキャリブレーションを必要とするイメージング問題にまで拡張している。 コンピュータ断層撮影(CT)における画像再構成問題に対するCal-REDの有効性を検討した。 画像プリエントとして事前訓練した深部ディノイザを用いた共同校正および再構成におけるcal-redの有効性について検討した。

Regularization by denoising (RED) is a broadly applicable framework for solving inverse problems by using priors specified as denoisers. While RED has been shown to provide state-of-the-art performance in a number of applications, existing RED algorithms require exact knowledge of the measurement operator characterizing the imaging system, limiting their applicability in problems where the measurement operator has parametric uncertainties. We propose a new method, called Calibrated RED (Cal-RED), that enables joint calibration of the measurement operator along with reconstruction of the unknown image. Cal-RED extends the traditional RED methodology to imaging problems that require the calibration of the measurement operator. We validate Cal-RED on the problem of image reconstruction in computerized tomography (CT) under perturbed projection angles. Our results corroborate the effectiveness of Cal-RED for joint calibration and reconstruction using pre-trained deep denoisers as image priors.
翻訳日:2022-09-20 12:15:29 公開日:2020-11-26
# ハイブリッド8T-6T SRAMメモリアーキテクチャの深いニューラルネットワークにおける逆攻撃に対するロバスト性と脆弱性

Exposing the Robustness and Vulnerability of Hybrid 8T-6T SRAM Memory Architectures to Adversarial Attacks in Deep Neural Networks ( http://arxiv.org/abs/2011.13392v1 )

ライセンス: Link先を確認
Abhishek Moitra and Priyadarshini Panda(参考訳) ディープラーニングは、かつて不可能だった多くの問題を解決することができる。 しかし、それらは入力敵の攻撃に対して脆弱であり、重要なアプリケーションに自律的に配備できない。 アルゴリズム中心のいくつかの研究は、敵対的攻撃を引き起こし、ディープニューラルネットワーク(dnn)の敵対的ロバスト性を改善する方法を議論している。 本研究では,ハイブリッド6T-8Tメモリのアドバンテージと脆弱性を抽出し,DNNに対する敵対的攻撃を引き起こす。 ハイブリッドメモリ構成(V_DD, 8T-6T比)に基づいて, 誤り6T-SRAMセルによるハイブリットメモリのビットエラーノイズが決定的挙動を示す。 この制御ノイズ(サージカルノイズ)は特定のDNN層に戦略的に導入することができ、DNNの対角精度を向上させることができる。 同時に、ハイブリッドメモリに格納されたDNNパラメータに外科的ノイズを慎重に注入することで、敵の攻撃を引き起こす。 外科的ノイズを用いたDNNの対向的ロバスト性を改善するために,適切なDNN層とそれに対応するハイブリッドメモリ構成を選択して必要な手術ノイズを導入する手法を提案する。 これを用いて,FGSMなどのホワイトボックス攻撃に対して,ベースラインモデルよりも2~8%高い対向精度を達成した(手術ノイズを伴わない)。 そこで本研究では, ハイブリッドメモリバンクに格納されたdnnパラメータに対する新しいホワイトボックス攻撃法を考案し, 90%以上の信頼度で, dnn推定精度が60%以上低下することを示した。 VGG19 と ResNet18 ネットワーク上でベンチマークデータセット-CIFAR10 と CIFAR100 を用いて実験を行った。

Deep Learning is able to solve a plethora of once impossible problems. However, they are vulnerable to input adversarial attacks preventing them from being autonomously deployed in critical applications. Several algorithm-centered works have discussed methods to cause adversarial attacks and improve adversarial robustness of a Deep Neural Network (DNN). In this work, we elicit the advantages and vulnerabilities of hybrid 6T-8T memories to improve the adversarial robustness and cause adversarial attacks on DNNs. We show that bit-error noise in hybrid memories due to erroneous 6T-SRAM cells have deterministic behaviour based on the hybrid memory configurations (V_DD, 8T-6T ratio). This controlled noise (surgical noise) can be strategically introduced into specific DNN layers to improve the adversarial accuracy of DNNs. At the same time, surgical noise can be carefully injected into the DNN parameters stored in hybrid memory to cause adversarial attacks. To improve the adversarial robustness of DNNs using surgical noise, we propose a methodology to select appropriate DNN layers and their corresponding hybrid memory configurations to introduce the required surgical noise. Using this, we achieve 2-8% higher adversarial accuracy without re-training against white-box attacks like FGSM, than the baseline models (with no surgical noise introduced). To demonstrate adversarial attacks using surgical noise, we design a novel, white-box attack on DNN parameters stored in hybrid memory banks that causes the DNN inference accuracy to drop by more than 60% with over 90% confidence value. We support our claims with experiments, performed using benchmark datasets-CIFAR10 and CIFAR100 on VGG19 and ResNet18 networks.
翻訳日:2022-09-20 12:15:16 公開日:2020-11-26
# SemEval-2019 Task 5におけるTwitterの移民・女性に対するヘイトスピーチの多言語検出

Towards Interpretable Multilingual Detection of Hate Speech against Immigrants and Women in Twitter at SemEval-2019 Task 5 ( http://arxiv.org/abs/2011.13238v1 )

ライセンス: Link先を確認
Alvi Md Ishmam(参考訳) 彼の論文は、Twitter上で女性や移民に対するヘイトスピーチを多言語で検出する手法について説明している。 この課題はsemeval-2019 task 5によって設計され、参加者は特定のターゲット(例えば女性や移民)で英語とスペイン語でヘイトスピーチを検出するアルゴリズムを設計する必要がある。 そこで我々は,2つのディープニューラルネットワーク(双方向Gated Recurrent Unit (GRU),キャラクタレベル畳み込みニューラルネットワーク (CNN))と,言語的特徴を利用した1つの機械学習モデルを開発した。 提案モデルでは,英語とスペイン語のタスクAにおいて,57点,75点のスコアが得られた。 タスクBでは、F1スコアは英語で67点、スペイン語で75.33点である。 タスクa(スペイン語)とタスクb(英語とスペイン語の両方)では、f1スコアがそれぞれ2,10,5ポイント向上する。 さらに、アノテーション付きデータセットを調査することにより、カスタム設計の機械学習アーキテクチャの一般化可能性問題に対処できる視覚的解釈可能なモデルを提案する。

his paper describes our techniques to detect hate speech against women and immigrants on Twitter in multilingual contexts, particularly in English and Spanish. The challenge was designed by SemEval-2019 Task 5, where the participants need to design algorithms to detect hate speech in English and Spanish language with a given target (e.g., women or immigrants). Here, we have developed two deep neural networks (Bidirectional Gated Recurrent Unit (GRU), Character-level Convolutional Neural Network (CNN)), and one machine learning model by exploiting the linguistic features. Our proposed model obtained 57 and 75 F1 scores for Task A in English and Spanish language respectively. For Task B, the F1 scores are 67 for English and 75.33 for Spanish. In the case of task A (Spanish) and task B (both English and Spanish), the F1 scores are improved by 2, 10, and 5 points respectively. Besides, we present visually interpretable models that can address the generalizability issues of the custom-designed machine learning architecture by investigating the annotated dataset.
翻訳日:2022-09-20 12:08:22 公開日:2020-11-26
# 航空機パイロットのドキュメンテーションのための質問応答システム

A question-answering system for aircraft pilots' documentation ( http://arxiv.org/abs/2011.13284v1 )

ライセンス: Link先を確認
Alexandre Arnold and G\'erard Dupont and F\'elix Furger and Catherine Kobus and Fran\c{c}ois Lancelot(参考訳) 航空宇宙産業は、システム記述、マニュアル、手順を含む複雑な文書や技術文書の大量収集に依存している。 本稿では, 航空機パイロットが自然にシステムと対話し, 自然言語で質問することで, 情報へのアクセスを支援する質問応答システムを提案する。 ダイアログシステムの各モジュールを記述した後、Flight Crew Operating Manual (FCOM)データセットの性能改善を可能にするマルチタスクベースのQAモジュールのアプローチを提案する。 検索器のスコアとQAモジュールのスコアを組み合わせる方法も提示する。

The aerospace industry relies on massive collections of complex and technical documents covering system descriptions, manuals or procedures. This paper presents a question answering (QA) system that would help aircraft pilots access information in this documentation by naturally interacting with the system and asking questions in natural language. After describing each module of the dialog system, we present a multi-task based approach for the QA module which enables performance improvement on a Flight Crew Operating Manual (FCOM) dataset. A method to combine scores from the retriever and the QA modules is also presented.
翻訳日:2022-09-20 12:08:03 公開日:2020-11-26
# 説明可能なテンソル化ニューラル常微分方程式 forarbitrary-step 時系列予測

Explainable Tensorized Neural Ordinary Differential Equations forArbitrary-step Time Series Prediction ( http://arxiv.org/abs/2011.13174v1 )

ライセンス: Link先を確認
Penglei Gao, Xi Yang, Rui Zhang, Kaizhu Huang(参考訳) 本稿では,任意の時間点における時系列予測のための連続ニューラルネットワークアーキテクチャである Explainable Tensorized Neural Ordinary Differential Equations (ETN-ODE) を提案する。 多段階予測や一段階予測の多変量時系列を主に扱う既存のアプローチとは異なり、ETN-ODEは任意のステップ予測の多変量時系列をモデル化できる。 さらに、時間的注意や変動的な注意といったタンデム的な注意を楽しみ、データに対する説明可能な洞察を提供することができる。 具体的には、ETN-ODEは、説明可能なテンソル化Gated Recurrent Unit(Tensorized GRUまたはTGRU)と通常の微分方程式(ODE)を組み合わせる。 潜在状態の微分はニューラルネットワークでパラメータ化される。 この連続時間ODEネットワークは、任意の時点における多段階予測を可能にする。 5つの異なる多段階予測タスクと1つの任意のステップ予測タスクにおけるETN-ODEの有効性と解釈性について定量的に定量的に検証した。 大規模な実験により、ETN-ODEは任意の時刻における正確な予測を導出し、標準のマルチステップ時系列予測においてベースライン法に対して最高の性能を得ることができた。

We propose a continuous neural network architecture, termed Explainable Tensorized Neural Ordinary Differential Equations (ETN-ODE), for multi-step time series prediction at arbitrary time points. Unlike the existing approaches, which mainly handle univariate time series for multi-step prediction or multivariate time series for single-step prediction, ETN-ODE could model multivariate time series for arbitrary-step prediction. In addition, it enjoys a tandem attention, w.r.t. temporal attention and variable attention, being able to provide explainable insights into the data. Specifically, ETN-ODE combines an explainable Tensorized Gated Recurrent Unit (Tensorized GRU or TGRU) with Ordinary Differential Equations (ODE). The derivative of the latent states is parameterized with a neural network. This continuous-time ODE network enables a multi-step prediction at arbitrary time points. We quantitatively and qualitatively demonstrate the effectiveness and the interpretability of ETN-ODE on five different multi-step prediction tasks and one arbitrary-step prediction task. Extensive experiments show that ETN-ODE can lead to accurate predictions at arbitrary time points while attaining best performance against the baseline methods in standard multi-step time series prediction.
翻訳日:2022-09-20 12:07:40 公開日:2020-11-26
# 線形対称性に基づく絡み合いの計量

A Metric for Linear Symmetry-Based Disentanglement ( http://arxiv.org/abs/2011.13306v1 )

ライセンス: Link先を確認
Luis A. P\'erez Rey, Loek Tonnaer, Vlado Menkovski, Mike Holenderski, Jacobus W. Portegies(参考訳) Higgins et al., 2018) によって提唱された線形対称性に基づく遠方性 (LSBD) の定義は、データの対称性を捉える非交叉表現を特徴づけるべき特性を概説している。 しかしながら、データ表現がこれらのプロパティを満たす程度を計測する方法は明確ではない。 本研究では,データ表現が達成するlsbdのレベルを評価するための指標を提案する。 このメトリックを評価し,それを用いて,$so(2)$対称性を持つ3つのデータセットで得られたデータ表現の不連続性を評価するための実用的な手法を提案する。

The definition of Linear Symmetry-Based Disentanglement (LSBD) proposed by (Higgins et al., 2018) outlines the properties that should characterize a disentangled representation that captures the symmetries of data. However, it is not clear how to measure the degree to which a data representation fulfills these properties. We propose a metric for the evaluation of the level of LSBD that a data representation achieves. We provide a practical method to evaluate this metric and use it to evaluate the disentanglement of the data representations obtained for three datasets with underlying $SO(2)$ symmetries.
翻訳日:2022-09-20 12:07:20 公開日:2020-11-26
# 2段階アプローチによる動的グラフの高速かつ高精度な異常検出

Fast and Accurate Anomaly Detection in Dynamic Graphs with a Two-Pronged Approach ( http://arxiv.org/abs/2011.13085v1 )

ライセンス: Link先を確認
Minji Yoon, Bryan Hooi, Kijung Shin, Christos Faloutsos(参考訳) 動的グラフストリームを考えると,リンクスパムやフォロワブースト,サービス攻撃拒否など,異常なパターンの突然の出現を検知するにはどうすればよいのでしょう? さらに,実際に発生する異常のタイプを分類し,各タイプから発生する異常な兆候を理論的に分析することができるか? 本研究では,動的グラフにおける異常検出のためのオンラインアルゴリズムAnomRankを提案する。 AnomRank氏は、異常を示す2つの新しいメトリクスを定義する2段階のアプローチを使用している。 各メトリクスは'ノードスコア'(またはノードの重要度)関数の独自のバージョンの導関数を追跡する。 これにより、ノードの重要性に対する突然の変化を検出できます。 理論的,実験的に,この2つのアプローチが,エッジに沿った突然の重み変化と,グラフの突然の構造変化の2つの共通なタイプの異常を検出することに成功した。 AnomRankは a) 高速で正確: 最先端の手法よりも49.5倍速く、または35%正確である。 (b)スケーラブル:入力グラフのエッジ数を線形にし、ストックラップトップ/デスクトップ上で2秒以内に数百万のエッジを処理する。 (c)理論的には、二段階アプローチの理論的保証を提供する。

Given a dynamic graph stream, how can we detect the sudden appearance of anomalous patterns, such as link spam, follower boosting, or denial of service attacks? Additionally, can we categorize the types of anomalies that occur in practice, and theoretically analyze the anomalous signs arising from each type? In this work, we propose AnomRank, an online algorithm for anomaly detection in dynamic graphs. AnomRank uses a two-pronged approach defining two novel metrics for anomalousness. Each metric tracks the derivatives of its own version of a 'node score' (or node importance) function. This allows us to detect sudden changes in the importance of any node. We show theoretically and experimentally that the two-pronged approach successfully detects two common types of anomalies: sudden weight changes along an edge, and sudden structural changes to the graph. AnomRank is (a) Fast and Accurate: up to 49.5x faster or 35% more accurate than state-of-the-art methods, (b) Scalable: linear in the number of edges in the input graph, processing millions of edges within 2 seconds on a stock laptop/desktop, and (c) Theoretically Sound: providing theoretical guarantees of the two-pronged approach.
翻訳日:2022-09-20 12:06:29 公開日:2020-11-26
# 近視によるエピソディック自己模倣学習

Episodic Self-Imitation Learning with Hindsight ( http://arxiv.org/abs/2011.13467v1 )

ライセンス: Link先を確認
Tianhong Dai, Hengyan Liu, Anil Anthony Bharath(参考訳) 軌道選択モジュールと適応損失関数を備えた新しい自己模倣アルゴリズムであるエピソディック自己模倣学習を提案し,強化学習を高速化する。 経験リプレイバッファから良好な状態-動作ペアをサンプリングしたオリジナルの自己模倣学習アルゴリズムと比較して,エージェントは全エピソードを後見して自己模倣学習を支援する。 更新の各エピソードから不正なサンプルをフィルタリングするために選択モジュールが導入される。 提案手法は,スパース報酬を伴う連続制御環境の処理に不利なトランジッションベース手法である,標準的な自己イメージ学習アルゴリズムの限界を克服する。 実験から,実証的自己想像学習は,複数のロボット制御タスクにおいて,最先端のオフポリシーアルゴリズムに匹敵する性能を達成し,ベースラインのオンポリシーアルゴリズムよりも優れた性能を発揮することが示された。 軌道選択モジュールは、エージェントが望ましくない後見体験を学習することを防止する。 連続的な制御設定においてスパース報酬問題を解く能力により、ロボットの誘導や操作のような連続的な行動空間を持つ現実的な問題に適用できる可能性がある。

Episodic self-imitation learning, a novel self-imitation algorithm with a trajectory selection module and an adaptive loss function, is proposed to speed up reinforcement learning. Compared to the original self-imitation learning algorithm, which samples good state-action pairs from the experience replay buffer, our agent leverages entire episodes with hindsight to aid self-imitation learning. A selection module is introduced to filter uninformative samples from each episode of the update. The proposed method overcomes the limitations of the standard self-imitation learning algorithm, a transitions-based method which performs poorly in handling continuous control environments with sparse rewards. From the experiments, episodic self-imitation learning is shown to perform better than baseline on-policy algorithms, achieving comparable performance to state-of-the-art off-policy algorithms in several simulated robot control tasks. The trajectory selection module is shown to prevent the agent learning undesirable hindsight experiences. With the capability of solving sparse reward problems in continuous control settings, episodic self-imitation learning has the potential to be applied to real-world problems that have continuous action spaces, such as robot guidance and manipulation.
翻訳日:2022-09-20 12:06:11 公開日:2020-11-26
# 学習可能なボリュームアグリゲーションを用いた多視点人文と形状推定

Multi-view Human Pose and Shape Estimation Using Learnable Volumetric Aggregation ( http://arxiv.org/abs/2011.13427v1 )

ライセンス: Link先を確認
Soyong Shin, Eni Halilaj(参考訳) RGB画像からの人間のポーズと形状の推定は、マーカーベースのモーションキャプチャーの代替として非常に求められており、それは面倒であり、高価な機器を必要とし、実験室環境に制約を課している。 しかし、単眼の視覚に基づくアルゴリズムはまだ回転の曖昧さに悩まされており、高い精度が最重要である医療アプリケーションでは翻訳の準備ができていない。 複数の視点からのデータの融合はこれらの課題を克服する可能性があるが、現在のアルゴリズムは臨床上許容できる精度を得るためにさらなる改善が必要である。 本稿では,多視点画像のキャリブレーションから3次元人体のポーズと形状を再構成する学習可能なボリュームアグリゲーション手法を提案する。 我々は人体のパラメトリックな表現を用いて、我々のアプローチを直接医療応用に適用する。 従来の手法と比較すると,提案手法はコスト効率を考慮し,高い精度とリアルタイム予測への期待を示す。

Human pose and shape estimation from RGB images is a highly sought after alternative to marker-based motion capture, which is laborious, requires expensive equipment, and constrains capture to laboratory environments. Monocular vision-based algorithms, however, still suffer from rotational ambiguities and are not ready for translation in healthcare applications, where high accuracy is paramount. While fusion of data from multiple viewpoints could overcome these challenges, current algorithms require further improvement to obtain clinically acceptable accuracies. In this paper, we propose a learnable volumetric aggregation approach to reconstruct 3D human body pose and shape from calibrated multi-view images. We use a parametric representation of the human body, which makes our approach directly applicable to medical applications. Compared to previous approaches, our framework shows higher accuracy and greater promise for real-time prediction, given its cost efficiency.
翻訳日:2022-09-20 09:13:55 公開日:2020-11-26
# 正規化流による脳老化の双方向モデリングと解析

Bidirectional Modeling and Analysis of Brain Aging with Normalizing Flows ( http://arxiv.org/abs/2011.13484v1 )

ライセンス: Link先を確認
Matthias Wilms and Jordan J. Bannister and Pauline Mouches and M. Ethan MacDonald and Deepthi Rajashekar and S\"onke Langner and Nils D. Forkert(参考訳) 脳の老化は広く研究されている縦断的プロセスであり、脳は形態学的変化を起こし、様々な機械学習アプローチが提案されている。 この文脈において、構造的mr画像からの脳年齢予測と年齢特異的脳形態テンプレート生成は、多くの注目を集めている2つの問題である。 ほとんどのアプローチは独立してこれらの課題に取り組むが、それらは脳の形態と年齢変数の間の同じ機能的双方向関係の逆方向であると仮定する。 本稿では,この関係を単一条件正規化フローにモデル化し,新しい方法で脳年齢予測と年齢条件生成モデルを統合することを提案する。 本概念の初回評価では, 正常化脳老化モデルにより, 脳年齢を正確に予測できるとともに, 健常人口における典型的な老化傾向を現実的に表す年齢特異的脳形態学テンプレートを生成できることが示されている。 この研究は、3次元脳形態学と強力な正規化フローを持つ臨床変数との間の機能的関係の統一モデリングへのステップである。

Brain aging is a widely studied longitudinal process throughout which the brain undergoes considerable morphological changes and various machine learning approaches have been proposed to analyze it. Within this context, brain age prediction from structural MR images and age-specific brain morphology template generation are two problems that have attracted much attention. While most approaches tackle these tasks independently, we assume that they are inverse directions of the same functional bidirectional relationship between a brain's morphology and an age variable. In this paper, we propose to model this relationship with a single conditional normalizing flow, which unifies brain age prediction and age-conditioned generative modeling in a novel way. In an initial evaluation of this idea, we show that our normalizing flow brain aging model can accurately predict brain age while also being able to generate age-specific brain morphology templates that realistically represent the typical aging trend in a healthy population. This work is a step towards unified modeling of functional relationships between 3D brain morphology and clinical variables of interest with powerful normalizing flows.
翻訳日:2022-09-20 09:13:21 公開日:2020-11-26
# NLPStatTest: NLPシステムパフォーマンスを比較するツールキット

NLPStatTest: A Toolkit for Comparing NLP System Performance ( http://arxiv.org/abs/2011.13231v1 )

ライセンス: Link先を確認
Haotian Zhu, Denise Mak, Jesse Gioannini, Fei Xia(参考訳) p-値を中心とした統計的意義試験は、一般的にnlpシステムの性能を比較するために用いられるが、p-値だけでは実用的意義とは異なるため不十分である。 後者は効果の大きさを推定することで測定できる。 本稿では,NLPシステムの性能を比較するための3段階の手順を提案し,そのプロセスを自動化するツールキットであるNLPStatTestを提案する。 ユーザはNLPシステム評価スコアをアップロードでき、ツールキットはこれらのスコアを分析し、適切な重要度テストを実行し、効果の大きさを推定し、II型エラーを推定するために電力分析を行う。 このツールキットは、統計意味テストを超えてnlpシステムのパフォーマンスを比較するための便利で体系的な方法を提供する

Statistical significance testing centered on p-values is commonly used to compare NLP system performance, but p-values alone are insufficient because statistical significance differs from practical significance. The latter can be measured by estimating effect size. In this paper, we propose a three-stage procedure for comparing NLP system performance and provide a toolkit, NLPStatTest, that automates the process. Users can upload NLP system evaluation scores and the toolkit will analyze these scores, run appropriate significance tests, estimate effect size, and conduct power analysis to estimate Type II error. The toolkit provides a convenient and systematic way to compare NLP system performance that goes beyond statistical significance testing
翻訳日:2022-09-20 09:12:19 公開日:2020-11-26
# The Devil is in the boundary: Exploiting boundary Representation for Basis-based Instance Segmentation

The Devil is in the Boundary: Exploiting Boundary Representation for Basis-based Instance Segmentation ( http://arxiv.org/abs/2011.13241v1 )

ライセンス: Link先を確認
Myungchul Kim, Sanghyun Woo, Dahun Kim, and In So Kweon(参考訳) リアルタイム視覚アプリケーションに対するより一貫性のあるシーン理解によって、シングルステージのインスタンスセグメンテーションが最近人気を集め、2段階のアプリケーションよりもシンプルで効率的な設計を実現している。 さらに、そのグローバルマスク表現は、これまで支配的であった2段階のMask R-CNNよりも精度が高いことが多い。 単一ステージメソッドの有望な進歩にもかかわらず、インスタンス境界の細かいデライン化はまだ未解決のままである。 実際、境界情報は、単段セグメンタの完全な畳み込みマスク特徴と相乗的に操作できる強力な形状表現を提供する。 本研究では,境界基底に基づくインスタンスセグメンテーション(B2Inst)を提案し,高頻度の詳細を欠く既存のグローバルマスクベースの手法を補完するグローバル境界表現を学習する。 さらに,マスクとバウンダリの両面を統一した品質尺度を考案し,ネットワークブロックを導入し,各インスタンスごとの予測を学習する。 シングルステージインスタンスセグメンテーションにおける最強のベースラインに適用すると、B2Instは一貫した改善をもたらし、シーン内のインスタンス境界を正確に解析します。 単一ステージあるいは2ステージのフレームワークであっても、私たちは、同じResNet-50とResNet-101バックボーンで、COCOデータセットの既存の最先端メソッドよりも優れています。

Pursuing a more coherent scene understanding towards real-time vision applications, single-stage instance segmentation has recently gained popularity, achieving a simpler and more efficient design than its two-stage counterparts. Besides, its global mask representation often leads to superior accuracy to the two-stage Mask R-CNN which has been dominant thus far. Despite the promising advances in single-stage methods, finer delineation of instance boundaries still remains unexcavated. Indeed, boundary information provides a strong shape representation that can operate in synergy with the fully-convolutional mask features of the single-stage segmenter. In this work, we propose Boundary Basis based Instance Segmentation(B2Inst) to learn a global boundary representation that can complement existing global-mask-based methods that are often lacking high-frequency details. Besides, we devise a unified quality measure of both mask and boundary and introduce a network block that learns to score the per-instance predictions of itself. When applied to the strongest baselines in single-stage instance segmentation, our B2Inst leads to consistent improvements and accurately parse out the instance boundaries in a scene. Regardless of being single-stage or two-stage frameworks, we outperform the existing state-of-the-art methods on the COCO dataset with the same ResNet-50 and ResNet-101 backbones.
翻訳日:2022-09-20 09:06:17 公開日:2020-11-26
# 単一インターネット画像からの適応型多面体画像生成

Adaptive Multiplane Image Generation from a Single Internet Picture ( http://arxiv.org/abs/2011.13317v1 )

ライセンス: Link先を確認
Diogo C. Luvizon, Gustavo Sutter P. Carvalho, Andreza A. dos Santos, Jhonatas S. Conceicao, Jose L. Flores-Campana, Luis G. L. Decker, Marcos R. Souza, Helio Pedrini, Antonio Joia, Otavio A. B. Penatti(参考訳) ここ数年、ステレオ画像や単一画像からの新しいビュー合成の問題に、いくつかの作品が取り組んできた。 しかし、従来の手法は計算に高価であり、特に高解像度画像に向いている。 本稿では,1枚の高解像度画像から多面体画像(MPI)を生成する問題に対処する。 本稿では,少ない計算要求で新しいビューをレンダリングできる適応MPI表現を提案する。 そこで本研究では,画像平面の可変数のMPIを生成する適応スライシングアルゴリズムを提案する。 本稿では,大規模ネットワークからの知識蒸留により学習した深度推定のための軽量CNNを提案する。 適応MPIの付加領域も軽量CNNによって塗装される。 提案手法は,従来手法に比べて1桁少ないパラメータで高品質な予測を生成できることを示す。 提案手法のロバスト性は,インターネットからの挑戦的な画像から証明される。

In the last few years, several works have tackled the problem of novel view synthesis from stereo images or even from a single picture. However, previous methods are computationally expensive, specially for high-resolution images. In this paper, we address the problem of generating a multiplane image (MPI) from a single high-resolution picture. We present the adaptive-MPI representation, which allows rendering novel views with low computational requirements. To this end, we propose an adaptive slicing algorithm that produces an MPI with a variable number of image planes. We present a new lightweight CNN for depth estimation, which is learned by knowledge distillation from a larger network. Occluded regions in the adaptive-MPI are inpainted also by a lightweight CNN. We show that our method is capable of producing high-quality predictions with one order of magnitude less parameters compared to previous approaches. The robustness of our method is evidenced on challenging pictures from the Internet.
翻訳日:2022-09-20 09:04:28 公開日:2020-11-26
# AMLSI:新しい高精度行動モデル学習アルゴリズム

AMLSI: A Novel Accurate Action Model Learning Algorithm ( http://arxiv.org/abs/2011.13277v1 )

ライセンス: Link先を確認
Maxence Grand, Humbert Fiorino, Damien Pellier(参考訳) 本稿では,AMLSI行動モデル学習とステートマシンインタラクションを用いた文法誘導に基づく新しい手法を提案する。 AMLSIのアプローチでは、計画トレースのトレーニングデータセットは必要ない。 amlsiは試行錯誤によって進行し、ランダムに生成されたアクションシーケンスで学習するためにシステムをクエリし、システムの状態遷移を観察し、それからシステムに対応するpddlドメインを返す。 ドメイン学習の重要な問題は、学習したドメインで計画する能力である。 小さな学習エラーが、計画に使用できないドメインに繋がることが多いのです。 他のアルゴリズムとは異なり、AMLSIはこのロックを、プランナーが新しい問題を解決するのに十分な精度で、部分的およびノイズの多い観測から学習することで持ち上げることができることを示す。

This paper presents new approach based on grammar induction called AMLSI Action Model Learning with State machine Interactions. The AMLSI approach does not require a training dataset of plan traces to work. AMLSI proceeds by trial and error: it queries the system to learn with randomly generated action sequences, and it observes the state transitions of the system, then AMLSI returns a PDDL domain corresponding to the system. A key issue for domain learning is the ability to plan with the learned domains. It often happens that a small learning error leads to a domain that is unusable for planning. Unlike other algorithms, we show that AMLSI is able to lift this lock by learning domains from partial and noisy observations with sufficient accuracy to allow planners to solve new problems.
翻訳日:2022-09-20 08:57:15 公開日:2020-11-26
# PDDL4Jライブラリにおける全体および部分順序付き階層型プランナ

Totally and Partially Ordered Hierarchical Planners in PDDL4J Library ( http://arxiv.org/abs/2011.13297v1 )

ライセンス: Link先を確認
Damien Pellier, Humbert Fiorino(参考訳) 本稿では,2020年の第1回HTN IPCコンペティションに参加したTFD(Totally Ordered Fast Downward)とPFD(Partially Ordered Fast Downward)階層型プランナの実装について概説する。 これら2つのプランナは、アクション、メソッド、タスク、HTN問題のコンパクトな基底と、フォワードチェーンタスクの分解に基づいている。

In this paper, we outline the implementation of the TFD (Totally Ordered Fast Downward) and the PFD (Partially ordered Fast Downward) hierarchical planners that participated in the first HTN IPC competition in 2020. These two planners are based on forward-chaining task decomposition coupled with a compact grounding of actions, methods, tasks and HTN problems.
翻訳日:2022-09-20 08:57:02 公開日:2020-11-26
# 自然と人工知能におけるメタラーニング

Meta-learning in natural and artificial intelligence ( http://arxiv.org/abs/2011.13464v1 )

ライセンス: Link先を確認
Jane X. Wang(参考訳) メタラーニング(または学習)は、人工知能コミュニティにおける近年の新たな関心を集めている。 しかし、メタラーニングは自然界で驚くほど広まり、認知科学と心理学に深いルーツを持ち、現在、神経科学の様々な形態で研究されている。 本研究の目的は、メタラーニングのレンズ内での生物学的知能の研究において、これらの研究を共通の枠組みに組み込むことである。 より最近のAIと神経科学の相互作用のポイントと、この視点の下で生じる興味深い新しい方向性について論じる。

Meta-learning, or learning to learn, has gained renewed interest in recent years within the artificial intelligence community. However, meta-learning is incredibly prevalent within nature, has deep roots in cognitive science and psychology, and is currently studied in various forms within neuroscience. The aim of this review is to recast previous lines of research in the study of biological intelligence within the lens of meta-learning, placing these works into a common framework. More recent points of interaction between AI and neuroscience will be discussed, as well as interesting new directions that arise under this perspective.
翻訳日:2022-09-20 08:56:54 公開日:2020-11-26
# 光リモートセンシング画像における有意物体検出のためのDense Attention Fluid Network

Dense Attention Fluid Network for Salient Object Detection in Optical Remote Sensing Images ( http://arxiv.org/abs/2011.13144v1 )

ライセンス: Link先を確認
Qijian Zhang, Runmin Cong, Chongyi Li, Ming-Ming Cheng, Yuming Fang, Xiaochun Cao, Yao Zhao, and Sam Kwong(参考訳) 自然シーン画像(NSI)の視覚的サリエンシ解析の進歩にもかかわらず、光学リモートセンシング画像(RSI)のサリエント物体検出(SOD)は依然としてオープンで困難な問題である。 本稿では,光学RSIにおけるSODのためのエンドツーエンドDense Attention Fluid Network (DAFNet)を提案する。 Global Context-Aware Attention (GCA)モジュールは、長距離の意味的関係を適応的に捉えるために提案され、さらにDense Attention Fluid (DAF)構造に埋め込まれている。 具体的には、グローバル特徴集約モジュールは、任意の2つの空間位置から有意な特徴埋め込みの相互強化を達成し、カスケードされたピラミッドアテンションモジュールは、カスケードされたピラミッドフレームワークを構築して、アテンションマップを粗い方法で段階的に洗練するスケール変動問題に取り組む。 さらに,SODのための新しい,かつ挑戦的な光学RSIデータセットを構築した。 我々の提案したDAFNetは、既存の最先端のSODコンペティターよりも大幅に優れています。 https://github.com/rmcong/DAFNet_TIP20

Despite the remarkable advances in visual saliency analysis for natural scene images (NSIs), salient object detection (SOD) for optical remote sensing images (RSIs) still remains an open and challenging problem. In this paper, we propose an end-to-end Dense Attention Fluid Network (DAFNet) for SOD in optical RSIs. A Global Context-aware Attention (GCA) module is proposed to adaptively capture long-range semantic context relationships, and is further embedded in a Dense Attention Fluid (DAF) structure that enables shallow attention cues flow into deep layers to guide the generation of high-level feature attention maps. Specifically, the GCA module is composed of two key components, where the global feature aggregation module achieves mutual reinforcement of salient feature embeddings from any two spatial locations, and the cascaded pyramid attention module tackles the scale variation issue by building up a cascaded pyramid framework to progressively refine the attention map in a coarse-to-fine manner. In addition, we construct a new and challenging optical RSI dataset for SOD that contains 2,000 images with pixel-wise saliency annotations, which is currently the largest publicly available benchmark. Extensive experiments demonstrate that our proposed DAFNet significantly outperforms the existing state-of-the-art SOD competitors. https://github.com/rmcong/DAFNet_TIP20
翻訳日:2022-09-20 08:54:59 公開日:2020-11-26
# 周波数成分の異なるcnnを用いた強ガウス雑音に対する画像デノージング

Image Denoising for Strong Gaussian Noises With Specialized CNNs for Different Frequency Components ( http://arxiv.org/abs/2011.14908v1 )

ライセンス: Link先を確認
Seyed Mohsen Hosseini(参考訳) 画像のノイズ化に対する機械学習アプローチでは、ネットワークがノイズの多い画像からクリーンな画像を復元するように訓練される。 本稿では,単一ネットワークを基盤とする既存の構造とは対照的に,複数の特化ネットワークのトレーニングに基づく新しい構造を提案する。 提案するモデルは,勾配の消失や爆発といった問題を回避するために,非常に深いネットワークをトレーニングする代替手段である。 非常に深いネットワークを2つの小さなネットワークに分割することで、学習可能なパラメータの数が同じになるが、トレーニングが容易な2つの小さなネットワークをトレーニングする必要がある。 ネットワークはMean Square Error(MSE)を一般的な構造や詳細に対して低く保とうとしているため、詳細を見落としてしまう。 この問題は強い雑音の存在下ではより深刻である。 この問題を軽減するため、提案した構造では、画像をその低周波成分と高周波成分に分解し、各成分を使用して別々の分極畳み込みニューラルネットワークを訓練する。 1つのネットワークはイメージの一般的な構造を再構築するために、もう1つのネットワークは詳細を再構築するために特別です。 提案手法は, 強い雑音の存在下で, 高いピーク信号対雑音比 (PSNR) , 構造類似度指数 (SSIM) を示す。

In machine learning approach to image denoising a network is trained to recover a clean image from a noisy one. In this paper a novel structure is proposed based on training multiple specialized networks as opposed to existing structures that are base on a single network. The proposed model is an alternative for training a very deep network to avoid issues like vanishing or exploding gradient. By dividing a very deep network into two smaller networks the same number of learnable parameters will be available, but two smaller networks should be trained which are easier to train. Over smoothing and waxy artifacts are major problems with existing methods; because the network tries to keep the Mean Square Error (MSE) low for general structures and details, which leads to overlooking of details. This problem is more severe in the presence of strong noise. To reduce this problem, in the proposed structure, the image is decomposed into its low and high frequency components and each component is used to train a separate denoising convolutional neural network. One network is specialized to reconstruct the general structure of the image and the other one is specialized to reconstruct the details. Results of the proposed method show higher peak signal to noise ratio (PSNR), and structural similarity index (SSIM) compared to a popular state of the art denoising method in the presence of strong noises.
翻訳日:2022-09-20 08:49:08 公開日:2020-11-26
# 標準テストにおける複数選択質問の自動発散子生成

Automatic Distractor Generation for Multiple Choice Questions in Standard Tests ( http://arxiv.org/abs/2011.13100v1 )

ライセンス: Link先を確認
Zhaopeng Qiu, Xian Wu, Wei Fan(参考訳) 学習者の知識能力を評価するために, 複数選択質問は, 標準テストにおいて, 効率的かつ広範な形式である。 しかし,複数選択問題の構成,特に散逸器の構成は非常に困難である。 気晴らしは、知識を習得していない学習者を混乱させるのに十分な正確さと誤りの両方に要求される。 現在、気晴らしは、費用も時間もかかるドメインの専門家によって生成される。 このことは、様々な領域で様々な標準テストの恩恵を受けることができる自動イントラクタ生成の出現を促す。 本稿では,障害発生の自動化を目的とした質問・回答誘導型障害生成(edge)フレームワークを提案する。 EDGE は,(1) 改革質問モジュール,(2) 改革パスモジュールの3つの主要なモジュールから構成される。(1) 改革質問モジュールと改革パスモジュールは,生成した障害の固有の不正性を保証するためにゲート層を適用し,(2) ディトラクタジェネレータモジュールは,妥当性のレベルを制御するために注意機構を適用している。 大規模パブリックデータセットでの実験的結果は、我々のモデルが既存のモデルを大幅に上回っており、新しい最先端を達成していることを示している。

To assess the knowledge proficiency of a learner, multiple choice question is an efficient and widespread form in standard tests. However, the composition of the multiple choice question, especially the construction of distractors is quite challenging. The distractors are required to both incorrect and plausible enough to confuse the learners who did not master the knowledge. Currently, the distractors are generated by domain experts which are both expensive and time-consuming. This urges the emergence of automatic distractor generation, which can benefit various standard tests in a wide range of domains. In this paper, we propose a question and answer guided distractor generation (EDGE) framework to automate distractor generation. EDGE consists of three major modules: (1) the Reforming Question Module and the Reforming Passage Module apply gate layers to guarantee the inherent incorrectness of the generated distractors; (2) the Distractor Generator Module applies attention mechanism to control the level of plausibility. Experimental results on a large-scale public dataset demonstrate that our model significantly outperforms existing models and achieves a new state-of-the-art.
翻訳日:2022-09-20 08:47:51 公開日:2020-11-26
# テキストから因果ベイズネットワークを学ぶ

Learning Causal Bayesian Networks from Text ( http://arxiv.org/abs/2011.13115v1 )

ライセンス: Link先を確認
Farhad Moghimifar, Afshin Rahimi, Mahsa Baktashmotlagh, Xue Li(参考訳) 因果関係は人工知能システムにおける推論と意思決定の基礎を形成する。 今日利用可能な大量のテキストデータを活用するために、テキストから因果関係の自動発見が近年大きな課題となっている。 この領域における既存のアプローチは、個々のイベント間の低レベルな関係の抽出に限定されている。 本稿では,既存のアプローチの限界を克服するために,概念レベルでの人文言語からの因果関係の自動推論手法を提案する。 この目的のために、テキストから生成された概念の階層構造と言語変数の特性を活用し、因果関係を因果ベイズネットワークの形で表現する。 本実験は,テキストから複雑な因果推論を推定する既存手法に対するアプローチの優位性を実証するものである。

Causal relationships form the basis for reasoning and decision-making in Artificial Intelligence systems. To exploit the large volume of textual data available today, the automatic discovery of causal relationships from text has emerged as a significant challenge in recent years. Existing approaches in this realm are limited to the extraction of low-level relations among individual events. To overcome the limitations of the existing approaches, in this paper, we propose a method for automatic inference of causal relationships from human written language at conceptual level. To this end, we leverage the characteristics of hierarchy of concepts and linguistic variables created from text, and represent the extracted causal relationships in the form of a Causal Bayesian Network. Our experiments demonstrate superiority of our approach over the existing approaches in inferring complex causal reasoning from the text.
翻訳日:2022-09-20 08:47:33 公開日:2020-11-26
# 機械学習を用いた波浪農場の電力出力予測のための推定モデル

Estimator Model for Prediction of Power Output of Wave Farms Using Machine Learning Methods ( http://arxiv.org/abs/2011.13130v1 )

ライセンス: Link先を確認
Bhavana Burramukku(参考訳) ウェーブファームによって発生する電力の量は、通常のウェーブ条件とともにウェーブエネルギー変換器(WEC)の配置に依存する。 したがって、アレイ内のWECの適切な配置を形成することは、パワー吸収を最大化する重要な要素である。 テストサイトから収集されたデータは、ウェーブファームの出力を予測するためのニューラルモデルの設計に使用される。 本稿では,オーストラリア南岸の4つの実波シナリオから得られたデータセットに基づいて,波浪エネルギー予測のためのニューラルモデルの開発に着目する。 応用コンバータモデルはCETOと呼ばれる完全潜水三層コンバータである。 WEC配置の精密な解析を行い, 試験場における波動ファームの発電量を明らかにした。

The amount of power generated by a wave farm depends on the Wave Energy Converter (WEC) arrangement along with the usual wave conditions. Therefore, forming the appropriate arrangement of WECs in an array is an important factor in maximizing power absorption. Data collected from the test sites is used to design a neural model for predicting wave farm's power output generated. This paper focuses on developing a neural model for the prediction of wave energy based on the data set derived from the four real wave scenarios from the southern coast of Australia. The applied converter model is a fully submerged three-tether converter called CETO. A precise analysis of the WEC placement is investigated to reveal the amount of power generated by the wave farms on the test site.
翻訳日:2022-09-20 08:46:40 公開日:2020-11-26
# 発達心理学に基づく概念獲得の進化

The Evolution of Concept-Acquisition based on Developmental Psychology ( http://arxiv.org/abs/2011.13089v1 )

ライセンス: Link先を確認
Hui Wei(参考訳) 知識に基づく人工知能システムの性能向上の鍵は、豊富な意味を持つ概念システムである。 豊富な概念と豊富な意味関係を持ち、開発可能で進化可能であり、マルチタスク環境に適応できる概念システムである一方で、その実際の構成は知識工学の主要な課題の1つだけでなく、知識と概念化の研究の基本的な目標でもある。 概念を表現し、概念システムを構築する新しい方法を見つけることは、多くのインテリジェントシステムの性能を大幅に向上させる。 幸運なことに、人間の認知の中核は比較的完全な概念とシステムの確立と発展を保証するメカニズムを持つシステムである。 人間の概念体系はすぐには達成できないが、徐々に発展しなければならない。 発達心理学は人間の行動レベルにおける概念獲得の過程を注意深く観察し、認知心理学とともにそれらの観察のラフな説明を提案している。 しかし、表現、体系モデル、アルゴリズムの詳細、実現といった側面の研究が欠如しているため、発達心理学の結果の多くは人工概念システムの構築に直接適用されていない。 例えば、karmiloff-smith's representation reescription (rr) は概念の低レベル表現を高レベル表現に再記述する概念獲得過程を反映している。 本稿は,この発達心理学的視点に着想を得たものである。 我々はオブジェクト指向アプローチを用いて、ORパラダイムは外界を記述する自然な方法であり、厳密な文法規則も備えているため、形式的意味論の観点からRR仮定を再記述し、実体化する。

A conceptual system with rich connotation is key to improving the performance of knowledge-based artificial intelligence systems. While a conceptual system, which has abundant concepts and rich semantic relationships, and is developable, evolvable, and adaptable to multi-task environments, its actual construction is not only one of the major challenges of knowledge engineering, but also the fundamental goal of research on knowledge and conceptualization. Finding a new method to represent concepts and construct a conceptual system will therefore greatly improve the performance of many intelligent systems. Fortunately the core of human cognition is a system with relatively complete concepts and a mechanism that ensures the establishment and development of the system. The human conceptual system can not be achieved immediately, but rather must develop gradually. Developmental psychology carefully observes the process of concept acquisition in humans at the behavioral level, and along with cognitive psychology has proposed some rough explanations of those observations. However, due to the lack of research in aspects such as representation, systematic models, algorithm details and realization, many of the results of developmental psychology have not been applied directly to the building of artificial conceptual systems. For example, Karmiloff-Smith's Representation Redescription (RR) supposition reflects a concept-acquisition process that re-describes a lower level representation of a concept to a higher one. This paper is inspired by this developmental psychology viewpoint. We use an object-oriented approach to re-explain and materialize RR supposition from the formal semantic perspective, because the OO paradigm is a natural way to describe the outside world, and it also has strict grammar regulations.
翻訳日:2022-09-20 08:46:31 公開日:2020-11-26
# 深層学習に基づくコンピュータ支援診断システム解説の成果と課題

Achievements and Challenges in Explaining Deep Learning based Computer-Aided Diagnosis Systems ( http://arxiv.org/abs/2011.13169v1 )

ライセンス: Link先を確認
Adriano Lucieri, Muhammad Naseer Bajwa, Andreas Dengel, Sheraz Ahmed(参考訳) 現代の画像ベースのAI手法の顕著な成功と、重要な意思決定プロセスにおける彼らの応用への関心は、そのようなインテリジェントなシステムを透明で説明可能なものにするための努力の急増につながった。 説明可能なAIの必要性は、倫理的および道徳的な根拠だけでなく、AIによって決定されたり支援されたりすることを明確かつ正当化可能な説明を義務付ける世界中の厳格な法律にも起因している。 特に、コンピュータ支援診断が患者の治療や健康に直接的な影響を与えうる医学的文脈では、透明性は研究室研究から実際の臨床実践への安全な移行にとって最も重要である。 本稿では,Deep Learningベースのアルゴリズムを医学研究や病気の診断に応用した解説・解釈における現状を概観する。 我々は、既知の疾患基準の検証、新しい潜在的なバイオマーカーの探索、およびその後のAIモデルの修正方法に関する説明可能なAIの開発における初期の成果について論じる。 視覚的,テキスト的,ポストホック,アントホック,ローカル,グローバルといった様々な説明手法が徹底的かつ批判的に分析されてきた。 続いて、臨床意思決定支援ツールとしてのAIの実践的応用の道に立つ残りの課題を強調し、今後の研究の方向性を推奨する。

Remarkable success of modern image-based AI methods and the resulting interest in their applications in critical decision-making processes has led to a surge in efforts to make such intelligent systems transparent and explainable. The need for explainable AI does not stem only from ethical and moral grounds but also from stricter legislation around the world mandating clear and justifiable explanations of any decision taken or assisted by AI. Especially in the medical context where Computer-Aided Diagnosis can have a direct influence on the treatment and well-being of patients, transparency is of utmost importance for safe transition from lab research to real world clinical practice. This paper provides a comprehensive overview of current state-of-the-art in explaining and interpreting Deep Learning based algorithms in applications of medical research and diagnosis of diseases. We discuss early achievements in development of explainable AI for validation of known disease criteria, exploration of new potential biomarkers, as well as methods for the subsequent correction of AI models. Various explanation methods like visual, textual, post-hoc, ante-hoc, local and global have been thoroughly and critically analyzed. Subsequently, we also highlight some of the remaining challenges that stand in the way of practical applications of AI as a clinical decision support tool and provide recommendations for the direction of future research.
翻訳日:2022-09-20 08:46:04 公開日:2020-11-26
# 奥行き認識:時間熱マップによるポーズ・モーションエンコーディング

Depth-Aware Action Recognition: Pose-Motion Encoding through Temporal Heatmaps ( http://arxiv.org/abs/2011.13399v1 )

ライセンス: Link先を確認
Mattia Segu, Federico Pirovano, Gianmario Fumagalli, Amedeo Fabris(参考訳) アクション認識のための最先端のほとんどの方法は、外観、動き、ポーズを符号化する2次元空間的特徴にのみ依存する。 しかし、2Dデータには奥行き情報がないため、きめ細かい動きを認識するのに不可欠である。 本稿では,行動分類のための統一表現として,ポーズと動作情報をエンコードする奥行き認識型ボリュームディスクリプタを提案する。 我々の枠組みは、例えば視点、シーン、衣服、体形の変化など、行動認識に固有の多くの課題に対して堅牢である。 この手法の重要なコンポーネントは、人体の意味的キーポイントの3d動きをエンコードする新しいビデオディスクリプタであるda-potion(deep-aware pose motion representation)である。 ビデオが与えられたら、最先端の3dポーズレグレッサーを使って各フレームの人間の関節熱マップを作成し、クリップ内の相対時間に応じてそれぞれにユニークな色コードを与えます。 そして,これらの3次元時間エンコードされたヒートマップを集約して,浅い3次元畳み込みニューラルネットワーク(CNN)を用いた動作の分類に適した固定サイズ記述子(DA-PoTion)を得る。 DA-PoTionだけで、Penn Action Datasetの新たな最先端が定義されている。 さらに,jhmdbデータセット上での新たな最先端を定義するために,膨らんだ3d convnet (i3d) と組み合わせることで,ポーズ動作記述子の包括的相補性を活用する。

Most state-of-the-art methods for action recognition rely only on 2D spatial features encoding appearance, motion or pose. However, 2D data lacks the depth information, which is crucial for recognizing fine-grained actions. In this paper, we propose a depth-aware volumetric descriptor that encodes pose and motion information in a unified representation for action classification in-the-wild. Our framework is robust to many challenges inherent to action recognition, e.g. variation in viewpoint, scene, clothing and body shape. The key component of our method is the Depth-Aware Pose Motion representation (DA-PoTion), a new video descriptor that encodes the 3D movement of semantic keypoints of the human body. Given a video, we produce human joint heatmaps for each frame using a state-of-the-art 3D human pose regressor and we give each of them a unique color code according to the relative time in the clip. Then, we aggregate such 3D time-encoded heatmaps for all human joints to obtain a fixed-size descriptor (DA-PoTion), which is suitable for classifying actions using a shallow 3D convolutional neural network (CNN). The DA-PoTion alone defines a new state-of-the-art on the Penn Action Dataset. Moreover, we leverage the intrinsic complementarity of our pose motion descriptor with appearance based approaches by combining it with Inflated 3D ConvNet (I3D) to define a new state-of-the-art on the JHMDB Dataset.
翻訳日:2022-09-20 08:40:02 公開日:2020-11-26
# 層幅関係伝播を用いた構造化データの深層学習モデル

Explaining Deep Learning Models for Structured Data using Layer-Wise Relevance Propagation ( http://arxiv.org/abs/2011.13429v1 )

ライセンス: Link先を確認
hsan Ullah, Andre Rios, Vaibhav Gala and Susan Mckeever(参考訳) 機械学習モデルの信頼性と信頼性は、その決定を説明するモデルの能力によって強化される。 ディープラーニングモデルの説明可能性はよく知られた課題だが、さらに難しいのは説明自体の明確化であり、下流のユーザによって解釈されなければならない。 LRP(Layer-wise Relevance Propagation)は、コンピュータビジョンの深層モデルのための確立された説明可能性技術である。 本稿では,深層ニューラルネットワーク(1D-CNN)を用いた構造化データセットを用いて,クレジットカード不正検出とTelecom Customer Churn予測データセットを初めて適用した。 本稿では,LIME(Local Interpretable Model-Agnostic Ex-planations)とSHAP(Shapley Additive Explanations)の従来の説明可能性概念よりも,LRPが有効であることを示す。 この有効性は、サンプルレベルとテストセット全体に対する全体的の両方に局所的です。 また, LIME (22s) と SHAP (108s) に対する LRP (1-2s) の有意な計算時間優位性についても論じる。 さらに、LRPの検証では、モデル性能向上のための特徴が強調され、XAIを機能サブセット選択のアプローチとして活用する新たな研究領域が開かれた。

Trust and credibility in machine learning models is bolstered by the ability of a model to explain itsdecisions. While explainability of deep learning models is a well-known challenge, a further chal-lenge is clarity of the explanation itself, which must be interpreted by downstream users. Layer-wiseRelevance Propagation (LRP), an established explainability technique developed for deep models incomputer vision, provides intuitive human-readable heat maps of input images. We present the novelapplication of LRP for the first time with structured datasets using a deep neural network (1D-CNN),for Credit Card Fraud detection and Telecom Customer Churn prediction datasets. We show how LRPis more effective than traditional explainability concepts of Local Interpretable Model-agnostic Ex-planations (LIME) and Shapley Additive Explanations (SHAP) for explainability. This effectivenessis both local to a sample level and holistic over the whole testing set. We also discuss the significantcomputational time advantage of LRP (1-2s) over LIME (22s) and SHAP (108s), and thus its poten-tial for real time application scenarios. In addition, our validation of LRP has highlighted features forenhancing model performance, thus opening up a new area of research of using XAI as an approachfor feature subset selection
翻訳日:2022-09-20 08:39:37 公開日:2020-11-26
# 新型コロナウイルスのフェイクニュース検出とファクトチェックのための2段階トランスフォーマーモデル

Two Stage Transformer Model for COVID-19 Fake News Detection and Fact Checking ( http://arxiv.org/abs/2011.13253v1 )

ライセンス: Link先を確認
Rutvik Vijjali, Prathyush Potluri, Siddharth Kumar, Sundeep Teki(参考訳) ソーシャルメディアプラットフォームによるオンラインコミュニケーションにおける技術の急速な進歩は、誤情報やフェイクニュースの普及に大きく結びついている。 偽ニュースは新型コロナウイルス(COVID-19)のパンデミックで特に波及し、虚偽で潜在的に有害な主張や物語を信じる人々がいる。 偽ニュースを素早く検出することは、パニック、カオス、潜在的な健康リスクの拡散を緩和する。 自然言語処理のための最先端機械学習モデルを用いて,covid-19偽ニュース検出のための2段階自動化パイプラインを開発した。 最初のモデルは、新型コロナウイルスに関するユーザーの主張に関する最も関連性の高い事実を検索する、新しい事実チェックアルゴリズムを活用する。 第2のモデルは、クレームと、手動でキュレートされたCOVID-19データセットから取得した真事実の間のテキストの関連性を計算することによって、クレームの真理レベルを検証する。 このデータセットは、5000以上の新型コロナウイルスの偽の主張と検証された説明からなる公開知識ソースに基づいており、そのサブセットは内部で注釈付けされ、モデルのトレーニングと評価のためにクロスバリデーションされた。 従来のテキストベースの特徴に基づく一連のモデルから、より文脈的なトランスフォーマーモデルの評価を行い、2段階のBERTとALBERTに基づくモデルパイプラインがそれぞれ最良の結果をもたらすことを観察する。

The rapid advancement of technology in online communication via social media platforms has led to a prolific rise in the spread of misinformation and fake news. Fake news is especially rampant in the current COVID-19 pandemic, leading to people believing in false and potentially harmful claims and stories. Detecting fake news quickly can alleviate the spread of panic, chaos and potential health hazards. We developed a two stage automated pipeline for COVID-19 fake news detection using state of the art machine learning models for natural language processing. The first model leverages a novel fact checking algorithm that retrieves the most relevant facts concerning user claims about particular COVID-19 claims. The second model verifies the level of truth in the claim by computing the textual entailment between the claim and the true facts retrieved from a manually curated COVID-19 dataset. The dataset is based on a publicly available knowledge source consisting of more than 5000 COVID-19 false claims and verified explanations, a subset of which was internally annotated and cross-validated to train and evaluate our models. We evaluate a series of models based on classical text-based features to more contextual Transformer based models and observe that a model pipeline based on BERT and ALBERT for the two stages respectively yields the best results.
翻訳日:2022-09-20 08:39:11 公開日:2020-11-26
# 学習と進化による物理インフォームド・ニューラルステート・スペースモデル

Physics-Informed Neural State Space Models via Learning and Evolution ( http://arxiv.org/abs/2011.13497v1 )

ライセンス: Link先を確認
Elliott Skomski, Jan Drgona, Aaron Tuor(参考訳) 動的システムモデリングへのディープラーニングの適用を探求する最近の研究は、ニューラルネットワークに物理的事前を埋め込むことにより、より効果的で、物理的に現実的で、データ効率のよいモデルが得られることを示した。 しかし、力学系の物理特性に関する事前知識がなければ、これらのモデルの最適構造と最適化戦略を決定することは困難である。 本研究では,システム同定のための神経状態空間ダイナミクスモデルの発見法について検討する。 ブロック指向状態空間モデルと強い物理先行性を持つ構造線形写像の設計空間から始めて、これらの成分をネットワーク構造、ペナルティ制約、最適化ハイパーパラメータとともにモデルゲノムにエンコードする。 設計空間の全体的有用性を示すために, モデル選択と最適化を交互に交互に行う非同期遺伝的探索アルゴリズムを用い, 空力体, 連鋳タンクリアクター, 2タンク間相互作用システムという3つの物理システムの物理的に一貫性のある正確なモデルを得る。

Recent works exploring deep learning application to dynamical systems modeling have demonstrated that embedding physical priors into neural networks can yield more effective, physically-realistic, and data-efficient models. However, in the absence of complete prior knowledge of a dynamical system's physical characteristics, determining the optimal structure and optimization strategy for these models can be difficult. In this work, we explore methods for discovering neural state space dynamics models for system identification. Starting with a design space of block-oriented state space models and structured linear maps with strong physical priors, we encode these components into a model genome alongside network structure, penalty constraints, and optimization hyperparameters. Demonstrating the overall utility of the design space, we employ an asynchronous genetic search algorithm that alternates between model selection and optimization and obtains accurate physically consistent models of three physical systems: an aerodynamics body, a continuous stirred tank reactor, and a two tank interacting system.
翻訳日:2022-09-20 08:38:35 公開日:2020-11-26
# 時間とリスク依存経路計画のための予測衝突管理

Predictive Collision Management for Time and Risk Dependent Path Planning ( http://arxiv.org/abs/2011.13305v1 )

ライセンス: Link先を確認
Carsten Hahn, Sebastian Feld, Hannes Schroter(参考訳) 自動運転車やパーセルロボットのような自律エージェントは、環境内でうまく動くためには障害物との衝突を認識・回避する必要がある。 しかし、人間は直感的に動きを予測し、前方から障害物を避けることを学んだ。 衝突回避のタスクは、グローバルレベルとローカルレベルに分けられる。 グローバルレベルでは,PCMP(Predictive Collision Management Path Planning)と呼ばれるアプローチを提案する。 局所レベルでは、衝突回避のための解が避けられない衝突を防止するために用いられる。 そこでPCMPの目的は,予測衝突管理を用いて不要な局所衝突シナリオを回避することである。 PCMPは,(1)移動予測,(2)移動予測の時間依存グラフへの統合,(3)時間とリスクに依存した経路計画という3つの部分からなる時間次元に着目したグラフベースのアルゴリズムである。 このアルゴリズムは、最短経路の探索と質問を組み合わせている。 異なるシミュレーションシナリオにおける回避行動を評価し, リスクに敏感なエージェントは衝突シナリオの47.3%を回避でき, 反動は1.3%であった。 リスク回避剤は、衝突シナリオの最大97.3%を39.1%で回避する。 したがって、エージェントの回避行動は、PCMPを用いてアクティブかつリスク依存的に制御できる。

Autonomous agents such as self-driving cars or parcel robots need to recognize and avoid possible collisions with obstacles in order to move successfully in their environment. Humans, however, have learned to predict movements intuitively and to avoid obstacles in a forward-looking way. The task of collision avoidance can be divided into a global and a local level. Regarding the global level, we propose an approach called "Predictive Collision Management Path Planning" (PCMP). At the local level, solutions for collision avoidance are used that prevent an inevitable collision. Therefore, the aim of PCMP is to avoid unnecessary local collision scenarios using predictive collision management. PCMP is a graph-based algorithm with a focus on the time dimension consisting of three parts: (1) movement prediction, (2) integration of movement prediction into a time-dependent graph, and (3) time and risk-dependent path planning. The algorithm combines the search for a shortest path with the question: is the detour worth avoiding a possible collision scenario? We evaluate the evasion behavior in different simulation scenarios and the results show that a risk-sensitive agent can avoid 47.3% of the collision scenarios while making a detour of 1.3%. A risk-averse agent avoids up to 97.3% of the collision scenarios with a detour of 39.1%. Thus, an agent's evasive behavior can be controlled actively and risk-dependent using PCMP.
翻訳日:2022-09-20 08:37:54 公開日:2020-11-26
# t-EVA: 時間効率の良いt-SNEビデオアノテーション

t-EVA: Time-Efficient t-SNE Video Annotation ( http://arxiv.org/abs/2011.13202v1 )

ライセンス: Link先を確認
Soroosh Poorgholi, Osman Semih Kayhan and Jan C. van Gemert(参考訳) ビデオ理解は、いくつかの大規模なビデオデータセットが利用可能であることから、ここ数年で注目されている。 しかし、大規模ビデオデータセットの注釈付けはコストがかかる。 本研究では,時空間的特徴類似度とt-SNE次元の低減を用いた時間効率なビデオアノテーション手法を提案する。 異なるビデオから同じアクションを2次元の空間に配置することは、アノテータがグループラベルのビデオクリップを作成するのに役立ちます。 本研究では,ActivityNetの2つのサブセット(v1.3)とSports-1Mデータセットのサブセットについて評価する。 t-EVAはビデオ分類におけるテスト精度を維持しつつ、他のビデオアノテーションツールよりも優れていることを示す。

Video understanding has received more attention in the past few years due to the availability of several large-scale video datasets. However, annotating large-scale video datasets are cost-intensive. In this work, we propose a time-efficient video annotation method using spatio-temporal feature similarity and t-SNE dimensionality reduction to speed up the annotation process massively. Placing the same actions from different videos near each other in the two-dimensional space based on feature similarity helps the annotator to group-label video clips. We evaluate our method on two subsets of the ActivityNet (v1.3) and a subset of the Sports-1M dataset. We show that t-EVA can outperform other video annotation tools while maintaining test accuracy on video classification.
翻訳日:2022-09-20 08:37:21 公開日:2020-11-26
# 潜時空間仮想対位訓練による正規化

Regularization with Latent Space Virtual Adversarial Training ( http://arxiv.org/abs/2011.13181v1 )

ライセンス: Link先を確認
Genki Osada, Budrul Ahsan, Revoti Prasad Bora, Takashi Nishide(参考訳) VAT(Virtual Adversarial Training)は、最近開発された一貫性正規化と呼ばれる正規化手法の中で印象的な結果を示している。 VATは、入力空間に摂動を注入して生成された対向サンプルをトレーニングに利用し、分類器の一般化能力を高める。 しかし、そのような逆サンプルは、入力データポイント周辺の非常に小さな領域内でのみ生成できるため、逆サンプルの有効性が制限される。 この問題に対処するためにLVAT(Latent space VAT)を提案し、入力空間の代わりに潜時空間の摂動を注入する。 LVATは反対のサンプルを柔軟に生成することができ、より有害な効果をもたらし、より効果的な正則化をもたらす。 潜在空間は生成モデルによって構築され,本論文では変分オートエンコーダと正規化フロー,特にグローの2つの異なるモデルについて検討する。 SVHNとCIFAR-10データセットを用いた画像分類タスクにおいて,教師付き学習シナリオと半教師付き学習シナリオの両方において,本手法の性能評価を行った。 評価の結果,本手法はVATや他の最先端手法よりも優れていた。

Virtual Adversarial Training (VAT) has shown impressive results among recently developed regularization methods called consistency regularization. VAT utilizes adversarial samples, generated by injecting perturbation in the input space, for training and thereby enhances the generalization ability of a classifier. However, such adversarial samples can be generated only within a very small area around the input data point, which limits the adversarial effectiveness of such samples. To address this problem we propose LVAT (Latent space VAT), which injects perturbation in the latent space instead of the input space. LVAT can generate adversarial samples flexibly, resulting in more adverse effects and thus more effective regularization. The latent space is built by a generative model, and in this paper, we examine two different type of models: variational auto-encoder and normalizing flow, specifically Glow. We evaluated the performance of our method in both supervised and semi-supervised learning scenarios for an image classification task using SVHN and CIFAR-10 datasets. In our evaluation, we found that our method outperforms VAT and other state-of-the-art methods.
翻訳日:2022-09-20 08:29:38 公開日:2020-11-26
# 単一インスタンスを越えた教師なし表現学習

Beyond Single Instance Multi-view Unsupervised Representation Learning ( http://arxiv.org/abs/2011.13356v1 )

ライセンス: Link先を確認
Xiangxiang Chu and Xiaohang Zhan and Xiaolin Wei(参考訳) 最近の教師なしコントラスト表現学習(unsupervised contrastive representation learning)は、単一のインスタンスマルチビュー(sim)パラダイムに従っている。 本稿では,Beyond Single Instance Multi-view (BSIM) と呼ばれる効果的な手法を提案する。 具体的には、ランダムにサンプリングされた2つのインスタンスとそれらの混合物、すなわち刺激陽性ペアとの関節類似度を測定することで、より正確なインスタンス識別能力を与える。 符号化された特徴をより均等に分散することで,共同学習の類似性が向上すると考えている。 シムclr,moco,byolなど,教師なしコントラスト表現学習の直交改善として適用する。 我々は、ImageNet-1kとPASCAL VOC 2007の線形分類、MS COCO 2017とVOCのオブジェクト検出など、多くの下流ベンチマークでの学習表現を評価した。 先行技術と比べて、これらのタスクのほぼすべてにおいて、かなりの利益を得ることができます。

Recent unsupervised contrastive representation learning follows a Single Instance Multi-view (SIM) paradigm where positive pairs are usually constructed with intra-image data augmentation. In this paper, we propose an effective approach called Beyond Single Instance Multi-view (BSIM). Specifically, we impose more accurate instance discrimination capability by measuring the joint similarity between two randomly sampled instances and their mixture, namely spurious-positive pairs. We believe that learning joint similarity helps to improve the performance when encoded features are distributed more evenly in the latent space. We apply it as an orthogonal improvement for unsupervised contrastive representation learning, including current outstanding methods SimCLR, MoCo, and BYOL. We evaluate our learned representations on many downstream benchmarks like linear classification on ImageNet-1k and PASCAL VOC 2007, object detection on MS COCO 2017 and VOC, etc. We obtain substantial gains with a large margin almost on all these tasks compared with prior arts.
翻訳日:2022-09-20 08:29:01 公開日:2020-11-26
# ClusterFace: セットベース顔認識のための共同クラスタリングと分類

ClusterFace: Joint Clustering and Classification for Set-Based Face Recognition ( http://arxiv.org/abs/2011.13360v1 )

ライセンス: Link先を確認
S. W. Arachchilage, E. Izquierdo(参考訳) ディープラーニング技術は、高品質の画像が利用可能になったときに複雑な顔特徴のモデリングを成功に導いた。 それでも、現実のシナリオにおける人間の顔の正確なモデリングと認識は「野生」や悪条件下では未解決の問題である。 制約のない顔が深い特徴にマッピングされると、照明、ポーズ、オクルージョンなどのバリエーションが結果の特徴空間における矛盾を生じさせる。 したがって、直接的な関連に基づく結論の導出は、性能低下につながる可能性がある。 これにより、顔認識に先立って基本的な特徴空間分析が要求される。 本稿では,深部顔関連を分かりやすく学習する統合クラスタリングと分類手法を提案する。 我々の手法は階層的なクラスタリングに基づいており、初期イテレーションは高い信頼性を保ちがちである。 提案手法の理論的根拠は,信頼性の高いクラスタリングにより特徴空間の分布を把握でき,次に示す分類を導出できるということである。 3つの課題(顔の検証、顔の識別、ランク順探索)に対する実験的な評価は、最先端の3つの実験よりも優れた、あるいは競争的な性能を示す。

Deep learning technology has enabled successful modeling of complex facial features when high quality images are available. Nonetheless, accurate modeling and recognition of human faces in real world scenarios `on the wild' or under adverse conditions remains an open problem. When unconstrained faces are mapped into deep features, variations such as illumination, pose, occlusion, etc., can create inconsistencies in the resultant feature space. Hence, deriving conclusions based on direct associations could lead to degraded performance. This rises the requirement for a basic feature space analysis prior to face recognition. This paper devises a joint clustering and classification scheme which learns deep face associations in an easy-to-hard way. Our method is based on hierarchical clustering where the early iterations tend to preserve high reliability. The rationale of our method is that a reliable clustering result can provide insights on the distribution of the feature space, that can guide the classification that follows. Experimental evaluations on three tasks, face verification, face identification and rank-order search, demonstrates better or competitive performance compared to the state-of-the-art, on all three experiments.
翻訳日:2022-09-20 08:28:45 公開日:2020-11-26
# SSDL: 顔認識改善のための自己監督型ドメイン学習

SSDL: Self-Supervised Domain Learning for Improved Face Recognition ( http://arxiv.org/abs/2011.13361v1 )

ライセンス: Link先を確認
S. W. Arachchilage, E. Izquierdo(参考訳) 非拘束環境における顔認識は、照明のバリエーション、センシングの質、動きのぼやきなどにより困難である。 個人の顔の外観は、異なる条件下で大きく変化し、列車(ソース)と様々なテスト(ターゲット)データの間にギャップが生じる。 ドメインギャップは、ソースからターゲットへの直接的な知識転送のパフォーマンスレベルを低下させる可能性がある。 ドメイン固有のデータの微調整は効果的な解決策になり得るが、すべてのドメインのデータ収集と注釈は極めて高価である。 そこで本研究では,ラベルなしデータから抽出した三重項を訓練する自己教師付きドメイン学習(ssdl)方式を提案する。 効果的な判別学習の鍵となる要因は、有益三重項の選択である。 最も確実な予測に基づいて、我々は3重項採掘と自己学習を交互に行う「簡単でハードな」スキームに従う。 4つの異なるベンチマークに関する総合的な実験により、SSDLは異なる領域でよく一般化されることが示された。

Face recognition in unconstrained environments is challenging due to variations in illumination, quality of sensing, motion blur and etc. An individual's face appearance can vary drastically under different conditions creating a gap between train (source) and varying test (target) data. The domain gap could cause decreased performance levels in direct knowledge transfer from source to target. Despite fine-tuning with domain specific data could be an effective solution, collecting and annotating data for all domains is extremely expensive. To this end, we propose a self-supervised domain learning (SSDL) scheme that trains on triplets mined from unlabelled data. A key factor in effective discriminative learning, is selecting informative triplets. Building on most confident predictions, we follow an "easy-to-hard" scheme of alternate triplet mining and self-learning. Comprehensive experiments on four different benchmarks show that SSDL generalizes well on different domains.
翻訳日:2022-09-20 08:28:29 公開日:2020-11-26
# グラフ畳み込みネットワークを用いたフレーム意味解析のための構文構成経路の符号化

Encoding Syntactic Constituency Paths for Frame-Semantic Parsing with Graph Convolutional Networks ( http://arxiv.org/abs/2011.13210v1 )

ライセンス: Link先を確認
Emanuele Bastianelli, Andrea Vanzo, Oliver Lemon(参考訳) 本研究では,選択木からの構文情報をフレーム意味解析サブタスク,すなわちターゲット識別(TI),フレーム同定(FI),セマンティックロールラベル(SRL)のニューラルネットワークに統合する問題について検討する。 グラフ畳み込みネットワークを用いて構成成分の特定の表現を学習し、各構成成分が対応する生産文法規則としてプロファイルされる。 我々はこれらの表現を利用して文中の各単語の構文的特徴を構築し、単語と木内のタスク固有ノードの間の経路上のすべての構成要素の和として計算する。 提案手法では,入力としてBERTを使用した場合に,TIとSRLのそれぞれ1%および3.5%の値(+2.5%の追加ポイントは入力としてBERTで得られる)の最先端結果を改善するとともに,CoNLL05データセットで同等の結果を他の構文認識システムに出力する。

We study the problem of integrating syntactic information from constituency trees into a neural model in Frame-semantic parsing sub-tasks, namely Target Identification (TI), FrameIdentification (FI), and Semantic Role Labeling (SRL). We use a Graph Convolutional Network to learn specific representations of constituents, such that each constituent is profiled as the production grammar rule it corresponds to. We leverage these representations to build syntactic features for each word in a sentence, computed as the sum of all the constituents on the path between a word and a task-specific node in the tree, e.g. the target predicate for SRL. Our approach improves state-of-the-art results on the TI and SRL of ~1%and~3.5% points, respectively (+2.5% additional points are gained with BERT as input), when tested on FrameNet 1.5, while yielding comparable results on the CoNLL05 dataset to other syntax-aware systems.
翻訳日:2022-09-20 08:22:13 公開日:2020-11-26
# 語彙サイズの異なる言語モデル性能尺度としてのユニグラム正規化パープレキシティ

Unigram-Normalized Perplexity as a Language Model Performance Measure with Different Vocabulary Sizes ( http://arxiv.org/abs/2011.13220v1 )

ライセンス: Link先を確認
Jihyeon Roh, Sang-Hoon Oh, Soo-Young Lee(参考訳) パープレキシティは言語モデルで広く使われているパフォーマンス指標であるが、値はコーパス内の単語数に大きく依存しており、同じコーパスのパフォーマンスを比較するのに有用である。 本稿では,異なる語彙サイズで言語モデルの性能を評価するための新しい指標を提案する。 提案したユニグラム正規化パープレキシティは, 単純なユニグラムモデルから言語モデルの性能改善を実際に示し, 語彙サイズに頑健である。 理論解析と計算実験の両方が報告されている。

Although Perplexity is a widely used performance metric for language models, the values are highly dependent upon the number of words in the corpus and is useful to compare performance of the same corpus only. In this paper, we propose a new metric that can be used to evaluate language model performance with different vocabulary sizes. The proposed unigram-normalized Perplexity actually presents the performance improvement of the language models from that of simple unigram model, and is robust on the vocabulary size. Both theoretical analysis and computational experiments are reported.
翻訳日:2022-09-20 08:21:52 公開日:2020-11-26
# AutoNLU: 企業のオンデマンドクラウドベースの自然言語理解システム

AutoNLU: An On-demand Cloud-based Natural Language Understanding System for Enterprises ( http://arxiv.org/abs/2011.13470v1 )

ライセンス: Link先を確認
Nham Le, Tuan Lai, Trung Bui and Doo Soon Kim(参考訳) ディープラーニングのルネッサンスにより、ニューラルネットワークは多くの自然言語理解(NLU)タスクにおいて有望な結果を得た。 多くのニューラルネットワークモデルのソースコードが公開されているが、オープンソースモデルから企業における現実的な問題を解決するための大きなギャップがある。 そこで我々は,このギャップを埋めるために,nluモデル開発における一般的なユースケースとステップをすべてカバーした,使いやすいインターフェースを備えたオンデマンドクラウドベースシステムであるautonluを紹介する。 AutoNLUはさまざまなユースケースとデータセットを使ってAdobe内の多くの製品チームをサポートし、迅速に動作するモデルを提供する。 AutoNLUの有効性を示すために,2つのケーススタディを提案する。 i)Photoshopの様々な画像編集要求を処理するための実用的NLUモデルを構築した。 二) 2つの公開ベンチマークで最新の結果を得る強力なキーフレーズ抽出モデルを構築した。 どちらの場合でも、エンドユーザはデータセットをAutoNLUが使用する共通フォーマットに変換するために、少量のコードを書くだけでよい。

With the renaissance of deep learning, neural networks have achieved promising results on many natural language understanding (NLU) tasks. Even though the source codes of many neural network models are publicly available, there is still a large gap from open-sourced models to solving real-world problems in enterprises. Therefore, to fill this gap, we introduce AutoNLU, an on-demand cloud-based system with an easy-to-use interface that covers all common use-cases and steps in developing an NLU model. AutoNLU has supported many product teams within Adobe with different use-cases and datasets, quickly delivering them working models. To demonstrate the effectiveness of AutoNLU, we present two case studies. i) We build a practical NLU model for handling various image-editing requests in Photoshop. ii) We build powerful keyphrase extraction models that achieve state-of-the-art results on two public benchmarks. In both cases, end users only need to write a small amount of code to convert their datasets into a common format used by AutoNLU.
翻訳日:2022-09-20 08:21:14 公開日:2020-11-26
# 機械翻訳における復号化と多様性

Decoding and Diversity in Machine Translation ( http://arxiv.org/abs/2011.13477v1 )

ライセンス: Link先を確認
Nicholas Roberts, Davis Liang, Graham Neubig, Zachary C. Lipton(参考訳) ニューラルネットワーク翻訳(NMT)システムは通常、生成された翻訳と基底真理候補との一致を評価する自動メトリクスを使用して評価される。 これらの指標に関してシステムを改善するため、NLP研究者は条件付きモード(vs.サンプリング)の探索や様々なトレーニングヒューリスティック(ラベルの平滑化など)の導入など、様々なヒューリスティック技術を採用している。 検索戦略はBLEUスコアを大幅に改善するが、人間の翻訳の多様性に欠ける決定論的アウトプットが得られる。 さらに、検索は、翻訳された性別代名詞の分布に偏りがある。 これにより、人間レベルのBLEUは、人間レベルの翻訳多様性を同時に維持しながら、現代のMTシステムは人間レベルのBLEUに近づかないという誤解を招くベンチマークとなる。 本稿では,NMT によるBLEU の楽譜に対する多様性のコストについて検討し,生成翻訳と実翻訳の分布差を特徴付ける。 さらに, ジェンダー代名詞の翻訳において, 既知のバイアスの有意な源として検索が関与している。

Neural Machine Translation (NMT) systems are typically evaluated using automated metrics that assess the agreement between generated translations and ground truth candidates. To improve systems with respect to these metrics, NLP researchers employ a variety of heuristic techniques, including searching for the conditional mode (vs. sampling) and incorporating various training heuristics (e.g., label smoothing). While search strategies significantly improve BLEU score, they yield deterministic outputs that lack the diversity of human translations. Moreover, search tends to bias the distribution of translated gender pronouns. This makes human-level BLEU a misleading benchmark in that modern MT systems cannot approach human-level BLEU while simultaneously maintaining human-level translation diversity. In this paper, we characterize distributional differences between generated and real translations, examining the cost in diversity paid for the BLEU scores enjoyed by NMT. Moreover, our study implicates search as a salient source of known bias when translating gender pronouns.
翻訳日:2022-09-20 08:20:58 公開日:2020-11-26
# 安定型深層強化学習への優先順位と多様性のバランス

Predictive PER: Balancing Priority and Diversity towards Stable Deep Reinforcement Learning ( http://arxiv.org/abs/2011.13093v1 )

ライセンス: Link先を確認
Sanghwa Lee, Jaeyoung Lee, Ichiro Hasuo(参考訳) 優先体験再生(PER)は、深層強化学習エージェントの性能を向上させるために、一様ではなく重要な遷移をサンプリングする。 このような優先順位付けはdqnを安定化させ、忘れないようにするためにサンプルの多様性とバランスをとる必要があると主張している。 PER(Predictive PER, 予測PER)に対する改善策として, 3つの対策(TDInit, TDClip, TDPred)が提案されている。 一 優先外れ及び爆発を除去すること。 (II) DQNを安定化させるため, 標本の多様性と分布を優先的に改善する。 3つの中で最も重要なのは、流通の優先順位を一般化する第2のDNNであるTDPredの導入である。 アブレーション研究とアタリゲームによる完全な実験により、それぞれの対策を独自に行い、PPERは安定性の向上に寄与し、PERよりも性能が向上することを示した。

Prioritized experience replay (PER) samples important transitions, rather than uniformly, to improve the performance of a deep reinforcement learning agent. We claim that such prioritization has to be balanced with sample diversity for making the DQN stabilized and preventing forgetting. Our proposed improvement over PER, called Predictive PER (PPER), takes three countermeasures (TDInit, TDClip, TDPred) to (i) eliminate priority outliers and explosions and (ii) improve the sample diversity and distributions, weighted by priorities, both leading to stabilizing the DQN. The most notable among the three is the introduction of the second DNN called TDPred to generalize the in-distribution priorities. Ablation study and full experiments with Atari games show that each countermeasure by its own way and PPER contribute to successfully enhancing stability and thus performance over PER.
翻訳日:2022-09-20 08:20:42 公開日:2020-11-26
# 言語モデルとドメイン関連課題を用いた分子表現学習

Molecular representation learning with language models and domain-relevant auxiliary tasks ( http://arxiv.org/abs/2011.13230v1 )

ライセンス: Link先を確認
Benedek Fabian, Thomas Edlich, H\'el\'ena Gaspar, Marwin Segler, Joshua Meyers, Marco Fiscato, Mohamed Ahmed(参考訳) 本稿では,トランスフォーマーアーキテクチャ,特にBERTを適用し,薬物発見問題に対するフレキシブルで高品質な分子表現を学習する。 自己教師型タスクの異なる組み合わせによる事前学習の効果について検討し、確立した仮想スクリーニングとQSARベンチマークの結果を示す。 ご覧の通りです 一 事前学習のための適切な自己指導タスクの選択は、仮想スクリーニング等の下流タスクのパフォーマンスに重大な影響を及ぼす。 二 計算された分子特性を予測するための学習等、化学においてよりドメインに関連のある補助的なタスクを使用することにより、学習表現の忠実性が高まること。 iii) 最後に,我々のモデルであるmolbertによって学習される分子表現が,ベンチマークデータセットの現在の技術により向上することを示す。

We apply a Transformer architecture, specifically BERT, to learn flexible and high quality molecular representations for drug discovery problems. We study the impact of using different combinations of self-supervised tasks for pre-training, and present our results for the established Virtual Screening and QSAR benchmarks. We show that: i) The selection of appropriate self-supervised task(s) for pre-training has a significant impact on performance in subsequent downstream tasks such as Virtual Screening. ii) Using auxiliary tasks with more domain relevance for Chemistry, such as learning to predict calculated molecular properties, increases the fidelity of our learnt representations. iii) Finally, we show that molecular representations learnt by our model `MolBert' improve upon the current state of the art on the benchmark datasets.
翻訳日:2022-09-20 08:20:27 公開日:2020-11-26
# スパースフロー持続曲線と入力選択アンサンブルモデルを用いた未観測領域の予測

Prediction in ungauged regions with sparse flow duration curves and input-selection ensemble modeling ( http://arxiv.org/abs/2011.13380v1 )

ライセンス: Link先を確認
Dapeng Feng, Kathryn Lawson and Chaopeng Shen(参考訳) 長寿命短期記憶(LSTM)モデルはストリームフロー予測で恒星の性能を示すが、ゲージのない連続領域や未ゲージ領域(PUR)の予測では大きなリスクがある。 しかし、フロー持続時間曲線(FDC)のようなよりソフトなデータはすでに近くの駅から入手できるか、利用可能になる可能性がある。 本稿では, LSTMベースのネットワークによって, エンコーダを介して, スパースFDCデータを移動・同化できることを実証する。 厳密な地域ベースのホールドアウトテストでは、米国データセットのKling-Gupta効率(KGE)は0.62で、これまでの最先端のグローバルスケールの未掘削盆地試験よりもかなり高かった。 FDCのないベースラインモデルは、既に競争力があった(現在のKGE 0.56)が、FDCを統合することにはかなり価値があった。 入力の不正確な表現のため、ベースラインモデルは時に破滅的な結果をもたらすことがある。 しかし、入力選択の異なるモデルに基づいてアンサンブルをコンパイルすることで、モデル一般化性はさらに向上した。

While long short-term memory (LSTM) models have demonstrated stellar performance with streamflow predictions, there are major risks in applying these models in contiguous regions with no gauges, or predictions in ungauged regions (PUR) problems. However, softer data such as the flow duration curve (FDC) may be already available from nearby stations, or may become available. Here we demonstrate that sparse FDC data can be migrated and assimilated by an LSTM-based network, via an encoder. A stringent region-based holdout test showed a median Kling-Gupta efficiency (KGE) of 0.62 for a US dataset, substantially higher than previous state-of-the-art global-scale ungauged basin tests. The baseline model without FDC was already competitive (median KGE 0.56), but integrating FDCs had substantial value. Because of the inaccurate representation of inputs, the baseline models might sometimes produce catastrophic results. However, model generalizability was further meaningfully improved by compiling an ensemble based on models with different input selections.
翻訳日:2022-09-20 08:20:15 公開日:2020-11-26
# 極限検証レイテンシ学習アルゴリズムの比較解析

Comparative Analysis of Extreme Verification Latency Learning Algorithms ( http://arxiv.org/abs/2011.14917v1 )

ライセンス: Link先を確認
Muhammad Umer, Robi Polikar(参考訳) 計算知能における最も難しい問題の一つは、非定常ストリーミングデータ(コンセプトドリフトとも呼ばれる)から学ぶことである。 おそらくこのシナリオのもっと難しいバージョンは -- ラベル付きデータの小さなセットに従えば -- データストリームはラベルなしのデータのみで構成されます。 このようなシナリオは、通常、初期ラベル付けされた非定常環境での学習、あるいは単に極端な検証レイテンシ(EVL)と呼ばれる。 この問題の非常に困難な性質のため、これまでの文献で提案されているアルゴリズムはごくわずかである。 この研究は、この分野の既存のアルゴリズム(重要/重要)のレビューを研究コミュニティに提供するための、非常に最初の試みである。 具体的には、いくつかの合成および実世界のデータセットを用いて、分類精度、計算複雑性、パラメータ感度の3つの異なる視点から異なるアプローチの弱点と強みを指摘するために、EVLアルゴリズムの包括的および比較分析を行う。

One of the more challenging real-world problems in computational intelligence is to learn from non-stationary streaming data, also known as concept drift. Perhaps even a more challenging version of this scenario is when -- following a small set of initial labeled data -- the data stream consists of unlabeled data only. Such a scenario is typically referred to as learning in initially labeled nonstationary environment, or simply as extreme verification latency (EVL). Because of the very challenging nature of the problem, very few algorithms have been proposed in the literature up to date. This work is a very first effort to provide a review of some of the existing algorithms (important/prominent) in this field to the research community. More specifically, this paper is a comprehensive survey and comparative analysis of some of the EVL algorithms to point out the weaknesses and strengths of different approaches from three different perspectives: classification accuracy, computational complexity and parameter sensitivity using several synthetic and real world datasets.
翻訳日:2022-09-20 08:19:54 公開日:2020-11-26
# 最適な速度/精度トレードオフを持つ自律グラフマイニングアルゴリズム探索

Autonomous Graph Mining Algorithm Search with Best Speed/Accuracy Trade-off ( http://arxiv.org/abs/2011.14925v1 )

ライセンス: Link先を確認
Minji Yoon, Th\'eophile Gervet, Bryan Hooi, and Christos Faloutsos(参考訳) グラフデータは、ソーシャルネットワークからバイオインフォマティクスまで、学界や業界に普及している。 今日のグラフの普及によって、さまざまな質問に答えるアルゴリズムの需要が高まりました。 公の評判を高めるために、どのユーザーが偽フォロワーを買っているか? 様々な新しいグラフマイニングアルゴリズムが毎年提案されており、それぞれに異なる問題定式化、計算時間、メモリフットプリントがある。 この統一性の欠如は、実践者が異なるアルゴリズムを比較して、特定のアプリケーションに適したものを選ぶのを難しくする。 これらの課題 — 非専門家にとってさらに厳しい – は、学術的な環境で開発された最先端の技術が現実世界のアプリケーションに最適にデプロイされないというギャップを生み出します。 このギャップを埋めるため,グラフマイニングアルゴリズムの自動化システムであるAUTOGMを提案する。 まず、PageRankのような従来のアルゴリズムからグラフニューラルネットワークまで、さまざまなメッセージパスベースのグラフアルゴリズムを統合する統一フレームワークUNIFIEDGMを定義します。 UNIFIEDGMは、グラフアルゴリズムを決定するために5つのパラメータを必要とする検索空間を定義する。 この探索空間下では、AUTOGMはベイズ最適化を用いてUNIFIEDGMの最適パラメータセットを明示的に最適化する。 autogmは最適化のための新しい予算認識目的関数を定義し、計算予算の下で最適な速度精度トレードオフを見つけるという現実的な問題をグラフアルゴリズム生成問題に取り入れている。 実世界のベンチマークデータセットの実験では、AUTOGMは、ヒューリスティックパラメータを持つ既存のモデルと比較して、速度/精度のトレードオフが最も優れた新しいグラフマイニングアルゴリズムを生成する。

Graph data is ubiquitous in academia and industry, from social networks to bioinformatics. The pervasiveness of graphs today has raised the demand for algorithms that can answer various questions: Which products would a user like to purchase given her order list? Which users are buying fake followers to increase their public reputation? Myriads of new graph mining algorithms are proposed every year to answer such questions - each with a distinct problem formulation, computational time, and memory footprint. This lack of unity makes it difficult for a practitioner to compare different algorithms and pick the most suitable one for a specific application. These challenges - even more severe for non-experts - create a gap in which state-of-the-art techniques developed in academic settings fail to be optimally deployed in real-world applications. To bridge this gap, we propose AUTOGM, an automated system for graph mining algorithm development. We first define a unified framework UNIFIEDGM that integrates various message-passing based graph algorithms, ranging from conventional algorithms like PageRank to graph neural networks. Then UNIFIEDGM defines a search space in which five parameters are required to determine a graph algorithm. Under this search space, AUTOGM explicitly optimizes for the optimal parameter set of UNIFIEDGM using Bayesian Optimization. AUTOGM defines a novel budget-aware objective function for the optimization to incorporate a practical issue - finding the best speed-accuracy trade-off under a computation budget - into the graph algorithm generation problem. Experiments on real-world benchmark datasets demonstrate that AUTOGM generates novel graph mining algorithms with the best speed/accuracy trade-off compared to existing models with heuristic parameters.
翻訳日:2022-09-20 08:19:38 公開日:2020-11-26
# CYPUR-NN:回帰とニューラルネットワークを用いた作物収量予測

CYPUR-NN: Crop Yield Prediction Using Regression and Neural Networks ( http://arxiv.org/abs/2011.13265v1 )

ライセンス: Link先を確認
Sandesh Ramesh, Anirudh Hebbar, Varun Yadav, Thulasiram Gunta, and A Balachandra(参考訳) 最近の水田収量と関連する条件の歴史的データを用いた研究は、湿度、発光、温度などである。 回帰モデルとニューラルネットワーク(NN)を組み込むことで、水田収量を予測することができる。 シミュレーションの結果,水田収量を高精度に予測でき,同時にヒトの眼に有害な疾患も検出できることがわかった。 回帰とニューラルネットワークを用いた作物収量予測(CYPUR-NN)は、農業者や農家が画像からの利得を予測したり、ウェブインターフェースを介して値を入力することを容易にするシステムとして開発されている。 CYPUR-NNはストック画像でテストされており、実験結果は有望である。

Our recent study using historic data of paddy yield and associated conditions include humidity, luminescence, and temperature. By incorporating regression models and neural networks (NN), one can produce highly satisfactory forecasting of paddy yield. Simulations indicate that our model can predict paddy yield with high accuracy while concurrently detecting diseases that may exist and are oblivious to the human eye. Crop Yield Prediction Using Regression and Neural Networks (CYPUR-NN) is developed here as a system that will facilitate agriculturists and farmers to predict yield from a picture or by entering values via a web interface. CYPUR-NN has been tested on stock images and the experimental results are promising.
翻訳日:2022-09-20 08:11:27 公開日:2020-11-26
# メトリクス学習によるより良い知識保持

Better Knowledge Retention through Metric Learning ( http://arxiv.org/abs/2011.13149v1 )

ライセンス: Link先を確認
Ke Li, Shichong Peng, Kailas Vodrahalli, Jitendra Malik(参考訳) 継続学習では、時間とともに新しいカテゴリを導入し、本来のカテゴリと新しいカテゴリの両方で理想的な学習システムを実現する必要がある。 ディープニューラルネットは古典的教師付き設定で再び成功を収めているが、学習の現在のエピソードで遭遇した例が以前のエピソードで遭遇した例と大きく異なる場合、学習前のエピソードで得られた知識を忘れることが知られている。 本稿では,ディープニューラルネットの表現力を活用することができ,新たなカテゴリが導入されたとき忘れやすい新しい手法を提案する。 提案手法は,既存手法と比較してCIFAR-10では2.3倍から6.9倍,ImageNetでは1.8倍から2.7倍の補正が可能であった。

In continual learning, new categories may be introduced over time, and an ideal learning system should perform well on both the original categories and the new categories. While deep neural nets have achieved resounding success in the classical supervised setting, they are known to forget about knowledge acquired in prior episodes of learning if the examples encountered in the current episode of learning are drastically different from those encountered in prior episodes. In this paper, we propose a new method that can both leverage the expressive power of deep neural nets and is resilient to forgetting when new categories are introduced. We found the proposed method can reduce forgetting by 2.3x to 6.9x on CIFAR-10 compared to existing methods and by 1.8x to 2.7x on ImageNet compared to an oracle baseline.
翻訳日:2022-09-20 08:11:15 公開日:2020-11-26
# Refinement based Point Set Registration を用いた教師なし語訳ペアリング

Unsupervised Word Translation Pairing using Refinement based Point Set Registration ( http://arxiv.org/abs/2011.13200v1 )

ライセンス: Link先を確認
Silviu Oprea and Sourav Dutta and Haytham Assem(参考訳) 単語埋め込みの言語間アライメントは、機械翻訳やその他の多言語アプリケーションを改善するために、言語間の知識伝達において重要な役割を果たす。 現在の教師なしアプローチは、言語間の単語埋め込み空間の幾何学的構造に類似性に依存し、対向ネットワークと洗練された戦略を用いて構造保存線形変換を学ぶ。 しかし、実際にはそのような手法は不安定や収束の問題に苦しむ傾向にあり、正確なパラメータ設定には退屈な微調整が必要となる。 本稿では,両言語単語の埋め込みをベクトル空間に教師なしマッピングするための新しいフレームワークであるBioSpereを提案する。 提案手法は,既存の手法の欠点を軽減し,パラメータ選択やトレーニング損失の面での頑健さを表現し,可変逆学習性能に比較的不変であることを示す。 並列辞書誘導タスクの実験評価により,多言語対に関するフレームワークの現状が示された。

Cross-lingual alignment of word embeddings play an important role in knowledge transfer across languages, for improving machine translation and other multi-lingual applications. Current unsupervised approaches rely on similarities in geometric structure of word embedding spaces across languages, to learn structure-preserving linear transformations using adversarial networks and refinement strategies. However, such techniques, in practice, tend to suffer from instability and convergence issues, requiring tedious fine-tuning for precise parameter setting. This paper proposes BioSpere, a novel framework for unsupervised mapping of bi-lingual word embeddings onto a shared vector space, by combining adversarial initialization and refinement procedure with point set registration algorithm used in image processing. We show that our framework alleviates the shortcomings of existing methodologies, and is relatively invariant to variable adversarial learning performance, depicting robustness in terms of parameter choices and training losses. Experimental evaluation on parallel dictionary induction task demonstrates state-of-the-art results for our framework on diverse language pairs.
翻訳日:2022-09-20 08:10:46 公開日:2020-11-26
# slurp: 音声言語理解リソースパッケージ

SLURP: A Spoken Language Understanding Resource Package ( http://arxiv.org/abs/2011.13205v1 )

ライセンス: Link先を確認
Emanuele Bastianelli, Andrea Vanzo, Pawel Swietojanski, Verena Rieser(参考訳) Spoken Language Understandingは、音声データから直接意味を推測し、エンドユーザアプリケーションにおけるエラーの伝播と誤解を減らすことを約束する。 しかし、公開されているSLUリソースは限られている。 本稿では,(1)既存のデータセットよりも大幅に大きく,言語的に多様である18のドメインにまたがる英語の新しい挑戦的データセットであるSLURP,(2)最先端のNLUおよびASRシステムに基づく競合的ベースライン,(3)改善の潜在的な領域を特定するための詳細なエラー分析を可能にするエンティティラベリングのための新しい透過的メトリクスであるSLURPをリリースする。 SLURPはhttps: //github.com/pswietojanski/slurpで利用可能である。

Spoken Language Understanding infers semantic meaning directly from audio data, and thus promises to reduce error propagation and misunderstandings in end-user applications. However, publicly available SLU resources are limited. In this paper, we release SLURP, a new SLU package containing the following: (1) A new challenging dataset in English spanning 18 domains, which is substantially bigger and linguistically more diverse than existing datasets; (2) Competitive baselines based on state-of-the-art NLU and ASR systems; (3) A new transparent metric for entity labelling which enables a detailed error analysis for identifying potential areas of improvement. SLURP is available at https: //github.com/pswietojanski/slurp.
翻訳日:2022-09-20 08:10:30 公開日:2020-11-26