このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210112となっている論文です。

PDF登録状況(公開日: 20210112)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) gansにおけるwasserstein距離の一般化化に向けて [全文訳有]

Towards Generalized Implementation of Wasserstein Distance in GANs ( http://arxiv.org/abs/2012.03420v2 )

ライセンス: CC BY 4.0
Minkai Xu, Zhiming Zhou, Guansong Lu, Jian Tang, Weinan Zhang, Yong Yu(参考訳) ワッサーシュタイン距離のカントロヴィチ・ルビンシュタイン(KR)双対性に基づいて構築されたワッサーシュタイン GAN (WGAN) は、理論上最も健全なGANモデルの一つである。 しかし実際には、GANの他の変種よりも常に優れているわけではない。 これは主にKR双対性によって要求されるリプシッツ条件の不完全な実装のためである。 リプシッツ制約の異なる実装でコミュニティで大規模な作業が行われてきたが、実際にはその制約を完全に満たすのは難しい。 本稿では,強いリプシッツ制約が最適化に不要である可能性を論じる。 その代わり、一歩後退して、リプシッツ制約を緩和しようとする。 理論的には、ワッサーシュタイン距離のより一般的な双対形式であるソボレフ双対性は、リプシッツの制約を緩和するが、ワッサーシュタイン距離の好ましい勾配特性を維持している。 さらに、KR双対性は実際にはソボレフ双対性の特別な場合であることを示す。 さらに, 緩和双対性に基づき, sobolev wasserstein gan (swgan) という一般化した wgan トレーニングスキームを提案し, 既存の手法に対する swgan の改善を広範囲な実験で実証した。

Wasserstein GANs (WGANs), built upon the Kantorovich-Rubinste in (KR) duality of Wasserstein distance, is one of the most theoretically sound GAN models. However, in practice it does not always outperform other variants of GANs. This is mostly due to the imperfect implementation of the Lipschitz condition required by the KR duality. Extensive work has been done in the community with different implementations of the Lipschitz constraint, which, however, is still hard to satisfy the restriction perfectly in practice. In this paper, we argue that the strong Lipschitz constraint might be unnecessary for optimization. Instead, we take a step back and try to relax the Lipschitz constraint. Theoretically, we first demonstrate a more general dual form of the Wasserstein distance called the Sobolev duality, which relaxes the Lipschitz constraint but still maintains the favorable gradient property of the Wasserstein distance. Moreover, we show that the KR duality is actually a special case of the Sobolev duality. Based on the relaxed duality, we further propose a generalized WGAN training scheme named Sobolev Wasserstein GAN (SWGAN), and empirically demonstrate the improvement of SWGAN over existing methods with extensive experiments.
翻訳日:2021-05-21 09:41:39 公開日:2021-01-12
# (参考訳) フラグメントに基づく生成モデルによる分子最適化 [全文訳有]

Molecule Optimization via Fragment-based Generative Models ( http://arxiv.org/abs/2012.04231v2 )

ライセンス: CC BY 4.0
Ziqi Chen, Martin Renqiang Min, Srinivasan Parthasarathy, Xia Ning(参考訳) 創薬において、分子最適化は、望ましい薬物特性の観点から薬候補をより良いものにするための重要なステップである。 近年の人工知能の進歩により、従来のin vitroプロセスはシリコアプローチによってますます促進されている。 本稿では,計算量最適化分子に対する革新的シリコアプローチを提案し,深層生成モデルを用いて最適化された分子グラフを生成する問題を定式化する。 我々の生成モデルはフラグメントベースの薬物設計の重要なアイデアに従い、小さなフラグメントを変更することで分子を最適化します。 我々のモデルは、最適化されたフラグメントの特定方法と、良い性質と悪い性質を持つ分子の違いから、これらのフラグメントの修正方法を学ぶ。 新しい分子を最適化するために、我々のモデルは、予測されたフラグメントの位置で最適化されたフラグメントをデコードするために学習信号を適用します。 また、パイプライン内の各モデルが1つのフラグメントを最適化できるように、パイプライン内に複数のモデルを構築します。 提案手法は, 分子類似性制約下で80%以上の特性改善, 高分子類似性制約下で10%以上の特性改善により, 他者よりも顕著に優れていることを示す。

In drug discovery, molecule optimization is an important step in order to modify drug candidates into better ones in terms of desired drug properties. With the recent advance of Artificial Intelligence, this traditionally in vitro process has been increasingly facilitated by in silico approaches. We present an innovative in silico approach to computationally optimizing molecules and formulate the problem as to generate optimized molecular graphs via deep generative models. Our generative models follow the key idea of fragment-based drug design, and optimize molecules by modifying their small fragments. Our models learn how to identify the to-be-optimized fragments and how to modify such fragments by learning from the difference of molecules that have good and bad properties. In optimizing a new molecule, our models apply the learned signals to decode optimized fragments at the predicted location of the fragments. We also construct multiple such models into a pipeline such that each of the models in the pipeline is able to optimize one fragment, and thus the entire pipeline is able to modify multiple fragments of molecule if needed. We compare our models with other state-of-the-art methods on benchmark datasets and demonstrate that our methods significantly outperform others with more than 80% property improvement under moderate molecular similarity constraints, and more than 10% property improvement under high molecular similarity constraints.
翻訳日:2021-05-17 09:32:38 公開日:2021-01-12
# 降雨レーダ画像と風況予測の融合による降雨ノキャスティングへの応用

Fusion of rain radar images and wind forecasts in a deep learning model applied to rain nowcasting ( http://arxiv.org/abs/2012.05015v2 )

ライセンス: Link先を確認
Vincent Bouget and Dominique B\'er\'eziat and Julien Brajard and Anastase Charantonis and Arthur Filoche(参考訳) 短期または中期の降雨予測は、農業管理や洪水リスクモニタリングといったいくつかの環境応用において主要な課題である。 既存のデータ駆動アプローチ、特にディープラーニングモデルは、降雨レーダイメージのみを入力として、このタスクにおいて重要なスキルを示してきた。 風などの気象パラメータが予測を改善するかどうかを判断するために,降雨レーダ画像と気象予報モデルによる風速の融合に関するディープラーニングモデルを訓練した。 ネットワークはレーダーデータのみに基づいてトレーニングされた類似アーキテクチャと、基本的な永続化モデル、光学フローに基づくアプローチと比較された。 地平線時間30分で予測する中・高降雨時の光流量をF1スコアで計算し, ネットワークの性能は8%向上した。 さらに、降雨レーダイメージのみを使用してトレーニングされた同じアーキテクチャを7%上回っている。 降雨量と風速データを組み合わせることでトレーニングプロセスを安定させ,特に降雨予測の難しい降雨量で大幅な改善が達成されている。

Short- or mid-term rainfall forecasting is a major task with several environmental applications such as agricultural management or flood risk monitoring. Existing data-driven approaches, especially deep learning models, have shown significant skill at this task, using only rainfall radar images as inputs. In order to determine whether using other meteorological parameters such as wind would improve forecasts, we trained a deep learning model on a fusion of rainfall radar images and wind velocity produced by a weather forecast model. The network was compared to a similar architecture trained only on radar data, to a basic persistence model and to an approach based on optical flow. Our network outperforms by 8% the F1-score calculated for the optical flow on moderate and higher rain events for forecasts at a horizon time of 30 min. Furthermore, it outperforms by 7% the same architecture trained using only rainfall radar images. Merging rain and wind data has also proven to stabilize the training process and enabled significant improvement especially on the difficult-to-predict high precipitation rainfalls.
翻訳日:2021-05-16 01:47:19 公開日:2021-01-12
# マルチリード心電図信号からの27の異常の同定:サインロス機能を有するSe-ResNetフレームワーク

Identification of 27 abnormalities from multi-lead ECG signals: An ensembled Se-ResNet framework with Sign Loss function ( http://arxiv.org/abs/2101.03895v2 )

ライセンス: Link先を確認
Zhaowei Zhu, Xiang Lan, Tingting Zhao, Yangming Guo, Pipin Kojodjojo, Zhuoyang Xu, Zhuo Liu, Siqi Liu, Han Wang, Xingzhi Sun, Mengling Feng(参考訳) 心臓血管疾患は健康にとって大きな脅威であり、世界中の死因の1つである。 12誘導心電図は、心臓の異常を識別するための安価で一般的なツールである。 早期かつ正確な診断は、早期の治療と介入により、心血管疾患の重篤な合併症を予防する。 本研究の目的は,12誘導心電図記録から27個の心電図異常を自動的に識別するアルゴリズムを開発することである。

Cardiovascular disease is a major threat to health and one of the primary causes of death globally. The 12-lead ECG is a cheap and commonly accessible tool to identify cardiac abnormalities. Early and accurate diagnosis will allow early treatment and intervention to prevent severe complications of cardiovascular disease. In the PhysioNet/Computing in Cardiology Challenge 2020, our objective is to develop an algorithm that automatically identifies 27 ECG abnormalities from 12-lead ECG recordings.
翻訳日:2021-05-10 05:10:35 公開日:2021-01-12
# データ拡張ポリシとネットワークアーキテクチャの統合検索

Joint Search of Data Augmentation Policies and Network Architectures ( http://arxiv.org/abs/2012.09407v2 )

ライセンス: Link先を確認
Taiga Kashima, Yoshihiro Yamada, Shunta Saito(参考訳) ディープニューラルネットワークをトレーニングする一般的なパイプラインは、データ拡張やネットワークアーキテクチャの選択など、いくつかのビルディングブロックで構成される。 automlは、これらのパーツを自動的に設計することを目的とした研究分野だが、ほとんどのメソッドは、各パーツを独立して探索する。 本稿では,トレーニングパイプラインの設計にさらなる自動化を実現するために,データ拡張ポリシーとネットワークアーキテクチャを統合的に最適化する手法を提案する。 私たちのアプローチの核となる考え方は、部分全体を差別化可能にすることです。 提案手法は,拡張ポリシー探索法とネットワークアーキテクチャ探索法を組み合わせることで,エンドツーエンドでそれらを協調的に最適化する。 実験の結果, 本手法は独立的に検索した結果に対して, 競争性, 優れた性能が得られることがわかった。

The common pipeline of training deep neural networks consists of several building blocks such as data augmentation and network architecture selection. AutoML is a research field that aims at automatically designing those parts, but most methods explore each part independently because it is more challenging to simultaneously search all the parts. In this paper, we propose a joint optimization method for data augmentation policies and network architectures to bring more automation to the design of training pipeline. The core idea of our approach is to make the whole part differentiable. The proposed method combines differentiable methods for augmentation policy search and network architecture search to jointly optimize them in the end-to-end manner. The experimental results show our method achieves competitive or superior performance to the independently searched results.
翻訳日:2021-05-02 07:36:44 公開日:2021-01-12
# ロバスト話者照合のための周波数選択付きマルチストリーム畳み込みニューラルネットワーク

Multi-stream Convolutional Neural Network with Frequency Selection for Robust Speaker Verification ( http://arxiv.org/abs/2012.11159v2 )

ライセンス: Link先を確認
Wei Yao, Shen Chen, Jiamin Cui, Yaolin Lou(参考訳) 話者検証は、入力音声がクレーム話者に対応するかどうかを検証することを目的としており、従来は、特徴抽出器が全周波数範囲で動作する単一ストリームシナリオに基づいて、この種のシステムが展開されている。 本稿では,完全周波数範囲ではなく部分周波数範囲を聴きながら分類タスクを行うのに十分な知識を機械が学べる,いわゆる周波数選択手法を仮定し,この手法を話者照合タスクに適用したマルチストリーム畳み込みニューラルネットワーク(cnn)の新たな枠組みを提案する。 提案フレームワークは,複数のストリームから発生する多様な時間的埋め込みに対応し,音響モデリングの堅牢性を高める。 時間的埋め込みの多様性については,周波数の完全帯域を複数のサブバンドに手作業で分割し,各ストリームの特徴抽出器が対象周波数領域として使用するサブバンドを選択することで,周波数選択による特徴拡張を検討する。 従来の単一ストリームソリューションとは異なり、各発話は一度だけ処理されるが、このフレームワークでは複数のストリームが並列に処理される。 各ストリームの入力発話は、所定の周波数範囲内の周波数セレクタによって前処理され、平均正規化により後処理される。 各ストリームの正規化された時間埋め込みはプール層に流れ込み、融合した埋め込みを生成する。 本稿では,voxcelebデータセットの広範な実験を行い,マルチストリームcnnが最小決定コスト関数 (mindcf) の相対的改善率20.53パーセントで,シングルストリームベースラインを有意に上回っていることを示す。

Speaker verification aims to verify whether an input speech corresponds to the claimed speaker, and conventionally, this kind of system is deployed based on single-stream scenario, wherein the feature extractor operates in full frequency range. In this paper, we hypothesize that machine can learn enough knowledge to do classification task when listening to partial frequency range instead of full frequency range, which is so called frequency selection technique, and further propose a novel framework of multi-stream Convolutional Neural Network (CNN) with this technique for speaker verification tasks. The proposed framework accommodates diverse temporal embeddings generated from multiple streams to enhance the robustness of acoustic modeling. For the diversity of temporal embeddings, we consider feature augmentation with frequency selection, which is to manually segment the full-band of frequency into several sub-bands, and the feature extractor of each stream can select which sub-bands to use as target frequency domain. Different from conventional single-stream solution wherein each utterance would only be processed for one time, in this framework, there are multiple streams processing it in parallel. The input utterance for each stream is pre-processed by a frequency selector within specified frequency range, and post-processed by mean normalization. The normalized temporal embeddings of each stream will flow into a pooling layer to generate fused embeddings. We conduct extensive experiments on VoxCeleb dataset, and the experimental results demonstrate that multi-stream CNN significantly outperforms single-stream baseline with 20.53 % of relative improvement in minimum Decision Cost Function (minDCF).
翻訳日:2021-04-27 06:19:04 公開日:2021-01-12
# (参考訳) MOOCにおける学習ニーズ改善のための教育コンテンツリンク

Educational Content Linking for Enhancing Learning Need Remediation in MOOCs ( http://arxiv.org/abs/2012.15826v2 )

ライセンス: CC BY 4.0
Shang-Wen Li(参考訳) 2011年に導入されて以来、web上のさまざまなテーマに4000以上のmoocがあり、3500万人以上の学習者が参加している。 MOOCは、知識の普及を民主化し、世界最高の教育を学習者にもたらす能力を示した。 しかし, 参加者間の距離, 学習者の人数, 学習者の背景の不均一性は, 学習経験に悪影響を及ぼすタイムリーな方法で学習者との対話を極めて困難にしている。 課題に対処するため,本論文では,教育コンテンツリンクという枠組みを提案する。 様々なコース教材に散在する学習コンテンツの断片を、容易にアクセス可能な構造にリンクし、整理することにより、このフレームワークが学習者の指導とコンテンツナビゲーションを改善することができると仮定する。 MOOCにおけるほとんどの指導と知識獲得は、学習者がコース資料を調査する際に行われるので、より良いコンテンツナビゲーションは、学習者が自分の混乱を解消し、学習結果と経験を改善するのに役立つ。 予想を裏付けるために,1)手動でリンクを生成すれば学習が改善できるか,という2つの研究の枠組みについて,エンドツーエンドの研究を提示する。 2)機械学習による学習コンテンツの生成は可能か? 最初の質問を学習するために,学習教材を提示し,それらを同時に視覚化するインタフェースを構築した。 このインターフェースにより,希望する教材をより効率的に検索し,より多くの概念をより容易に維持できることがわかった。 第2の質問に対して,条件付き確率場に基づく自動コンテンツリンクアルゴリズムを提案する。 リンクのないインターフェースに対する改善の規模は小さいものの、自動生成リンクは依然として学習の改善につながることを実証する。

Since its introduction in 2011, there have been over 4000 MOOCs on various subjects on the Web, serving over 35 million learners. MOOCs have shown the ability to democratize knowledge dissemination and bring the best education in the world to every learner. However, the disparate distances between participants, the size of the learner population, and the heterogeneity of the learners' backgrounds make it extremely difficult for instructors to interact with the learners in a timely manner, which adversely affects learning experience. To address the challenges, in this thesis, we propose a framework: educational content linking. By linking and organizing pieces of learning content scattered in various course materials into an easily accessible structure, we hypothesize that this framework can provide learners guidance and improve content navigation. Since most instruction and knowledge acquisition in MOOCs takes place when learners are surveying course materials, better content navigation may help learners find supporting information to resolve their confusion and thus improve learning outcome and experience. To support our conjecture, we present end-to-end studies to investigate our framework around two research questions: 1) can manually generated linking improve learning? 2) can learning content be generated with machine learning methods? For studying the first question, we built an interface that present learning materials and visualize the linking among them simultaneously. We found the interface enables users to search for desired course materials more efficiently, and retain more concepts more readily. For the second question, we propose an automatic content linking algorithm based on conditional random fields. We demonstrate that automatically generated linking can still lead to better learning, although the magnitude of the improvement over the unlinked interface is smaller.
翻訳日:2021-04-17 20:34:51 公開日:2021-01-12
# (参考訳) SUMOを用いた意味モデリング [全文訳有]

Semantic Modeling with SUMO ( http://arxiv.org/abs/2012.15835v3 )

ライセンス: CC BY-SA 4.0
Robert B. Allen(参考訳) 我々は,Suggested Upper Merged Ontology (SUMO) を用いてセマンティック・シミュレーションを開発する。 汎用プログラミング言語を用いて,シミュレーションガソリンエンジンの遷移をモデル化した概念実証実験を行う。 計算集約的な手法ではなく、慣れ親しんだソフトウェア工学のテスト手順に関連する計算集約的なアプローチを探求する。 さらに,レキシコグラフィーの言語的アプローチに基づく用語の構造化表現を提案する。

We explore using the Suggested Upper Merged Ontology (SUMO) to develop a semantic simulation. We provide two proof-of-concept demonstrations modeling transitions in a simulated gasoline engine using a general-purpose programming language. Rather than focusing on computationally highly intensive techniques, we explore a less computationally intensive approach related to familiar software engineering testing procedures. In addition, we propose structured representations of terms based on linguistic approaches to lexicography.
翻訳日:2021-04-17 20:32:36 公開日:2021-01-12
# 中国農村部における"Brilliant AI Doctor" : AIによるCDSS展開の緊張と課題

"Brilliant AI Doctor" in Rural China: Tensions and Challenges in AI-Powered CDSS Deployment ( http://arxiv.org/abs/2101.01524v2 )

ライセンス: Link先を確認
Dakuo Wang and Liuping Wang and Zhan Zhang and Ding Wang and Haiyi Zhu and Yvonne Gao and Xiangmin Fan and Feng Tian(参考訳) 人工知能(AI)技術は、先進的な臨床決定支援システム(CDSS)の実装にますます利用されている。 臨床意思決定シナリオにおけるAI-CDSS(AI-CDSS)の有用性について検討した。 しかし、特に発展途上国では、広告後のユーザー知覚と経験は未熟である。 中国の6つの農村クリニックの22人の臨床医の観察とインタビューを通じて、AI-CDSSシステム(Brilliant Doctor)の設計と、現地のコンテキストやワークフローとの相違、技術的制限とユーザビリティ障壁、およびAI-CDSSの透明性と信頼性に関する問題など、農村の臨床的コンテキストとのさまざまな緊張関係を報告する。 これらの緊張にもかかわらず、すべての参加者はAI-CDSSの将来に対する肯定的な態度を示し、特に臨床環境でのヒト-AIコラボレーションの未来を実現するために「医師のAIアシスタント」として機能した。 最後に、発展途上国の農村臨床状況におけるAI-CDSS介入設計の意義について考察する。

Artificial intelligence (AI) technology has been increasingly used in the implementation of advanced Clinical Decision Support Systems (CDSS). Research demonstrated the potential usefulness of AI-powered CDSS (AI-CDSS) in clinical decision making scenarios. However, post-adoption user perception and experience remain understudied, especially in developing countries. Through observations and interviews with 22 clinicians from 6 rural clinics in China, this paper reports the various tensions between the design of an AI-CDSS system ("Brilliant Doctor") and the rural clinical context, such as the misalignment with local context and workflow, the technical limitations and usability barriers, as well as issues related to transparency and trustworthiness of AI-CDSS. Despite these tensions, all participants expressed positive attitudes toward the future of AI-CDSS, especially acting as "a doctor's AI assistant" to realize a Human-AI Collaboration future in clinical settings. Finally we draw on our findings to discuss implications for designing AI-CDSS interventions for rural clinical contexts in developing countries.
翻訳日:2021-04-11 22:59:54 公開日:2021-01-12
# (参考訳) 分類におけるバイアスと分散分析の統一的アプローチ [全文訳有]

A unifying approach on bias and variance analysis for classification ( http://arxiv.org/abs/2101.01765v2 )

ライセンス: CC BY 4.0
Cemre Zor and Terry Windeatt(参考訳) 標準バイアスと分散(B&V)の用語は、もともと回帰設定のために定義され、分類への拡張によって、文献においていくつかの異なるモデル/定義が導かれた。 本稿では,Tumer & Ghosh (T&G) の一般的なフレームワークと James との関係について述べる。 2つのアプローチを統一することにより、0/1の損失に対して定義されたB&Vと、二乗誤差損失に対して与えられる境界分布の標準B&Vを関連付ける。 クローズドフォームの関係は分類性能をより深く理解し、2つのケーススタディでその使用が実証されている。

Standard bias and variance (B&V) terminologies were originally defined for the regression setting and their extensions to classification have led to several different models / definitions in the literature. In this paper, we aim to provide the link between the commonly used frameworks of Tumer & Ghosh (T&G) and James. By unifying the two approaches, we relate the B&V defined for the 0/1 loss to the standard B&V of the boundary distributions given for the squared error loss. The closed form relationships provide a deeper understanding of classification performance, and their use is demonstrated in two case studies.
翻訳日:2021-04-11 12:57:36 公開日:2021-01-12
# (参考訳) 連携・協調・自動化産業システムにおけるフェデレーション学習の可能性 [全文訳有]

Opportunities of Federated Learning in Connected, Cooperative and Automated Industrial Systems ( http://arxiv.org/abs/2101.03367v2 )

ライセンス: CC BY 4.0
Stefano Savazzi, Monica Nicoli, Mehdi Bennis, Sanaz Kianoush, Luca Barbieri(参考訳) 次世代の自律・ネットワーク産業システム(ロボット、車両、ドローン)は、超信頼性、低遅延通信(URLLC)およびコンピューティングの進歩を推進してきた。 これらのネットワーク化されたマルチエージェントシステムは、ミッションクリティカルコントロール機能を提供するために、高速で通信効率のよい分散機械学習(ML)を必要とする。 フェデレートラーニング(FL)を含む分散ML技術は、センシング、コミュニケーション、学習に精通する多分野の研究領域である。 集中型サーバで生データサンプルを使用するのではなく、urllcを介して接続されたネットワークエージェントが、ローカルにトレーニングされたモデルのパラメータを定期的に交換する分散学習者として機能する、協調的な融合アプローチを活用する。 本稿では,次世代ネットワーク産業システムにおけるFLの新たな可能性について考察する。 スマートマニュファクチャリングにおけるコラボレーティブな自動車両とコラボレーティブなロボティクスにおける協調運転に焦点を当てたオープンな問題について議論する。

Next-generation autonomous and networked industrial systems (i.e., robots, vehicles, drones) have driven advances in ultra-reliable, low latency communications (URLLC) and computing. These networked multi-agent systems require fast, communication-effici ent and distributed machine learning (ML) to provide mission critical control functionalities. Distributed ML techniques, including federated learning (FL), represent a mushrooming multidisciplinary research area weaving in sensing, communication and learning. FL enables continual model training in distributed wireless systems: rather than fusing raw data samples at a centralized server, FL leverages a cooperative fusion approach where networked agents, connected via URLLC, act as distributed learners that periodically exchange their locally trained model parameters. This article explores emerging opportunities of FL for the next-generation networked industrial systems. Open problems are discussed, focusing on cooperative driving in connected automated vehicles and collaborative robotics in smart manufacturing.
翻訳日:2021-04-09 09:35:19 公開日:2021-01-12
# hypoSVI: スタイン変動推論と物理インフォームドニューラルネットワークを用いた低中心インバージョン

HypoSVI: Hypocenter inversion with Stein variational inference and Physics Informed Neural Networks ( http://arxiv.org/abs/2101.03271v2 )

ライセンス: Link先を確認
Jonathan D. Smith, Zachary E. Ross, Kamyar Azizzadenesheli, Jack B. Muir(参考訳) ステイン変分推論を用いた確率的中心反転のスキームを提案する。 我々のアプローチは、アイコン方程式の解法を訓練する物理インフォームドニューラルネットワークの形で、微分可能フォワードモデルを用いている。 これにより、核化されたスタインの差分に対して粒子の集まりを反復的に最適化することで、後部を迅速に近似することができる。 本手法は,低中央分散逆問題に共通する非凸後部分布を扱うのに最適であることを示す。 様々なハイパーパラメータの影響を調べるために一連の実験が行われた。 一度トレーニングすれば、旅行時間表を構築する必要なしに、学習領域内の任意のネットワーク幾何に対して有効である。 本研究では,分散音響センシングのような大規模N型センシング技術に最適であることを示す。

We introduce a scheme for probabilistic hypocenter inversion with Stein variational inference. Our approach uses a differentiable forward model in the form of a physics-informed neural network, which we train to solve the Eikonal equation. This allows for rapid approximation of the posterior by iteratively optimizing a collection of particles against a kernelized Stein discrepancy. We show that the method is well-equipped to handle highly non-convex posterior distributions, which are common in hypocentral inverse problems. A suite of experiments is performed to examine the influence of the various hyperparameters. Once trained, the method is valid for any network geometry within the study area without the need to build travel time tables. We show that the computational demands scale efficiently with the number of differential times, making it ideal for large-N sensing technologies like Distributed Acoustic Sensing.
翻訳日:2021-04-09 07:20:55 公開日:2021-01-12
# 平均回帰戦略における関数特性を持つ深層強化学習

Deep Reinforcement Learning with Function Properties in Mean Reversion Strategies ( http://arxiv.org/abs/2101.03418v2 )

ライセンス: Link先を確認
Sophia Gu(参考訳) ゲーム産業におけるDeep Reinforcement Learningの最近の進歩により、我々は、同じ技術が一般的な量的財政問題にも有効かどうか疑問視している。 本稿では,OpenAIによって開発された既製のライブラリが,逆転戦略に容易に適応できるかどうかを考察する。 さらに、エージェントが検索する必要のある関数空間を狭めることで、よりよいパフォーマンスが得られるかどうかを確認し、テストします。 報酬関数を慎重に選択したペナルティ項によって増強することで、これを実現する。

With the recent advancement in Deep Reinforcement Learning in the gaming industry, we are curious if the same technology would work as well for common quantitative financial problems. In this paper, we will investigate if an off-the-shelf library developed by OpenAI can be easily adapted to mean reversion strategy. Moreover, we will design and test to see if we can get better performance by narrowing the function space that the agent needs to search for. We achieve this through augmenting the reward function by a carefully picked penalty term.
翻訳日:2021-04-09 07:19:56 公開日:2021-01-12
# (参考訳) at-bert:adversarial training bert for acronym identification winning solution for sdu@aaai-21 [全文訳有]

AT-BERT: Adversarial Training BERT for Acronym Identification Winning Solution for SDU@AAAI-21 ( http://arxiv.org/abs/2101.03700v2 )

ライセンス: CC BY 4.0
Danqing Zhu, Wangli Lin, Yang Zhang, Qiwei Zhong, Guanxiong Zeng, Weilin Wu, Jiayu Tang(参考訳) 頭字語識別は、省略された頭字語と句を見つけることに焦点を当てており、これは科学文書理解タスクに不可欠である。 しかし、手動でアノテートされたデータセットの限られたサイズは、問題のさらなる改善を妨げる。 大規模コーパス上で事前学習された言語モデルの最近のブレークスルーは、教師なし事前学習が下流タスクの性能を大幅に改善できることを示している。 本稿では,AAAI 2021 の学術文書理解 (SDU) チャレンジにおいて,AT-BERT と名づけられた逆トレーニング BERT 手法を提案する。 具体的には、事前訓練されたBERTが、より良いセマンティック表現をキャプチャするために採用されている。 次に、FGMの対向訓練戦略をBERTの微調整に取り入れ、モデルをより堅牢で一般化する。 さらに、複数のBERT変種から学んだ表現を包含するアンサンブル機構が考案された。 これらすべてのコンポーネントを組み立てることにより,sciaiデータセットの実験結果から,提案手法が他手法よりも優れていることが示された。

Acronym identification focuses on finding the acronyms and the phrases that have been abbreviated, which is crucial for scientific document understanding tasks. However, the limited size of manually annotated datasets hinders further improvement for the problem. Recent breakthroughs of language models pre-trained on large corpora clearly show that unsupervised pre-training can vastly improve the performance of downstream tasks. In this paper, we present an Adversarial Training BERT method named AT-BERT, our winning solution to acronym identification task for Scientific Document Understanding (SDU) Challenge of AAAI 2021. Specifically, the pre-trained BERT is adopted to capture better semantic representation. Then we incorporate the FGM adversarial training strategy into the fine-tuning of BERT, which makes the model more robust and generalized. Furthermore, an ensemble mechanism is devised to involve the representations learned from multiple BERT variants. Assembling all these components together, the experimental results on the SciAI dataset show that our proposed approach outperforms all other competitive state-of-the-art methods.
翻訳日:2021-04-04 21:35:35 公開日:2021-01-12
# 階層的微分可能なアーキテクチャ探索による検索空間のアンチェーン

Unchain the Search Space with Hierarchical Differentiable Architecture Search ( http://arxiv.org/abs/2101.04028v2 )

ライセンス: Link先を確認
Guanting Liu, Yujie Zhong, Sheng Guo, Matthew R. Scott, Weilin Huang(参考訳) 微分可能なアーキテクチャサーチ (DAS) は計算コストを削減した高性能アーキテクチャの探索に大きく進歩している。 しかし、DASベースの手法は主に繰り返し可能なセル構造を探索することに集中しており、複数のステージに順次積み重ねてネットワークを形成する。 この構成は検索空間を大幅に減らし、細胞間の接続の重要性を無視する。 本稿では,この制限を克服するために,セルレベルとステージレベルの両方でアーキテクチャ検索を行う階層的微分可能アーキテクチャ探索(h-das)を提案する。 具体的には、ネットワークがステージ固有の細胞構造を学習できるように、細胞レベルの検索空間を緩和する。 ステージレベルの探索では,各ステージ内の細胞数やセル間の接続など,ステージのアーキテクチャを体系的に研究する。 洞察に富んだ観察に基づいて,いくつかの探索ルールと損失をデザインし,より優れたステージレベルのアーキテクチャを探索する。 このような階層的検索空間は、高価な検索コストを伴わずにネットワークの性能を大幅に向上させる。 CIFAR10とImageNetの大規模な実験により,提案したH-DASの有効性が示された。 さらに、探索されたステージレベルのアーキテクチャは、既存のDAS法で探索されたセル構造と組み合わせることで、パフォーマンスをさらに向上させることができる。 コードは、https://github.com/M alongTech/research-H DASで入手できる。

Differentiable architecture search (DAS) has made great progress in searching for high-performance architectures with reduced computational cost. However, DAS-based methods mainly focus on searching for a repeatable cell structure, which is then stacked sequentially in multiple stages to form the networks. This configuration significantly reduces the search space, and ignores the importance of connections between the cells. To overcome this limitation, in this paper, we propose a Hierarchical Differentiable Architecture Search (H-DAS) that performs architecture search both at the cell level and at the stage level. Specifically, the cell-level search space is relaxed so that the networks can learn stage-specific cell structures. For the stage-level search, we systematically study the architectures of stages, including the number of cells in each stage and the connections between the cells. Based on insightful observations, we design several search rules and losses, and mange to search for better stage-level architectures. Such hierarchical search space greatly improves the performance of the networks without introducing expensive search cost. Extensive experiments on CIFAR10 and ImageNet demonstrate the effectiveness of the proposed H-DAS. Moreover, the searched stage-level architectures can be combined with the cell structures searched by existing DAS methods to further boost the performance. Code is available at: https://github.com/M alongTech/research-H DAS
翻訳日:2021-04-04 14:39:33 公開日:2021-01-12
# (参考訳) 意味表現からのマルチコンディション生成の変換 [全文訳有]

Transforming Multi-Conditioned Generation from Meaning Representation ( http://arxiv.org/abs/2101.04257v1 )

ライセンス: CC BY 4.0
Joosung Lee(参考訳) タスク指向会話システムでは,会話の流れに関連する特定の情報を生成する自然言語生成システムが有用である。 本研究では,発話の意味を表す様々な情報を生成条件として考慮し,言語生成に焦点を当てた。 意味表現からのNLG(文の意味の条件)は、通常、文計画と表面実現の2段階を経る。 しかし、MR(Meaning Representation)から直接発話を生成するための単純なワンステージフレームワークを提案する。 我々のモデルはGPT2に基づいており、文の構造を決定する必要がないスロットと値対の平らな条件の発話を生成する。 E2Eデータセット内の複数のシステムと6つの自動メトリクスを評価した。 私たちのシステムは単純な手法ですが、従来のシステムと同等のパフォーマンスを自動測定で示しています。 さらに,他の手法を使わずにデータセットの10%しか使用せず,同等の性能を実現し,ゼロショット生成や他のデータセットへの拡張の可能性を示す。

In task-oriented conversation systems, natural language generation systems that generate sentences with specific information related to conversation flow are useful. Our study focuses on language generation by considering various information representing the meaning of utterances as multiple conditions of generation. NLG from meaning representations, the conditions for sentence meaning, generally goes through two steps: sentence planning and surface realization. However, we propose a simple one-stage framework to generate utterances directly from MR (Meaning Representation). Our model is based on GPT2 and generates utterances with flat conditions on slot and value pairs, which does not need to determine the structure of the sentence. We evaluate several systems in the E2E dataset with 6 automatic metrics. Our system is a simple method, but it demonstrates comparable performance to previous systems in automated metrics. In addition, using only 10\% of the data set without any other techniques, our model achieves comparable performance, and shows the possibility of performing zero-shot generation and expanding to other datasets.
翻訳日:2021-04-04 13:11:30 公開日:2021-01-12
# (参考訳) clutter slicesアプローチによる室内空間の同定 [全文訳有]

Clutter Slices Approach for Identification-on-th e-fly of Indoor Spaces ( http://arxiv.org/abs/2101.04262v1 )

ライセンス: CC BY 4.0
Upinder Kaur, Praveen Abbaraju, Harrison McCarty, and Richard M. Voyles(参考訳) 建設空間は絶えず進化しており、継続的な測量、検査、評価を必要とする動的環境である。 このような空間の伝統的な手動検査は、困難で時間を要する活動であることが証明されている。 ロボットエージェントによる自動化は効果的なソリューションである。 知覚能力を持つロボットは、屋内建設空間を自律的に分類し、調査することができる。 本稿では,クラッタの一意なシグネチャを用いた室内空間の粗さ分類のための新しい識別・オン・ザ・フライ手法を提案する。 乱雑に付与された文脈を用いて,廊下,階段,共用空間,トイレなどの一般的な屋内空間を認識する。 提案したクラッタスライスパイプラインは,提案したクラッタスライスデータセットにおいて最大精度93.6%を達成する。 このセンサ独立アプローチは、知的自律エージェントを環境をよりよく知覚するために様々な領域に一般化することができる。

Construction spaces are constantly evolving, dynamic environments in need of continuous surveying, inspection, and assessment. Traditional manual inspection of such spaces proves to be an arduous and time-consuming activity. Automation using robotic agents can be an effective solution. Robots, with perception capabilities can autonomously classify and survey indoor construction spaces. In this paper, we present a novel identification-on-th e-fly approach for coarse classification of indoor spaces using the unique signature of clutter. Using the context granted by clutter, we recognize common indoor spaces such as corridors, staircases, shared spaces, and restrooms. The proposed clutter slices pipeline achieves a maximum accuracy of 93.6% on the presented clutter slices dataset. This sensor independent approach can be generalized to various domains to equip intelligent autonomous agents in better perceiving their environment.
翻訳日:2021-04-04 12:58:55 公開日:2021-01-12
# (参考訳) 手術映像における一時ガイド付き手指球追跡 [全文訳有]

Temporally Guided Articulated Hand Pose Tracking in Surgical Videos ( http://arxiv.org/abs/2101.04281v1 )

ライセンス: CC BY 4.0
Nathan Louis, Luowei Zhou, Steven J. Yule, Roger D. Dias, Milisa Manojlovich, Francis D. Pagani, Donald S. Likosky, Jason J. Corso(参考訳) 手のポーズ追跡は未熟な問題であり、特に医療領域において、広範囲のアプリケーションで使用される可能性を持っている。 生体内手術ビデオのロバストで正確な追跡システムにより、手の動きのダイナミクスや動きのパターンを捉えることができ、スキルアセスメント、手術従事者の訓練、時間的行動認識などのリッチなタスクに役立てることができる。 本研究では,ポーズ予測に手ポーズを組み込むことでトラッキング精度を向上させる新しい手ポーズ推定モデルRes152-CondPoseを提案する。 我々は,過去の予測を効果的に活用する時間的ガイド付きアプローチに従えば,フレーム単位の独立な予測を提供する最先端手法の改善を示す。 さらに,マルチスタンスによる手ポーズアノテーションを提供する最初のデータセットであるオペレーショナルハンドを収集した。 我々のデータセットには、28の公開手術ビデオから76の動画クリップと8.1k以上の注釈付き手ポーズインスタンスが含まれています。 境界ボックス,手指ポーズアノテーション,トラッキングidを提供し,マルチインスタンス領域ベースおよび関節追跡を可能にした。 手術手による評価では,平均平均精度(map),ポーズ推定精度,複数物体追跡精度(mota)を用いて,姿勢追跡性能を評価する手法が最先端手法よりも優れていることを示す。

Articulated hand pose tracking is an underexplored problem that carries the potential for use in an extensive number of applications, especially in the medical domain. With a robust and accurate tracking system on in-vivo surgical videos, the motion dynamics and movement patterns of the hands can be captured and analyzed for rich tasks including skills assessment, training surgical residents, and temporal action recognition. In this work, we propose a novel hand pose estimation model, Res152- CondPose, which improves tracking accuracy by incorporating a hand pose prior into its pose prediction. We show improvements over state-of-the-art methods which provide frame-wise independent predictions, by following a temporally guided approach that effectively leverages past predictions. Additionally, we collect the first dataset, Surgical Hands, that provides multi-instance articulated hand pose annotations for in-vivo videos. Our dataset contains 76 video clips from 28 publicly available surgical videos and over 8.1k annotated hand pose instances. We provide bounding boxes, articulated hand pose annotations, and tracking IDs to enable multi-instance area-based and articulated tracking. When evaluated on Surgical Hands, we show our method outperforms the state-of-the-art method using mean Average Precision (mAP), to measure pose estimation accuracy, and Multiple Object Tracking Accuracy (MOTA), to assess pose tracking performance.
翻訳日:2021-04-04 12:52:20 公開日:2021-01-12
# (参考訳) メタラーニングと一般AIの関連性に関する簡単な調査 [全文訳有]

A Brief Survey of Associations Between Meta-Learning and General AI ( http://arxiv.org/abs/2101.04283v1 )

ライセンス: CC BY 4.0
Huimin Peng(参考訳) 本稿では,メタラーニングの歴史を概観し,一般AIへの貢献について述べる。 メタラーニングはモデル一般化能力を向上し、分散処理と分散処理の両方に適用可能な汎用アルゴリズムを考案する。 汎用AIは、タスク固有のモデルを、AIを使用して多様なタスクを解決するための高度な自動化を導入する一般的なアルゴリズムシステムに置き換える。 我々は、メモリモジュール、メタラーナー、共進化、好奇心、忘れること、AI生成アルゴリズムなど、一般的なAI開発へのメタラーニングの主な貢献を要約する。 メタラーニングと一般AIの関連性を示し、一般AIアルゴリズムの定式化にメタラーニングをどのように使用できるかについて議論する。

This paper briefly reviews the history of meta-learning and describes its contribution to general AI. Meta-learning improves model generalization capacity and devises general algorithms applicable to both in-distribution and out-of-distribution tasks potentially. General AI replaces task-specific models with general algorithmic systems introducing higher level of automation in solving diverse tasks using AI. We summarize main contributions of meta-learning to the developments in general AI, including memory module, meta-learner, coevolution, curiosity, forgetting and AI-generating algorithm. We present connections between meta-learning and general AI and discuss how meta-learning can be used to formulate general AI algorithms.
翻訳日:2021-04-04 12:31:00 公開日:2021-01-12
# (参考訳) 3D-ANAS:高速ハイパースペクトル画像分類のための3次元非対称ニューラルネットワーク探索 [全文訳有]

3D-ANAS: 3D Asymmetric Neural Architecture Search for Fast Hyperspectral Image Classification ( http://arxiv.org/abs/2101.04287v1 )

ライセンス: CC BY 4.0
Haokui Zhang, Chengrong Gong, Yunpeng Bai, Zongwen Bai and Ying Li(参考訳) ハイパースペクトル画像はスペクトルと空間情報を豊富に含み、土地被覆分類において不定の役割を果たす。 近年,ディープラーニング技術に基づいて,有望な性能を示すHSI分類手法が提案されている。 しかし、これまでの研究では、1)ほとんどのディープラーニングモデルのアーキテクチャは手作業で設計されており、専門知識に依存しており、比較的退屈である。 さらに、hsi分類では、異なるセンサーによってキャプチャされたデータセットは、物理的特性が異なる。 それに合わせて、異なるモデルをさまざまなデータセット用に設計する必要があるため、アーキテクチャ設計の作業負荷はさらに増加する。 隣接する画素のパッチの重複領域を繰り返し計算し、計算コストと時間コストを増大させる。 さらに、分類精度は広範な調査実験に基づいて人工的に設定されるパッチサイズに敏感である。 上記の問題を克服するため,まず3次元非対称ニューラルネットワーク探索アルゴリズムを提案し,HSI分類のための効率的なアーキテクチャを自動検索する。 hsisの特性を解析することにより、スペクトルと空間の情報を異なる分解畳み込みで処理する3次元非対称分解探索空間を特に構築する。 さらに,反復操作を行わず,全体のコストを低減できる新しい高速分類フレームワーク,すなわち画素から画素への分類フレームワークを提案する。 異なるセンサーによってキャプチャされた3つの公開HSIデータセットの実験では、我々の3D-ANASが設計したネットワークは、最先端のいくつかの手法と比較して競争力を発揮するが、推論速度ははるかに速い。

Hyperspectral images involve abundant spectral and spatial information, playing an irreplaceable role in land-cover classification. Recently, based on deep learning technologies, an increasing number of HSI classification approaches have been proposed, which demonstrate promising performance. However, previous studies suffer from two major drawbacks: 1) the architecture of most deep learning models is manually designed, relies on specialized knowledge, and is relatively tedious. Moreover, in HSI classifications, datasets captured by different sensors have different physical properties. Correspondingly, different models need to be designed for different datasets, which further increases the workload of designing architectures; 2) the mainstream framework is a patch-to-pixel framework. The overlap regions of patches of adjacent pixels are calculated repeatedly, which increases computational cost and time cost. Besides, the classification accuracy is sensitive to the patch size, which is artificially set based on extensive investigation experiments. To overcome the issues mentioned above, we firstly propose a 3D asymmetric neural network search algorithm and leverage it to automatically search for efficient architectures for HSI classifications. By analysing the characteristics of HSIs, we specifically build a 3D asymmetric decomposition search space, where spectral and spatial information are processed with different decomposition convolutions. Furthermore, we propose a new fast classification framework, i,e., pixel-to-pixel classification framework, which has no repetitive operations and reduces the overall cost. Experiments on three public HSI datasets captured by different sensors demonstrate the networks designed by our 3D-ANAS achieve competitive performance compared to several state-of-the-art methods, while having a much faster inference speed.
翻訳日:2021-04-04 12:16:30 公開日:2021-01-12
# (参考訳) Fits and Starts: AutoMLの企業利用とループにおける人間の役割 [全文訳有]

Fits and Starts: Enterprise Use of AutoML and the Role of Humans in the Loop ( http://arxiv.org/abs/2101.04296v1 )

ライセンス: CC BY 4.0
Anamaria Crisan, Brittany Fiore-Gartland(参考訳) AutoMLシステムは、通常のデータサイエンス作業のスピードアップと、統計学やコンピュータサイエンスの専門知識を持たない人たちの機械学習利用を可能にする。 これらのシステムは、熟練したデータワーカーのプールが限られている企業環境で勢いを増している。 本研究では,異なる規模の組織から29名の個人を対象に,データサイエンスにおけるAutoMLシステムの利用状況や利用意図についてインタビューを行った。 また,データ可視化とAutoMLシステムとの併用について検討した。 分析の結果,AutoMLの3つの利用シナリオは,さまざまなレベルの専門知識を持つデータワーカーが望む自動化レベルを要約するフレームワークとなった。 スピードと人間の監視の緊張関係を表面化し、データの視覚化によって両者のバランスが悪くなることを発見した。 本研究は,人間のループ内視覚分析手法の設計と実装に影響を及ぼすものである。

AutoML systems can speed up routine data science work and make machine learning available to those without expertise in statistics and computer science. These systems have gained traction in enterprise settings where pools of skilled data workers are limited. In this study, we conduct interviews with 29 individuals from organizations of different sizes to characterize how they currently use, or intend to use, AutoML systems in their data science work. Our investigation also captures how data visualization is used in conjunction with AutoML systems. Our findings identify three usage scenarios for AutoML that resulted in a framework summarizing the level of automation desired by data workers with different levels of expertise. We surfaced the tension between speed and human oversight and found that data visualization can do a poor job balancing the two. Our findings have implications for the design and implementation of human-in-the-loop visual analytics approaches.
翻訳日:2021-04-04 11:30:28 公開日:2021-01-12
# (参考訳) DeepiSign:CNNの統合性と認証を保護するために、目に見えないフレジブルな透かし [全文訳有]

DeepiSign: Invisible Fragile Watermark to Protect the Integrityand Authenticity of CNN ( http://arxiv.org/abs/2101.04319v1 )

ライセンス: CC BY 4.0
Alsharif Abuadbba, Hyoungshick Kim, Surya Nepal(参考訳) 自動運転車のような現実のアプリケーションでデプロイされる畳み込みニューラルネットワーク(cnns)は、毒殺攻撃や微調整といった操作攻撃に弱いことが示されている。 したがって、妥協されたモデルは不正な出力を生成し、悪意ある振る舞いをするので、CNNの完全性と信頼性を保証することが不可欠である。 本稿では,CNNモデルの整合性と信頼性を確保するために,DeepiSignと呼ばれる自己完結型タンパ保護手法を提案する。 DeepiSignは、秘密とハッシュ値をCNNモデルに安全に埋め込むために、脆弱な目に見えない透かしというアイデアを適用している。 モデルの完全性と信頼性を検証するために、モデルからシークレットを取得し、シークレットのハッシュ値を計算し、それを埋め込みハッシュ値と比較する。 CNNモデルに埋め込まれたシークレットの影響を最小限に抑えるため、ウェーブレットベースの手法を用いて重みを周波数領域に変換し、そのシークレットをより少ない有意な係数に埋め込む。 理論的解析により,DeepiSignは各層に最大1KBのシークレットを隠蔽し,モデルの精度を最小限に抑えることができた。 deepisignのセキュリティと性能を評価するために,3種類の操作攻撃(ターゲット入力中毒,アウトプット中毒,微調整)に対する3つのデータセット(mnist,cifar-10,imag enet)を用いて,事前学習した4つのモデル(resnet18,vgg16,alex net,mobilenet)について実験を行った。 その結果,DeepiSignは分類精度を低下させることなく検証可能であり,CNNによる攻撃に対して堅牢であることがわかった。

Convolutional Neural Networks (CNNs) deployed in real-life applications such as autonomous vehicles have shown to be vulnerable to manipulation attacks, such as poisoning attacks and fine-tuning. Hence, it is essential to ensure the integrity and authenticity of CNNs because compromised models can produce incorrect outputs and behave maliciously. In this paper, we propose a self-contained tamper-proofing method, called DeepiSign, to ensure the integrity and authenticity of CNN models against such manipulation attacks. DeepiSign applies the idea of fragile invisible watermarking to securely embed a secret and its hash value into a CNN model. To verify the integrity and authenticity of the model, we retrieve the secret from the model, compute the hash value of the secret, and compare it with the embedded hash value. To minimize the effects of the embedded secret on the CNN model, we use a wavelet-based technique to transform weights into the frequency domain and embed the secret into less significant coefficients. Our theoretical analysis shows that DeepiSign can hide up to 1KB secret in each layer with minimal loss of the model's accuracy. To evaluate the security and performance of DeepiSign, we performed experiments on four pre-trained models (ResNet18, VGG16, AlexNet, and MobileNet) using three datasets (MNIST, CIFAR-10, and Imagenet) against three types of manipulation attacks (targeted input poisoning, output poisoning, and fine-tuning). The results demonstrate that DeepiSign is verifiable without degrading the classification accuracy, and robust against representative CNN manipulation attacks.
翻訳日:2021-04-04 11:02:07 公開日:2021-01-12
# (参考訳) 機械学習と信号特徴抽出を組み合わせたブラインド変調分類 [全文訳有]

Blind Modulation Classification via Combined Machine Learning and Signal Feature Extraction ( http://arxiv.org/abs/2101.04337v1 )

ライセンス: CC BY 4.0
Jafar Norolahi, Paeiz Azmi(参考訳) 本研究では,視覚・自動変調分類のためのアルゴリズムを提案する。 低信号パワーから雑音比(SNR)の様々な変調を識別するために、機械傾きと信号特徴抽出の組み合わせが有効である。 提案アルゴリズムは4つを含む。 まず、正規および不規則なスペクトル特性に基づく変調信号の分岐に対するスペクトル分析に有利である。 次に、受信信号に非線形ソフトマージン支持ベクトル(NS SVM)問題を適用し、そのシンボルを正しい(サポートベクトル)シンボルに分類する。 NS SVMの雇用は変調信号に対する物理層ノイズ効果の低減につながる。 その後、k-centerクラスタリングは各クラスの中央を見つけることができる。 最後に, 散乱図の相関関数推定は, 変調の既設理想散乱図と相関する。 相関結果は分類結果である。 さらなる評価のために、多くの公開手法と比較して成功率、性能、複雑さが提供される。 シミュレーションにより、提案アルゴリズムは変調された信号をより少ないSNRで分類できることを示す。 例えば、SNR=4.2dBで4-QAM、SNR=2.1dBで4-FSK、成功率は%99である。 さらに,ns svmと特徴ベース関数の双対問題におけるカーネル関数の利用により,提案手法は複雑性が低く,実装が簡単である。

In this study, an algorithm to blind and automatic modulation classification has been proposed. It well benefits combined machine leaning and signal feature extraction to recognize diverse range of modulation in low signal power to noise ratio (SNR). The presented algorithm contains four. First, it advantages spectrum analyzing to branching modulated signal based on regular and irregular spectrum character. Seconds, a nonlinear soft margin support vector (NS SVM) problem is applied to received signal, and its symbols are classified to correct and incorrect (support vectors) symbols. The NS SVM employment leads to discounting in physical layer noise effect on modulated signal. After that, a k-center clustering can find center of each class. finally, in correlation function estimation of scatter diagram is correlated with pre-saved ideal scatter diagram of modulations. The correlation outcome is classification result. For more evaluation, success rate, performance, and complexity in compare to many published methods are provided. The simulation prove that the proposed algorithm can classified the modulated signal in less SNR. For example, it can recognize 4-QAM in SNR=-4.2 dB, and 4-FSK in SNR=2.1 dB with %99 success rate. Moreover, due to using of kernel function in dual problem of NS SVM and feature base function, the proposed algorithm has low complexity and simple implementation in practical issues.
翻訳日:2021-04-04 10:44:51 公開日:2021-01-12
# (参考訳) ハイパーネットワークに基づく期待整合信号回復アルゴリズムを用いた位相検索 [全文訳有]

Phase Retrieval using Expectation Consistent Signal Recovery Algorithm based on Hypernetwork ( http://arxiv.org/abs/2101.04348v1 )

ライセンス: CC BY 4.0
Chang-Jen Wang, Chao-Kai Wen, Shang-Ho (Lawrence) Tsai, Shi Jin, Geoffrey Ye Li(参考訳) 位相検索(PR)は現代の計算イメージングシステムにおいて重要な要素である。 過去半世紀にわたって多くのアルゴリズムが開発されてきた。 近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。 deep unfoldingと呼ばれる新たなテクニックは、従来のモデルベースの反復アルゴリズムと、現代的なデータベースのディープラーニングとの系統的な接続を提供する。 データ学習を利用した展開アルゴリズムは、元のアルゴリズムよりも顕著な性能と収束速度の向上を示した。 その可能性にもかかわらず、既存の展開アルゴリズムのほとんどは、層依存パラメータを使用する場合、一定の数の反復に限られる。 本研究では,既存の制約を克服するために,深い展開のための新しい枠組みを開発する。 一般の逆問題に対して,我々のフレームワークが広く適用可能であるとしても,PRを例として取り上げる。 我々の開発は、データ駆動学習において減衰因子が残される一般化予測整合信号回復アルゴリズム(GEC-SR)に基づいている。 特に, GEC-SR の減衰係数を生成するハイパーネットワークを導入する。 最適な減衰因子を直接学習する代わりに、ハイパーネットワークは、臨床設定に従って最適な減衰因子を生成する方法を学び、異なるシナリオへの適応性を確保する。 ハイパーネットワークの動作を異なるレイヤ番号に適応させるため、私たちはリカレントアーキテクチャを使用して動的ハイパーネットワークを開発し、レイヤ間でオンラインに変化可能な減衰係数を生成します。 また,ハイパーネットワークのロバスト性を高めるために自己アテンション機構を利用する。 大規模な実験により、提案アルゴリズムは収束速度と精度で既存のアルゴリズムより優れており、多くの古典的PRアルゴリズムが不安定または失敗する非常に厳しい条件下でも機能することが示された。

Phase retrieval (PR) is an important component in modern computational imaging systems. Many algorithms have been developed over the past half century. Recent advances in deep learning have opened up a new possibility for robust and fast PR. An emerging technique, called deep unfolding, provides a systematic connection between conventional model-based iterative algorithms and modern data-based deep learning. Unfolded algorithms, powered by data learning, have shown remarkable performance and convergence speed improvement over the original algorithms. Despite their potential, most existing unfolded algorithms are strictly confined to a fixed number of iterations when employing layer-dependent parameters. In this study, we develop a novel framework for deep unfolding to overcome the existing limitations. Even if our framework can be widely applied to general inverse problems, we take PR as an example in the paper. Our development is based on an unfolded generalized expectation consistent signal recovery (GEC-SR) algorithm, wherein damping factors are left for data-driven learning. In particular, we introduce a hypernetwork to generate the damping factors for GEC-SR. Instead of directly learning a set of optimal damping factors, the hypernetwork learns how to generate the optimal damping factors according to the clinical settings, thus ensuring its adaptivity to different scenarios. To make the hypernetwork work adapt to varying layer numbers, we use a recurrent architecture to develop a dynamic hypernetwork, which generates a damping factor that can vary online across layers. We also exploit a self-attention mechanism to enhance the robustness of the hypernetwork. Extensive experiments show that the proposed algorithm outperforms existing ones in convergence speed and accuracy, and still works well under very harsh settings, that many classical PR algorithms unstable or even fail.
翻訳日:2021-04-04 10:32:38 公開日:2021-01-12
# (参考訳) ランクモデルに対するニューラルラーニングの校正と不確かさについて [全文訳有]

On the Calibration and Uncertainty of Neural Learning to Rank Models ( http://arxiv.org/abs/2101.04356v1 )

ライセンス: CC BY 4.0
Gustavo Penha and Claudia Hauff(参考訳) Probability Ranking Principle (PRP) によれば、関連性確率の順に文書をランク付けすると、アドホック検索に最適な文書ランキングが得られる。 PRPは、2つの条件が満たされたときに成り立つ: [C1] モデルが十分に校正され、[C2] 関連性の確率が確実に報告される。 しかし、ディープニューラルネットワーク(DNN)はよく校正されておらず、不確実性の原因がいくつかあるため、[C1]と[C2]はニューラルランサーによって満たされない可能性がある。 ニューラルラーニング・トゥ・ランク(L2R)のアプローチの成功を考えると、特にBERTベースのアプローチは、まずどの状況を決定論的に分析する。 出力ポイント推定 神経ローダは校正される そこで,本研究では,2つの手法を用いて,提案した確率的ランク付けに導かれるニューラルランク付けの不確かさをモデル化し,点推定とは対照的に関連性の予測分布を出力する。 会話応答ランク付けのアドホック検索タスクにおける実験結果から, (i) bertベースのランク付けはロバストに調整されないこと, 確率的bertベースのランク付けがより良いキャリブレーションをもたらすこと, (ii) 不確実性推定は, リスク認識型ニューラルネットワークのランキング, すなわち, ランク付け時の不確実性を考慮し, 不可解な会話コンテキストの予測に有効であることが明らかとなった。

According to the Probability Ranking Principle (PRP), ranking documents in decreasing order of their probability of relevance leads to an optimal document ranking for ad-hoc retrieval. The PRP holds when two conditions are met: [C1] the models are well calibrated, and, [C2] the probabilities of relevance are reported with certainty. We know however that deep neural networks (DNNs) are often not well calibrated and have several sources of uncertainty, and thus [C1] and [C2] might not be satisfied by neural rankers. Given the success of neural Learning to Rank (L2R) approaches-and here, especially BERT-based approaches-we first analyze under which circumstances deterministic, i.e. outputs point estimates, neural rankers are calibrated. Then, motivated by our findings we use two techniques to model the uncertainty of neural rankers leading to the proposed stochastic rankers, which output a predictive distribution of relevance as opposed to point estimates. Our experimental results on the ad-hoc retrieval task of conversation response ranking reveal that (i) BERT-based rankers are not robustly calibrated and that stochastic BERT-based rankers yield better calibration; and (ii) uncertainty estimation is beneficial for both risk-aware neural ranking, i.e.taking into account the uncertainty when ranking documents, and for predicting unanswerable conversational contexts.
翻訳日:2021-04-04 09:55:48 公開日:2021-01-12
# (参考訳) 収束解析を用いたSOMに基づく勾配自由深層学習法 [全文訳有]

A SOM-based Gradient-Free Deep Learning Method with Convergence Analysis ( http://arxiv.org/abs/2101.05612v1 )

ライセンス: CC BY 4.0
Shaosheng Xu, Jinde Cao, Yichao Cao, Tong Wang(参考訳) 深層学習における勾配降下法は一連の疑問を引き起こすため,新しい勾配フリー深層学習構造を提案する。 従来の自己組織化マップに新たなモジュールを追加し、マップに残余を導入することで、Deep Valued Self-Organizing Mapネットワークを構築する。 そして,このような深い価値を持つ自己組織化マップネットワークの収束性能に関する解析を行い,入力の次元と予測の損失を考慮に入れた設計パラメータの不平等性について述べる。

As gradient descent method in deep learning causes a series of questions, this paper proposes a novel gradient-free deep learning structure. By adding a new module into traditional Self-Organizing Map and introducing residual into the map, a Deep Valued Self-Organizing Map network is constructed. And analysis about the convergence performance of such a deep Valued Self-Organizing Map network is proved in this paper, which gives an inequality about the designed parameters with the dimension of inputs and the loss of prediction.
翻訳日:2021-04-04 09:39:12 公開日:2021-01-12
# (参考訳) 深層学習による非線形分散方程式のデータ駆動ピークと周期ピーク移動波解 [全文訳有]

Data-driven peakon and periodic peakon travelling wave solutions of some nonlinear dispersive equations via deep learning ( http://arxiv.org/abs/2101.04371v1 )

ライセンス: CC BY 4.0
Li Wang and Zhenya Yan(参考訳) 数学物理学の分野では、波のピークに不連続な一階微分を持つ孤立波であるピークロン解を持つ多くの物理的に興味深い非線形分散方程式が存在する。 In this paper, we apply the multi-layer physics-informed neural networks (PINNs) deep learning to successfully study the data-driven peakon and periodic peakon solutions of some well-known nonlinear dispersion equations with initial-boundary value conditions such as the Camassa-Holm (CH) equation, Degasperis-Procesi equation, modified CH equation with cubic nonlinearity, Novikov equation with cubic nonlinearity, mCH-Novikov equation, b-family equation with quartic nonlinearity, generalized modified CH equation with quintic nonlinearity, and etc. これらの結果は、ピークン解とそれに対応する非線形分散方程式の実験設計をさらに研究するのに有用である。

In the field of mathematical physics, there exist many physically interesting nonlinear dispersive equations with peakon solutions, which are solitary waves with discontinuous first-order derivative at the wave peak. In this paper, we apply the multi-layer physics-informed neural networks (PINNs) deep learning to successfully study the data-driven peakon and periodic peakon solutions of some well-known nonlinear dispersion equations with initial-boundary value conditions such as the Camassa-Holm (CH) equation, Degasperis-Procesi equation, modified CH equation with cubic nonlinearity, Novikov equation with cubic nonlinearity, mCH-Novikov equation, b-family equation with quartic nonlinearity, generalized modified CH equation with quintic nonlinearity, and etc. These results will be useful to further study the peakon solutions and corresponding experimental design of nonlinear dispersive equations.
翻訳日:2021-04-04 09:24:32 公開日:2021-01-12
# (参考訳) 確率的マルチユーザバンディットを用いた動的スペクトルアクセス [全文訳有]

Dynamic Spectrum Access using Stochastic Multi-User Bandits ( http://arxiv.org/abs/2101.04388v1 )

ライセンス: CC BY 4.0
Meghana Bande, Akshayaa Magesh, Venugopal V. Veeravalli(参考訳) 非コーディネートスペクトルアクセスのためのアルゴリズムを開発するために、確率的マルチユーザーマルチアームバンディットフレームワークが使用される。 先行研究とは対照的に、衝突しても報酬はゼロではないと仮定され、それによってユーザ数をチャネル数よりも多くすることができる。 提案アルゴリズムは推定フェーズと割り当てフェーズから構成される。 各ユーザがアルゴリズムを採用すると、システム全体の後悔は、持続時間$t$の時間ホリゾンよりも、オーダー$o(\log t)$のオーダーオプティマイズであることが示される。 後悔の保証は、ユーザ数がチャネル数以上である場合とチャネル数未満の場合の両方に適用される。 このアルゴリズムは、システムのユーザ数が時間とともに進化する動的ケースに拡張され、サブ線形後悔につながることが示されている。

A stochastic multi-user multi-armed bandit framework is used to develop algorithms for uncoordinated spectrum access. In contrast to prior work, it is assumed that rewards can be non-zero even under collisions, thus allowing for the number of users to be greater than the number of channels. The proposed algorithm consists of an estimation phase and an allocation phase. It is shown that if every user adopts the algorithm, the system wide regret is order-optimal of order $O(\log T)$ over a time-horizon of duration $T$. The regret guarantees hold for both the cases where the number of users is greater than or less than the number of channels. The algorithm is extended to the dynamic case where the number of users in the system evolves over time, and is shown to lead to sub-linear regret.
翻訳日:2021-04-04 08:47:53 公開日:2021-01-12
# (参考訳) シミュレーションユーザによるレコメンダシステム効果の測定 [全文訳有]

Measuring Recommender System Effects with Simulated Users ( http://arxiv.org/abs/2101.04526v1 )

ライセンス: CC BY 4.0
Sirui Yao and Yoni Halpern and Nithum Thain and Xuezhi Wang and Kang Lee and Flavien Prost and Ed H. Chi and Jilin Chen and Alex Beutel(参考訳) 食べ物レコメンデーションシステム -- が『emph{causing}』かどうかを確認し、不健康な食事習慣を育むか、単にユーザーの興味を反映させるだけか? レコメンダシステムの選択とバイアスによって、レコメンダシステムでのユーザの経験のどのくらいが時間の経過とともに引き起こされ、ユーザの好みとバイアスに基づいたものなのでしょうか? 人気バイアスとフィルターバブルは、最もよく研究されているシステムバイアスの2つだが、以前の研究のほとんどは、単一のレコメンデーションステップでシステムの振る舞いを理解することに集中している。 これらのバイアスはユーザ行動とどのように相互作用し、反復的なインタラクションからどのようなユーザエクスペリエンスが生成されるのか? 本研究では,ユーザ行動の違いによる推薦システムの影響を測定するためのシミュレーションフレームワークを提案する。 このシミュレーションフレームワークを用いて、(a)ユーザの好みからレコメンダシステムの効果を分離し、(b)「平均ユーザ」だけでなく、非定型ユーザ行動下での極端な体験についてもシステムがどのように機能するかを検討する。 本稿では,シミュレーションフレームワークの一部として,シミュレーション上の評価指標のセットを提案し,レコメンダシステムの振る舞いを理解する。 最後に,映画レンズにおける従来の協調フィルタリングと大規模生産レコメンデーションシステムに関する2つの実証的なケーススタディを提示し,人気バイアスが時間とともにどのように現れるかを理解する。

Imagine a food recommender system -- how would we check if it is \emph{causing} and fostering unhealthy eating habits or merely reflecting users' interests? How much of a user's experience over time with a recommender is caused by the recommender system's choices and biases, and how much is based on the user's preferences and biases? Popularity bias and filter bubbles are two of the most well-studied recommender system biases, but most of the prior research has focused on understanding the system behavior in a single recommendation step. How do these biases interplay with user behavior, and what types of user experiences are created from repeated interactions? In this work, we offer a simulation framework for measuring the impact of a recommender system under different types of user behavior. Using this simulation framework, we can (a) isolate the effect of the recommender system from the user preferences, and (b) examine how the system performs not just on average for an "average user" but also the extreme experiences under atypical user behavior. As part of the simulation framework, we propose a set of evaluation metrics over the simulations to understand the recommender system's behavior. Finally, we present two empirical case studies -- one on traditional collaborative filtering in MovieLens and one on a large-scale production recommender system -- to understand how popularity bias manifests over time.
翻訳日:2021-04-04 08:14:03 公開日:2021-01-12
# (参考訳) オブジェクト提案生成のためのスーパーピクセルベースリファインメント [全文訳有]

Superpixel-based Refinement for Object Proposal Generation ( http://arxiv.org/abs/2101.04574v1 )

ライセンス: CC BY 4.0
Christian Wilms and Simone Frintrop(参考訳) オブジェクトの正確なセグメンテーションは、クラスに依存しないオブジェクトの提案生成やインスタンスセグメンテーションといったタスクにおいて重要な問題である。 ディープラーニングベースのシステムは通常、cnnの固有のダウンサンプリングのため、粗い特徴マップに基づいてオブジェクトのセグメンテーションを生成する。 これにより、画像内のオブジェクト境界に順応しないセグメンテーション境界が導かれる。 そこで本研究では,最新のオブジェクト提案システムであるAttentionMask上に,新たなスーパーピクセルベースの改良手法を提案する。 特徴抽出にスーパーピクセルプーリングと、新しいスーパーピクセル分類器を用いて、高精度スーパーピクセルが対象物に属しているか否かを判定する。 実験の結果,AttentionMaskに比べて平均リコール率では最大26.0%の改善が見られた。 さらに, セグメンテーションの質的, 定量的分析により, 様々な深層学習に基づくオブジェクト提案生成システムと比較して, 改良のための境界の定着度が著しく向上した。

Precise segmentation of objects is an important problem in tasks like class-agnostic object proposal generation or instance segmentation. Deep learning-based systems usually generate segmentations of objects based on coarse feature maps, due to the inherent downsampling in CNNs. This leads to segmentation boundaries not adhering well to the object boundaries in the image. To tackle this problem, we introduce a new superpixel-based refinement approach on top of the state-of-the-art object proposal system AttentionMask. The refinement utilizes superpixel pooling for feature extraction and a novel superpixel classifier to determine if a high precision superpixel belongs to an object or not. Our experiments show an improvement of up to 26.0% in terms of average recall compared to original AttentionMask. Furthermore, qualitative and quantitative analyses of the segmentations reveal significant improvements in terms of boundary adherence for the proposed refinement compared to various deep learning-based state-of-the-art object proposal generation systems.
翻訳日:2021-04-04 07:54:55 公開日:2021-01-12
# (参考訳) 高密度ハイパーグラフ試験におけるシャープ検出境界 [全文訳有]

Sharp detection boundaries on testing dense subhypergraph ( http://arxiv.org/abs/2101.04584v1 )

ライセンス: CC BY 4.0
Mingao Yuan and Zuofeng Shang(参考訳) 本研究では,高密度ハイパーグラフの存在を検査する問題について検討する。 ヌル仮説はエルドス=レーニ一様ランダムハイパーグラフであり、代替仮説は高密度な部分ハイパーグラフを含む一様ランダムハイパーグラフである。 1) エッジ確率は既知のもの,(2) エッジ確率は未知のもの,という2つのシナリオにおいて,鋭い検出境界を確立する。 どちらのシナリオでも、鋭い検出可能な境界は適切なモデルパラメータによって特徴づけられる。 モデルパラメータが検出可能な領域に落ちると漸近的に強力なテストが提供される。 以上の結果から,一般的なハイパーグラフモデルの検出可能な領域は,グラフと大きく異なることがわかった。

We study the problem of testing the existence of a dense subhypergraph. The null hypothesis is an Erdos-Renyi uniform random hypergraph and the alternative hypothesis is a uniform random hypergraph that contains a dense subhypergraph. We establish sharp detection boundaries in both scenarios: (1) the edge probabilities are known; (2) the edge probabilities are unknown. In both scenarios, sharp detectable boundaries are characterized by the appropriate model parameters. Asymptotically powerful tests are provided when the model parameters fall in the detectable regions. Our results indicate that the detectable regions for general hypergraph models are dramatically different from their graph counterparts.
翻訳日:2021-04-04 07:41:53 公開日:2021-01-12
# (参考訳) 常識知識の次元 [全文訳有]

Dimensions of Commonsense Knowledge ( http://arxiv.org/abs/2101.04640v1 )

ライセンス: CC0 1.0
Filip Ilievski, Alessandro Oltramari, Kaixin Ma, Bin Zhang, Deborah L. McGuinness, Pedro Szekely(参考訳) commonsenseの知識は、自然言語処理、ビジュアル処理、計画など、多くのaiアプリケーションにとって不可欠である。 そのため、過去数十年にわたって、常識知識を含む多くの資料が設計され、構築されてきた。 近年、大きなテキストベースのソースに焦点が当てられ、ニューラルネットワーク(言語)モデルとの統合が容易になり、典型的にはソースのセマンティクスを犠牲にして、テキストのタスクへの応用が容易になっている。 このようなプラクティスは、これらのソースの調和を防ぎ、そのカバレッジとギャップを理解し、ダウンストリームタスクと知識のセマンティックアライメントを妨げる可能性がある。 コモンセンス知識の統合は部分的成功をもたらしたが、既存のコモンセンス知識の包括的統合への明確な道筋はない。 本稿では,コモンセンス知識の共通次元の周辺にこれらの情報源を整理することを目的とする。 この目的のために,我々は,その関係に特に焦点をあてた,幅広い一般的なコモンセンスソースを調査した。 我々はこれらの関係を13の知識次元に集約し、それぞれがソースにあるより具体的な関係を抽象化する。 この統合により、私たちは別々のソースを統一し、それらのカバレッジ、重複、および知識次元に関するギャップの表示を計算することができます。 さらに,コモンセンス知識を必要とする下流推論課題に対する各次元の影響を分析し,時間的・欲求的次元が下流課題の推論に非常に有益であるのに対し,識別性や語彙的知識は影響が少ないことを観察した。 これらの結果は、現在の評価におけるいくつかの次元に焦点をあて、他を無視する可能性を明らかにしている。

Commonsense knowledge is essential for many AI applications, including those in natural language processing, visual processing, and planning. Consequently, many sources that include commonsense knowledge have been designed and constructed over the past decades. Recently, the focus has been on large text-based sources, which facilitate easier integration with neural (language) models and application on textual tasks, typically at the expense of the semantics of the sources. Such practice prevents the harmonization of these sources, understanding their coverage and gaps, and may hinder the semantic alignment of their knowledge with downstream tasks. Efforts to consolidate commonsense knowledge have yielded partial success, but provide no clear path towards a comprehensive consolidation of existing commonsense knowledge. The ambition of this paper is to organize these sources around a common set of dimensions of commonsense knowledge. For this purpose, we survey a wide range of popular commonsense sources with a special focus on their relations. We consolidate these relations into 13 knowledge dimensions, each abstracting over more specific relations found in sources. This consolidation allows us to unify the separate sources and to compute indications of their coverage, overlap, and gaps with respect to the knowledge dimensions. Moreover, we analyze the impact of each dimension on downstream reasoning tasks that require commonsense knowledge, observing that the temporal and desire/goal dimensions are very beneficial for reasoning on current downstream tasks, while distinctness and lexical knowledge have little impact. These results reveal focus towards some dimensions in current evaluation, and potential neglect of others.
翻訳日:2021-04-04 07:12:40 公開日:2021-01-12
# (参考訳) リアルか仮想か? 拡張現実シナリオにおける脳活動パターンを用いた参加者ターゲットの識別 [全文訳有]

Real or Virtual? Using Brain Activity Patterns to differentiate Attended Targets during Augmented Reality Scenarios ( http://arxiv.org/abs/2101.05272v1 )

ライセンス: CC BY 4.0
Lisa-Marie Vortmann, Leonid Schwenke, Felix Putze(参考訳) 拡張現実(Augmented Reality)は、仮想コンポーネントと実際の環境の融合である。 生成されたオブジェクトと自然オブジェクトの同時可視性は、ユーザがリアルまたは仮想の特定のターゲットに選択的に注意を向ける必要がある場合が多い。 本研究では,拡張現実のシナリオで収集された脳波(eeg)データを分類する機械学習手法を用いて,この目標が現実か仮想かを検討した。 浅い畳み込みニューラルネットワークは、テストデータとトレーニングデータが異なる試行で得られた場合、20人の参加者から平均70%以上の精度で3秒間のデータウィンドウを分類した。 20名中6名に対して, 人別分類が可能であった。 このように、脳-コンピュータインタフェースの信頼性は、拡張現実アプリケーションに有用な入力メカニズムとして扱うのに十分である。

Augmented Reality is the fusion of virtual components and our real surroundings. The simultaneous visibility of generated and natural objects often requires users to direct their selective attention to a specific target that is either real or virtual. In this study, we investigated whether this target is real or virtual by using machine learning techniques to classify electroencephalograp hic (EEG) data collected in Augmented Reality scenarios. A shallow convolutional neural net classified 3 second data windows from 20 participants in a person-dependent manner with an average accuracy above 70\% if the testing data and training data came from different trials. Person-independent classification was possible above chance level for 6 out of 20 participants. Thus, the reliability of such a Brain-Computer Interface is high enough for it to be treated as a useful input mechanism for Augmented Reality applications.
翻訳日:2021-04-04 06:45:02 公開日:2021-01-12
# (参考訳) モバイルおよびwebアプリケーションのための境界対応セグメンテーションネットワーク [全文訳有]

Boundary-Aware Segmentation Network for Mobile and Web Applications ( http://arxiv.org/abs/2101.04704v1 )

ライセンス: CC BY 4.0
Xuebin Qin and Deng-Ping Fan and Chenyang Huang and Cyril Diagne and Zichen Zhang and Adri\`a Cabeza Sant'Anna and Albert Su\`arez and Martin Jagersand and Ling Shao(参考訳) 深層モデルは画像分割の精度とロバスト性を大幅に向上させたが、高精度な境界と微細構造を持つセグメンテーション結果を得ることは依然として課題である。 本稿では,予測再定義アーキテクチャとハイブリッド損失を含む,シンプルながら強力な境界認識セグメンテーションネットワーク(BASNet)を提案し,高精度な画像セグメンテーションを実現する。 予測再定義アーキテクチャは、分割確率マップの予測と精錬にそれぞれ使用される、密集した教師付きエンコーダ-デコーダネットワークと残留精細モジュールで構成される。 ハイブリッド損失は、二進的クロスエントロピー、構造的類似性、および交叉対ユニオン損失の組み合わせであり、ネットワークは3レベル(ピクセルレベル、パッチレベル、マップレベル)の階層表現を学習するよう誘導する。 我々は,有能なオブジェクトセグメンテーション,カモフラージュされたオブジェクトセグメンテーションを含む2つの逆タスクに対して,BASNetを評価し,鋭いセグメンテーション境界で非常に競争的な性能を実現することを示す。 重要な点として、BASNetは単一のGPU上で70fps以上で動作する。 basnetをベースにして、arコピー&ペースト(ar copy & paste)という2つの商用アプリケーションを開発し、basnetは現実世界のオブジェクトの「コピー」と「ペースト」のために拡張現実と統合され、オブジェクトの背景を自動的に除去するwebベースのツールであるobject cut(オブジェクトカット)を開発した。 どちらのアプリケーションもすでに多くの注目を集めており、現実世界に大きな影響を与えている。 コードと2つのアプリケーションは、https://github.com/N athanUA/BASNetで公開される。

Although deep models have greatly improved the accuracy and robustness of image segmentation, obtaining segmentation results with highly accurate boundaries and fine structures is still a challenging problem. In this paper, we propose a simple yet powerful Boundary-Aware Segmentation Network (BASNet), which comprises a predict-refine architecture and a hybrid loss, for highly accurate image segmentation. The predict-refine architecture consists of a densely supervised encoder-decoder network and a residual refinement module, which are respectively used to predict and refine a segmentation probability map. The hybrid loss is a combination of the binary cross entropy, structural similarity and intersection-over-un ion losses, which guide the network to learn three-level (ie, pixel-, patch- and map- level) hierarchy representations. We evaluate our BASNet on two reverse tasks including salient object segmentation, camouflaged object segmentation, showing that it achieves very competitive performance with sharp segmentation boundaries. Importantly, BASNet runs at over 70 fps on a single GPU which benefits many potential real applications. Based on BASNet, we further developed two (close to) commercial applications: AR COPY & PASTE, in which BASNet is integrated with augmented reality for "COPYING" and "PASTING" real-world objects, and OBJECT CUT, which is a web-based tool for automatic object background removal. Both applications have already drawn huge amount of attention and have important real-world impacts. The code and two applications will be publicly available at: https://github.com/N athanUA/BASNet.
翻訳日:2021-04-04 06:27:02 公開日:2021-01-12
# (参考訳) 対照的な自己教師付き学習を改善する明示的ホモグラフィ推定 [全文訳有]

Explicit homography estimation improves contrastive self-supervised learning ( http://arxiv.org/abs/2101.04713v1 )

ライセンス: CC BY 4.0
David Torpey and Richard Klein(参考訳) 典型的なコントラスト自己監督アルゴリズムは、正と負の画像を直接または間接的に対比して監督信号として潜時空間の類似度尺度を用いる。 自己教師付きアルゴリズムの実用性は近年改善されているが,計算処理など,その普及を妨げるボトルネックが依然として残っている。 本稿では,自己教師付きコントラスト学習パラダイムにおける追加目標としてのモジュールを提案する。 このモジュールをアフィン変換やホモグラフィーのパラメータに組み込むことによって、元のコントラスト目的に加えて、パフォーマンスと学習速度を向上することを示す。 重要なことは、この加群がアフィン変換の様々な成分に不変性を強制しないことを保証する。 本稿では,最近普及している2つの自己教師型アルゴリズムに対する追加目的の有効性を示す。 提案手法の広範な実験的解析を行い,検討した全てのデータセットの性能向上を示す。 さらに,一般ホモグラフィとアフィン変換はともに性能と収束性を改善するのに十分であるが,全ての場合においてアフィン変換は良好であることがわかった。

The typical contrastive self-supervised algorithm uses a similarity measure in latent space as the supervision signal by contrasting positive and negative images directly or indirectly. Although the utility of self-supervised algorithms has improved recently, there are still bottlenecks hindering their widespread use, such as the compute needed. In this paper, we propose a module that serves as an additional objective in the self-supervised contrastive learning paradigm. We show how the inclusion of this module to regress the parameters of an affine transformation or homography, in addition to the original contrastive objective, improves both performance and learning speed. Importantly, we ensure that this module does not enforce invariance to the various components of the affine transform, as this is not always ideal. We demonstrate the effectiveness of the additional objective on two recent, popular self-supervised algorithms. We perform an extensive experimental analysis of the proposed method and show an improvement in performance for all considered datasets. Further, we find that although both the general homography and affine transformation are sufficient to improve performance and convergence, the affine transformation performs better in all cases.
翻訳日:2021-04-04 05:51:41 公開日:2021-01-12
# (参考訳) リアルな微小地震事象のベイジアン後方推定を指向した高速機械学習 [全文訳有]

Towards fast machine-learning-ass isted Bayesian posterior inference of realistic microseismic events ( http://arxiv.org/abs/2101.04724v1 )

ライセンス: CC BY 4.0
Davide Piras, Alessio Spurio Mancini, Benjamin Joachimi, Michael P. Hobson(参考訳) 微小地震活動モニタリングに応用されたベイズ推定は、記録された地震計からの微小地震事象の座標とその関連する不確かさを原理的に推定することができる。 しかしながら、これらのマイクロ地震事象の前方モデリングは、ベイズ源の反転を行うのに必要であり、計算資源の面では極めて高価である。 実現可能な解決策は、機械学習技術に基づくサロゲートモデルをトレーニングし、前方モデルをエミュレートし、ベイズ推論を加速することだ。 本稿では,等方性モーメントテンソルのソースのみを考慮した先行研究について改善する。 記録された圧力波のパワースペクトルに基づいて機械学習アルゴリズムをトレーニングし、トレーニングされたエミュレータが$\textit{any}$ソースメカニズムのイベント座標の完全かつ高速な検索を可能にすることを示す。 さらに,本手法は商用ノートパソコン上で1時間未満で動作可能であり,トレーニング地震計10^4ドル以下で正確な結果が得られるため,計算コストが低いことを示す。 さらに,ベイズ証拠を推定することにより,トレーニングしたエミュレータを用いてソースメカニズムを同定する方法を実証する。 この研究は、記録された地震計の効率的な局所化と特徴付けの基礎を築き、地震活動に対する人間の影響を定量化し、地震の危険を軽減するのに役立つ。

Bayesian inference applied to microseismic activity monitoring allows for principled estimation of the coordinates of microseismic events from recorded seismograms, and their associated uncertainties. However, forward modelling of these microseismic events, necessary to perform Bayesian source inversion, can be prohibitively expensive in terms of computational resources. A viable solution is to train a surrogate model based on machine learning techniques, to emulate the forward model and thus accelerate Bayesian inference. In this paper, we improve on previous work, which considered only sources with isotropic moment tensor. We train a machine learning algorithm on the power spectrum of the recorded pressure wave and show that the trained emulator allows for the complete and fast retrieval of the event coordinates for $\textit{any}$ source mechanism. Moreover, we show that our approach is computationally inexpensive, as it can be run in less than 1 hour on a commercial laptop, while yielding accurate results using less than $10^4$ training seismograms. We additionally demonstrate how the trained emulators can be used to identify the source mechanism through the estimation of the Bayesian evidence. This work lays the foundations for the efficient localisation and characterisation of any recorded seismogram, thus helping to quantify human impact on seismic activity and mitigate seismic hazard.
翻訳日:2021-04-04 05:39:47 公開日:2021-01-12
# (参考訳) SEED:視覚表現のための自己教師型蒸留 [全文訳有]

SEED: Self-supervised Distillation For Visual Representation ( http://arxiv.org/abs/2101.04731v1 )

ライセンス: CC BY 4.0
Zhiyuan Fang, Jianfeng Wang, Lijuan Wang, Lei Zhang, Yezhou Yang, Zicheng Liu(参考訳) 本稿では,小型モデルの自己教師型学習について述べる。 この問題は,広範に使用されているコントラスト型自己教師付き学習手法が大規模モデルトレーニングにおいて大きな進歩を遂げているが,小モデルではうまく機能しないという経験的研究が動機である。 この問題に対処するため,我々はSelf-SupErvised Distillation (SEED)という新たな学習パラダイムを提案し,より大規模なネットワーク(教師として)を利用して,表現的知識をより小さなアーキテクチャ(学生として)に自己管理的に伝達する。 ラベルのないデータから直接学習する代わりに、教師が一連のインスタンスに対して推定する類似度スコア分布を模倣するように学生エンコーダを訓練する。 シードはダウンストリームタスクにおける小さなネットワークのパフォーマンスを劇的に向上させる。 自己監督ベースラインと比較して、SEEDはトップ1の精度を、EfficientNet-B0で42.2%から67.6%、ImageNet-1kデータセットでMobileNet-v3-Largeで36.3%から68.2%に改善している。

This paper is concerned with self-supervised learning for small models. The problem is motivated by our empirical studies that while the widely used contrastive self-supervised learning method has shown great progress on large model training, it does not work well for small models. To address this problem, we propose a new learning paradigm, named SElf-SupErvised Distillation (SEED), where we leverage a larger network (as Teacher) to transfer its representational knowledge into a smaller architecture (as Student) in a self-supervised fashion. Instead of directly learning from unlabeled data, we train a student encoder to mimic the similarity score distribution inferred by a teacher over a set of instances. We show that SEED dramatically boosts the performance of small networks on downstream tasks. Compared with self-supervised baselines, SEED improves the top-1 accuracy from 42.2% to 67.6% on EfficientNet-B0 and from 36.3% to 68.2% on MobileNet-v3-Large on the ImageNet-1k dataset.
翻訳日:2021-04-04 05:01:10 公開日:2021-01-12
# (参考訳) 運動計画を用いたブートストラップモータスキル学習 [全文訳有]

Bootstrapping Motor Skill Learning with Motion Planning ( http://arxiv.org/abs/2101.04736v1 )

ライセンス: CC BY 4.0
Ben Abbatematteo, Eric Rosen, Stefanie Tellex, George Konidaris(参考訳) ロボットモーターのスキルをスクラッチから学ぶのは非常に遅いので、実際に人間のデモから得られる優れたスキルポリシーを使って学習をブートストラップする必要がある。 しかし、人間の実演に頼ると、ロボットの自律性が低下し、運用期間を通じて様々なスキルを身につける必要がある。 物体操作のための運動スキル学習をブートストラップする、完全に自律的なサンプルとして運動計画を用いることを提案する。 本研究では,運動プランナーを用いて,動的運動プリミティブ表現を用いた引き出しの開閉と,ディープニューラルネットワークポリシによるマイクロ波ドアの開閉という,複雑な2つの操作シナリオにおいて,モータスキルのブートストラップを行う。 また,本手法では,静的なシーンを考慮に入れたキネマティック計画では,この課題を解決するには不十分であるが,よりダイナミックなポリシーをブートストラップするには十分であることを示す。 これら3例すべてにおいて,本手法は人為的な初期化と競合し,ランダムなポリシーから始めると著しく優れる。 このアプローチにより、ロボットは人間の実演なしに動的タスクの運動ポリシーを効率的かつ自律的に学習することができる。

Learning a robot motor skill from scratch is impractically slow; so much so that in practice, learning must be bootstrapped using a good skill policy obtained from human demonstration. However, relying on human demonstration necessarily degrades the autonomy of robots that must learn a wide variety of skills over their operational lifetimes. We propose using kinematic motion planning as a completely autonomous, sample efficient way to bootstrap motor skill learning for object manipulation. We demonstrate the use of motion planners to bootstrap motor skills in two complex object manipulation scenarios with different policy representations: opening a drawer with a dynamic movement primitive representation, and closing a microwave door with a deep neural network policy. We also show how our method can bootstrap a motor skill for the challenging dynamic task of learning to hit a ball off a tee, where a kinematic plan based on treating the scene as static is insufficient to solve the task, but sufficient to bootstrap a more dynamic policy. In all three cases, our method is competitive with human-demonstrated initialization, and significantly outperforms starting with a random policy. This approach enables robots to to efficiently and autonomously learn motor policies for dynamic tasks without human demonstration.
翻訳日:2021-04-04 04:36:19 公開日:2021-01-12
# (参考訳) 大規模拡張グランガー因果性を用いた機能MRIからの統合失調症の分類 [全文訳有]

Classification of Schizophrenia from Functional MRI Using Large-scale Extended Granger Causality ( http://arxiv.org/abs/2101.10471v1 )

ライセンス: CC BY 4.0
Axel Wism\"uller and M. Ali Vosoughi(参考訳) この文献は統合失調症が脳ネットワーク接続の変化と関連していることを示している。 本研究では, 大規模拡張グランガー因果性 (lsXGC) が静止状態fMRIデータを用いてこのような変化を捉えることができるか検討する。 本手法は,fMRI時系列間の有向因果関係を推定するための予測時系列モデルにおいて,ソース時系列の増大と合わせて次元削減を利用する。 lsXGCは、他のすべての時系列の存在下で、基礎となる動的システムとの関係を特定するため、多変量アプローチである。 ここでlsxgcは、cobre(center of biomedical research excellence)データリポジトリから62名の被験者のサブセットを使用して、統合失調症患者を典型的なコントロールから分類するためのバイオマーカーとして機能する。 分類の特徴としてlsxgcによって推定される脳結合を用いる。 特徴抽出後,kendallのtauランク相関係数による特徴抽出を行い,サポートベクターマシンを用いた分類を行った。 参考法として, 機能的接続性の標準尺度として文献で一般的に用いられる相互相関法と比較した。 我々は,100種類の異なるトレーニング/テスト (90%/10%) データを分割して平均精度と受信機動作特性曲線 (auc) 下の平均領域を得る。 その結果,lsXGCの平均精度範囲は[0.767,0.940],平均AUC範囲は[0.861,0.983]であった。 lsXGCの結果は, [0.721, 0.751] の平均精度と [0.744, 0.860] の平均 AUC との相互相関の結果よりも有意に高い。 統合失調症のバイオマーカーとしてのlsXGCの有用性が示唆された。

The literature manifests that schizophrenia is associated with alterations in brain network connectivity. We investigate whether large-scale Extended Granger Causality (lsXGC) can capture such alterations using resting-state fMRI data. Our method utilizes dimension reduction combined with the augmentation of source time-series in a predictive time-series model for estimating directed causal relationships among fMRI time-series. The lsXGC is a multivariate approach since it identifies the relationship of the underlying dynamic system in the presence of all other time-series. Here lsXGC serves as a biomarker for classifying schizophrenia patients from typical controls using a subset of 62 subjects from the Centers of Biomedical Research Excellence (COBRE) data repository. We use brain connections estimated by lsXGC as features for classification. After feature extraction, we perform feature selection by Kendall's tau rank correlation coefficient followed by classification using a support vector machine. As a reference method, we compare our results with cross-correlation, typically used in the literature as a standard measure of functional connectivity. We cross-validate 100 different training/test (90%/10%) data split to obtain mean accuracy and a mean Area Under the receiver operating characteristic Curve (AUC) across all tested numbers of features for lsXGC. Our results demonstrate a mean accuracy range of [0.767, 0.940] and a mean AUC range of [0.861, 0.983] for lsXGC. The result of lsXGC is significantly higher than the results obtained with the cross-correlation, namely mean accuracy of [0.721, 0.751] and mean AUC of [0.744, 0.860]. Our results suggest the applicability of lsXGC as a potential biomarker for schizophrenia.
翻訳日:2021-04-04 04:21:57 公開日:2021-01-12
# (参考訳) 顔のスプーフィング検出のためのコンパクトなディープラーニングモデル [全文訳有]

A Compact Deep Learning Model for Face Spoofing Detection ( http://arxiv.org/abs/2101.04756v1 )

ライセンス: CC BY 4.0
Seyedkooshan Hashemifard and Mohammad Akbari(参考訳) 近年,顔バイオメトリック・セキュリティシステムが急速に普及しているため,プレゼンテーションアタック検出(PAD)は研究コミュニティから注目され,主要な研究分野となっている。 研究者は、lpp、bsif、lpqなどの従来のテクスチャ特徴抽出の活用から、異なるアーキテクチャのディープニューラルネットワークの利用まで、様々な方法でこの問題に取り組んでいる。 これらの技術は特定の攻撃シナリオやデータセットに対してそれぞれ達成されているが、その効率は特定の種類のプレゼンテーションアタックや機器(PAI)に限られているため、そのほとんどが目に見えない条件の問題を一般化できなかった。 本稿では,手作りのテクスチャ特徴を完全に抽出したり,深層ニューラルネットワークにのみ依存するのではなく,広部と深部の両方を統合型ニューラルネットワークアーキテクチャで融合することで,この問題に対処する。 主なアイデアは、両方の方法の強みを生かして、問題に対するよく一般化された解決策を導出することである。 また,提案手法をそれぞれ別々に比較することにより,本手法の有効性を評価した。 この手順は、ROSE-Youtu、SiW、NUAA Imposterデータセットなど、さまざまなスプーフィングデータセットで実行される。 特に,スプーフィング検出タスク(ディープチャネル)のための畳み込みニューラルネットワーク設計を通じて学習したデータ駆動型特徴を応用した低次元潜在空間を同時学習し,スプーフィング検出機能を利用した周波数・時間次元(ワイドチャネル)のスプーフィング検出機能を活用する。

In recent years, face biometric security systems are rapidly increasing, therefore, the presentation attack detection (PAD) has received significant attention from research communities and has become a major field of research. Researchers have tackled the problem with various methods, from exploiting conventional texture feature extraction such as LBP, BSIF, and LPQ to using deep neural networks with different architectures. Despite the results each of these techniques has achieved for a certain attack scenario or dataset, most of them still failed to generalized the problem for unseen conditions, as the efficiency of each is limited to certain type of presentation attacks and instruments (PAI). In this paper, instead of completely extracting hand-crafted texture features or relying only on deep neural networks, we address the problem via fusing both wide and deep features in a unified neural architecture. The main idea is to take advantage of the strength of both methods to derive well-generalized solution for the problem. We also evaluated the effectiveness of our method by comparing the results with each of the mentioned techniques separately. The procedure is done on different spoofing datasets such as ROSE-Youtu, SiW and NUAA Imposter datasets. In particular, we simultanously learn a low dimensional latent space empowered with data-driven features learnt via Convolutional Neural Network designes for spoofing detection task (i.e., deep channel) as well as leverages spoofing detection feature already popular for spoofing in frequency and temporal dimensions ( i.e., via wide channel).
翻訳日:2021-04-04 04:09:29 公開日:2021-01-12
# (参考訳) 基数評価と順序評価の合同集約と学生用紙コンテストへの応用 [全文訳有]

Joint aggregation of cardinal and ordinal evaluations with an application to a student paper competition ( http://arxiv.org/abs/2101.04765v1 )

ライセンス: CC BY 4.0
Dorit S. Hochbaum and Erick Moreno-Centeno(参考訳) 決定論における重要な問題は、個々のランク/レーティングを集団評価に集約することである。 2007 MSOMの学生論文コンペティションにおける新たな集約手法について述べる。 この競争における集合問題は2つの課題をもたらす。 第一に、各論文は裁判官のごくわずかな部分でのみレビューされ、その結果、総合評価は裁判官が選択した主観的な尺度に非常に敏感である。 第二に、裁判官は審査した論文の基数評価と順序評価(格付けとランク付け)の両方を提供した。 ここでの貢献は、順序と基数の評価を共同で総合評価に集約する新しい堅牢な方法論である。 この方法論は、不完全な評価の場合、すなわち、個人がオブジェクトの厳密なサブセットのみを評価する場合に特に適しています。 このアプローチは、大規模なプロジェクトや複数の優先順位を含む資本予算からプロジェクトを選択する委員会による管理的意思決定の問題において、潜在的に有用である。

An important problem in decision theory concerns the aggregation of individual rankings/ratings into a collective evaluation. We illustrate a new aggregation method in the context of the 2007 MSOM's student paper competition. The aggregation problem in this competition poses two challenges. Firstly, each paper was reviewed only by a very small fraction of the judges; thus the aggregate evaluation is highly sensitive to the subjective scales chosen by the judges. Secondly, the judges provided both cardinal and ordinal evaluations (ratings and rankings) of the papers they reviewed. The contribution here is a new robust methodology that jointly aggregates ordinal and cardinal evaluations into a collective evaluation. This methodology is particularly suitable in cases of incomplete evaluations -- i.e., when the individuals evaluate only a strict subset of the objects. This approach is potentially useful in managerial decision making problems by a committee selecting projects from a large set or capital budgeting involving multiple priorities.
翻訳日:2021-04-04 03:14:51 公開日:2021-01-12
# (参考訳) DuctTake:時空間ビデオ合成 [全文訳有]

DuctTake: Spatiotemporal Video Compositing ( http://arxiv.org/abs/2101.04772v1 )

ライセンス: CC BY 4.0
Jan Rueegg, Oliver Wang, Aljoscha Smolic, Markus Gross(参考訳) DuctTakeは、シーンの複数のテイクを単一のビデオに実用的な合成を可能にするように設計されたシステムである。 現在の業界ソリューションはオブジェクトセグメンテーション(オブジェクトセグメンテーション)に基づいており、手動入力とクリーンアップを必要とする難しい問題であり、フィルム製造プロセスの高価な部分を構成する。 そこで本手法では,映像の体積を3次元グラフで補正し,最適な時空間シームを合成する。 我々は,hd動画を合成するインタラクティブなツールとして,各セクションの実行時間と性能に特に注意を払いながら,必要なコンポーネント,決定,新しいテクニックを詳細に説明する。 我々は,幅広い実例を提示し,現在最先端のツールを用いて,プロのアーティストが作成した複合作品と結果品質と作成時間を比較することにより,このアプローチを検証する。

DuctTake is a system designed to enable practical compositing of multiple takes of a scene into a single video. Current industry solutions are based around object segmentation, a hard problem that requires extensive manual input and cleanup, making compositing an expensive part of the film-making process. Our method instead composites shots together by finding optimal spatiotemporal seams using motion-compensated 3D graph cuts through the video volume. We describe in detail the required components, decisions, and new techniques that together make a usable, interactive tool for compositing HD video, paying special attention to running time and performance of each section. We validate our approach by presenting a wide variety of examples and by comparing result quality and creation time to composites made by professional artists using current state-of-the-art tools.
翻訳日:2021-04-04 02:58:59 公開日:2021-01-12
# (参考訳) 音声駆動サービスにおける実践的音声再使用防止 [全文訳有]

Practical Speech Re-use Prevention in Voice-driven Services ( http://arxiv.org/abs/2101.04773v1 )

ライセンス: CC BY 4.0
Yangyong Zhang, Maliheh Shirvanian, Sunpreet S. Arora, Jianwei Huang, and Guofei Gu(参考訳) 音声駆動サービス(VDS)は、スマートホームコントロールからデジタルアシスタントを使った支払いまで、さまざまなアプリケーションで使用されている。 このようなサービスへの入力は、オープンな音声チャンネル、例えばマイクを使って、教師なしの設定でキャプチャされることが多い。 このような設定における運用上のセキュリティ要件の1つは、入力音声の鮮度である。 本稿では,ユーザインタラクション時に動的音響ノイズを積極的に埋め込んだセキュリティオーバーレイであるAEOLUSについて述べる。 音響ノイズは, (i) 確実に組込み, 取り出しが可能であり, (ii) 非破壊的 (かつ, 不可避) なvdsユーザであることを示す。 実用的観点から、(i)および(ii)に対して最適なパラメータ(音響ナンスの動作周波数、振幅、ビットレート)を決定する。 実験の結果,AEOLUSは背景雑音レベルが異なる3つの実環境において,音声の再使用防止のために0% FARで0.5%FRRを得ることがわかった。 また,120名の被験者によるユーザ調査を行い,これらの環境では,94.16%の音声サンプルにおいて,全体のユーザエクスペリエンスが低下しないことを示した。 そのため、AEOLUSは音声の再使用を防止し、音声入力の鮮度を確保するために実際に使用することができる。

Voice-driven services (VDS) are being used in a variety of applications ranging from smart home control to payments using digital assistants. The input to such services is often captured via an open voice channel, e.g., using a microphone, in an unsupervised setting. One of the key operational security requirements in such setting is the freshness of the input speech. We present AEOLUS, a security overlay that proactively embeds a dynamic acoustic nonce at the time of user interaction, and detects the presence of the embedded nonce in the recorded speech to ensure freshness. We demonstrate that acoustic nonce can (i) be reliably embedded and retrieved, and (ii) be non-disruptive (and even imperceptible) to a VDS user. Optimal parameters (acoustic nonce's operating frequency, amplitude, and bitrate) are determined for (i) and (ii) from a practical perspective. Experimental results show that AEOLUS yields 0.5% FRR at 0% FAR for speech re-use prevention upto a distance of 4 meters in three real-world environments with different background noise levels. We also conduct a user study with 120 participants, which shows that the acoustic nonce does not degrade overall user experience for 94.16% of speech samples, on average, in these environments. AEOLUS can therefore be used in practice to prevent speech re-use and ensure the freshness of speech input.
翻訳日:2021-04-04 02:42:29 公開日:2021-01-12
# (参考訳) マルチエージェントmdpのためのスケーラブルなanytime planning [全文訳有]

Scalable Anytime Planning for Multi-Agent MDPs ( http://arxiv.org/abs/2101.04788v1 )

ライセンス: CC BY 4.0
Shushman Choudhury, Jayesh K. Gupta, Peter Morales, Mykel J. Kochenderfer(参考訳) 動的協調を必要とする大規模マルチエージェントシーケンシャル決定問題に対して,スケーラブルな木探索計画アルゴリズムを提案する。 エージェントのチームは多くのドメインで決定をコーディネートする必要があるが、単純なアプローチはエージェントの数と共同アクション空間が指数関数的に増加するために失敗する。 私たちはこの複雑さを、近似品質と動的に協調する動作のために計算を交換できるanytimeアプローチを通じて回避します。 提案アルゴリズムは,モンテカルロ木探索 (MCTS) を用いたオンライン計画,協調グラフを用いた局所エージェント相互作用の因子表現,および協調行動選択のための反復マックスプラス法からなる。 我々は,静的コーディネーショングラフを用いたベンチマークSysAdminのアプローチを評価し,MCTSベースラインよりも計算コストがはるかに低い性能を実現する。 また,動的,すなわち状態依存のコーディネーショングラフを持つマルチドローン配送ドメインを導入し,我々のアプローチが,他のmctsメソッドでは難解なこの領域の大きな問題にどのようにスケールするかを実証する。 我々はこのアルゴリズムのオープンソース実装をhttps://github.com/J uliaPOMDP/FactoredVa lueMCTS.jlで公開しています。

We present a scalable tree search planning algorithm for large multi-agent sequential decision problems that require dynamic collaboration. Teams of agents need to coordinate decisions in many domains, but naive approaches fail due to the exponential growth of the joint action space with the number of agents. We circumvent this complexity through an anytime approach that allows us to trade computation for approximation quality and also dynamically coordinate actions. Our algorithm comprises three elements: online planning with Monte Carlo Tree Search (MCTS), factored representations of local agent interactions with coordination graphs, and the iterative Max-Plus method for joint action selection. We evaluate our approach on the benchmark SysAdmin domain with static coordination graphs and achieve comparable performance with much lower computation cost than our MCTS baselines. We also introduce a multi-drone delivery domain with dynamic, i.e., state-dependent coordination graphs, and demonstrate how our approach scales to large problems on this domain that are intractable for other MCTS methods. We provide an open-source implementation of our algorithm at https://github.com/J uliaPOMDP/FactoredVa lueMCTS.jl.
翻訳日:2021-04-04 02:25:43 公開日:2021-01-12
# インスタント適応のための線形表現メタ強化学習

Linear Representation Meta-Reinforcement Learning for Instant Adaptation ( http://arxiv.org/abs/2101.04750v1 )

ライセンス: Link先を確認
Matt Peng, Banghua Zhu, Jiantao Jiao(参考訳) 本稿では,Fast Linearized Adaptive Policy (FLAP)について紹介する。これは,学習中のデータ再利用を必要とせず,かつ,テスト中のサンプル数個だけでほぼ瞬時に適応できる,新しいメタ強化学習(meta-RL)手法である。 FLAPは方針の共有線形表現を学習するアイデアに基づいており、新しいタスクに適応すると、線形重みの集合を予測するのに十分である。 適応中は、MAMLのような従来のメタRL法のように勾配勾配を更新する代わりに、アダプティブネットワークを用いてこれらの線形重み付けを予測することで、新しいポリシーを得られるように、個別のアダプタネットワークを同時に訓練する。 異なるフィードフォワードネットワークの応用は、適応実行時間を著しく高速化するだけでなく、以前のMeta-RLメソッドでは一般化できなかった非常に異なるタスクに非常によく一般化する。 標準の連続制御メタrlベンチマーク実験では、flapは平均リターンを最大2倍にし、以前の方法と比較して最大8倍高速に適応した実行時間速度を示す。

This paper introduces Fast Linearized Adaptive Policy (FLAP), a new meta-reinforcement learning (meta-RL) method that is able to extrapolate well to out-of-distribution tasks without the need to reuse data from training, and adapt almost instantaneously with the need of only a few samples during testing. FLAP builds upon the idea of learning a shared linear representation of the policy so that when adapting to a new task, it suffices to predict a set of linear weights. A separate adapter network is trained simultaneously with the policy such that during adaptation, we can directly use the adapter network to predict these linear weights instead of updating a meta-policy via gradient descent, such as in prior meta-RL methods like MAML, to obtain the new policy. The application of the separate feed-forward network not only speeds up the adaptation run-time significantly, but also generalizes extremely well to very different tasks that prior Meta-RL methods fail to generalize to. Experiments on standard continuous-control meta-RL benchmarks show FLAP presenting significantly stronger performance on out-of-distribution tasks with up to double the average return and up to 8X faster adaptation run-time speeds when compared to prior methods.
翻訳日:2021-04-04 01:55:07 公開日:2021-01-12
# 文脈問題:手話認識のための自己認識

Context Matters: Self-Attention for Sign Language Recognition ( http://arxiv.org/abs/2101.04632v1 )

ライセンス: Link先を確認
Fares Ben Slimane and Mohamed Bouguessa(参考訳) 本稿では,連続手話認識のための注意ネットワークを提案する。 提案手法は,手話のモダリティをモデル化するために,共依存データストリームを利用する。 これらの異なる情報チャネルは、互いに複雑な時間構造を共有することができる。 そのため、私たちは同期に注意を払い、異なる手話コンポーネント間の絡み合った依存関係を捉えるのに役立ちます。 手話はマルチチャネルであるにもかかわらず、手形は手話解釈の中心的な実体を表す。 正しい文脈で手形を見ることは、記号の意味を定義する。 これを考慮し、注意機構を用いて、手の特徴を適切な時空間で効率的に集約し、より優れた手話認識を実現する。 これによってモデルは、支配的な手と顔の領域を中心に回転する重要な手話コンポーネントを識別できることが分かりました。 ベンチマークデータセットであるRWTH-PHOENIX-Weather 2014でテストを行い、競争結果を得た。

This paper proposes an attentional network for the task of Continuous Sign Language Recognition. The proposed approach exploits co-independent streams of data to model the sign language modalities. These different channels of information can share a complex temporal structure between each other. For that reason, we apply attention to synchronize and help capture entangled dependencies between the different sign language components. Even though Sign Language is multi-channel, handshapes represent the central entities in sign interpretation. Seeing handshapes in their correct context defines the meaning of a sign. Taking that into account, we utilize the attention mechanism to efficiently aggregate the hand features with their appropriate spatio-temporal context for better sign recognition. We found that by doing so the model is able to identify the essential Sign Language components that revolve around the dominant hand and the face areas. We test our model on the benchmark dataset RWTH-PHOENIX-Weather 2014, yielding competitive results.
翻訳日:2021-04-04 01:54:42 公開日:2021-01-12
# ビデオ感性分析のための量子認知型決定融合

Quantum Cognitively Motivated Decision Fusion for Video Sentiment Analysis ( http://arxiv.org/abs/2101.04406v1 )

ライセンス: Link先を確認
Dimitris Gkoumas, Qiuchi Li, Shahram Dehdashti, Massimo Melucci, Yijun Yu, Dawei Song(参考訳) 意思決定プロセスとしての映像感情分析は本質的に複雑であり、複数のモダリティからの意思決定の融合や、いわゆる認知バイアスが伴う。 量子認知の最近の進歩に触発されて、あるモダリティからの感情判断が他のモダリティの判断と相容れないこと、すなわち秩序が問題であり、最終的な決定を下すために共同で測定できないことを示す。 したがって、認知過程は古典的確率論では捉えられない「量子的」バイアスを示す。 そこで本研究では,感情判断予測のための新しい量子認知的融合戦略を提案する。 特に、正および負の感性判断の量子重ね合わせ状態として発話を定式化し、一様分類器を相互に相反する可観測量として、正の演算値測度を持つ複素数値ヒルベルト空間上で定式化する。 2つのベンチマークデータセットの実験は、我々のモデルが既存の決定レベルと最先端のコンテンツレベルの融合アプローチを大きく上回っていることを示している。 また,不整合性の概念は,すべてのユニモーダル分類器によって誤って予測される極端な事例を含む,すべての組み合わせパターンを効果的に扱えることを示す。

Video sentiment analysis as a decision-making process is inherently complex, involving the fusion of decisions from multiple modalities and the so-caused cognitive biases. Inspired by recent advances in quantum cognition, we show that the sentiment judgment from one modality could be incompatible with the judgment from another, i.e., the order matters and they cannot be jointly measured to produce a final decision. Thus the cognitive process exhibits "quantum-like" biases that cannot be captured by classical probability theories. Accordingly, we propose a fundamentally new, quantum cognitively motivated fusion strategy for predicting sentiment judgments. In particular, we formulate utterances as quantum superposition states of positive and negative sentiment judgments, and uni-modal classifiers as mutually incompatible observables, on a complex-valued Hilbert space with positive-operator valued measures. Experiments on two benchmarking datasets illustrate that our model significantly outperforms various existing decision level and a range of state-of-the-art content-level fusion approaches. The results also show that the concept of incompatibility allows effective handling of all combination patterns, including those extreme cases that are wrongly predicted by all uni-modal classifiers.
翻訳日:2021-04-04 01:54:30 公開日:2021-01-12
# マルチモーダルレシピにおける手続き的概念の潜在アライメント

Latent Alignment of Procedural Concepts in Multimodal Recipes ( http://arxiv.org/abs/2101.04727v1 )

ライセンス: Link先を確認
Hossein Rajaby Faghihi, Roshanak Mirzaee, Sudarshan Paliwal, and Parisa Kordjamshidi(参考訳) 本稿では、新たにリリースされたマルチモーダルQAデータセットRecipeQAの手続き的推論を扱うための新しいアライメント機構を提案する。 私たちのモデルは,画像と指示を含むレシピの読み解き理解であるテキストクローゼタスクを解決している。 我々は,アテンションネットワーク,クロスモーダル表現,命令と候補回答間の潜在アライメント空間のパワーを活用し,この問題を解決した。 本稿では,アライメント行列の最大プーリング操作を洗練し,モデルの出力間に不一致な制約を課す制約付きマックスプーリングを提案する。 評価の結果,ベースラインに対して19-%改善が見られた。

We propose a novel alignment mechanism to deal with procedural reasoning on a newly released multimodal QA dataset, named RecipeQA. Our model is solving the textual cloze task which is a reading comprehension on a recipe containing images and instructions. We exploit the power of attention networks, cross-modal representations, and a latent alignment space between instructions and candidate answers to solve the problem. We introduce constrained max-pooling which refines the max-pooling operation on the alignment matrix to impose disjoint constraints among the outputs of the model. Our evaluation result indicates a 19\% improvement over the baselines.
翻訳日:2021-04-04 01:53:52 公開日:2021-01-12
# UFA-FUSE:多焦点画像融合のための新しい深層教師付きハイブリッドモデル

UFA-FUSE: A novel deep supervised and hybrid model for multi-focus image fusion ( http://arxiv.org/abs/2101.04506v1 )

ライセンス: Link先を確認
Yongsheng Zang, Dongming Zhou, Changcheng Wang, Rencan Nie, and Yanbu Guo(参考訳) 従来の深層学習に基づく融合法は中間決定マップを生成し、一連の後処理手順を通じて融合画像を得る。 しかし、これらの方法で生成された融合結果は、ソースイメージの詳細や成果物を失うことは容易である。 ディープラーニングに基づく画像再構成技術に着想を得て,これらの課題をエンドツーエンドかつ教師付き学習方法で解決するために,ポストプロセッシングを伴わないマルチフォーカス画像融合ネットワークフレームワークを提案する。 融合モデルを十分に訓練するために,地上融合画像を用いた大規模マルチフォーカス画像データセットを作成した。 さらに,より情報的な融合画像を得るために,チャネルアテンションモジュールと空間アテンションモジュールから構成されるユニタリフュージョンアテンションに基づく新しい融合戦略を設計した。 具体的には,提案手法は主に特徴抽出,特徴融合,画像再構成の3つの要素からなる。 まず,7つの畳み込みブロックを用いて画像の特徴を抽出する。 そして, 抽出した畳み込み特性を, 特徴融合層の融合戦略により融合させる。 最後に、融合画像の特徴を4つの畳み込みブロックで再構成する。 実験の結果, 提案手法は19の最先端融合法と比較して, 優れた核融合性能が得られることがわかった。

Traditional and deep learning-based fusion methods generated the intermediate decision map to obtain the fusion image through a series of post-processing procedures. However, the fusion results generated by these methods are easy to lose some source image details or results in artifacts. Inspired by the image reconstruction techniques based on deep learning, we propose a multi-focus image fusion network framework without any post-processing to solve these problems in the end-to-end and supervised learning way. To sufficiently train the fusion model, we have generated a large-scale multi-focus image dataset with ground-truth fusion images. What's more, to obtain a more informative fusion image, we further designed a novel fusion strategy based on unity fusion attention, which is composed of a channel attention module and a spatial attention module. Specifically, the proposed fusion approach mainly comprises three key components: feature extraction, feature fusion and image reconstruction. We firstly utilize seven convolutional blocks to extract the image features from source images. Then, the extracted convolutional features are fused by the proposed fusion strategy in the feature fusion layer. Finally, the fused image features are reconstructed by four convolutional blocks. Experimental results demonstrate that the proposed approach for multi-focus image fusion achieves remarkable fusion performance compared to 19 state-of-the-art fusion methods.
翻訳日:2021-04-04 01:53:40 公開日:2021-01-12
# 意味的特徴から物体間の相対的深さの予測

Predicting Relative Depth between Objects from Semantic Features ( http://arxiv.org/abs/2101.04626v1 )

ライセンス: Link先を確認
Stefan Cassar, Adrian Muscat, Dylan Seychell(参考訳) 視覚関係検出や視覚的質問応答といった視覚および言語タスクは、言語を適切に接地できる意味的特徴から恩恵を受ける。 2次元画像で描かれた物体の3次元深度はそのような特徴である。 しかし,シーン依存の適切な特徴を学習することなく正確な深度情報を得るのは難しい。 この領域における技術の現状は、ステレオ画像データに基づいて訓練された複雑なニューラルネットワークモデルであり、ピクセルごとの深さを予測する。 幸いなことに、いくつかのタスクでは、必要なオブジェクト間の相対的な深さのみである。 本稿では,意味的特徴がコース相対深さを予測できる程度について検討する。 この問題を分類として、オブジェクト境界ボックスに基づく幾何学的特徴として、オブジェクトラベルとシーン属性を計算し、パターン認識モデルの入力として使用して相対深さを予測する。 後ろに、正面に、中立に。 結果は,最先端技術を表すモノデプスニューラルネットワークモデルの出力を平均化した結果と比較する。 モノディープスモデルから計算した相対深度に対する相対深度精度の14%の総合的な増加が達成された。

Vision and language tasks such as Visual Relation Detection and Visual Question Answering benefit from semantic features that afford proper grounding of language. The 3D depth of objects depicted in 2D images is one such feature. However it is very difficult to obtain accurate depth information without learning the appropriate features, which are scene dependent. The state of the art in this area are complex Neural Network models trained on stereo image data to predict depth per pixel. Fortunately, in some tasks, its only the relative depth between objects that is required. In this paper the extent to which semantic features can predict course relative depth is investigated. The problem is casted as a classification one and geometrical features based on object bounding boxes, object labels and scene attributes are computed and used as inputs to pattern recognition models to predict relative depth. i.e behind, in-front and neutral. The results are compared to those obtained from averaging the output of the monodepth neural network model, which represents the state-of-the art. An overall increase of 14% in relative depth accuracy over relative depth computed from the monodepth model derived results is achieved.
翻訳日:2021-04-04 01:53:22 公開日:2021-01-12
# 高精細画像合成のための高速安定化GAN訓練に向けて

Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis ( http://arxiv.org/abs/2101.04775v1 )

ライセンス: Link先を確認
Bingchen Liu, Yizhe Zhu, Kunpeng Song, Ahmed Elgammal(参考訳) 高忠実度画像に対するGAN(Generative Adversarial Networks)のトレーニングは通常、大規模なGPUクラスタと大量のトレーニングイメージを必要とする。 本稿では,最小計算コストでganの少数ショット画像合成タスクについて検討する。 1024*1024の解像度で優れた品質が得られる軽量gan構造を提案する。 特に、モデルは1つのRTX-2080 GPUでわずか数時間のトレーニングでゼロから収束し、100以下のトレーニングサンプルでも一貫したパフォーマンスを持つ。 機能エンコーダとして訓練されたスキップ層チャネル方向励振モジュールと自己教師付き判別器である。 さまざまなイメージドメインをカバーする13のデータセット(データセットとコードはhttps://github.com/o degeasslbc/fastgan-p ytorchで利用可能)では、データとコンピューティング予算が限られている場合、最先端のstylegan2よりも優れたパフォーマンスを示しています。

Training Generative Adversarial Networks (GAN) on high-fidelity images usually requires large-scale GPU-clusters and a vast number of training images. In this paper, we study the few-shot image synthesis task for GAN with minimum computing cost. We propose a light-weight GAN structure that gains superior quality on 1024*1024 resolution. Notably, the model converges from scratch with just a few hours of training on a single RTX-2080 GPU, and has a consistent performance, even with less than 100 training samples. Two technique designs constitute our work, a skip-layer channel-wise excitation module and a self-supervised discriminator trained as a feature-encoder. With thirteen datasets covering a wide variety of image domains (The datasets and code are available at: https://github.com/o degeasslbc/FastGAN-p ytorch), we show our model's superior performance compared to the state-of-the-art StyleGAN2, when data and computing budget are limited.
翻訳日:2021-04-04 01:53:05 公開日:2021-01-12
# オンライン旅行目的地予測のための統一フレームワーク

A Unified Framework for Online Trip Destination Prediction ( http://arxiv.org/abs/2101.04520v1 )

ライセンス: Link先を確認
Victor Eberstein, Jonas Sj\"oblom, Nikolce Murgovski, Morteza Haghir Chehreghani(参考訳) 旅行先予測は、旅行計画、自動運転、電気自動車など、多くのアプリケーションで重要性を増している分野である。 この問題は、データがシーケンシャルな方法で到着するオンライン学習パラダイムで自然に解決することができるが、研究の大半はむしろオフライン設定だと考えている。 本稿では,オンライントレーニングとオンライン予測の両方に適したオンライン環境での旅行先予測の統一フレームワークを提案する。 この目的のために,2つのクラスタリングアルゴリズムを開発し,この問題に対する2つのオンライン予測モデルに統合する。 実世界のデータセットにおけるクラスタリングアルゴリズムと予測モデルの異なる構成について検討する。 従来のクラスタリングのメトリクスと精度を用いて、クラスタリングとフレームワーク全体がオフライン環境と比べて一貫した結果をもたらすことを実証する。 最後に、オフラインのフレームワークと比較し、オンラインフレームワーク全体を評価するための新しい後悔の指標を提案する。 このメトリックにより、誤った予測のソースをクラスタリングまたは予測モデルのいずれかに関連付けることができる。 このメトリックを用いて,提案手法が真の分布に類似した確率分布に収束し,ベースラインのすべてよりも低い後悔を味わうことを示す。

Trip destination prediction is an area of increasing importance in many applications such as trip planning, autonomous driving and electric vehicles. Even though this problem could be naturally addressed in an online learning paradigm where data is arriving in a sequential fashion, the majority of research has rather considered the offline setting. In this paper, we present a unified framework for trip destination prediction in an online setting, which is suitable for both online training and online prediction. For this purpose, we develop two clustering algorithms and integrate them within two online prediction models for this problem. We investigate the different configurations of clustering algorithms and prediction models on a real-world dataset. By using traditional clustering metrics and accuracy, we demonstrate that both the clustering and the entire framework yield consistent results compared to the offline setting. Finally, we propose a novel regret metric for evaluating the entire online framework in comparison to its offline counterpart. This metric makes it possible to relate the source of erroneous predictions to either the clustering or the prediction model. Using this metric, we show that the proposed methods converge to a probability distribution resembling the true underlying distribution and enjoy a lower regret than all of the baselines.
翻訳日:2021-04-04 01:52:27 公開日:2021-01-12
# ベンチマークシミュレーションに基づく推論

Benchmarking Simulation-Based Inference ( http://arxiv.org/abs/2101.04653v1 )

ライセンス: Link先を確認
Jan-Matthis Lueckmann, Jan Boelts, David S. Greenberg, Pedro J. Gon\c{c}alves, Jakob H. Macke(参考訳) 確率的モデリングの最近の進歩は、確率の数値的評価を必要としない多くのシミュレーションに基づく推論アルゴリズムを生み出した。 しかし、このような'likelihood-free' ;アルゴリズムに適切なパフォーマンス指標を持つ公開ベンチマークは欠落している。 これにより、アルゴリズムの比較と、その強みと弱みの特定が難しくなった。 私たちは、推論タスクと適切なパフォーマンスメトリクスを備えたベンチマークを提供し、ニューラルネットワークと古典的な近似ベイズ計算手法を用いた最近のアプローチを含むアルゴリズムを初期選択します。 性能指標の選択は重要であり、最先端のアルゴリズムでさえ改善の余地があり、逐次推定によりサンプリング効率が向上することがわかった。 ニューラルネットワークベースのアプローチは一般的にパフォーマンスが向上するが、一様に最適なアルゴリズムはない。 我々は,問題を診断し,アルゴリズムを改善するためのベンチマークの可能性を強調し,実践的なアドバイスを提供する。 結果はコンパニオンwebサイトでインタラクティブに探すことができる。 すべてのコードはオープンソースであり、さらなるベンチマークタスクと推論アルゴリズムに貢献することができる。

Recent advances in probabilistic modelling have led to a large number of simulation-based inference algorithms which do not require numerical evaluation of likelihoods. However, a public benchmark with appropriate performance metrics for such 'likelihood-free' ; algorithms has been lacking. This has made it difficult to compare algorithms and identify their strengths and weaknesses. We set out to fill this gap: We provide a benchmark with inference tasks and suitable performance metrics, with an initial selection of algorithms including recent approaches employing neural networks and classical Approximate Bayesian Computation methods. We found that the choice of performance metric is critical, that even state-of-the-art algorithms have substantial room for improvement, and that sequential estimation improves sample efficiency. Neural network-based approaches generally exhibit better performance, but there is no uniformly best algorithm. We provide practical advice and highlight the potential of the benchmark to diagnose problems and improve algorithms. The results can be explored interactively on a companion website. All code is open source, making it possible to contribute further benchmark tasks and inference algorithms.
翻訳日:2021-04-04 01:52:12 公開日:2021-01-12
# コミュニケーションのためのモデルベース機械学習

Model-Based Machine Learning for Communications ( http://arxiv.org/abs/2101.04726v1 )

ライセンス: Link先を確認
Nir Shlezinger, Nariman Farsad, Yonina C. Eldar, and Andrea J. Goldsmith(参考訳) 本稿では,コミュニケーションシステムのためのモデルベース機械学習について紹介する。 まず、モデルベースアルゴリズムと機械学習を組み合わせる既存の戦略を高レベルの観点から見直し、エンドツーエンドでトレーニングされた確立されたディープニューラルネットワーク(DNN)アーキテクチャを利用した従来のディープラーニングアプローチと比較する。 次に,通信受信機の基本的なタスクの一つであるシンボル検出に注目する。 本稿では,従来のディープアーキテクチャ,ディープ展開,DNN支援ハイブリッドアルゴリズムの異なる戦略が,この問題にどのように適用できるかを示す。 最後の2つのアプローチは、純粋にモデルベースとdnnベースのレシーバーの中間に位置する。 この特定のタスクに注目することで,各戦略の利点と欠点を強調し,コミュニケーションのためのモデルベース深層学習システムの設計を容易にするためのガイドラインを提案する。

We present an introduction to model-based machine learning for communication systems. We begin by reviewing existing strategies for combining model-based algorithms and machine learning from a high level perspective, and compare them to the conventional deep learning approach which utilizes established deep neural network (DNN) architectures trained in an end-to-end manner. Then, we focus on symbol detection, which is one of the fundamental tasks of communication receivers. We show how the different strategies of conventional deep architectures, deep unfolding, and DNN-aided hybrid algorithms, can be applied to this problem. The last two approaches constitute a middle ground between purely model-based and solely DNN-based receivers. By focusing on this specific task, we highlight the advantages and drawbacks of each strategy, and present guidelines to facilitate the design of future model-based deep learning systems for communications.
翻訳日:2021-04-04 01:51:46 公開日:2021-01-12
# CleftNet:脳電子顕微鏡によるシナプス下肢検出のための深層学習

CleftNet: Augmented Deep Learning for Synaptic Cleft Detection from Brain Electron Microscopy ( http://arxiv.org/abs/2101.04266v1 )

ライセンス: Link先を確認
Yi Liu, Shuiwang Ji(参考訳) シナプス裂の検出はシナプスの生物学的機能を調べる上で重要なステップである。 体積電子顕微鏡(em)は、em像を高分解能で微細に撮影することでシナプス裂の同定を可能にする。 em画像からシナプス裂を自動的に予測するために、機械学習のアプローチが採用されている。 そこで本研究では,脳EM画像からのシナプス・クリフ検出を改善するための,CleftNetと呼ばれる新しい深層学習モデルを提案する。 まず,機能拡張器とラベル拡張器という2つの新しいネットワークコンポーネントを提案する。 機能拡張子は、入力からグローバル情報を融合し、cleftで共通の形態的パターンを学習し、拡張されたcleft機能に繋がる。 さらに、さまざまな次元の出力を生成して、任意のディープネットワークに柔軟に統合することができる。 提案するラベル拡張器は,各ボクセルのラベルを値からベクトルに拡張し,セグメンテーションラベルと境界ラベルの両方を含む。 これにより、ネットワークは重要な形状情報を学び、より情報的なクリフ表現を生成することができる。 提案する機能拡張子とラベル拡張子に基づき、cleftnetをu-netライクなネットワークとして構築する。 本手法の有効性は,オンラインタスクとオフラインタスクの両方で評価される。 私たちのCleftNetは現在、CREMIオープンチャレンジのオンラインタスクで#1にランク付けしています。 さらに,オフラインタスクにおける定量的および定性的な結果から,本手法がベースラインアプローチを大きく上回っていることが示された。

Detecting synaptic clefts is a crucial step to investigate the biological function of synapses. The volume electron microscopy (EM) allows the identification of synaptic clefts by photoing EM images with high resolution and fine details. Machine learning approaches have been employed to automatically predict synaptic clefts from EM images. In this work, we propose a novel and augmented deep learning model, known as CleftNet, for improving synaptic cleft detection from brain EM images. We first propose two novel network components, known as the feature augmentor and the label augmentor, for augmenting features and labels to improve cleft representations. The feature augmentor can fuse global information from inputs and learn common morphological patterns in clefts, leading to augmented cleft features. In addition, it can generate outputs with varying dimensions, making it flexible to be integrated in any deep network. The proposed label augmentor augments the label of each voxel from a value to a vector, which contains both the segmentation label and boundary label. This allows the network to learn important shape information and to produce more informative cleft representations. Based on the proposed feature augmentor and label augmentor, We build the CleftNet as a U-Net like network. The effectiveness of our methods is evaluated on both online and offline tasks. Our CleftNet currently ranks \#1 on the online task of the CREMI open challenge. In addition, both quantitative and qualitative results in the offline tasks show that our method outperforms the baseline approaches significantly.
翻訳日:2021-04-04 01:51:32 公開日:2021-01-12
# PvDeConv:3次元CAD構築のためのポイントボクセルデコンボリューション

PvDeConv: Point-Voxel Deconvolution for Autoencoding CAD Construction in 3D ( http://arxiv.org/abs/2101.04493v1 )

ライセンス: Link先を確認
Kseniya Cherenkova, Djamila Aouada, Gleb Gusev(参考訳) 本稿では,3次元データオートエンコーダのためのPoint-Voxel DeConvolution (PVDeConv) モジュールを提案する。 その効率を示すために、コンピュータ支援設計(cad)モデルの基盤となる幾何学を密に記述した10k点の高分解能点雲を合成することを学ぶ。 プロトルージョン、欠落した部分、円滑な縁、穴などのスキャンはCADオブジェクトの実際の3Dスキャンに必然的に現れる。 元のCADモデル構築を3Dスキャンから学習するには、対応するオブジェクトの3Dスキャンとともに、真理を理解する必要がある。 このギャップを解決するために、50k以上のCADモデルとその対応する3Dメッシュを含む、新しい専用データセットCC3Dを導入する。 このデータセットは、3Dスキャン(CADモデル)のペアからサンプリングされた点雲の畳み込みオートエンコーダを学ぶために使用される。 この新しいデータセットの課題は、ShapeNetでトレーニングされた他の生成点クラウドサンプリングモデルと比較できる。 CC3Dオートエンコーダは、3Dデータ生成の最先端モデルと比較してメモリ消費とトレーニング時間に関して効率的である。

We propose a Point-Voxel DeConvolution (PVDeConv) module for 3D data autoencoder. To demonstrate its efficiency we learn to synthesize high-resolution point clouds of 10k points that densely describe the underlying geometry of Computer Aided Design (CAD) models. Scanning artifacts, such as protrusions, missing parts, smoothed edges and holes, inevitably appear in real 3D scans of fabricated CAD objects. Learning the original CAD model construction from a 3D scan requires a ground truth to be available together with the corresponding 3D scan of an object. To solve the gap, we introduce a new dedicated dataset, the CC3D, containing 50k+ pairs of CAD models and their corresponding 3D meshes. This dataset is used to learn a convolutional autoencoder for point clouds sampled from the pairs of 3D scans - CAD models. The challenges of this new dataset are demonstrated in comparison with other generative point cloud sampling models trained on ShapeNet. The CC3D autoencoder is efficient with respect to memory consumption and training time as compared to stateof-the-art models for 3D data generation.
翻訳日:2021-04-04 01:51:09 公開日:2021-01-12
# プログレッシブリトレーニングによる畳み込みニューラルネットワークの単純化

Convolutional Neural Network Simplification with Progressive Retraining ( http://arxiv.org/abs/2101.04699v1 )

ライセンス: Link先を確認
D. Osaku, J.F. Gomes, A.X. Falc\~ao(参考訳) カーネルプルーニング法は、畳み込みニューラルネットワーク(CNN)モデルの説明を高速化、単純化、改善するために提案されている。 しかし、単純化されたモデルの有効性は、しばしば元のモデルよりも低い。 本稿では,カーネル除去の客観的および主観的妥当性基準に基づく新しい手法を提案する。 プロセス中、cnnモデルは、次の層から最初の層まで重みを調整し、プロセスに関わらない後の層の重みを保存することによって、現在の層が完全に単純化された場合にのみ再訓練される。 私たちはこの戦略を「emph{progressive retraining}」と呼び、各単純化アクションの後にモデル全体を再トレーニングするカーネルプルーニングメソッドとは異なる。 我々の主観的関連性基準は、視覚パターン認識における人間の能力を活用し、デザイナーによる単純化プロセスの理解を改善する。 適切な適合基準とプログレッシブ・リトレーニングの組み合わせは,モデルの単純化によって有効性を向上できることを示す。 また,提案手法は,4つの課題の画像データセットを用いて,最先端技術による2つの手法よりも優れた結果が得られることを示す。

Kernel pruning methods have been proposed to speed up, simplify, and improve explanation of convolutional neural network (CNN) models. However, the effectiveness of a simplified model is often below the original one. In this letter, we present new methods based on objective and subjective relevance criteria for kernel elimination in a layer-by-layer fashion. During the process, a CNN model is retrained only when the current layer is entirely simplified, by adjusting the weights from the next layer to the first one and preserving weights of subsequent layers not involved in the process. We call this strategy \emph{progressive retraining}, differently from kernel pruning methods that usually retrain the entire model after each simplification action -- e.g., the elimination of one or a few kernels. Our subjective relevance criterion exploits the ability of humans in recognizing visual patterns and improves the designer's understanding of the simplification process. The combination of suitable relevance criteria and progressive retraining shows that our methods can increase effectiveness with considerable model simplification. We also demonstrate that our methods can provide better results than two popular ones and another one from the state-of-the-art using four challenging image datasets.
翻訳日:2021-04-04 01:50:38 公開日:2021-01-12
# 顔画像からの痛み推定のための個人化深層学習

Personalized Federated Deep Learning for Pain Estimation From Face Images ( http://arxiv.org/abs/2101.04800v1 )

ライセンス: Link先を確認
Ognjen Rudovic, Nicolas Tobis, Sebastian Kaltwang, Bj\"orn Schuller, Daniel Rueckert, Jeffrey F. Cohn and Rosalind W. Picard(参考訳) 標準的な機械学習アプローチでは、ユーザのデータをひとつのコンピュータまたは共有データベースに集約する必要がある。 したがって、特にデータ規制が厳格な医療環境では、中央アクセスを制限することが重要である。 これに取り組む潜在的なアプローチは、生のトレーニングデータをローカルに保持しながら、ローカルにトレーニングされたモデルのパラメータを使用することで、複数の当事者が共有予測モデルを共同的に学習できるフェデレーション学習(fl)である。 AIによる鎮痛モニタリングの文脈では、長期の鎮痛監視のための機密性保存と非閉塞性鎮痛推定を可能とし、定期的なチェックアップを頻繁に行う看護スタッフの負担を軽減したい。 この目的のために,顔画像から痛みを推定するためのPFDL(Personalized Federated Deep Learning)アプローチを提案する。 PFDLは、顔画像を共有することなく、異なるクライアント(主題など)にわたって、軽量CNNアーキテクチャを用いて実装されたディープモデルの協調トレーニングを実行する。 標準FLのようにモデルのすべてのパラメータを共有する代わりに、PFDLは最後のレイヤをローカルに保持する(痛みの推定をパーソナライズするために使用される)。 この(i)は、別のデータの機密性層を追加し、敵が対象者の痛みレベルを推測することを困難にし、(ii)局所的なパラメータチューニングによって各被験者の痛み推定をパーソナライズする。 痛みの顔ビデオのデータセット(UNBC-McMaster Shoulder Pain Database)を用いて、PFDLは標準的な集中型およびFLアルゴリズムよりも可視的または優れた性能を示し、データのプライバシーをさらに強化する。 これにより、より安全で計算効率が高く、多くの個人(家庭内の痛みモニタリングなど)にスケーラブルで、タイムリーで邪魔にならない痛み測定を提供することで、従来の痛みモニタリングを改善することができる。

Standard machine learning approaches require centralizing the users' data in one computer or a shared database, which raises data privacy and confidentiality concerns. Therefore, limiting central access is important, especially in healthcare settings, where data regulations are strict. A potential approach to tackling this is Federated Learning (FL), which enables multiple parties to collaboratively learn a shared prediction model by using parameters of locally trained models while keeping raw training data locally. In the context of AI-assisted pain-monitoring, we wish to enable confidentiality-pres erving and unobtrusive pain estimation for long-term pain-monitoring and reduce the burden on the nursing staff who perform frequent routine check-ups. To this end, we propose a novel Personalized Federated Deep Learning (PFDL) approach for pain estimation from face images. PFDL performs collaborative training of a deep model, implemented using a lightweight CNN architecture, across different clients (i.e., subjects) without sharing their face images. Instead of sharing all parameters of the model, as in standard FL, PFDL retains the last layer locally (used to personalize the pain estimates). This (i) adds another layer of data confidentiality, making it difficult for an adversary to infer pain levels of the target subject, while (ii) personalizing the pain estimation to each subject through local parameter tuning. We show using a publicly available dataset of face videos of pain (UNBC-McMaster Shoulder Pain Database), that PFDL performs comparably or better than the standard centralized and FL algorithms, while further enhancing data privacy. This, has the potential to improve traditional pain monitoring by making it more secure, computationally efficient, and scalable to a large number of individuals (e.g., for in-home pain monitoring), providing timely and unobtrusive pain measurement.
翻訳日:2021-04-04 01:50:18 公開日:2021-01-12
# 深層学習による膝蓋骨遠位端関節症の自動検出:多施設変形性膝関節症研究(MOST)データ

Automated Detection of Patellofemoral Osteoarthritis from Knee Lateral View Radiographs Using Deep Learning: Data from the Multicenter Osteoarthritis Study (MOST) ( http://arxiv.org/abs/2101.04350v1 )

ライセンス: Link先を確認
Neslihan Bayramoglu, Miika T. Nieminen, Simo Saarakkala(参考訳) 目的: 画像を用いた深層学習による膝蓋骨変形性膝関節症(PFOA)の予測能力を評価すること。 デザイン:多中心型変形性関節症研究(MOST) (n=18,436膝) から膝側視像を抽出した。 Patellar region-of-interest(R OI)が最初に自動的に検出され、その後、終末から終末にかけての深部畳み込みニューラルネットワーク(CNN)が訓練され、パテロフェモラルOAの状態を検出した。 深層学習に基づく物体検出法を用いてパテラーROIを検出した。 MOSTデータセットで提供される手動PFOAステータスアセスメントをCNNの分類結果として用いた。 予測モデルの性能は, 受信機動作特性曲線 (ROC AUC) と, 層状5次元断面検証設定における精度再コール曲線 (PR) から得られた平均精度 (AP) に基づいて評価した。 結果: 膝18,436例中3,425例(19%)がPFOAであった。 AUCとAPは、年齢、性別、体重指数(BMI)、西オンタリオ大学およびマクマスター大学関節炎指数(WOMAC)スコア、およびPFOAを予測するためのKelgren-Lawrence(KL) グレードが0.806と0.478であった。 画像データのみを用いたCNNモデルはPFOA状態の予測を著しく改善した(ROC AUC=0.958, AP=0.862)。 結論: 第1回機械学習に基づく自動pfoa検出法を提案する。 さらに,膝側方x線写真から膝蓋骨領域を訓練した深層学習モデルでは,患者特性と臨床評価に基づくモデルよりもpfoaの予測が良好である。

Objective: To assess the ability of imaging-based deep learning to predict radiographic patellofemoral osteoarthritis (PFOA) from knee lateral view radiographs. Design: Knee lateral view radiographs were extracted from The Multicenter Osteoarthritis Study (MOST) (n = 18,436 knees). Patellar region-of-interest (ROI) was first automatically detected, and subsequently, end-to-end deep convolutional neural networks (CNNs) were trained and validated to detect the status of patellofemoral OA. Patellar ROI was detected using deep-learning-based object detection method. Manual PFOA status assessment provided in the MOST dataset was used as a classification outcome for the CNNs. Performance of prediction models was assessed using the area under the receiver operating characteristic curve (ROC AUC) and the average precision (AP) obtained from the precision-recall (PR) curve in the stratified 5-fold cross validation setting. Results: Of the 18,436 knees, 3,425 (19%) had PFOA. AUC and AP for the reference model including age, sex, body mass index (BMI), the total Western Ontario and McMaster Universities Arthritis Index (WOMAC) score, and tibiofemoral Kellgren-Lawrence (KL) grade to predict PFOA were 0.806 and 0.478, respectively. The CNN model that used only image data significantly improved the prediction of PFOA status (ROC AUC= 0.958, AP= 0.862). Conclusion: We present the first machine learning based automatic PFOA detection method. Furthermore, our deep learning based model trained on patella region from knee lateral view radiographs performs better at predicting PFOA than models based on patient characteristics and clinical assessments.
翻訳日:2021-04-04 01:49:44 公開日:2021-01-12
# 高精度ピック・アンド・プレイス作業のためのシミュレーションから実世界への移動経験

Transferring Experience from Simulation to the Real World for Precise Pick-And-Place Tasks in Highly Cluttered Scenes ( http://arxiv.org/abs/2101.04781v1 )

ライセンス: Link先を確認
Kilian Kleeberger and Markus V\"olk and Marius Moosmann and Erik Thiessenhusen and Florian Roth and Richard Bormann and Marco F. Huber(参考訳) 本稿では,高度に散らばったシーンで既知の剛体物体を把握し,深度画像に基づいて正確に配置する,新しい学習手法を提案する。 pq-net (placement quality network) は、ニューラルネットワークの1回のフォワードパスにおいて、複数のオブジェクトに対して、自動的に生成された把持の各々のオブジェクトポーズと品質を92fpsで同時に推定する。 全ての把握と配置の試行は物理シミュレーションで実行され、得られた経験はドメインランダム化を用いて実世界に移される。 われわれの政策は実世界への移転に成功している。 PQ-Netは成功率の把握の観点から他のモデルフリーアプローチよりも優れており、人間の介入なしに任意の対称性を持つ新しいオブジェクトに自動的にスケールする。

In this paper, we introduce a novel learning-based approach for grasping known rigid objects in highly cluttered scenes and precisely placing them based on depth images. Our Placement Quality Network (PQ-Net) estimates the object pose and the quality for each automatically generated grasp pose for multiple objects simultaneously at 92 fps in a single forward pass of a neural network. All grasping and placement trials are executed in a physics simulation and the gained experience is transferred to the real world using domain randomization. We demonstrate that our policy successfully transfers to the real world. PQ-Net outperforms other model-free approaches in terms of grasping success rate and automatically scales to new objects of arbitrary symmetry without any human intervention.
翻訳日:2021-04-04 01:49:10 公開日:2021-01-12
# クラウドソーシングによる効果的なコンテンツ分析に向けて

Toward Effective Automated Content Analysis via Crowdsourcing ( http://arxiv.org/abs/2101.04615v1 )

ライセンス: Link先を確認
Jiele Wu, Chau-Wai Wong, Xinyan Zhao, Xianpeng Liu(参考訳) 多くのコンピュータ科学者は、オンラインワーカーの集約された回答を使って真実を表現している。 先行研究では、多数決のような集計手法が比較的客観的な特徴を測定するのに有効であることが示されている。 意味的意味づけのような主観的な機能では、時間ごとの収益を最適化することで知られるオンラインワーカーは、より長く働くと応答の質が低下する傾向がある。 本稿では,品質を意識したセマンティックデータアノテーションシステムを提案することで,この問題に対処しようとする。 我々は、品質スコアによって定量化された労働者のパフォーマンスに対するタイムリーなフィードバックにより、オンライン労働者が長期にわたってラベル付けの品質を維持することができることを観察した。 提案するアノテーションシステムの有効性を検証するために,i) エキスパートラベルデータセットに基づく性能評価,ii) 70%から80%の精度で一貫した学習行動をもたらす機械学習タスクの実証を行った。 その結果,本システムでは主観的意味的特徴の質の高い回答を大規模に収集できることが示唆された。

Many computer scientists use the aggregated answers of online workers to represent ground truth. Prior work has shown that aggregation methods such as majority voting are effective for measuring relatively objective features. For subjective features such as semantic connotation, online workers, known for optimizing their hourly earnings, tend to deteriorate in the quality of their responses as they work longer. In this paper, we aim to address this issue by proposing a quality-aware semantic data annotation system. We observe that with timely feedback on workers' performance quantified by quality scores, better informed online workers can maintain the quality of their labeling throughout an extended period of time. We validate the effectiveness of the proposed annotation system through i) evaluating performance based on an expert-labeled dataset, and ii) demonstrating machine learning tasks that can lead to consistent learning behavior with 70%-80% accuracy. Our results suggest that with our system, researchers can collect high-quality answers of subjective semantic features at a large scale.
翻訳日:2021-04-04 01:48:57 公開日:2021-01-12
# SARS-CoV-2のAIおよびHPC対応リード生成:自然言語テキストに含まれる薬物様分子の抽出モデルとプロセス

AI- and HPC-enabled Lead Generation for SARS-CoV-2: Models and Processes to Extract Druglike Molecules Contained in Natural Language Text ( http://arxiv.org/abs/2101.04617v1 )

ライセンス: Link先を確認
Zhi Hong, J. Gregory Pauloski, Logan Ward, Kyle Chard, Ben Blaiszik, and Ian Foster(参考訳) 世界中の研究者は、重症急性呼吸器症候群ウイルス(SARS-CoV-2)による病気に対抗するために、既存の薬物の再利用や新しい薬物の発見を目指している。 このような研究の候補は、新型コロナウイルス研究の文脈で薬物のような分子であると科学文献で報告されている分子である。 ここでは、人間と人工知能の両方を利用して、フリーテキストで薬物様分子の参照を検出するプロジェクトについて報告する。 我々は、高度でない人間がラベル付きテキストのコーパスを作成し、このラベル付きコーパスを使用して名前付きエンティティ認識モデルを訓練し、訓練されたモデルを用いて198875紙のオープンリサーチデータセットチャレンジ(CORD-19)コーパスから10912の薬物様分子を抽出する。 性能分析の結果, 自動抽出モデルは非熟練人間と同等の性能が得られることがわかった。

Researchers worldwide are seeking to repurpose existing drugs or discover new drugs to counter the disease caused by severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2). A promising source of candidates for such studies is molecules that have been reported in the scientific literature to be drug-like in the context of coronavirus research. We report here on a project that leverages both human and artificial intelligence to detect references to drug-like molecules in free text. We engage non-expert humans to create a corpus of labeled text, use this labeled corpus to train a named entity recognition model, and employ the trained model to extract 10912 drug-like molecules from the COVID-19 Open Research Dataset Challenge (CORD-19) corpus of 198875 papers. Performance analyses show that our automated extraction model can achieve performance on par with that of non-expert humans.
翻訳日:2021-04-04 01:48:40 公開日:2021-01-12
# Queue-Learning: サービス品質提供のための強化学習アプローチ

Queue-Learning: A Reinforcement Learning Approach for Providing Quality of Service ( http://arxiv.org/abs/2101.04627v1 )

ライセンス: Link先を確認
Majid Raeis, Ali Tizghadam, Alberto Leon-Garcia(参考訳) エンドツーエンドの遅延は、クラウドコンピューティングやコンピュータネットワークなどのアプリケーションドメインにおけるQoS(Quality of Service)の重要な特性である。 このメトリクスは、エンドツーエンドサービスがサービスチェーンを介して提供される、タンデムサービスシステムにおいて特に重要です。 サービスレート制御は、サービスシステムにおいてqos保証を提供する共通のメカニズムである。 本稿では、サービスリソースの過剰使用を防止しつつ、システムのエンドツーエンド遅延に対する確率的上限を提供する強化学習ベース(RLベース)サービスレートコントローラを提案する。 一般的なフレームワークを得るために、私たちはキュー理論を使ってサービスシステムをモデル化します。 しかし、待ち行列理論の制限を避けるためにrlベースのアプローチを採用する。 特に、Deep Deterministic Policy Gradient(DDPG)を使用して、タンデムサービスシステムのキュー長(状態)の関数として、サービスレート(アクション)を学習します。 システム全体の報酬によって性能を定量化する既存のrlベースの手法とは対照的に,提案するコントローラはシステムのエンド・ツー・エンドの遅延に対する明示的な確率的保証を提供する。 qosの制約を満たしたコントローラの能力を検証した,非指数的相互接続およびサービス時間を有するタンデム待ち行列システムについて評価を行った。

End-to-end delay is a critical attribute of quality of service (QoS) in application domains such as cloud computing and computer networks. This metric is particularly important in tandem service systems, where the end-to-end service is provided through a chain of services. Service-rate control is a common mechanism for providing QoS guarantees in service systems. In this paper, we introduce a reinforcement learning-based (RL-based) service-rate controller that provides probabilistic upper-bounds on the end-to-end delay of the system, while preventing the overuse of service resources. In order to have a general framework, we use queueing theory to model the service systems. However, we adopt an RL-based approach to avoid the limitations of queueing-theoretic methods. In particular, we use Deep Deterministic Policy Gradient (DDPG) to learn the service rates (action) as a function of the queue lengths (state) in tandem service systems. In contrast to existing RL-based methods that quantify their performance by the achieved overall reward, which could be hard to interpret or even misleading, our proposed controller provides explicit probabilistic guarantees on the end-to-end delay of the system. The evaluations are presented for a tandem queueing system with non-exponential inter-arrival and service times, the results of which validate our controller's capability in meeting QoS constraints.
翻訳日:2021-04-04 01:48:11 公開日:2021-01-12
# 計算物理学における自動モデル推薦のためのデータ拡張と特徴選択

Data augmentation and feature selection for automatic model recommendation in computational physics ( http://arxiv.org/abs/2101.04530v1 )

ライセンス: Link先を確認
Thomas Daniel, Fabien Casenave, Nissrine Akkari, David Ryckelynck(参考訳) 分類アルゴリズムは、最近、計算物理学において、環境や物理システムの状態に適応した数値的手法やモデルの選択に応用されている。 このような分類タスクでは、ラベル付きトレーニングデータは数値シミュレーションから得られ、一般にメッシュ上に離散化された物理フィールドに対応する。 トレーニングデータの欠如、高次元化、物理データへの共通データ拡張技術の適用不可能という3つの難題が生まれている。 この記事では、これらの問題に対処するために、2つのアルゴリズムを紹介します。1つは特徴選択による次元の削減、もう1つはデータ拡張です。 これらのアルゴリズムは、評価のために様々な分類器と組み合わせられる。 6つの多層パーセプトロンからなる積層アンサンブルとリッジロジスティック回帰を組み合わせた場合、非線形構造力学の分類問題において90%の精度が得られる。

Classification algorithms have recently found applications in computational physics for the selection of numerical methods or models adapted to the environment and the state of the physical system. For such classification tasks, labeled training data come from numerical simulations and generally correspond to physical fields discretized on a mesh. Three challenging difficulties arise: the lack of training data, their high dimensionality, and the non-applicability of common data augmentation techniques to physics data. This article introduces two algorithms to address these issues, one for dimensionality reduction via feature selection, and one for data augmentation. These algorithms are combined with a wide variety of classifiers for their evaluation. When combined with a stacking ensemble made of six multilayer perceptrons and a ridge logistic regression, they enable reaching an accuracy of 90% on our classification problem for nonlinear structural mechanics.
翻訳日:2021-04-04 01:47:12 公開日:2021-01-12
# 空間情報を用いた時系列データの効率的解析のためのディープセルリカレントネットワーク

Deep Cellular Recurrent Network for Efficient Analysis of Time-Series Data with Spatial Information ( http://arxiv.org/abs/2101.05608v1 )

ライセンス: Link先を確認
Lasitha Vidyaratne, Mahbubul Alam, Alexander Glandon, Anna Shabalina, Christopher Tennant, and Khan Iftekharuddin(参考訳) 大規模時系列データの効率的な処理は、機械学習の複雑な問題である。 手動で特徴抽出を行う従来のセンサ信号処理パイプラインは、高次元データによる膨大な計算コストを伴うことが多い。 ディープリカレントニューラルネットワークは、時系列処理を改善するための自動機能学習に有望である。 しかし、一般的なディープ・リカレントモデルでは、データの複雑さが増すにつれてスケールと深さが大きくなる。 これは、時間的および空間的特性を持つ高次元データの存在において特に困難である。 そこで本研究では,複雑な多次元時系列データを空間情報で効率的に処理する新しいディープセルリカレントニューラルネットワーク(dcrnn)アーキテクチャを提案する。 提案モデルにおけるセルリカレントアーキテクチャにより,空間分布センサ信号源からの時系列データの位置認識同期処理が可能となる。 提案アーキテクチャにおけるセルラ性による広範なトレーニング可能なパラメータ共有は,高次元入力を用いた再帰処理ユニットの使用効率を保証している。 そこで本研究では,DCRNNモデルの多クラス時系列データの分類における汎用性についても検討した。 その結果、DCRNNアーキテクチャは2つの時系列データセット、つまり、発作検出のためのマルチチャネルの頭皮EEGデータセットと、社内で得られたマシン故障検出データセットを用いて評価される。 その結果,本論文の手法と比較した場合,学習可能なパラメータをかなり少なくしつつ,最先端の性能を実現できることが示唆された。

Efficient processing of large-scale time series data is an intricate problem in machine learning. Conventional sensor signal processing pipelines with hand engineered feature extraction often involve huge computational cost with high dimensional data. Deep recurrent neural networks have shown promise in automated feature learning for improved time-series processing. However, generic deep recurrent models grow in scale and depth with increased complexity of the data. This is particularly challenging in presence of high dimensional data with temporal and spatial characteristics. Consequently, this work proposes a novel deep cellular recurrent neural network (DCRNN) architecture to efficiently process complex multi-dimensional time series data with spatial information. The cellular recurrent architecture in the proposed model allows for location-aware synchronous processing of time series data from spatially distributed sensor signal sources. Extensive trainable parameter sharing due to cellularity in the proposed architecture ensures efficiency in the use of recurrent processing units with high-dimensional inputs. This study also investigates the versatility of the proposed DCRNN model for classification of multi-class time series data from different application domains. Consequently, the proposed DCRNN architecture is evaluated using two time-series datasets: a multichannel scalp EEG dataset for seizure detection, and a machine fault detection dataset obtained in-house. The results suggest that the proposed architecture achieves state-of-the-art performance while utilizing substantially less trainable parameters when compared to comparable methods in the literature.
翻訳日:2021-04-04 01:46:57 公開日:2021-01-12
# デバイス上インテント分類の強化された文字表現

A character representation enhanced on-device Intent Classification ( http://arxiv.org/abs/2101.04456v1 )

ライセンス: Link先を確認
Sudeep Deepak Shivnikar, Himanshu Arora, Harichandana B S S(参考訳) 意図分類は自然言語理解システムにおいて重要なタスクである。 既存のアプローチは、ベンチマークデータセットで完璧なスコアを獲得しました。 しかし、モバイルやタブレットなどの低リソースデバイスへのデプロイには適していない。 モデルの大きさが大きすぎるためです そこで本稿では,デバイス上で効率的に動作可能な,意図分類のための新しい軽量アーキテクチャを提案する。 我々は文字特徴を使って単語表現を豊かにする。 実験により,提案モデルが既存手法より優れ,ベンチマークデータセットの最先端結果が得られた。 また,本モデルではメモリフットプリントが5MB程度で,推定時間は2ミリ秒程度であり,資源制約環境下での効率を実証する。

Intent classification is an important task in natural language understanding systems. Existing approaches have achieved perfect scores on the benchmark datasets. However they are not suitable for deployment on low-resource devices like mobiles, tablets, etc. due to their massive model size. Therefore, in this paper, we present a novel light-weight architecture for intent classification that can run efficiently on a device. We use character features to enrich the word representation. Our experiments prove that our proposed model outperforms existing approaches and achieves state-of-the-art results on benchmark datasets. We also report that our model has tiny memory footprint of ~5 MB and low inference time of ~2 milliseconds, which proves its efficiency in a resource-constrained environment.
翻訳日:2021-04-04 01:46:40 公開日:2021-01-12
# 話題分布を持つxlnetモデルを用いた偽ニュース検出システム: constraint@aaai2021 shared task

Fake News Detection System using XLNet model with Topic Distributions: CONSTRAINT@AAAI2021 Shared Task ( http://arxiv.org/abs/2101.11425v1 )

ライセンス: Link先を確認
Akansha Gautam, Venktesh V, Sarah Masud(参考訳) 情報へのアクセスの容易さとインターネット上での急速な普及(速度とボリュームの両方)により、偽情報から真実情報をフィルタリングすることは困難になっている。 研究コミュニティは現在、現実世界の政治的影響をもたらす偽ニュースの自動検出という課題に直面している。 このような研究はConstraint@AAA12021 Shared Task on COVID19 Fake News Detection in Englishという形で行われた。 本稿では,この共有タスクの一環として提案した新しい手法について光を当てる。 我々のチームは、LDA(Latent Dirichlet Allocation)のトピック分布とXLNetの文脈表現を組み合わせたアプローチを導入しました。 また,提案手法を既存のベースラインと比較し,XLNet + Topic DistributionsがF1スコア0.967を達成することにより,他の手法よりも優れていることを示す。

With the ease of access to information, and its rapid dissemination over the internet (both velocity and volume), it has become challenging to filter out truthful information from fake ones. The research community is now faced with the task of automatic detection of fake news, which carries real-world socio-political impact. One such research contribution came in the form of the Constraint@AAA12021 Shared Task on COVID19 Fake News Detection in English. In this paper, we shed light on a novel method we proposed as a part of this shared task. Our team introduced an approach to combine topical distributions from Latent Dirichlet Allocation (LDA) with contextualized representations from XLNet. We also compared our method with existing baselines to show that XLNet + Topic Distributions outperforms other approaches by attaining an F1-score of 0.967.
翻訳日:2021-04-04 01:46:31 公開日:2021-01-12
# クラウドカウントのための強化情報融合ネットワーク

Enhanced Information Fusion Network for Crowd Counting ( http://arxiv.org/abs/2101.04279v1 )

ライセンス: Link先を確認
Geng Chen and Peirong Guo(参考訳) 近年,画像中の人物数を予測する手法である群集カウントは,コンピュータビジョンにおける課題となっている。 本稿では,カラム内の情報冗長性問題を解決するために,クロスカラム特徴融合ネットワークを提案する。 我々は,異なる列が他の列から重要な情報を得るのを助けるために,情報フローのチャネルを提供する情報融合モジュール(IFM)を紹介する。 このチャネルを通じて、異なる列が情報を交換し、他の列から有用な特徴を抽出し、キー情報を強化する。 したがって、イメージ内のすべての領域に注意を払うためにカラムは必要ない。 各列は異なる領域に責任を持ち、各列の負担を軽減できる。 実験では、モデルの一般化性はより堅牢で、異なるデータセット間で転送した結果は最先端のモデルと同等の結果が得られます。

In recent years, crowd counting, a technique for predicting the number of people in an image, becomes a challenging task in computer vision. In this paper, we propose a cross-column feature fusion network to solve the problem of information redundancy in columns. We introduce the Information Fusion Module (IFM) which provides a channel for information flow to help different columns to obtain significant information from another column. Through this channel, different columns exchange information with each other and extract useful features from the other column to enhance key information. Hence, there is no need for columns to pay attention to all areas in the image. Each column can be responsible for different regions, thereby reducing the burden of each column. In experiments, the generalizability of our model is more robust and the results of transferring between different datasets acheive the comparable results with the state-of-the-art models.
翻訳日:2021-04-04 01:46:16 公開日:2021-01-12
# マルチモーダル眼球運動データセットとマルチモーダル眼球運動セグメンテーション解析

A Multimodal Eye Movement Dataset and a Multimodal Eye Movement Segmentation Analysis ( http://arxiv.org/abs/2101.04318v1 )

ライセンス: Link先を確認
Wolfgang Fuhl and Enkelejda Kasneci(参考訳) 注視眼球運動を伴う新しいデータセットを提案する。 データセットは、現実世界やシミュレーターでの乗車中に記録された80万以上の視線ポイントで構成されている。 合計19名の被験者の眼球運動を注記した。 このデータセットには、眼球閉鎖、瞳孔中心、光学ベクトル、眼球角の中心から始まる瞳孔中心へのベクトルなど、いくつかのデータソースがある。 これらの異なるデータソースを個別に分析・評価し、眼球運動分類に適合する良さと組み合わせて評価する。 これらの結果は、リアルタイムシステムやアルゴリズムの開発者がアプリケーションに最適なデータソースを見つけるのに役立つだろう。 また、このデータセット上で新しいアルゴリズムをトレーニングして評価することもできる。 データとmatlabコードは、https://atreus.infor matik.uni-tuebingen. de/seafile/d/8e2ab8c 3fdd444e1a135/?p=%2fa%20multimodal%20 eye%20movement%20dat aset%20and%20...& ;mode=listでダウンロードできる。

We present a new dataset with annotated eye movements. The dataset consists of over 800,000 gaze points recorded during a car ride in the real world and in the simulator. In total, the eye movements of 19 subjects were annotated. In this dataset there are several data sources such as the eyelid closure, the pupil center, the optical vector, and a vector into the pupil center starting from the center of the eye corners. These different data sources are analyzed and evaluated individually as well as in combination with respect to their goodness of fit for eye movement classification. These results will help developers of real-time systems and algorithms to find the best data sources for their application. Also, new algorithms can be trained and evaluated on this data set. The data and the Matlab code can be downloaded here https://atreus.infor matik.uni-tuebingen. de/seafile/d/8e2ab8c 3fdd444e1a135/?p=%2FA%20Multimodal%20 Eye%20Movement%20Dat aset%20and%20...& ;mode=list
翻訳日:2021-04-04 01:45:40 公開日:2021-01-12
# 逆攻撃に対する画像輝度のランダム変換

Random Transformation of Image Brightness for Adversarial Attack ( http://arxiv.org/abs/2101.04321v1 )

ライセンス: Link先を確認
Bo Yang, Kaiyong Xu, Hengjun Wang, Hengwei Zhang(参考訳) ディープニューラルネットワークは、オリジナルの画像に小さな人間の知覚できない摂動を加えることで構築される敵の例に弱いが、モデル出力の不正確な予測を行う。 ディープニューラルネットワークがデプロイされる前に、敵攻撃は安全クリティカルなアプリケーションにおいて堅牢なモデルを評価し選択するための重要な方法となる。 しかし、難易度の高いブラックボックス設定では、攻撃成功率、すなわち敵の例の転送可能性を改善する必要がある。 画像拡張法に基づき、画像輝度のランダム変換により、逆例生成における過剰フィットを解消し、その転送性を向上させることが判明した。 そこで本研究では,FGSM(Fast Gradient Sign Method)関連手法と統合して,より堅牢な勾配に基づく攻撃を構築し,より優れた転送性を持つ逆例を生成する,この現象に基づく逆例生成手法を提案する。 ImageNetデータセットに関する大規模な実験は、この方法の有効性を実証している。 本手法は,通常のネットワークであろうと逆であれ,データ拡張に基づく攻撃手法よりもブラックボックス攻撃の成功率が高い。 この手法がモデルの堅牢性の評価と改善に役立つことを期待している。

Deep neural networks are vulnerable to adversarial examples, which are crafted by adding small, human-imperceptible perturbations to the original images, but make the model output inaccurate predictions. Before deep neural networks are deployed, adversarial attacks can thus be an important method to evaluate and select robust models in safety-critical applications. However, under the challenging black-box setting, the attack success rate, i.e., the transferability of adversarial examples, still needs to be improved. Based on image augmentation methods, we found that random transformation of image brightness can eliminate overfitting in the generation of adversarial examples and improve their transferability. To this end, we propose an adversarial example generation method based on this phenomenon, which can be integrated with Fast Gradient Sign Method (FGSM)-related methods to build a more robust gradient-based attack and generate adversarial examples with better transferability. Extensive experiments on the ImageNet dataset demonstrate the method's effectiveness. Whether on normally or adversarially trained networks, our method has a higher success rate for black-box attacks than other attack methods based on data augmentation. We hope that this method can help to evaluate and improve the robustness of models.
翻訳日:2021-04-04 01:45:20 公開日:2021-01-12
# 迷わずに混ざり合う

Mixup Without Hesitation ( http://arxiv.org/abs/2101.04342v1 )

ライセンス: Link先を確認
Hao Yu, Huanyu Wang, Jianxin Wu(参考訳) ミックスアップはサンプルのペアを線形補間して新しいサンプルを作成するが、実装が容易であり、画像分類タスクに有効であることが示されている。 しかし、ミックスアップには2つの欠点がある:1つは、十分に訓練されたモデルを得るために、より多くのトレーニングエポックが必要とされることである。 本稿では,ミックスアップが常に表現空間を探索し,強化学習における探索・探索ジレンマにインスパイアされて,簡潔で効果的で使いやすいトレーニングアルゴリズムであるミックスアップ無湿(mWh)を提案する。 我々は,mWhが基本データ拡張とミックスアップを徐々に置き換えることで,探索と搾取のバランスが良いことを示す。 もともとのミキシングアップよりもトレーニング時間が短く、最適なハイパーパラメーターを探すことなく、すなわちmWhが混成アップとして振る舞うような強いベースラインを実現することができる。 mWhはCutMixに転送することもでき、オブジェクト検出などの他の機械学習やコンピュータビジョンタスクにも一貫した改善が加えられる。 私たちのコードはオープンソースで、https://github.com/y uhao318/mwhで利用可能です。

Mixup linearly interpolates pairs of examples to form new samples, which is easy to implement and has been shown to be effective in image classification tasks. However, there are two drawbacks in mixup: one is that more training epochs are needed to obtain a well-trained model; the other is that mixup requires tuning a hyper-parameter to gain appropriate capacity but that is a difficult task. In this paper, we find that mixup constantly explores the representation space, and inspired by the exploration-exploita tion dilemma in reinforcement learning, we propose mixup Without hesitation (mWh), a concise, effective, and easy-to-use training algorithm. We show that mWh strikes a good balance between exploration and exploitation by gradually replacing mixup with basic data augmentation. It can achieve a strong baseline with less training time than original mixup and without searching for optimal hyper-parameter, i.e., mWh acts as mixup without hesitation. mWh can also transfer to CutMix, and gain consistent improvement on other machine learning and computer vision tasks such as object detection. Our code is open-source and available at https://github.com/y uhao318/mwh
翻訳日:2021-04-04 01:44:48 公開日:2021-01-12
# インタラクティブな画像分割再考: 機能空間アノテーション

Rethinking Interactive Image Segmentation: Feature Space Annotation ( http://arxiv.org/abs/2101.04378v1 )

ライセンス: Link先を確認
Jord\~ao Bragantini (UNICAMP), Alexandre Falc\~ao (UNICAMP), Laurent Najman (ligm)(参考訳) インタラクティブな画像分割手法の進歩にもかかわらず、高品質なピクセルレベルのアノテーションは依然として時間がかかり、手間がかかる。 特徴空間投影によって導かれる複数の画像から対話的かつ同時的なセグメントアノテーションを提案し,ラベリングが進行するにつれてメトリック学習により最適化する。 この戦略は、画像領域でアノテーションを実行する既存のインタラクティブセグメンテーション手法とは対照的である。 提案手法は,iCoSeg,DAVIS,Roofto pといった前景セグメンテーションデータセットにおける最先端手法の精度を超えることができることを示す。 さらに、既知のセマンティクスセグメンテーションデータセットであるcityscapesでは、元のアノテーション手順の74.75倍の精度で、91.5\%の精度を実現している。 付録は追加の質的結果を示す。 コードとビデオのデモは公開時に公開される。

Despite the progress of interactive image segmentation methods, high-quality pixel-level annotation is still time-consuming and laborious -- a bottleneck for several deep learning applications. We take a step back to propose interactive and simultaneous segment annotation from multiple images guided by feature space projection and optimized by metric learning as the labeling progresses. This strategy is in stark contrast to existing interactive segmentation methodologies, which perform annotation in the image domain. We show that our approach can surpass the accuracy of state-of-the-art methods in foreground segmentation datasets: iCoSeg, DAVIS, and Rooftop. Moreover, it achieves 91.5\% accuracy in a known semantic segmentation dataset, Cityscapes, being 74.75 times faster than the original annotation procedure. The appendix presents additional qualitative results. Code and video demonstration will be released upon publication.
翻訳日:2021-04-04 01:44:28 公開日:2021-01-12
# 二段階cnnに基づく木ログ認識

Two-stage CNN-based wood log recognition ( http://arxiv.org/abs/2101.04450v1 )

ライセンス: Link先を確認
Georg Wimmer and Rudolf Schraml and Heinz Hofbauer and Alexander Petutschnigg and Andreas Uhl(参考訳) ログの起源の証明はますます重要になりつつある。 industry 4.0の文脈で、違法なロギングと戦うために、個々のログを追跡するモチベーションが高まっている。 この分野でのこれまでの研究は、指紋や虹彩認識にインスパイアされた手法に基づくデジタルログエンド画像を用いたログ追跡に重点を置いていた。 本研究は,CNNトレーニングのための三重項損失関数を用いて,ログ端のCNNに基づくセグメンテーションとセグメント化されたログ端の最終的な認識を組み合わせた畳み込みニューラルネットワーク(CNN)に基づくアプローチを提案する。 その結果,提案手法は従来のアプローチよりも優れていることがわかった。

The proof of origin of logs is becoming increasingly important. In the context of Industry 4.0 and to combat illegal logging there is an increasing motivation to track each individual log. Our previous works in this field focused on log tracking using digital log end images based on methods inspired by fingerprint and iris-recognition. This work presents a convolutional neural network (CNN) based approach which comprises a CNN-based segmentation of the log end combined with a final CNN-based recognition of the segmented log end using the triplet loss function for CNN training. Results show that the proposed two-stage CNN-based approach outperforms traditional approaches.
翻訳日:2021-04-04 01:43:51 公開日:2021-01-12
# 画像合成におけるきめ細かいセマンティック制約

Fine-grained Semantic Constraint in Image Synthesis ( http://arxiv.org/abs/2101.04558v1 )

ライセンス: Link先を確認
Pengyang Li and Donghui Wang(参考訳) 本稿では,精細な属性とマスクを入力として用いる多段高分解能画像合成モデルを提案する。 提案モデルでは, 微粒化属性を用いて, 得られた画像の特徴を, 属性内の細粒化情報を通じて詳細に制約することができる。 従来のマスクでは,生成した画像が視覚に適合するように制約され,生成する対向ネットワークから生成されたサンプルの予期せぬ多様性が低減される。 また,画像の全体像とサブ領域を同時に識別することで,生成的敵ネットワークの識別能力を向上させる手法を提案する。 さらに,データセットのラベル付き属性を最適化する手法を提案し,手動ラベリングノイズを低減する。 その結果,画像合成モデルはよりリアルな画像を生成することがわかった。

In this paper, we propose a multi-stage and high-resolution model for image synthesis that uses fine-grained attributes and masks as input. With a fine-grained attribute, the proposed model can detailedly constrain the features of the generated image through rich and fine-grained semantic information in the attribute. With mask as prior, the model in this paper is constrained so that the generated images conform to visual senses, which will reduce the unexpected diversity of samples generated from the generative adversarial network. This paper also proposes a scheme to improve the discriminator of the generative adversarial network by simultaneously discriminating the total image and sub-regions of the image. In addition, we propose a method for optimizing the labeled attribute in datasets, which reduces the manual labeling noise. Extensive quantitative results show that our image synthesis model generates more realistic images.
翻訳日:2021-04-04 01:43:21 公開日:2021-01-12
# ファシカルランドマークの高速検出とその応用:調査

Fast Facial Landmark Detection and Applications: A Survey ( http://arxiv.org/abs/2101.10808v1 )

ライセンス: Link先を確認
Kostiantyn Khabarlak, Larysa Koriashkina(参考訳) 本稿では,ニューラルネットワークに基づく顔のランドマーク検出アルゴリズムの探索と解析を行う。 ここ数年で品質が大幅に向上したアプローチは、大きなポーズと感情の多様性、高いレベルの顔隠蔽を備えたデータセットに重点を置いています。 本稿では,300-W,AFLW,WFLW,COF Wという,難易度と最新度のデータセットの品質比較を行った。 さらに、CPU、GPU、モバイルデバイスのアルゴリズム速度を比較します。 完全性については、オープン実装で利用可能な確立されたメソッドについても簡単に触れます。 さらに、ランドマーク検出アルゴリズムのアプリケーションと脆弱性についても取り上げる。 それによって、将来さらなるアルゴリズム改善につながるであろう課題が生まれます。

In this paper we survey and analyze modern neural-network-based facial landmark detection algorithms. We focus on approaches that have led to a significant increase in quality over the past few years on datasets with large pose and emotion variability, high levels of face occlusions - all of which are typical in real-world scenarios. We summarize the improvements into categories, provide quality comparison on difficult and modern in-the-wild datasets: 300-W, AFLW, WFLW, COFW. Additionally, we compare algorithm speed on CPU, GPU and Mobile devices. For completeness, we also briefly touch on established methods with open implementations available. Besides, we cover applications and vulnerabilities of the landmark detection algorithms. Based on which, we raise problems that as we hope will lead to further algorithm improvements in future.
翻訳日:2021-04-04 01:42:30 公開日:2021-01-12
# HighAir:階層型グラフニューラルネットワークによる品質予測手法

HighAir: A Hierarchical Graph Neural Network-Based Air Quality Forecasting Method ( http://arxiv.org/abs/2101.04264v1 )

ライセンス: Link先を確認
Jiahui Xu, Ling Chen, Mingqi Lv, Chaoqun Zhan, Sanjian Chen, Jian Chang(参考訳) 空気質を正確に予測することは、一般市民を肺や心臓病から守るのに不可欠である。 これは、異なる汚染源と様々な影響要因の間の複雑な相互作用のため、難しい課題である。 既存の大気汚染予測手法では,都市と監視局間の大気汚染物質の拡散過程を効果的にモデル化することはできない。 本稿では,エンコーダ・デコーダアーキテクチャを採用し,気象や土地利用など,複雑な空気品質に影響する要因を考慮した階層型グラフニューラルネットワークによる空気品質予測手法を提案する。 具体的には,都市レベルのグラフと駅レベルのグラフを階層的な視点から構築し,都市レベルのパターンと駅レベルのパターンをそれぞれ検討する。 我々は,レベル間インタラクションを実装するために,上位配信と下位更新という2つの戦略を設計し,レベル内インタラクションを実装するためのメッセージパッシング機構を導入する。 風向に基づくエッジウェイトを動的に調整し, 動的要因と空気質の関係をモデル化する。 我々は,61,500km2以内の10大都市をカバーしているヤンツェ川デルタ市のデータセットについて,HighAirと最先端の空気質予測手法を比較した。 実験の結果,HighAirは他の手法よりも優れていた。

Accurately forecasting air quality is critical to protecting general public from lung and heart diseases. This is a challenging task due to the complicated interactions among distinct pollution sources and various other influencing factors. Existing air quality forecasting methods cannot effectively model the diffusion processes of air pollutants between cities and monitoring stations, which may suddenly deteriorate the air quality of a region. In this paper, we propose HighAir, i.e., a hierarchical graph neural network-based air quality forecasting method, which adopts an encoder-decoder architecture and considers complex air quality influencing factors, e.g., weather and land usage. Specifically, we construct a city-level graph and station-level graphs from a hierarchical perspective, which can consider city-level and station-level patterns, respectively. We design two strategies, i.e., upper delivery and lower updating, to implement the inter-level interactions, and introduce message passing mechanism to implement the intra-level interactions. We dynamically adjust edge weights based on wind direction to model the correlations between dynamic factors and air quality. We compare HighAir with the state-of-the-art air quality forecasting methods on the dataset of Yangtze River Delta city group, which covers 10 major cities within 61,500 km2. The experimental results show that HighAir significantly outperforms other methods.
翻訳日:2021-04-04 01:42:22 公開日:2021-01-12
# トランザクション不正検出のための説明可能なディープビヘイビアシーケンスクラスタリング

Explainable Deep Behavioral Sequence Clustering for Transaction Fraud Detection ( http://arxiv.org/abs/2101.04285v1 )

ライセンス: Link先を確認
Wei Min, Weiming Liang, Hang Yin, Zhurong Wang, Mei Li, Alok Lal(参考訳) eコマース業界では、ユーザー行動シーケンスデータは検索や商品販売といった多くのビジネスユニットで製品を改善するために広く使われている。 しかし、その3v特性、すなわち金融サービスで使われることは稀である。 体積、速度、バラエティ - しかし、その非構造的性質のためでもある。 本稿では,金融サービスシナリオの深層学習に基づくクラスタ化行動データ表現手法(findeepbehaviorclus ter)を提案する。 動作シーケンスデータを利用するために,クリックストリームデータをイベントシーケンスとして扱い,時間アテンションに基づくBi-LSTMを用いて,教師なしの方法でシーケンス埋め込みを学習し,リスクエキスパートが生成した直感的な特徴と組み合わせてハイブリッドな特徴表現を形成する。 また, FAISS プロジェクトに基づく HDBSCAN アルゴリズムのエンジニアリング最適化である GPU を用いた HDBSCAN (pHDBSCAN) アルゴリズムを提案する。 アルゴリズムの計算効率は、元の実装に比べて500倍に向上し、フラッシュ詐欺パターン検出が実現された。 実験の結果,提案するFinDeepBehaviorClust erフレームワークは,ビジネス価値の高い不正取引を捕捉できることがわかった。 また、直感的な特徴を用いてリスククラスタからパターンを抽出するためにルール抽出法を適用し、事例調査のためにリスククラスタにナラティブ記述を付加し、未知のリスクパターンをリアルタイム詐欺検出のために掘り出すことができる。 要約すると、FinDeepBehaviorClust erは、既存のリアルタイム不正検出エンジンを補完するリスク管理戦略であり、不正検出と積極的なリスク防御能力をさらに高めることができる。

In e-commerce industry, user behavior sequence data has been widely used in many business units such as search and merchandising to improve their products. However, it is rarely used in financial services not only due to its 3V characteristics - i.e. Volume, Velocity and Variety - but also due to its unstructured nature. In this paper, we propose a Financial Service scenario Deep learning based Behavior data representation method for Clustering (FinDeepBehaviorClus ter) to detect fraudulent transactions. To utilize the behavior sequence data, we treat click stream data as event sequence, use time attention based Bi-LSTM to learn the sequence embedding in an unsupervised fashion, and combine them with intuitive features generated by risk experts to form a hybrid feature representation. We also propose a GPU powered HDBSCAN (pHDBSCAN) algorithm, which is an engineering optimization for the original HDBSCAN algorithm based on FAISS project, so that clustering can be carried out on hundreds of millions of transactions within a few minutes. The computation efficiency of the algorithm has increased 500 times compared with the original implementation, which makes flash fraud pattern detection feasible. Our experimental results show that the proposed FinDeepBehaviorClust er framework is able to catch missed fraudulent transactions with considerable business values. In addition, rule extraction method is applied to extract patterns from risky clusters using intuitive features, so that narrative descriptions can be attached to the risky clusters for case investigation, and unknown risk patterns can be mined for real-time fraud detection. In summary, FinDeepBehaviorClust er as a complementary risk management strategy to the existing real-time fraud detection engine, can further increase our fraud detection and proactive risk defense capabilities.
翻訳日:2021-04-04 01:42:00 公開日:2021-01-12
# マルチタスク学習によるシードストッキング

Seed Stocking Via Multi-Task Learning ( http://arxiv.org/abs/2101.04333v1 )

ライセンス: Link先を確認
Yunhe Feng and Wenjun Zhou(参考訳) 作物種子の販売者は、少なくとも1年は在庫する種子の種類や量を計画する必要がある。 1つの作物には多数の種子品種があり、それぞれが異なる生育条件下で最高の性能を発揮できる。 天候の予測不能を考えると、農家は高い収量と低いリスクのバランスをとる決定を下さなければならない。 種子ベンダーは、農家のニーズを予想し、それらを準備する必要がある。 本研究では,3つの主要なステップで種子需要を推定するための分析フレームワークを提案する。 まず、各品種の収量とリスクを、あたかもそれぞれの場所に植えられたかのように見積もる。 異なる種種を用いた過去の実験は品種間で非常に不均衡であり, 生育条件の組合せは少ないため, 類似品種の情報を借りるためにマルチタスク学習を採用している。 第2に,収量とリスクのトレードオフを求めることにより,各地の種子のベストミックスを決定する。 第3に,このようなミックスを集約して,成長する各場所の収量とリスクを再バランスさせるために,上位5品種を選択します。 マルチタスク学習は収率予測に有効なソリューションであり、全体的な分析フレームワークは優れたパフォーマンスをもたらしています。

Sellers of crop seeds need to plan for the variety and quantity of seeds to stock at least a year in advance. There are a large number of seed varieties of one crop, and each can perform best under different growing conditions. Given the unpredictability of weather, farmers need to make decisions that balance high yield and low risk. A seed vendor needs to be able to anticipate the needs of farmers and have them ready. In this study, we propose an analytical framework for estimating seed demand with three major steps. First, we will estimate the yield and risk of each variety as if they were planted at each location. Since past experiments performed with different seed varieties are highly unbalanced across varieties, and the combination of growing conditions is sparse, we employ multi-task learning to borrow information from similar varieties. Second, we will determine the best mix of seeds for each location by seeking a tradeoff between yield and risk. Third, we will aggregate such mix and pick the top five varieties to re-balance the yield and risk for each growing location. We find that multi-task learning provides a viable solution for yield prediction, and our overall analytical framework has resulted in a good performance.
翻訳日:2021-04-04 01:41:27 公開日:2021-01-12
# エッジIoTソリューションのための信頼性の高いフリート分析

Reliable Fleet Analytics for Edge IoT Solutions ( http://arxiv.org/abs/2101.04414v1 )

ライセンス: Link先を確認
Emmanuel Raj, Magnus Westerlund, Leonardo Espinosa-Leal(参考訳) 近年、iot(internet of things)デバイスのデプロイメントが急増し、ビッグデータと低レイテンシ通信の需要が高まりました。 インフラストラクチャの需要の変化は、IoTアプリケーションに人工知能を使用することで、リアルタイムな意思決定を可能にする。 AIoT(Artificial Intelligence of Things)は、AI(Artificial Intelligence)テクノロジとIoTインフラストラクチャの組み合わせで、堅牢で効率的な操作と意思決定を提供する。 AIoTアプリケーションを実現するためにエッジコンピューティングが登場している。 エッジコンピューティングは、データソースまたはその近くで洞察と意思決定を生成し、クラウドまたは中央リポジトリに送信されるデータ量を削減することができる。 本稿では,エッジにおける機械学習モデル(Edge MLOps)の継続的デリバリ,デプロイメント,監視を可能にするために,AIoTアプリケーションのエッジでの機械学習を容易にするフレームワークを提案する。 コントリビューションは、大規模にフリート分析を提供するためのサービス、ツール、メソッドを含むアーキテクチャである。 本稿では,大学キャンパスの部屋でiotデバイスを用いた実験を行うことで,フレームワークの予備検証を行う。 機械学習実験では,各エッジデバイスに配置したモデルを用いて,各室内の空気質を予測するための多変量時系列予測を行う。 これらの実験により,提案するフリート分析フレームワークの効率性とロバスト性を検証する。

In recent years we have witnessed a boom in Internet of Things (IoT) device deployments, which has resulted in big data and demand for low-latency communication. This shift in the demand for infrastructure is also enabling real-time decision making using artificial intelligence for IoT applications. Artificial Intelligence of Things (AIoT) is the combination of Artificial Intelligence (AI) technologies and the IoT infrastructure to provide robust and efficient operations and decision making. Edge computing is emerging to enable AIoT applications. Edge computing enables generating insights and making decisions at or near the data source, reducing the amount of data sent to the cloud or a central repository. In this paper, we propose a framework for facilitating machine learning at the edge for AIoT applications, to enable continuous delivery, deployment, and monitoring of machine learning models at the edge (Edge MLOps). The contribution is an architecture that includes services, tools, and methods for delivering fleet analytics at scale. We present a preliminary validation of the framework by performing experiments with IoT devices on a university campus's rooms. For the machine learning experiments, we forecast multivariate time series for predicting air quality in the respective rooms by using the models deployed in respective edge devices. By these experiments, we validate the proposed fleet analytics framework for efficiency and robustness.
翻訳日:2021-04-04 01:41:09 公開日:2021-01-12
# 貯水池と貯水池の大陸規模流れのモデリング : 有効性の実証と課題の定式化

Continental-scale streamflow modeling of basins with reservoirs: a demonstration of effectiveness and a delineation of challenges ( http://arxiv.org/abs/2101.04423v1 )

ライセンス: Link先を確認
Wenyu Ouyang, Kathryn Lawson, Dapeng Feng, Lei Ye, Chi Zhang, Chaopeng Shen(参考訳) 主要水路の大部分が流水に影響を与えるダムを有しており、大規模な水理モデルで考慮する必要がある。 しかし,ダムを有する流域の毎日の流量予測は,様々なモデリング手法,特に大規模において困難である。 そこで我々は,情報のみを用いて長期記憶(LSTM)深層学習モデルにより,どのタイプの流域を適切に表現できるかを分割・コンカレントで検討した。 アメリカ合衆国における3557の盆地(83%が減衰)のデータを解析し,貯水池の用途,容量対流出比(dor),流れの流れのディバージョンが流れモデルに及ぼす影響を明らかにした。 驚いたことに、LSTMモデルは広く使われている参照ベースベースデータセットでトレーニングされたが、データセット全体でトレーニングされたモデルは、Nash-Sutcliffe効率係数(NSE)の中央値を示し、ベンチマークレベルのパフォーマンスに達した。 ゼロドール, 小型ドール, 大型ドール盆地は異なる挙動を示し, カテゴリー間での移動モデルにより破滅的な結果が得られた。 しかし、異なるデータセットからプールされたデータを用いたトレーニングでは、これらのグループに対してそれぞれ0.73、0.78、0.71の最適中央値NSEが得られ、既存のモデルに対して顕著な優位性を示した。 これらの結果は、降雨流出プロセスの一部として小さなダムをモデル化するコヒーレントな混合モデリング戦略を支持するが、ダム化された流域を基準として扱う必要はなく、訓練セットに含める必要がある。

A large fraction of major waterways have dams influencing streamflow, which must be accounted for in large-scale hydrologic modeling. However, daily streamflow prediction for basins with dams is challenging for various modeling approaches, especially at large scales. Here we took a divide-and-conquer approach to examine which types of basins could be well represented by a long short-term memory (LSTM) deep learning model using only readily-available information. We analyzed data from 3557 basins (83% dammed) over the contiguous United States and noted strong impacts of reservoir purposes, capacity-to-runoff ratio (dor), and diversion on streamflow on streamflow modeling. Surprisingly, while the LSTM model trained on a widely-used reference-basin dataset performed poorly for more non-reference basins, the model trained on the whole dataset presented a median test Nash-Sutcliffe efficiency coefficient (NSE) of 0.74, reaching benchmark-level performance. The zero-dor, small-dor, and large-dor basins were found to have distinct behaviors, so migrating models between categories yielded catastrophic results. However, training with pooled data from different sets yielded optimal median NSEs of 0.73, 0.78, and 0.71 for these groups, respectively, showing noticeable advantages over existing models. These results support a coherent, mixed modeling strategy where smaller dams are modeled as part of rainfall-runoff processes, but dammed basins must not be treated as reference ones and must be included in the training set; then, large-dor reservoirs can be represented explicitly and future work should examine modeling reservoirs for fire protection and irrigation, followed by those for hydroelectric power generation, and flood control, etc.
翻訳日:2021-04-04 01:40:49 公開日:2021-01-12
# 消費税の不正理解のための進化的ゲームモデル

An Evolutionary Game Model for Understanding Fraud in Consumption Taxes ( http://arxiv.org/abs/2101.04424v1 )

ライセンス: Link先を確認
M. Chica and J. Hernandez and C. Manrique-de-Lara-Pe\ ~nate and R. Chiong(参考訳) 本稿では,消費税体系における不正行為のダイナミクスを研究・理解するための計算進化ゲームモデルを提案する。 プレイヤーは、価値付加税(vat)を正しく宣言した場合は協力者であり、そうでない場合は離反者である。 各プレイヤーの支払いは、回避された金額と税務当局によって検査される主観的確率に影響される。 企業間の取引は買い手と売り手の両方が宣言しなければならないため、一方が採用する戦略は他方の支払いに影響を与える。 我々は,このモデルについて,個体群と異なるスケールフリーネットワークを用いて検討する。 スペイン・カナリア諸島に登録された企業によるVAT宣言の実際のデータを用いて,モデルパラメータを校正した。 我々は,高低取引における監査確率のシナリオと人口の頻度,社会報酬や罰則を分析し,協力者の比率を高めるための最も効率的な政策を見出すことができた。 2つの大きな洞察が得られた。 第一に、低取引に対する主観的な監査確率の増加は、高取引に対するこの確率の増加よりも効率的である。 第二に、協力者に対する社会的報酬や、欠陥者に対する代替罰が効果的な政策であり得るが、その成功は、低取引と高取引の監査確率の分布に依存する。

This paper presents a computational evolutionary game model to study and understand fraud dynamics in the consumption tax system. Players are cooperators if they correctly declare their value added tax (VAT), and are defectors otherwise. Each player's payoff is influenced by the amount evaded and the subjective probability of being inspected by tax authorities. Since transactions between companies must be declared by both the buyer and seller, a strategy adopted by one influences the other's payoff. We study the model with a well-mixed population and different scale-free networks. Model parameters were calibrated using real-world data of VAT declarations by businesses registered in the Canary Islands region of Spain. We analyzed several scenarios of audit probabilities for high and low transactions and their prevalence in the population, as well as social rewards and penalties to find the most efficient policy to increase the proportion of cooperators. Two major insights were found. First, increasing the subjective audit probability for low transactions is more efficient than increasing this probability for high transactions. Second, favoring social rewards for cooperators or alternative penalties for defectors can be effective policies, but their success depends on the distribution of the audit probability for low and high transactions.
翻訳日:2021-04-04 01:39:48 公開日:2021-01-12
# 説明可能性の拡大:AIシステムにおける社会的透明性を目指して

Expanding Explainability: Towards Social Transparency in AI systems ( http://arxiv.org/abs/2101.04719v1 )

ライセンス: Link先を確認
Upol Ehsan, Q. Vera Liao, Michael Muller, Mark O. Riedl, Justin D. Weisz(参考訳) AIを利用したシステムは、連続的な意思決定を仲介する傾向にあるため、エンドユーザーが情報と説明責任を負う行動を取ることが重要である。 人間と人間の相互作用の説明は社会的に構成されている。 AIシステムはしばしば社会組織に組み込まれる。 しかし、説明可能なAI(XAI)アプローチは主にアルゴリズム中心である。 我々は、社会的な組織的文脈をAIによる意思決定の説明に取り入れた社会的透明性(Social Transparency, ST)を導入し、探求することで、社会的なXAIへの発展的な一歩を踏み出した。 stを概念的に探究するため,我々は投機的設計シナリオに基づく29人のaiユーザと実践者とのインタビューを行った。 我々はSTの構成的設計要素を提案し、STの効果と含意を技術、意思決定、組織レベルで解き放つ概念的枠組みを開発した。 このフレームワークは、STがAIに対する信頼を校正し、意思決定を改善し、組織的な集団行動を促進し、全体的説明責任を育む方法について説明している。 本研究は, XAI の設計空間を拡大し,人間中心型 XAI の言説に寄与する。

As AI-powered systems increasingly mediate consequential decision-making, their explainability is critical for end-users to take informed and accountable actions. Explanations in human-human interactions are socially-situated. AI systems are often socio-organizational ly embedded. However, Explainable AI (XAI) approaches have been predominantly algorithm-centered. We take a developmental step towards socially-situated XAI by introducing and exploring Social Transparency (ST), a sociotechnically informed perspective that incorporates the socio-organizational context into explaining AI-mediated decision-making. To explore ST conceptually, we conducted interviews with 29 AI users and practitioners grounded in a speculative design scenario. We suggested constitutive design elements of ST and developed a conceptual framework to unpack ST's effect and implications at the technical, decision-making, and organizational level. The framework showcases how ST can potentially calibrate trust in AI, improve decision-making, facilitate organizational collective actions, and cultivate holistic explainability. Our work contributes to the discourse of Human-Centered XAI by expanding the design space of XAI.
翻訳日:2021-04-04 01:39:27 公開日:2021-01-12
# 肺疾患におけるct画像の定量および自動解析のための患者別アプローチ--covid-19患者への応用

A patient-specific approach for quantitative and automatic analysis of computed tomography images in lung disease: application to COVID-19 patients ( http://arxiv.org/abs/2101.04430v1 )

ライセンス: Link先を確認
L. Berta, C. De Mattia, F. Rizzetto, S. Carrazza, P.E. Colombo, R. Fumagalli, T. Langer, D. Lizio, A. Vanzulli, A. Torresin(参考訳) 肺CT画像の定量的な計測は広く用いられており、しばしば生理学との明確なつながりがない。 本研究は,CT画像(WAVE)における肺の高度評価のための患者非依存モデルを提案する。 肺の下部CTヒストグラムデータポイントに平均 (Mu.f) と幅 (Sigma.f) のガウスフィットを適用し, よく評価された肺体積 (WAVE.f) を推定した。 肺CT画像と4DCT画像を用いて,CT再建パラメータと呼吸周期の独立性を解析した。 第3のコホートで算出されたガウス測定値と第1の放射線学的特徴を健康な肺と比較した。 各肺はさらに24領域に区分され, 局所密度変化を表すため, ガウスフィットパラメータmu.f由来の新しいバイオマーカーが提案されている。 WAVE.fは80%の症例で呼吸運動から独立していた。 1%, 2%, 最大14%の違いは, 適度な反復強度とFBPアルゴリズム, 1mm, 3mmのスライス厚, 異なる再構成カーネルを比較した。 健康な被験者は、計算されたすべての指標について、COVID-19患者と大きく異なっていた。 局所バイオマーカーのグラフィカル表現は、単一の2次元画像において空間的および定量的情報を提供する。 固定ヒストグラム閾値に基づく他の指標とは異なり、このモデルは物体間および物体内変動性を考えることができる。 さらに、観察者とは独立に、病気の重症度を定量化するための局所バイオマーカーを定義する。

Quantitative metrics in lung computed tomography (CT) images have been widely used, often without a clear connection with physiology. This work proposes a patient-independent model for the estimation of well-aerated volume of lungs in CT images (WAVE). A Gaussian fit, with mean (Mu.f) and width (Sigma.f) values, was applied to the lower CT histogram data points of the lung to provide the estimation of the well-aerated lung volume (WAVE.f). Independence from CT reconstruction parameters and respiratory cycle was analysed using healthy lung CT images and 4DCT acquisitions. The Gaussian metrics and first order radiomic features calculated for a third cohort of COVID-19 patients were compared with those relative to healthy lungs. Each lung was further segmented in 24 subregions and a new biomarker derived from Gaussian fit parameter Mu.f was proposed to represent the local density changes. WAVE.f resulted independent from the respiratory motion in 80% of the cases. Differences of 1%, 2% and up to 14% resulted comparing a moderate iterative strength and FBP algorithm, 1 and 3 mm of slice thickness and different reconstruction kernel. Healthy subjects were significantly different from COVID-19 patients for all the metrics calculated. Graphical representation of the local biomarker provides spatial and quantitative information in a single 2D picture. Unlike other metrics based on fixed histogram thresholds, this model is able to consider the inter-and intra-subject variability. In addition, it defines a local biomarker to quantify the severity of the disease, independently of the observer.
翻訳日:2021-04-04 01:39:08 公開日:2021-01-12
# KuzborskijとSzepesv\'ariの信頼境界について

A note on a confidence bound of Kuzborskij and Szepesv\'ari ( http://arxiv.org/abs/2101.04671v1 )

ライセンス: Link先を確認
Omar Rivasplata(参考訳) 興味深い最近の研究で、Kuzborskij と Szepesv\'ari は独立確率変数の函数に対する信頼度を導出した。 Kuzborskij と Szepesv\'ari は PAC-Bayes-ification of their confidence bound も設立した。 彼らの研究の2つの重要な側面は、確率変数が非有界な範囲であり、必ずしも同じ分布であるとは限らないことである。 このノートの目的は、これらの興味深い結果を合理化して宣伝し、議論することである。 この公開ノートは、例え「フィーチャー映画」を楽しみながらプレビューシーケンスをスキップする人のために書かれています。

In an interesting recent work, Kuzborskij and Szepesv\'ari derived a confidence bound for functions of independent random variables, which is based on an inequality that relates concentration to squared perturbations of the chosen function. Kuzborskij and Szepesv\'ari also established the PAC-Bayes-ification of their confidence bound. Two important aspects of their work are that the random variables could be of unbounded range, and not necessarily of an identical distribution. The purpose of this note is to advertise/discuss these interesting results, with streamlined proofs. This expository note is written for persons who, metaphorically speaking, enjoy the "featured movie" but prefer to skip the preview sequence.
翻訳日:2021-04-04 01:38:41 公開日:2021-01-12
# 自己教師あり表現学習による画像からの銀河距離の推定

Estimating Galactic Distances From Images Using Self-supervised Representation Learning ( http://arxiv.org/abs/2101.04293v1 )

ライセンス: Link先を確認
Md Abul Hayat, Peter Harrington, George Stein, Zarija Luki\'c, Mustafa Mustafa(参考訳) 対照的な自己教師付き学習フレームワークを用いて、光度画像から銀河の距離を推定する。 我々は、コンピュータビジョンからのデータ拡張と、銀河塵のアプリケーション固有の拡張を取り入れた。 結果として得られる銀河画像の視覚的表現は意味的に有用であり、高速に類似性検索が可能であり、赤方偏移推定のタスクでうまく微調整できることがわかった。 本研究では,(1)ラベルなしデータの大規模なコーパスを事前学習し,(2)ラベル付きデータに2-4倍の精度を必要とする完全教師付きモデルの精度を達成できること,(2)Sloan Digital Sky Survey (SDSS)のMain Galaxy Sampleにあるすべてのデータラベルを用いて自己教師付き表現を微調整することにより,最先端の教師付き学習手法よりも優れていることを示す。

We use a contrastive self-supervised learning framework to estimate distances to galaxies from their photometric images. We incorporate data augmentations from computer vision as well as an application-specific augmentation accounting for galactic dust. We find that the resulting visual representations of galaxy images are semantically useful and allow for fast similarity searches, and can be successfully fine-tuned for the task of redshift estimation. We show that (1) pretraining on a large corpus of unlabeled data followed by fine-tuning on some labels can attain the accuracy of a fully-supervised model which requires 2-4x more labeled data, and (2) that by fine-tuning our self-supervised representations using all available data labels in the Main Galaxy Sample of the Sloan Digital Sky Survey (SDSS), we outperform the state-of-the-art supervised learning method.
翻訳日:2021-04-04 01:38:28 公開日:2021-01-12
# CAnet:深層学習を用いたFDD大規模MIMOにおけるアップリンク支援ダウンリンクチャネル獲得

CAnet: Uplink-aided Downlink Channel Acquisition in FDD Massive MIMO using Deep Learning ( http://arxiv.org/abs/2101.04377v1 )

ライセンス: Link先を確認
Jiajia Guo, Chao-Kai Wen, Shi Jin(参考訳) 周波数分割二重化システムでは、ダウンリンクチャネル状態情報(CSI)取得方式は高いトレーニングとフィードバックのオーバーヘッドをもたらす。 本稿では,これらのオーバーヘッドを軽減するために,ディープラーニングを用いたアップリンク支援ダウンリンクチャネル獲得フレームワークを提案する。 チャネル推定やフィードバックモジュールのみに焦点を当てた既存の作業とは異なり、私たちの知る限りでは、ダウンリンクパイロット設計、チャネル推定、フィードバックを含む、ダウンリンクCSI取得プロセス全体を考慮した最初の研究である。 まず,角領域の双方向チャネル間の相関を利用して適応的なパイロット設計モジュールを提案し,チャネル推定を改善する。 次に、フィードバックモジュール中のビット割り当て問題を回避するため、複雑なチャネルを結合し、基地局のチャネル再構成にアップリンクチャネルの大きさを埋め込む。 最後に、上記の2つのモジュールを組み合わせて、2つの人気のあるダウンリンクチャネル獲得フレームワークを比較します。 前者のフレームワークは、その後、ユーザ機器のチャネルを推定し、返送する。 後者のユーザ装置は、受信したパイロット信号を基地局に直接送り返す。 その結果、アップリンクの助けを借りて、パイロット信号を直接フィードバックすることで、約20%のフィードバックビットを節約できることがわかった。

In frequency-division duplexing systems, the downlink channel state information (CSI) acquisition scheme leads to high training and feedback overheads. In this paper, we propose an uplink-aided downlink channel acquisition framework using deep learning to reduce these overheads. Unlike most existing works that focus only on channel estimation or feedback modules, to the best of our knowledge, this is the first study that considers the entire downlink CSI acquisition process, including downlink pilot design, channel estimation, and feedback. First, we propose an adaptive pilot design module by exploiting the correlation in magnitude among bidirectional channels in the angular domain to improve channel estimation. Next, to avoid the bit allocation problem during the feedback module, we concatenate the complex channel and embed the uplink channel magnitude to the channel reconstruction at the base station. Lastly, we combine the above two modules and compare two popular downlink channel acquisition frameworks. The former framework estimates and feeds back the channel at the user equipment subsequently. The user equipment in the latter one directly feeds back the received pilot signals to the base station. Our results reveal that, with the help of uplink, directly feeding back the pilot signals can save approximately 20% of feedback bits, which provides a guideline for future research.
翻訳日:2021-04-04 01:38:08 公開日:2021-01-12
# 放射線特徴とコントラスト学習を用いた胸部X線上の肺炎検出

Pneumonia Detection on Chest X-ray using Radiomic Features and Contrastive Learning ( http://arxiv.org/abs/2101.04269v1 )

ライセンス: Link先を確認
Yan Han, Chongyan Chen, Ahmed H Tewfik, Ying Ding, Yifan Peng(参考訳) 胸部X線は非侵襲性から最も一般的な診断の1つである。 胸部X線画像の数は急上昇したが、胸部X線を読むのは放射線技師が手動で行い、火傷や遅延が発生する。 医学画像から多くの定量的特徴を抽出できる放射線学のサブフィールドとして伝統的にラジオミクスは、深層学習時代以前の医療画像診断を容易にする可能性を示している。 深層学習の台頭に伴い、胸部X線診断における深部ニューラルネットワークの説明可能性はまだ不透明である。 本研究では,胸部x線中の肺炎をx線学的特徴と対比学習を用いて検出する新しい枠組みを提案する。 rsna肺炎検出チャレンジデータセットを用いた実験により,いくつかの最先端モデル(f1-scoreでは10%以上)に対して優れた結果が得られ,モデルの解釈性が向上した。

Chest X-ray becomes one of the most common medical diagnoses due to its noninvasiveness. The number of chest X-ray images has skyrocketed, but reading chest X-rays still have been manually performed by radiologists, which creates huge burnouts and delays. Traditionally, radiomics, as a subfield of radiology that can extract a large number of quantitative features from medical images, demonstrates its potential to facilitate medical imaging diagnosis before the deep learning era. With the rise of deep learning, the explainability of deep neural networks on chest X-ray diagnosis remains opaque. In this study, we proposed a novel framework that leverages radiomics features and contrastive learning to detect pneumonia in chest X-ray. Experiments on the RSNA Pneumonia Detection Challenge dataset show that our model achieves superior results to several state-of-the-art models (> 10% in F1-score) and increases the model's interpretability.
翻訳日:2021-04-04 01:37:49 公開日:2021-01-12
# LiDARおよびカメラセンサセットアップの自動外部校正法

Automatic Extrinsic Calibration Method for LiDAR and Camera Sensor Setups ( http://arxiv.org/abs/2101.04431v1 )

ライセンス: Link先を確認
Jorge Beltr\'an, Carlos Guindel, Fernando Garc\'ia(参考訳) ほとんどのセンサーはlidarと視覚システムで構成されており、ロバストなシーン理解を得るために必要な異なるアルゴリズムの信頼性を向上させる補完的情報を提供する。 しかし、異なるソースからの情報の効果的な使用には、関連するセンサー間の正確なキャリブレーションが必要である。 そこで本研究では,LiDAR,モノクラーカメラ,ステレオカメラを含むセンサ対の外部パラメータを同一あるいは異なるモードで校正する手法を提案する。 第1に、カスタム校正対象に属する基準点を校正するセンサによって提供されるデータから抽出し、第2に、両点セットの登録により最適な剛性変換を求める。 提案手法は、通常車両のセットアップで見られるように、非常に異なる解像度とポーズのデバイスを扱うことができる。 提案手法の性能を評価するため,一般的なシミュレーションフレームワーク上に構築された新しい評価スイートを紹介した。 合成環境における実験により, キャリブレーションアルゴリズムは既存の手法よりも有意に優れており, 実データテストは評価スイートで得られた結果と相関することがわかった。 オープンソースコードはhttps://github.com/b eltransen/velo2cam_c alibrationで入手できる。

Most sensor setups for onboard autonomous perception are composed of LiDARs and vision systems, as they provide complementary information that improves the reliability of the different algorithms necessary to obtain a robust scene understanding. However, the effective use of information from different sources requires an accurate calibration between the sensors involved, which usually implies a tedious and burdensome process. We present a method to calibrate the extrinsic parameters of any pair of sensors involving LiDARs, monocular or stereo cameras, of the same or different modalities. The procedure is composed of two stages: first, reference points belonging to a custom calibration target are extracted from the data provided by the sensors to be calibrated, and second, the optimal rigid transformation is found through the registration of both point sets. The proposed approach can handle devices with very different resolutions and poses, as usually found in vehicle setups. In order to assess the performance of the proposed method, a novel evaluation suite built on top of a popular simulation framework is introduced. Experiments on the synthetic environment show that our calibration algorithm significantly outperforms existing methods, whereas real data tests corroborate the results obtained in the evaluation suite. Open-source code is available at https://github.com/b eltransen/velo2cam_c alibration
翻訳日:2021-04-04 01:37:33 公開日:2021-01-12
# 野生における共同脱塩・脱鼻--地底不確かさ下での訓練を事例として

Joint Demosaicking and Denoising in the Wild: The Case of Training Under Ground Truth Uncertainty ( http://arxiv.org/abs/2101.04442v1 )

ライセンス: Link先を確認
Jierun Chen, Song Wen, S.-H. Gary Chan(参考訳) デジタルカメラパイプラインにおける2つの基本的なステップは、ノイズの多い輝度からクリーンなカラーイメージを再構築することである。 本稿では,野生における共同解体・復調のための新しい学習フレームワークであるWild-JDDを提案し,研究する。 トレーニングデータの基底的真理が現実の完全な反映であると一般的に仮定する先行研究とは対照的に、ここでは野生における基底的真理の不確かさのより一般的な不完全なケースを考察する。 まず, ジッパー効果, カラーモアレ, 残留雑音など, 様々な種類の人工物として現れることを示す。 次に,2段階データ分解過程を定式化し,基底分布に共役事前分布を課すような基礎的真理不確かさを捉える。 その後、劣化した入力に基づいて条件付けられた共役事前分布のパラメータを近似するニューラルネットワークを訓練するために、下限値(elbo)損失の証拠を導出する。 最後に, 分散型入力の性能をさらに高めるために, 入力を弱い情報量優先にすることで, 単純かつ効果的な微調整戦略を考案する。 基礎的な真実の不確実性を考慮すると、Wild-JDDは最適化の間、よく解釈可能である。 広範な実験によって、合成データセットとリアルデータセットの両方で、共同デモサイクリングとデノイジングタスクで最先端のスキームを上回ることが検証された。

Image demosaicking and denoising are the two key fundamental steps in digital camera pipelines, aiming to reconstruct clean color images from noisy luminance readings. In this paper, we propose and study Wild-JDD, a novel learning framework for joint demosaicking and denoising in the wild. In contrast to previous works which generally assume the ground truth of training data is a perfect reflection of the reality, we consider here the more common imperfect case of ground truth uncertainty in the wild. We first illustrate its manifestation as various kinds of artifacts including zipper effect, color moire and residual noise. Then we formulate a two-stage data degradation process to capture such ground truth uncertainty, where a conjugate prior distribution is imposed upon a base distribution. After that, we derive an evidence lower bound (ELBO) loss to train a neural network that approximates the parameters of the conjugate prior distribution conditioned on the degraded input. Finally, to further enhance the performance for out-of-distribution input, we design a simple but effective fine-tuning strategy by taking the input as a weakly informative prior. Taking into account ground truth uncertainty, Wild-JDD enjoys good interpretability during optimization. Extensive experiments validate that it outperforms state-of-the-art schemes on joint demosaicking and denoising tasks on both synthetic and realistic raw datasets.
翻訳日:2021-04-04 01:37:13 公開日:2021-01-12
# Binary TTC: 自律ナビゲーションのための時間ジオフェンス

Binary TTC: A Temporal Geofence for Autonomous Navigation ( http://arxiv.org/abs/2101.04777v1 )

ライセンス: Link先を確認
Abhishek Badki, Orazio Gallo, Jan Kautz, Pradeep Sen(参考訳) タイム・トゥ・コンタクト(TTC、Time-to-Contact)は、物体が観測者の飛行機と衝突する時であり、経路計画のための強力なツールである。 TTCには、単眼カメラのみを必要とするなど、いくつかの利点がある。 しかし、各画素に対するTTCの回帰は簡単ではなく、既存のほとんどの手法はシーンに関する仮定を単純化する。 この課題に対処するために、TTCを単純なバイナリ分類によって推定する。 我々は、観測者が一定の時間内に障害物と衝突するかどうかを低レイテンシで予測する。 このようなシナリオでは、従来の方法よりも25倍以上高速で6.4ミリ秒の時間的測地を提供する。 提案手法は,計算予算が許す場合,任意に微細な量子化(連続値を含む)で画素当たりのTTCを推定できる。 我々の知識を最大限に活用するために,本手法は初めて,十分高いフレームレートでTCC情報(バイナリまたは粗い量子化)を提供する。

Time-to-contact (TTC), the time for an object to collide with the observer's plane, is a powerful tool for path planning: it is potentially more informative than the depth, velocity, and acceleration of objects in the scene -- even for humans. TTC presents several advantages, including requiring only a monocular, uncalibrated camera. However, regressing TTC for each pixel is not straightforward, and most existing methods make over-simplifying assumptions about the scene. We address this challenge by estimating TTC via a series of simpler, binary classifications. We predict with low latency whether the observer will collide with an obstacle within a certain time, which is often more critical than knowing exact, per-pixel TTC. For such scenarios, our method offers a temporal geofence in 6.4 ms -- over 25x faster than existing methods. Our approach can also estimate per-pixel TTC with arbitrarily fine quantization (including continuous values), when the computational budget allows for it. To the best of our knowledge, our method is the first to offer TTC information (binary or coarsely quantized) at sufficiently high frame-rates for practical use.
翻訳日:2021-04-04 01:36:32 公開日:2021-01-12
# ドメインフリーな医用画像拡張のための生成逆U-Net

Generative Adversarial U-Net for Domain-free Medical Image Augmentation ( http://arxiv.org/abs/2101.04793v1 )

ライセンス: Link先を確認
Xiaocong Chen and Yun Li and Lina Yao and Ehsan Adeli and Yu Zhang(参考訳) 注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。 十分な数のトレーニングサンプルがなければ、ディープラーニングベースのモデルは過剰フィッティングの問題に苦しむ可能性が高い。 一般的な解決策は、画像回転、トリミング、リサイズなどの画像操作である。 これらの方法は、より多くのトレーニングサンプルが導入されるにつれて、過度に適合する問題を緩和するのに役立ちます。 しかし、追加情報を持つ新しい画像を導入することはなく、テストセットがトレーニングセットに現れる類似のサンプルを含む可能性があるため、データ漏洩につながる可能性がある。 この課題に対処するために,生成型逆ネットワークを用いた多様な画像を生成することを提案する。 本稿では, 生成逆ネットワークとU-Netの両方を利用する, 生成逆ネットワークと呼ばれる新しい生成手法を開発する。 既存のアプローチとは異なり、新しく設計されたモデルはドメインフリーで、様々な医療画像に一般化できる。 コンピュータ断層撮影(CT)スキャン,病理学,X線など,8つの多様なデータセットに対して大規模な実験を行った。 可視化と定量化により,提案手法の有効性を実証し,高画質な医用画像の生成に有効であることを示す。

The shortage of annotated medical images is one of the biggest challenges in the field of medical image computing. Without a sufficient number of training samples, deep learning based models are very likely to suffer from over-fitting problem. The common solution is image manipulation such as image rotation, cropping, or resizing. Those methods can help relieve the over-fitting problem as more training samples are introduced. However, they do not really introduce new images with additional information and may lead to data leakage as the test set may contain similar samples which appear in the training set. To address this challenge, we propose to generate diverse images with generative adversarial network. In this paper, we develop a novel generative method named generative adversarial U-Net , which utilizes both generative adversarial network and U-Net. Different from existing approaches, our newly designed model is domain-free and generalizable to various medical images. Extensive experiments are conducted over eight diverse datasets including computed tomography (CT) scan, pathology, X-ray, etc. The visualization and quantitative results demonstrate the efficacy and good generalization of the proposed method on generating a wide array of high-quality medical images.
翻訳日:2021-04-04 01:36:13 公開日:2021-01-12
# トレース比最適化と多視点学習への応用

Trace Ratio Optimization with an Application to Multi-view Learning ( http://arxiv.org/abs/2101.04292v1 )

ライセンス: Link先を確認
Li Wang and Lei-Hong Zhang and Ren-Cang Li(参考訳) スティーフェル多様体上のトレース比最適化問題について,理論と数値計算の両方の観点から検討した。 この問題は,フィッシャー線形判別分析,正準相関解析,非平衡散逸問題から,少なくとも3つの特別な事例が生じた。 固有ベクトル依存性を持つ非線形固有値問題の形で必要条件が確立され、自己整合体(SCF)反復に基づく数値法が設計され、常に収束することが証明された。 多視点サブスペース学習の応用として,実世界データセット上で新しいフレームワークとそのインスタンス化された具体モデルを提案する。 数値実験の結果,提案手法の有効性と新しい多視点部分空間学習モデルの有効性が示された。

A trace ratio optimization problem over the Stiefel manifold is investigated from the perspectives of both theory and numerical computations. At least three special cases of the problem have arisen from Fisher linear discriminant analysis, canonical correlation analysis, and unbalanced Procrustes problem, respectively. Necessary conditions in the form of nonlinear eigenvalue problem with eigenvector dependency are established and a numerical method based on the self-consistent field (SCF) iteration is designed and proved to be always convergent. As an application to multi-view subspace learning, a new framework and its instantiated concrete models are proposed and demonstrated on real world data sets. Numerical results show that the efficiency of the proposed numerical methods and effectiveness of the new multi-view subspace learning models.
翻訳日:2021-04-04 01:35:57 公開日:2021-01-12
# NeurIPS 2020 Workshop on Machine Learning for the Development World: Improving Resilience」の開催報告

Proceedings of the NeurIPS 2020 Workshop on Machine Learning for the Developing World: Improving Resilience ( http://arxiv.org/abs/2101.04347v1 )

ライセンス: Link先を確認
Tejumade Afonja, Konstantin Klemmer, Aya Salama, Paula Rodriguez Diaz, Niveditha Kalavakonda, Oluwafemi Azeez(参考訳) 以下は、2020年12月12日土曜日に開催された第43回NeurIPS Conference on Neural Information Processing Systems (NeurIPS)の一部として開催されるML4D(Machine Learning for the developing World)の第4回ワークショップの手順である。

These are the proceedings of the 4th workshop on Machine Learning for the Developing World (ML4D), held as part of the Thirty-fourth Conference on Neural Information Processing Systems (NeurIPS) on Saturday, December 12th 2020.
翻訳日:2021-04-04 01:35:45 公開日:2021-01-12
# 活性化密度に基づくエネルギー効率の良いニューラルネットワークの混合精度量子化

Activation Density based Mixed-Precision Quantization for Energy Efficient Neural Networks ( http://arxiv.org/abs/2101.04354v1 )

ライセンス: Link先を確認
Karina Vasquez, Yeshwanth Venkatesha, Abhiroop Bhattacharjee, Abhishek Moitra, Priyadarshini Panda(参考訳) ニューラルネットワークが組み込みデバイスで広く普及するにつれて、リソース制約のある環境への展開を容易にするためのモデル圧縮技術が必要である。 量子化は最先端のモデル圧縮をもたらすゴートメソッドの1つである。 ほとんどのアプローチは、完全に訓練されたモデルを採用し、異なるヒューリスティックを適用して、ネットワークの異なる層に対して最適なビット精度を決定する。 活性化密度 (AD) に基づいて, 層内の非ゼロ活性化の比率を推定し, イントレーニング量子化法を提案する。 本手法は,混合精度モデルによる学習中の各層に対するビット幅を計算する。 トレーニング中に精度の低いモデルをトレーニングするため、このアプローチはトレーニング複雑性の低い最終量子化モデルをもたらし、再トレーニングの必要性も排除します。 我々は、VGG19/ResNet18アーキテクチャ上で、CIFAR-10、CIFAR-100、TinyImagenetなどのベンチマークデータセットで実験を行い、その精度とエネルギー推定を報告する。 推定乗算累積 (MAC) の削減と, トレーニングの複雑さを50%減らすことで, 4.5倍の利点が得られる。 提案手法の省エネルギー効果を更に評価するため,pim(mixed-precision scalable process in memory)ハードウェアアクセラレーションプラットフォームを開発した。 ハードウェアプラットフォームには、マルチビット精密ニューラルネットワークモデルを扱うためのシフト付加機能が含まれている。 提案手法を用いて得られた量子化モデルをPIMプラットフォーム上で評価すると,16ビットモデルと比較して約5倍のエネルギー削減が得られる。 さらに,広告ベースの量子化と広告ベースのプルーニング(どちらもトレーニング中)を統合すると,vgg19とresnet18アーキテクチャの最大198倍,44倍のエネルギー削減がpcmプラットフォーム上で実現されることが分かった。

As neural networks gain widespread adoption in embedded devices, there is a need for model compression techniques to facilitate deployment in resource-constrained environments. Quantization is one of the go-to methods yielding state-of-the-art model compression. Most approaches take a fully trained model, apply different heuristics to determine the optimal bit-precision for different layers of the network, and retrain the network to regain any drop in accuracy. Based on Activation Density (AD)-the proportion of non-zero activations in a layer-we propose an in-training quantization method. Our method calculates bit-width for each layer during training yielding a mixed precision model with competitive accuracy. Since we train lower precision models during training, our approach yields the final quantized model at lower training complexity and also eliminates the need for re-training. We run experiments on benchmark datasets like CIFAR-10, CIFAR-100, TinyImagenet on VGG19/ResNet18 architectures and report the accuracy and energy estimates for the same. We achieve ~4.5x benefit in terms of estimated multiply-and-accumul ate (MAC) reduction while reducing the training complexity by 50% in our experiments. To further evaluate the energy benefits of our proposed method, we develop a mixed-precision scalable Process In Memory (PIM) hardware accelerator platform. The hardware platform incorporates shift-add functionality for handling multi-bit precision neural network models. Evaluating the quantized models obtained with our proposed method on the PIM platform yields ~5x energy reduction compared to 16-bit models. Additionally, we find that integrating AD based quantization with AD based pruning (both conducted during training) yields up to ~198x and ~44x energy reductions for VGG19 and ResNet18 architectures respectively on PIM platform compared to baseline 16-bit precision, unpruned models.
翻訳日:2021-04-04 01:35:38 公開日:2021-01-12
# 機械学習による新しい半導体の解釈可能な発見

Interpretable discovery of new semiconductors with machine learning ( http://arxiv.org/abs/2101.04383v1 )

ライセンス: Link先を確認
Hitarth Choubisa (1), Petar Todorovi\'c (1), Joao M. Pina (1), Darshan H. Parmar (1), Ziliang Li (1), Oleksandr Voznyy (4), Isaac Tamblyn (2,3), Edward Sargent (1) ((1) Department of Electrical and Computer Engineering, University of Toronto, Toronto, ON, Canada, (2) National Research Council of Canada, Ottawa, ON, Canada, (3) Vector Institute for Artificial Intelligence, Toronto, ON, Canada, (4) Department of Physical and Environmental Sciences, University of Toronto, Scarborough, ON, Canada)(参考訳) ディープラーニングモデルは、密度汎関数理論(DFT)で計算された結果を、DFT$^{6}$のコストの10万分の1で再現する。 実験材料合成におけるガイダンスを提供するには, 正確かつ効果的な探索アルゴリズムと, 実験観測と整合したトレーニングデータを組み合わせる必要がある。 本稿では,Deep Adaptive Regressive Weighted Intelligent Network (DARWIN) を用いて,高スループットハイブリッドDFTデータに基づいて学習したマシン学習サロゲートモデルを用いた進化的アルゴリズムを報告する。 この戦略は、対象特性を持つ候補に対して、10$^8$三元および10$^{11}$四元数$^{7}$の材料空間の効率的な探索を可能にする。 ハロゲン化物とBサイトカチオンの電気陰性度の違いが3次構造安定性の強い予測因子であることの発見など、解釈可能な設計規則を提供する。 例えば、紫外線放射を求めるとき、DARWINはその電子陰性率差に基づいて、K$_2$CuX$_3$ (X = Cl, Br) を有望な物質族として予測する。 我々はこれらの物質を、安定で直接バンドギャップUVエミッタとして合成し、発見した。 このアプローチは、人間が使用する知識蒸留も可能にする。

Machine learning models of materials$^{1-5}$ accelerate discovery compared to ab initio methods: deep learning models now reproduce density functional theory (DFT)-calculated results at one hundred thousandths of the cost of DFT$^{6}$. To provide guidance in experimental materials synthesis, these need to be coupled with an accurate yet effective search algorithm and training data consistent with experimental observations. Here we report an evolutionary algorithm powered search which uses machine-learned surrogate models trained on high-throughput hybrid functional DFT data benchmarked against experimental bandgaps: Deep Adaptive Regressive Weighted Intelligent Network (DARWIN). The strategy enables efficient search over the materials space of ~10$^8$ ternaries and 10$^{11}$ quaternaries$^{7}$ for candidates with target properties. It provides interpretable design rules, such as our finding that the difference in the electronegativity between the halide and B-site cation being a strong predictor of ternary structural stability. As an example, when we seek UV emission, DARWIN predicts K$_2$CuX$_3$ (X = Cl, Br) as a promising materials family, based on its electronegativity difference. We synthesized and found these materials to be stable, direct bandgap UV emitters. The approach also allows knowledge distillation for use by humans.
翻訳日:2021-04-04 01:35:04 公開日:2021-01-12
# 二成分ニューラルネットワークによる高出力IoTデバイス上の音事象検出

Sound Event Detection with Binary Neural Networks on Tightly Power-Constrained IoT Devices ( http://arxiv.org/abs/2101.04446v1 )

ライセンス: Link先を確認
Gianmarco Cerutti, Renzo Andri, Lukas Cavigelli, Michele Magno, Elisabetta Farella, Luca Benini(参考訳) サウンドイベント検出(SED)は、消費者およびスマートシティアプリケーションにおいてホットなトピックである。 ディープニューラルネットワークに基づく既存のアプローチは非常に効果的だが、超低消費電力の常時オンデバイスをターゲットにする場合、メモリ、電力、スループットの面で非常に要求される。 レイテンシ、可用性、コスト、プライバシ要件は、最新のIoTシステムに対して、センサに近いノード上でデータを処理し、非常に限られたエネルギー供給と、最先端のDNNを実行する前にメモリサイズと処理能力に厳しい制約を課している。 本稿では,高エネルギー効率なRISC-V(8+1)コアGAP8マイクロコントローラと,極端量子化と小フットプリント型バイナリニューラルネットワーク(BNN)の組み合わせについて検討する。 既存のSED用CNNのフットプリント(815kB)が、当社プラットフォームで利用可能なメモリ512kBを超えていることから、バイナリフィルタとアクティベーションを使用してネットワークを再トレーニングし、これらのメモリ制約を満たす。 完全な)バイナリニューラルネットワークは、同等の完全精度のベースラインに比べて、難しいImageNetオブジェクト認識チャレンジにおいて、12-18%の精度が自然に低下する。 このBNNは77.9%の精度に達し、全精度版よりわずか7%低く、重量は58kB(7.2倍)、メモリは262kB(2.4倍)である。 BNNの実装では,全ネットワーク上での最大スループットは4.6 GMAC/sと1.5 GMAC/sで,それぞれ67.1 GMAC/s/W,31.3 GMAC/s/Wの効率に対応するMel binsによる前処理を含む。 ARM Cortex-M4の実装と比較して、我々のシステムは実行時間が10.3倍速く、エネルギー効率が51.1倍高い。

Sound event detection (SED) is a hot topic in consumer and smart city applications. Existing approaches based on Deep Neural Networks are very effective, but highly demanding in terms of memory, power, and throughput when targeting ultra-low power always-on devices. Latency, availability, cost, and privacy requirements are pushing recent IoT systems to process the data on the node, close to the sensor, with a very limited energy supply, and tight constraints on the memory size and processing capabilities precluding to run state-of-the-art DNNs. In this paper, we explore the combination of extreme quantization to a small-footprint binary neural network (BNN) with the highly energy-efficient, RISC-V-based (8+1)-core GAP8 microcontroller. Starting from an existing CNN for SED whose footprint (815 kB) exceeds the 512 kB of memory available on our platform, we retrain the network using binary filters and activations to match these memory constraints. (Fully) binary neural networks come with a natural drop in accuracy of 12-18% on the challenging ImageNet object recognition challenge compared to their equivalent full-precision baselines. This BNN reaches a 77.9% accuracy, just 7% lower than the full-precision version, with 58 kB (7.2 times less) for the weights and 262 kB (2.4 times less) memory in total. With our BNN implementation, we reach a peak throughput of 4.6 GMAC/s and 1.5 GMAC/s over the full network, including preprocessing with Mel bins, which corresponds to an efficiency of 67.1 GMAC/s/W and 31.3 GMAC/s/W, respectively. Compared to the performance of an ARM Cortex-M4 implementation, our system has a 10.3 times faster execution time and a 51.1 times higher energy-efficiency.
翻訳日:2021-04-04 01:34:44 公開日:2021-01-12
# 深層ニューラルネットワークを用いた呼吸イベントの自動検出

Automated Respiratory Event Detection Using Deep Neural Networks ( http://arxiv.org/abs/2101.04635v1 )

ライセンス: Link先を確認
Thijs E Nassi, Wolfgang Ganglberger, Haoqi Sun, Abigail A Bucklin, Siddharth Biswal, Michel J A M van Putten, Robert J Thomas, M Brandon Westover(参考訳) 睡眠中の呼吸を評価するゴールドスタンダードはポリソムノグラフィ(polysomnography)であり、重荷が高く(分析時間と測定コストの両方において)、繰り返すのが困難である。 呼吸分析の自動化は、テスト効率を改善し、世界中で利用可能な実装機会を可能にする。 マサチューセッツ総合病院(MGH)の9,656個のポリソムノグラフィー記録を用いて, 閉塞性無呼吸, 中枢性無呼吸, 低呼吸, 呼吸自覚関連覚醒を検出するため, 単一呼吸帯に基づくニューラルネットワーク(WaveNet)を訓練した。 パフォーマンス評価には、apnea-hypopnea index分析を用いたイベントベースおよび記録ベースのメトリクスが含まれる。 このモデルは8,455枚のポリソノグラフィー記録を含む公開データセットであるSleep-Heart-Health-S tudy-1でさらに評価された。 MGHデータセットの2次無呼吸事象検出には、95%の精度、0.89のアパネ-ハイパネ指数$r^2$、レシーバ動作特性曲線の曲線下領域、0.93と0.74の精度-リコール曲線が得られた。 マルチクラスタスクでは,全ラベル付き中枢性無呼吸の81%が正しく分類され,この指標は閉塞性無呼吸の46%,呼吸時無呼吸の29%,低呼吸の16%であった。 誤った予測の大部分は、別の種類の呼吸イベントとして誤分類であった。 呼吸イベントを完全自動検出し, 臨床応用に十分な精度で無呼吸ハイポネア指数を評価できる。 イベントタイプの分化はより困難であり、人間の呼吸アウトプットの複雑さと、手動アノテーションで使用される臨床閾値と基準のある程度の任意性を反映している可能性がある。

The gold standard to assess respiration during sleep is polysomnography; a technique that is burdensome, expensive (both in analysis time and measurement costs), and difficult to repeat. Automation of respiratory analysis can improve test efficiency and enable accessible implementation opportunities worldwide. Using 9,656 polysomnography recordings from the Massachusetts General Hospital (MGH), we trained a neural network (WaveNet) based on a single respiratory effort belt to detect obstructive apnea, central apnea, hypopnea and respiratory-effort related arousals. Performance evaluation included event-based and recording-based metrics - using an apnea-hypopnea index analysis. The model was further evaluated on a public dataset, the Sleep-Heart-Health-S tudy-1, containing 8,455 polysomnographic recordings. For binary apnea event detection in the MGH dataset, the neural network obtained an accuracy of 95%, an apnea-hypopnea index $r^2$ of 0.89 and area under the curve for the receiver operating characteristics curve and precision-recall curve of 0.93 and 0.74, respectively. For the multiclass task, we obtained varying performances: 81% of all labeled central apneas were correctly classified, whereas this metric was 46% for obstructive apneas, 29% for respiratory effort related arousals and 16% for hypopneas. The majority of false predictions were misclassifications as another type of respiratory event. Our fully automated method can detect respiratory events and assess the apnea-hypopnea index with sufficient accuracy for clinical utilization. Differentiation of event types is more difficult and may reflect in part the complexity of human respiratory output and some degree of arbitrariness in the clinical thresholds and criteria used during manual annotation.
翻訳日:2021-04-04 01:34:10 公開日:2021-01-12
# double-adversarial activation anomaly detection: adversarial autoencoder are anomaly generators

Double-Adversarial Activation Anomaly Detection: Adversarial Autoencoders are Anomaly Generators ( http://arxiv.org/abs/2101.04645v1 )

ライセンス: Link先を確認
J.-P. Schulze, P. Sperl, K. B\"ottinger(参考訳) 異常検出は、固有のクラス不均衡のため、機械学習アルゴリズムにとって難しいタスクである。 観測されたデータを手動で分析するのはコストが高く、時間を要するため、通常、使用可能な場合の既知の異常はごくわずかである。 生成モデルとニューラルネットワークの隠れ活性化の解析に着想を得て,DA3Dと呼ばれる新しい教師なし異常検出手法を導入する。 ここでは,通常のデータのみに基づく異常な反例を生成するために,対向オートエンコーダを用いる。 これらの人工的な異常は、実際の、しかし目に見えない異常を検出することができる。 新たな生成手法により,異常検出の教師なしタスクを教師付きタスクに変換する。 DA3Dは、ドメイン知識を必要としない純粋にデータ駆動の方法で最先端の異常検出手法の性能を上回る。

Anomaly detection is a challenging task for machine learning algorithms due to the inherent class imbalance. It is costly and time-demanding to manually analyse the observed data, thus usually only few known anomalies if any are available. Inspired by generative models and the analysis of the hidden activations of neural networks, we introduce a novel unsupervised anomaly detection method called DA3D. Here, we use adversarial autoencoders to generate anomalous counterexamples based on the normal data only. These artificial anomalies used during training allow the detection of real, yet unseen anomalies. With our novel generative approach, we transform the unsupervised task of anomaly detection to a supervised one, which is more tractable by machine learning and especially deep learning methods. DA3D surpasses the performance of state-of-the-art anomaly detection methods in a purely data-driven way, where no domain knowledge is required.
翻訳日:2021-04-04 01:33:37 公開日:2021-01-12
# 人・場所・つながり--社会的場所の景観と社会ネットワーク構造

People, Places, and Ties: Landscape of social places and their social network structures ( http://arxiv.org/abs/2101.04737v1 )

ライセンス: Link先を確認
Jaehyuk Park, Bogdan State, Monica Bhole, Michael C. Bailey, and Yong-Yeol Ahn(参考訳) 社会化の場として本質的な役割から、ネットワーク科学、社会学、地理学、都市計画、地域研究など幅広い分野から「第三の場所」が研究されている。 しかし、第3位に大規模な国勢調査がないため、研究者は体系的な調査を控えた。 ここでは,facebookページを用いて,第三者とそのソーシャルネットワークを組織的に調査する。 解析の結果,第3地点の分布は地理的に多様であり,その分布は人口動態や郡特性と高い相関関係にあることが明らかとなった。 礼拝の場所」のような特定の種類のページは、コミュニティの好みや集中に対する潜在的な相補性を示唆する大量のクラスタリングを示している。 また, 異なるタイプの社会的場所のソーシャルネットワークは, 既成友情の密着したコミュニティである可能性が高いのに対して, 既成友情のPlaces of Worship と「コミュニティ・アメニティ」のページカテゴリーは, 新たな友情の結びつきを橋渡しする傾向にある。 本研究は,社会空間と社会関係の体系的比較研究において,今後の研究のマイルストーンとなるものと考えられる。

Due to their essential role as places for socialization, "third places" - social places where people casually visit and communicate with friends and neighbors - have been studied by a wide range of fields including network science, sociology, geography, urban planning, and regional studies. However, the lack of a large-scale census on third places kept researchers from systematic investigations. Here we provide a systematic nationwide investigation of third places and their social networks, by using Facebook pages. Our analysis reveals a large degree of geographic heterogeneity in the distribution of the types of third places, which is highly correlated with baseline demographics and county characteristics. Certain types of pages like "Places of Worship" demonstrate a large degree of clustering suggesting community preference or potential complementarities to concentration. We also found that the social networks of different types of social place differ in important ways: The social networks of 'Restaurants' and 'Indoor Recreation' pages are more likely to be tight-knit communities of pre-existing friendships whereas 'Places of Worship' and 'Community Amenities' page categories are more likely to bridge new friendship ties. We believe that this study can serve as an important milestone for future studies on the systematic comparative study of social spaces and their social relationships.
翻訳日:2021-04-04 01:33:21 公開日:2021-01-12
# エアフォイル gan: エアフォイルのエンコーディングと合成 foraerodynamic-aware shape optimization

Airfoil GAN: Encoding and Synthesizing Airfoils forAerodynamic-aware Shape Optimization ( http://arxiv.org/abs/2101.04757v1 )

ライセンス: Link先を確認
Yuyang Wang, Kenji Shimada, Amir Barati Farimani(参考訳) エアフォイルのような空力形状の現在の設計は、可能な設計空間を探索するための計算集約的なシミュレーションを伴う。 通常、このような設計は設計パラメータの事前定義に依存し、新しい形状の合成に制限を課す。 本研究では,既存の翼から表現を自動的に学習し,学習した表現を用いて新しい翼を生成するデータ駆動型形状符号化・生成法を提案する。 これらの表現は、空気力学的性能に基づいて合成翼形状の最適化に使用される。 我々のモデルは、変分オートエンコーダとジェネレーティブ・アドバーサリアル・ネットワークを組み合わせたニューラルネットワークであるVAEGANに基づいて構築されており、勾配に基づく手法で訓練されている。 本モデルでは,(1)既存のエアフォイルを潜在ベクターにエンコードし,それからエアフォイルを再構築し,(2)潜在ベクターをランダムにサンプリングしてエアフォイル座標領域にマッピングし,(3)学習した特徴を遺伝的アルゴリズムにより最適化し,所望の空力特性を有するエアフォイルを合成する。 実験の結果,事前定義された設計パラメータを使わずに,形状情報を網羅的かつ包括的に符号化できることがわかった。 特徴ベクトルの補間/補間またはガウス雑音からのサンプリングにより、モデルは新しい翼形状を自動的に合成することができる。 遺伝的アルゴリズムによって学習された特徴の形状を最適化することで、合成された翼は特定の空力特性を持つように進化し、空力製品の設計を効果的かつ効率的に導くことができる。

The current design of aerodynamic shapes, like airfoils, involves computationally intensive simulations to explore the possible design space. Usually, such design relies on the prior definition of design parameters and places restrictions on synthesizing novel shapes. In this work, we propose a data-driven shape encoding and generating method, which automatically learns representations from existing airfoils and uses the learned representations to generate new airfoils. The representations are then used in the optimization of synthesized airfoil shapes based on their aerodynamic performance. Our model is built upon VAEGAN, a neural network that combines Variational Autoencoder with Generative Adversarial Network and is trained by the gradient-based technique. Our model can (1) encode the existing airfoil into a latent vector and reconstruct the airfoil from that, (2) generate novel airfoils by randomly sampling the latent vectors and mapping the vectors to the airfoil coordinate domain, and (3) synthesize airfoils with desired aerodynamic properties by optimizing learned features via a genetic algorithm. Our experiments show that the learned features encode shape information thoroughly and comprehensively without predefined design parameters. By interpolating/extrap olating feature vectors or sampling from Gaussian noises, the model can automatically synthesize novel airfoil shapes, some of which possess competitive or even better aerodynamic properties comparing with training airfoils. By optimizing shape on learned features via a genetic algorithm, synthesized airfoils can evolve to have specific aerodynamic properties, which can guide designing aerodynamic products effectively and efficiently.
翻訳日:2021-04-04 01:32:57 公開日:2021-01-12
# SARA(Self-Adaptive Reconfigurable Arrays):スケーリングGEMM高速化を支援するML

Self-Adaptive Reconfigurable Arrays (SARA): Using ML to Assist Scaling GEMM Acceleration ( http://arxiv.org/abs/2101.04799v1 )

ライセンス: Link先を確認
Ananda Samajdar, Michael Pellauer, Tushar Krishna(参考訳) 層形状とサイズの観点からのディープニューラルネットワーク(DNN)モデルの多様性の向上に伴い、研究コミュニティはフレキシブル/再構成可能な加速器基板を調査してきた。 この研究は2つの課題を提起した。 ひとつは、パフォーマンス上のメリットと再構成可能性のオーバーヘッドをトレードオフできるアクセラレータアレイ内の適切な柔軟性を決定することです。 2つ目は、現在のDNNモデルと/またはレイヤの配列の適切な設定を決定し、実行時にアクセラレータを再設定できることです。 本稿では、self adaptive reconfigurable array(sara)と呼ばれる新しいタイプのアクセラレータを紹介します。 SARAアーキテクチャは、再構成可能な配列と、実行時に配列の最適化された構成を決定するハードウェアユニットの両方で構成されている。 我々は、SARAのインスタンスをSAGARと呼ぶアクセラレータでデモし、様々なサイズの小さな配列の分散コレクションや柔軟なアスペクト比を持つ単一配列として機能するように構成できる、新しい再構成可能なシストリックアレイを導入しました。 我々はまた、現在の層パラメータに対する配列設定とデータフローを推奨するADAPTNETと呼ばれる新しいレコメンデーションニューラルネットワークを開発した。 ADAPTNETは、ADAPTNETを実行時に実行し、配列を再設定する統合されたカスタムハードウェアADAPTNETXで動作し、アクセル全体を自己充足する。 SAGARは、分散システムとして動作する10244x4配列の集合と同じマッピング柔軟性を提供し、3.5倍の電力効率と3.2倍の計算密度を実現している。

With increasing diversity in Deep Neural Network(DNN) models in terms of layer shapes and sizes, the research community has been investigating flexible/reconfigura ble accelerator substrates. This line of research has opened up two challenges. The first is to determine the appropriate amount of flexibility within an accelerator array that that can trade-off the performance benefits versus the area overheads of the reconfigurability. The second is being able to determine the right configuration of the array for the current DNN model and/or layer and reconfigure the accelerator at runtime. This work introduces a new class of accelerators that we call Self Adaptive Reconfigurable Array (SARA). SARA architectures comprise of both a reconfigurable array and a hardware unit capable of determining an optimized configuration for the array at runtime. We demonstrate an instance of SARA with an accelerator we call SAGAR, which introduces a novel reconfigurable systolic array that can be configured to work as a distributed collection of smaller arrays of various sizes or as a single array with flexible aspect ratios. We also develop a novel recommendation neural network called ADAPTNET which recommends an array configuration and dataflow for the current layer parameters. ADAPTNET runs on an integrated custom hardware ADAPTNETX that runs ADAPTNET at runtime and reconfigures the array, making the entire accelerator self-sufficient. SAGAR is capable of providing the same mapping flexibility as a collection of 10244x4 arrays working as a distributed system while achieving 3.5x more power efficiency and 3.2x higher compute density Furthermore, the runtime achieved on the recommended parameters from ADAPTNET is 99.93% of the best achievable runtime.
翻訳日:2021-04-04 01:32:29 公開日:2021-01-12
# 4脚ラインフォロワロボットへの組込み型コンピュータビジョンシステムの適用

Embedded Computer Vision System Applied to a Four-Legged Line Follower Robot ( http://arxiv.org/abs/2101.04804v1 )

ライセンス: Link先を確認
Beatriz Arruda Asfora(参考訳) ロボットは知覚と行動の結びつきとして定義することができる。 このプロジェクトは、ロボットの視覚と動作をつなぐ自動コンピュータビジョン組み込みシステムを使用して、ロボットを駆動することを目的としている。 ロボットに色認識システムを実装するために、処理言語、androidシステム、arduinoプラットフォーム、pixyカメラなどのオープンソースツールが選択される。 制約は明確です – 単純さ,複製性,財務性です。 ロボット工学、コンピュータビジョン、画像処理を統合するために、このロボットは典型的な移動ロボットの課題であるラインフォローに適用される。 パスと背景を区別する問題は、一般的な大津法、実験による色の組み合わせに基づくしきい値、彩度と彩度による色追跡など、様々なアプローチで分析される。 次に移動する場所の決定は、経路の線の中心に基づいており、完全に自動化されている。 4本足のロボットをプラットフォームとして、カメラを唯一のセンサーとして使用することで、ロボットはラインを追跡することに成功した。 イメージのキャプチャからロボットの移動まで、統合ロボティクスがいかに実現可能かは明らかです。 本論文の課題は機械工学、エレクトロニクス、制御システム、プログラミングに関する知識のみである。 この作業に関するすべてがドキュメント化され、オープンソースのオンラインページで利用可能になったため、ロボット工学の学習と実験に役立てることができる。

Robotics can be defined as the connection of perception to action. Taking this further, this project aims to drive a robot using an automated computer vision embedded system, connecting the robot's vision to its behavior. In order to implement a color recognition system on the robot, open source tools are chosen, such as Processing language, Android system, Arduino platform and Pixy camera. The constraints are clear: simplicity, replicability and financial viability. In order to integrate Robotics, Computer Vision and Image Processing, the robot is applied on a typical mobile robot's issue: line following. The problem of distinguishing the path from the background is analyzed through different approaches: the popular Otsu's Method, thresholding based on color combinations through experimentation and color tracking via hue and saturation. Decision making of where to move next is based on the line center of the path and is fully automated. Using a four-legged robot as platform and a camera as its only sensor, the robot is capable of successfully follow a line. From capturing the image to moving the robot, it's evident how integrative Robotics can be. The issue of this paper alone involves knowledge of Mechanical Engineering, Electronics, Control Systems and Programming. Everything related to this work was documented and made available on an open source online page, so it can be useful in learning and experimenting with robotics.
翻訳日:2021-04-04 01:31:44 公開日:2021-01-12
# ニューラルネットワークを用いた仮想マイクロホン推定器

Neural Network-based Virtual Microphone Estimator ( http://arxiv.org/abs/2101.04315v1 )

ライセンス: Link先を確認
Tsubasa Ochiai, Marc Delcroix, Tomohiro Nakatani, Rintaro Ikeshita, Keisuke Kinoshita, Shoko Araki(参考訳) 少数のマイクロホンのためのマイクロホンアレイ技術の開発は、多くのデバイスに制約があるため重要である。 この状況に対処する一つの方向は、例えばいくつかの物理モデル仮定に基づいて、マイク信号の数を事実上増やすことである。 しかし、そのような仮定は必ずしも現実的な条件で満たされない。 本稿では,ニューラルネットワークを用いた仮想マイクロホン推定器(NN-VME)を提案する。 NN-VMEは、最近の時間領域ニューラルネットワークの正確な推定能力を利用して、仮想マイクロホン信号を時間領域内で直接推定する。 訓練時の仮想マイクの位置での実際の観察を利用した教師あり学習フレームワークを採用する。 したがって、nn-vmeはマルチチャンネルの観測のみを使用して訓練することができ、実記録を直接行うことができ、非現実的な物理モデルに基づく仮定の必要性を回避できる。 提案するnn-vmeは実記録においても高い仮想マイクロホン推定性能を達成し,nn-vmeを付加したビームフォーマによって音声強調と認識性能の両方が向上することを示す。

Developing microphone array technologies for a small number of microphones is important due to the constraints of many devices. One direction to address this situation consists of virtually augmenting the number of microphone signals, e.g., based on several physical model assumptions. However, such assumptions are not necessarily met in realistic conditions. In this paper, as an alternative approach, we propose a neural network-based virtual microphone estimator (NN-VME). The NN-VME estimates virtual microphone signals directly in the time domain, by utilizing the precise estimation capability of the recent time-domain neural networks. We adopt a fully supervised learning framework that uses actual observations at the locations of the virtual microphones at training time. Consequently, the NN-VME can be trained using only multi-channel observations and thus directly on real recordings, avoiding the need for unrealistic physical model-based assumptions. Experiments on the CHiME-4 corpus show that the proposed NN-VME achieves high virtual microphone estimation performance even for real recordings and that a beamformer augmented with the NN-VME improves both the speech enhancement and recognition performance.
翻訳日:2021-04-04 01:31:24 公開日:2021-01-12
# LSTMネットワークを用いた機械型通信におけるイベント駆動ソーストラヒック予測

Event-Driven Source Traffic Prediction in Machine-Type Communications Using LSTM Networks ( http://arxiv.org/abs/2101.04365v1 )

ライセンス: Link先を確認
Thulitha Senevirathna, Bathiya Thennakoon, Tharindu Sankalpa, Chatura Seneviratne, Samad Ali and Nandana Rajatheva(参考訳) ソーストラフィック予測は、機械型通信(MTC)における予測リソース割り当てを可能にする主な課題の1つである。 本稿では,イベント駆動ソーストラフィック予測のための長期短期記憶(lstm)ベースのディープラーニング手法を提案する。 ソーストラフィック予測問題は、過去の送信データに基づいて、機械型装置(MTD)の送信状態を主焦点とするシーケンス生成タスクとして定式化することができる。 これは、LSTMネットワークがデバイス間の因果関係を識別できるように、送信データを再構成することで実現される。 このような因果関係の知識は、イベント駆動のトラフィック予測を可能にする。 提案手法の性能は、異なるエントロピー範囲のmddによる事象に関するデータを用いて検討した。 我々のモデルは、既存のベースラインソリューションよりも、リソースの節約と精度を約9%で上回ります。 また,我々のモデルによるランダムアクセス (RA) 要求の低減について解析し,LSTMに基づくソーストラフィック予測手法の結果として必要な信号量が少ないことを示す。

Source traffic prediction is one of the main challenges of enabling predictive resource allocation in machine type communications (MTC). In this paper, a Long Short-Term Memory (LSTM) based deep learning approach is proposed for event-driven source traffic prediction. The source traffic prediction problem can be formulated as a sequence generation task where the main focus is predicting the transmission states of machine-type devices (MTDs) based on their past transmission data. This is done by restructuring the transmission data in a way that the LSTM network can identify the causal relationship between the devices. Knowledge of such a causal relationship can enable event-driven traffic prediction. The performance of the proposed approach is studied using data regarding events from MTDs with different ranges of entropy. Our model outperforms existing baseline solutions in saving resources and accuracy with a margin of around 9%. Reduction in Random Access (RA) requests by our model is also analyzed to demonstrate the low amount of signaling required as a result of our proposed LSTM based source traffic prediction approach.
翻訳日:2021-04-04 01:31:06 公開日:2021-01-12
# Type4Py: Pythonの深い類似性学習に基づく型推論

Type4Py: Deep Similarity Learning-Based Type Inference for Python ( http://arxiv.org/abs/2101.04470v1 )

ライセンス: Link先を確認
Amir M. Mir, Evaldas Latoskinas, Sebastian Proksch, Georgios Gousios(参考訳) PythonやJavascriptのような動的言語は、開発者の柔軟性のために静的型付けを交換する。 これは生産性が向上すると言われているが、静的型付けの欠如はランタイム例外、型不整合を引き起こし、IDEサポートの弱さの大きな要因である。 これらの問題を緩和するため、PEP 484はPythonのオプション型アノテーションを導入した。 既存のコードベースへの型の再適合はエラーを起こしやすいため、既存の部分的に注釈付けされたコードベースに基づいた自動型アノテーションを実現するための学習ベースのアプローチが提案されている。 しかし、レア型とユーザ定義型の予測は依然として困難である。 本稿では,pythonの類似度学習に基づく型推論モデルtype4pyを提案する。 我々は、高次元空間における同種の型と異種の型を区別することを学ぶ階層型ニューラルネットワークモデルを設計し、その結果、型をクラスタ化する。 最寄りの検索では、python関数の型シグネチャが考えられる。 分析されたモジュールで見える型は、軽量な依存性分析を使って表面化されます。 定量的および定性的な評価の結果,Type4Pyはタイプ予測タスクにおける最先端アプローチよりも有意に優れていた。 トップ1の予測を考えると、Type4PyはTypilusやTypeWriterよりも19.33%、13.49%高い精度を得られる。

Dynamic languages, such as Python and Javascript, trade static typing for developer flexibility. While this allegedly enables greater productivity, lack of static typing can cause runtime exceptions, type inconsistencies, and is a major factor for weak IDE support. To alleviate these issues, PEP 484 introduced optional type annotations for Python. As retrofitting types to existing codebases is error-prone and laborious, learning-based approaches have been proposed to enable automatic type annotations based on existing, partially annotated codebases. However, the prediction of rare and user-defined types is still challenging. In this paper, we present Type4Py, a deep similarity learning-based type inference model for Python. We design a hierarchical neural network model that learns to discriminate between types of the same kind and dissimilar types in a high-dimensional space, which results in clusters of types. Nearest neighbor search suggests likely type signatures of given Python functions. The types visible to analyzed modules are surfaced using lightweight dependency analysis. The results of quantitative and qualitative evaluation indicate that Type4Py significantly outperforms state-of-the-art approaches at the type prediction task. Considering the Top-1 prediction, Type4Py obtains 19.33% and 13.49% higher precision than Typilus and TypeWriter, respectively, while utilizing a much bigger vocabulary.
翻訳日:2021-04-04 01:30:35 公開日:2021-01-12
# パラメータ依存力学系の初期値問題に対する機械学習

Machine Learning for Initial Value Problems of Parameter-Dependent Dynamical Systems ( http://arxiv.org/abs/2101.04595v1 )

ライセンス: Link先を確認
Roland Pulch and Maha Youssef(参考訳) 物理パラメータを含む非線形力学系の初期値問題を考察する。 溶液による利息の量が観測される。 離散化は、多くの時間点における興味の量の軌跡をもたらす。 パラメータの集合から軌道の離散値へのマッピングについて検討する。 このマッピングの評価は初期値の問題を解決する必要がある。 あるいは、機械学習の概念を用いて、評価が低い計算作業を必要とする近似を決定する。 我々は、軌道のサンプルデータに適合するフィードフォワードニューラルネットワークを採用している。 電気回路をモデル化する実験例に対して数値計算の結果を示す。

We consider initial value problems of nonlinear dynamical systems, which include physical parameters. A quantity of interest depending on the solution is observed. A discretisation yields the trajectories of the quantity of interest in many time points. We examine the mapping from the set of parameters to the discrete values of the trajectories. An evaluation of this mapping requires to solve an initial value problem. Alternatively, we determine an approximation, where the evaluation requires low computation work, using a concept of machine learning. We employ feedforward neural networks, which are fitted to data from samples of the trajectories. Results of numerical computations are presented for a test example modelling an electric circuit.
翻訳日:2021-04-04 01:30:14 公開日:2021-01-12
# MP3net: 単純な畳み込みGANによる生オーディオからのコヒーレントで微小な音楽生成

MP3net: coherent, minute-long music generation from raw audio with a simple convolutional GAN ( http://arxiv.org/abs/2101.04785v1 )

ライセンス: Link先を確認
Korneel van den Broek(参考訳) 本稿では,MP3/Vorbis音声圧縮技術を利用して,長距離コヒーレンスを有する長大な高品質オーディオサンプルを生成する深層畳み込みGANを提案する。 このモデルは、すべての位相情報を含むMDCT(Modified Discrete Cosine Transform)データ表現を使用する。 したがって、位相生成はモデルに不可欠な部分である。 人間の耳の聴覚マスキングと心理音響知覚限界を利用して、真の分布を広げ、トレーニングプロセスを安定化させる。 モデルアーキテクチャは深部2次元畳み込みネットワークであり、各ジェネレータモデルブロックは時間軸に沿って分解能を高め、周波数軸に沿って高いオクターブを追加する。 より深いレイヤは出力のすべての部分に接続され、完全なトラックのコンテキストを持つ。 これにより、長距離コヒーレンスを示すサンプルを生成することができる。 我々はMP3netを使って、1つのクラウドTPUv2で250時間トレーニングした後、サンプルレート22kHzの95sステレオトラックを作成します。 CNNベースのモデルアーキテクチャのさらなる利点は、新しい曲の生成がほぼ瞬時に行われることである。

We present a deep convolutional GAN which leverages techniques from MP3/Vorbis audio compression to produce long, high-quality audio samples with long-range coherence. The model uses a Modified Discrete Cosine Transform (MDCT) data representation, which includes all phase information. Phase generation is hence integral part of the model. We leverage the auditory masking and psychoacoustic perception limit of the human ear to widen the true distribution and stabilize the training process. The model architecture is a deep 2D convolutional network, where each subsequent generator model block increases the resolution along the time axis and adds a higher octave along the frequency axis. The deeper layers are connected with all parts of the output and have the context of the full track. This enables generation of samples which exhibit long-range coherence. We use MP3net to create 95s stereo tracks with a 22kHz sample rate after training for 250h on a single Cloud TPUv2. An additional benefit of the CNN-based model architecture is that generation of new songs is almost instantaneous.
翻訳日:2021-04-04 01:29:46 公開日:2021-01-12
# UCNN:非構造化メッシュの畳み込み戦略

UCNN: A Convolutional Strategy on Unstructured Mesh ( http://arxiv.org/abs/2101.05207v1 )

ライセンス: Link先を確認
Mengfei Xu, Shufang Song, Xuxiang Sun, Weiwei Zhang(参考訳) 流体力学の機械学習では、フルコネクテッドニューラルネットワーク(FNN)はモデリングにのみローカル機能を使用するが、畳み込みニューラルネットワーク(CNN)は構造化/非構造化メッシュのデータには適用できない。 FNNとCNNの限界を克服するため、非構造畳み込みニューラルネットワーク(UCNN)が提案され、重み関数を通じて近隣ノードの特徴を集約し、効果的に活用する。 随伴ベクトルモデリングは、ucnnの性能を研究するタスクとして取られる。 フローフィールド特徴から随伴ベクトルへのマッピング関数は、GPU上の効率的な並列実装によって構成される。 UCNNのモデリング能力は,テストケースにおける検証セットや空力形状の最適化においてFNNと比較される。 さらに,メッシュ変化がUCNNのモデリング能力に及ぼす影響について検討した。 その結果,UCNNはモデリング過程においてより正確であることが示唆された。

In machine learning for fluid mechanics, fully-connected neural network (FNN) only uses the local features for modelling, while the convolutional neural network (CNN) cannot be applied to data on structured/unstructu red mesh. In order to overcome the limitations of FNN and CNN, the unstructured convolutional neural network (UCNN) is proposed, which aggregates and effectively exploits the features of neighbour nodes through the weight function. Adjoint vector modelling is taken as the task to study the performance of UCNN. The mapping function from flow-field features to adjoint vector is constructed through efficient parallel implementation on GPU. The modelling capability of UCNN is compared with that of FNN on validation set and in aerodynamic shape optimization at test case. The influence of mesh changing on the modelling capability of UCNN is further studied. The results indicate that UCNN is more accurate in modelling process.
翻訳日:2021-04-04 01:29:28 公開日:2021-01-12
# 深層学習によるボアホール比抵抗測定システムの設計

Design of borehole resistivity measurement acquisition systems using deep learning ( http://arxiv.org/abs/2101.05623v1 )

ライセンス: Link先を確認
M. Shahriari, A. Hazra, D. Pardo(参考訳) lwd(loging-while-dri lling)装置で記録されたボアホール比抵抗測定は、地球の地下特性を特徴付けるために広く用いられている。 石油やガスなどの天然資源の抽出を促進する。 lwd装置は、井戸付近の地表面の電気的特性を推定し、おそらく井戸軌道を補正するために、電磁的測定のリアルタイムな反転を必要とする。 深層ニューラルネットワーク(dnn)ベースの手法は、トレーニングフェーズ中にオフラインで前方および逆問題を近似するので、ボアホール比抵抗測定の迅速な反転に適しており、評価にほんの1秒(すなわち予測)しか必要としない。 しかし、逆問題は通常複数の解を許容する。 データミスフィットに基づく従来の損失関数を持つDNNは、逆問題の解決には不適当である。 これは、エンコーダ-デコーダアーキテクチャ用に特別に設計された損失関数に正規化項を追加することで部分的に克服できる。 しかし、正則化を加えることで、優先すべき物理解の集合に対する可能な解の数を大幅に制限する。 これを回避するために,正規化を伴わない2段階損失関数を用いる。 さらに, 逆解を保証するためには, 十分な数の計測値を持つ注意深く選択した計測取得システムが必要である。 そこで本研究では,DNNに基づく計測取得システムの設計のための反復アルゴリズムを提案する。 いくつかの合成例を通してDNNに基づく反復アルゴリズムについて述べる。 以上の結果から, 測定装置上および下方における抵抗層と導電層の両方を同定し, 特徴付けるのに十分であることがわかった。 数値的な結果は有望であるが, 産業目的のためにはさらなる改良が必要である。

Borehole resistivity measurements recorded with logging-while-drilli ng (LWD) instruments are widely used for characterizing the earth's subsurface properties. They facilitate the extraction of natural resources such as oil and gas. LWD instruments require real-time inversions of electromagnetic measurements to estimate the electrical properties of the earth's subsurface near the well and possibly correct the well trajectory. Deep Neural Network (DNN)-based methods are suitable for the rapid inversion of borehole resistivity measurements as they approximate the forward and inverse problem offline during the training phase and they only require a fraction of a second for the evaluation (aka prediction). However, the inverse problem generally admits multiple solutions. DNNs with traditional loss functions based on data misfit are ill-equipped for solving an inverse problem. This can be partially overcome by adding regularization terms to a loss function specifically designed for encoder-decoder architectures. But adding regularization seriously limits the number of possible solutions to a set of a priori desirable physical solutions. To avoid this, we use a two-step loss function without any regularization. In addition, to guarantee an inverse solution, we need a carefully selected measurement acquisition system with a sufficient number of measurements. In this work, we propose a DNN-based iterative algorithm for designing such a measurement acquisition system. We illustrate our DNN-based iterative algorithm via several synthetic examples. Numerical results show that the obtained measurement acquisition system is sufficient to identify and characterize both resistive and conductive layers above and below the logging instrument. Numerical results are promising, although further improvements are required to make our method amenable for industrial purposes.
翻訳日:2021-04-04 01:29:15 公開日:2021-01-12