このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210208となっている論文です。

PDF登録状況(公開日: 20210208)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) メッシュレス物理学による3次元固体力学の深層学習法 [全文訳有]

Meshless physics-informed deep learning method for three-dimensional solid mechanics ( http://arxiv.org/abs/2012.01547v2 )

ライセンス: CC BY 4.0
Diab W. Abueidda, Qiyue Lu, Seid Koric(参考訳) 深層学習とコロケーション法を融合して,構造物の変形を記述する偏微分方程式を解く。 我々は,線弾性,大変形を伴う超弾性(ネオhookean),等方性およびキネマティックな硬化を伴うvon mises塑性について考察した。 このディープコロケーション法(DCM)の性能は、ニューラルネットワークと対応するハイパーパラメータのアーキテクチャに依存する。 提案したDCMはメッシュフリーであり、一般に有限要素法(FEM)に必要とされる空間的な離散化を避ける。 FEMなどの他の数値手法を用いてデータ生成を行うことなく,DCMが定性的かつ定量的に応答をキャプチャできることを示す。 データ生成は通常、ほとんどのデータ駆動モデルで主要なボトルネックとなる。 ディープラーニングモデルはモデルのパラメータを学習するために訓練され、正確な近似解が得られる。 モデルが適切に訓練されると、その空間座標を考えると、解はドメイン内の任意の点でほぼ瞬時に得られる。 したがって、深部コロケーション法は、材料や構造系の変形やその他の物理的現象に関わる偏微分方程式を解くための有望なスタンドアロン手法である可能性がある。

Deep learning and the collocation method are merged and used to solve partial differential equations describing structures' deformation. We have considered different types of materials: linear elasticity, hyperelasticity (neo-Hookean) with large deformation, and von Mises plasticity with isotropic and kinematic hardening. The performance of this deep collocation method (DCM) depends on the architecture of the neural network and the corresponding hyperparameters. The presented DCM is meshfree and avoids any spatial discretization, which is usually needed for the finite element method (FEM). We show that the DCM can capture the response qualitatively and quantitatively, without the need for any data generation using other numerical methods such as the FEM. Data generation usually is the main bottleneck in most data-driven models. The deep learning model is trained to learn the model's parameters yielding accurate approximate solutions. Once the model is properly trained, solutions can be obtained almost instantly at any point in the domain, given its spatial coordinates. Therefore, the deep collocation method is potentially a promising standalone technique to solve partial differential equations involved in the deformation of materials and structural systems as well as other physical phenomena.
翻訳日:2021-05-29 23:36:52 公開日:2021-02-08
# 意味的依存によるファインタニング

Infusing Finetuning with Semantic Dependencies ( http://arxiv.org/abs/2012.05395v3 )

ライセンス: Link先を確認
Zhaofeng Wu, Hao Peng, Noah A. Smith(参考訳) 自然言語処理システムのための2種類の証拠は、大きな無注のコーパス上で「事前学習」されたニューラルネットワークモデルからのテキスト表現の使用をサポートする: アプリケーションインスパイアされたベンチマーク(peters et al., 2018, inter alia)のパフォーマンスとそれらの表現における構文抽象の出現(tenney et al., 2019, inter alia)。 一方、これらの表現がいかに意味を捉えることができるかという根拠のない監視電話がない(Bender and Koller, 2020)。 セマンティック依存(Ivanova et al., 2012)によって操作される述語論構造に特に焦点をあてた最近の言語モデルに新しいプローブを適用し、構文とは異なり、セマンティックスが今日の事前訓練されたモデルによって表面上に持ち込まれていないことを発見した。 次に、畳み込みグラフエンコーダを用いて、セマンティックパースをタスク固有の微調整に明示的に組み込んで、GLUEベンチマークの自然言語理解(NLU)タスクにメリットをもたらす。 このアプローチは、従来の事前訓練や微調整以上の、汎用的な(タスク固有の)言語指導の可能性を示す。 いくつかの診断が私たちのアプローチの利点を局所化するのに役立ちます。

For natural language processing systems, two kinds of evidence support the use of text representations from neural language models "pretrained" on large unannotated corpora: performance on application-inspired benchmarks (Peters et al., 2018, inter alia), and the emergence of syntactic abstractions in those representations (Tenney et al., 2019, inter alia). On the other hand, the lack of grounded supervision calls into question how well these representations can ever capture meaning (Bender and Koller, 2020). We apply novel probes to recent language models -- specifically focusing on predicate-argument structure as operationalized by semantic dependencies (Ivanova et al., 2012) -- and find that, unlike syntax, semantics is not brought to the surface by today's pretrained models. We then use convolutional graph encoders to explicitly incorporate semantic parses into task-specific finetuning, yielding benefits to natural language understanding (NLU) tasks in the GLUE benchmark. This approach demonstrates the potential for general-purpose (rather than task-specific) linguistic supervision, above and beyond conventional pretraining and finetuning. Several diagnostics help to localize the benefits of our approach.
翻訳日:2021-05-15 06:29:18 公開日:2021-02-08
# (参考訳) Frank-Wolfe Adversarial Training の理解 [全文訳有]

Understanding Frank-Wolfe Adversarial Training ( http://arxiv.org/abs/2012.12368v2 )

ライセンス: CC BY 4.0
Theodoros Tsiligkaridis, Jay Roberts(参考訳) ディープニューラルネットワークは、敵攻撃として知られる小さな摂動によって容易に騙される。 敵対的訓練(adversarial training, at)は、最悪の場合の損失を最小限に抑えるためのロバストな最適化問題を概ね解決する手法であり、このような攻撃に対して最も効果的な防御策と考えられている。 射影勾配降下(PGD)は、ATの内部最大化をほぼ解くために最も注目されているが、FW(Frank-Wolfe)最適化はプロジェクションフリーであり、任意の$\ell_p$ノルムに適応できる。 さまざまなアーキテクチャ、アタック、データセットに対して、PGD-ATと競合するロバストネスのレベルを提供するFrank-Wolfe対逆トレーニングアプローチが提示され、示されている。 fw攻撃の表現を利用することで、幾何学的洞察を導出することができる:$\ell_\infty$攻撃の$\ell_2$ノルムが大きいほど、損失勾配の変化は少なくなる。 実験により、ロバストモデルに対する$\ell_\infty$攻撃は、可能な限り$\ell_2$歪みに近いものとなり、ATが与える特定の正則化に新しいレンズを与える。 fw最適化を頑健なモデルと組み合わせることで、高価な$\ell_1$プロジェクションに頼ることなく、人間の解釈可能な反事実的説明をスパースできる。

Deep neural networks are easily fooled by small perturbations known as adversarial attacks. Adversarial Training (AT) is a technique that approximately solves a robust optimization problem to minimize the worst-case loss and is widely regarded as the most effective defense against such attacks. While projected gradient descent (PGD) has received most attention for approximately solving the inner maximization of AT, Frank-Wolfe (FW) optimization is projection-free and can be adapted to any $\ell_p$ norm. A Frank-Wolfe adversarial training approach is presented and is shown to provide as competitive level of robustness as PGD-AT for a variety of architectures, attacks, and datasets. Exploiting a representation of the FW attack we are able to derive the geometric insight that: The larger the $\ell_2$ norm of an $\ell_\infty$ attack is, the less loss gradient variation there is. It is then experimentally demonstrated that $\ell_\infty$ attacks against robust models achieve near the maximal possible $\ell_2$ distortion, providing a new lens into the specific type of regularization that AT bestows. Using FW optimization in conjunction with robust models, we are able to generate sparse human-interpretable counterfactual explanations without relying on expensive $\ell_1$ projections.
翻訳日:2021-04-26 09:13:34 公開日:2021-02-08
# (参考訳) 非カルテシアンMRI再構成のための密度補償アンロールネットワーク [全文訳有]

Density Compensated Unrolled Networks for Non-Cartesian MRI Reconstruction ( http://arxiv.org/abs/2101.01570v2 )

ライセンス: CC BY 4.0
Zaccharie Ramzi, Jean-Luc Starck, Philippe Ciuciu(参考訳) ディープニューラルネットワークは、MRI再建のための強力なツールとして、最近徹底的に研究されている。 しかし、MRIの特定の設定、すなわち非カルテシアンな買収についての研究は乏しい。 本研究では、この問題に対処する新しいタイプのディープニューラルネットワーク、すなわち密度補償型アンロールニューラルネットワークを導入し、k空間の不均一な重み付けを補正するために密度補償に依存する。 公開されている高速MRIデータセットを用いて,その効率を評価し,小さなアブレーション実験を行った。 以上の結果から, 密度補償型アンロールニューラルネットワークは, 異なるベースラインよりも優れており, 設計のすべての部分が必要であることがわかった。 また、TensorFlow用の非Uniform Fast Fourier変換をオープンソースにしています。

Deep neural networks have recently been thoroughly investigated as a powerful tool for MRI reconstruction. There is a lack of research, however, regarding their use for a specific setting of MRI, namely non-Cartesian acquisitions. In this work, we introduce a novel kind of deep neural networks to tackle this problem, namely density compensated unrolled neural networks, which rely on Density Compensation to correct the uneven weighting of the k-space. We assess their efficiency on the publicly available fastMRI dataset, and perform a small ablation study. Our results show that the density-compensated unrolled neural networks outperform the different baselines, and that all parts of the design are needed. We also open source our code, in particular a Non-Uniform Fast Fourier transform for TensorFlow.
翻訳日:2021-04-11 15:40:07 公開日:2021-02-08
# (参考訳) オンラインミラー降下によるノンリグレットキャッシング [全文訳有]

No-Regret Caching via Online Mirror Descent ( http://arxiv.org/abs/2101.12588v3 )

ライセンス: CC BY 4.0
Tareq Si Salem, Giovanni Neglia and Stratis Ioannidis(参考訳) 本研究では,リモートサーバからの検索コストを回避するために,ローカルキャッシュで要求を処理できるオンラインキャッシング問題について検討する。 キャッシュは、リクエストのバッチ後に状態を更新し、各コンテンツの任意に少数を格納することができる。 オンラインミラー・ディクシブ(OMD)戦略に基づくノンレグレットアルゴリズムについて検討する。 最適な OMD 戦略は,バッチに存在する要求の多様性に依存することを示す。 また,キャッシュが一握りではなく全コンテンツを格納しなければならない場合,不注意な保証を保持するランダムなラウンドリングスキームと OMD 戦略が組み合わさることも証明した。

We study an online caching problem in which requests can be served by a local cache to avoid retrieval costs from a remote server. The cache can update its state after a batch of requests and store an arbitrarily small fraction of each content. We study no-regret algorithms based on Online Mirror Descent (OMD) strategies. We show that the optimal OMD strategy depends on the request diversity present in a batch. We also prove that, when the cache must store the entire content, rather than a fraction, OMD strategies can be coupled with a randomized rounding scheme that preserves regret guarantees.
翻訳日:2021-04-06 12:06:19 公開日:2021-02-08
# (参考訳) 胸部x線画像を用いたcovid-19予測のためのハイブリッド量子畳み込みニューラルネットワークモデル [全文訳有]

Hybrid quantum convolutional neural networks model for COVID-19 prediction using chest X-Ray images ( http://arxiv.org/abs/2102.06535v1 )

ライセンス: CC BY 4.0
Essam H. Houssein, Zainab Abohashima, Mohamed Elhoseny, Waleed M. Mohamed(参考訳) 新型コロナウイルスの予測に有効な方法を見つけるための大きな努力にもかかわらず、ウイルスの性質と変異は、カバーされたケースを診断する上で重要な課題である。 しかし,早期診断には胸部x線(cxr)像によるcovid-19予測モデルの開発が不可欠である。 本稿では,CXR画像を用いた新型コロナウイルスの診断にランダム量子回路(RQC)を用いたハイブリッド量子古典畳み込みニューラルネットワーク(HQCNN)モデルを提案する。 1161のCOVID-19、1575の正常、5216の肺炎画像を含む6952枚のCXR画像がこの研究のデータセットとして使用された。 提案するhqcnnモデルは,最初のデータセットでは98.4\%,感度99.3\%の精度で高い性能を達成した。 さらに、第2のデータセットの場合、99\%の精度と99.7\%の感度を得た。 また、第3のマルチクラスデータセットでは、それぞれ88.6\%と88.7\%の精度と感度を達成した。 さらに、hqcnnモデルは、バランスのとれた精度、精度、f1測定値、auc-rocスコアで様々なモデルを上回る。 実験結果は,新型ウイルスの陽性例の予測能力を示すモデルによって得られた。

Despite the great efforts to find an effective way for COVID-19 prediction, the virus nature and mutation represent a critical challenge to diagnose the covered cases. However, developing a model to predict COVID-19 via Chest X-Ray (CXR) images with accurate performance is necessary to help in early diagnosis. In this paper, a hybrid quantum-classical convolutional Neural Networks (HQCNN) model used the random quantum circuits (RQCs) as a base to detect COVID-19 patients with CXR images. A collection of 6952 CXR images, including 1161 COVID-19, 1575 normal, and 5216 pneumonia images, were used as a dataset in this work. The proposed HQCNN model achieved higher performance with an accuracy of 98.4\% and a sensitivity of 99.3\% on the first dataset cases. Besides, it obtained an accuracy of 99\% and a sensitivity of 99.7\% on the second dataset cases. Also, it achieved accuracy, and sensitivity of 88.6\%, and 88.7\%, respectively, on the third multi-class dataset cases. Furthermore, the HQCNN model outperforms various models in balanced accuracy, precision, F1-measure, and AUC-ROC score. The experimental results are achieved by the proposed model prove its ability in predicting positive COVID-19 cases.
翻訳日:2021-04-06 06:23:16 公開日:2021-02-08
# コンピュータビジョンに基づく説明可能なAIソリューションの設計に向けて:家畜マート産業を事例として

Towards Designing Computer Vision-based Explainable-AI Solution: A Use Case of Livestock Mart Industry ( http://arxiv.org/abs/2103.03096v1 )

ライセンス: Link先を確認
Devam Dave, Het Naik, Smiti Singhal, Rudresh Dwivedi, Pankesh Patel(参考訳) オンラインマートの目的は、買い手と売り手をマッチングし、動物を測り、販売を監督することである。 過去の販売データから読み取ることのできるMLモデルにより,信頼性の高い価格設定手法を開発することができる。 しかし、aiモデルが価格を推奨したり推奨したりすると、それ自体が動物の性質や能力についてあまり明らかにしない(つまりブラックボックスのように振る舞う)。 興味のある買い手は、自分の要求に基づいて適切な選択をする前に、動物の健全な特徴についてもっと知りたいと思う。 価格に影響を及ぼすさまざまな要因を説明することができるモデルは、市場のニーズに不可欠である。 また、買い手や売り手の価格設定に対する信頼を喚起することもできる。 これらの目的を達成するために、アイルランドのゴールウェイシティのPortershedに本拠を置くMartEyeのチームと協力してきた。 本稿では,説明可能なai技術を活用したスマートビデオ分析プラットフォームの構築に向けた取り組みについて報告する。

The objective of an online Mart is to match buyers and sellers, to weigh animals and to oversee their sale. A reliable pricing method can be developed by ML models that can read through historical sales data. However, when AI models suggest or recommend a price, that in itself does not reveal too much (i.e., it acts like a black box) about the qualities and the abilities of an animal. An interested buyer would like to know more about the salient features of an animal before making the right choice based on his requirements. A model capable of explaining the different factors that impact the price point is essential for the needs of the market. It can also inspire confidence in buyers and sellers about the price point offered. To achieve these objectives, we have been working with the team at MartEye, a startup based in Portershed in Galway City, Ireland. Through this paper, we report our work-in-progress research towards building a smart video analytic platform, leveraging Explainable AI techniques.
翻訳日:2021-04-05 00:35:44 公開日:2021-02-08
# アラビア語新聞コメント用コーパスの強化

An Enhanced Corpus for Arabic Newspapers Comments ( http://arxiv.org/abs/2102.09965v1 )

ライセンス: Link先を確認
Hichem Rahab, Abdelhafid Zitouni, Mahieddine Djoudi (TECHN\'E - EA 6316)(参考訳) 本稿では,アルジェリアのアラビア語新聞のコメント専用のコーパスを作成するための拡張アプローチを提案する。 開発したアプローチは、利用可能なコーパスの充実と、Model Annotate Train Test Evaluate Revise (MATTER)アプローチに従うことでアノテーションのステップを含めることで、既存のアプローチを強化する必要がある。 コーパスは、よく知られた3つのアルジェリアの新聞のウェブサイトからコメントを集めることで作成される。 3つの分類器、サポートベクトルマシン、na{\"i}ve Bayes、k-nearestの隣人は、コメントを正と負のクラスに分類するために使われた。 以上の結果から, ステミングによる影響を明らかにするために, ステミングの有無にかかわらず, 分類を検証した。 以上の結果から,アルジェリア方言に関連付けられたアルジェリア語のコメントの性質から,茎の分類が著しく向上しないことが示された。 有望な結果は、特に非アラビア語文、特に方言とフランス語文を扱う際に、我々のアプローチを改善する動機となっている。

In this paper, we propose our enhanced approach to create a dedicated corpus for Algerian Arabic newspapers comments. The developed approach has to enhance an existing approach by the enrichment of the available corpus and the inclusion of the annotation step by following the Model Annotate Train Test Evaluate Revise (MATTER) approach. A corpus is created by collecting comments from web sites of three well know Algerian newspapers. Three classifiers, support vector machines, na{\"i}ve Bayes, and k-nearest neighbors, were used for classification of comments into positive and negative classes. To identify the influence of the stemming in the obtained results, the classification was tested with and without stemming. Obtained results show that stemming does not enhance considerably the classification due to the nature of Algerian comments tied to Algerian Arabic Dialect. The promising results constitute a motivation for us to improve our approach especially in dealing with non Arabic sentences, especially Dialectal and French ones.
翻訳日:2021-04-05 00:34:32 公開日:2021-02-08
# 実用的超パラメータ深層ニューラルネットワークへの収束理論

A Convergence Theory Towards Practical Over-parameterized Deep Neural Networks ( http://arxiv.org/abs/2101.04243v2 )

ライセンス: Link先を確認
Asaf Noy, Yi Xu, Yonathan Aflalo, Lihi Zelnik-Manor, Rong Jin(参考訳) 勾配に基づくアルゴリズムによって最適化された場合、トレーニングデータを正しく適合させるディープニューラルネットワークの顕著な能力は、まだ完全には理解されていない。 近年の理論的結果は、実際に使用されるものよりも桁違いに広いReLUネットワークの収束を説明する。 本研究では,ネットワーク幅と収束時間の両方の既知の理論境界を大幅に改善することにより,理論と実践のギャップを埋めるための一歩を踏み出した。 また,全球最小値への収束は,サンプルサイズが2次で深さが線形なネットワークに対して保証されることを示した。 解析および収束境界は、任意のタイミングで適切な大きさのReLUネットワークに変換可能な、一定の活性化パターンを持つ代理ネットワークの構築によって導出される。 この構造はトレーニングを加速する新しい手法と見なすことができるが、ニューラルタンジェントカーネル(NTK)に対する有限幅同値性は、一般化の研究にも利用できることを示唆している。

Deep neural networks' remarkable ability to correctly fit training data when optimized by gradient-based algorithms is yet to be fully understood. Recent theoretical results explain the convergence for ReLU networks that are wider than those used in practice by orders of magnitude. In this work, we take a step towards closing the gap between theory and practice by significantly improving the known theoretical bounds on both the network width and the convergence time. We show that convergence to a global minimum is guaranteed for networks with widths quadratic in the sample size and linear in their depth at a time logarithmic in both. Our analysis and convergence bounds are derived via the construction of a surrogate network with fixed activation patterns that can be transformed at any time to an equivalent ReLU network of a reasonable size. This construction can be viewed as a novel technique to accelerate training, while its tight finite-width equivalence to Neural Tangent Kernel (NTK) suggests it can be utilized to study generalization as well.
翻訳日:2021-04-04 01:47:29 公開日:2021-02-08
# MC-LSTM:大量保存LSTM

MC-LSTM: Mass-Conserving LSTM ( http://arxiv.org/abs/2101.05186v2 )

ライセンス: Link先を確認
Pieter-Jan Hoedt, Frederik Kratzert, Daniel Klotz, Christina Halmich, Markus Holzleitner, Grey Nearing, Sepp Hochreiter and G\"unter Klambauer(参考訳) コンピュータビジョンにおける畳み込みニューラルネットワーク(cnns)の成功は主に、cnnがランダムな重みで視覚に関連するタスクを解決できるほど強い帰納的バイアスによってもたらされる。 同様に、Long Short-Term Memory (LSTM) は、時間とともに情報を保存することに強い帰納バイアスを持つ。 しかし、多くの現実世界のシステムは、例えば特定の量の再分配につながる保存法によって統治されている。 物理的・経済的システムです 本報では, 保存量の再分配をモデル化するために, LSTMの誘導バイアスを拡張して保存法則に準拠した。 MC-LSTMは、時間とともに一定となるため、強い保存法則を持つ加算タスクなど、算術演算の学習において、ニューラル演算ユニットの新たな最先端を定めている。 さらに、mc-lstmは、トラフィック予測、振り子モデリング、ハイドロロジーにおける大規模ベンチマークデータセットに適用され、ピークフローを予測するための新しい最新技術を設定する。 水理学の例では、MC-LSTM状態は現実世界の過程と相関し、解釈可能であることを示す。

The success of Convolutional Neural Networks (CNNs) in computer vision is mainly driven by their strong inductive bias, which is strong enough to allow CNNs to solve vision-related tasks with random weights, meaning without learning. Similarly, Long Short-Term Memory (LSTM) has a strong inductive bias towards storing information over time. However, many real-world systems are governed by conservation laws, which lead to the redistribution of particular quantities -- e.g. in physical and economical systems. Our novel Mass-Conserving LSTM (MC-LSTM) adheres to these conservation laws by extending the inductive bias of LSTM to model the redistribution of those stored quantities. MC-LSTMs set a new state-of-the-art for neural arithmetic units at learning arithmetic operations, such as addition tasks, which have a strong conservation law, as the sum is constant over time. Further, MC-LSTM is applied to traffic forecasting, modelling a pendulum, and a large benchmark dataset in hydrology, where it sets a new state-of-the-art for predicting peak flows. In the hydrology example, we show that MC-LSTM states correlate with real-world processes and are therefore interpretable.
翻訳日:2021-03-30 08:06:42 公開日:2021-02-08
# 不確かさモデルを用いた非母語(L2)英語の誤認識検出

Mispronunciation Detection in Non-native (L2) English with Uncertainty Modeling ( http://arxiv.org/abs/2101.06396v2 )

ライセンス: Link先を確認
Daniel Korzekwa, Jaime Lorenzo-Trueba, Szymon Zaporowski, Shira Calamaro, Thomas Drugman, Bozena Kostek(参考訳) 言語学習における誤用の自動検出への一般的なアプローチは、生徒が発する音素を認識し、母語話者の期待される発音と比較することである。 a) 音素は高い精度で音声から認識することができ、b) 文を発音する唯一の正しい方法がある。 これらの仮定は必ずしも成り立たないため、かなりの量の誤発音警報を引き起こす可能性がある。 そこで本稿では,a) 自動音素認識ステップの不確実性を考慮して,複数の有効な発音が存在することを考慮し,この問題を克服するための新しいアプローチを提案する。 ドイツ語,イタリア語,ポーランド語話者の非母語(l2)英語音声のモデルを評価し,一般的なアプローチと比較して最大18%(相対的)の誤用検出精度が向上することを示した。

A common approach to the automatic detection of mispronunciation in language learning is to recognize the phonemes produced by a student and compare it to the expected pronunciation of a native speaker. This approach makes two simplifying assumptions: a) phonemes can be recognized from speech with high accuracy, b) there is a single correct way for a sentence to be pronounced. These assumptions do not always hold, which can result in a significant amount of false mispronunciation alarms. We propose a novel approach to overcome this problem based on two principles: a) taking into account uncertainty in the automatic phoneme recognition step, b) accounting for the fact that there may be multiple valid pronunciations. We evaluate the model on non-native (L2) English speech of German, Italian and Polish speakers, where it is shown to increase the precision of detecting mispronunciations by up to 18% (relative) compared to the common approach.
翻訳日:2021-03-28 04:25:47 公開日:2021-02-08
# (参考訳) 実ミリ波計測による移動ブロック予測のための深層学習 [全文訳有]

Deep Learning for Moving Blockage Prediction using Real Millimeter Wave Measurements ( http://arxiv.org/abs/2101.06886v3 )

ライセンス: CC BY 4.0
Shunyao Wu, Muhammad Alrabeiah, Andrew Hredzak, Chaitali Chakrabarti, and Ahmed Alkhateeb(参考訳) ミリ波(mmWave)通信は5G以降の重要なコンポーネントである。 しかし、mmWaveシステムにおける大きな帯域幅と低レイテンシの利得を損なうことは、mmWave信号の遮断に対する感度に問題があり、視線(LOS)リンクの突然の遮断は突然の切断につながり、ネットワークの信頼性に影響を及ぼす。 さらに、リンクを再確立するための代替基地局を探すと、不要な遅延オーバーヘッドが発生する可能性がある。 本稿では,機械学習を利用して動的ブロックを積極的に予測することにより,これらの課題に対処する。 提案手法では,前ブロックシグネチャと呼ばれるものを観察し,将来の障害を予測する機械学習アルゴリズムが提案されている。 提案手法を評価するため,移動ブロックを用いたmmWave通信装置を構築し,受信電力列のデータセットを収集する。 実データセット上でのシミュレーション結果から,ブロックの発生を85%以上の精度で予測し,ブロック発生の正確な時刻を低い誤差で求めることができた。 これは、将来の無線ネットワークの信頼性とレイテンシを高める動的ブロック予測と積極的なハンドオフのための提案ソリューションの可能性を強調している。

Millimeter wave (mmWave) communication is a key component of 5G and beyond. Harvesting the gains of the large bandwidth and low latency at mmWave systems, however, is challenged by the sensitivity of mmWave signals to blockages; a sudden blockage in the line of sight (LOS) link leads to abrupt disconnection, which affects the reliability of the network. In addition, searching for an alternative base station to re-establish the link could result in needless latency overhead. In this paper, we address these challenges collectively by utilizing machine learning to anticipate dynamic blockages proactively. The proposed approach sees a machine learning algorithm learning to predict future blockages by observing what we refer to as the pre-blockage signature. To evaluate our proposed approach, we build a mmWave communication setup with a moving blockage and collect a dataset of received power sequences. Simulation results on a real dataset show that blockage occurrence could be predicted with more than 85% accuracy and the exact time instance of blockage occurrence can be obtained with low error. This highlights the potential of the proposed solution for dynamic blockage prediction and proactive hand-off, which enhances the reliability and latency of future wireless networks.
翻訳日:2021-03-27 17:27:26 公開日:2021-02-08
# 光コヒーレンストモグラフィ画像におけるドローゼンセグメンテーションの認識的・アレエータ的不確かさの解析

Analyzing Epistemic and Aleatoric Uncertainty for Drusen Segmentation in Optical Coherence Tomography Images ( http://arxiv.org/abs/2101.08888v2 )

ライセンス: Link先を確認
Tinu Theckel Joy, Suman Sedai, Rahil Garnavi(参考訳) 加齢関連黄斑変性症(AMD)は60歳以上の高齢者の永久視喪失の原因の1つである。 amdの初期段階を示すdrusenのようなバイオマーカーの正確なセグメンテーションは、視覚障害のさらなる防止に不可欠である。 しかし,サイズや外観,コントラストの低さ,ノイズの類似性などにより,分画は極めて困難である。 それゆえ、既存の文献の多くは分類を用いたドルーゼンのサイズ推定に重点を置いており、正確なセグメンテーションの課題は取り組まれていない。 さらに、ピクセル単位のアノテーションを得るのは非常にコストがかかり、そのようなラベルは、オブザーバ間およびオブザーバ内ばらつきに悩まされ、しばしばうるさい。 セグメンテーションタスクに関連する不確実性の定量化は、セグメンテーションアウトプットを検査するための原則的な手段を提供する。 そこで本研究では, 誤ったセグメンテーションの同定と臨床意思決定への可能性を実現するために, U-Netベースのドルーゼンセグメンテーションモデルを開発し, セグメンテーションの不確実性を定量化する。 本研究では, モデル信頼度とデータ不確かさをそれぞれ把握した。 セグメンテーションの結果を示し、不確実性がロバスト評価戦略の定式化にどう役立つかを示す。 テスト画像の画素方向の不確かさとセグメンテーション結果を視覚的に検査する。 最後に,セグメンテーションの不確かさと精度の相関関係を解析した。 本研究は,医療画像解析のためのセグメンテーションモデルの開発と説明に不確実性を活用するの有用性を示す。

Age-related macular degeneration (AMD) is one of the leading causes of permanent vision loss in people aged over 60 years. Accurate segmentation of biomarkers such as drusen that points to the early stages of AMD is crucial in preventing further vision impairment. However, segmenting drusen is extremely challenging due to their varied sizes and appearances, low contrast and noise resemblance. Most existing literature, therefore, have focused on size estimation of drusen using classification, leaving the challenge of accurate segmentation less tackled. Additionally, obtaining the pixel-wise annotations is extremely costly and such labels can often be noisy, suffering from inter-observer and intra-observer variability. Quantification of uncertainty associated with segmentation tasks offers principled measures to inspect the segmentation output. Realizing its utility in identifying erroneous segmentation and the potential applications in clinical decision making, here we develop a U-Net based drusen segmentation model and quantify the segmentation uncertainty. We investigate epistemic and aleatoric uncertainty capturing model confidence and data uncertainty respectively. We present segmentation results and show how uncertainty can help formulate robust evaluation strategies. We visually inspect the pixel-wise uncertainty and segmentation results on test images. We finally analyze the correlation between segmentation uncertainty and accuracy. Our results demonstrate the utility of leveraging uncertainties in developing and explaining segmentation models for medical image analysis.
翻訳日:2021-03-21 07:59:15 公開日:2021-02-08
# Anti-UAV: UAV追跡のための大規模マルチモーダルベンチマーク

Anti-UAV: A Large Multi-Modal Benchmark for UAV Tracking ( http://arxiv.org/abs/2101.08466v3 )

ライセンス: Link先を確認
Nan Jiang, Kuiran Wang, Xiaoke Peng, Xuehui Yu, Qiang Wang, Junliang Xing, Guorong Li, Jian Zhao, Guodong Guo, Zhenjun Han(参考訳) Unmanned Aerial Vehicle (UAV)は、商業とレクリエーションの両方に多くの応用を提供している。 これにより、UAVの運用状況を監視することが極めて重要である。 本研究では,UAVの追跡作業について考察し,位置や軌道などの豊富な情報を提供する。 そこで本研究では,300以上のビデオペアが手作業で580k以上のラベル付きバウンディングボックスを含むデータセットであるanti-uavを提案する。 このような大規模なデータセットのリリースは、UAVを追跡する研究における有用な最初のステップになる可能性がある。 さらに、アンチUAVにおける研究課題への対処の進歩は、アンチUAVシステムの設計に寄与し、UAVのより優れた監視につながる。 さらに,UAV追跡のための二流セマンティック一貫性(DFSC)という新しい手法を提案する。 ビデオシーケンス間のセマンティクスフローによって変調され、トラッカーはより堅牢なクラスレベルのセマンティクス情報を学び、より識別的なインスタンスレベルの特徴を得る。 実験の結果,uav対策は非常に困難であり,提案手法はトラッカの性能を効果的に向上できることがわかった。 Anti-UAVベンチマークと提案されたアプローチのコードはhttps://github.com/u cas-vg/Anti-UAVで公開される。

Unmanned Aerial Vehicle (UAV) offers lots of applications in both commerce and recreation. With this, monitoring the operation status of UAVs is crucially important. In this work, we consider the task of tracking UAVs, providing rich information such as location and trajectory. To facilitate research on this topic, we propose a dataset, Anti-UAV, with more than 300 video pairs containing over 580k manually annotated bounding boxes. The releasing of such a large-scale dataset could be a useful initial step in research of tracking UAVs. Furthermore, the advancement of addressing research challenges in Anti-UAV can help the design of anti-UAV systems, leading to better surveillance of UAVs. Besides, a novel approach named dual-flow semantic consistency (DFSC) is proposed for UAV tracking. Modulated by the semantic flow across video sequences, the tracker learns more robust class-level semantic information and obtains more discriminative instance-level features. Experimental results demonstrate that Anti-UAV is very challenging, and the proposed method can effectively improve the tracker's performance. The Anti-UAV benchmark and the code of the proposed approach will be publicly available at https://github.com/u cas-vg/Anti-UAV.
翻訳日:2021-03-21 07:56:10 公開日:2021-02-08
# (参考訳) 進化戦略を用いた強化学習のための学習環境 [全文訳有]

Learning Synthetic Environments for Reinforcement Learning with Evolution Strategies ( http://arxiv.org/abs/2101.09721v3 )

ライセンス: CC BY 4.0
Fabio Ferreira, Thomas Nierhoff, Frank Hutter(参考訳) 本研究は強化学習のための学習エージェント非依存合成環境(ses)を探索する。 SEはターゲット環境のプロキシとして機能し、ターゲット環境で直接トレーニングされた場合よりも効率的にエージェントをトレーニングできる。 これを二段階最適化問題として定式化し、SEをニューラルネットワークとして表現する。 自然進化戦略とSEパラメータベクトルの集団を用いて、進化するSEsの内ループにおいてエージェントを訓練する一方、外ループでは、SEの集団をメタ更新するためのスコアとしてターゲットタスクのパフォーマンスを使用する。 我々は2つの離散アクション空間タスク(CartPole-v0とAcrobot-v1)のSEを学習でき、エージェントをより堅牢かつ60%少ないステップで訓練できることを示した。 また, 学習速度, バッチサイズ, ネットワークサイズなど, SE がハイパーパラメータ変化に対して堅牢であることを示す実験に加えて, DDQN エージェントで訓練した SE が TD3 の離散処理空間バージョンに限定的に移行し, DDQN に非常によく対応していることを示す。

This work explores learning agent-agnostic synthetic environments (SEs) for Reinforcement Learning. SEs act as a proxy for target environments and allow agents to be trained more efficiently than when directly trained on the target environment. We formulate this as a bi-level optimization problem and represent an SE as a neural network. By using Natural Evolution Strategies and a population of SE parameter vectors, we train agents in the inner loop on evolving SEs while in the outer loop we use the performance on the target task as a score for meta-updating the SE population. We show empirically that our method is capable of learning SEs for two discrete-action-spac e tasks (CartPole-v0 and Acrobot-v1) that allow us to train agents more robustly and with up to 60% fewer steps. Not only do we show in experiments with 4000 evaluations that the SEs are robust against hyperparameter changes such as the learning rate, batch sizes and network sizes, we also show that SEs trained with DDQN agents transfer in limited ways to a discrete-action-spac e version of TD3 and very well to Dueling DDQN.
翻訳日:2021-03-19 07:01:30 公開日:2021-02-08
# (参考訳) Annealed Stein Variational Gradient Descent [全文訳有]

Annealed Stein Variational Gradient Descent ( http://arxiv.org/abs/2101.09815v2 )

ライセンス: CC BY 4.0
Francesco D'Angelo, Vincent Fortuin(参考訳) 近年,粒子の集合を反復的に更新して対象分布を近似するサンプリング法として,粒子に基づく最適化アルゴリズムが開発されている。 特にスタイン変動勾配降下は、その柔軟性と精度について近似推論文献で注目されている。 本手法は,マルチモーダル分布から試料を採取する能力を実験的に検討し, (i) 粒子が局所モードから脱出できないこと, (ii) 異なる領域の密度を再現できないこと, という2つの重要な問題に注目する。 これらの問題を解決するためのアニーリングスケジュールを提案し、様々な実験を通じて、この単純な解法が元のアルゴリズムの理論的性質を無効にすることなく、モードカバレッジを著しく改善することを示す。

Particle based optimization algorithms have recently been developed as sampling methods that iteratively update a set of particles to approximate a target distribution. In particular Stein variational gradient descent has gained attention in the approximate inference literature for its flexibility and accuracy. We empirically explore the ability of this method to sample from multi-modal distributions and focus on two important issues: (i) the inability of the particles to escape from local modes and (ii) the inefficacy in reproducing the density of the different regions. We propose an annealing schedule to solve these issues and show, through various experiments, how this simple solution leads to significant improvements in mode coverage, without invalidating any theoretical properties of the original algorithm.
翻訳日:2021-03-16 10:15:58 公開日:2021-02-08
# (参考訳) 科学出版における分類体系のための教師なしキーフレーズ抽出とクラスタリング [全文訳有]

Unsupervised Key-phrase Extraction and Clustering for Classification Scheme in Scientific Publications ( http://arxiv.org/abs/2101.09990v2 )

ライセンス: CC BY 4.0
Xiajing Li, Marios Daoutis(参考訳) Systematic Mapping (SM) と Systematic Review (SR) の方法論の一部を自動化するいくつかの方法が検討されている。 問題は通常、テキストの意味的理解のギャップと、そのギャップを埋めるために必要なドメイン知識とバックグラウンド知識の欠如を中心に進化します。 本稿では,SM/SRプロセスの一部を自動化する可能性について検討する。 キーワードやキーフレーズを、教師なしの方法で科学文書から抽出し、セマンティックキーフレーズクラスタリング技術を用いて対応する分類スキームを構築するための基礎として使用される。 具体的には,キーフレーズ抽出におけるアンサンブルスコア尺度の効果を探索し,句意味の埋め込み表現における意味ネットワークに基づく単語埋め込みを探索し,最後に,クラスタリングを用いて関連するキーフレーズをグループ化する方法について検討する。 この評価は、標準の公開デジタルライブラリと索引付け用語(キーワード)を用いて構築した「説明可能なAI」のドメインに関する出版物のデータセットに基づいて行われる。 その結果、アンサンブルランキングスコアはキーフレーズ抽出性能を向上させます。 ConceptNet Semantic Networkに基づくセマンティックネットワークベースの単語埋め込みは、コンテキスト化された単語埋め込みと同じようなパフォーマンスを有するが、前者は計算効率が高い。 最後に、項レベルのセマンティックキーフレーズクラスタリングは、分類スキームに適した類似用語をまとめることができる。

Several methods have been explored for automating parts of Systematic Mapping (SM) and Systematic Review (SR) methodologies. Challenges typically evolve around the gaps in semantic understanding of text, as well as lack of domain and background knowledge necessary to bridge that gap. In this paper we investigate possible ways of automating parts of the SM/SR process, i.e. that of extracting keywords and key-phrases from scientific documents using unsupervised methods, which are then used as a basis to construct the corresponding Classification Scheme using semantic key-phrase clustering techniques. Specifically, we explore the effect of ensemble scores measure in key-phrase extraction, we explore semantic network based word embedding in embedding representation of phrase semantics and finally we also explore how clustering can be used to group related key-phrases. The evaluation is conducted on a dataset of publications pertaining the domain of "Explainable AI" which we constructed using standard publicly available digital libraries and sets of indexing terms (keywords). Results shows that: ensemble ranking score does improve the key-phrase extraction performance. Semantic-network based word embedding based on the ConceptNet Semantic Network has similar performance with contextualized word embedding, however the former are computationally more efficient. Finally Semantic key-phrase clustering at term-level can group similar terms together that can be suitable for classification scheme.
翻訳日:2021-03-16 05:56:33 公開日:2021-02-08
# CHOLAN: WikipediaとWikidata上のニューラルエンティティリンクに対するモジュール的アプローチ

CHOLAN: A Modular Approach for Neural Entity Linking on Wikipedia and Wikidata ( http://arxiv.org/abs/2101.09969v2 )

ライセンス: Link先を確認
Manoj Prabhakar Kannan Ravi, Kuldeep Singh, Isaiah Onando Mulang', Saeedeh Shekarpour, Johannes Hoffart, Jens Lehmann(参考訳) 本稿では,知識ベース上でのエンドツーエンドエンティティリンク(EL)をターゲットとするモジュール型アプローチCHOLANを提案する。 CHOLANは、2つのトランスフォーマーベースモデルのパイプラインで構成され、ELタスクを順次統合する。 最初のトランスフォーマーモデルは、与えられたテキストの表面形式(エンティティ参照)を識別する。 言及するごとに、2番目のトランスフォーマーモデルを使用して、あらかじめ定義された候補リストのターゲットエンティティを分類します。 後者のトランスフォーマーは、文(すなわち)からキャプチャされたリッチなコンテキストによって与えられる。 ローカルコンテキスト)と、wikipediaから得られたエンティティ記述。 このような外部コンテキストは、アートELアプローチの状況では使われていない。 私たちの実証的研究は、2つの有名な知識ベース(WikidataとWikipedia)で行われました。 実証的な結果は、CHOLANがCoNLL-AIDA、MSNBC、AQUAINT、ACE2004、T-RExなどの標準データセットの最先端のアプローチを上回ることを示唆している。

In this paper, we propose CHOLAN, a modular approach to target end-to-end entity linking (EL) over knowledge bases. CHOLAN consists of a pipeline of two transformer-based models integrated sequentially to accomplish the EL task. The first transformer model identifies surface forms (entity mentions) in a given text. For each mention, a second transformer model is employed to classify the target entity among a predefined candidates list. The latter transformer is fed by an enriched context captured from the sentence (i.e. local context), and entity description gained from Wikipedia. Such external contexts have not been used in the state of the art EL approaches. Our empirical study was conducted on two well-known knowledge bases (i.e., Wikidata and Wikipedia). The empirical results suggest that CHOLAN outperforms state-of-the-art approaches on standard datasets such as CoNLL-AIDA, MSNBC, AQUAINT, ACE2004, and T-REx.
翻訳日:2021-03-14 19:11:17 公開日:2021-02-08
# 病理組織像からの3次元癌細胞モデルの合成

Synthetic Generation of Three-Dimensional Cancer Cell Models from Histopathological Images ( http://arxiv.org/abs/2101.11600v2 )

ライセンス: Link先を確認
Yoav Alon and Xiang Yu and Huiyu Zhou(参考訳) 組織病理学的画像から三次元細胞モデルの合成生成は、臨床評価および最適な治療に必要な細胞突然変異の理解、および癌の進行を促進することを目的とする。 染色組織の連続スライス画像の登録に基づく古典的再構成アルゴリズムは誤りが多く,三次元セグメンテーションアルゴリズムの訓練には適さないことが多い。 生物検体に典型的な滑らかな形状連続性を利用したBlenderインタフェースを用いて3次元モデルを構成する制約特徴を最適化するジェネレータ・ディスクリミネータパターンに基づく合成三次元組織モデルを生成する新しいフレームワークを提案する。 細胞クラスタ全体の空間的コンテキストをキャプチャするために、細胞群画像に注意メカニズムを実装し、凍結特徴デコーダの機能を抽出する新しいディープトポロジトランスをデプロイします。 提案アルゴリズムは、低いフリーチェット・インセプションスコアなどの比較評価指標において、高い定量的および定性的な合成を実現する。

Synthetic generation of three-dimensional cell models from histopathological images aims to enhance understanding of cell mutation, and progression of cancer, necessary for clinical assessment and optimal treatment. Classical reconstruction algorithms based on image registration of consecutive slides of stained tissues are prone to errors and often not suitable for the training of three-dimensional segmentation algorithms. We propose a novel framework to generate synthetic three-dimensional histological models based on a generator-discrimina tor pattern optimizing constrained features that construct a 3D model via a Blender interface exploiting smooth shape continuity typical for biological specimens. To capture the spatial context of entire cell clusters we deploy a novel deep topology transformer that implements and attention mechanism on cell group images to extract features for the frozen feature decoder. The proposed algorithms achieves high quantitative and qualitative synthesis evident in comparative evaluation metrics such as a low Frechet-Inception scores.
翻訳日:2021-03-13 19:35:50 公開日:2021-02-08
# (参考訳) ParaVS:構造ベースの仮想スクリーニングのためのシンプルで高速で効率的なグラフニューラルネットワークフレームワーク [全文訳有]

ParaVS: A Simple, Fast, Efficient and Flexible Graph Neural Network Framework for Structure-Based Virtual Screening ( http://arxiv.org/abs/2102.06086v1 )

ライセンス: CC BY 4.0
Junfeng Wu, Dawei Leng, Lurong Pan(参考訳) 構造ベースの仮想スクリーニング(SBVS)は、計算手法を薬物設計に統合する有望なシリコ技術である。 SBVSで広く使われている方法は分子ドッキングである。 しかし、古典力学スコアリング関数を近似するために使用するため、ドッキング過程は計算効率と精度を同時に行うことは困難であるが、この方法では量子力学の精度が向上する。 タンパク質リガンドスコアリングプロセスの計算コストを削減し,データ駆動手法を用いてスコアリング関数の精度を向上させるため,ドッキングベースのSBVS法,ドッキングプロセスの計算コストを回避できるディープラーニング非ドッキング方式を導入する。 そして、これらの2つのメソッドを、研究者に両方の選択肢を提供する、使い易いフレームワークであるParaVSに統合しようとします。 グラフニューラルネットワーク(GNN)はParaVSで採用されており、私たちの社内GNNがどのように機能し、リガンドや分子標的をモデル化するかを説明しました。 我々のアプローチを検証するために、クロス検証実験は、2つのデータセット、オープンデータセットRe Directory of Useful Decoys: Enhanced (DUD.E)と、計算生成された人工デコイ(NoDecoy)を使わずに社内独自のデータセットである。 DUD.Eでは0.981の最先端のAUCと36.2の最先端の濃縮係数を達成し,NoDecoyでは0.974のAUCを達成しました。 さらに、ParaVSノンドッキング法(ParaVS-ND)を用いて、4050コア時間に136億以上の分子からなるオープンデータベース Enamine REAL Database (RDB) の推論を終了する。 ParaVS-NDの推論速度は約3.6e5分子/コア時間であり、従来のドッキングベースの手法では約20であり、これは約16000倍高速である。 この実験は、ParaVSが正確で計算効率が高く、異なる分子に一般化できることを示しています。

Structure-based virtual screening (SBVS) is a promising in silico technique that integrates computational methods into drug design. An extensively used method in SBVS is molecular docking. However, the docking process can hardly be computationally efficient and accurate simultaneously because classic mechanics scoring function is used to approximate, but hardly reach, the quantum mechanics precision in this method. In order to reduce the computational cost of the protein-ligand scoring process and use data driven approach to boost the scoring function accuracy, we introduce a docking-based SBVS method and, furthermore, a deep learning non-docking-based method that is able to avoid the computational cost of the docking process. Then, we try to integrate these two methods into an easy-to-use framework, ParaVS, that provides both choices for researchers. Graph neural network (GNN) is employed in ParaVS, and we explained how our in-house GNN works and how to model ligands and molecular targets. To verify our approaches, cross validation experiments are done on two datasets, an open dataset Directory of Useful Decoys: Enhanced (DUD.E) and an in-house proprietary dataset without computational generated artificial decoys (NoDecoy). On DUD.E we achieved a state-of-the-art AUC of 0.981 and a state-of-the-art enrichment factor at 2% of 36.2; on NoDecoy we achieved an AUC of 0.974. We further finish inference of an open database, Enamine REAL Database (RDB), that comprises over 1.36 billion molecules in 4050 core-hours using our ParaVS non-docking method (ParaVS-ND). The inference speed of ParaVS-ND is about 3.6e5 molecule / core-hour, while this number of a conventional docking-based method is around 20, which is about 16000 times faster. The experiments indicate that ParaVS is accurate, computationally efficient and can be generalized to different molecular.
翻訳日:2021-02-12 15:27:39 公開日:2021-02-08
# 医療画像復元のための多レベルObey-pixel Network Discriminator (DIAMOND) による深層反復

Deep Iteration Assisted by Multi-level Obey-pixel Network Discriminator (DIAMOND) for Medical Image Recovery ( http://arxiv.org/abs/2102.06102v1 )

ライセンス: Link先を確認
Moran Xu, Dianlin Hu, Weifei Wu, and Weiwen Wu(参考訳) 画像復元は典型的な問題であり、さまざまなタスクが含まれています。 医用撮像領域では、不良画像は診断を中断し、画像処理に追随する。 従来の反復的ネットワークと最新のディープネットワークの両方が注目を集め、満足のいくイメージの再構築に大きく改善されました。 本研究は,それらの利点を1つの統一数学的モデルに統合し,そのような問題に対処するための一般的な画像復元戦略を提案する。 この戦略は2つのモジュールからなる。 まず,WGAN-GPトレーニングを用いた新しい生成逆数ネット(GAN)を構築し,画像構造と微妙な詳細を復元する。 その後、ADMM最適化により、事前訓練されたディープネットワークと圧縮センシングアルゴリズムの組み合わせにより、ディープイテレーションモジュールは画質を促進します。 (D)eep(I)terationモジュールは、画像アーティファクトを抑圧し、さらに微妙な画像詳細を復元し(A)、(M)ultiレベル(O)bey-Pixel特徴抽出ネットワーク(D)iscriminatorにより一般的な構造を復元する。 そのため、提案した戦略はDIAMONDと命名される。

Image restoration is a typical ill-posed problem, and it contains various tasks. In the medical imaging field, an ill-posed image interrupts diagnosis and even following image processing. Both traditional iterative and up-to-date deep networks have attracted much attention and obtained a significant improvement in reconstructing satisfying images. This study combines their advantages into one unified mathematical model and proposes a general image restoration strategy to deal with such problems. This strategy consists of two modules. First, a novel generative adversarial net(GAN) with WGAN-GP training is built to recover image structures and subtle details. Then, a deep iteration module promotes image quality with a combination of pre-trained deep networks and compressed sensing algorithms by ADMM optimization. (D)eep (I)teration module suppresses image artifacts and further recovers subtle image details, (A)ssisted by (M)ulti-level (O)bey-pixel feature extraction networks (D)iscriminator to recover general structures. Therefore, the proposed strategy is named DIAMOND.
翻訳日:2021-02-12 14:05:44 公開日:2021-02-08
# (参考訳) デモから公正なクラスタを生成するための学習 [全文訳有]

Learning to Generate Fair Clusters from Demonstrations ( http://arxiv.org/abs/2102.03977v1 )

ライセンス: CC BY 4.0
Sainyam Galhotra, Sandhya Saisubramanian and Shlomo Zilberstein(参考訳) フェアクラスタリングは、数学的によく定義されたフェアネスメトリックを制約として満たしながら、類似したエンティティをグループ化するプロセスである。 正確なモデル仕様の実践的な課題のため、所定の公正性制約はしばしば不完全であり、意図された公正性要件のプロキシとして機能し、システムがデプロイされた時にバイアスのある結果をもたらす。 専門家による限定的な実演に基づいて,問題に対する公平性制約の特定方法について検討する。 それぞれのデモは、データのサブセット上でのクラスタリングである。 本稿では,既存のオフザシェルフクラスタリング技術を用いて,デモからフェアネスメトリックを識別し,クラスタを生成し,その理論的特性を解析するアルゴリズムを提案する。 現在クラスタリングアルゴリズムが存在しない新しい公平度メトリクスへのアプローチを拡張するため,クラスタリングのための欲張りな手法を提案する。 さらに、私たちのアプローチを使用して解釈可能なソリューションを生成する方法を調査します。 3つの実世界のデータセットに関する実証的評価は、基礎となる公平性と解釈可能性の制約を迅速に特定するアプローチの有効性を示しています。

Fair clustering is the process of grouping similar entities together, while satisfying a mathematically well-defined fairness metric as a constraint. Due to the practical challenges in precise model specification, the prescribed fairness constraints are often incomplete and act as proxies to the intended fairness requirement, leading to biased outcomes when the system is deployed. We examine how to identify the intended fairness constraint for a problem based on limited demonstrations from an expert. Each demonstration is a clustering over a subset of the data. We present an algorithm to identify the fairness metric from demonstrations and generate clusters using existing off-the-shelf clustering techniques, and analyze its theoretical properties. To extend our approach to novel fairness metrics for which clustering algorithms do not currently exist, we present a greedy method for clustering. Additionally, we investigate how to generate interpretable solutions using our approach. Empirical evaluation on three real-world datasets demonstrates the effectiveness of our approach in quickly identifying the underlying fairness and interpretability constraints, which are then used to generate fair and interpretable clusters.
翻訳日:2021-02-11 10:28:47 公開日:2021-02-08
# (参考訳) TransUNet:トランスフォーマーは医療画像セグメンテーションのための強力なエンコーダを作る [全文訳有]

TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation ( http://arxiv.org/abs/2102.04306v1 )

ライセンス: CC BY 4.0
Jieneng Chen, Yongyi Lu, Qihang Yu, Xiangde Luo, Ehsan Adeli, Yan Wang, Le Lu, Alan L. Yuille, Yuyin Zhou(参考訳) 医用画像のセグメンテーションは医療システム、特に疾患の診断と治療計画に必須の前提条件である。 さまざまな医療画像分割タスクでは、U-Netとも呼ばれるu字型のアーキテクチャがデファクトスタンダードとなり、大きな成功を収めました。 しかし、畳み込み操作の本質的な局所性のために、U-Netは一般に長距離依存を明示的にモデリングする制限を示す。 シーケンシャル・トゥ・シーケンス予測のために設計されたトランスフォーマーは、生来のグローバル・セルフ・アテンション機構を持つ代替アーキテクチャとして登場したが、低レベルの詳細が不十分なためにローカライズ能力が限られている。 本稿では,医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netを両立させたTransUNetを提案する。 一方、トランスフォーマは、グローバルコンテキストを抽出する入力シーケンスとして畳み込みニューラルネットワーク(cnn)特徴マップからトークン化された画像パッチを符号化する。 一方、デコーダは符号化された特徴をサンプリングし、高分解能のcnn特徴マップと組み合わせて正確な局在化を可能にする。 トランスフォーマーは、U-Netの組み合わせにより、局所化された空間情報を回復することで細かい詳細を強化することで、医療画像セグメンテーションタスクの強力なエンコーダとして役立つと論じています。 TransUNetは、マルチオーガンセグメンテーションや心臓セグメンテーションなど、さまざまな医療用途におけるさまざまな競合方法に対する優れたパフォーマンスを実現します。 コードとモデルはhttps://github.com/b eckschen/transunetで入手できる。

Medical image segmentation is an essential prerequisite for developing healthcare systems, especially for disease diagnosis and treatment planning. On various medical image segmentation tasks, the u-shaped architecture, also known as U-Net, has become the de-facto standard and achieved tremendous success. However, due to the intrinsic locality of convolution operations, U-Net generally demonstrates limitations in explicitly modeling long-range dependency. Transformers, designed for sequence-to-sequence prediction, have emerged as alternative architectures with innate global self-attention mechanisms, but can result in limited localization abilities due to insufficient low-level details. In this paper, we propose TransUNet, which merits both Transformers and U-Net, as a strong alternative for medical image segmentation. On one hand, the Transformer encodes tokenized image patches from a convolution neural network (CNN) feature map as the input sequence for extracting global contexts. On the other hand, the decoder upsamples the encoded features which are then combined with the high-resolution CNN feature maps to enable precise localization. We argue that Transformers can serve as strong encoders for medical image segmentation tasks, with the combination of U-Net to enhance finer details by recovering localized spatial information. TransUNet achieves superior performances to various competing methods on different medical applications including multi-organ segmentation and cardiac segmentation. Code and models are available at https://github.com/B eckschen/TransUNet.
翻訳日:2021-02-11 09:53:01 公開日:2021-02-08
# (参考訳) 視覚的コンテキスト認識によるグローバルリレーションラーニングによるゲーム内住宅計画 [全文訳有]

In-game Residential Home Planning via Visual Context-aware Global Relation Learning ( http://arxiv.org/abs/2102.04035v1 )

ライセンス: CC BY 4.0
Lijuan Liu, Yin Yang, Yi Yuan, Tianjia Shao, He Wang and Kun Zhou(参考訳) 本論文では,住宅複合住宅のゲーム内カスタマイズのための建物ユニットの適切な位置を推薦する,効果的なグローバルリレーション学習アルゴリズムを提案する。 構築レイアウトを考えると、シーンコンポーネント間の暗黙的なグローバル関係を学習し、新しい建築ユニットの位置を推測する視覚的コンテキスト認識グラフ生成ネットワークを提案する。 提案するネットワークはシーングラフと対応するトップビュー深度画像とを入力として取り込む。 既存のシーンで条件付けられた自己回帰エッジ分布を学習することにより、新たに追加された建物ユニットのロケーションレコメンデーションを提供する。 また,サイトの本質的幾何学的意味論の認識を高めるために,グローバルグラフ画像マッチングロスを導入する。 質的かつ定量的な実験により, 推奨位置が住宅の構成要素の暗黙的な空間的規則を反映していることが示され, 複合建築の3次元シーンにおける建物単位の配置が指導的かつ実用的である。

In this paper, we propose an effective global relation learning algorithm to recommend an appropriate location of a building unit for in-game customization of residential home complex. Given a construction layout, we propose a visual context-aware graph generation network that learns the implicit global relations among the scene components and infers the location of a new building unit. The proposed network takes as input the scene graph and the corresponding top-view depth image. It provides the location recommendations for a newly-added building units by learning an auto-regressive edge distribution conditioned on existing scenes. We also introduce a global graph-image matching loss to enhance the awareness of essential geometry semantics of the site. Qualitative and quantitative experiments demonstrate that the recommended location well reflects the implicit spatial rules of components in the residential estates, and it is instructive and practical to locate the building units in the 3D scene of the complex construction.
翻訳日:2021-02-11 09:41:00 公開日:2021-02-08
# (参考訳) 外観適応正規化を用いたワンショット顔再現 [全文訳有]

One-shot Face Reenactment Using Appearance Adaptive Normalization ( http://arxiv.org/abs/2102.03984v1 )

ライセンス: CC BY 4.0
Guangming Yao, Yi Yuan, Tianjia Shao, Shuang Li, Shanqi Liu, Yong Liu, Mengmeng Wang, Kun Zhou(参考訳) 本稿では,1枚の顔画像から異なるポーズ・アンド・エクスプレッション(駆動画像で示される)にアニメーション化できる,一発顔再現のための新たな生成対向ネットワークを提案する。 我々のネットワークのコアは外観適応正規化と呼ばれる新しいメカニズムであり、学習された適応パラメータを用いて生成者の特徴マップを変調することにより、入力画像からの外観情報を顔ジェネレータに効果的に統合することができる。 さらに、まず局所的な顔成分(目、鼻、口)を再現するローカルネットを特別に設計する。これはネットワークにとって学習がはるかに容易な作業であり、顔発生器をガイドする明示的なアンカーを提供し、グローバルな外観とポーズ・アンド・表現を学ぶことができる。 広範な定量的および定性的な実験は、以前のワンショット法と比較して、我々のモデルの有意な有効性を示す。

The paper proposes a novel generative adversarial network for one-shot face reenactment, which can animate a single face image to a different pose-and-expression (provided by a driving image) while keeping its original appearance. The core of our network is a novel mechanism called appearance adaptive normalization, which can effectively integrate the appearance information from the input image into our face generator by modulating the feature maps of the generator using the learned adaptive parameters. Furthermore, we specially design a local net to reenact the local facial components (i.e., eyes, nose and mouth) first, which is a much easier task for the network to learn and can in turn provide explicit anchors to guide our face generator to learn the global appearance and pose-and-expression. Extensive quantitative and qualitative experiments demonstrate the significant efficacy of our model compared with prior one-shot methods.
翻訳日:2021-02-11 09:25:24 公開日:2021-02-08
# (参考訳) テクスチャ3dメッシュの主観的および客観的視覚品質評価 [全文訳有]

Subjective and Objective Visual Quality Assessment of Textured 3D Meshes ( http://arxiv.org/abs/2102.03982v1 )

ライセンス: CC BY 4.0
Jinjiang Guo, Vincent Vidal, Irene Cheng, Anup Basu, Atilla Baskurt, Guillaume Lavoue(参考訳) 3dモデルの客観的視覚品質評価は、コンピュータグラフィックスにおける根本的な問題である。 品質評価指標は、詳細作成のレベル、圧縮、フィルタリングなど、幅広いプロセスをガイドおよび評価することができます。 ほとんどのコンピュータグラフィックス資産は幾何面で構成されており、複数のテクスチャイメージを11にマッピングすることでレンダリングをよりリアルにすることができる。 幾何面に対する品質評価指標は存在するが,テクスチャマップを用いた3次元モデルの評価についてはほとんど研究されていない。 本稿では,対比較プロトコルに基づくテクスチャメッシュの知覚的品質を評価するための新たな主観的研究について述べる。 5つの参照モデルの集合にテクスチャと幾何の歪みを導入し、2つのレンダリングプロトコルを用いて評価した136の歪みモデルのデータベースを作成する。 本研究では, テクスチャメッシュの視覚的品質評価のための2つの新しい指標を提案し, 正確な形状とテクスチャ品質測定の線形組み合わせを最適化した。 これらの提案された知覚的指標は、人間の意見との相関の観点から、その対比を上回っている。 データベースは、関連する主観的なスコアとともに、オンラインで公開される。

Objective visual quality assessment of 3D models is a fundamental issue in computer graphics. Quality assessment metrics may allow a wide range of processes to be guided and evaluated, such as level of detail creation, compression, filtering, and so on. Most computer graphics assets are composed of geometric surfaces on which several texture images can be mapped to 11 make the rendering more realistic. While some quality assessment metrics exist for geometric surfaces, almost no research has been conducted on the evaluation of texture-mapped 3D models. In this context, we present a new subjective study to evaluate the perceptual quality of textured meshes, based on a paired comparison protocol. We introduce both texture and geometry distortions on a set of 5 reference models to produce a database of 136 distorted models, evaluated using two rendering protocols. Based on analysis of the results, we propose two new metrics for visual quality assessment of textured mesh, as optimized linear combinations of accurate geometry and texture quality measurements. These proposed perceptual metrics outperform their counterparts in terms of correlation with human opinion. The database, along with the associated subjective scores, will be made publicly available online.
翻訳日:2021-02-11 09:13:07 公開日:2021-02-08
# (参考訳) 構成一般化のための概念・性質・アプローチ [全文訳有]

Concepts, Properties and an Approach for Compositional Generalization ( http://arxiv.org/abs/2102.04225v1 )

ライセンス: CC BY 4.0
Yuanpeng Li(参考訳) 構成一般化は、既知のコンポーネントから多くの新しい組み合わせを認識し、想像する能力である。 これは人間の知能の鍵だが、現在のニューラルネットワークにはそのような能力がない。 本報告は, 構成一般化に関する一連の研究を結びつけ, アプローチを要約する。 最初の部分は概念と特性を含んでいる。 第2部では、機械学習のアプローチを検討する。 このアプローチは、アーキテクチャ設計と正規化を使用して表現の情報を調整します。 本報告では,直感的かつ説明的な基本的な概念について述べる。 この研究が、構成一般化の基本を明らかにするのに役立ち、人工知能の進歩に繋がることを願っている。

Compositional generalization is the capacity to recognize and imagine a large amount of novel combinations from known components. It is a key in human intelligence, but current neural networks generally lack such ability. This report connects a series of our work for compositional generalization, and summarizes an approach. The first part contains concepts and properties. The second part looks into a machine learning approach. The approach uses architecture design and regularization to regulate information of representations. This report focuses on basic ideas with intuitive and illustrative explanations. We hope this work would be helpful to clarify fundamentals of compositional generalization and lead to advance artificial intelligence.
翻訳日:2021-02-11 07:53:59 公開日:2021-02-08
# (参考訳) OntoEnricher: 非構造化テキストからのオントロジーエンリッチメントのためのディープラーニングアプローチ [全文訳有]

OntoEnricher: A Deep Learning Approach for Ontology Enrichment from Unstructured Text ( http://arxiv.org/abs/2102.04081v1 )

ライセンス: CC BY 4.0
Lalit Mohan Sanagavarapu, Vivek Iyer and Y Raghu Reddy(参考訳) サイバー世界の情報セキュリティは、攻撃面の数を大幅に増加させ、懸念の主な原因となっている。 webで利用可能な脆弱性、攻撃、コントロール、アドバイザリに関する既存の情報は、知識を表現し、セキュリティ分析を行い、懸念を緩和する機会を提供する。 オントロジーの形でセキュリティ知識を表現することで、異常検出、脅威インテリジェンス、攻撃の推論と関連性などが容易になります。 これにより、動的かつ自動的な情報セキュリティオントロジーの強化が必要となる。 しかし、自然言語処理とMLモデルに基づく既存のオントロジーエンリッチメントアルゴリズムは、単語、フレーズ、文における概念の文脈的抽出に問題がある。 これは、テキスト内の依存関係パスを横断し、組み込み脆弱性、脅威、制御、製品およびその他のセキュリティ関連の概念と学習されたパス表現からインスタンスを抽出するシーケンシャルディープラーニングアーキテクチャの必要性を動機づけます。 提案手法では,大規模なDBpediaデータセットと2.8GBのウィキペディアコーパスとUniversal Sentence Encoderでトレーニングされた双方向LSTMを,ISO 27001ベースの情報セキュリティオントロジーの強化のために配置した。 このアプローチは、オントロジーとWebページインスタンスのコンセプトをノックアウトして堅牢性を検証すると、テスト精度が80\%以上になった。

Information Security in the cyber world is a major cause for concern, with significant increase in the number of attack surfaces. Existing information on vulnerabilities, attacks, controls, and advisories available on the web provides an opportunity to represent knowledge and perform security analytics to mitigate some of the concerns. Representing security knowledge in the form of ontology facilitates anomaly detection, threat intelligence, reasoning and relevance attribution of attacks, and many more. This necessitates dynamic and automated enrichment of information security ontologies. However, existing ontology enrichment algorithms based on natural language processing and ML models have issues with the contextual extraction of concepts in words, phrases and sentences. This motivates the need for sequential Deep Learning architectures that traverse through dependency paths in text and extract embedded vulnerabilities, threats, controls, products and other security related concepts and instances from learned path representations. In the proposed approach, Bidirectional LSTMs trained on a large DBpedia dataset and Wikipedia corpus of 2.8 GB along with Universal Sentence Encoder was deployed to enrich ISO 27001 based information security ontology. The approach yielded a test accuracy of over 80\% when tested with knocked out concepts from ontology and web page instances to validate the robustness.
翻訳日:2021-02-11 06:46:31 公開日:2021-02-08
# (参考訳) In-Order Chart-Based Constituent Parsing [全文訳有]

In-Order Chart-Based Constituent Parsing ( http://arxiv.org/abs/2102.04065v1 )

ライセンス: CC BY 4.0
Yang Wei, Yuanbin Wu and Man Lan(参考訳) 構成解析のための新しい順番チャートモデルを提案する。 従来のCKYモデルやトップダウンモデルと比較すると,木(リッチな特徴,ルックアヘッド情報,高効率)の直交トラバースによる利点が得られ,決定履歴を符号化することで構造的知識をより活用できる。 Penn Treebankの実験は、私たちのモデルが以前のチャートベースのモデルを上回ることを示し、他の識別シングルモデルと比較して競争力のあるパフォーマンスを達成します。

We propose a novel in-order chart-based model for constituent parsing. Compared with previous CKY-style and top-down models, our model gains advantages from in-order traversal of a tree (rich features, lookahead information and high efficiency) and makes a better use of structural knowledge by encoding the history of decisions. Experiments on the Penn Treebank show that our model outperforms previous chart-based models and achieves competitive performance compared with other discriminative single models.
翻訳日:2021-02-11 06:33:48 公開日:2021-02-08
# (参考訳) arcアルゴリズムによる動的価格設定のための相関バンディット [全文訳有]

Correlated Bandits for Dynamic Pricing via the ARC algorithm ( http://arxiv.org/abs/2102.04263v1 )

ライセンス: CC BY 4.0
Samuel Cohen and Tanut Treetanthiploet(参考訳) Asymptotic Randomised Control (ARC)アルゴリズムは、合理的な計算の複雑さを維持しながら、ベイズバンドの広いクラスの最適戦略に厳密な近似を提供します。 特に、意思決定者は報酬に加えて信号を観察し、異なる選択の結果間の相関を組み込むことができ、見積もりに非自明なダイナミクスを持つことができます。 このアルゴリズムは、バンディットの初期不確実性に応じて誤差を伴って、予想される割引支払を漸近的に最適化することが保証される。 本稿では、一般化された線形モデルから観測結果が到着するバッチ帯域問題について考察し、ARCアルゴリズムをこの設定に拡張する。 これをベイズ階層モデルに基づく古典的動的価格問題に適用し、ARCアルゴリズムが代替手法よりも優れていることを示す。

The Asymptotic Randomised Control (ARC) algorithm provides a rigorous approximation to the optimal strategy for a wide class of Bayesian bandits, while retaining reasonable computational complexity. In particular, it allows a decision maker to observe signals in addition to their rewards, to incorporate correlations between the outcomes of different choices, and to have nontrivial dynamics for their estimates. The algorithm is guaranteed to asymptotically optimise the expected discounted payoff, with error depending on the initial uncertainty of the bandit. In this paper, we consider a batched bandit problem where observations arrive from a generalised linear model; we extend the ARC algorithm to this setting. We apply this to a classic dynamic pricing problem based on a Bayesian hierarchical model and demonstrate that the ARC algorithm outperforms alternative approaches.
翻訳日:2021-02-11 05:27:58 公開日:2021-02-08
# (参考訳) 機械学習による軌道からの保全法則の発見 [全文訳有]

Discovering conservation laws from trajectories via machine learning ( http://arxiv.org/abs/2102.04008v1 )

ライセンス: CC BY 4.0
Seungwoong Ha and Hawoong Jeong(参考訳) 不変量と保存則はシステムの根底にある力学に関する重要な情報を伝えるが、事前の知識なしにそれらを見つけることは一般に不可能である。 この目的を達成するためにConservNetを提案する。これは、各グループのメンバーが不変量を共有するグループデータから保存された量を抽出するニューラルネットワークである。 ノイズ分散損失と呼ばれる新しい直感的な損失関数で訓練されたニューラルネットワークとして、conservnetはデータ駆動のエンドツーエンドの方法で、各多次元観測可能群の隠れた不変量を学ぶ。 実世界の二重振り子軌道と同様に不変量を持つシミュレートシステムによるモデルの能力を実証する。 conservnetは、少数のデータポイント、すなわち数千未満のシステムから、基礎となる不変量の発見に成功している。 このモデルは、ベースラインと比較してノイズやデータ条件に強いため、隠れた保存法則や変数間の関係を発見するための実験データに直接適用されます。

Invariants and conservation laws convey critical information about the underlying dynamics of a system, yet it is generally infeasible to find them without any prior knowledge. We propose ConservNet to achieve this goal, a neural network that extracts a conserved quantity from grouped data where the members of each group share invariants. As a neural network trained with a novel and intuitive loss function called noise-variance loss, ConservNet learns the hidden invariants in each group of multi-dimensional observables in a data-driven, end-to-end manner. We demonstrate the capability of our model with simulated systems having invariants as well as a real-world double pendulum trajectory. ConservNet successfully discovers underlying invariants from the systems from a small number of data points, namely less than several thousand. Since the model is robust to noise and data conditions compared to baseline, our approach is directly applicable to experimental data for discovering hidden conservation laws and relationships between variables.
翻訳日:2021-02-11 05:03:05 公開日:2021-02-08
# (参考訳) 緑内障眼底画像の迅速分類 [全文訳有]

Rapid Classification of Glaucomatous Fundus Images ( http://arxiv.org/abs/2102.04400v1 )

ライセンス: CC BY 4.0
Hardit Singh, Simarjeet Saini, Vasudevan Lakshminarayanan(参考訳) 色付き眼底画像から緑内障を分類するために,強化学習と教師付き学習を統合した新しい畳み込みニューラルネットワークの訓練法を提案する。 トレーニング方法は,2種類の登山種別,ビズ「ランダム運動」と「ランダム検出」を教師付き学習モデルに統合し,確率勾配下降と運動量(SGDM)モデルを用いた。 モデルはDrishti GSとRIM-ONE-r2データセットを使用して訓練され、テストされた。 予測のパフォーマンスメトリクスは、GoogLenet、DesnseNet-201、NASNet、VGG-19、Inception-resnet-v2の5つのCNNアーキテクチャで転送学習によってテストされた。 5倍の分類を行い,高い精度を保ちながら,高感度と高感度の評価を行った。 テストされたモデルのうち、密度の高いNet-201アーキテクチャは、曲線(AUC)の感度と面積の点で最善を尽くした。 この訓練方法は、小さなデータセットでの転送学習を可能にし、ローカルデータセットによるトレーニングを含む遠隔眼科応用に適用することができる。

We propose a new method for training convolutional neural networks which integrates reinforcement learning along with supervised learning and use ti for transfer learning for classification of glaucoma from colored fundus images. The training method uses hill climbing techniques via two different climber types, viz "random movment" and "random detection" integrated with supervised learning model though stochastic gradient descent with momentum (SGDM) model. The model was trained and tested using the Drishti GS and RIM-ONE-r2 datasets having glaucomatous and normal fundus images. The performance metrics for prediction was tested by transfer learning on five CNN architectures, namely GoogLenet, DesnseNet-201, NASNet, VGG-19 and Inception-resnet-v2. A fivefold classification was used for evaluating the perfroamnace and high sensitivities while high maintaining high accuracies were achieved. Of the models tested, the denseNet-201 architecture performed the best in terms of sensitivity and area under the curve (AUC). This method of training allows transfer learning on small datasets and can be applied for tele-ophthalmology applications including training with local datasets.
翻訳日:2021-02-11 04:45:50 公開日:2021-02-08
# (参考訳) 量子ハードウェアにおける高忠実度長期シミュレーション [全文訳有]

Long-time simulations with high fidelity on quantum hardware ( http://arxiv.org/abs/2102.04313v1 )

ライセンス: CC BY 4.0
Joe Gibbs, Kaitlin Gili, Zo\"e Holmes, Benjamin Commeau, Andrew Arrasmith, Lukasz Cincio, Patrick J. Coles and Andrew Sornborger(参考訳) 中規模の量子コンピュータは今やクラウド上で公開され、量子システムの動的シミュレーションを行うエキサイティングな可能性を開く。 しかし、急速に改善される一方で、これらのデバイスはコヒーレンス時間が短く、うまく実装できるアルゴリズムの深さが制限される。 ここでは、これらの制限にもかかわらず、現在のハードウェア上で長時間、高忠実度シミュレーションを実装できることを実証する。 具体的には、リゲッティとIBMの量子コンピュータ上のXYモデルスピンチェーンをシミュレートし、600以上の時間ステップで少なくとも0.9の忠実さを維持する。 これは反復トロッター法で可能なよりも150倍長い因子である。 我々のシミュレーションは、固定状態変動高速フォワード法(fsVFF)アルゴリズムと呼ばれる新しいアルゴリズムを用いて行われる。 このアルゴリズムは、短時間進化ユニタリの近似対角化を見つけることにより、量子シミュレーションに必要な回路深さと幅を減少させる。 要するに、fsVFF は、従来の方法のようにヒルベルト空間全体ではなく、初期状態によってまたがる部分空間上の対角化を見つけるだけで、必要な資源を大幅に削減できる。

Moderate-size quantum computers are now publicly accessible over the cloud, opening the exciting possibility of performing dynamical simulations of quantum systems. However, while rapidly improving, these devices have short coherence times, limiting the depth of algorithms that may be successfully implemented. Here we demonstrate that, despite these limitations, it is possible to implement long-time, high fidelity simulations on current hardware. Specifically, we simulate an XY-model spin chain on the Rigetti and IBM quantum computers, maintaining a fidelity of at least 0.9 for over 600 time steps. This is a factor of 150 longer than is possible using the iterated Trotter method. Our simulations are performed using a new algorithm that we call the fixed state Variational Fast Forwarding (fsVFF) algorithm. This algorithm decreases the circuit depth and width required for a quantum simulation by finding an approximate diagonalization of a short time evolution unitary. Crucially, fsVFF only requires finding a diagonalization on the subspace spanned by the initial state, rather than on the total Hilbert space as with previous methods, substantially reducing the required resources.
翻訳日:2021-02-11 04:22:09 公開日:2021-02-08
# (参考訳) SGDの超大型ノイズによるシャープミニマ除去 [全文訳有]

Eliminating Sharp Minima from SGD with Truncated Heavy-tailed Noise ( http://arxiv.org/abs/2102.04297v1 )

ライセンス: CC BY 4.0
Xingyu Wang, Sewoong Oh, Chang-Han Rhee(参考訳) 深層学習の実証的な成功は、しばしばSGDが失われた風景の急激な局所的なミニマを避けるという神秘的な能力に起因している。 近年,多くの深層学習課題において,重み付き勾配雑音の実証的証拠が報告されているが,そのような重み付き雑音の存在下,SGDは鋭い局所最小値から逃れることができ,謎の部分解となることが示されている。 本研究では,固定しきい値より勾配が小さくなるSGDの一般的な変種を解析する。 鋭い極小を回避できるというより強い概念を実現し、訓練軌道から鋭い局所極小を効果的に排除できることを示した。 重鎖ノイズを駆動する切り裂かれたSGDのダイナミクスを特徴づける。 まず、アトラクションフィールドの切り捨てしきい値と幅が、関連するローカル最小値から最初の終了時間の順序を決定することを示します。 さらに, 目的関数が適切な構造条件を満たす場合, 学習速度が重鎖sgdのダイナミクスを減少させることにより, 鋭いミニマムを決して訪れない特殊な連続時間マルコフ連鎖によく似ていることを証明した。 数値実験により理論結果を検証し,深層学習におけるSGDの一般化可能性について考察する。

The empirical success of deep learning is often attributed to SGD's mysterious ability to avoid sharp local minima in the loss landscape, which is well known to lead to poor generalization. Recently, empirical evidence of heavy-tailed gradient noise was reported in many deep learning tasks; under the presence of such heavy-tailed noise, it can be shown that SGD can escape sharp local minima, providing a partial solution to the mystery. In this work, we analyze a popular variant of SGD where gradients are truncated above a fixed threshold. We show that it achieves a stronger notion of avoiding sharp minima; it can effectively eliminate sharp local minima entirely from its training trajectory. We characterize the dynamics of truncated SGD driven by heavy-tailed noises. First, we show that the truncation threshold and width of the attraction field dictate the order of the first exit time from the associated local minimum. Moreover, when the objective function satisfies appropriate structural conditions, we prove that as the learning rate decreases the dynamics of the heavy-tailed SGD closely resemble that of a special continuous-time Markov chain which never visits any sharp minima. We verify our theoretical results with numerical experiments and discuss the implications on the generalizability of SGD in deep learning.
翻訳日:2021-02-11 03:15:08 公開日:2021-02-08
# (参考訳) 制約付きアンサンブル・ランジュバン・モンテカルロ [全文訳有]

Constrained Ensemble Langevin Monte Carlo ( http://arxiv.org/abs/2102.04279v1 )

ライセンス: CC BY 4.0
Zhiyan Ding and Qin Li(参考訳) 古典的なランゲヴァン・モンテ・カルロ法はi.i.d。 ターゲット分布の勾配に沿って降下させることによるターゲット分布からのサンプル。 部分的には収束速度が速いため人気がある。 しかし、勾配を得るのが難しいため、数値的なコストが高い場合もある。 勾配計算を排除するためのアプローチの1つは、隣接する粒子が互いに勾配情報を提供するように、多数の粒子が一緒に進化する「アンサンブル」の概念を採用することである。 本稿では,アンサンブル機能をlmcに統合する2つのアルゴリズムと関連する特性について述べる。 私たちの発見には2つの側面があります。 アンサンブル近似を用いて直接勾配を推定することにより、アンサンブルランジュバンモンテカルロを開発した。 この手法は,高い分散を誘導する小さな分母によって不安定であることを示す。 我々は、この不安定性を明示的に示す反例を提供する。 2. 次に、戦略を変更し、アンサンブル近似を制約された方法でのみ勾配に変換し、不安定点を排除する。 このアルゴリズムはConstrained Ensemble Langevin Monte Carloと呼ばれている。 適切なチューニングを行うことで、適切な数値保存をもたらすのに十分な頻度でサロゲーションが行われるが、誘導誤差は、制御可能な離散化とアンサンブル誤差まで、高速な収束率を維持するのに十分な低さである。 このようなアンサンブル法とLMC法の組み合わせは、勾配のないアルゴリズムの発明に光を当てた。 ほぼ指数関数的に速いサンプル。

The classical Langevin Monte Carlo method looks for i.i.d. samples from a target distribution by descending along the gradient of the target distribution. It is popular partially due to its fast convergence rate. However, the numerical cost is sometimes high because the gradient can be hard to obtain. One approach to eliminate the gradient computation is to employ the concept of "ensemble", where a large number of particles are evolved together so that the neighboring particles provide gradient information to each other. In this article, we discuss two algorithms that integrate the ensemble feature into LMC, and the associated properties. There are two sides of our discovery: 1. By directly surrogating the gradient using the ensemble approximation, we develop Ensemble Langevin Monte Carlo. We show that this method is unstable due to a potentially small denominator that induces high variance. We provide a counterexample to explicitly show this instability. 2. We then change the strategy and enact the ensemble approximation to the gradient only in a constrained manner, to eliminate the unstable points. The algorithm is termed Constrained Ensemble Langevin Monte Carlo. We show that, with a proper tuning, the surrogation takes place often enough to bring the reasonable numerical saving, while the induced error is still low enough for us to maintain the fast convergence rate, up to a controllable discretization and ensemble error. Such combination of ensemble method and LMC shed light on inventing gradient-free algorithms that produce i.i.d. samples almost exponentially fast.
翻訳日:2021-02-11 02:57:52 公開日:2021-02-08
# (参考訳) ディープラーニングでInstagramの電子タバコ警告ラベルのコンプライアンスを追跡 [全文訳有]

Tracking e-cigarette warning label compliance on Instagram with deep learning ( http://arxiv.org/abs/2102.04568v1 )

ライセンス: CC BY 4.0
Chris J. Kennedy, Julia Vassey, Ho-Chun Herbert Chang, Jennifer B. Unger, Emilio Ferrara(参考訳) 米国食品医薬品局(FDA)は、電子タバコ広告には、ニコチンが中毒性であることを消費者に思い出させる顕著な警告ラベルが含まれていることを要求する。 しかし,ソーシャルメディア上での電子たばこ関連投稿の量が多いため,コンプライアンス監査は高価で時間を要するため,自動化されたスケーラブルな方法が必要であることが示唆された。 われわれは、Instagram投稿が電子タバコを推奨するかどうか、FDA準拠の警告ラベルが含まれているか、画像に非準拠の警告ラベルが見えるかを自動的に判定する、ディープラーニングシステムの開発と評価を試みた。 44%が電子タバコ関連、3%がfda対応の警告ラベル、4%が非準拠のラベルを含む4,363枚のinstagram画像のデータセットをコンパイルしてラベル付けした。 評価のために20%のテストセットを使用して、画像処理バックボーンモデル(inceptionv3, resnet50, efficientnet)、データ拡張、プログレッシブ層凍結、クラス不均衡のために設計された出力バイアス初期化、マルチタスク学習など、複数のニューラルネットワークのバリエーションをテストした。 私たちの最終モデルは、ベイピング分類で0.97 [92%]、FDA準拠の警告ラベルで0.99 [99%]、非準拠の警告ラベルで0.94 [97%]の曲線(AUC)と[精度]の領域を達成しました。 私たちは、ディープラーニングモデルがInstagram上のvaping投稿を効果的に識別し、FDAの警告ラベル要件の遵守を追跡することができると結論付けました。

The U.S. Food & Drug Administration (FDA) requires that e-cigarette advertisements include a prominent warning label that reminds consumers that nicotine is addictive. However, the high volume of vaping-related posts on social media makes compliance auditing expensive and time-consuming, suggesting that an automated, scalable method is needed. We sought to develop and evaluate a deep learning system designed to automatically determine if an Instagram post promotes vaping, and if so, if an FDA-compliant warning label was included or if a non-compliant warning label was visible in the image. We compiled and labeled a dataset of 4,363 Instagram images, of which 44% were vaping-related, 3% contained FDA-compliant warning labels, and 4% contained non-compliant labels. Using a 20% test set for evaluation, we tested multiple neural network variations: image processing backbone model (Inceptionv3, ResNet50, EfficientNet), data augmentation, progressive layer unfreezing, output bias initialization designed for class imbalance, and multitask learning. Our final model achieved an area under the curve (AUC) and [accuracy] of 0.97 [92%] on vaping classification, 0.99 [99%] on FDA-compliant warning labels, and 0.94 [97%] on non-compliant warning labels. We conclude that deep learning models can effectively identify vaping posts on Instagram and track compliance with FDA warning label requirements.
翻訳日:2021-02-11 00:44:41 公開日:2021-02-08
# (参考訳) Oops I Took A Gradient: 分散分散のためのスケーラブルなサンプリング [全文訳有]

Oops I Took A Gradient: Scalable Sampling for Discrete Distributions ( http://arxiv.org/abs/2102.04509v1 )

ライセンス: CC BY 4.0
Will Grathwohl, Kevin Swersky, Milad Hashemi, David Duvenaud, Chris J. Maddison(参考訳) 離散変数を持つ確率モデルに対する汎用的かつスケーラブルな近似サンプリング戦略を提案する。 提案手法は, 離散入力に対する確率関数の勾配を用いて, メトロポリス・ハスティングスサンプリング器の更新を提案する。 我々は、このアプローチがIsingモデル、Pottsモデル、制限ボルツマンマシン、および因子的隠れマルコフモデルを含む多くの困難な設定でジェネリックサンプラーを上回っていることを実証的に示す。 また,高次元離散データを用いた深層エネルギーモデル学習における改良サンプラーの使用例を示す。 このアプローチは変分オートエンコーダや既存のエネルギーベースのモデルを上回る。 最後に、ローカル更新を提案するスプリマーのクラスで、我々のアプローチがほぼ最適であることを示す境界を与える。

We propose a general and scalable approximate sampling strategy for probabilistic models with discrete variables. Our approach uses gradients of the likelihood function with respect to its discrete inputs to propose updates in a Metropolis-Hastings sampler. We show empirically that this approach outperforms generic samplers in a number of difficult settings including Ising models, Potts models, restricted Boltzmann machines, and factorial hidden Markov models. We also demonstrate the use of our improved sampler for training deep energy-based models on high dimensional discrete data. This approach outperforms variational auto-encoders and existing energy-based models. Finally, we give bounds showing that our approach is near-optimal in the class of samplers which propose local updates.
翻訳日:2021-02-10 22:42:11 公開日:2021-02-08
# (参考訳) 色とテクスチャ特徴を用いた葉画像に基づく植物病の同定 [全文訳有]

Leaf Image-based Plant Disease Identification using Color and Texture Features ( http://arxiv.org/abs/2102.04515v1 )

ライセンス: CC BY 4.0
Nisar Ahmed, Hafiz Muhammad Shahzad Asif, Gulshan Saleem(参考訳) 植物病の同定は通常、視覚検査または検査中に行われ、時間的特定によって収量を失う原因となる遅延を引き起こす。 一方で、複雑なディープラーニングモデルは、そのタスクを合理的なパフォーマンスで実行するが、大きなサイズと高い計算要件のため、モバイルやハンドヘルドデバイスには適さない。 提案手法は,前処理,病葉領域の分割,Gray-Level Co-occurrence Matrix(GLCM)に基づく特徴の計算,特徴の選択と分類を含む一連のステップに従う植物疾患の自動同定に寄与する。 本研究では,6色特徴と20テクスチャ特徴を算出した。 サポートベクターマシンは植物病の1対1の分類を行うために使用される。 提案する疾患同定モデルは、10倍のクロスバリデーションにおいて標準偏差 0.57 で98.79%の精度を提供する。 自己収集データセットの精度は、疾患の同定に82.47%、健康で疾患の分類に91.40%である。 報告された性能指標は,既存手法と同等あるいは同等であり,葉系植物病の同定に最も適した方法である。 このプロトタイプシステムは、より多くの病気のカテゴリを追加したり、特定の作物や病気のカテゴリをターゲットにすることで拡張できます。

Identification of plant disease is usually done through visual inspection or during laboratory examination which causes delays resulting in yield loss by the time identification is complete. On the other hand, complex deep learning models perform the task with reasonable performance but due to their large size and high computational requirements, they are not suited to mobile and handheld devices. Our proposed approach contributes automated identification of plant diseases which follows a sequence of steps involving pre-processing, segmentation of diseased leaf area, calculation of features based on the Gray-Level Co-occurrence Matrix (GLCM), feature selection and classification. In this study, six color features and twenty-two texture features have been calculated. Support vector machines is used to perform one-vs-one classification of plant disease. The proposed model of disease identification provides an accuracy of 98.79% with a standard deviation of 0.57 on 10-fold cross-validation. The accuracy on a self-collected dataset is 82.47% for disease identification and 91.40% for healthy and diseased classification. The reported performance measures are better or comparable to the existing approaches and highest among the feature-based methods, presenting it as the most suitable method to automated leaf-based plant disease identification. This prototype system can be extended by adding more disease categories or targeting specific crop or disease categories.
翻訳日:2021-02-10 20:34:36 公開日:2021-02-08
# (参考訳) ヘイト音声検出におけるテキスト表現に関する研究 [全文訳有]

A study of text representations in Hate Speech Detection ( http://arxiv.org/abs/2102.04521v1 )

ライセンス: CC BY 4.0
Chrysoula Themeli, George Giannakopoulos and Nikiforos Pittaras(参考訳) インターネットとソーシャルメディアの普及により、twitterのようなマイクロブログプラットフォーム上でのヘイトスピーチコンテンツの迅速かつ匿名の拡散が可能になった。 嫌悪な言語に対する現在のEUと米国の法律は、これらのプラットフォームで生成される大量のデータと組み合わせて、自動ツールがヘイト音声検出タスクとパイプラインの必要なコンポーネントとなっています。 本研究では,複数の分類アルゴリズムと組み合わせた多様なテキスト表現手法の性能について,自動Hate音声検出と虐待的言語識別タスクについて検討する。 バイナリデータセットとマルチクラスデータセットの実験的な評価を行い、重要なテストとペアリングします。 以上の結果から,単純な憎しみキーワードの頻度特徴(BoW)が最良であることを示すとともに,学習前の単語埋め込み(GLoVe)やグラフベースのグラフ表現(NGGs)も有効であることがわかった。 これらの表現とロジスティック回帰あるいは3層ニューラルネットワーク分類器の組み合わせは、マイクロおよびマクロf測定で最高の検出性能を達成した。

The pervasiveness of the Internet and social media have enabled the rapid and anonymous spread of Hate Speech content on microblogging platforms such as Twitter. Current EU and US legislation against hateful language, in conjunction with the large amount of data produced in these platforms has led to automatic tools being a necessary component of the Hate Speech detection task and pipeline. In this study, we examine the performance of several, diverse text representation techniques paired with multiple classification algorithms, on the automatic Hate Speech detection and abusive language discrimination task. We perform an experimental evaluation on binary and multiclass datasets, paired with significance testing. Our results show that simple hate-keyword frequency features (BoW) work best, followed by pre-trained word embeddings (GLoVe) as well as N-gram graphs (NGGs): a graph-based representation which proved to produce efficient, very low-dimensional but rich features for this task. A combination of these representations paired with Logistic Regression or 3-layer neural network classifiers achieved the best detection performance, in terms of micro and macro F-measure.
翻訳日:2021-02-10 19:24:55 公開日:2021-02-08
# (参考訳) ベイズ非パラメトリックスによる学習型カウントミンスケッチ

Learning-augmented count-min sketches via Bayesian nonparametrics ( http://arxiv.org/abs/2102.04462v1 )

ライセンス: CC BY 4.0
Emanuele Dolera, Stefano Favaro, Stefano Peluchetti(参考訳) count-min sketch (CMS) は、データストリーム内のトークンの周波数の推定を提供する時間およびメモリ効率の良いランダム化データ構造である。 ランダムなハッシュデータに基づくポイントクエリ。 学習強化CMSは、データプロパティをより活用できるモデルを学ぶことでCMSを改善します。 本稿では,Cai,Mitzenmacher,Ad ams(\textit{NeurIPS} 2018)の学習強化CMSに注目する。このCMSは,Dirichletプロセス(DP)によるデータストリームのベイズ非パラメトリック(BNP)モデリングに依存している。 これはCMS-DPと呼ばれ、ハッシュされたデータからポイントクエリの後方手段としてポイントクエリのBNP推定につながります。 BNPは、堅牢な学習強化CMSを開発するための強力なツールであることが証明されているが、CMS-DPの背後にあるアイデアとメソッドは、DPプリエントでのポイントクエリに適合しており、他の事前やより一般的なクエリには使用できない。 本稿では,より柔軟なCMS-DPの導出方法を提案する。i) PYP(Pitman-Yor Process)を事前に使用することが可能であり,DPの最も一般的な一般化である;i)レンジクエリのより一般的な問題に対して容易に適用可能である。 これにより、PYP経由でストリームのBNPモデリングに依存するCMS-PYPと呼ばれるパワーローデータストリームの下で、新しい学習強化CMSを開発することができる。 合成データおよび実データへの適用は、CMS-PYPが低周波トークンの推定においてCMSとCMS-DPを上回っていることを示しています。

The count-min sketch (CMS) is a time and memory efficient randomized data structure that provides estimates of tokens' frequencies in a data stream, i.e. point queries, based on random hashed data. Learning-augmented CMSs improve the CMS by learning models that allow to better exploit data properties. In this paper, we focus on the learning-augmented CMS of Cai, Mitzenmacher and Adams (\textit{NeurIPS} 2018), which relies on Bayesian nonparametric (BNP) modeling of a data stream via Dirichlet process (DP) priors. This is referred to as the CMS-DP, and it leads to BNP estimates of a point query as posterior means of the point query given the hashed data. While BNPs is proved to be a powerful tool for developing robust learning-augmented CMSs, ideas and methods behind the CMS-DP are tailored to point queries under DP priors, and they can not be used for other priors or more general queries. In this paper, we present an alternative, and more flexible, derivation of the CMS-DP such that: i) it allows to make use of the Pitman-Yor process (PYP) prior, which is arguably the most popular generalization of the DP prior; ii) it can be readily applied to the more general problem of estimating range queries. This leads to develop a novel learning-augmented CMS under power-law data streams, referred to as the CMS-PYP, which relies on BNP modeling of the stream via PYP priors. Applications to synthetic and real data show that the CMS-PYP outperforms the CMS and the CMS-DP in the estimation of low-frequency tokens; this known to be a critical feature in natural language processing, where it is indeed common to encounter power-law data streams.
翻訳日:2021-02-10 18:51:14 公開日:2021-02-08
# (参考訳) 仮想人間の行動と感情の機能としての骨格運動と生理的シグナルの合成 [全文訳有]

Synthesizing Skeletal Motion and Physiological Signals as a Function of a Virtual Human's Actions and Emotions ( http://arxiv.org/abs/2102.04548v1 )

ライセンス: CC BY 4.0
Bonny Banerjee, Masoumeh Heidari Kapourchali, Murchana Baruah, Mousumi Deb, Kenneth Sakauye, Mette Olufsen(参考訳) 機械学習(ML)とセンサー技術を用いて自動化できる医療アプリケーションの多くは、人間の行動と感情のラウンド・ザ・クロック・モニタリングが求められている。 残念ながら、そのようなデータの収集と共有のためのインフラストラクチャの欠如は、医療に適用されるML研究のボトルネックです。 私たちの目標は、仮想環境で人体をシミュレートすることで、このボトルネックを回避することです。 これにより、プライバシー侵害やプライバシー侵害のリスクなしに、医療施設や自宅での行動、インタラクション、感情の関数として、個人から潜在的に無限量の共有可能なデータを生成することができる。 本論文では, 骨格運動, 心電図, 血圧, 呼吸, 皮膚伝導性信号を同期的に合成する計算モデルを用いて, オープンエンドの行動と感情の集合として機能するシステムを提案する。 ユーザ研究,ベンチマークデータセット,文献所見との比較を含む実験結果から,本モデルは高い忠実度で骨格運動および生理的シグナルを生成できることが示された。 提案されたフレームワークはモジュール化されており、異なるモデルで実験できる柔軟性がある。 低コストでのラウンド・ザ・クロック監視のためのML研究の促進に加えて、提案されたフレームワークは、コードとデータの再利用を可能にし、ML実践者や医療専門家のトレーニングツールとして使用することができる。

Round-the-clock monitoring of human behavior and emotions is required in many healthcare applications which is very expensive but can be automated using machine learning (ML) and sensor technologies. Unfortunately, the lack of infrastructure for collection and sharing of such data is a bottleneck for ML research applied to healthcare. Our goal is to circumvent this bottleneck by simulating a human body in virtual environment. This will allow generation of potentially infinite amounts of shareable data from an individual as a function of his actions, interactions and emotions in a care facility or at home, with no risk of confidentiality breach or privacy invasion. In this paper, we develop for the first time a system consisting of computational models for synchronously synthesizing skeletal motion, electrocardiogram, blood pressure, respiration, and skin conductance signals as a function of an open-ended set of actions and emotions. Our experimental evaluations, involving user studies, benchmark datasets and comparison to findings in the literature, show that our models can generate skeletal motion and physiological signals with high fidelity. The proposed framework is modular and allows the flexibility to experiment with different models. In addition to facilitating ML research for round-the-clock monitoring at a reduced cost, the proposed framework will allow reusability of code and data, and may be used as a training tool for ML practitioners and healthcare professionals.
翻訳日:2021-02-10 18:09:38 公開日:2021-02-08
# (参考訳) AF)2-S3Net:Sparse Semantic Segmentation Networkのための適応的特徴選択を伴う注意的特徴融合 [全文訳有]

(AF)2-S3Net: Attentive Feature Fusion with Adaptive Feature Selection for Sparse Semantic Segmentation Network ( http://arxiv.org/abs/2102.04530v1 )

ライセンス: CC BY 4.0
Ran Cheng, Ryan Razani, Ehsan Taghavi, Enxu Li, Bingbing Liu(参考訳) 自律走行ロボットシステムと自動運転車は、乗客と歩行者の安全が最優先であるため、周囲を正確に認識している。 セマンティックセグメンテーションは、シーンの意味的な情報を提供する環境認識の重要なコンポーネントの1つです。 近年,3次元lidarセマンティクスセグメンテーションのための手法がいくつか導入されている。 しかし、パフォーマンスの向上につながる可能性があるが、計算の複雑さに悩まされるか、効率が悪いか、小さなインスタンスの詳細が欠けている。 そこで我々は,3次元LiDARセマンティックセグメンテーションのためのエンドツーエンドエンコーダデコーダCNNネットワークAF2-S3Netを提案する。 本稿では,エンコーダのマルチブランチ型注意機能融合モジュールと,デコーダに特徴マップを再重み付けするユニークな適応機能選択モジュールを提案する。 AF2-S3Netは、Voxelベースの学習とポイントベースの学習を単一のフレームワークに融合し、大きな3Dシーンを効果的に処理します。 提案手法は,大規模semantickittiベンチマークにおける最先端のアプローチを上回っており,出版時の競争的リーダボード競争において,第1位となっている。

Autonomous robotic systems and self driving cars rely on accurate perception of their surroundings as the safety of the passengers and pedestrians is the top priority. Semantic segmentation is one the essential components of environmental perception that provides semantic information of the scene. Recently, several methods have been introduced for 3D LiDAR semantic segmentation. While, they can lead to improved performance, they are either afflicted by high computational complexity, therefore are inefficient, or lack fine details of smaller instances. To alleviate this problem, we propose AF2-S3Net, an end-to-end encoder-decoder CNN network for 3D LiDAR semantic segmentation. We present a novel multi-branch attentive feature fusion module in the encoder and a unique adaptive feature selection module with feature map re-weighting in the decoder. Our AF2-S3Net fuses the voxel based learning and point-based learning into a single framework to effectively process the large 3D scene. Our experimental results show that the proposed method outperforms the state-of-the-art approaches on the large-scale SemanticKITTI benchmark, ranking 1st on the competitive public leaderboard competition upon publication.
翻訳日:2021-02-10 17:57:13 公開日:2021-02-08
# (参考訳) 拡張のないA*検索:深層Q-Networksによるヒューリスティック関数の学習 [全文訳有]

A* Search Without Expansions: Learning Heuristic Functions with Deep Q-Networks ( http://arxiv.org/abs/2102.04518v1 )

ライセンス: CC BY 4.0
Forest Agostinelli, Alexander Shmakov, Stephen McAleer, Roy Fox, Pierre Baldi(参考訳) A*検索は、ノードが拡大される順序を導くためにヒューリスティック関数を使用する情報検索アルゴリズムです。 ノードを拡大し、生成したすべての子供のヒューリスティック値を計算するのに必要な計算は、アクション空間のサイズとともに線形に成長するので、A*探索は大きなアクション空間の問題に対して実用的ではない。 この計算負荷は、ヒューリスティック関数が一般の計算コストが高いディープニューラルネットワークによって学習されるとさらに顕著になる。 この問題に対処するため,DeepCubeAアルゴリズムと深層Q-networksをベースにしたディープ強化学習検索アルゴリズムであるDeepCubeAQを導入する。 DeepCubeAQは、単一のフォワードがディープニューラルネットワークを通過することで、ノードのすべての子供の移行コストとヒューリスティック値の合計を明示的に生成することなく計算し、ノード拡張を不要とするヒューリスティック関数を学習する。 DeepCubeAQは、ディープQネットワークを使用して検索を導くAQ*検索と呼ばれる、A*検索の新しい変種を使用します。 私たちは、DeepCubeAQを使用して、1872のメタアクションを含む大きなアクションスペースで定式化されるとルービックキューブを解決し、アクションスペースのサイズが157倍に拡大すると、AQ*検索を行う際の計算時間が4倍以下になり、AQ*検索がA*検索よりも桁違いに速くなることを示します。

A* search is an informed search algorithm that uses a heuristic function to guide the order in which nodes are expanded. Since the computation required to expand a node and compute the heuristic values for all of its generated children grows linearly with the size of the action space, A* search can become impractical for problems with large action spaces. This computational burden becomes even more apparent when heuristic functions are learned by general, but computationally expensive, deep neural networks. To address this problem, we introduce DeepCubeAQ, a deep reinforcement learning and search algorithm that builds on the DeepCubeA algorithm and deep Q-networks. DeepCubeAQ learns a heuristic function that, with a single forward pass through a deep neural network, computes the sum of the transition cost and the heuristic value of all of the children of a node without explicitly generating any of the children, eliminating the need for node expansions. DeepCubeAQ then uses a novel variant of A* search, called AQ* search, that uses the deep Q-network to guide search. We use DeepCubeAQ to solve the Rubik's cube when formulated with a large action space that includes 1872 meta-actions and show that this 157-fold increase in the size of the action space incurs less than a 4-fold increase in computation time when performing AQ* search and that AQ* search is orders of magnitude faster than A* search.
翻訳日:2021-02-10 16:57:16 公開日:2021-02-08
# (参考訳) ドメインとタスク適応型事前学習を用いたハイブリッドタスク指向対話システム [全文訳有]

A Hybrid Task-Oriented Dialog System with Domain and Task Adaptive Pretraining ( http://arxiv.org/abs/2102.04506v1 )

ライセンス: CC BY 4.0
Boliang Zhang, Ying Lyu, Ning Ding, Tianhao Shen, Zhaoyang Jia, Kun Han, Kevin Knight(参考訳) 本稿では,第9回ダイアログシステム技術チャレンジ(DSTC-9)において,エンドツーエンドのマルチドメインタスク補完ダイアログ共有タスクの提出について述べる。 共有タスクの参加者は、人的評価とユーザシミュレータによる自動評価により評価されるエンドツーエンドのタスク完了ダイアログシステムを構築する。 Different from traditional pipelined approaches where modules are optimized individually and suffer from cascading failure, we propose an end-to-end dialog system that 1) uses Generative Pretraining 2 (GPT-2) as the backbone to jointly solve Natural Language Understanding, Dialog State Tracking, and Natural Language Generation tasks, 2) adopts Domain and Task Adaptive Pretraining to tailor GPT-2 to the dialog domain before finetuning, 3) utilizes heuristic pre/post-processing rules that greatly simplify the prediction tasks and improve generalizability, and 4) equips a fault tolerance module to correct errors and inappropriate responses. 提案手法は, 公式評価において, ベースラインと結びつきを著しく上回っている。 ソースコードを公開しています。

This paper describes our submission for the End-to-end Multi-domain Task Completion Dialog shared task at the 9th Dialog System Technology Challenge (DSTC-9). Participants in the shared task build an end-to-end task completion dialog system which is evaluated by human evaluation and a user simulator based automatic evaluation. Different from traditional pipelined approaches where modules are optimized individually and suffer from cascading failure, we propose an end-to-end dialog system that 1) uses Generative Pretraining 2 (GPT-2) as the backbone to jointly solve Natural Language Understanding, Dialog State Tracking, and Natural Language Generation tasks, 2) adopts Domain and Task Adaptive Pretraining to tailor GPT-2 to the dialog domain before finetuning, 3) utilizes heuristic pre/post-processing rules that greatly simplify the prediction tasks and improve generalizability, and 4) equips a fault tolerance module to correct errors and inappropriate responses. Our proposed method significantly outperforms baselines and ties for first place in the official evaluation. We make our source code publicly available.
翻訳日:2021-02-10 16:33:36 公開日:2021-02-08
# クロスオブジェクト脳-コンピュータインタフェースのための共通空間共振器ネットワークを用いた脳波データ拡張

Common Spatial Generative Adversarial Networks based EEG Data Augmentation for Cross-Subject Brain-Computer Interface ( http://arxiv.org/abs/2102.04456v1 )

ライセンス: Link先を確認
Yonghao Song, Lie Yang, Xueyu Jia and Longhan Xie(参考訳) EEGベースの脳コンピュータインタフェース(BCI)のクロスオブジェクトアプリケーションは常に大きな個人差と知覚困難な複雑な特性によって制限されています。 そのため、校正のために各ユーザのトレーニングデータを収集するには長い時間がかかる。 対象非依存データ量の事前学習においても、十分な対象特化データなしでは、異なる脳波信号カテゴリを復号することはできない。 そこで我々は,ジェネレイティブ・アドバーサリアン・ネットワーク (gans) に基づく手法であるcommon spatial gan (cs-gan) を用いて,ジェネレータと判別器間の逆訓練を行い,高品質な補足データを得るためのeeg分類フレームワークを提案する。 識別器の特定のモジュールは、EEG信号の空間的特徴を維持し、異なるカテゴリ間の差を増加させるために使用され、2つの損失によりさらに強化された。 十分な増強データを備えた適応トレーニングにより、当社のクロスサブジェクト分類精度は、BCIコンペティションIVのデータセット2aに100個のオリジナルサンプルを適応するよりも15.85%、および8.57%の大幅な改善を達成した。 さらに,畳み込みニューラルネットワーク (CNNs) に基づく分類手法を類似した空間拡張アイデアのベンチマークとして設計し,運動画像脳波データを分類する顕著な結果を得た。 要約すると、私たちのフレームワークは、クロスサブジェクト問題に対処し、BCIの実用化を促進する有望な方法を提供します。

The cross-subject application of EEG-based brain-computer interface (BCI) has always been limited by large individual difference and complex characteristics that are difficult to perceive. Therefore, it takes a long time to collect the training data of each user for calibration. Even transfer learning method pre-training with amounts of subject-independent data cannot decode different EEG signal categories without enough subject-specific data. Hence, we proposed a cross-subject EEG classification framework with a generative adversarial networks (GANs) based method named common spatial GAN (CS-GAN), which used adversarial training between a generator and a discriminator to obtain high-quality data for augmentation. A particular module in the discriminator was employed to maintain the spatial features of the EEG signals and increase the difference between different categories, with two losses for further enhancement. Through adaptive training with sufficient augmentation data, our cross-subject classification accuracy yielded a significant improvement of 15.85% than leave-one subject-out (LOO) test and 8.57% than just adapting 100 original samples on the dataset 2a of BCI competition IV. Moreover, We designed a convolutional neural networks (CNNs) based classification method as a benchmark with a similar spatial enhancement idea, which achieved remarkable results to classify motor imagery EEG data. In summary, our framework provides a promising way to deal with the cross-subject problem and promote the practical application of BCI.
翻訳日:2021-02-10 15:13:25 公開日:2021-02-08
# コミュニケーション効率のよい連合学習のためのモデル更新の適応量子化

Adaptive Quantization of Model Updates for Communication-Effici ent Federated Learning ( http://arxiv.org/abs/2102.04487v1 )

ライセンス: Link先を確認
Divyansh Jhunjhunwala, Advait Gadhikar, Gauri Joshi, Yonina C. Eldar(参考訳) クライアントノードと中央集約サーバ間のモデル更新の通信は、特に帯域幅制限設定と高次元モデルにおいて、フェデレーションラーニングの大きなボトルネックである。 グラデーション量子化は、確率勾配の変動が大きいため、より高い誤差フロアを持つコストで、各モデルの更新を伝達するのに必要なビット数を減らす効果的な方法です。 本研究では,学習中に量子化レベルを変化させることで,通信効率と低エラー床を実現することを目的とした適応量子化戦略 adaquantfl を提案する。 深層ニューラルネットワークのトレーニング実験では,固定量子化レベルの設定に比べて,学習精度やテスト精度にほとんど影響を与えず,より少ない通信ビットに収束できることが示されている。

Communication of model updates between client nodes and the central aggregating server is a major bottleneck in federated learning, especially in bandwidth-limited settings and high-dimensional models. Gradient quantization is an effective way of reducing the number of bits required to communicate each model update, albeit at the cost of having a higher error floor due to the higher variance of the stochastic gradients. In this work, we propose an adaptive quantization strategy called AdaQuantFL that aims to achieve communication efficiency as well as a low error floor by changing the number of quantization levels during the course of training. Experiments on training deep neural networks show that our method can converge in much fewer communicated bits as compared to fixed quantization level setups, with little or no impact on training and test accuracy.
翻訳日:2021-02-10 15:11:51 公開日:2021-02-08
# クラス不均衡医療画像分割処理のための混合焦点損失関数

A Mixed Focal Loss Function for Handling Class Imbalanced Medical Image Segmentation ( http://arxiv.org/abs/2102.04525v1 )

ライセンス: Link先を確認
Michael Yeung, Evis Sala, Carola-Bibiane Sch\"onlieb, Leonardo Rundo(参考訳) 自動セグメンテーション法は医用画像解析における重要な進歩である。 機械学習技術、特にディープニューラルネットワークは、細胞内から臓器系のレベルまで、ほとんどの自動化された医療画像セグメンテーションタスクの最先端技術である。 クラス不均衡の問題は、臓器、特に腫瘍の規模に関係なく、多くの場合、背景と比較してかなり小さい体積を占め、重要な課題を引き起こします。 セグメンテーションアルゴリズムのトレーニングで使われる損失関数は、クラス不均衡と頑健性が異なり、クロスエントロピーに基づく損失は、ダイスに基づく損失よりも影響を受ける。 本研究では,Kidney Tumour Segmentation 2019 (KiTS19) Computed Tomographyデータセット上で,Diceベースの7種類の損失関数とクロスエントロピーベースの損失関数を実験し,さらにBrain Tumour Segmentation 2020 (BraTS20) Magnetic Resonance Imagingデータセットの上位3つの損失関数を評価する。 本研究の結果に動機づけられた混合焦点損失関数は、焦点損失関数と焦点損失関数の変種から派生した新しい化合物損失関数である。 提案する損失関数はリコール-精度のバランスが向上し,バイナリとマルチクラス画像のセグメンテーションにおいて他の損失関数を大きく上回ることを示した。 さらに,提案する混合焦点損失関数は,大きなクラス不均衡に対して頑健である。 さらに, 成分損失に対する複合的損失の利点と, その他の変種に対する焦点変種による改善について検討した。

Automatic segmentation methods are an important advancement in medical imaging analysis. Machine learning techniques, and deep neural networks in particular, are the state-of-the-art for most automated medical image segmentation tasks, ranging from the subcellular to the level of organ systems. Issues with class imbalance pose a significant challenge irrespective of scale, with organs, and especially with tumours, often occupying a considerably smaller volume relative to the background. Loss functions used in the training of segmentation algorithms differ in their robustness to class imbalance, with cross entropy-based losses being more affected than Dice-based losses. In this work, we first experiment with seven different Dice-based and cross entropy-based loss functions on the publicly available Kidney Tumour Segmentation 2019 (KiTS19) Computed Tomography dataset, and then further evaluate the top three performing loss functions on the Brain Tumour Segmentation 2020 (BraTS20) Magnetic Resonance Imaging dataset. Motivated by the results of our study, we propose a Mixed Focal loss function, a new compound loss function derived from modified variants of the Focal loss and Focal Dice loss functions. We demonstrate that our proposed loss function is associated with a better recall-precision balance, significantly outperforming the other loss functions in both binary and multi-class image segmentation. Importantly, the proposed Mixed Focal loss function is robust to significant class imbalance. Furthermore, we showed the benefit of using compound losses over their component losses, and the improvement provided by the focal variants over other variants.
翻訳日:2021-02-10 15:08:35 公開日:2021-02-08
# ラベリング不確実性とクラス不均衡を伴ったセマンティックセグメンテーション

Semantic Segmentation with Labeling Uncertainty and Class Imbalance ( http://arxiv.org/abs/2102.04566v1 )

ライセンス: Link先を確認
Patrik Ol\~a Bressan, Jos\'e Marcato Junior, Jos\'e Augusto Correa Martins, Diogo Nunes Gon\c{c}alves, Daniel Matte Freitas, Lucas Prado Osco, Jonathan de Andrade Silva, Zhipeng Luo, Jonathan Li, Raymundo Cordero Garcia, Wesley Nunes Gon\c{c}alves(参考訳) 近年,畳み込みニューラルネットワーク(CNN)に基づく手法が,セマンティックセグメンテーションタスクにおいて顕著な成功を収めている。 しかし、クラス不均衡やピクセルラベルプロセスにおける不確実性などの課題は完全には対処されていない。 そこで,ラベリングプロセスにおけるクラスと不確実性を考慮して,各画素の重みを計算する新たな手法を提案する。 ピクセル単位の重みはトレーニング中にピクセルの重要性を増減するために使用される。 実験結果から,提案手法はベースライン法と比較して,3つの課題分割課題において大きな改善をもたらすことが示された。 また、ノイズに対してより不変であることが証明された。 ここで示されるアプローチは、その堅牢性を改善するために、幅広いセマンティックセグメンテーション方法の中で使用することができる。

Recently, methods based on Convolutional Neural Networks (CNN) achieved impressive success in semantic segmentation tasks. However, challenges such as the class imbalance and the uncertainty in the pixel-labeling process are not completely addressed. As such, we present a new approach that calculates a weight for each pixel considering its class and uncertainty during the labeling process. The pixel-wise weights are used during training to increase or decrease the importance of the pixels. Experimental results show that the proposed approach leads to significant improvements in three challenging segmentation tasks in comparison to baseline methods. It was also proved to be more invariant to noise. The approach presented here may be used within a wide range of semantic segmentation methods to improve their robustness.
翻訳日:2021-02-10 15:04:38 公開日:2021-02-08
# VS-Quant: Per-vector Scaled Quantization for Accurate Low-Precision Neural Network Inference

VS-Quant: Per-vector Scaled Quantization for Accurate Low-Precision Neural Network Inference ( http://arxiv.org/abs/2102.04503v1 )

ライセンス: Link先を確認
Steve Dai, Rangharajan Venkatesan, Haoxing Ren, Brian Zimmer, William J. Dally, Brucek Khailany(参考訳) 量子化は、モデルメモリフットプリントを削減し、低コストの整数演算ハードウェアユニットを活用することにより、ディープニューラルネットワークの効率的な加速を可能にする。 量子化は、訓練されたモデルの浮動小数点重みとアクティベーションをスケールファクターを用いて低ビット幅整数値にマッピングする。 過剰な量子化、過度の精度の低下は、精度の低下をもたらす。 各テンソルの多くの次元にわたる粗粒度でスケール因子が共有されると、テンソル内の個々の要素の有効精度が制限される。 量子化関連精度損失を低減するために,テンソルの1次元内にある($16-64)要素の小さなベクトル毎に,別のスケール係数を用いることを提案する。 効率的なハードウェア実装を実現するために、2レベル量子化スキームを用いて校正する場合、ベクトルごとのスケール係数を低ビット幅整数で実装することができる。 一般的なニューラルネットワークでは,再訓練を必要とせず,従来のスケーリング手法と比較して,ベクトル単位のスケーリングが一貫して低精度で推論精度を向上できることが明らかになった。 また、深層学習アクセラレータハードウェアの設計を変更して、ベクトルごとのスケーリングサポートの領域とエネルギーオーバーヘッドを調査します。 評価の結果,4ビットの重みとアクティベーションによるベクトルごとの量子化は,ResNet50の75%以上の精度を維持しつつ,37%の省エネと24%の省エネを実現していることがわかった。 4ビットの重みと8ビットのアクティベーションは,SQuADではBERTベースとBERTラージの両方でほぼ精度が向上し,SQuADでは8ビットベースラインと比較して面積が26%削減された。

Quantization enables efficient acceleration of deep neural networks by reducing model memory footprint and exploiting low-cost integer math hardware units. Quantization maps floating-point weights and activations in a trained model to low-bitwidth integer values using scale factors. Excessive quantization, reducing precision too aggressively, results in accuracy degradation. When scale factors are shared at a coarse granularity across many dimensions of each tensor, effective precision of individual elements within the tensor are limited. To reduce quantization-related accuracy loss, we propose using a separate scale factor for each small vector of ($\approx$16-64) elements within a single dimension of a tensor. To achieve an efficient hardware implementation, the per-vector scale factors can be implemented with low-bitwidth integers when calibrated using a two-level quantization scheme. We find that per-vector scaling consistently achieves better inference accuracy at low precision compared to conventional scaling techniques for popular neural networks without requiring retraining. We also modify a deep learning accelerator hardware design to study the area and energy overheads of per-vector scaling support. Our evaluation demonstrates that per-vector scaled quantization with 4-bit weights and activations achieves 37% area saving and 24% energy saving while maintaining over 75% accuracy for ResNet50 on ImageNet. 4-bit weights and 8-bit activations achieve near-full-precision accuracy for both BERT-base and BERT-large on SQuAD while reducing area by 26% compared to an 8-bit baseline.
翻訳日:2021-02-10 15:00:50 公開日:2021-02-08
# ハイパーボリューム最大化を用いたパレートフロント予測のための多目的学習

Multi-Objective Learning to Predict Pareto Fronts Using Hypervolume Maximization ( http://arxiv.org/abs/2102.04523v1 )

ライセンス: Link先を確認
Timo M. Deist, Monika Grewal, Frank J.W.M. Dankers, Tanja Alderliesten, Peter A.N. Bosman(参考訳) 現実世界の問題はしばしば多対象であり、意思決定者は相反する目的間のトレードオフが望ましい優先事項を指定できない。 直感的には、このようなケースで機械学習ソリューションを構築するには、最適なトレードオフソリューションをすべてParetoの前面に散らばって均一にカバーする複数の予測を提供する必要がある。 学習者の集合に対応する平均損失ベクトルの支配的ハイパーボリューム (HV) を最大化し, 確立された多対象最適化手法を用いてパレートフロントを推定する新しい学習手法を提案する。 提案手法では,学習者の集合を動的損失関数で多目的に訓練し,各学習者の損失をHV最大化勾配によって重み付けする。 従って、学習者は、パレートフロントの形状を知らずに、固定線形スカラー化や学習者当たりの特定のトレードオフを最適化する場合には保証されない、パレートフロントの異なるトレードオフに従って訓練される。 3つの異なる多目的タスクに対する実験は、学習者の集合の出力がパレートフロントで確かにうまく伸びていることを示している。 さらに、検証サンプルに対応する出力は、ベンチマーク問題の集合のトレーニングサンプルから得られたトレードオフに密接に従っていることも分かりました。

Real-world problems are often multi-objective with decision-makers unable to specify a priori which trade-off between the conflicting objectives is preferable. Intuitively, building machine learning solutions in such cases would entail providing multiple predictions that span and uniformly cover the Pareto front of all optimal trade-off solutions. We propose a novel learning approach to estimate the Pareto front by maximizing the dominated hypervolume (HV) of the average loss vectors corresponding to a set of learners, leveraging established multi-objective optimization methods. In our approach, the set of learners are trained multi-objectively with a dynamic loss function, wherein each learner's losses are weighted by their HV maximizing gradients. Consequently, the learners get trained according to different trade-offs on the Pareto front, which otherwise is not guaranteed for fixed linear scalarizations or when optimizing for specific trade-offs per learner without knowing the shape of the Pareto front. Experiments on three different multi-objective tasks show that the outputs of the set of learners are indeed well-spread on the Pareto front. Further, the outputs corresponding to validation samples are also found to closely follow the trade-offs that were learned from training samples for our set of benchmark problems.
翻訳日:2021-02-10 15:00:19 公開日:2021-02-08
# 公平な分類へのランク付けアプローチ

A Ranking Approach to Fair Classification ( http://arxiv.org/abs/2102.04565v1 )

ライセンス: Link先を確認
Jakob Schoeffer, Niklas Kuehl, Isabel Valera(参考訳) アルゴリズムによる意思決定システムは、雇用、学校入学、ローン承認などの分野でますます使われている。 通常、これらのシステムは分類モデルのトレーニングにラベル付きデータに依存する。 しかし、多くのシナリオでは、グラウンドトラスラベルは利用できず、代わりに(潜在的に偏った)人為的な決定の結果、不完全なラベルにしかアクセスできません。 不完全であるにもかかわらず、歴史的決定はしばしば、観測されていない真のラベルに関する有用な情報を含んでいる。 本稿では,不完全なラベルのみを利用できるシナリオに着目し,従来の分類アルゴリズムに代わる公平なランク付けに基づく意思決定システムを提案する。 われわれのアプローチは直感的で実装が容易であり、現実の環境での採用に特に適している。 より詳しくは、歴史的決定から有用な情報と、保護された特徴と正当な特徴との無関係な相関を考慮に入れた、距離に基づく意思決定基準を導入する。 総合的および実世界データに関する広範囲な実験を通じて,本手法は,a)最も適格な個人に望ましい結果を与え,b)意思決定におけるステレオタイプの影響を除去し,従来の分類アルゴリズムを上回っていることを示す。 さらに、我々の手法は「類似した個人も同様に扱われるべき」という個々の公正性の顕著な概念と一致していることを示すことができる。

Algorithmic decision systems are increasingly used in areas such as hiring, school admission, or loan approval. Typically, these systems rely on labeled data for training a classification model. However, in many scenarios, ground-truth labels are unavailable, and instead we have only access to imperfect labels as the result of (potentially biased) human-made decisions. Despite being imperfect, historical decisions often contain some useful information on the unobserved true labels. In this paper, we focus on scenarios where only imperfect labels are available and propose a new fair ranking-based decision system, as an alternative to traditional classification algorithms. Our approach is both intuitive and easy to implement, and thus particularly suitable for adoption in real-world settings. More in detail, we introduce a distance-based decision criterion, which incorporates useful information from historical decisions and accounts for unwanted correlation between protected and legitimate features. Through extensive experiments on synthetic and real-world data, we show that our method is fair, as it a) assigns the desirable outcome to the most qualified individuals, and b) removes the effect of stereotypes in decision-making, thereby outperforming traditional classification algorithms. Additionally, we are able to show theoretically that our method is consistent with a prominent concept of individual fairness which states that "similar individuals should be treated similarly."
翻訳日:2021-02-10 14:59:56 公開日:2021-02-08
# 真証明数探索の計算複雑性について

On Computation Complexity of True Proof Number Search ( http://arxiv.org/abs/2102.04907v1 )

ライセンス: Link先を確認
Chao Gao(参考訳) 任意の有向非巡回グラフにおける証明数探索のための真の \emph{proof} と \emph{disproof} の計算はnp-hardであり、証明数探索の重要な理論的結果である。 この証明は SAT の減少を必要とし、任意の DAG に対して真の証明/防止番号を見つけることは、少なくとも任意の SAT インスタンスが満足できるかどうかを決定するのと同じくらい困難であり、NP-hard であることが証明される。

We point out that the computation of true \emph{proof} and \emph{disproof} numbers for proof number search in arbitrary directed acyclic graphs is NP-hard, an important theoretical result for proof number search. The proof requires a reduction from SAT, which demonstrates that finding true proof/disproof number for arbitrary DAG is at least as hard as deciding if arbitrary SAT instance is satisfiable, thus NP-hard.
翻訳日:2021-02-10 14:55:16 公開日:2021-02-08
# Streaming TransformerによるWake Wordの検出

Wake Word Detection with Streaming Transformers ( http://arxiv.org/abs/2102.04488v1 )

ライセンス: Link先を確認
Yiming Wang, Hang Lv, Daniel Povey, Lei Xie, Sanjeev Khudanpur(参考訳) 現代のウェイクワード検出システムは、通常、音響モデリングにニューラルネットワークに依存している。 近年,LSTMや畳み込みネットワークよりも,時間的モデリング能力が向上した様々なシーケンスモデリングタスクにおいて,トランスフォーマーの性能が向上している。 しかし、この利点が今でもウェイクワード検出のような短距離時間モデリングに有効であるかどうかは不明である。 さらに、バニラ変換器は、その非ストリーミングの性質と二次時間と空間の複雑さのために、そのタスクに直接適用できない。 本稿では,最近提案されたlf-mmiシステムにおいて,次のチャンクへのルックアヘッド,勾配停止,位置埋め込み方式の相違,チャンク間の同層依存性の追加など,ウェイクワード検出に適したチャンクワイズストリーミングトランスの性能について検討する。 Mobvoiのウェイクワードデータセットに対する実験により,提案したTransformerモデルは,線形複雑度w.r.tを維持しつつ,同じ偽アラームレートで,平均25%の誤り拒否率でベースライン畳み込みネットワークを性能的に向上することを示した。 シーケンスの長さ。

Modern wake word detection systems usually rely on neural networks for acoustic modeling. Transformers has recently shown superior performance over LSTM and convolutional networks in various sequence modeling tasks with their better temporal modeling power. However it is not clear whether this advantage still holds for short-range temporal modeling like wake word detection. Besides, the vanilla Transformer is not directly applicable to the task due to its non-streaming nature and the quadratic time and space complexity. In this paper we explore the performance of several variants of chunk-wise streaming Transformers tailored for wake word detection in a recently proposed LF-MMI system, including looking-ahead to the next chunk, gradient stopping, different positional embedding methods and adding same-layer dependency between chunks. Our experiments on the Mobvoi wake word dataset demonstrate that our proposed Transformer model outperforms the baseline convolution network by 25% on average in false rejection rate at the same false alarm rate with a comparable model size, while still maintaining linear complexity w.r.t. the sequence length.
翻訳日:2021-02-10 14:55:07 公開日:2021-02-08
# ロボットでブレムゲームをする

Playing the Blame Game with Robots ( http://arxiv.org/abs/2102.04527v1 )

ライセンス: Link先を確認
Markus Kneer and Michael T. Stuart(参考訳) 最近の研究では、人々が害[1]-[4]を引き起こすとき、AI駆動システムに対する道徳的責任を負う意思があることが、驚くべきことに示されています。 本稿では,これらの発見の道徳心理学的基礎を考察する。 私たちの仮説は、人々がAIシステムに道徳的な責任を課す理由は、彼らが精神状態(法律でmens reaと呼ばれるもの)を育むことができると考えるからです。 この仮説を探求するため,我々は,新しいタイプの肥料を用いてaiシステムが人を毒殺するリスクを負うシナリオを作成した。 対象間の設計でAIシステムの計算(または準認知)能力を操作し、害の実質的なリスク(すなわち無謀性)とAIシステムの責めの知識を規定する人々の意欲をテストしました。 さらに,aiシステムに対する無謀性と非難の規範が,システム利用者(あるいは所有者)の責任感に影響を与えるかどうかについて検討した。 347人の参加者による実験では、(i)人々が無謀さの文脈でaiシステムに対する非難を訴える意思があること、(ii)非難は無謀さを特徴づける意志に強く依存していること、(iii)後者がシステムの「認知的」な能力に依存することを発見した。 さらに,この結果から(iv),aiシステムの計算高度化が高ければ高いほど,人間ユーザからaiシステムへの非難が高まることが示唆された。

Recent research shows -- somewhat astonishingly -- that people are willing to ascribe moral blame to AI-driven systems when they cause harm [1]-[4]. In this paper, we explore the moral-psychological underpinnings of these findings. Our hypothesis was that the reason why people ascribe moral blame to AI systems is that they consider them capable of entertaining inculpating mental states (what is called mens rea in the law). To explore this hypothesis, we created a scenario in which an AI system runs a risk of poisoning people by using a novel type of fertilizer. Manipulating the computational (or quasi-cognitive) abilities of the AI system in a between-subjects design, we tested whether people's willingness to ascribe knowledge of a substantial risk of harm (i.e., recklessness) and blame to the AI system. Furthermore, we investigated whether the ascription of recklessness and blame to the AI system would influence the perceived blameworthiness of the system's user (or owner). In an experiment with 347 participants, we found (i) that people are willing to ascribe blame to AI systems in contexts of recklessness, (ii) that blame ascriptions depend strongly on the willingness to attribute recklessness and (iii) that the latter, in turn, depends on the perceived "cognitive" capacities of the system. Furthermore, our results suggest (iv) that the higher the computational sophistication of the AI system, the more blame is shifted from the human user to the AI system.
翻訳日:2021-02-10 14:54:47 公開日:2021-02-08
# 新旧農村建物の拡張セグメント化のためのマスクR-CNNのヒストグラム化

A Histogram Thresholding Improvement to Mask R-CNN for Scalable Segmentation of New and Old Rural Buildings ( http://arxiv.org/abs/2102.04838v1 )

ライセンス: Link先を確認
Ying Li, Weipan Xu, Haohui Chen, Junhao Jiang, Xun Li(参考訳) 新しい建物や古い建物を地図化することは、農村部の社会経済発展を理解する上で非常に重要である。 近年,ディープニューラルネットワークは高分解能リモートセンシング画像のセグメンテーション結果に目覚ましい成果を上げている。 しかし、学習データや地理環境の変化は、拡張性のある建物セグメンテーションの課題を提起している。 本研究では,HTMask R-CNNと命名されたMask R-CNNに基づく新しいフレームワークを提案する。 このフレームワークは、正統派Mask R-CNNからの単一オブジェクトインスタンスセグメンテーションの結果を採用している。 さらに、トレーニングデータが不足している2オブジェクトのインスタンスセグメンテーションタスクの結果から推定される動的グレースケールしきい値に基づいて、農村の建物を新旧の建物に分類する。 このフレームワークは, 従来のMask R-CNNモデルよりもはるかに高い平均精度(mAP)を実現することができることがわかった。 トレーニングデータを増やして,新たなフレームワークの性能を検証したところ,トレーニングサンプルが制限された場合でも収束することがわかった。 このフレームワークの主な貢献は、従来の機械学習プラクティスよりも大幅に少ないトレーニングサンプルを使用することで、スケーラブルなセグメンテーションを可能にすることである。 これにより、中国の新旧農村の建物を地図化することができる。

Mapping new and old buildings are of great significance for understanding socio-economic development in rural areas. In recent years, deep neural networks have achieved remarkable building segmentation results in high-resolution remote sensing images. However, the scarce training data and the varying geographical environments have posed challenges for scalable building segmentation. This study proposes a novel framework based on Mask R-CNN, named HTMask R-CNN, to extract new and old rural buildings even when the label is scarce. The framework adopts the result of single-object instance segmentation from the orthodox Mask R-CNN. Further, it classifies the rural buildings into new and old ones based on a dynamic grayscale threshold inferred from the result of a two-object instance segmentation task where training data is scarce. We found that the framework can extract more buildings and achieve a much higher mean Average Precision (mAP) than the orthodox Mask R-CNN model. We tested the novel framework's performance with increasing training data and found that it converged even when the training samples were limited. This framework's main contribution is to allow scalable segmentation by using significantly fewer training samples than traditional machine learning practices. That makes mapping China's new and old rural buildings viable.
翻訳日:2021-02-10 14:52:50 公開日:2021-02-08
# 機械学習による偽ニュースの検出 : 体系的文献レビュー

Detecting Fake News Using Machine Learning : A Systematic Literature Review ( http://arxiv.org/abs/2102.04458v1 )

ライセンス: Link先を確認
Alim Al Ayub Ahmed, Ayman Aljabouh, Praveen Kumar Donepudi, Myung Suh Choi(参考訳) インターネットは重要な発明の1つであり、多くの人がそのユーザーである。 これらの人は異なる目的のためにこれを使用します。 これらのユーザーにアクセスできるさまざまなソーシャルメディアプラットフォームがあります。 ユーザーは誰でも投稿したり、ニュースをオンラインプラットフォームに広めることができる。 これらのプラットフォームは、ユーザやその投稿を検証しません。 そのため、一部のユーザーは偽ニュースをプラットフォームに広めようとしている。 これらのニュースは個人、社会、組織、政党に対するプロパガンダとなりうる。 人間はこれらの偽のニュースを全て検出できません。 そのため、これらの偽ニュースを自動的に検出できる機械学習分類器が必要となる。 偽ニュース検出のための機械学習分類器の使用を体系的文献レビューに記述する。

Internet is one of the important inventions and a large number of persons are its users. These persons use this for different purposes. There are different social media platforms that are accessible to these users. Any user can make a post or spread the news through the online platforms. These platforms do not verify the users or their posts. So some of the users try to spread fake news through these platforms. These news can be propaganda against an individual, society, organization or political party. A human being is unable to detect all these fake news. So there is a need for machine learning classifiers that can detect these fake news automatically. Use of machine learning classifiers for detecting fake news is described in this systematic literature review.
翻訳日:2021-02-10 14:52:23 公開日:2021-02-08
# Shader Program Tracesから学ぶ

Learning from Shader Program Traces ( http://arxiv.org/abs/2102.04533v1 )

ライセンス: Link先を確認
Yuting Yang, Connelly Barnes, Adam Finkelstein(参考訳) 画像処理のためのディープネットワークは通常、RGBピクセルから学習する。 本稿では,プログラム実行中に計算される中間値であるプログラムトレースから学ぶことを提案する。 我々は、このアイデアを、一般的にGPUハードウェア上で(各ピクセルに対して)並列に実行される画像を生成する、ピクセル〜シェーダのコンテキストで研究する。 プログラム実行中に各ピクセルで計算された中間値は、学習モデルへの入力を形成します。 さまざまなアプリケーションでは、プログラムトレースから学んだモデルは、手描きシェーダー固有の機能で拡張しても、RGBから学んだベースラインモデルよりも優れています。 また、学習のためのトレース機能のサブセットを選択する戦略も検討します。トレースの小さなサブセットは、ベースラインを上回ります。

Deep networks for image processing typically learn from RGB pixels. This paper proposes instead to learn from program traces, the intermediate values computed during program execution. We study this idea in the context of pixel~shaders -- programs that generate images, typically running in parallel (for each pixel) on GPU hardware. The intermediate values computed at each pixel during program execution form the input to the learned model. In a variety of applications, models learned from program traces outperform baseline models learned from RGB, even when augmented with hand-picked shader-specific features. We also investigate strategies for selecting a subset of trace features for learning; using just a small subset of the trace still outperforms the baselines.
翻訳日:2021-02-10 14:52:17 公開日:2021-02-08
# スケーラブルなアプリケーションレベルのポストシリコンデバッグの機能エンジニアリング

Feature Engineering for Scalable Application-Level Post-Silicon Debugging ( http://arxiv.org/abs/2102.04554v1 )

ライセンス: Link先を確認
Debjit Pal, Shobha Vasudevan(参考訳) システムオンチップ(SoC)検証の可観測性向上とルート因果診断のための体系的かつ効率的なソリューションを多様な利用シナリオで提案します。 メッセージ選択のための典型的なアプリケーションにおける対話フローの仕様をモデル化する。 提案手法はフロー仕様のカバレッジとトレースバッファの利用を最適化する。 診断問題を,バギートレースを異常値,バグフリートレースを異常値/正規値として同定し,教師なし学習アルゴリズムを用いて異常値検出を行う。 生の特徴として信号を用いたトレースデータに機械学習アルゴリズムを直接適用するのではなく、機能エンジニアリングを使用して、生の機能をドメイン固有の操作を使ってより高度な機能に変換する。 エンジニアリングされた機能は診断タスクに強く関連しており、あらゆるハードウェア設計に適用可能である。 産業規模のOpenSPARC T2 SoCにおける微妙なシリコン後バグのデバッグと根本原因解析について述べる。 トレーサバッファの利用率は98.96\%で,フロー仕様は94.3\% (平均) であった。 私たちの診断方法は66.7\%以上のバグを診断することができ、診断精度0.769の手動デバッグと比較して847$\times$の診断時間を短縮しました。

We present systematic and efficient solutions for both observability enhancement and root-cause diagnosis of post-silicon System-on-Chips (SoCs) validation with diverse usage scenarios. We model specification of interacting flows in typical applications for message selection. Our method for message selection optimizes flow specification coverage and trace buffer utilization. We define the diagnosis problem as identifying buggy traces as outliers and bug-free traces as inliers/normal behaviors, for which we use unsupervised learning algorithms for outlier detection. Instead of direct application of machine learning algorithms over trace data using the signals as raw features, we use feature engineering to transform raw features into more sophisticated features using domain specific operations. The engineered features are highly relevant to the diagnosis task and are generic to be applied across any hardware designs. We present debugging and root cause analysis of subtle post-silicon bugs in industry-scale OpenSPARC T2 SoC. We achieve a trace buffer utilization of 98.96\% with a flow specification coverage of 94.3\% (average). Our diagnosis method was able to diagnose up to 66.7\% more bugs and took up to 847$\times$ less diagnosis time as compared to the manual debugging with a diagnosis precision of 0.769.
翻訳日:2021-02-10 14:52:05 公開日:2021-02-08
# 適応線形光学を用いた量子機械学習

Quantum machine learning with adaptive linear optics ( http://arxiv.org/abs/2102.04579v1 )

ライセンス: Link先を確認
Ulysse Chabaud, Damian Markham, and Adel Sohbi(参考訳) 本研究では,量子デバイスを用いて確率推定による予測や,量子状態の重複推定によるカーネル計算を行う教師付き学習アルゴリズムについて検討した。 線形光学系におけるボゾンサンプリングアーキテクチャを用いて,これらの量子サブルーチンの実装を適応計測によって補う。 次に、これらの量子アルゴリズムに対して、出力確率推定と重なり推定のタスクを古典シミュレーションアルゴリズムから導出することで挑戦する。 我々は,これら2つの計算課題に対して,適応計測数と入力光子数で異なる古典的シミュラビリティレジームを求める。 どちらの場合も、古典的機械学習アルゴリズムと比較して量子優位性が適応線形光学で想定できるパラメータの範囲に明確な制限を設け、入力光子の数と適応測定の回数をモードの数と比較すると同時に小さくすることはできないことを示した。 興味深いことに、私たちの分析は、単一の適応測定で近い将来の量子優位性の可能性を開きます。

We study supervised learning algorithms in which a quantum device is used to perform a computational subroutine - either for prediction via probability estimation, or to compute a kernel via estimation of quantum states overlap. We design implementations of these quantum subroutines using Boson Sampling architectures in linear optics, supplemented by adaptive measurements. We then challenge these quantum algorithms by deriving classical simulation algorithms for the tasks of output probability estimation and overlap estimation. We obtain different classical simulability regimes for these two computational tasks in terms of the number of adaptive measurements and input photons. In both cases, our results set explicit limits to the range of parameters for which a quantum advantage can be envisaged with adaptive linear optics compared to classical machine learning algorithms: we show that the number of input photons and the number of adaptive measurements cannot be simultaneously small compared to the number of modes. Interestingly, our analysis leaves open the possibility of a near-term quantum advantage with a single adaptive measurement.
翻訳日:2021-02-10 14:51:46 公開日:2021-02-08
# 科学のための機械学習入門

Introduction to Machine Learning for the Sciences ( http://arxiv.org/abs/2102.04883v1 )

ライセンス: Link先を確認
Titus Neupert, Mark H Fischer, Eliska Greplova, Kenny Choo, Michael Denner(参考訳) STEMの学生を念頭に置いて特別に開発された入門機械学習コースです。 教師なし、監督なし、強化学習について議論します。 このノートは、原則成分分析、t-sne、線形回帰など、ニューラルネットワークのない機械学習手法の例証から始まっている。 従来型ニューラルネットワーク,(可変)オートエンコーダ,生成型adversarial network,制限ボルツマンマシン,リカレントニューラルネットワークといった,基本的なニューラルネットワーク構造と高度なニューラルネットワーク構造について紹介する。 解釈可能性に関する質問は、夢中攻撃や敵対攻撃の例を用いて議論される。

This is an introductory machine learning course specifically developed with STEM students in mind. We discuss supervised, unsupervised, and reinforcement learning. The notes start with an exposition of machine learning methods without neural networks, such as principle component analysis, t-SNE, and linear regression. We continue with an introduction to both basic and advanced neural network structures such as conventional neural networks, (variational) autoencoders, generative adversarial networks, restricted Boltzmann machines, and recurrent neural networks. Questions of interpretability are discussed using the examples of dreaming and adversarial attacks.
翻訳日:2021-02-10 14:47:37 公開日:2021-02-08
# (参考訳) Infinite-horizon Competitive Markov Gamesにおける分散型オプティマティカルグラデーションの晩期収束

Last-iterate Convergence of Decentralized Optimistic Gradient Descent/Ascent in Infinite-horizon Competitive Markov Games ( http://arxiv.org/abs/2102.04540v1 )

ライセンス: CC0 1.0
Chen-Yu Wei, Chung-Wei Lee, Mengxiao Zhang, Haipeng Luo(参考訳) 無限ホライゾン割引2人のゼロサムマルコフゲームを研究し、自己プレイ下でnash平衡の集合に確実に収束する分散アルゴリズムを開発した。 提案アルゴリズムは,各状態に対して最適勾配Descent Ascentアルゴリズムを実行してポリシを学習し,各状態の価値を徐々に学習する批評家を対象とする。 To the best of our knowledge, this is the first algorithm in this setting that is simultaneously rational (converging to the opponent's best response when it uses a stationary policy), convergent (converging to the set of Nash equilibria under self-play), agnostic (no need to know the actions played by the opponent), symmetric (players taking symmetric roles in the algorithm), and enjoying a finite-time last-iterate convergence guarantee, all of which are desirable properties of decentralized algorithms.

We study infinite-horizon discounted two-player zero-sum Markov games, and develop a decentralized algorithm that provably converges to the set of Nash equilibria under self-play. Our algorithm is based on running an Optimistic Gradient Descent Ascent algorithm on each state to learn the policies, with a critic that slowly learns the value of each state. To the best of our knowledge, this is the first algorithm in this setting that is simultaneously rational (converging to the opponent's best response when it uses a stationary policy), convergent (converging to the set of Nash equilibria under self-play), agnostic (no need to know the actions played by the opponent), symmetric (players taking symmetric roles in the algorithm), and enjoying a finite-time last-iterate convergence guarantee, all of which are desirable properties of decentralized algorithms.
翻訳日:2021-02-10 14:46:56 公開日:2021-02-08
# (参考訳) 密度行列とランダム特徴を用いた学習 [全文訳有]

Learning with Density Matrices and Random Features ( http://arxiv.org/abs/2102.04394v1 )

ライセンス: CC BY 4.0
Fabio A. Gonz\'alez, Alejandro Gallego, Santiago Toledo-Cort\'es, Vladimir Vargas-Calder\'on(参考訳) 密度行列は、量子系の統計状態を記述する。 量子系の量子と古典の不確実性の両方を表し、線形代数演算として測定、システムの組み合わせ、期待などの異なる統計操作を表現することは強力な形式主義である。 本稿では,線形代数と確率を直接組み合わせた機械学習モデルを構築するために,密度行列をビルディングブロックとして利用する方法を考察する。 この論文の主な結果の1つは、ランダムフーリエ特徴と結合した密度行列が$\mathbb{R}^n$上の任意の確率分布を近似できることを示すことである。 この発見に基づいて、密度推定、分類、回帰のための異なるモデルを構築する。 これらのモデルは微分可能であり、ディープラーニングアーキテクチャのような他の異なるコンポーネントと統合することができ、勾配に基づく最適化を用いてパラメータを学習することができる。 さらに,推定とモデル平均化に基づく最適化なしの学習戦略を提案する。 モデルはベンチマークタスクで評価され、結果が報告され、議論される。

A density matrix describes the statistical state of a quantum system. It is a powerful formalism to represent both the quantum and classical uncertainty of quantum systems and to express different statistical operations such as measurement, system combination and expectations as linear algebra operations. This paper explores how density matrices can be used as a building block to build machine learning models exploiting their ability to straightforwardly combine linear algebra and probability. One of the main results of the paper is to show that density matrices coupled with random Fourier features could approximate arbitrary probability distributions over $\mathbb{R}^n$. Based on this finding the paper builds different models for density estimation, classification and regression. These models are differentiable, so it is possible to integrate them with other differentiable components, such as deep learning architectures and to learn their parameters using gradient-based optimization. In addition, the paper presents optimization-less training strategies based on estimation and model averaging. The models are evaluated in benchmark tasks and the results are reported and discussed.
翻訳日:2021-02-10 12:10:35 公開日:2021-02-08
# (参考訳) 説明可能な強化学習のための神経遺伝プログラミングフレームワーク [全文訳有]

Neurogenetic Programming Framework for Explainable Reinforcement Learning ( http://arxiv.org/abs/2102.04231v1 )

ライセンス: CC BY 4.0
Vadim Liventsev, Aki H\"arm\"a and Milan Petkovi\'c(参考訳) 自動プログラミング(Automatic Programming)は、人間の開発者なしで仕様に準拠したコンピュータプログラムを生成するタスクであり、通常はプログラムの突然変異と組換えに基づく遺伝的プログラミング手法またはニューラルランゲージモデルによって取り組まれる。 本稿では,ニューラルネットワーク学習における勾配降下の代替として進化的手法を用いる,仮想神経遺伝プログラマという概念を用いて,両方のアプローチを組み合わせる新しい手法を提案する。 私たちは、さまざまなopenaiジムタスクにパフォーマンスと説明可能なソリューションを提供し、それ以外はデータ駆動のソリューション検索に専門家の知識を注入する能力を示します。

Automatic programming, the task of generating computer programs compliant with a specification without a human developer, is usually tackled either via genetic programming methods based on mutation and recombination of programs, or via neural language models. We propose a novel method that combines both approaches using a concept of a virtual neuro-genetic programmer: using evolutionary methods as an alternative to gradient descent for neural network training}, or scrum team. We demonstrate its ability to provide performant and explainable solutions for various OpenAI Gym tasks, as well as inject expert knowledge into the otherwise data-driven search for solutions.
翻訳日:2021-02-10 11:53:04 公開日:2021-02-08
# (参考訳) システム評価のためのマルチソースAIスコアカードテーブル [全文訳有]

Multisource AI Scorecard Table for System Evaluation ( http://arxiv.org/abs/2102.03985v1 )

ライセンス: CC0 1.0
Erik Blasch, James Sung, Tao Nguyen(参考訳) この論文では、人工知能(AI)/機械学習(ML)システムの開発者とユーザに、AIコミュニティ(IC)が採用した優れた分析の原則に焦点を当てた標準チェックリストを提供するマルチソースAIスコアカードテーブル(MAST)について説明します。 このようなスコアカードは、商業および政府の使用に適用されるAIツールの透明で一貫性のある意味のある理解を可能にします。 標準はポリシーを通じてコンプライアンスと合意に基づいて構築されます。 テストの一貫性は標準的なデータセットにのみ存在するかもしれないが、コミュニティは、解釈可能性、説明可能性、適切な使用につながる検証と検証のアプローチについて議論する必要がある。 本稿では、インテリジェンスコミュニティディレクティブ(ICD)203で概説された分析トレードクラフト標準が、さまざまな運用ニーズをサポートするAIシステムのパフォーマンスを評価するためのフレームワークを提供する方法について検討する。 これには、ソーシング、不確実性、一貫性、正確性、可視化などが含まれる。 3つのユースケースは、比較分析のセキュリティをサポートする表記例として提示される。

The paper describes a Multisource AI Scorecard Table (MAST) that provides the developer and user of an artificial intelligence (AI)/machine learning (ML) system with a standard checklist focused on the principles of good analysis adopted by the intelligence community (IC) to help promote the development of more understandable systems and engender trust in AI outputs. Such a scorecard enables a transparent, consistent, and meaningful understanding of AI tools applied for commercial and government use. A standard is built on compliance and agreement through policy, which requires buy-in from the stakeholders. While consistency for testing might only exist across a standard data set, the community requires discussion on verification and validation approaches which can lead to interpretability, explainability, and proper use. The paper explores how the analytic tradecraft standards outlined in Intelligence Community Directive (ICD) 203 can provide a framework for assessing the performance of an AI system supporting various operational needs. These include sourcing, uncertainty, consistency, accuracy, and visualization. Three use cases are presented as notional examples that support security for comparative analysis.
翻訳日:2021-02-10 11:37:45 公開日:2021-02-08
# (参考訳) 創発的敵網の知的特性をアンビジティ攻撃から保護する [全文訳有]

Protecting Intellectual Property of Generative Adversarial Networks from Ambiguity Attack ( http://arxiv.org/abs/2102.04362v1 )

ライセンス: CC BY 4.0
Ding Sheng Ong, Chee Seng Chan, Kam Woh Ng, Lixin Fan, Qiang Yang(参考訳) 機械学習・アズ・ア・サービス(MLaaS)は、ディープラーニングモデルを利用して収益を生み出す実行可能なビジネスとして登場して以来、知的財産権(IPR)は、これらのディープラーニングモデルを簡単に複製、共有、再配布できるため、大きな関心事となっている。 我々の知る限り、フォトリアリスティックな画像を作成するために広く使われているGAN(Generative Adversarial Networks)は、畳み込みニューラルネットワーク(CNN)の先駆的なIPR保護手法が存在するにもかかわらず、完全に保護されていない。 そこで本稿では, ブラックボックスとホワイトボックスの両方において, IPR保護をGANに強制するための完全な保護フレームワークを提案する。 実験により,提案手法は元のGANの性能を損なわないことを示した。 画像生成、画像の超解像度、スタイル転送)と同時に、埋め込みウォーターマークに対する削除と曖昧性攻撃の両方に耐えることができる。

Ever since Machine Learning as a Service (MLaaS) emerges as a viable business that utilizes deep learning models to generate lucrative revenue, Intellectual Property Right (IPR) has become a major concern because these deep learning models can easily be replicated, shared, and re-distributed by any unauthorized third parties. To the best of our knowledge, one of the prominent deep learning models - Generative Adversarial Networks (GANs) which has been widely used to create photorealistic image are totally unprotected despite the existence of pioneering IPR protection methodology for Convolutional Neural Networks (CNNs). This paper therefore presents a complete protection framework in both black-box and white-box settings to enforce IPR protection on GANs. Empirically, we show that the proposed method does not compromise the original GANs performance (i.e. image generation, image super-resolution, style transfer), and at the same time, it is able to withstand both removal and ambiguity attacks against embedded watermarks.
翻訳日:2021-02-10 11:09:29 公開日:2021-02-08
# (参考訳) Overhead MNIST: ベンチマーク衛星データセット [全文訳有]

Overhead MNIST: A Benchmark Satellite Dataset ( http://arxiv.org/abs/2102.04266v1 )

ライセンス: CC BY-SA 4.0
David Noever, Samantha E. Miller Noever(参考訳) この研究は10の重要なオブジェクトのオーバーヘッドビューを示し、最も人気のある機械学習タスクであるMNISTによる桁認識の一般的なフォーマット要件に従う。 このデータセットは、100万人以上の人間のラベルとキュレーションされた例から抽出された公開ベンチマークを提供する。 この研究は、手書き、がん検出、小売データセットでの以前の作業とマッチングしながら、主要なマルチクラスオブジェクト識別タスクの概要を示している。 トランスファーラーニングと畳み込みニューラルネットワーク(MobileNetV2)を用いたプロトタイプのディープラーニングアプローチは、平均96.7%の精度で10のオーバーヘッドクラスを正しく識別する。 このモデルは人間の最高性能93.9%を超える。 衛星画像と物体認識を改善するために、この新しいデータセットは、災害救助、土地利用管理、およびその他の従来のリモートセンシングタスクなどのさまざまな取り組みに役立ちます。 この研究は、衛星ベンチマークを拡張して、小型衛星で動作可能な効率的でコンパクトなアルゴリズムを識別する能力を追加した。 データセットはKaggleとGithubで入手できる。

The research presents an overhead view of 10 important objects and follows the general formatting requirements of the most popular machine learning task: digit recognition with MNIST. This dataset offers a public benchmark extracted from over a million human-labelled and curated examples. The work outlines the key multi-class object identification task while matching with prior work in handwriting, cancer detection, and retail datasets. A prototype deep learning approach with transfer learning and convolutional neural networks (MobileNetV2) correctly identifies the ten overhead classes with an average accuracy of 96.7%. This model exceeds the peak human performance of 93.9%. For upgrading satellite imagery and object recognition, this new dataset benefits diverse endeavors such as disaster relief, land use management, and other traditional remote sensing tasks. The work extends satellite benchmarks with new capabilities to identify efficient and compact algorithms that might work on-board small satellites, a practical task for future multi-sensor constellations. The dataset is available on Kaggle and Github.
翻訳日:2021-02-10 10:49:47 公開日:2021-02-08
# (参考訳) 機械学習を用いた新型コロナウイルス死亡率に及ぼす顔保護の効果の分析 [全文訳有]

Analysis of the Effectiveness of Face-Coverings on the Death Rate of COVID-19 Using Machine Learning ( http://arxiv.org/abs/2102.04419v1 )

ライセンス: CC BY 4.0
Ali Lafzi, Miad Boodaghi, Siavash Zamani, and Niyousha Mohammadshafie(参考訳) 新型コロナウイルスの感染拡大で人類は衝撃を受け、世界中で数百万人が死亡した。 ウイルスの拡散を阻止するために、米国の当局は、州知事によって発行されたマスクマンデート(MM)命令を含むさまざまな戦略を採用しました。 これまでの研究の多くは、MMがウイルス感染の拡散を阻害する効果があることを指摘していたが、MMの有効性はウイルスへの曝露の程度を減らし、その結果、死亡率は未決定のままである。 実際、covid-19への感染がウイルスの致死性に与える影響は、まだはっきりしていない。 本研究では, 平均死亡率というパラメータを, 日常死亡数と日常死亡数との比の月間平均として定義した。 New York Timesが提供する調査データを利用して、MM注文に対する人々の遵守度を定量化しました。 さらに、人口、収入、政治的傾向といったパラメータに依存するmm命令に人々が従属する範囲についても暗黙的に取り組んだ。 異なる機械学習分類アルゴリズムを使用して、米国西海岸の郡の死亡率の減少または増加が入力パラメータとどのように相関するかを調べました。 結果は、XGBoost、Random Forest、Naive Bayesなどのアルゴリズムで0.94の有望なスコアを示した。 モデルの検証には、他の州(アリゾナ、ニュージャージー、ニューヨーク、テキサス)をテストケースとして分析するために最適なアルゴリズムが使われた。 以上の結果から, 同様の症例の予測のために選択した特徴のユーザビリティがさらに確認された。

The recent outbreak of the COVID-19 shocked humanity leading to the death of millions of people worldwide. To stave off the spread of the virus, the authorities in the US, employed different strategies including the mask mandate (MM) order issued by the states' governors. Although most of the previous studies pointed in the direction that MM can be effective in hindering the spread of viral infections, the effectiveness of MM in reducing the degree of exposure to the virus and, consequently, death rates remains indeterminate. Indeed, the extent to which the degree of exposure to COVID-19 takes part in the lethality of the virus remains unclear. In the current work, we defined a parameter called the average death ratio as the monthly average of the ratio of the number of daily deaths to the total number of daily cases. We utilized survey data provided by New York Times to quantify people's abidance to the MM order. Additionally, we implicitly addressed the extent to which people abide by the MM order that may depend on some parameters like population, income, and political inclination. Using different machine learning classification algorithms we investigated how the decrease or increase in death ratio for the counties in the US West Coast correlates with the input parameters. Our results showed a promising score as high as 0.94 with algorithms like XGBoost, Random Forest, and Naive Bayes. To verify the model, the best performing algorithms were then utilized to analyze other states (Arizona, New Jersey, New York and Texas) as test cases. The findings show an acceptable trend, further confirming usability of the chosen features for prediction of similar cases.
翻訳日:2021-02-10 10:05:37 公開日:2021-02-08
# (参考訳) Dynamic Sasvi:ノーム正規化リーストスクエアの強力な安全スクリーニング [全文訳有]

Dynamic Sasvi: Strong Safe Screening for Norm-Regularized Least Squares ( http://arxiv.org/abs/2102.04108v1 )

ライセンス: CC BY 4.0
Hiroaki Yamada, Makoto Yamada(参考訳) 最近導入された"safe screening"と呼ばれるスパース最適化問題のテクニックにより、最適化の初期段階で無関係な変数を識別できる。 本稿では,まず,fenchel-rockafellar 双対性に基づく安全スクリーニングのための柔軟な枠組みを提案する。 我々は、ノルム正規化最小二乗のスクリーニング規則を、sasviの一般化として解釈できるので「動的sasvi」と呼ぶ。 元々のsassviとは異なり、より強固な正規化問題の厳密な解を必要としないため、実際には安全に機能する。 提案手法は,理論上,実験上,他のスクリーニングルールと比較して,より多くの特徴を取り除き,解答者の速度を増加させることができることを示す。

A recently introduced technique for a sparse optimization problem called "safe screening" allows us to identify irrelevant variables in the early stage of optimization. In this paper, we first propose a flexible framework for safe screening based on the Fenchel-Rockafellar duality and then derive a strong safe screening rule for norm-regularized least squares by the framework. We call the proposed screening rule for norm-regularized least squares "dynamic Sasvi" because it can be interpreted as a generalization of Sasvi. Unlike the original Sasvi, it does not require the exact solution of a more strongly regularized problem; hence, it works safely in practice. We show that our screening rule can eliminate more features and increase the speed of the solver in comparison with other screening rules both theoretically and experimentally.
翻訳日:2021-02-10 09:56:09 公開日:2021-02-08
# (参考訳) 学習曲線理論 [全文訳有]

Learning Curve Theory ( http://arxiv.org/abs/2102.04074v1 )

ライセンス: CC BY 4.0
Marcus Hutter(参考訳) 最近、多くの実証的な「ユニバーサル」スケール法論文が、特にOpenAIによって出版された。 スケーリング則」とは、訓練やテストエラーのパワーロー低減を意味する。 より多くのデータ、より大きなニューラルネットワーク、あるいはそれ以上の計算。 この作業ではw.r.t.のスケーリングに重点を置いている。 データサイズは$n$。 この現象の理論的理解はほとんど欠けているが、エラーは通常$n^{-1/2}$または$n^{-1}$で減少する有限次元モデルでは$n$がサンプルサイズである。 我々は、任意のパワーに対して$n^{-\beta}$学習曲線を示すことができる最も単純な(toy)モデルを開発し、理論的に分析し、電力法則が普遍的かデータ分布に依存するかを決定する。

Recently a number of empirical "universal" scaling law papers have been published, most notably by OpenAI. `Scaling laws' refers to power-law decreases of training or test error w.r.t. more data, larger neural networks, and/or more compute. In this work we focus on scaling w.r.t. data size $n$. Theoretical understanding of this phenomenon is largely lacking, except in finite-dimensional models for which error typically decreases with $n^{-1/2}$ or $n^{-1}$, where $n$ is the sample size. We develop and theoretically analyse the simplest possible (toy) model that can exhibit $n^{-\beta}$ learning curves for arbitrary power $\beta>0$, and determine whether power laws are universal or depend on the data distribution.
翻訳日:2021-02-10 09:16:36 公開日:2021-02-08
# (参考訳) マルチエージェント強化学習における集中的・分散的批判の対比 [全文訳有]

Contrasting Centralized and Decentralized Critics in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2102.04402v1 )

ライセンス: CC BY-SA 4.0
Xueguang Lyu, Yuchen Xiao, Brett Daley, Christopher Amato(参考訳) 中央集中型実行のための集中型トレーニングは、エージェントが集中型情報を使用してオフラインでトレーニングされるが、オンラインの分散型実行は、マルチエージェント強化学習コミュニティで人気を得ている。 特に、中央集権的な批評家と分散型の俳優を持つ俳優批判的な方法は、このアイデアの一般的な例です。 しかし、この文脈において集中的批判を用いることの意味は、多くのアルゴリズムの標準選択であるにもかかわらず、十分に議論され、理解されていない。 そこで我々は,中央集権的かつ分散的な批判的アプローチを形式的に分析し,批判的選択の意義をより深く理解する。 我々の理論は非現実的な仮定をするので、我々は理論を検証し実践的なアドバイスを提供するために、幅広い環境にまたがる集中的かつ分散的な批判手法を実証的に比較する。 我々は,現在の文献に中央集権的批評家に関する誤解があることを示し,中央集権的批評家設計は厳密には有益ではなく,むしろ中央集権的かつ分散化された批評家は,アルゴリズム設計者が考慮すべき異なる長所と短所を持っていることを示した。

Centralized Training for Decentralized Execution, where agents are trained offline using centralized information but execute in a decentralized manner online, has gained popularity in the multi-agent reinforcement learning community. In particular, actor-critic methods with a centralized critic and decentralized actors are a common instance of this idea. However, the implications of using a centralized critic in this context are not fully discussed and understood even though it is the standard choice of many algorithms. We therefore formally analyze centralized and decentralized critic approaches, providing a deeper understanding of the implications of critic choice. Because our theory makes unrealistic assumptions, we also empirically compare the centralized and decentralized critic methods over a wide set of environments to validate our theories and to provide practical advice. We show that there exist misconceptions regarding centralized critics in the current literature and show that the centralized critic design is not strictly beneficial, but rather both centralized and decentralized critics have different pros and cons that should be taken into account by algorithm designers.
翻訳日:2021-02-10 07:36:55 公開日:2021-02-08
# (参考訳) Aleatoric Mapping Agent による確率トラップのエスケープ [全文訳有]

Escaping Stochastic Traps with Aleatoric Mapping Agents ( http://arxiv.org/abs/2102.04399v1 )

ライセンス: CC BY 4.0
Augustine N. Mavor-Parker, Kimberly A. Young, Caswell Barry, Lewis D. Griffin(参考訳) 粗末な報酬のある環境での探索は、人工エージェントにとって困難である。 好奇心に基づく学習 -- フィードフォワード予測エラーを本質的な報酬として使用する -- は、これらのシナリオでいくつかの成功を収めているが、アクション依存のノイズ源に直面した場合には失敗する。 哺乳類の脳のコリン作動性神経系をモデルとした神経科学インスパイアソリューションであるaleatoric mapping agents(amas)を提案する。 AMAは、エージェントの作用によってそのダイナミクスが誘導されるかどうかに関わらず、環境のどのダイナミクスが予測不可能であるかを明確に確かめることを目的としている。 これは、将来の状態の平均と分散に対する別々の前方予測を生成し、高アレータティックな分散を持つ遷移に対する内在的な報酬を減少させることによって達成される。 AMAは従来の好奇心誘導剤を固定する行動依存確率的トラップを効果的に回避できることを示す。 本論文で紹介するすべての実験のコードは、オープンソース化されている。

Exploration in environments with sparse rewards is difficult for artificial agents. Curiosity driven learning -- using feed-forward prediction errors as intrinsic rewards -- has achieved some success in these scenarios, but fails when faced with action-dependent noise sources. We present aleatoric mapping agents (AMAs), a neuroscience inspired solution modeled on the cholinergic system of the mammalian brain. AMAs aim to explicitly ascertain which dynamics of the environment are unpredictable, regardless of whether those dynamics are induced by the actions of the agent. This is achieved by generating separate forward predictions for the mean and variance of future states and reducing intrinsic rewards for those transitions with high aleatoric variance. We show AMAs are able to effectively circumvent action-dependent stochastic traps that immobilise conventional curiosity driven agents. The code for all experiments presented in this paper is open sourced: http://github.com/se lf-supervisor/Escapi ng-Stochastic-Traps- With-Aleatoric-Mappi ng-Agents.
翻訳日:2021-02-10 07:08:02 公開日:2021-02-08
# (参考訳) MetaTune: 高速で効率的な自動チューニングフレームワークのためのメタラーニングベースのコストモデル [全文訳有]

MetaTune: Meta-Learning Based Cost Model for Fast and Efficient Auto-tuning Frameworks ( http://arxiv.org/abs/2102.04199v1 )

ライセンス: CC BY 4.0
Jaehun Ryu, Hyojin Sung(参考訳) ディープラーニングのコンパイラフレームワークは、ますます多様なハードウェア上で、ディープラーニングアプリケーションのよりポータブルなバックエンドとして定着しつつある。 しかし、ハンドチューニングされたターゲット固有のライブラリが提供するパフォーマンスをマッチングするという恐ろしい課題に直面している。 統計的コストモデルを備えた自動チューニングフレームワークは動的で効率的なコード最適化を提供するが、大きなスペース探索とコストモデルのトレーニングオーバーヘッドに苦しむ。 本稿では,事前学習したモデルパラメータを用いて最適化されたコードの性能をより迅速かつ正確に予測するメタラーニングベースのコストモデルであるmetatuneを提案する。 MetaTuneは、畳み込みカーネルコードを構造的に類似したグラフとしてエンコードし、メタ学習を容易にし、非常に小さな入力データセットでGNNモデルをメタトレーニングし、コンパイル中にさまざまなサイズと構造を持つ畳み込み操作の最適化パラメータを予測する。 metatuneで得られたフレームワークは、4つのcnnモデルで平均8~13%の推論時間を提供し、同等または低い最適化時間を持つ一方で、クロスプラットフォームケースではトランスファー学習を10%上回っています。

Deep learning compiler frameworks are gaining ground as a more portable back-end for deep learning applications on increasingly diverse hardware. However, they face the daunting challenge of matching performance offered by hand-tuned target-specific libraries. While auto-tuning frameworks with statistical cost models can provide dynamic and efficient code optimization, they suffer from large space exploration and cost model training overheads. This paper proposes MetaTune, a meta-learning based cost model that more quickly and accurately predicts the performance of optimized codes with pre-trained model parameters. MetaTune encodes convolution kernel codes as structurally similar graphs to facilitate meta-learning, meta-trains a GNN model with a very small input data set, and then predicts optimization parameters for unseen convolution operations with varying sizes and structures during compilation. The resulting framework with MetaTune provides 8 to 13% better inference time on average for four CNN models with comparable or lower optimization time while outperforming transfer learning by 10% in cross-platform cases.
翻訳日:2021-02-10 06:57:55 公開日:2021-02-08
# (参考訳) ニューラル・ディファレンシャル方程式(NODE)によるヒト・マシーンの医療予後向上 [全文訳有]

Enhancing Human-Machine Teaming for Medical Prognosis Through Neural Ordinary Differential Equations (NODEs) ( http://arxiv.org/abs/2102.04121v1 )

ライセンス: CC BY 4.0
D. Fompeyrine, E. S. Vorm, N. Ricka, F. Rose, G. Pellegrin(参考訳) 機械学習(ML)は最近、医学を含むさまざまな領域の予測および検出タスクにおける専門家レベルの人間の精度に匹敵する実証されています。 しかし、これらの印象的な発見にもかかわらず、医学的予後におけるMLの可能性を完全に実現するための重要な障壁は、技術受け入れです。 最近、説明可能なAI(XAI)の作成は、いくつかのMLモデルの解釈可能性を改善するために進歩しましたが、これらの取り組みは、設計に本質的な制限に苦しんでいます:彼らはシステムが失敗した理由を特定するのに最善を尽くしますが、モデル予測が正しい理由と理由を説明するのに不十分です。 専門家領域におけるML予測の受け入れ可能性は、人間の能力を超えた機械の予測の展望と、機械予測が人間の直感をモデルに組み込むことができないという2つの重要な要因によって制限される。 本稿では,新しいmlアーキテクチャであるneural ordinary differential equation (nodes) を用いて,人間の理解を深め,受容性を促進することを提案する。 提案手法は,アルゴリズム設計の中心における人間の認知的直感を優先し,単一出力ではなく予測の分布を提供する。 医療診断などの専門分野における予測タスクにおいて,このアプローチが人間と機械の協調性を大幅に向上させる可能性について解説する。 論文から具体例を拡大することにより,我々のモデルが将来のハイブリッドAIシステムのビジョンをどう進めるかを実証するモデルを提案する。

Machine Learning (ML) has recently been demonstrated to rival expert-level human accuracy in prediction and detection tasks in a variety of domains, including medicine. Despite these impressive findings, however, a key barrier to the full realization of ML's potential in medical prognoses is technology acceptance. Recent efforts to produce explainable AI (XAI) have made progress in improving the interpretability of some ML models, but these efforts suffer from limitations intrinsic to their design: they work best at identifying why a system fails, but do poorly at explaining when and why a model's prediction is correct. We posit that the acceptability of ML predictions in expert domains is limited by two key factors: the machine's horizon of prediction that extends beyond human capability, and the inability for machine predictions to incorporate human intuition into their models. We propose the use of a novel ML architecture, Neural Ordinary Differential Equations (NODEs) to enhance human understanding and encourage acceptability. Our approach prioritizes human cognitive intuition at the center of the algorithm design, and offers a distribution of predictions rather than single outputs. We explain how this approach may significantly improve human-machine collaboration in prediction tasks in expert domains such as medical prognoses. We propose a model and demonstrate, by expanding a concrete example from the literature, how our model advances the vision of future hybrid Human-AI systems.
翻訳日:2021-02-10 06:41:29 公開日:2021-02-08
# (参考訳) 不均一集合によるグラフニューラルネットワークのエンハンス情報伝搬 [全文訳有]

Enhance Information Propagation for Graph Neural Network by Heterogeneous Aggregations ( http://arxiv.org/abs/2102.04064v1 )

ライセンス: CC BY 4.0
Dawei Leng, Jinjiang Guo, Lurong Pan, Jie Li, Xinyu Wang(参考訳) ディープラーニングの成功の継続として、グラフニューラルネットワークが出現している。 グラフデータ。 多数の異なるグラフニューラルネットワークが提案されているが、その大部分は近隣のアグリゲーションスキームに従っており、ノード機能はレイヤからレイヤへの隣接ノードの特徴を集約することで更新される。 関連する研究の急増にもかかわらず、GNNの能力はコンピュータビジョンのCNNや自然言語処理のRNNと同等ではない。 この問題を情報伝播の観点から再考し、異種アグリゲーションを組み合わせることでGNN層間の情報伝達を強化することを提案する。 我々は、より豊かな情報が浅い層から深い層へと伝播しているため、GNNによって定式化された特徴の識別能力は、その恩恵を受けることができると論じる。 この方向への最初の試みとして、新しい汎用GNN層を定式化し、HAG-Netと呼ばれる新しいGNN変種を提案する。 いくつかのグラフ分類ベンチマークにおけるHAG-Netの有効性を実証的に検証し、すべての設計オプションと基準を精査する。

Graph neural networks are emerging as continuation of deep learning success w.r.t. graph data. Tens of different graph neural network variants have been proposed, most following a neighborhood aggregation scheme, where the node features are updated via aggregating features of its neighboring nodes from layer to layer. Though related research surges, the power of GNNs are still not on-par-with their counterpart CNNs in computer vision and RNNs in natural language processing. We rethink this problem from the perspective of information propagation, and propose to enhance information propagation among GNN layers by combining heterogeneous aggregations. We argue that as richer information are propagated from shallow to deep layers, the discriminative capability of features formulated by GNN can benefit from it. As our first attempt in this direction, a new generic GNN layer formulation and upon this a new GNN variant referred as HAG-Net is proposed. We empirically validate the effectiveness of HAG-Net on a number of graph classification benchmarks, and elaborate all the design options and criterions along with.
翻訳日:2021-02-10 06:26:35 公開日:2021-02-08
# (参考訳) Plotting Time:時系列分類におけるCNNの利用について [全文訳有]

Plotting time: On the usage of CNNs for time series classification ( http://arxiv.org/abs/2102.04179v1 )

ライセンス: CC BY 4.0
Nuno M. Rodrigues, Jo\~ao E. Batista, Leonardo Trujillo, Bernardo Duarte, Mario Giacobini, Leonardo Vanneschi, Sara Silva(参考訳) 本稿では、時系列データをプロット画像として表現し、それらを単純なCNNに供給する時系列分類の新たなアプローチを提案する。 時系列をプロットし,非最適化な浅層cnnへの入力として,正規化や残余接続を必要とせず,簡易かつ高い再現性を持つ手法を提案する。 これらの表現は、時系列データを用いたデフォルトのラインプロットに過ぎず、画像内の白ピクセル数を減らすためにのみ前処理が適用される。 本手法を実世界の2つの非パブリックデータセットとudrデータセットコレクションの98データセットの時系列分類に特化した異なる最先端手法と比較する。 その結果、我々のアプローチは非常に有望であることが示され、6つのUCRデータセットにおいて、実世界のデータセットとマッチング/ビーティングの両方で最高の結果を得ることができた。 我々のような単純なナイーブな設計でこのような良い結果が得られるならば、より強力なCNNとともに時系列データのイメージ表現を、分類やその他の関連するタスクに活用する能力をさらに探求する価値があると論じる。

We present a novel approach for time series classification where we represent time series data as plot images and feed them to a simple CNN, outperforming several state-of-the-art methods. We propose a simple and highly replicable way of plotting the time series, and feed these images as input to a non-optimized shallow CNN, without any normalization or residual connections. These representations are no more than default line plots using the time series data, where the only pre-processing applied is to reduce the number of white pixels in the image. We compare our method with different state-of-the-art methods specialized in time series classification on two real-world non public datasets, as well as 98 datasets of the UCR dataset collection. The results show that our approach is very promising, achieving the best results on both real-world datasets and matching / beating the best state-of-the-art methods in six UCR datasets. We argue that, if a simple naive design like ours can obtain such good results, it is worth further exploring the capabilities of using image representation of time series data, along with more powerful CNNs, for classification and other related tasks.
翻訳日:2021-02-10 05:32:12 公開日:2021-02-08
# (参考訳) GPT-2は本当ですか? 間欠的職業的ビアーゼの実証解析 [全文訳有]

How True is GPT-2? An Empirical Analysis of Intersectional Occupational Biases ( http://arxiv.org/abs/2102.04130v1 )

ライセンス: CC BY 4.0
Hannah Kirk, Yennie Jun, Haider Iqbal, Elias Benussi, Filippo Volpin, Frederic A. Dreyer, Aleksandar Shtedritski, Yuki M. Asano(参考訳) 大規模なデータで訓練された自然言語モデルの能力は、ここ数年で大幅に増加しました。 下流のアプリケーションはこれらのモデルに含まれるバイアスを継承する危険性があり、特に辺縁化群に負の結果をもたらす可能性がある。 本論文では,宗教,性,民族,政治的所属,名称の5つのカテゴリーで性別を交差させ,人気のジェネレーション言語モデルであるGPT-2の職業バイアスを分析した。 Using a novel data collection pipeline we collect 396k sentence completions of GPT-2 and find: (i) The machine-predicted jobs are less diverse and more stereotypical for women than for men, especially for intersections; (ii) Fitting 262 logistic models shows intersectional interactions to be highly relevant for occupational associations; (iii) For a given job, GPT-2 reflects the societal skew of gender and ethnicity in the US, and in some cases, pulls the distribution towards gender parity, raising the normative question of what language models _should_ learn.

The capabilities of natural language models trained on large-scale data have increased immensely over the past few years. Downstream applications are at risk of inheriting biases contained in these models, with potential negative consequences especially for marginalized groups. In this paper, we analyze the occupational biases of a popular generative language model, GPT-2, intersecting gender with five protected categories: religion, sexuality, ethnicity, political affiliation, and name origin. Using a novel data collection pipeline we collect 396k sentence completions of GPT-2 and find: (i) The machine-predicted jobs are less diverse and more stereotypical for women than for men, especially for intersections; (ii) Fitting 262 logistic models shows intersectional interactions to be highly relevant for occupational associations; (iii) For a given job, GPT-2 reflects the societal skew of gender and ethnicity in the US, and in some cases, pulls the distribution towards gender parity, raising the normative question of what language models _should_ learn.
翻訳日:2021-02-10 04:55:42 公開日:2021-02-08
# (参考訳) ノイズデータによる最適輸送 [全文訳有]

Optimal Transport in the Face of Noisy Data ( http://arxiv.org/abs/2102.04363v1 )

ライセンス: CC BY 4.0
Bart P.G. Van Parys(参考訳) 最適輸送距離は、データ駆動予測の文脈で一般的で理論的によく理解されている。 最近の研究の激化は、データ駆動意思決定のためのこれらの距離を広めてきたが、この文脈におけるそのメリットは、あまり理解されていない。 これとは対照的に、より古典的なエントロピー距離は最適な統計特性を享受することが知られている。 これは、最適な輸送距離が同様の統計的保証をいつ享受するかを疑問視する。 ここでは,ノイズデータに直面する決定問題に対する最適統計的保証を享受するために最適な移動方法を示す。

Optimal transport distances are popular and theoretically well understood in the context of data-driven prediction. A flurry of recent work has popularized these distances for data-driven decision-making as well although their merits in this context are far less well understood. This in contrast to the more classical entropic distances which are known to enjoy optimal statistical properties. This begs the question when, if ever, optimal transport distances enjoy similar statistical guarantees. Optimal transport methods are shown here to enjoy optimal statistical guarantees for decision problems faced with noisy data.
翻訳日:2021-02-10 04:27:08 公開日:2021-02-08
# (参考訳) 完全微分密度汎関数理論による自然からの交換相関関数の学習 [全文訳有]

Learning the exchange-correlation functional from nature with fully differentiable density functional theory ( http://arxiv.org/abs/2102.04229v1 )

ライセンス: CC BY-SA 4.0
Muhammad F. Kasim, Sam M. Vinko(参考訳) 先端材料発見には, 分子特性の予測能力の向上が不可欠である。 近年の機械学習の進歩にもかかわらず、量子化学モデリングを改善するためのディープニューラルネットワークの利用は、適切な実験データの不足と不均一性によって著しく制限されている。 本稿では、完全に異なる3次元のKonn-Sham密度関数論(DFT)フレームワーク内で交換相関関数を置き換えるニューラルネットワークのトレーニングが、シミュレーション精度を大幅に向上させる方法を示す。 訓練された交換相関ネットワークは、ダイアトミック分子に関する8つの実験データポイントのみを使用して、一般的に使用されるDFT関数とより高価な結合クラスターシミュレーションと比較して、110分子のコレクションにわたる原子化およびイオン化エネルギーの予測を改善しました。

Improving the predictive capability of molecular properties in {\it ab initio} simulations is essential for advanced material discovery. Despite recent progress making use of machine learning, utilizing deep neural networks to improve quantum chemistry modelling remains severely limited by the scarcity and heterogeneity of appropriate experimental data. Here we show how training a neural network to replace the exchange-correlation functional within a fully-differentiable three-dimensional Kohn-Sham density functional theory (DFT) framework can greatly improve simulation accuracy. Using only eight experimental data points on diatomic molecules, our trained exchange-correlation network provided improved prediction of atomization and ionization energies across a collection of 110 molecules when compared with both commonly used DFT functionals and more expensive coupled cluster simulations.
翻訳日:2021-02-10 03:57:05 公開日:2021-02-08
# (参考訳) humanacgan:条件付き生成型副分類器付き逆ネットワークとその音素知覚における評価 [全文訳有]

HumanACGAN: conditional generative adversarial network with human-based auxiliary classifier and its evaluation in phoneme perception ( http://arxiv.org/abs/2102.04051v1 )

ライセンス: CC BY-SA 4.0
Yota Ueda, Kazuki Fujii, Yuki Saito, Shinnosuke Takamichi, Yukino Baba, Hiroshi Saruwatari(参考訳) 本研究では,人間の知覚的評価を取り入れた条件付き生成逆ネットワーク(GAN)を提案する。 深層ニューラルネットワーク(dnn)ベースのgan生成器は、実データ分布を正確に表現できるが、そのデータが現実であるか否かに関わらず、人間が自然性を受け入れるデータ範囲である人間受容分布を表現できない。 ヒトの受け入れ可能な分布をモデル化するHumanGANが提案された。 DNNベースのジェネレータは、GANのDNNベースのディスクリミネーターではなく、人間の知覚評価を用いて訓練される。 しかし、HumanGANは条件分布を表すことはできない。 本稿では,ヒューマンガンの理論拡張であるHumanACGANを提案し,条件付きヒューマンアクセプタブル分布を扱う。 私たちのhumanacganはdnnベースの条件付きジェネレータを識別器だけでなく補助的な分類器として訓練している。 生成器は、無条件自然性を示す人間に基づく判別器と、クラス条件の知覚受容性を評価する人間に基づく分類器とを欺いて訓練される。 トレーニングは、人間の知覚的評価を含むバックプロパゲーションアルゴリズムを用いて行うことができる。 音素知覚実験の結果,HumanACGANはこの条件付きジェネレータの訓練に成功していることが示された。

We propose a conditional generative adversarial network (GAN) incorporating humans' perceptual evaluations. A deep neural network (DNN)-based generator of a GAN can represent a real-data distribution accurately but can never represent a human-acceptable distribution, which are ranges of data in which humans accept the naturalness regardless of whether the data are real or not. A HumanGAN was proposed to model the human-acceptable distribution. A DNN-based generator is trained using a human-based discriminator, i.e., humans' perceptual evaluations, instead of the GAN's DNN-based discriminator. However, the HumanGAN cannot represent conditional distributions. This paper proposes the HumanACGAN, a theoretical extension of the HumanGAN, to deal with conditional human-acceptable distributions. Our HumanACGAN trains a DNN-based conditional generator by regarding humans as not only a discriminator but also an auxiliary classifier. The generator is trained by deceiving the human-based discriminator that scores the unconditioned naturalness and the human-based classifier that scores the class-conditioned perceptual acceptability. The training can be executed using the backpropagation algorithm involving humans' perceptual evaluations. Our experimental results in phoneme perception demonstrate that our HumanACGAN can successfully train this conditional generator.
翻訳日:2021-02-10 03:53:57 公開日:2021-02-08
# (参考訳) 定Q変換を用いた非線形周波数ワープによる音声感情認識 [全文訳有]

Non-linear frequency warping using constant-Q transformation for speech emotion recognition ( http://arxiv.org/abs/2102.04029v1 )

ライセンス: CC BY 4.0
Premjeet Singh, Goutam Saha, Md Sahidullah(参考訳) 本研究では,音声感情認識のためのconstant-q変換(cqt)について検討する。 CQTに基づく時間周波数解析は、低い周波数で高い周波数分解能を持つ可変分光時間分解能を提供する。 音声信号の低周波領域は高周波領域よりも感情関連情報が多いため、cqtの低周波分解能は標準短時間フーリエ変換(stft)よりもserに有望である。 本稿では,ディープニューラルネットワーク(dnn)をバックエンド分類器として用いたsftとcqtに基づく短期音響特徴の比較分析を行う。 両方の機能で異なるパラメータを最適化します。 CQTベースの機能はSER実験においてSTFTベースのスペクトル特性よりも優れていた。 クロスコーポラ評価によるさらなる実験は、CQTベースのシステムがドメイン外のトレーニングデータによりより良い一般化を提供することを示している。

In this work, we explore the constant-Q transform (CQT) for speech emotion recognition (SER). The CQT-based time-frequency analysis provides variable spectro-temporal resolution with higher frequency resolution at lower frequencies. Since lower-frequency regions of speech signal contain more emotion-related information than higher-frequency regions, the increased low-frequency resolution of CQT makes it more promising for SER than standard short-time Fourier transform (STFT). We present a comparative analysis of short-term acoustic features based on STFT and CQT for SER with deep neural network (DNN) as a back-end classifier. We optimize different parameters for both features. The CQT-based features outperform the STFT-based spectral features for SER experiments. Further experiments with cross-corpora evaluation demonstrate that the CQT-based systems provide better generalization with out-of-domain training data.
翻訳日:2021-02-10 03:43:45 公開日:2021-02-08
# (参考訳) ガウス雑音と飽和下におけるスパース信号の再構成 [全文訳有]

Reconstruction of Sparse Signals under Gaussian Noise and Saturation ( http://arxiv.org/abs/2102.03975v1 )

ライセンス: CC BY 4.0
Shuvayan Banerjee, Radhe Srivastava, Ajit Rajwade(参考訳) ほとんどの圧縮センシングアルゴリズムは、ノイズ圧縮測定における飽和の影響を考慮しないが、飽和は既存のセンサーのダイナミックレンジの制限による重要な結果である。 飽和効果を扱う数少ないアルゴリズムは、飽和度測定を単に破棄するか、一様境界ノイズが与えられた飽和度測定(既知の飽和度閾値に基づく)と推定信号の一貫性を確保するために追加の制約を課す。 そこで本研究では,信号と飽和測定値とのある種の一貫性を確保するためのデータ忠実度関数を提案し,この関数を念入りに設計した確率関数の負対数として表現する。 我々の推定器は、ガウスノイズ(非有界)が測定値内でも機能する。 データ忠実度関数が凸であることを証明する。 さらに,制限された強い凸性の条件を満たすことを示し,推定器の性能上の上限を導出する。 また,本手法は, 様々な実験条件下で, ノイズや飽和測定による圧縮信号の回復に対して, 実験結果よりも優れた結果が得られることを示す。

Most compressed sensing algorithms do not account for the effect of saturation in noisy compressed measurements, though saturation is an important consequence of the limited dynamic range of existing sensors. The few algorithms that handle saturation effects either simply discard saturated measurements, or impose additional constraints to ensure consistency of the estimated signal with the saturated measurements (based on a known saturation threshold) given uniform-bounded noise. In this paper, we instead propose a new data fidelity function which is directly based on ensuring a certain form of consistency between the signal and the saturated measurements, and can be expressed as the negative logarithm of a certain carefully designed likelihood function. Our estimator works even in the case of Gaussian noise (which is unbounded) in the measurements. We prove that our data fidelity function is convex. We moreover, show that it satisfies the condition of Restricted Strong Convexity and thereby derive an upper bound on the performance of the estimator. We also show that our technique experimentally yields results superior to the state of the art under a wide variety of experimental settings, for compressive signal recovery from noisy and saturated measurements.
翻訳日:2021-02-10 03:33:53 公開日:2021-02-08
# (参考訳) 分子特性予測のためのグラフニューラルネットワークのハイパーパラメータ最適化に関する系統的比較 [全文訳有]

A Systematic Comparison Study on Hyperparameter Optimisation of Graph Neural Networks for Molecular Property Prediction ( http://arxiv.org/abs/2102.04283v1 )

ライセンス: CC BY 4.0
Yingfang Yuan, Wenjun Wang, Wei Pang(参考訳) グラフニューラルネットワーク(GNN)は、幅広いグラフ関連学習タスクに対して提案されている。 特に近年,分子特性の予測に応用されたGNNシステムが増えてきている。 しかし、理論上、GNNのハイパーパラメータ設定には無限の選択肢があり、計算コストを低く抑えるために適切なハイパーパラメータを選択することが直接的な障害である。 一方、多くの分子データセットのサイズは、典型的なディープラーニングアプリケーションにおける他の多くのデータセットよりもはるかに小さく、ほとんどのハイパーパラメータ最適化(HPO)方法は、分子ドメインにおけるそのような小さなデータセットの効率の観点から検討されていません。 本論文では,HPOとCMA-ESの2つの最新アルゴリズム(TPEとCMA-ES)の共通特徴と特異特徴を理論的に解析し,ベースラインとして用いるランダム検索(RS)との比較を行った。 分子特性予測のためのGNNのHPOに対するRS, TPE, CMA-ESの影響を調べるために, 様々な観点からMoeculeNetのいくつかのベンチマークで実験を行った。 実験の結果, RS, TPE, CMA-ESは異なる分子問題に対処する上で, 個々の利点があることがわかった。 最後に、私たちの研究は、化学および材料科学の分子機械学習問題に適用されるように、GNNに関するさらなる研究を動機づけると信じています。

Graph neural networks (GNNs) have been proposed for a wide range of graph-related learning tasks. In particular, in recent years there has been an increasing number of GNN systems that were applied to predict molecular properties. However, in theory, there are infinite choices of hyperparameter settings for GNNs, and a direct impediment is to select appropriate hyperparameters to achieve satisfactory performance with lower computational cost. Meanwhile, the sizes of many molecular datasets are far smaller than many other datasets in typical deep learning applications, and most hyperparameter optimization (HPO) methods have not been explored in terms of their efficiencies on such small datasets in molecular domain. In this paper, we conducted a theoretical analysis of common and specific features for two state-of-the-art and popular algorithms for HPO: TPE and CMA-ES, and we compared them with random search (RS), which is used as a baseline. Experimental studies are carried out on several benchmarks in MoleculeNet, from different perspectives to investigate the impact of RS, TPE, and CMA-ES on HPO of GNNs for molecular property prediction. In our experiments, we concluded that RS, TPE, and CMA-ES have their individual advantages in tackling different specific molecular problems. Finally, we believe our work will motivate further research on GNN as applied to molecular machine learning problems in chemistry and materials sciences.
翻訳日:2021-02-10 01:10:36 公開日:2021-02-08
# (参考訳) コントラスト学習におけるプライバシーリスクの定量化と緩和 [全文訳有]

Quantifying and Mitigating Privacy Risks of Contrastive Learning ( http://arxiv.org/abs/2102.04140v1 )

ライセンス: CC BY 4.0
Xinlei He and Yang Zhang(参考訳) データは、過去10年間に機械学習(ML)の開発を推進するための重要な要素です。 しかし、高品質なデータ、特にラベル付きデータはしばしば収集が困難で高価である。 大規模非ラベルデータを活用するために,コントラスト学習に代表される自己教師あり学習を導入する。 対照的な学習の目的は、トレーニングサンプルから得られた異なるビュー(例えば、データ拡張を通じて)を表現空間に近づけることであり、異なるビューは異なるサンプルからより遠ざかることである。 このようにして、対照的なモデルがデータサンプルの情報表現を生成することを学習し、それを下流のMLタスクの実行に使用する。 最近の研究では、機械学習モデルは様々なプライバシー攻撃に弱いことが示されている。 しかし、現在の取り組みのほとんどは教師付き学習で訓練されたモデルに集中している。 一方、データサンプルが対照的な学習で学習した情報表現は、深刻なプライバシーリスクを引き起こす可能性がある。 本稿では,メンバシップ推論と属性推論のレンズを通して,コントラスト学習の最初のプライバシー分析を行う。 実験の結果,コントラストモデルはメンバシップ推論攻撃に弱いが,教師付きモデルに比べて属性推論攻撃に弱いことが示された。 前者はコントラストモデルが過度に適合する傾向が低いことによるものであり、後者はデータサンプルを表現的に表現するコントラストモデルの能力によって引き起こされる。 そこで本研究では,対人訓練に頼った,初のプライバシー保護型コントラスト学習メカニズムであるTalosを提案する。 実験の結果,talosは,メンバシッププライバシとモデルユーティリティを維持しながら,コントラストモデルに対する属性推論のリスクを軽減できることがわかった。

Data is the key factor to drive the development of machine learning (ML) during the past decade. However, high-quality data, in particular labeled data, is often hard and expensive to collect. To leverage large-scale unlabeled data, self-supervised learning, represented by contrastive learning, is introduced. The objective of contrastive learning is to map different views derived from a training sample (e.g., through data augmentation) closer in their representation space, while different views derived from different samples more distant. In this way, a contrastive model learns to generate informative representations for data samples, which are then used to perform downstream ML tasks. Recent research has shown that machine learning models are vulnerable to various privacy attacks. However, most of the current efforts concentrate on models trained with supervised learning. Meanwhile, data samples' informative representations learned with contrastive learning may cause severe privacy risks as well. In this paper, we perform the first privacy analysis of contrastive learning through the lens of membership inference and attribute inference. Our experimental results show that contrastive models are less vulnerable to membership inference attacks but more vulnerable to attribute inference attacks compared to supervised models. The former is due to the fact that contrastive models are less prone to overfitting, while the latter is caused by contrastive models' capability of representing data samples expressively. To remedy this situation, we propose the first privacy-preserving contrastive learning mechanism, namely Talos, relying on adversarial training. Empirical results show that Talos can successfully mitigate attribute inference risks for contrastive models while maintaining their membership privacy and model utility.
翻訳日:2021-02-10 00:54:48 公開日:2021-02-08
# (参考訳) DeEPCA: 線形収束率を持つ分散排他的PCA [全文訳有]

DeEPCA: Decentralized Exact PCA with Linear Convergence Rate ( http://arxiv.org/abs/2102.03990v1 )

ライセンス: CC BY 4.0
Haishan Ye, Tong Zhang(参考訳) 弱い接続された計算ノードやセンサなどのスマートエージェントの急速な成長により、ローカルエージェント上で計算を行う分散アルゴリズムの開発が大きな研究方向となっている。 本稿では,データ分析に広く用いられている統計手法である分散主成分分析(PCA)の問題点について考察する。 通信コストを削減するためのサブスペーストラッキングと呼ばれる手法を導入し、パワーイテレーションに適用します。 これは、分散PCAアルゴリズムである \texttt{DeEPCA} につながり、このアルゴリズムは集中PCAと同様の収束速度を持ち、既存の分散PCAアルゴリズムの中で最高の通信複雑性を達成している。 texttt{DeEPCA} は最初の分散PCAアルゴリズムであり、目標精度とは無関係に、各電源イテレーションの通信ラウンド数である。 既存のアルゴリズムと比較して,提案手法は実際のチューニングが容易であり,全体の通信コストが向上する。 我々の実験は経験的に \texttt{deepca} の利点を検証する。

Due to the rapid growth of smart agents such as weakly connected computational nodes and sensors, developing decentralized algorithms that can perform computations on local agents becomes a major research direction. This paper considers the problem of decentralized Principal components analysis (PCA), which is a statistical method widely used for data analysis. We introduce a technique called subspace tracking to reduce the communication cost, and apply it to power iterations. This leads to a decentralized PCA algorithm called \texttt{DeEPCA}, which has a convergence rate similar to that of the centralized PCA, while achieving the best communication complexity among existing decentralized PCA algorithms. \texttt{DeEPCA} is the first decentralized PCA algorithm with the number of communication rounds for each power iteration independent of target precision. Compared to existing algorithms, the proposed method is easier to tune in practice, with an improved overall communication cost. Our experiments validate the advantages of \texttt{DeEPCA} empirically.
翻訳日:2021-02-10 00:35:31 公開日:2021-02-08
# (参考訳) Segmentasi Citra Menggunakan Metode Watershed Transform Berdasarkan Image Enhancement Dalam Mendeteksi Embrio Telur [全文訳有]

Segmentasi Citra Menggunakan Metode Watershed Transform Berdasarkan Image Enhancement Dalam Mendeteksi Embrio Telur ( http://arxiv.org/abs/2102.04202v1 )

ライセンス: CC BY 4.0
Shoffan Saifullah(参考訳) 画像処理は、卵胚の検出に適用することができる。 卵胚検出は、セグメンテーションプロセスを用いて処理される。 セグメンテーションは、分割された領域に応じて画像を分割する。 このプロセスには、最適な結果を得るために処理される画像の改善が必要です。 本研究では,画像エンハンスメントを用いた画像処理と流域法によるセグメンテーションの概念に基づき,卵胚の検出を解析する。 画像改善における前処理における画像強調には、Contrast Limited Adaptive Histogram Equalization (CLAHE) と Histogram Equalization (HE) を組み合わせている。 CLAHE法を用いて卵像のグレースケールを補正し、HEを用いて再処理する。 画像改善の結果,CLAHE-HE組み合わせ法は胚を持つ卵像の被写体面積の明瞭な画像を与えることが明らかとなった。 画像から白黒画像への変換と流域分割を用いたセグメンテーションプロセスは、胚を持つ鶏卵のオブジェクトを明確に示すことができる。 セグメンテーションの結果は、胚を持つ卵の面積を実質的かつ正確な方法で98.%の比率で分割することができる。

Image processing can be applied in the detection of egg embryos. The egg embryos detection is processed using a segmentation process. The segmentation divides the image according to the area that is divided. This process requires improvement of the image that is processed to obtain optimal results. This study will analyze the detection of egg embryos based on image processing with image enhancement and the concept of segmentation using the watershed method. Image enhancement in preprocessing in image improvement uses a combination of Contrast Limited Adaptive Histogram Equalization (CLAHE) and Histogram Equalization (HE) methods. The grayscale egg image is corrected using the CLAHE method, and the results are reprocessed using HE. The image improvement results show that the CLAHE-HE combination method gives a clear picture of the object area of the egg image that has an embryo. The segmentation process using image conversion to black and white image and watershed segmentation can clearly show the object of a chicken egg that has an embryo. The results of segmentation can divide the area of the egg having embryos in a real and accurate way with a percentage \approx 98\%.
翻訳日:2021-02-09 20:48:12 公開日:2021-02-08
# (参考訳) 協調知能のための潜時空間運動の解析 [全文訳有]

Analysis of Latent-Space Motion for Collaborative Intelligence ( http://arxiv.org/abs/2102.04018v1 )

ライセンス: CC BY 4.0
Mateen Ulhaq, Ivan V. Baji\'c(参考訳) ディープニューラルネットワーク(DNN)への入力がビデオ信号である場合、モデルの中間層で特徴テンソルのシーケンスが生成される。 入力ビデオの隣接するフレームが動きによって関連している場合、自然な質問は「対応する特徴テンソル間の関係は何ですか? 一般的なDNN動作が光学的流れに与える影響を解析することにより、特徴テンソルの各チャネルに存在する動きが入力運動のスケールされたバージョンとほぼ等しいことを示す。 この解析は、共通の運動モデルを用いた実験によって検証される。 これらの結果は、機能テンソルのシーケンスを圧縮またはさらに分析する必要があるコラボレーションインテリジェンスアプリケーションで有用です。

When the input to a deep neural network (DNN) is a video signal, a sequence of feature tensors is produced at the intermediate layers of the model. If neighboring frames of the input video are related through motion, a natural question is, "what is the relationship between the corresponding feature tensors?" By analyzing the effect of common DNN operations on optical flow, we show that the motion present in each channel of a feature tensor is approximately equal to the scaled version of the input motion. The analysis is validated through experiments utilizing common motion models. %These results will be useful in collaborative intelligence applications where sequences of feature tensors need to be compressed or further analyzed.
翻訳日:2021-02-09 20:27:17 公開日:2021-02-08
# (参考訳) 学習と忘れ方を考慮した人工教師の改良 [全文訳有]

Improving Artificial Teachers by Considering How People Learn and Forget ( http://arxiv.org/abs/2102.04174v1 )

ライセンス: CC BY-SA 4.0
Aur\'elien Nioche, Pierre-Alexandre Murena, Carlos de la Torre-Ortiz, Antti Oulasvirta(参考訳) 本稿では,知的指導のための新しいモデルベース手法,特に人間とのインタラクションにおける指導介入の選択の問題について述べる。 従来の研究は、指導のパーソナライズと介入順序の最適化に重点を置いてきたが、提案する個別化モデルに基づく計画手法は、これら2つの研究系統の収束を表している。 モデルベースプランニングは、ユーザメモリモデルのパラメータのインタラクティブな学習を通じて最適な介入を選択する。 このアプローチは、リコール/フォーゲッティングに関連する重要な個人的および物質特有の特徴を考慮し、ユーザのプラクティススケジュールを考慮に入れた計画手法を取り入れた認知モデルの使用において、新しいものである。 ルールベースのアプローチをベースラインとして,第2言語語彙学習(n=53)における人工学習の制御研究において,本手法の利点を評価した。

The paper presents a novel model-based method for intelligent tutoring, with particular emphasis on the problem of selecting teaching interventions in interaction with humans. Whereas previous work has focused on either personalization of teaching or optimization of teaching intervention sequences, the proposed individualized model-based planning approach represents convergence of these two lines of research. Model-based planning picks the best interventions via interactive learning of a user memory model's parameters. The approach is novel in its use of a cognitive model that can account for several key individual- and material-specific characteristics related to recall/forgetting, along with a planning technique that considers users' practice schedules. Taking a rule-based approach as a baseline, the authors evaluated the method's benefits in a controlled study of artificial teaching in second-language vocabulary learning (N=53).
翻訳日:2021-02-09 19:35:13 公開日:2021-02-08
# (参考訳) STAN:次の位置勧告のための時空間アテンションネットワーク [全文訳有]

STAN: Spatio-Temporal Attention Network for Next Location Recommendation ( http://arxiv.org/abs/2102.04095v1 )

ライセンス: CC BY 4.0
Yingtao Luo, Qiang Liu, Zhaocheng Liu(参考訳) 次のロケーションレコメンデーションは、さまざまなロケーションベースのアプリケーションの中核にある。 現在の最先端モデルでは、階層的なグリッド化と明示的な時間間隔による時間的関係のモデルによる空間空間の疎結合の解決が試みられているが、いくつかの重要な問題は未解決のままである。 非隣接位置と非連続訪問は、ユーザの行動を理解するために非自明な相関を与えるが、まれに考慮される。 ユーザ軌道からのすべての関連する訪問を集約し、重み付けされた表現から最も有効な候補をリコールするために、位置推薦のための時空間注意ネットワーク(STAN)を提案する。 STANは、軌道に沿って自己注意層を持つ全てのチェックインの相対時空間情報を明示的に活用する。 この改善により、非隣接位置と非連続チェックインの間のポイント・ツー・ポイントの相互作用が可能になり、時空間効果が明らかになる。 STANは、まずユーザー軌道内の時空間相関を集約し、パーソナライズされたアイテム頻度(PIF)を考慮してターゲットをリコールする二層的注意アーキテクチャを使用します。 可視化により,STANは上記の直観と一致していることを示す。 実験結果は、我々のモデルが既存の最新手法を9-17%上回ることを示した。

The next location recommendation is at the core of various location-based applications. Current state-of-the-art models have attempted to solve spatial sparsity with hierarchical gridding and model temporal relation with explicit time intervals, while some vital questions remain unsolved. Non-adjacent locations and non-consecutive visits provide non-trivial correlations for understanding a user's behavior but were rarely considered. To aggregate all relevant visits from user trajectory and recall the most plausible candidates from weighted representations, here we propose a Spatio-Temporal Attention Network (STAN) for location recommendation. STAN explicitly exploits relative spatiotemporal information of all the check-ins with self-attention layers along the trajectory. This improvement allows a point-to-point interaction between non-adjacent locations and non-consecutive check-ins with explicit spatiotemporal effect. STAN uses a bi-layer attention architecture that firstly aggregates spatiotemporal correlation within user trajectory and then recalls the target with consideration of personalized item frequency (PIF). By visualization, we show that STAN is in line with the above intuition. Experimental results unequivocally show that our model outperforms the existing state-of-the-art methods by 9-17%.
翻訳日:2021-02-09 19:18:33 公開日:2021-02-08
# (参考訳) 自然界にインスパイアされた最適化アルゴリズム:研究方向と調査

Nature-Inspired Optimization Algorithms: Research Direction and Survey ( http://arxiv.org/abs/2102.04013v1 )

ライセンス: CC BY 4.0
Sachan Rohit Kumar and Kushwaha Dharmender Singh(参考訳) 自然発のアルゴリズムは、様々な最適化問題を解決するためによく使われる。 過去数十年間、さまざまな研究者が自然由来のアルゴリズムを多数提案してきました。 これらのアルゴリズムのいくつかは他の古典的最適化法と比べて非常に効率的であることが証明されている。 自然にインスパイアされたアルゴリズムを使って問題を解こうとする若い研究者は、現在存在する多くの提案に悩まされている。 すべてのアルゴリズムがあらゆる種類の問題に適合するわけではない。 他よりも得点が多い。 本稿では,新たな参加者が容易に旅路を理解できるように,様々な先進的な研究提案を要約する試みを行っている。 ここでは、自然由来のアルゴリズムを自然進化ベース、群知能ベース、生物学的ベース、科学ベースなどとして分類します。 本調査では、ACO, ABC, EAM, FA, FPA, GA, GSA, JAYA, PSO, SFLA, TLBO, WCAといった自然発のアルゴリズムが広く認められている。 本研究の目的は,そのインスピレーション源,基本操作者,制御パラメータ,特徴量,変種,応用範囲に基づいて,様々な自然に触発されたアルゴリズムを徹底的に解析することである。 また、問題に最も適した方法論の特定と短いリスト作成にも役立ちます。

Nature-inspired algorithms are commonly used for solving the various optimization problems. In past few decades, various researchers have proposed a large number of nature-inspired algorithms. Some of these algorithms have proved to be very efficient as compared to other classical optimization methods. A young researcher attempting to undertake or solve a problem using nature-inspired algorithms is bogged down by a plethora of proposals that exist today. Not every algorithm is suited for all kinds of problem. Some score over others. In this paper, an attempt has been made to summarize various leading research proposals that shall pave way for any new entrant to easily understand the journey so far. Here, we classify the nature-inspired algorithms as natural evolution based, swarm intelligence based, biological based, science based and others. In this survey, widely acknowledged nature-inspired algorithms namely- ACO, ABC, EAM, FA, FPA, GA, GSA, JAYA, PSO, SFLA, TLBO and WCA, have been studied. The purpose of this review is to present an exhaustive analysis of various nature-inspired algorithms based on its source of inspiration, basic operators, control parameters, features, variants and area of application where these algorithms have been successfully applied. It shall also assist in identifying and short listing the methodologies that are best suited for the problem.
翻訳日:2021-02-09 19:03:56 公開日:2021-02-08
# (参考訳) メタディスカバリー: 限られたデータから新しいクラスを見つけるための学習 [全文訳有]

Meta Discovery: Learning to Discover Novel Classes given Very Limited Data ( http://arxiv.org/abs/2102.04002v1 )

ライセンス: CC BY 4.0
Haoang Chi and Feng Liu and Wenjing Yang and Long Lan and Tongliang Liu and Gang Niu and Bo Han(参考訳) 新たなクラス(L2DNC)を学習するためには、見知らぬクラスのラベル付きデータと見つからないクラスのラベルなしデータを与え、見つからないクラスのクラスタリングモデルを訓練する必要がある。 L2DNCは新しい問題であるため、その適用シナリオと暗黙の仮定は不明である。 本稿では、メタトレーニングとメタテストのフェーズは存在しないが、基礎となる仮定はまったく同じであり、すなわち、目に見えないクラスと未知のクラス間で高レベルのセマンティクス機能が共有される。 この仮定の下では、L2DNCは理論的に解けるだけでなく、提案したフレームワークに適合するようにメタラーニングアルゴリズムをわずかに修正することで、経験的に解決できる。 このL2DNC手法は、トレーニングに必要なラベルなしデータの量を著しく削減し、実験で示されたように、より実用的なものにする。 非常に限られたデータの使用はまた、L2DNCのアプリケーションシナリオによって正当化されます。 unseenクラスのデータは、見知らぬクラスのデータ収集の途中で収集する必要があるため、最初にクラスタ化する必要がある。

In learning to discover novel classes(L2DNC), we are given labeled data from seen classes and unlabeled data from unseen classes, and we need to train clustering models for the unseen classes. Since L2DNC is a new problem, its application scenario and implicit assumption are unclear. In this paper, we analyze and improve it by linking it to meta-learning: although there are no meta-training and meta-test phases, the underlying assumption is exactly the same, namely high-level semantic features are shared among the seen and unseen classes. Under this assumption, L2DNC is not only theoretically solvable, but also can be empirically solved by meta-learning algorithms slightly modified to fit our proposed framework. This L2DNC methodology significantly reduces the amount of unlabeled data needed for training and makes it more practical, as demonstrated in experiments. The use of very limited data is also justified by the application scenario of L2DNC: since it is unnatural to label only seen-class data, L2DNC is causally sampling instead of labeling. The unseen-class data should be collected on the way of collecting seen-class data, which is why they are novel and first need to be clustered.
翻訳日:2021-02-09 19:01:14 公開日:2021-02-08
# (参考訳) 群集のひずみをつかむ:因果推論を用いた群集移動誘導の効果の推定 [全文訳有]

Grab the Reins of Crowds: Estimating the Effects of Crowd Movement Guidance Using Causal Inference ( http://arxiv.org/abs/2102.03980v1 )

ライセンス: CC BY 4.0
Koh Takeuchi:Ryo Nishida:Hisashi Kashima:Masaki Onishi(参考訳) 群衆移動指導は、異常なイベントにおける交通渋滞の緩和や緊急対応地域からの避難など、様々な分野で興味深い問題となっている。 群衆の足跡をつかむために、典型的な質問に答えることができる意思決定支援システムのためのかなりの需要がありました。 本稿では,過去のデータから群集移動指導の効果を推定する問題について考察する。 過去の意思決定者がバイアスする限られたデータ量に対処するために、空間データ分析と因果推論のための深層表現学習の2つの最近の技術を活用します。 空間畳み込み演算子を用いて、少数のデータから群衆の効果的な空間的特徴を抽出し、積分確率指標に基づくバランスの取れた表現学習を用いて、選択バイアスと非現実的結果の軽減を図る。 劇場の避難シナリオに関する現実的なデータを生成するために,多エージェントシミュレータを用いて誘導可能な誘導の処理効果を推定する性能を評価するため,観客の移動誘導の成果を記録するデータセットが存在しないため,混雑劇場における避難シナリオの現実的なデータを生成する。 3つの実験の結果,提案手法は最先端手法から推定誤差を最大56%低減できることが判明した。

Crowd movement guidance has been a fascinating problem in various fields, such as easing traffic congestion in unusual events and evacuating people from an emergency-affected area. To grab the reins of crowds, there has been considerable demand for a decision support system that can answer a typical question: ``what will be the outcomes of each of the possible options in the current situation. In this paper, we consider the problem of estimating the effects of crowd movement guidance from past data. To cope with limited amount of available data biased by past decision-makers, we leverage two recent techniques in deep representation learning for spatial data analysis and causal inference. We use a spatial convolutional operator to extract effective spatial features of crowds from a small amount of data and use balanced representation learning based on the integral probability metrics to mitigate the selection bias and missing counterfactual outcomes. To evaluate the performance on estimating the treatment effects of possible guidance, we use a multi-agent simulator to generate realistic data on evacuation scenarios in a crowded theater, since there are no available datasets recording outcomes of all possible crowd movement guidance. The results of three experiments demonstrate that our proposed method reduces the estimation error by at most 56% from state-of-the-art methods.
翻訳日:2021-02-09 18:42:58 公開日:2021-02-08
# (参考訳) 多時期都市開発スペースネットデータセット [全文訳有]

The Multi-Temporal Urban Development SpaceNet Dataset ( http://arxiv.org/abs/2102.04420v1 )

ライセンス: CC BY-SA 4.0
Adam Van Etten, Daniel Hogan, Jesus Martinez-Manso, Jacob Shermeyer, Nicholas Weir, Ryan Lewis(参考訳) 衛星画像解析は、特に時系列手法が関与する場合に、多くの人的開発や災害対応の応用をもたらす。 例えば、人口統計の定量化は、国連持続可能な開発目標指標231の67に基本的であるが、世界銀行は100か国以上に現在、効果的な市民登録制度が欠けていると推定している。 この欠点に対処し、時系列データのための新しいコンピュータビジョン手法を開発するために、Multi-Temporal Urban Development SpaceNet(MUDS, SpaceNet 7)データセットを提示する。 このオープンソースのデータセットは、中分解能(4.0m)の衛星画像モザイクで構成されており、100以上のユニークな地形をカバーする24の画像(月1枚)と、建物の足跡の4万km2以上の多角形のラベルで構成されており、合計で1100万個以上のアノテーションがある。 各建物にはユニークな識別子(すなわち)が割り当てられる。 アドレス(address)は、時間とともに個々のオブジェクトのトラッキングを可能にする。 ラベルの忠実度は画像の解像度を超え、この「万能なラベル付け」はデータセットのユニークな特徴であり、驚くほど正確なアルゴリズムモデルを作成することができる。 都市化を直接評価し, 建物フットプリント構築(あるいは解体)を経時的に追跡する方法を実証する。 性能は、新しく開発されたSpaceNet Change and Object Tracking(SCOT)メトリックで測定され、オブジェクト追跡と変更検出の両方を定量化する。 データの適度な分解性にもかかわらず、時間とともに個々のビルディング識別子を追跡できることを実証する。 この課題は, 防災, 環境, インフラ整備, 防災に幅広い影響を及ぼす。

Satellite imagery analytics have numerous human development and disaster response applications, particularly when time series methods are involved. For example, quantifying population statistics is fundamental to 67 of the 231 United Nations Sustainable Development Goals Indicators, but the World Bank estimates that over 100 countries currently lack effective Civil Registration systems. To help address this deficit and develop novel computer vision methods for time series data, we present the Multi-Temporal Urban Development SpaceNet (MUDS, also known as SpaceNet 7) dataset. This open source dataset consists of medium resolution (4.0m) satellite imagery mosaics, which includes 24 images (one per month) covering >100 unique geographies, and comprises >40,000 km2 of imagery and exhaustive polygon labels of building footprints therein, totaling over 11M individual annotations. Each building is assigned a unique identifier (i.e. address), which permits tracking of individual objects over time. Label fidelity exceeds image resolution; this "omniscient labeling" is a unique feature of the dataset, and enables surprisingly precise algorithmic models to be crafted. We demonstrate methods to track building footprint construction (or demolition) over time, thereby directly assessing urbanization. Performance is measured with the newly developed SpaceNet Change and Object Tracking (SCOT) metric, which quantifies both object tracking as well as change detection. We demonstrate that despite the moderate resolution of the data, we are able to track individual building identifiers over time. This task has broad implications for disaster preparedness, the environment, infrastructure development, and epidemic prevention.
翻訳日:2021-02-09 16:58:05 公開日:2021-02-08
# (参考訳) Few-shot Learningによるエンドツーエンドジェネラティブゼロショット学習 [全文訳有]

End-to-end Generative Zero-shot Learning via Few-shot Learning ( http://arxiv.org/abs/2102.04379v1 )

ライセンス: CC BY 4.0
Georgios Chochlakis, Efthymios Georgiou, Alexandros Potamianos(参考訳) ゼロショット学習(ZSL)の現代的最先端アプローチでは、生成ネットをトレーニングし、提供されたメタデータに条件付き例を合成する。 その後、これらの合成データに基づいて分類器を教師付きで訓練する。 本研究では,このようなアプローチをバックボーンとして使用し,合成した出力をFew-Shot Learning (FSL)アルゴリズムに供給する,エンドツーエンドのZSL生成フレームワークであるZ2FSLを紹介する。 2つのモジュールは共同で訓練される。 Z2FSL は、ZSL を FSL アルゴリズムで解き、ZSL を FSL に還元する。 幅広い種類のアルゴリズムをフレームワークに統合することができます。 実験の結果,複数のベースラインに対して一貫した改善が得られた。 提案手法は標準ベンチマークで評価され,ZSLおよび一般化ZSLタスクにおける最先端あるいは競争性能を示す。

Contemporary state-of-the-art approaches to Zero-Shot Learning (ZSL) train generative nets to synthesize examples conditioned on the provided metadata. Thereafter, classifiers are trained on these synthetic data in a supervised manner. In this work, we introduce Z2FSL, an end-to-end generative ZSL framework that uses such an approach as a backbone and feeds its synthesized output to a Few-Shot Learning (FSL) algorithm. The two modules are trained jointly. Z2FSL solves the ZSL problem with a FSL algorithm, reducing, in effect, ZSL to FSL. A wide class of algorithms can be integrated within our framework. Our experimental results show consistent improvement over several baselines. The proposed method, evaluated across standard benchmarks, shows state-of-the-art or competitive performance in ZSL and Generalized ZSL tasks.
翻訳日:2021-02-09 16:43:48 公開日:2021-02-08
# 画像分類器のパッチ攻撃に対する効率的な認証防御

Efficient Certified Defenses Against Patch Attacks on Image Classifiers ( http://arxiv.org/abs/2102.04154v1 )

ライセンス: Link先を確認
Jan Hendrik Metzen, Maksym Yatsura(参考訳) 敵のパッチは、認識コンポーネントを介して自律システムに対する物理的な世界攻撃の現実的な脅威モデルとなる。 したがって、自動運転のような安全クリティカルドメインの自律システムは、クリーンな入力で高性能を維持しながら、パッチに対する検証可能な堅牢性と効率的な推論を組み合わせたフェイルセーフフォールバックコンポーネントを含むべきです。 本稿では,モデルアーキテクチャと認証手順の新たな組み合わせであるBagCertを提案する。 私たちは、異なるサイズと場所のパッチに対する認定堅牢性のエンドツーエンド最適化を可能にする損失を導き出します。 CIFAR10では、BagCertは単一のGPU上で43秒で10.000のサンプルを認証し、5x5パッチに対して86%のクリーンで60%の認定精度を得ます。

Adversarial patches pose a realistic threat model for physical world attacks on autonomous systems via their perception component. Autonomous systems in safety-critical domains such as automated driving should thus contain a fail-safe fallback component that combines certifiable robustness against patches with efficient inference while maintaining high performance on clean inputs. We propose BagCert, a novel combination of model architecture and certification procedure that allows efficient certification. We derive a loss that enables end-to-end optimization of certified robustness against patches of different sizes and locations. On CIFAR10, BagCert certifies 10.000 examples in 43 seconds on a single GPU and obtains 86% clean and 60% certified accuracy against 5x5 patches.
翻訳日:2021-02-09 16:13:58 公開日:2021-02-08
# 生成と修正: 神経詩における強化学習

Generate and Revise: Reinforcement Learning in Neural Poetry ( http://arxiv.org/abs/2102.04114v1 )

ライセンス: Link先を確認
Andrea Zugarini, Luca Pasqualini, Stefano Melacci, Marco Maggini(参考訳) 作家、詩人、歌手は通常、一息で作曲を作成することはありません。 テキストは、著者が表現したい意味、感情、感情をよりよく伝えるために、再訪、調整、修正、修正、繰り返し、さらには何度も繰り返される。 貴重な芸術の中で、詩はおそらく、構成が正式に事前定義されたメーターとリズムスキームを尊重しなければならないので、最も精巧にする必要があります。 本稿では,人間と同じように繰り返し再訪・修正された詩を生成・生成し,全体の品質を向上させるための枠組みを提案する。 本稿では,強化学習の文脈における詩の改訂の問題,特に親密な政策最適化を用いて考察する。 本モデルでは,スクラッチから詩を生成するとともに,対象の基準に合わせるために,生成したテキストを段階的に調整する。 本手法は,韻文作成にどの単語が責任があるのか,詩文のコヒーレントな変更の仕方などを知ることなく,韻文体系と一致する場合において評価する。 提案フレームワークは汎用的であり,適切な報酬整形を行うことで,他のテキスト生成問題にも適用できる。

Writers, poets, singers usually do not create their compositions in just one breath. Text is revisited, adjusted, modified, rephrased, even multiple times, in order to better convey meanings, emotions and feelings that the author wants to express. Amongst the noble written arts, Poetry is probably the one that needs to be elaborated the most, since the composition has to formally respect predefined meter and rhyming schemes. In this paper, we propose a framework to generate poems that are repeatedly revisited and corrected, as humans do, in order to improve their overall quality. We frame the problem of revising poems in the context of Reinforcement Learning and, in particular, using Proximal Policy Optimization. Our model generates poems from scratch and it learns to progressively adjust the generated text in order to match a target criterion. We evaluate this approach in the case of matching a rhyming scheme, without having any information on which words are responsible of creating rhymes and on how to coherently alter the poem words. The proposed framework is general and, with an appropriate reward shaping, it can be applied to other text generation problems.
翻訳日:2021-02-09 16:13:45 公開日:2021-02-08
# 逆ガイドアクタークリティック

Adversarially Guided Actor-Critic ( http://arxiv.org/abs/2102.04376v1 )

ライセンス: Link先を確認
Yannis Flet-Berliac and Johan Ferret and Olivier Pietquin and Philippe Preux and Matthieu Geist(参考訳) 深層強化学習問題の成功にもかかわらず、アクター-批判的アルゴリズムは依然として複雑な環境、特に効率的な探索がボトルネックであるタスクにおけるサンプル非効率に直面している。 これらの方法は、異なる動機とアプローチを使用してそれぞれの損失が構築される政策(俳優)と価値関数(批評家)を考慮します。 本稿では,第3の主人公である敵役を紹介する。 敵は、それぞれの行動分布の間のklのばらつきを最小化することでアクターを模倣するが、アクターは、そのタスクを解決するための学習に加えて、敵の予測と差別化しようとする。 この新しい目的は、以前の軌道から正しく予測できなかった戦略に従うように俳優を刺激し、報酬が非常にまれなタスクでその行動を革新的にします。 実験により,Adversarially Guided Actor-Critic (AGAC) アルゴリズムにより,より徹底的な探索が可能となった。 特にAGACは、様々なハードエクスプローラーと手続き的に生成されたタスクのセットで、現在の最先端のメソッドを上回っています。

Despite definite success in deep reinforcement learning problems, actor-critic algorithms are still confronted with sample inefficiency in complex environments, particularly in tasks where efficient exploration is a bottleneck. These methods consider a policy (the actor) and a value function (the critic) whose respective losses are built using different motivations and approaches. This paper introduces a third protagonist: the adversary. While the adversary mimics the actor by minimizing the KL-divergence between their respective action distributions, the actor, in addition to learning to solve the task, tries to differentiate itself from the adversary predictions. This novel objective stimulates the actor to follow strategies that could not have been correctly predicted from previous trajectories, making its behavior innovative in tasks where the reward is extremely rare. Our experimental analysis shows that the resulting Adversarially Guided Actor-Critic (AGAC) algorithm leads to more exhaustive exploration. Notably, AGAC outperforms current state-of-the-art methods on a set of various hard-exploration and procedurally-generat ed tasks.
翻訳日:2021-02-09 16:13:12 公開日:2021-02-08
# 展開サンプルからの未知未知数抽出によるモデル整流

Model Rectification via Unknown Unknowns Extraction from Deployment Samples ( http://arxiv.org/abs/2102.04145v1 )

ライセンス: Link先を確認
Bruno Abrahao, Zheng Wang, Haider Ahmed, Yuchen Zhu(参考訳) 不完全なトレーニングデータから生じるモデル不足は、コストのかかるエラーにつながる構造的盲点の一形態であり、しばしば高い信頼性を持つ。 分類タスクのトレーニング中に、与えられた仮説空間がモデルと対象空間の間のミスマッチの結果を認識することができるクラス条件分布を過小評価する。 そこで,本研究では,展開時のトレーニング後のモデル整合を監督的に行うための汎用アルゴリズムフレームワークとして,Random Test Sampling and Cross-Validation(RTS CV)を提案する。 RTSCVは未知の未知物(u.u.s)、すなわち分類器が不明瞭であるクラス条件分布の例を抽出し、多様な現代予測モデルと組み合わせて機能する。 RTSCVは、テストセット(またはデプロイメントデータ)のサンプルでトレーニングセットを拡張し、この再定義されたクラスレイアウトを使用して、クロスバリデーション(cross-validation)を通じてU.u.sを検出する。 我々は,現代の分類器の設計ベースに基づく性能保証を確立する理論的解析を行う。 実験により,各事前修正モデルから最大41%の性能ギャップを減らし,7つのベンチマーク表とコンピュータビジョンデータセットを用いてRTSCVの有効性を実証した。 最後に、RTSCVは最先端のアプローチよりも一貫して優れていることを示す。

Model deficiency that results from incomplete training data is a form of structural blindness that leads to costly errors, oftentimes with high confidence. During the training of classification tasks, underrepresented class-conditional distributions that a given hypothesis space can recognize results in a mismatch between the model and the target space. To mitigate the consequences of this discrepancy, we propose Random Test Sampling and Cross-Validation (RTSCV) as a general algorithmic framework that aims to perform a post-training model rectification at deployment time in a supervised way. RTSCV extracts unknown unknowns (u.u.s), i.e., examples from the class-conditional distributions that a classifier is oblivious to, and works in combination with a diverse family of modern prediction models. RTSCV augments the training set with a sample of the test set (or deployment data) and uses this redefined class layout to discover u.u.s via cross-validation, without relying on active learning or budgeted queries to an oracle. We contribute a theoretical analysis that establishes performance guarantees based on the design bases of modern classifiers. Our experimental evaluation demonstrates RTSCV's effectiveness, using 7 benchmark tabular and computer vision datasets, by reducing a performance gap as large as 41% from the respective pre-rectification models. Last we show that RTSCV consistently outperforms state-of-the-art approaches.
翻訳日:2021-02-09 16:12:25 公開日:2021-02-08
# eigengame unloaded:ゲームプレイが最適化より優れている

EigenGame Unloaded: When playing games is better than optimizing ( http://arxiv.org/abs/2102.04152v1 )

ライセンス: Link先を確認
Ian Gemp and Brian McWilliams and Claire Vernade and Thore Graepel(参考訳) 我々は、最近提案されたeigendecompositionを競合ゲームと見なすeigengameをベースとする。 eigengameの更新はデータのミニバッチを使って計算すると偏りがあり、確率的設定における収束とより洗練された並列性を妨げる。 本研究では,EigenGameと同等な非偏見の確率的更新を提案し,より大きなサンプルサイズのデータセットの計算を可能にし,実験においてEigenGameを上回っている。 本稿では,大規模データセットの主成分を探索し,グラフのスペクトルクラスタリングを行う。 固有ゲームと最適化からゲームへのパースペクティブシフトの文脈で,提案するアップデートについて分析・検討する。

We build on the recently proposed EigenGame that views eigendecomposition as a competitive game. EigenGame's updates are biased if computed using minibatches of data, which hinders convergence and more sophisticated parallelism in the stochastic setting. In this work, we propose an unbiased stochastic update that is asymptotically equivalent to EigenGame, enjoys greater parallelism allowing computation on datasets of larger sample sizes, and outperforms EigenGame in experiments. We present applications to finding the principal components of massive datasets and performing spectral clustering of graphs. We analyze and discuss our proposed update in the context of EigenGame and the shift in perspective from optimization to games.
翻訳日:2021-02-09 16:12:00 公開日:2021-02-08
# 一部がすべてよりも優れている:フェーショット学習のための微調整戦略を再検討する

Partial Is Better Than All: Revisiting Fine-tuning Strategy for Few-shot Learning ( http://arxiv.org/abs/2102.03983v1 )

ライセンス: Link先を確認
Zhiqiang Shen and Zechun Liu and Jie Qin and Marios Savvides and Kwang-Ting Cheng(参考訳) 少数ショット学習の目的は、ラベルによる限られたサポートデータから見えないクラスを認識できる分類器を学ぶことです。 このタスクの一般的なプラクティスは、まずベースセットでモデルをトレーニングし、次に微調整(ここでの微調整手順は、ベースから新しいデータへの知識の転送として定義されます。 数ショットシナリオで転送することを学ぶ。 あるいはメタラーニング。 しかしながら、ベースクラスは、新しいセットと重複しないため、ベースモデルにおける知識の一部が、新しいクラスに偏っているか、有害である可能性があるため、ベースデータから知識全体を転送するだけでは最適ではない。 本稿では,基本モデル内の特定の層を凍結あるいは微調整することにより,部分的知識の伝達を提案する。 具体的には、保存された転送可能性の程度を制御するために微調整が選択された場合、レイヤーは異なる学習率が課されます。 再キャストするレイヤーと学習率の値を決定するために、ターゲット層を同時に特定し、個々の学習率を決定するのに効率的である進化的検索ベースの方法を紹介します。 CUBとmini-ImageNetの広範な実験を行い,提案手法の有効性を実証した。 メタラーニングと非メタベースのフレームワークで最先端のパフォーマンスを実現する。 さらに,本手法を従来の事前学習+微調整パラダイムに拡張し,一貫した改善を得る。

The goal of few-shot learning is to learn a classifier that can recognize unseen classes from limited support data with labels. A common practice for this task is to train a model on the base set first and then transfer to novel classes through fine-tuning (Here fine-tuning procedure is defined as transferring knowledge from base to novel data, i.e. learning to transfer in few-shot scenario.) or meta-learning. However, as the base classes have no overlap to the novel set, simply transferring whole knowledge from base data is not an optimal solution since some knowledge in the base model may be biased or even harmful to the novel class. In this paper, we propose to transfer partial knowledge by freezing or fine-tuning particular layer(s) in the base model. Specifically, layers will be imposed different learning rates if they are chosen to be fine-tuned, to control the extent of preserved transferability. To determine which layers to be recast and what values of learning rates for them, we introduce an evolutionary search based method that is efficient to simultaneously locate the target layers and determine their individual learning rates. We conduct extensive experiments on CUB and mini-ImageNet to demonstrate the effectiveness of our proposed method. It achieves the state-of-the-art performance on both meta-learning and non-meta based frameworks. Furthermore, we extend our method to the conventional pre-training + fine-tuning paradigm and obtain consistent improvement.
翻訳日:2021-02-09 16:10:54 公開日:2021-02-08
# 暗黙的注意による強化学習のための画素アンロック

Unlocking Pixels for Reinforcement Learning via Implicit Attention ( http://arxiv.org/abs/2102.04353v1 )

ライセンス: Link先を確認
Krzysztof Choromanski, Deepali Jain, Jack Parker-Holder, Xingyou Song, Valerii Likhosherstov, Anirban Santara, Aldo Pacchiano, Yunhao Tang, Adrian Weller(参考訳) 近年,視覚環境における強化学習(rl)エージェントの訓練に注目が集まっている。 これは、高次元やスプリアス相関による観測上の過剰フィッティングの可能性など、多くの課題をもたらす。 この2つの問題を解決するための有望なアプローチは、気晴らしがある場合でも、ハイパフォーマンスなポリシーを学ぶためのシンプルで効果的なフレームワークを提供するセルフアテンションボトルネックである。 しかし、注意のアーキテクチャのスケーラビリティが悪いため、これらの方法は、大きなパッチ(つまり小さな注意の行列)を使用して、低解像度の視覚入力を超えてスケールしません。 本稿では,近年,トランスフォーマーに有効であることが実証された新しい効率的な注意アルゴリズムを用いて,これら新しい手法をrl設定に適用できることを実証する。 これにより、注意ベースのコントローラーはより大きな視覚入力にスケールし、小さなパッチ、個々のピクセルの使用を容易にし、一般化を改善します。 さらに,角核理論を活用し,ハイブリッドランダム特徴量とソフトマックス注意を近似する新しい効率的なアルゴリズムを提案する。 視覚に基づくRLに注意を向ける場合,ハイブリッドランダム特徴が有望なアプローチであることを理論的,実証的に示す。

There has recently been significant interest in training reinforcement learning (RL) agents in vision-based environments. This poses many challenges, such as high dimensionality and potential for observational overfitting through spurious correlations. A promising approach to solve both of these problems is a self-attention bottleneck, which provides a simple and effective framework for learning high performing policies, even in the presence of distractions. However, due to poor scalability of attention architectures, these methods do not scale beyond low resolution visual inputs, using large patches (thus small attention matrices). In this paper we make use of new efficient attention algorithms, recently shown to be highly effective for Transformers, and demonstrate that these new techniques can be applied in the RL setting. This allows our attention-based controllers to scale to larger visual inputs, and facilitate the use of smaller patches, even individual pixels, improving generalization. In addition, we propose a new efficient algorithm approximating softmax attention with what we call hybrid random features, leveraging the theory of angular kernels. We show theoretically and empirically that hybrid random features is a promising approach when using attention for vision-based RL.
翻訳日:2021-02-09 16:10:29 公開日:2021-02-08
# 色変換器

Colorization Transformer ( http://arxiv.org/abs/2102.04432v1 )

ライセンス: Link先を確認
Manoj Kumar, Dirk Weissenborn, Nal Kalchbrenner(参考訳) 本稿では,多彩な高忠実度画像のカラー化のための新しい手法であるカラー化トランスフォーマーを提案する。 グレースケールの画像が与えられたら、色付けは3ステップで進む。 まず条件付き自己回帰変圧器を用いてグレースケール画像の低分解能粗色化を行う。 我々のアーキテクチャは、グレースケール入力を効果的に条件付きトランスフォーマー層を採用する。 その後の2つの完全並列ネットワークは、粗い色の低解像度画像を微細な高解像度画像に変換する。 着色変圧器からのサンプリングは、fid結果とメカニカルタークテストにおける人間の評価に基づいて、画像ネットの着色において、忠実度が以前の最先端を上回っている多様な着色を生成する。 驚くべきことに、60%以上のケースでは、人間の評価者は、地上の真実よりも3つの生成着色の中で最高評価を好みます。 Colorization Transformerのコードと事前訓練されたチェックポイントはhttps://github.com/g oogle-research/googl e-research/tree/mast er/coltranで公開されている。

We present the Colorization Transformer, a novel approach for diverse high fidelity image colorization based on self-attention. Given a grayscale image, the colorization proceeds in three steps. We first use a conditional autoregressive transformer to produce a low resolution coarse coloring of the grayscale image. Our architecture adopts conditional transformer layers to effectively condition grayscale input. Two subsequent fully parallel networks upsample the coarse colored low resolution image into a finely colored high resolution image. Sampling from the Colorization Transformer produces diverse colorings whose fidelity outperforms the previous state-of-the-art on colorising ImageNet based on FID results and based on a human evaluation in a Mechanical Turk test. Remarkably, in more than 60% of cases human evaluators prefer the highest rated among three generated colorings over the ground truth. The code and pre-trained checkpoints for Colorization Transformer are publicly available at https://github.com/g oogle-research/googl e-research/tree/mast er/coltran
翻訳日:2021-02-09 16:10:09 公開日:2021-02-08
# DEFT: エンタングルドファクターの蒸留

DEFT: Distilling Entangled Factors ( http://arxiv.org/abs/2102.03986v1 )

ライセンス: Link先を確認
Jiantao Wu, Lin Wang, Chunxiuzi Liu(参考訳) 絡み合いは、人間の理解と推論との類似性から非常に望ましい表現特性である。 しかし、現在の束縛アプローチのパフォーマンスはまだ信頼性がなく、主にハイパーパラメータの選択に依存します。 化学における分数蒸留に着想を得て,変分オートエンコーダに基づく不等角化アプローチの限界を低くするために,不等角化フレームワークdeftを提案する。 それは段階蒸留の絡み合った要因によって段階に学習率および部分的な束縛圧力の複数のグループのエンコーダを含む多段階の訓練の戦略を適用します。 さらに,情報しきい値に応じてハイパーパラメータを識別する知見を提供する。 DEFTをdSpriteとSmallNORBの3種類で評価し、堅牢で高レベルの非絡みスコアを示します。

Disentanglement is a highly desirable property of representation due to its similarity with human understanding and reasoning. However, the performance of current disentanglement approaches is still unreliable and largely depends on the hyperparameter selection. Inspired by fractional distillation in chemistry, we propose DEFT, a disentanglement framework, to raise the lower limit of disentanglement approaches based on variational autoencoder. It applies a multi-stage training strategy, including multi-group encoders with different learning rates and piecewise disentanglement pressure, to stage by stage distill entangled factors. Furthermore, we provide insight into identifying the hyperparameters according to the information thresholds. We evaluate DEFT on three variants of dSprite and SmallNORB, showing robust and high-level disentanglement scores.
翻訳日:2021-02-09 16:08:05 公開日:2021-02-08
# 敵対的サンプル生成のための深層学習モデルの爆発的不確実性

Exploiting epistemic uncertainty of the deep learning models to generate adversarial samples ( http://arxiv.org/abs/2102.04150v1 )

ライセンス: Link先を確認
Omer Faruk Tuna, Ferhat Ozgur Catak, M. Taner Eskil(参考訳) ディープニューラルネットワークアーキテクチャはランダムな摂動に対して堅牢であると考えられている。 それにもかかわらず、これらはわずかながら慎重に作られた入力の摂動に対して深刻な脆弱性があることが示され、敵のサンプルとして扱われた。 近年、新たな敵攻撃を考案し、より堅牢なDNNアーキテクチャでこれらの攻撃を防御する「敵機械学習」と呼ばれる領域で多くの研究がなされている。 しかし、これまでのほとんどの研究成果は、モデル損失機能を利用して、逆例を作成したり、堅牢なモデルを作成することに集中しています。 本研究は,モンテカルロのドロップアウトサンプリングから得られた定量化した認識不確かさを,モデルがこれまで見たことのない領域に入力を摂動させる敵対的攻撃に利用することを検討するものである。 モデルの特徴不確実性に基づく新たな攻撃アイデアを提案しました。 本研究では,MNIST Digit,MNIST Fashion,CIFAR-10データセットの攻撃成功率を82.59%から85.40%,82.86%から89.92%,88.06%から90.03%に向上させた。

Deep neural network architectures are considered to be robust to random perturbations. Nevertheless, it was shown that they could be severely vulnerable to slight but carefully crafted perturbations of the input, termed as adversarial samples. In recent years, numerous studies have been conducted in this new area called "Adversarial Machine Learning" to devise new adversarial attacks and to defend against these attacks with more robust DNN architectures. However, almost all the research work so far has been concentrated on utilising model loss function to craft adversarial examples or create robust models. This study explores the usage of quantified epistemic uncertainty obtained from Monte-Carlo Dropout Sampling for adversarial attack purposes by which we perturb the input to the areas where the model has not seen before. We proposed new attack ideas based on the epistemic uncertainty of the model. Our results show that our proposed hybrid attack approach increases the attack success rates from 82.59% to 85.40%, 82.86% to 89.92% and 88.06% to 90.03% on MNIST Digit, MNIST Fashion and CIFAR-10 datasets, respectively.
翻訳日:2021-02-09 16:07:52 公開日:2021-02-08
# 対物的コンテキスト的マルチアーマッドバンド:Apple病のリアルタイム診断への応用

Counterfactual Contextual Multi-Armed Bandit: a Real-World Application to Diagnose Apple Diseases ( http://arxiv.org/abs/2102.04214v1 )

ライセンス: Link先を確認
Gabriele Sottocornola, Fabio Stella, Markus Zanker(参考訳) リンゴの収穫後の病気は、リンゴ生産の経済部門で大きな問題の1つであり、生産者に深刻な経済的損失をもたらした。 そこで我々は,apple 病の診断を支援する画像ベースの意思決定支援システム dssapple を開発した。 具体的には,システムとの過去のインタラクションと文脈情報(すなわち,文脈情報)を活用することで,最適な診断を順次最適化する問題に対処する。 ユーザーによって提供される証拠)。 オンラインモデルを学習し、その結果を最適化する問題は、確率的アクティブラーニングパラダイム、すなわち、文献で一般的に扱われる。 CMAB (Contextual Multi-Armed Bandit) の略。 この方法論は、各ラウンドで提供されるコンテキストに関する過去のインタラクションの成功を考慮して、意思決定モデルをインタラクティブに更新する。 しかし、この情報は非常に頻繁に部分的で、そのような複雑な意思決定の問題に対処するのに不十分です。 一方、人間の決定には暗黙的に、人間の最終的な決定に大きく貢献する不観測要因(未観察の共創者として文献で言及される)が含まれる。 本稿では,観察された人間の判断に埋め込まれた情報を利用して,境界要因を疎外し,CMABモデルの有効性を向上し,適切な診断を行う。 具体的には,反事実の因果概念に基づく反事実的文脈的多武装バンディットモデルを提案する。 提案モデルは,アプリケーションに関する大規模なユーザ調査を通じて収集されたデータに基づいて,オフライン実験により検証される。 その結果,本モデルは従来のcmabアルゴリズムと観察したユーザの判断を上回ることができ,正確なapple病の予測を実世界で行うことができた。

Post-harvest diseases of apple are one of the major issues in the economical sector of apple production, causing severe economical losses to producers. Thus, we developed DSSApple, a picture-based decision support system able to help users in the diagnosis of apple diseases. Specifically, this paper addresses the problem of sequentially optimizing for the best diagnosis, leveraging past interactions with the system and their contextual information (i.e. the evidence provided by the users). The problem of learning an online model while optimizing for its outcome is commonly addressed in the literature through a stochastic active learning paradigm - i.e. Contextual Multi-Armed Bandit (CMAB). This methodology interactively updates the decision model considering the success of each past interaction with respect to the context provided in each round. However, this information is very often partial and inadequate to handle such complex decision making problems. On the other hand, human decisions implicitly include unobserved factors (referred in the literature as unobserved confounders) that significantly contribute to the human's final decision. In this paper, we take advantage of the information embedded in the observed human decisions to marginalize confounding factors and improve the capability of the CMAB model to identify the correct diagnosis. Specifically, we propose a Counterfactual Contextual Multi-Armed Bandit, a model based on the causal concept of counterfactual. The proposed model is validated with offline experiments based on data collected through a large user study on the application. The results prove that our model is able to outperform both traditional CMAB algorithms and observed user decisions, in real-world tasks of predicting the correct apple disease.
翻訳日:2021-02-09 16:07:25 公開日:2021-02-08
# 最悪の場合の報酬のための一連のポリシーを発見する

Discovering a set of policies for the worst case reward ( http://arxiv.org/abs/2102.04323v1 )

ライセンス: Link先を確認
Tom Zahavy, Andre Barreto, Daniel J Mankowitz, Shaobo Hou, Brendan O'Donoghue, Iurii Kemaev and Satinder Baveja Singh(参考訳) 我々は、強化学習タスクの集合を解決するために一緒に構成できる一連のポリシーを構築する方法の問題を研究します。 各タスクは、既知の機能の線形結合として定義される異なる報酬関数である。 一組のポリシーと一組のタスクが与えられた場合、SIPは前者の任意の構成であり、その性能はすべてのタスクにまたがる構成員のそれと同程度である。 我々は,SIPs,set-max Policy (SMPs)の最も保守的なインスタンス化に注目し,分析を任意のSIPにまで拡張する。 これには、一般的な政策改善のような既知の政策構成演算子が含まれる。 我々の主な貢献は、タスクセットにおける結果のSMPの最悪のパフォーマンスを最大化するためにポリシーセットを構築するポリシー反復アルゴリズムである。 このアルゴリズムは、セットに新しいポリシーを順次追加することで動作する。 結果,SMPの最悪の性能は各イテレーションで厳格に向上し,性能改善につながるポリシーが存在しない場合にのみアルゴリズムが停止することを示す。 我々は、グリッドの世界およびdeepmindコントロールスイートの一連のドメイン上で、経験的にアルゴリズムを評価する。 我々は,アルゴリズムの単調な性能向上に関する理論的結果を確認する。 興味深いことに、アルゴリズムによって計算されるポリシーの集合は多様であり、グリッドの世界における異なる軌道と制御スイートにおける非常に異なる移動スキルに繋がる。

We study the problem of how to construct a set of policies that can be composed together to solve a collection of reinforcement learning tasks. Each task is a different reward function defined as a linear combination of known features. We consider a specific class of policy compositions which we call set improving policies (SIPs): given a set of policies and a set of tasks, a SIP is any composition of the former whose performance is at least as good as that of its constituents across all the tasks. We focus on the most conservative instantiation of SIPs, set-max policies (SMPs), so our analysis extends to any SIP. This includes known policy-composition operators like generalized policy improvement. Our main contribution is a policy iteration algorithm that builds a set of policies in order to maximize the worst-case performance of the resulting SMP on the set of tasks. The algorithm works by successively adding new policies to the set. We show that the worst-case performance of the resulting SMP strictly improves at each iteration, and the algorithm only stops when there does not exist a policy that leads to improved performance. We empirically evaluate our algorithm on a grid world and also on a set of domains from the DeepMind control suite. We confirm our theoretical results regarding the monotonically improving performance of our algorithm. Interestingly, we also show empirically that the sets of policies computed by the algorithm are diverse, leading to different trajectories in the grid world and very distinct locomotion skills in the control suite.
翻訳日:2021-02-09 16:06:37 公開日:2021-02-08
# 分布ロバストなレベルセット推定のためのアクティブラーニング

Active learning for distributionally robust level-set estimation ( http://arxiv.org/abs/2102.04000v1 )

ライセンス: Link先を確認
Yu Inatsu, Shogo Iwazaki, Ichiro Takeuchi(参考訳) 評価コストの高いブラックボックス関数 $f$ は、2種類の変数 $\bm x$ と $\bm w$ に依存しており、$\bm x$ は制御可能な \emph{design} 変数であり、$\bm w$ は制御不能な \emph{environmental} 変数であり、特定の分布に従えばランダムな変動を持つ変数である。 このような場合、重要なタスクは、環境変数 $\bm w$ のランダムな変動を組み込むことにより、関数 $f(\bm x, \bm w)$ が所望の性質を持つような設計変数 $\bm x$ の範囲を見つけることである。 堅牢性の自然な測度は、$f(\bm x, \bm w)$ が与えられたしきい値 $h$ を超える確率であり、これは堅牢最適化に関する文献における \emph{probability threshold robustness} (PTR) 測度として知られている。 しかし、このロバストネス測度は、分布が$P$が未知であるときに正しく評価できない。 本研究では,各候補分布における最悪のPTRを考慮したDRPTR(textit{distributionally robust PTR})測度を考慮し,この問題に対処する。 具体的には、DRPTR測度が所望の確率 $\alpha$ を超える領域として定義される信頼できる集合 $H$ を効率的に特定する問題を研究し、DRPTR のレベルセット推定 (LSE) 問題として解釈することができた。 本稿では,この問題に対する理論的根拠と計算効率のよいアクティブラーニング手法を提案する。 提案手法は収束と精度を理論的に保証し,提案手法が既存の手法よりも優れていることを数値実験により確認した。

Many cases exist in which a black-box function $f$ with high evaluation cost depends on two types of variables $\bm x$ and $\bm w$, where $\bm x$ is a controllable \emph{design} variable and $\bm w$ are uncontrollable \emph{environmental} variables that have random variation following a certain distribution $P$. In such cases, an important task is to find the range of design variables $\bm x$ such that the function $f(\bm x, \bm w)$ has the desired properties by incorporating the random variation of the environmental variables $\bm w$. A natural measure of robustness is the probability that $f(\bm x, \bm w)$ exceeds a given threshold $h$, which is known as the \emph{probability threshold robustness} (PTR) measure in the literature on robust optimization. However, this robustness measure cannot be correctly evaluated when the distribution $P$ is unknown. In this study, we addressed this problem by considering the \textit{distributionally robust PTR} (DRPTR) measure, which considers the worst-case PTR within given candidate distributions. Specifically, we studied the problem of efficiently identifying a reliable set $H$, which is defined as a region in which the DRPTR measure exceeds a certain desired probability $\alpha$, which can be interpreted as a level set estimation (LSE) problem for DRPTR. We propose a theoretically grounded and computationally efficient active learning method for this problem. We show that the proposed method has theoretical guarantees on convergence and accuracy, and confirmed through numerical experiments that the proposed method outperforms existing methods.
翻訳日:2021-02-09 16:01:53 公開日:2021-02-08
# ランダム到着順序に基づく連続非置換k-メディアンクラスタリングの定数近似アルゴリズム

A Constant Approximation Algorithm for Sequential No-Substitution k-Median Clustering under a Random Arrival Order ( http://arxiv.org/abs/2102.04050v1 )

ライセンス: Link先を確認
Tom Hess, Michal Moshkovitz and Sivan Sabato(参考訳) 逐次no-substitution設定下でk-medianクラスタリングについて検討した。 この設定では、データストリームを順次観測し、アルゴリズムによっていくつかのポイントをクラスタセンターとして選択する。 しかし、次の点を観測する前に、その点が観測された直後にのみ中心として選択できる。 また、選択されたセンターを後で置き換えることはできない。 我々は、ランダムな到着順序の下で最適なリスクに対する一定の近似係数を得るこの設定のための新しいアルゴリズムを与える。 これは入力データに仮定せずに保持し、非自明な数のセンターを選択する最初のアルゴリズムである。 私たちのアルゴリズムと分析は、外れ値を回避する慎重なリスク推定、線形ビン分割の新しい概念、オフラインクラスタリングアルゴリズムを使用して繰り返し計算に基づいています。

We study k-median clustering under the sequential no-substitution setting. In this setting, a data stream is sequentially observed, and some of the points are selected by the algorithm as cluster centers. However, a point can be selected as a center only immediately after it is observed, before observing the next point. In addition, a selected center cannot be substituted later. We give a new algorithm for this setting that obtains a constant approximation factor on the optimal risk under a random arrival order. This is the first such algorithm that holds without any assumptions on the input data and selects a non-trivial number of centers. The number of selected centers is quasi-linear in k. Our algorithm and analysis are based on a careful risk estimation that avoids outliers, a new concept of a linear bin division, and repeated calculations using an offline clustering algorithm.
翻訳日:2021-02-09 16:01:15 公開日:2021-02-08
# ニューラルアーキテクチャのための対照的な埋め込み

Contrastive Embeddings for Neural Architectures ( http://arxiv.org/abs/2102.04208v1 )

ライセンス: Link先を確認
Daniel Hesslow and Iacopo Poli(参考訳) ニューラルネットワークの探索のためのアルゴリズムの性能は、検索空間のパラメータ化に強く依存する。 コントラスト学習を用いて,データヤコビアンに基づいて異なる初期化のネットワークを識別し,探索空間のパラメトリゼーションとは独立に,最初のアーキテクチャを自動生成する。 従来のブラックボックス最適化アルゴリズムは, 改良することなく, ニューラルアーキテクチャサーチの最先端性能に到達できることを示す。 本手法は統一埋め込み空間を提供するため,検索空間間の転送学習を初めて行う。 最後に、学習中の埋め込みの進化を示し、異なる訓練段階における埋め込みを用いた将来の研究を動機付け、検索空間におけるネットワークのより深い理解を得る。

The performance of algorithms for neural architecture search strongly depends on the parametrization of the search space. We use contrastive learning to identify networks across different initializations based on their data Jacobians, and automatically produce the first architecture embeddings independent from the parametrization of the search space. Using our contrastive embeddings, we show that traditional black-box optimization algorithms, without modification, can reach state-of-the-art performance in Neural Architecture Search. As our method provides a unified embedding space, we perform for the first time transfer learning between search spaces. Finally, we show the evolution of embeddings during training, motivating future studies into using embeddings at different training stages to gain a deeper understanding of the networks in a search space.
翻訳日:2021-02-09 16:01:03 公開日:2021-02-08
# 対向訓練による充填レベル分類の改善

Improving filling level classification with adversarial training ( http://arxiv.org/abs/2102.04057v1 )

ライセンス: Link先を確認
Apostolos Modas and Alessio Xompero and Ricardo Sanchez-Matilla and Pascal Frossard and Andrea Cavallaro(参考訳) 私たちは、カップや飲料ガラスの含有量のレベル - 単一の画像から - 分類の問題を調査します。 この問題は、透明性、形状のバリエーション、部分的な閉塞によるいくつかの曖昧さと、小さなトレーニングデータセットのみが利用できることによる課題である。 本稿では,転送学習のための適切な戦略を用いてこの問題に取り組む。 具体的には、一般的なソースデータセットで逆トレーニングを使用し、タスク固有のデータセットでトレーニングを洗練します。 また、CORSMAL Containers Manipulationデータセットのコンテナタイプに関するいくつかのトレーニング戦略とその組み合わせを議論および実験的に評価します。 ソース領域における逆行訓練による伝達学習は、テストセットの分類精度を一貫して改善し、分類器のオーバーフィッティングをトレーニングデータの特定の特徴に制限することを示す。

We investigate the problem of classifying - from a single image - the level of content in a cup or a drinking glass. This problem is made challenging by several ambiguities caused by transparencies, shape variations and partial occlusions, and by the availability of only small training datasets. In this paper, we tackle this problem with an appropriate strategy for transfer learning. Specifically, we use adversarial training in a generic source dataset and then refine the training with a task-specific dataset. We also discuss and experimentally evaluate several training strategies and their combination on a range of container types of the CORSMAL Containers Manipulation dataset. We show that transfer learning with adversarial training in the source domain consistently improves the classification accuracy on the test set and limits the overfitting of the classifier to specific features of the training data.
翻訳日:2021-02-09 15:59:09 公開日:2021-02-08
# 大きなミニバッチ、一貫性、ハードネガティブマイニングによる教師なし学習のためのメモリバンクの改善

Improving memory banks for unsupervised learning with large mini-batch, consistency and hard negative mining ( http://arxiv.org/abs/2102.04442v1 )

ライセンス: Link先を確認
Adrian Bulat and Enrique S\'anchez-Lozano and Georgios Tzimiropoulos(参考訳) インスタンスベースの識別による教師なし学習の重要なコンポーネントは、データセットの各トレーニングサンプルの特徴表現を格納するメモリバンクである。 本稿では、バニラメモリバンクベースの定式化の3つの改善点について紹介する。(a) 大規模ミニバッチ: 同じバッチ内の各サンプルに対して複数の増分をプルし、これがより良いモデルとメモリバンクの更新の改善につながることを示す。 b) 整合性: 従来提案されていた陰性サンプルに対する差別を強制することなく, 同一試料の異なる拡張により得られるロジットを近接的に実施する。 c) ハード・ネガティブ・マイニング: インスタンスの識別は視覚的にあまり類似しないサンプルには意味がないため、インスタンスレベルの分類損失によって分離を余儀なくされた非常に類似したデータサンプルを徐々にマージするメモリバンクを改善するために、新しい近接するアプローチを考案する。 全体として、我々のアプローチはバニラメモリバンクベースのインスタンス識別を大幅に改善し、コサインの類似性で、見抜かれていないテストカテゴリの両方の既存のメソッドを上回っています。

An important component of unsupervised learning by instance-based discrimination is a memory bank for storing a feature representation for each training sample in the dataset. In this paper, we introduce 3 improvements to the vanilla memory bank-based formulation which brings massive accuracy gains: (a) Large mini-batch: we pull multiple augmentations for each sample within the same batch and show that this leads to better models and enhanced memory bank updates. (b) Consistency: we enforce the logits obtained by different augmentations of the same sample to be close without trying to enforce discrimination with respect to negative samples as proposed by previous approaches. (c) Hard negative mining: since instance discrimination is not meaningful for samples that are too visually similar, we devise a novel nearest neighbour approach for improving the memory bank that gradually merges extremely similar data samples that were previously forced to be apart by the instance level classification loss. Overall, our approach greatly improves the vanilla memory-bank based instance discrimination and outperforms all existing methods for both seen and unseen testing categories with cosine similarity.
翻訳日:2021-02-09 15:58:54 公開日:2021-02-08
# RECAST:インタラクティブ・ビジュアライゼーションによる毒性検出モデルのユーザ・リコースと解釈性の評価

RECAST: Enabling User Recourse and Interpretability of Toxicity Detection Models with Interactive Visualization ( http://arxiv.org/abs/2102.04427v1 )

ライセンス: Link先を確認
Austin P Wright, Omar Shaikh, Haekyu Park, Will Epperson, Muhammed Ahmed, Stephane Pinel, Duen Horng Chau, Diyi Yang(参考訳) オンラインの有毒な言語の普及に伴い、プラットフォームは自然言語処理の進歩を利用して有毒なコメントを自動的にフラグ付けおよび削除する自動化システムを使用しています。 しかし、ほとんどの自動化されたシステム--有毒な言語を検出してモデレートする場合-は、ユーザにフィードバックを提供しません。 我々はこれらのモデルの有害な予測を可視化するインタラクティブなオープンソースWebツールであるRECASTを紹介し、フラグ付き有毒な言語に対する代替提案を提供する。 当社の作業は,これらの自動モデレーションツールを使用するユーザに対して,新たなリコースのパスも提供します。 RECASTは毒性の分類に責任のあるテキストを強調し、ユーザーがインタラクティブに中立的な代替語で潜在的に有毒なフレーズを置き換えることができます。 2つの大規模ユーザ評価によるRECASTの効果を検討した結果,RECASTはモデルにより検出された毒性の低減に有効であることが判明した。 ユーザーはブラックボックスモデルが使用する毒性基準をより深く理解し、透明性とリアクションを可能にした。 さらに、ユーザーが独自の判断ではなく、これらのモデルのための言語を最適化することに焦点を合わせると(自動モデルを展開するための暗黙のインセンティブと目標である)、これらのモデルは人間のアノテーションと比較して毒性の効果的な分類器になりません。 これにより、毒性検出モデルがどのように機能し、機能すべきか、およびオンライン談話の将来への影響についての議論が開かれます。

With the widespread use of toxic language online, platforms are increasingly using automated systems that leverage advances in natural language processing to automatically flag and remove toxic comments. However, most automated systems---when detecting and moderating toxic language---do not provide feedback to their users, let alone provide an avenue of recourse for these users to make actionable changes. We present our work, RECAST, an interactive, open-sourced web tool for visualizing these models' toxic predictions, while providing alternative suggestions for flagged toxic language. Our work also provides users with a new path of recourse when using these automated moderation tools. RECAST highlights text responsible for classifying toxicity, and allows users to interactively substitute potentially toxic phrases with neutral alternatives. We examined the effect of RECAST via two large-scale user evaluations, and found that RECAST was highly effective at helping users reduce toxicity as detected through the model. Users also gained a stronger understanding of the underlying toxicity criterion used by black-box models, enabling transparency and recourse. In addition, we found that when users focus on optimizing language for these models instead of their own judgement (which is the implied incentive and goal of deploying automated models), these models cease to be effective classifiers of toxicity compared to human annotations. This opens a discussion for how toxicity detection models work and should work, and their effect on the future of online discourse.
翻訳日:2021-02-09 15:57:57 公開日:2021-02-08
# 共同CNN-LSTMモデルを用いた単一軌道脳波からのコックテールパーティーにおける注意点抽出

Extracting the Locus of Attention at a Cocktail Party from Single-Trial EEG using a Joint CNN-LSTM Model ( http://arxiv.org/abs/2102.03957v1 )

ライセンス: Link先を確認
Ivine Kuruvila, Jan Muncke, Eghart Fischer, Ulrich Hoppe(参考訳) 人間の脳は、マルチスピーカーシナリオにおいて、特定のスピーカーを干渉するスピーカーから分離するのに非常によく機能します。 近年,聴覚場面に存在する音声信号と脳波(eeg)を用いて測定した聴者の皮質信号との関係をモデル化することにより,分離能力の定量的評価が可能となった。 これにより、ニューロフィードバックを補聴器に統合し、ユーザーの注意を推測し、出席する話者を強化することができる。 聴覚注意を推測するために一般的に用いられるアルゴリズムは、脳波信号にエンベロープなどの音声手がかりをマッピングする線形システム理論に基づいている。 本稿では,聴覚注意度を推定する共畳畳畳み込みニューラルネットワーク (CNN) - 長期短期記憶 (LSTM) モデルを提案する。 私達の共同CNN-LSTMモデルは入力として複数のスピーカーのEEG信号そして分光計を取り、スピーカーの1つへの注意を分類します。 61名の被験者からなる3つのデータセットを用いてニューラルネットワークの信頼性を評価し,各被験者がデュアルスピーカ実験を行った。 分析された3つのデータセットは、ドイツ語、デンマーク語、オランダ語の3つの異なる言語で提示された音声刺激に対応していた。 提案したCNN-LSTMモデルを用いて, 試行期間3秒で77.2%の中央解読精度を得た。 さらに,本モデルで許容できるスパース量をマグニチュードプルーニングにより評価し,デコード精度の大幅な低下を伴わずに最大50%のスパースを許容できることを確認した。

Human brain performs remarkably well in segregating a particular speaker from interfering speakers in a multi-speaker scenario. It has been recently shown that we can quantitatively evaluate the segregation capability by modelling the relationship between the speech signals present in an auditory scene and the cortical signals of the listener measured using electroencephalograp hy (EEG). This has opened up avenues to integrate neuro-feedback into hearing aids whereby the device can infer user's attention and enhance the attended speaker. Commonly used algorithms to infer the auditory attention are based on linear systems theory where the speech cues such as envelopes are mapped on to the EEG signals. Here, we present a joint convolutional neural network (CNN) - long short-term memory (LSTM) model to infer the auditory attention. Our joint CNN-LSTM model takes the EEG signals and the spectrogram of the multiple speakers as inputs and classifies the attention to one of the speakers. We evaluated the reliability of our neural network using three different datasets comprising of 61 subjects where, each subject undertook a dual-speaker experiment. The three datasets analysed corresponded to speech stimuli presented in three different languages namely German, Danish and Dutch. Using the proposed joint CNN-LSTM model, we obtained a median decoding accuracy of 77.2% at a trial duration of three seconds. Furthermore, we evaluated the amount of sparsity that our model can tolerate by means of magnitude pruning and found that the model can tolerate up to 50% sparsity without substantial loss of decoding accuracy.
翻訳日:2021-02-09 15:55:13 公開日:2021-02-08
# $\ell_{1}$-regularized Linear Regression を用いたモデル選択

Ising Model Selection Using $\ell_{1}$-Regularized Linear Regression ( http://arxiv.org/abs/2102.03988v1 )

ライセンス: Link先を確認
Xiangming Meng and Tomoyuki Obuchi and Yoshiyuki Kabashima(参考訳) 統計力学からのレプリカ法を用いたIsingモデル選択問題に対する$\ell_{1}$-regularized linear regression ($\ell_1$-LinR)の性能を理論的に検討する。 正則ランダムグラフは常磁性仮定の下で考慮される。 その結果、モデルの誤特定にもかかわらず、$\ell_1$-linr推定器は$m=\mathcal{o}\left(\log n\right)$サンプルを用いて、$n$変数でイジングモデルのグラフ構造を正常に復元できることが示され、これは$\ell_{1}$-regularized logistic regressionと同じ順序である。 さらに, 適度な$M$と$N$で, $\ell_1$-LinR推定器の非漸近性能を正確に予測する計算効率のよい手法を提案する。 シミュレーションは理論的予測と実験結果との間に優れた一致を示し,結果の裏付けとなった。

We theoretically investigate the performance of $\ell_{1}$-regularized linear regression ($\ell_1$-LinR) for the problem of Ising model selection using the replica method from statistical mechanics. The regular random graph is considered under paramagnetic assumption. Our results show that despite model misspecification, the $\ell_1$-LinR estimator can successfully recover the graph structure of the Ising model with $N$ variables using $M=\mathcal{O}\left(\log N\right)$ samples, which is of the same order as that of $\ell_{1}$-regularized logistic regression. Moreover, we provide a computationally efficient method to accurately predict the non-asymptotic performance of the $\ell_1$-LinR estimator with moderate $M$ and $N$. Simulations show an excellent agreement between theoretical predictions and experimental results, which supports our findings.
翻訳日:2021-02-09 15:54:40 公開日:2021-02-08
# LightSpeech: ニューラルネットワークによる軽量で高速な音声テキスト検索

LightSpeech: Lightweight and Fast Text to Speech with Neural Architecture Search ( http://arxiv.org/abs/2102.04040v1 )

ライセンス: Link先を確認
Renqian Luo, Xu Tan, Rui Wang, Tao Qin, Jinzhu Li, Sheng Zhao, Enhong Chen, Tie-Yan Liu(参考訳) text to speech (tts) は自然言語と理解可能な音声を異なるシナリオで合成するために広く使われている。 携帯電話や組み込みデバイスなど、さまざまなエンドデバイスにTSをデプロイするには、メモリ使用量と推論レイテンシが極めて少なくなる。 FastSpeechのような非自己回帰型TSSモデルは、自己回帰型モデルよりもはるかに高速な推論速度を達成したが、そのモデルサイズと推論遅延は、リソース制約されたデバイスへのデプロイにおいて依然として大きい。 本稿では,FastSpeechに基づくより軽量で効率的なモデルの自動設計にニューラルアーキテクチャサーチ~(NAS)を利用するLightSpeechを提案する。 まず、現在のfastspeechモデルのコンポーネントをプロファイルし、様々な軽量で潜在的に有効なアーキテクチャを含む新しい検索空間を慎重に設計する。 そして、NASを用いて検索空間内の優れたアーキテクチャを自動的に発見する。 実験の結果,本手法で発見されたモデルが15倍圧縮比と6.5倍推定速度を達成した。 オーディオデモはhttps://speechresear ch.github.io/lightsp eechで提供されている。

Text to speech (TTS) has been broadly used to synthesize natural and intelligible speech in different scenarios. Deploying TTS in various end devices such as mobile phones or embedded devices requires extremely small memory usage and inference latency. While non-autoregressive TTS models such as FastSpeech have achieved significantly faster inference speed than autoregressive models, their model size and inference latency are still large for the deployment in resource constrained devices. In this paper, we propose LightSpeech, which leverages neural architecture search~(NAS) to automatically design more lightweight and efficient models based on FastSpeech. We first profile the components of current FastSpeech model and carefully design a novel search space containing various lightweight and potentially effective architectures. Then NAS is utilized to automatically discover well performing architectures within the search space. Experiments show that the model discovered by our method achieves 15x model compression ratio and 6.5x inference speedup on CPU with on par voice quality. Audio demos are provided at https://speechresear ch.github.io/lightsp eech.
翻訳日:2021-02-09 15:54:22 公開日:2021-02-08
# 自動肺音解析のための進歩的な拡張データベースの更新

An Update of a Progressively Expanded Database for Automated Lung Sound Analysis ( http://arxiv.org/abs/2102.04062v1 )

ライセンス: Link先を確認
Fu-Shun Hsu, Shang-Ran Huang, Chien-Wen Huang, Yuan-Ren Cheng, Chun-Chieh Chen, Jack Hsiao, Chung-Wei Chen, and Feipei Lai(参考訳) 臨床実践には,連続的リアルタイム呼吸音自動分析システムが必要である。 従来, 吸入, 吸入, 持続的変動音 (CASs) , 不連続的変動音 (DASs) を検出できるオープンアクセス型肺音データベースHF_Lung_V1, および自動肺音解析アルゴリズムを構築した。 本研究では,HF-Lung-V1をHF-Lung-V2に拡張した。 畳み込みニューラルネットワーク(CNN)-双方向ゲートリカレントユニット(BiGRU)モデルは、HF_Lung_V1(V1_Train) とHF_Lung_V2(V2_Train) のトレーニングデータセットで別々に訓練され、HF_Lung_V1(V1_Test)とHF_Lung_V2(V2_Test)の両方のテストデータセットにおけるセグメント検出とイベント検出のパフォーマンス比較に使用された。 セグメント検出の性能は, 精度, 予測正値 (PPV), 感度, 特異性, F1スコア, 受信機動作特性 (ROC) 曲線および曲線下の領域 (AUC) で測定し, イベント検出はPV, 感度, F1スコアで評価した。 その結果, v2_train がトレーニングしたモデル性能は, v1_test と v2_test の両方, 特に cass と dass において改善した。

A continuous real-time respiratory sound automated analysis system is needed in clinical practice. Previously, we established an open access lung sound database, HF_Lung_V1, and automated lung sound analysis algorithms capable of detecting inhalation, exhalation, continuous adventitious sounds (CASs) and discontinuous adventitious sounds (DASs). In this study, HF-Lung-V1 has been further expanded to HF-Lung-V2 with 1.45 times of increase in audio files. The convolutional neural network (CNN)-bidirectional gated recurrent unit (BiGRU) model was separately trained with training datasets of HF_Lung_V1 (V1_Train) and HF_Lung_V2 (V2_Train), and then were used for the performance comparisons of segment detection and event detection on both test datasets of HF_Lung_V1 (V1_Test) and HF_Lung_V2 (V2_Test). The performance of segment detection was measured by accuracy, predictive positive value (PPV), sensitivity, specificity, F1 score, receiver operating characteristic (ROC) curve and area under the curve (AUC), whereas that of event detection was evaluated with PPV, sensitivity, and F1 score. Results indicate that the model performance trained by V2_Train showed improvement on both V1_Test and V2_Test in inhalation, CASs and DASs, particularly in CASs, as well as on V1_Test in exhalation.
翻訳日:2021-02-09 15:54:04 公開日:2021-02-08
# ヒント: webデータを活用した試行結果予測のための階層的インタラクションネットワーク

HINT: Hierarchical Interaction Network for Trial Outcome Prediction Leveraging Web Data ( http://arxiv.org/abs/2102.04252v1 )

ライセンス: Link先を確認
Tianfan Fu, Kexin Huang, Cao Xiao, Lucas M. Glass, Jimeng Sun(参考訳) 臨床試験は薬物開発に欠かせないが、時間がかかり、高価であり、しばしば患者に負担がかかる。 さらに重要なのは、臨床試験は、有効性、安全性、または患者の採用に関する問題による不確実な結果に直面します。 臨床試験の結果を予測するのがうまくいけば、必然的に失敗する試験を実行しなくてはならなくなり、成功しそうな試験にもっと多くのリソースを費やすことができます。 本稿では, 薬物の分子情報, 標的疾患情報, 治験プロトコル, 生体医学的知識を含む包括的かつ多様なwebデータをもとに, 全疾患に対するより汎用的な治験成果予測のための階層的相互作用ネットワーク (hint) を提案する。 HINTはまず、これらのマルチモーダルデータを潜入埋め込みにエンコードします。 次に、これらの埋め込みを知識埋め込みモジュールに入力し、外的薬物動態特性に関する知識とWebからの試行リスクを用いて事前訓練された知識埋め込みを生成する。 次に、相互作用グラフモジュールは、ドメイン知識を介してすべての埋め込みを接続し、様々なトライアルコンポーネントとその複雑な関係をフルに把握し、トライアル結果に影響を及ぼす。 最後に、ヒントは動的注意グラフニューラルネットワークを学習し、試行結果を予測する。 総合実験の結果,HINTは0.772,0.607,0.623,0. 703の位相I,II,IIIのPR-AUCと適応結果予測をそれぞれ実現した。 また、PR-AUCで最高のベースライン法を12.4\%まで一貫して上回る。

Clinical trials are crucial for drug development but are time consuming, expensive, and often burdensome on patients. More importantly, clinical trials face uncertain outcomes due to issues with efficacy, safety, or problems with patient recruitment. If we were better at predicting the results of clinical trials, we could avoid having to run trials that will inevitably fail more resources could be devoted to trials that are likely to succeed. In this paper, we propose Hierarchical INteraction Network (HINT) for more general, clinical trial outcome predictions for all diseases based on a comprehensive and diverse set of web data including molecule information of the drugs, target disease information, trial protocol and biomedical knowledge. HINT first encode these multi-modal data into latent embeddings, where an imputation module is designed to handle missing data. Next, these embeddings will be fed into the knowledge embedding module to generate knowledge embeddings that are pretrained using external knowledge on pharmaco-kinetic properties and trial risk from the web. Then the interaction graph module will connect all the embedding via domain knowledge to fully capture various trial components and their complex relations as well as their influences on trial outcomes. Finally, HINT learns a dynamic attentive graph neural network to predict trial outcome. Comprehensive experimental results show that HINT achieves strong predictive performance, obtaining 0.772, 0.607, 0.623, 0.703 on PR-AUC for Phase I, II, III, and indication outcome prediction, respectively. It also consistently outperforms the best baseline method by up to 12.4\% on PR-AUC.
翻訳日:2021-02-09 15:53:26 公開日:2021-02-08
# 確率ゲームにおける時間課題の最適戦略の学習

Learning Optimal Strategies for Temporal Tasks in Stochastic Games ( http://arxiv.org/abs/2102.04307v1 )

ライセンス: Link先を確認
Alper Kamil Bozkurt, Yu Wang, Miroslav Pajic(参考訳) 線形時間論理(LTL)は、自律性のための複雑なタスクを正式に指定するために広く使われている。 報酬関数によって定義される通常のタスクとは異なり、ltlタスクは累積的ではなく、メモリ依存の戦略を必要とする。 本研究では,マルコフ決定過程(MDP)の自然な拡張である確率ゲームにおいて,所望のタスクのLTL仕様の満足度を最大化する最適制御戦略を,逆入力を持つシステムに学習する手法を提案する。 このアプローチは、与えられたLTLタスクから派生した決定論的オートマトンと、オートマトンの受け入れ条件に基づく報酬マシンを用いて製品ゲームを構築するため、モデルフリーRLアルゴリズムを使用して最適なコントローラ戦略を学ぶことができる。 報奨機の報酬と遷移確率は、受理条件を定義する集合の数に依存しないので、いくつかのケーススタディで示されているように、我々のアプローチは幅広いLTLタスクにスケーラブルである。

Linear temporal logic (LTL) is widely used to formally specify complex tasks for autonomy. Unlike usual tasks defined by reward functions only, LTL tasks are noncumulative and require memory-dependent strategies. In this work, we introduce a method to learn optimal controller strategies that maximize the satisfaction probability of LTL specifications of the desired tasks in stochastic games, which are natural extensions of Markov Decision Processes (MDPs) to systems with adversarial inputs. Our approach constructs a product game using the deterministic automaton derived from the given LTL task and a reward machine based on the acceptance condition of the automaton; thus, allowing for the use of a model-free RL algorithm to learn an optimal controller strategy. Since the rewards and the transition probabilities of the reward machine do not depend on the number of sets defining the acceptance condition, our approach is scalable to a wide range of LTL tasks, as we demonstrate on several case studies.
翻訳日:2021-02-09 15:52:43 公開日:2021-02-08
# 機械学習と正義システムリスク評価におけるエクイティトレードオフ解決における計算限界

The Limits of Computation in Solving Equity Trade-Offs in Machine Learning and Justice System Risk Assessment ( http://arxiv.org/abs/2102.04342v1 )

ライセンス: Link先を確認
Jesse Russell(参考訳) 本稿では、機械学習における人種的平等の考え方の違い、特に司法設定において、計算的に解くのが難しいトレードオフをいかに提示するかを考察する。 機械学習は、しばしば正義の設定でリスクアセスメントを作成するために使用され、介入、リソース、懲罰的行動を決定するために使用される。 これらの機械学習ベースのツールの全体的な側面とパフォーマンス、例えばスコアの分布、レベルごとの結果率、偽陽性と真陽性の頻度は、人種グループによって調べられると問題となる。 スコアの異なる分布を生成したり、レベルと結果の異なる関係を生成するモデルは、それらのスコアとレベルが個々の自由の制限とより広い人種的不平等の文脈に直接関連している場合に問題となる。 計算はこれらの側面を強調するのに役立つが、データと計算はそれらを解決する可能性は低い。 本稿では,空間計算が残すべき値とミッションについて検討する。

This paper explores how different ideas of racial equity in machine learning, in justice settings in particular, can present trade-offs that are difficult to solve computationally. Machine learning is often used in justice settings to create risk assessments, which are used to determine interventions, resources, and punitive actions. Overall aspects and performance of these machine learning-based tools, such as distributions of scores, outcome rates by levels, and the frequency of false positives and true positives, can be problematic when examined by racial group. Models that produce different distributions of scores or produce a different relationship between level and outcome are problematic when those scores and levels are directly linked to the restriction of individual liberty and to the broader context of racial inequity. While computation can help highlight these aspects, data and computation are unlikely to solve them. This paper explores where values and mission might have to fill the spaces computation leaves.
翻訳日:2021-02-09 15:50:04 公開日:2021-02-08
# トレーニングされたReLUニューラルネットワークの混合整数最適化のための分割型定式化

Partition-based formulations for mixed-integer optimization of trained ReLU neural networks ( http://arxiv.org/abs/2102.04373v1 )

ライセンス: Link先を確認
Calvin Tsay and Jan Kronqvist and Alexander Thebelt and Ruth Misener(参考訳) 本稿では,訓練されたreluニューラルネットワークのための混合整数式を提案する。 このアプローチは、ノード入力を複数のグループに分割することでモデルのサイズとタイトさをバランスさせ、断続的プログラミングによって分割上の凸包を形成する。 1つの極端な場合、入力毎に1つのパーティションがノードの凸殻、すなわち各ノードの最も厳密な可能な定式化を回復する。 より少ない分割のために、凸殻を近似するより小さな緩和を開発し、既存の定式化よりも優れていることを示す。 具体的には,理論的な動機に基づく変数分割戦略を提案し,この戦略を広範な計算実験を用いて検証する。 さらに、提案手法は既知のアルゴリズム的アプローチを補完し、例えば最適化に基づく境界締め付けはパーティション内の依存関係をキャプチャする。

This paper introduces a class of mixed-integer formulations for trained ReLU neural networks. The approach balances model size and tightness by partitioning node inputs into a number of groups and forming the convex hull over the partitions via disjunctive programming. At one extreme, one partition per input recovers the convex hull of a node, i.e., the tightest possible formulation for each node. For fewer partitions, we develop smaller relaxations that approximate the convex hull, and show that they outperform existing formulations. Specifically, we propose strategies for partitioning variables based on theoretical motivations and validate these strategies using extensive computational experiments. Furthermore, the proposed scheme complements known algorithmic approaches, e.g., optimization-based bound tightening captures dependencies within a partition.
翻訳日:2021-02-09 15:49:47 公開日:2021-02-08
# SGD in the Large: Average-case Analysis, Asymptotics, and Stepsize criticality

SGD in the Large: Average-case Analysis, Asymptotics, and Stepsize Criticality ( http://arxiv.org/abs/2102.04396v1 )

ライセンス: Link先を確認
Courtney Paquette, Kiwon Lee, Fabian Pedregosa and Elliot Paquette(参考訳) 本稿では,ランダム行列理論に着想を得た新しいフレームワークを提案し,サンプル数と寸法がともに大きい場合の確率勾配勾配(SGD)のダイナミクスを解析する。 このフレームワークは任意の固定ステップと有限和設定に適用できる。 この新しいフレームワークを用いて、ランダムなデータを持つ最小二乗問題におけるSGDのダイナミクスが、大きなサンプルと次元の限界において決定論的になることを示す。 さらに、制限ダイナミクスはヴォルテラ積分方程式によって支配される。 このモデルでは, sgd が相転移を受けると予測し, その収束速度に最終的に影響し, 実験的に検証する。 最後に、入力データが等方性であるとき、我々は、ダイナミクスと平均ケース収束率(すなわち、可能なすべての入力で平均されるアルゴリズムの複雑さ)の明示的な表現を提供する。 これらの率は最悪のケースの複雑さよりも有意な改善を示しています。

We propose a new framework, inspired by random matrix theory, for analyzing the dynamics of stochastic gradient descent (SGD) when both number of samples and dimensions are large. This framework applies to any fixed stepsize and the finite sum setting. Using this new framework, we show that the dynamics of SGD on a least squares problem with random data become deterministic in the large sample and dimensional limit. Furthermore, the limiting dynamics are governed by a Volterra integral equation. This model predicts that SGD undergoes a phase transition at an explicitly given critical stepsize that ultimately affects its convergence rate, which we also verify experimentally. Finally, when input data is isotropic, we provide explicit expressions for the dynamics and average-case convergence rates (i.e., the complexity of an algorithm averaged over all possible inputs). These rates show significant improvement over the worst-case complexities.
翻訳日:2021-02-09 15:49:32 公開日:2021-02-08
# 生成逆ネットワークを用いた固体集合体合成

Solid Texture Synthesis using Generative Adversarial Networks ( http://arxiv.org/abs/2102.03973v1 )

ライセンス: Link先を確認
Xin Zhao, Lin Wang, Jifeng Guo, Bo Yang, Junteng Zheng and Fanqi Li(参考訳) 立体テクスチャ合成は、2次元テクスチャを3次元の立体テクスチャに拡張する効果的な方法として、多くの応用領域で利点を示す。 しかし, 既存の手法では, テクスチャ情報の活用不足による合成歪みが一般的である。 本稿では, マルチスケールモジュールからなるジェネレータが2次元空間の内部分布を学習し, さらに3次元の立体テクスチャに拡張する, 生成的対角線ネットワークに基づく, ニューラルネットワークによる固形テクスチャ合成のための新しいアプローチであるSTS-GANを提案する。 さらに、判別器は、2次元の模範とスライスとの類似性を評価し、現実的な固形テクスチャを合成するためのジェネレータを促進する。 実験の結果,提案手法は,例に類似した視覚的特徴を持つ高品質の3次元固体テクスチャを合成できることが示された。

Solid texture synthesis, as an effective way to extend 2D texture to 3D solid texture, exhibits advantages in numerous application domains. However, existing methods generally suffer from synthesis distortion due to the underutilization of texture information. In this paper, we proposed a novel neural network-based approach for the solid texture synthesis based on generative adversarial networks, namely STS-GAN, in which the generator composed of multi-scale modules learns the internal distribution of 2D exemplar and further extends it to a 3D solid texture. In addition, the discriminator evaluates the similarity between 2D exemplar and slices, promoting the generator to synthesize realistic solid texture. Experiment results demonstrate that the proposed method can synthesize high-quality 3D solid texture with similar visual characteristics to the exemplar.
翻訳日:2021-02-09 15:48:10 公開日:2021-02-08
# IDOL: Inertial Deep Orientation-Estimati on and Localization

IDOL: Inertial Deep Orientation-Estimati on and Localization ( http://arxiv.org/abs/2102.04024v1 )

ライセンス: Link先を確認
Scott Sun, Dennis Melamed, Kris Kitani(参考訳) 多くのスマートフォンアプリケーションは、運動を感知するために慣性測定装置(IMU)を使用しているが、これらのセンサを歩行者の局部化に利用することは、そのノイズ特性のために困難である。 最近のデータ駆動慣性オドメトリーアプローチでは、慣性ナビゲーションの実現性が増加している。 しかし、従来のスマートフォンのオリエンテーション推定は正確であると仮定しているが、実際にはこれらのオリエンテーション推定は重大なエラーの原因となる可能性がある。 不正確な配向推定の問題に対処するため,まずデバイス方向を推定し,次にデバイス位置を推定するコモディティスマートフォンを用いた2段階のデータ駆動パイプラインを提案する。 配向モジュールは、リカレントニューラルネットワークと拡張カルマンフィルタを使用して、生のIMU測定を適切な参照フレームに回転させるために使用される配向推定値を取得する。 位置モジュールは、それらの測定値を別の再帰的なネットワークアーキテクチャに渡してローカライズを行う。 提案手法は,3棟と15棟の歩行者移動20時間を含む大規模データセットにおいて,向きと位置誤差の両方において最先端の手法を上回っている。

Many smartphone applications use inertial measurement units (IMUs) to sense movement, but the use of these sensors for pedestrian localization can be challenging due to their noise characteristics. Recent data-driven inertial odometry approaches have demonstrated the increasing feasibility of inertial navigation. However, they still rely upon conventional smartphone orientation estimates that they assume to be accurate, while in fact these orientation estimates can be a significant source of error. To address the problem of inaccurate orientation estimates, we present a two-stage, data-driven pipeline using a commodity smartphone that first estimates device orientations and then estimates device position. The orientation module relies on a recurrent neural network and Extended Kalman Filter to obtain orientation estimates that are used to then rotate raw IMU measurements into the appropriate reference frame. The position module then passes those measurements through another recurrent network architecture to perform localization. Our proposed method outperforms state-of-the-art methods in both orientation and position error on a large dataset we constructed that contains 20 hours of pedestrian motion across 3 buildings and 15 subjects.
翻訳日:2021-02-09 15:47:53 公開日:2021-02-08
# point2vec:unsupervis ed object-level feature learning from point clouds

Points2Vec: Unsupervised Object-level Feature Learning from Point Clouds ( http://arxiv.org/abs/2102.04136v1 )

ライセンス: Link先を確認
Jo\"el Bachmann, Kenneth Blomqvist, Julian F\"orster, Roland Siegwart(参考訳) 単語埋め込みの学習のような教師なし表現学習技術は、自然言語処理の分野に大きな影響を与えた。 同様の表現学習技術は3次元視覚の文脈ではまだ一般的ではない。 これは、物理的な3D空間がテキストの本体に類似した意味構造を持っているという事実にもかかわらず、単語は意味的に関連している言葉に囲まれています。 本研究では,この構造を意味的に意味のあるオブジェクトの低次元ベクトル表現の学習に活用する。 これらのベクトル表現は教師なしアルゴリズムを用いてスキャンされた3d空間のデータセットをマイニングすることで学習する。 オブジェクトを点雲として表現し、3次元データのフレキシブルで汎用的な表現をベクトル表現にエンコードする。 本稿では,コンテキストを含む手法を用いることで,異なる意味クラスを識別するクラスタリングアルゴリズムの能力が向上することを示す。 さらに,本アルゴリズムは補間実験により連続的かつ有意義な物体埋め込みを生成することを示す。

Unsupervised representation learning techniques, such as learning word embeddings, have had a significant impact on the field of natural language processing. Similar representation learning techniques have not yet become commonplace in the context of 3D vision. This, despite the fact that the physical 3D spaces have a similar semantic structure to bodies of text: words are surrounded by words that are semantically related, just like objects are surrounded by other objects that are similar in concept and usage. In this work, we exploit this structure in learning semantically meaningful low dimensional vector representations of objects. We learn these vector representations by mining a dataset of scanned 3D spaces using an unsupervised algorithm. We represent objects as point clouds, a flexible and general representation for 3D data, which we encode into a vector representation. We show that using our method to include context increases the ability of a clustering algorithm to distinguish different semantic classes from each other. Furthermore, we show that our algorithm produces continuous and meaningful object embeddings through interpolation experiments.
翻訳日:2021-02-09 15:47:32 公開日:2021-02-08
# ガウス行列における予知学習における多項式回帰の最適性

The Optimality of Polynomial Regression for Agnostic Learning under Gaussian Marginals ( http://arxiv.org/abs/2102.04401v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Thanasis Pittas, Nikos Zarifis(参考訳) ガウス分布の下での学習の診断の問題を研究する。 本研究では, LP双対性を用いて, 幅広い問題例のハードファミリを求める手法を開発した。 ブール値の概念クラスに対して、$L^1$-regressionアルゴリズムは本質的に最適であり、したがって概念クラスを不可知的に学習する計算困難さは、クラスから任意の関数をノルムで近似するのに必要となる多項式次数と密接に関連していることを示す。 この特徴とさらなる解析ツールを用いて、線形しきい値関数を不可知的に学習する最適なSQ下界と、多項式しきい値関数とハーフ空間の交叉に対する最初の非自明なSQ下界を得る。 また、実数値関数を学習するための類似理論を開発し、ReLUやシグモイドを学習するための準最適SQ下限を証明した。

We study the problem of agnostic learning under the Gaussian distribution. We develop a method for finding hard families of examples for a wide class of problems by using LP duality. For Boolean-valued concept classes, we show that the $L^1$-regression algorithm is essentially best possible, and therefore that the computational difficulty of agnostically learning a concept class is closely related to the polynomial degree required to approximate any function from the class in $L^1$-norm. Using this characterization along with additional analytic tools, we obtain optimal SQ lower bounds for agnostically learning linear threshold functions and the first non-trivial SQ lower bounds for polynomial threshold functions and intersections of halfspaces. We also develop an analogous theory for agnostically learning real-valued functions, and as an application prove near-optimal SQ lower bounds for agnostically learning ReLUs and sigmoids.
翻訳日:2021-02-09 15:47:17 公開日:2021-02-08
# 人間ラベルデータのない品質評価

Quality Estimation without Human-labeled Data ( http://arxiv.org/abs/2102.04020v1 )

ライセンス: Link先を確認
Yi-Lin Tuan, Ahmed El-Kishky, Adithya Renduchintala, Vishrav Chaudhary, Francisco Guzm\'an, Lucia Specia(参考訳) 品質推定は、参照翻訳にアクセスせずに翻訳コンテンツの品質を測定することを目的としている。 これは、高品質の翻訳が必要な現実世界のシナリオにおける機械翻訳システムにとって重要です。 品質推定には多くのアプローチがあるが、高価なラベル付きデータを必要とする教師あり機械学習に基づいている。 代替案として,ヒトアナノテータの例に頼らず,合成トレーニングデータを用いた手法を提案する。 合成データの品質推定を教師ありにするために市販アーキテクチャを訓練し、文と単語レベルの予測の両方において、人間の注釈付きデータで訓練されたモデルと同等の性能が得られることを示す。

Quality estimation aims to measure the quality of translated content without access to a reference translation. This is crucial for machine translation systems in real-world scenarios where high-quality translation is needed. While many approaches exist for quality estimation, they are based on supervised machine learning requiring costly human labelled data. As an alternative, we propose a technique that does not rely on examples from human-annotators and instead uses synthetic training data. We train off-the-shelf architectures for supervised quality estimation on our synthetic data and show that the resulting models achieve comparable performance to models trained on human-annotated data, both for sentence and word-level prediction.
翻訳日:2021-02-09 15:45:43 公開日:2021-02-08
# 新しい言語へのdeepspeech転送におけるレイヤフリーズの効果

Effects of Layer Freezing when Transferring DeepSpeech to New Languages ( http://arxiv.org/abs/2102.04097v1 )

ライセンス: Link先を確認
Onno Eberhard and Torsten Zesch(参考訳) 本稿では,ドイツとスイスの音声データセット上でmozillaのdeepspeechアーキテクチャをトレーニングし,異なるトレーニング方法の結果を比較する。 まず、両方の言語でモデルをスクラッチからトレーニングし、その後、英語で事前訓練されたDeepSpeechを使って重量初期化を行い、トレーニング中に異なるレイヤが凍結する影響を実験して結果を改善する。 1つの層だけを凍結しても、結果は劇的に改善する。

In this paper, we train Mozilla's DeepSpeech architecture on German and Swiss German speech datasets and compare the results of different training methods. We first train the models from scratch on both languages and then improve upon the results by using an English pretrained version of DeepSpeech for weight initialization and experiment with the effects of freezing different layers during training. We see that even freezing only one layer already improves the results dramatically.
翻訳日:2021-02-09 15:45:33 公開日:2021-02-08
# 自己監督型知識統合による受注ノートからの臨床成績予測

Clinical Outcome Prediction from Admission Notes using Self-Supervised Knowledge Integration ( http://arxiv.org/abs/2102.04110v1 )

ライセンス: Link先を確認
Betty van Aken, Jens-Michalis Papaioannou, Manuel Mayrdorfer, Klemens Budde, Felix A. Gers, Alexander L\"oser(参考訳) 臨床テキストからのアウトカム予測は、医師がリスクを見落としないようにし、病院の能力計画を支援する。 入院時の患者,特に意思決定支援が有用である場合をシミュレートし,退院時の診断,手術手順,院内死亡率,在院期間予測の4つの共通の結果予測目標で退院作業への新規の入院を提案する。 理想的なシステムは、患者の症状、前提条件、危険因子に基づいて結果を推測するべきである。 このシナリオに対処するための言語モデルの有効性を評価し,複数の公的ソースからの患者結果に関する知識を統合するための臨床成果事前学習を提案する。 さらに、モデルにICDコード階層を組み込むための簡単な方法を提案する。 本手法は,複数のベースラインに対して結果タスクのパフォーマンスを向上させることを示す。 詳細な分析は、転送可能性を含むモデルのさらなる強みを明らかにするだけでなく、基礎となるデータにおける重要な値の取り扱いや矛盾などの弱点を明らかにします。

Outcome prediction from clinical text can prevent doctors from overlooking possible risks and help hospitals to plan capacities. We simulate patients at admission time, when decision support can be especially valuable, and contribute a novel admission to discharge task with four common outcome prediction targets: Diagnoses at discharge, procedures performed, in-hospital mortality and length-of-stay prediction. The ideal system should infer outcomes based on symptoms, pre-conditions and risk factors of a patient. We evaluate the effectiveness of language models to handle this scenario and propose clinical outcome pre-training to integrate knowledge about patient outcomes from multiple public sources. We further present a simple method to incorporate ICD code hierarchy into the models. We show that our approach improves performance on the outcome tasks against several baselines. A detailed analysis reveals further strengths of the model, including transferability, but also weaknesses such as handling of vital values and inconsistencies in the underlying data.
翻訳日:2021-02-09 15:45:24 公開日:2021-02-08
# シングルトン誤り: 言語モデルに対する現在の批判が欠落している理由

The Singleton Fallacy: Why Current Critiques of Language Models Miss the Point ( http://arxiv.org/abs/2102.04310v1 )

ライセンス: Link先を確認
Magnus Sahlgren, Fredrik Carlsson(参考訳) 本稿では、ニューラルネットワークに基づく自然言語理解(NLU)ソリューションに対する現在の批判について論じる。 現在の議論の多くは、言語、意味、理解は(現在の)言語モデルでは達成不可能な単一現象であり、一様現象であるという仮定である。 対照的に、言語の使用、意味、理解にはさまざまな種類があり、(現在の)言語モデルは、言語の構造的理解の1つのタイプの獲得と表現という明確な目的を持って構築されていると論じる。 このような構造的理解はいくつかの異なるモダリティをカバーし、いくつかの異なる種類の意味を扱うことができると論じる。 私たちの立場は、そのような構造的知識が「本当の」理解として数えられないという理論的理由が、現在見当たらないということです。

This paper discusses the current critique against neural network-based Natural Language Understanding (NLU) solutions known as language models. We argue that much of the current debate rests on an argumentation error that we will refer to as the singleton fallacy: the assumption that language, meaning, and understanding are single and uniform phenomena that are unobtainable by (current) language models. By contrast, we will argue that there are many different types of language use, meaning and understanding, and that (current) language models are build with the explicit purpose of acquiring and representing one type of structural understanding of language. We will argue that such structural understanding may cover several different modalities, and as such can handle several different types of meaning. Our position is that we currently see no theoretical reason why such structural knowledge would be insufficient to count as "real" understanding.
翻訳日:2021-02-09 15:45:06 公開日:2021-02-08
# テクスチャ記述子を用いた指静脈サンプルの起源同定

Identifying the Origin of Finger Vein Samples Using Texture Descriptors ( http://arxiv.org/abs/2102.03992v1 )

ライセンス: Link先を確認
Babak Maser, Andreas Uhl(参考訳) 生体認証システムにおけるサンプル画像の同定は,システム攻撃時のデータ認証やセンサヘテロゲネス環境におけるセンサ固有の処理パイプラインの起動に有用である。 バイオメトリックな文脈における光応答非均一性(PRNU)に基づく手法の欠点に着想を得て, テクスチャ分類手法を用いて, 指静脈サンプル画像の起源を検出する。 8つの公的に入手可能な指静脈データセットと、8つの古典的かつ単純なテクスチャ記述子とsvm分類を適用し、生の指静脈サンプルに対する優れたセンサモデル識別結果とより困難な興味のある領域について示す。 以上の結果から,指静脈センサモデル同定におけるPRNUとの競合としてテクスチャディスクリプタが確立された。

Identifying the origin of a sample image in biometric systems can be beneficial for data authentication in case of attacks against the system and for initiating sensor-specific processing pipelines in sensor-heterogeneous environments. Motivated by shortcomings of the photo response non-uniformity (PRNU) based method in the biometric context, we use a texture classification approach to detect the origin of finger vein sample images. Based on eight publicly available finger vein datasets and applying eight classical yet simple texture descriptors and SVM classification, we demonstrate excellent sensor model identification results for raw finger vein samples as well as for the more challenging region of interest data. The observed results establish texture descriptors as effective competitors to PRNU in finger vein sensor model identification.
翻訳日:2021-02-09 15:40:51 公開日:2021-02-08
# 3次元点雲の学習表現のための点集合距離

Point-set Distances for Learning Representations of 3D Point Clouds ( http://arxiv.org/abs/2102.04014v1 )

ライセンス: Link先を確認
Trung Nguyen, Quang-Hieu Pham, Tam Le, Tung Pham, Nhat Ho, Binh-Son Hua(参考訳) 3Dポイントクラウドの効果的な表現を学ぶには、2つの3Dポイントセット間の不一致を測定するための優れたメトリクスが必要です。 以前の研究のほとんどは、チャンファー差分またはアースモーバー距離を用いるが、これらの測定基準は点雲の違いを測定するのに効果がないか、計算的に高価である。 本稿では,3次元点雲の距離測定実験を広範囲に行ない,系統的な研究を行う。 本研究では、3次元点群の表現を学習するために,スライスされたWasserstein距離と呼ばれるWasserstein距離の変種を使用することを提案する。 実験では、スライスされたWasserstein距離により、ニューラルネットワークはChamferの不一致と比較してより効率的な表現を学ぶことができます。 我々は,ポイントクラウドオートエンコーダ,ジェネレーティブモデリング,トランスファーラーニング,ポイントクラウド登録などの3次元コンピュータビジョンのタスクにおいて,スライスされたワッサースタイン計量の効率を実演する。

Learning an effective representation of 3D point clouds requires a good metric to measure the discrepancy between two 3D point sets, which is non-trivial due to their irregularity. Most of the previous works resort to using the Chamfer discrepancy or Earth Mover's distance, but those metrics are either ineffective in measuring the differences between point clouds or computationally expensive. In this paper, we conduct a systematic study with extensive experiments on distance metrics for 3D point clouds. From this study, we propose to use a variant of the Wasserstein distance, named the sliced Wasserstein distance, for learning representations of 3D point clouds. Experiments show that the sliced Wasserstein distance allows the neural network to learn a more efficient representation compared to the Chamfer discrepancy. We demonstrate the efficiency of the sliced Wasserstein metric on several tasks in 3D computer vision including training a point cloud autoencoder, generative modeling, transfer learning, and point cloud registration.
翻訳日:2021-02-09 15:40:37 公開日:2021-02-08
# ゼロショットスケッチに基づく画像検索のための効率的なフレームワーク

An Efficient Framework for Zero-Shot Sketch-Based Image Retrieval ( http://arxiv.org/abs/2102.04016v1 )

ライセンス: Link先を確認
Osman Tursun, Simon Denman, Sridha Sridharan, Ethan Goan and Clinton Fookes(参考訳) 近年、Zero-shot Sketch-based Image Retrieval(ZS-SBIR)は、実世界のアプリケーション、SBIRで見られるよりも現実的で挑戦的な設定のために、コンピュータビジョンコミュニティの注目を集めています。 ZS-SBIRは、コンテンツベースの画像検索(CBIR)、ゼロショット学習、ドメイン適応など、複数のコンピュータビジョン問題の主な課題を継承する。 ディープニューラルネットワークを用いたこれまでの研究の大部分は、スケッチとイメージを共通の低次元空間に投影するか、見慣れないクラスに知識を移すことによって、よりよい結果を得た。 しかし、これらのアプローチは複数の深層畳み込みニューラルネットワーク(cnns)で構成される複雑なフレームワークで訓練され、カテゴリレベルの単語ラベルに依存する。 これにより、トレーニングリソースとデータセットの要件が増加する。 比較として,高い計算訓練資源を必要とせず,セマンティックな分類ラベルを使わずにデータセットでトレーニングできる,シンプルで効率的なフレームワークを提案する。 さらに、トレーニングと推論の段階では、メソッドは単一のCNNのみを使用します。 本研究では、事前訓練されたImageNet CNN(例:ResNet50)を3つの学習オブジェクト(ドメイン認識四重項損失、セマンティック分類損失、セマンティック知識保存損失)で微調整する。 ZS-SBIRをオブジェクト検出・検証問題として考慮し, 識別的, 意味的, ドメイン不変の特徴を学習するために, ドメイン対応四脚と意味分類の損失を導入した。 ...

Recently, Zero-shot Sketch-based Image Retrieval (ZS-SBIR) has attracted the attention of the computer vision community due to it's real-world applications, and the more realistic and challenging setting than found in SBIR. ZS-SBIR inherits the main challenges of multiple computer vision problems including content-based Image Retrieval (CBIR), zero-shot learning and domain adaptation. The majority of previous studies using deep neural networks have achieved improved results through either projecting sketch and images into a common low-dimensional space or transferring knowledge from seen to unseen classes. However, those approaches are trained with complex frameworks composed of multiple deep convolutional neural networks (CNNs) and are dependent on category-level word labels. This increases the requirements on training resources and datasets. In comparison, we propose a simple and efficient framework that does not require high computational training resources, and can be trained on datasets without semantic categorical labels. Furthermore, at training and inference stages our method only uses a single CNN. In this work, a pre-trained ImageNet CNN (e.g., ResNet50) is fine-tuned with three proposed learning objects: domain-aware quadruplet loss, semantic classification loss, and semantic knowledge preservation loss. The domain-aware quadruplet and semantic classification losses are introduced to learn discriminative, semantic and domain invariant features through considering ZS-SBIR as object detection and verification problem. ...
翻訳日:2021-02-09 15:40:21 公開日:2021-02-08
# 相補的注意と適応的統合によるRGB-D精度検出に向けて

Towards Accurate RGB-D Saliency Detection with Complementary Attention and Adaptive Integration ( http://arxiv.org/abs/2102.04046v1 )

ライセンス: Link先を確認
Hong-Bo Bi, Zi-Qi Liu, Kang Wang, Bo Dong, Geng Chen, Ji-Quan Ma(参考訳) 近年,RGB画像と深度マップの相補的情報に基づく残差検出が盛んに行われている。 本稿では,補完的注意に基づく特徴集中と適応的クロスモーダル特徴融合を統合した新しいRGB-Dサリエンシ検出モデルであるComplementary Attention and Adaptive Integration Network (CAAI-Net)を提案する。 具体的には,機能インタラクションコンポーネント,補完的アテンションコンポーネント,グローバルコンテキストコンポーネントから構成されるコンテキスト対応補完アテンション(CCA)モジュールを提案する。 CCAモジュールは、まず機能インタラクションコンポーネントを使用して、リッチなローカルコンテキスト特徴を抽出する。 結果として生じる特徴は相補的注意コンポーネントに供給され、これは隣接するレベルから生じる相補的注意を利用して、現在の層における注意を導き、相互背景の乱れが抑制され、ネットワークは塩分の多いオブジェクトを持つ領域にもっと焦点を合わせます。 最後に,低品質の深度マップを十分に考慮した特別設計の適応的特徴統合(AFI)モジュールを用いて,RGBおよび深度特徴を適応的に集約する。 6つの困難なベンチマークデータセットに関する広範な実験は、CAAI-Netが効果的なサリエンシー検出モデルであり、4つの広く使用されているメトリクスで9つの最新モデルを上回ることを実証している。 さらに、広範なアブレーション研究は、提案されたCCAおよびAFIモジュールの有効性を確認する。

Saliency detection based on the complementary information from RGB images and depth maps has recently gained great popularity. In this paper, we propose Complementary Attention and Adaptive Integration Network (CAAI-Net), a novel RGB-D saliency detection model that integrates complementary attention based feature concentration and adaptive cross-modal feature fusion into a unified framework for accurate saliency detection. Specifically, we propose a context-aware complementary attention (CCA) module, which consists of a feature interaction component, a complementary attention component, and a global-context component. The CCA module first utilizes the feature interaction component to extract rich local context features. The resulting features are then fed into the complementary attention component, which employs the complementary attention generated from adjacent levels to guide the attention at the current layer so that the mutual background disturbances are suppressed and the network focuses more on the areas with salient objects. Finally, we utilize a specially-designed adaptive feature integration (AFI) module, which sufficiently considers the low-quality issue of depth maps, to aggregate the RGB and depth features in an adaptive manner. Extensive experiments on six challenging benchmark datasets demonstrate that CAAI-Net is an effective saliency detection model and outperforms nine state-of-the-art models in terms of four widely-used metrics. In addition, extensive ablation studies confirm the effectiveness of the proposed CCA and AFI modules.
翻訳日:2021-02-09 15:39:54 公開日:2021-02-08
# 野生の信頼できる確率的顔の埋め込み

Reliable Probabilistic Face Embeddings in the Wild ( http://arxiv.org/abs/2102.04075v1 )

ライセンス: Link先を確認
Kai Chen, Qi Lv, Taihe Yi, Zhengming Yi(参考訳) PFE(probabilistic Face Embeddings)は、データ不確実性を特徴表現に統合することにより、制約のないシナリオにおける顔認識性能を向上させる。 しかし、既存のPFE法は不確実性を推定するには過信であり、大規模な顔マッチングに適用するには遅すぎる。 本稿では,PFEのロバスト性および速度を改善するために,正規化確率的顔埋め込み法を提案する。 具体的には、顔特徴対のマッチングを高速化するために、PFEで使用される相互チャンススコア(MLS)メトリックを単純化する。 次に、ニューラルネットワークの出力を正則化できる不確かさ出力のばらつきをペナルティ化するために、出力-制約損失を提案する。 さらに,MLSの識別精度を向上させるために識別保存損失が提案され,ニューラルネットワークの不確実性推定能力を改善するために多層特徴融合モジュールが提案されている。 包括的実験により,提案手法は最先端手法よりも8つのベンチマークで同等あるいは良好な結果を得ることができ,リスク制御型顔認識の性能向上が期待できることがわかった。 ProbFaceのコードはGitHub(https://githu b.com/KaenChan/ProbF ace)で公開されている。

Probabilistic Face Embeddings (PFE) can improve face recognition performance in unconstrained scenarios by integrating data uncertainty into the feature representation. However, existing PFE methods tend to be over-confident in estimating uncertainty and is too slow to apply to large-scale face matching. This paper proposes a regularized probabilistic face embedding method to improve the robustness and speed of PFE. Specifically, the mutual likelihood score (MLS) metric used in PFE is simplified to speedup the matching of face feature pairs. Then, an output-constraint loss is proposed to penalize the variance of the uncertainty output, which can regularize the output of the neural network. In addition, an identification preserving loss is proposed to improve the discriminative of the MLS metric, and a multi-layer feature fusion module is proposed to improve the neural network's uncertainty estimation ability. Comprehensive experiments show that the proposed method can achieve comparable or better results in 8 benchmarks than the state-of-the-art methods, and can improve the performance of risk-controlled face recognition. The code of ProbFace is publicly available in GitHub (https://github.com/ KaenChan/ProbFace).
翻訳日:2021-02-09 15:39:27 公開日:2021-02-08
# fovの重複を考慮したオンラインクラスタリングによるマルチカメラ車両追跡

Online Clustering-based Multi-Camera Vehicle Tracking in Scenarios with overlapping FOVs ( http://arxiv.org/abs/2102.04091v1 )

ライセンス: Link先を確認
Elena Luna, Juan C. SanMiguel, Jose M. Mart\'inez, and Marcos Escudero-Vi\~nolo(参考訳) マルチターゲットマルチカメラ(MTMC)車両追跡は、インテリジェントトランスポーテーションシステムの主要な研究分野の一つである視覚的交通監視の不可欠な課題である。 このタスクに対処するためにいくつかのオフラインアプローチが提案されているが、レイテンシと処理後の要件が高いため、現実のアプリケーションとは互換性がない。 本稿では,道路交差点など,部分的に重なる視野(FOV)を持つシナリオにおいて,MTMC追跡のための新しい低レイテンシオンラインアプローチを提案する。 まず,提案手法は各カメラの車両を検知する。 そして、外観と位置に基づくクロスカメラクラスタリングを適用することで、カメラ間で検出をマージする。 最後に、同一車両の異なる検出を含むクラスタを時間的に関連付けてフレーム単位のトラックを算出する。 実験では, 軌道の後処理を行なわずに, 未知の, 時間変化のターゲット数などの現実的な課題に対処しながら, 低レイテンシの結果が期待できることを示す。

Multi-Target Multi-Camera (MTMC) vehicle tracking is an essential task of visual traffic monitoring, one of the main research fields of Intelligent Transportation Systems. Several offline approaches have been proposed to address this task; however, they are not compatible with real-world applications due to their high latency and post-processing requirements. In this paper, we present a new low-latency online approach for MTMC tracking in scenarios with partially overlapping fields of view (FOVs), such as road intersections. Firstly, the proposed approach detects vehicles at each camera. Then, the detections are merged between cameras by applying cross-camera clustering based on appearance and location. Lastly, the clusters containing different detections of the same vehicle are temporally associated to compute the tracks on a frame-by-frame basis. The experiments show promising low-latency results while addressing real-world challenges such as the a priori unknown and time-varying number of targets and the continuous state estimation of them without performing any post-processing of the trajectories.
翻訳日:2021-02-09 15:39:10 公開日:2021-02-08
# APS:大規模マルチモード屋内カメラポジショニングシステム

APS: A Large-Scale Multi-Modal Indoor Camera Positioning System ( http://arxiv.org/abs/2102.04139v1 )

ライセンス: Link先を確認
Ali Ghofrani, Rahil Mahdian Toroghi, Seyed Mojtaba Tabatabaie(参考訳) gps信号のアクセシビリティのないクローズドエリア内のナビゲーションは、非常に難しいタスクです。 この問題に対処するため,近年,イメージングベースの手法が多くの研究者の注目を集めている。 これらの方法は特徴(例えば)を抽出する。 SIFT(SOSNet)を使用して、説明的なものをカメラの位置と回転情報にマッピングするか、あるいはPoseNetのようなRGBイメージから直接この情報を推定するエンドツーエンドシステムを展開する。 前者は試験過程において計算負荷が重いが,後者は環境変化や物体の動きに対する精度と頑健さの欠如に悩まされている。 しかしながら、エンドツーエンドのシステムはテストと推論の間は非常に高速で、トレーニングフェーズが以前のシステムよりも長いとしても、現実世界のアプリケーションにはかなり適しています。 本論文では,Pix2Pix GANネットワークを統合して,入力クエリ画像の点群対を深層CNNネットワークで再構築し,カメラの位置と回転情報を堅牢に推定する,大規模屋内測位用マルチモーダルエンドツーエンドシステムであるAPS(Alpha Positioning System)を提案する。 この統合のために、既存のデータセットには、屋内環境向けのペアリングRGB /ポイントクラウドイメージの欠点があります。 そのため、この状況に対処するために新しいデータセットを作成しました。 提案するapsシステムを実装することで,精度1cm未満の高精度カメラ位置決めを実現することができた。

Navigation inside a closed area with no GPS-signal accessibility is a highly challenging task. In order to tackle this problem, recently the imaging-based methods have grabbed the attention of many researchers. These methods either extract the features (e.g. using SIFT, or SOSNet) and map the descriptive ones to the camera position and rotation information, or deploy an end-to-end system that directly estimates this information out of RGB images, similar to PoseNet. While the former methods suffer from heavy computational burden during the test process, the latter suffers from lack of accuracy and robustness against environmental changes and object movements. However, end-to-end systems are quite fast during the test and inference and are pretty qualified for real-world applications, even though their training phase could be longer than the former ones. In this paper, a novel multi-modal end-to-end system for large-scale indoor positioning has been proposed, namely APS (Alpha Positioning System), which integrates a Pix2Pix GAN network to reconstruct the point cloud pair of the input query image, with a deep CNN network in order to robustly estimate the position and rotation information of the camera. For this integration, the existing datasets have the shortcoming of paired RGB/point cloud images for indoor environments. Therefore, we created a new dataset to handle this situation. By implementing the proposed APS system, we could achieve a highly accurate camera positioning with a precision level of less than a centimeter.
翻訳日:2021-02-09 15:38:51 公開日:2021-02-08
# 深層学習のための多レベル距離正規化

Multi-level Distance Regularization for Deep Metric Learning ( http://arxiv.org/abs/2102.04223v1 )

ライセンス: Link先を確認
Yonghyun Kim and Wonpyo Park(参考訳) MDR (Multi-level Distance regularization) と呼ばれる深度計量学習のための新しい距離ベースの正規化手法を提案する。 MDRは、組込みベクトル間の対距離をペア間の類似度を表す複数のレベルに規則化することにより、学習手順を明示的に妨害する。 トレーニング段階では、モデルはMDRと深度メトリクス学習の既存の損失関数の両方で同時に訓練されます。2つの損失はお互いの目的に干渉し、学習プロセスが困難になります。 さらに、MDRは、いくつかの例が学習プロセスで無視または過度に影響を受けないようにします。 これにより、埋め込みネットワークのパラメータがより一般化されたローカルオプティマに落ち着くことができる。 cub-200-2011、cars-196、stanford online products、in-shop clothing retrievalといったベンチマークデータセットでは、単純な三重項損失のmdrが最先端のパフォーマンスを達成している。 MDRの有効性を示すために、その行動に関するアブレーション研究を幅広く実施しています。 我々のMDRを簡単に採用することで、従来のアプローチは性能と一般化能力を向上させることができる。

We propose a novel distance-based regularization method for deep metric learning called Multi-level Distance Regularization (MDR). MDR explicitly disturbs a learning procedure by regularizing pairwise distances between embedding vectors into multiple levels that represents a degree of similarity between a pair. In the training stage, the model is trained with both MDR and an existing loss function of deep metric learning, simultaneously; the two losses interfere with the objective of each other, and it makes the learning process difficult. Moreover, MDR prevents some examples from being ignored or overly influenced in the learning process. These allow the parameters of the embedding network to be settle on a local optima with better generalization. Without bells and whistles, MDR with simple Triplet loss achieves the-state-of-the-art performance in various benchmark datasets: CUB-200-2011, Cars-196, Stanford Online Products, and In-Shop Clothes Retrieval. We extensively perform ablation studies on its behaviors to show the effectiveness of MDR. By easily adopting our MDR, the previous approaches can be improved in performance and generalization ability.
翻訳日:2021-02-09 15:38:28 公開日:2021-02-08
# ディープラーニングを用いたサッカーイベント検出

Soccer Event Detection Using Deep Learning ( http://arxiv.org/abs/2102.04331v1 )

ライセンス: Link先を確認
Ali Karimi, Ramin Toosi, Mohammad Ali Akhaee(参考訳) イベント検出は、ビデオから知識を抽出する重要なステップである。 本稿では,赤と黄色のカードのイメージの区別と,選択したイベントのイメージを他の画像から正しく検出することを強調する,サッカーの試合におけるイベント検出のための深層学習手法を提案する。 i)サッカー画像と他の画像とを区別する可変オートエンコーダ(VAE)モジュール、ii)イベント画像を分類する画像分類モジュール、iii)赤と黄色のカードの画像を分類する微細粒画像分類モジュールの3つのモジュールを含む。 さらに,本論文で紹介したネットワークのトレーニングに使用される,サッカー画像分類のための新しいデータセットも導入された。 最終章では、uefaチャンピオンズリーグの10試合が、ネットワークのパフォーマンスとイベント検出の精度を評価するために使用される。 実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。

Event detection is an important step in extracting knowledge from the video. In this paper, we propose a deep learning approach to detect events in a soccer match emphasizing the distinction between images of red and yellow cards and the correct detection of the images of selected events from other images. This method includes the following three modules: i) the variational autoencoder (VAE) module to differentiate between soccer images and others image, ii) the image classification module to classify the images of events, and iii) the fine-grain image classification module to classify the images of red and yellow cards. Additionally, a new dataset was introduced for soccer images classification that is employed to train the networks mentioned in the paper. In the final section, 10 UEFA Champions League matches are used to evaluate the networks' performance and precision in detecting the events. The experiments demonstrate that the proposed method achieves better performance than state-of-the-art methods.
翻訳日:2021-02-09 15:38:10 公開日:2021-02-08
# 畳み込みニューラルネットワークを用いた高密度物体のカウントとロケート

Counting and Locating High-Density Objects Using Convolutional Neural Network ( http://arxiv.org/abs/2102.04366v1 )

ライセンス: Link先を確認
Mauro dos Santos de Arruda, Lucas Prado Osco, Plabiany Rodrigo Acosta, Diogo Nunes Gon\c{c}alves, Jos\'e Marcato Junior, Ana Paula Marques Ramos, Edson Takashi Matsubara, Zhipeng Luo, Jonathan Li, Jonathan de Andrade Silva, Wesley Nunes Gon\c{c}alves(参考訳) 本稿では,高密度画像中の物体を数えるための畳み込みニューラルネットワーク(CNN)手法を提案する。 私たちの知る限りでは、これは機能マップの強化と信頼度マップの多段階的な洗練に基づく、最初のオブジェクトのカウントと位置付けの方法です。 提案手法は,木と車という2つの計数データセットで評価した。 木データセットでは,2.05の平均絶対誤差(MAE),2.87のルート平均二乗誤差(RMSE),0.986の決定係数(R$^2$)が返された。 カーデータセット(CARPK, PUCPR+)では, 最先端の手法よりも優れていた。 これらのデータセットでは,MAEは4.45,RMSEは6.18,RMSEは4.39,R$^2$は0.975,0.999であった。 提案手法は,高い対象密度の処理に適しており,オブジェクトのカウントと位置決めのための最先端性能を返却する。

This paper presents a Convolutional Neural Network (CNN) approach for counting and locating objects in high-density imagery. To the best of our knowledge, this is the first object counting and locating method based on a feature map enhancement and a Multi-Stage Refinement of the confidence map. The proposed method was evaluated in two counting datasets: tree and car. For the tree dataset, our method returned a mean absolute error (MAE) of 2.05, a root-mean-squared error (RMSE) of 2.87 and a coefficient of determination (R$^2$) of 0.986. For the car dataset (CARPK and PUCPR+), our method was superior to state-of-the-art methods. In the these datasets, our approach achieved an MAE of 4.45 and 3.16, an RMSE of 6.18 and 4.39, and an R$^2$ of 0.975 and 0.999, respectively. The proposed method is suitable for dealing with high object-density, returning a state-of-the-art performance for counting and locating objects.
翻訳日:2021-02-09 15:37:55 公開日:2021-02-08
# TransReID:Transforme rベースのオブジェクト再識別

TransReID: Transformer-based Object Re-Identification ( http://arxiv.org/abs/2102.04378v1 )

ライセンス: Link先を確認
Shuting He, Hao Luo, Pichao Wang, Fan Wang, Hao Li, Wei Jiang(参考訳) 本稿では、オブジェクト再同定(ReID)タスクのための、純粋なトランスフォーマーベースのモデルであるVision Transformer (ViT)について検討する。 いくつかの適応により、ViTをバックボーンとして強力なベースラインであるViT-BoTが構築され、いくつかのReIDベンチマークに基づく畳み込みニューラルネットワーク(CNN-)ベースのフレームワークと匹敵する結果が得られる。 さらに、2つのモジュールはReIDデータの特殊性を考慮して設計されている。(1)トランスフォーマーがカメラや視点などの非視覚情報をベクトル埋め込み表現にエンコードするのは超自然で簡単なことである。 これらの埋め込みをプラグインすることで、ViTは多様なカメラや視点によるバイアスを取り除くことができる。 2)グローバルブランチと並行してjigsawブランチを設計し,二分岐学習フレームワークでモデルのトレーニングを容易にする。 jigsawブランチでは、jigsaw patchモジュールが堅牢な機能表現を学習し、パッチをシャッフルすることでトランスフォーマーのトレーニングを支援するように設計されている。 これらの新しいモジュールにより、TransReIDと呼ばれる純粋なトランスフォーマーフレームワークを提案します。これは、ReID研究のための純粋なトランスフォーマーを私たちの知識を最大限に活用するための最初の仕事です。 TransReIDの実験結果は有望であり、人および車両のReIDベンチマークで最先端の性能を達成する。

In this paper, we explore the Vision Transformer (ViT), a pure transformer-based model, for the object re-identification (ReID) task. With several adaptations, a strong baseline ViT-BoT is constructed with ViT as backbone, which achieves comparable results to convolution neural networks- (CNN-) based frameworks on several ReID benchmarks. Furthermore, two modules are designed in consideration of the specialties of ReID data: (1) It is super natural and simple for Transformer to encode non-visual information such as camera or viewpoint into vector embedding representations. Plugging into these embeddings, ViT holds the ability to eliminate the bias caused by diverse cameras or viewpoints.(2) We design a Jigsaw branch, parallel with the Global branch, to facilitate the training of the model in a two-branch learning framework. In the Jigsaw branch, a jigsaw patch module is designed to learn robust feature representation and help the training of transformer by shuffling the patches. With these novel modules, we propose a pure-transformer framework dubbed as TransReID, which is the first work to use a pure Transformer for ReID research to the best of our knowledge. Experimental results of TransReID are superior promising, which achieve state-of-the-art performance on both person and vehicle ReID benchmarks.
翻訳日:2021-02-09 15:37:37 公開日:2021-02-08
# fNIRSを用いた高齢者のアクティブウォーキングタスクの機械学習に基づく分類

Machine Learning-based Classification of Active Walking Tasks in Older Adults using fNIRS ( http://arxiv.org/abs/2102.03987v1 )

ライセンス: Link先を確認
Dongning Ma, Meltem Izzetoglu, Roee Holtzer, Xun Jiao(参考訳) 歩行能力の低下は高齢者によく見られ、障害や死亡の指標である。 機能的近赤外分光法(fNIRS)によって測定された前頭前皮質における歩行の皮質制御は、二重タスク歩行中に年齢、性別、認知状態、および様々な年齢関連疾患条件によって緩和されることが示されている。 本研究では, FNIRS信号に基づく高齢者のアクティブ歩行タスクを, 単一タスク・ウォーク (STW) またはデュアルタスク・ウォーク (DTW) のどちらかの条件に分類する機械学習手法を用いた分類モデルを開発する。 本研究では, FNIRS信号に基づく高齢者のアクティブウォーキングタスクを, シングルタスクウォーキング (STW) またはデュアルタスクウォーキング (DTW) に分類する機械学習手法を用いた分類モデルを開発する。 fNIRS測定では,前頭前皮質 (PFC) から得られたオキシヘモグロビン (HbO2) とデオキシヘモグロビン (Hb) の信号が, 二次認知タスクの有無にかかわらず, 地上歩行タスクで実行された。 我々は,HbおよびHbo2信号の最小値,最大値,平均値,歪値,曲率を算出し,fNIRS関連特徴を抽出する。 次に、機能エンコーディングを使用して値をバイナリ空間にマッピングします。 これらの特徴を利用して、ロジスティック回帰(LR)、決定木(DT)、サポートベクターマシン(SVM)、k近傍(kNN)、多層パーセプトロン(MLP)、ランダムフォレスト(RF)など、さまざまな機械学習手法を適用し、評価します。 その結果、機械学習モデルが約97\%の分類精度を達成できることが示された。

Decline in gait features is common in older adults and an indicator of disability and mortality. Cortical control of gait, specifically in the pre-frontal cortex as measured by functional near infrared spectroscopy (fNIRS), during dual task walking has shown to be moderated by age, gender, cognitive status, and various age-related disease conditions. In this study, we develop classification models using machine learning methods to classify active walking tasks in older adults based on fNIRS signals into either Single-Task-Walk (STW) or Dual-Task-Walk (DTW) conditions. In this study, we develop classification models using machine learning methods to classify active walking tasks in older adults based on fNIRS signals into either single-task walking (STW) or dual-task walking (DTW). The fNIRS measurements included oxyhemoglobin (HbO2) and deoxyhemoglobin (Hb) signals obtained from prefrontal cortex (PFC) of the subject performing on the ground active walking tasks with or without a secondary cognitive task. We extract the fNIRS-related features by calculating the minimum, maximum, mean, skewness and kurtosis values of Hb and Hbo2 signals. We then use feature encoding to map the values into binary space. Using these features, we apply and evaluate various machine learning methods including logistic regression (LR), decision tree (DT), support vector machine (SVM), k-nearest neighbors (kNN), multilayer perceptron (MLP), and Random Forest (RF). Results showed that the machine learning models can achieve around 97\% classification accuracy.
翻訳日:2021-02-09 15:35:56 公開日:2021-02-08
# 線形帯域と線形RLの準最適表現学習

Near-optimal Representation Learning for Linear Bandits and Linear RL ( http://arxiv.org/abs/2102.04132v1 )

ライセンス: Link先を確認
Jiachen Hu, Xiaoyu Chen, Chi Jin, Lihong Li, Liwei Wang(参考訳) 本稿では,線形値関数近似を用いたマルチタスク線形バンディットとマルチタスクエピソディックRLの表現学習について検討する。 まず、次元 $d$ で $M$ 線形バンディットを同時演奏する設定を考えます。これらのバンディットは、共通の $k$-次元線形表現を共有し、$k\ll d$ と $k \ll M$ になります。 我々は,共有表現を利用したサンプル効率のアルゴリズムMTLR-OFULを提案し,このアルゴリズムは,合計ステップ数として$T$で,$\tilde{O}(M\sqrt{dkT} + d\sqrt{kMT} )$ regretを実現する。 我々の後悔は、各タスクを独立に解くことで達成されるベースライン $\tilde{O}(Md\sqrt{T})$ を著しく改善する。 さらに、$d > M$ のとき、後悔が最適に近いことを示す下界も展開する。 さらに,低固有ベルマン誤差 \citep{zanette2020learning} 下での線形値関数近似を用いたマルチタスクエピソディックRLにアルゴリズムと解析を拡張した。 我々の知る限り、これは関数近似を用いたRL探索におけるマルチタスク表現学習の利点を特徴付ける最初の理論的結果である。

This paper studies representation learning for multi-task linear bandits and multi-task episodic RL with linear value function approximation. We first consider the setting where we play $M$ linear bandits with dimension $d$ concurrently, and these bandits share a common $k$-dimensional linear representation so that $k\ll d$ and $k \ll M$. We propose a sample-efficient algorithm, MTLR-OFUL, which leverages the shared representation to achieve $\tilde{O}(M\sqrt{dkT} + d\sqrt{kMT} )$ regret, with $T$ being the number of total steps. Our regret significantly improves upon the baseline $\tilde{O}(Md\sqrt{T})$ achieved by solving each task independently. We further develop a lower bound that shows our regret is near-optimal when $d > M$. Furthermore, we extend the algorithm and analysis to multi-task episodic RL with linear value function approximation under low inherent Bellman error \citep{zanette2020learning}. To the best of our knowledge, this is the first theoretical result that characterizes the benefits of multi-task representation learning for exploration in RL with function approximation.
翻訳日:2021-02-09 15:35:22 公開日:2021-02-08
# Provable Model-based nonlinear Bandit and Reinforcement Learning: Shelve Optimism, Embrace Virtual Curvature

Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve Optimism, Embrace Virtual Curvature ( http://arxiv.org/abs/2102.04168v1 )

ライセンス: Link先を確認
Kefan Dong, Jiaqi Yang, Tengyu Ma(参考訳) 本稿では,非線形関数近似を用いたモデルベースバンディットと強化学習(RL)について検討する。 そこで本研究では,一層ニューラルネットワークの帯域においても,大域収束が統計的に抑制可能であることを示すため,局所的最大値に近似する収束について検討する。 非線形バンディットとRLの両方に対して、モデルクラスのシーケンシャルなラデマッハ複雑性にのみ依存するサンプルの複雑さで局所的な最大値に確実に収束するモデルベースアルゴリズム、Virtual Ascent with Online Model Learner(ViOL)を提案する。 その結果、有限またはスパースモデルクラスを持つ線形バンディットや2層ニューラルネットバンディットなど、いくつかの具体的設定において、グローバルまたは局所的な後悔境界が新たに現れた。 アルゴリズムの重要な洞察は、楽観主義が二層ニューラルネットワークモデルクラスでも過剰探索につながる可能性があることである。 一方、局所最大化への収束のために、モデルが実際の戻り値の勾配とヘッシアンのサイズを合理的に予測できるならば、仮想リターンを最大化することは十分である。

This paper studies model-based bandit and reinforcement learning (RL) with nonlinear function approximations. We propose to study convergence to approximate local maxima because we show that global convergence is statistically intractable even for one-layer neural net bandit with a deterministic reward. For both nonlinear bandit and RL, the paper presents a model-based algorithm, Virtual Ascent with Online Model Learner (ViOL), which provably converges to a local maximum with sample complexity that only depends on the sequential Rademacher complexity of the model class. Our results imply novel global or local regret bounds on several concrete settings such as linear bandit with finite or sparse model class, and two-layer neural net bandit. A key algorithmic insight is that optimism may lead to over-exploration even for two-layer neural net model class. On the other hand, for convergence to local maxima, it suffices to maximize the virtual return if the model can also reasonably predict the size of the gradient and Hessian of the real return.
翻訳日:2021-02-09 15:34:58 公開日:2021-02-08
# grid-to-graph:フレキシブルな空間リレーショナルインダクティブバイアスによる強化学習

Grid-to-Graph: Flexible Spatial Relational Inductive Biases for Reinforcement Learning ( http://arxiv.org/abs/2102.04220v1 )

ライセンス: Link先を確認
Zhengyao Jiang, Pasquale Minervini, Minqi Jiang, Tim Rocktaschel(参考訳) 近年,多くの領域で強化学習が適用されているが,体系的に一般化できるエージェントはいまだに存在しない。 タスクに適したリレーショナルインダクティブバイアスはrlエージェントの一般化を改善するが、これらのバイアスはエージェントの神経アーキテクチャ内で直接ハードコードされる。 本研究では,関係グラフの形式で符号化された関係帰納バイアスをエージェントに組み込むことができることを示す。 そこで本研究では,R-GCN(Relational Graph Convolution Network)を用いて,グリッド構造からリレーショナルグラフへのマッピングを行い,有用な空間的関係性インダクティブバイアスを記述したGTG(Grid-to-Graph)を提案する。 gtgでは,畳み込みニューラルネットワークに基づくベースラインと,手続き的生成環境やミナタールにおけるニューラルネットワークマシンと比較して,r-gcnsは分布内および分布外の両方において,より汎用的であることを示す。 さらに、GTGは、知識ベースに符号化された観察と環境動態を共同で推論できるエージェントを生成する。

Although reinforcement learning has been successfully applied in many domains in recent years, we still lack agents that can systematically generalize. While relational inductive biases that fit a task can improve generalization of RL agents, these biases are commonly hard-coded directly in the agent's neural architecture. In this work, we show that we can incorporate relational inductive biases, encoded in the form of relational graphs, into agents. Based on this insight, we propose Grid-to-Graph (GTG), a mapping from grid structures to relational graphs that carry useful spatial relational inductive biases when processed through a Relational Graph Convolution Network (R-GCN). We show that, with GTG, R-GCNs generalize better both in terms of in-distribution and out-of-distribution compared to baselines based on Convolutional Neural Networks and Neural Logic Machines on challenging procedurally generated environments and MinAtar. Furthermore, we show that GTG produces agents that can jointly reason over observations and environment dynamics encoded in knowledge bases.
翻訳日:2021-02-09 15:34:32 公開日:2021-02-08
# Mask-GVAE: 分割によるブラインドデノインググラフ

Mask-GVAE: Blind Denoising Graphs via Partition ( http://arxiv.org/abs/2102.04228v1 )

ライセンス: Link先を確認
Jia Li, Mengzhou Liu, Honglei Zhang, Pengyun Wang, Yong Wen, Lujia Pan, Hong Cheng(参考訳) マスク-GVAE(Mask-GVAE)は、大きな離散グラフを視覚的に認知するための変分生成モデルであり、ここでは「ブラインドデノイズ化」はクリーングラフからの監督を必要としないことを意味する。 私たちは、無関係なエッジを削除し、欠落したエッジを追加することによって、グラフ構造を回復することに焦点を当てています。 Mask-GVAEはランダムノイズに対するグラフラプラシアンの低固有ベクトルのロバスト性を利用し、入力グラフをいくつかの安定クラスタに分解する。 そして、確率的滑らかな部分グラフを変分的に復号することで、巨大な計算を利用する。 様々なベンチマークにおいて、Mask-GVAEはPSNRとWLの類似性に大きな差で競合するアプローチより優れている。

We present Mask-GVAE, a variational generative model for blind denoising large discrete graphs, in which "blind denoising" means we don't require any supervision from clean graphs. We focus on recovering graph structures via deleting irrelevant edges and adding missing edges, which has many applications in real-world scenarios, for example, enhancing the quality of connections in a co-authorship network. Mask-GVAE makes use of the robustness in low eigenvectors of graph Laplacian against random noise and decomposes the input graph into several stable clusters. It then harnesses the huge computations by decoding probabilistic smoothed subgraphs in a variational manner. On a wide variety of benchmarks, Mask-GVAE outperforms competing approaches by a significant margin on PSNR and WL similarity.
翻訳日:2021-02-09 15:34:04 公開日:2021-02-08
# TSKファジィニューラルネットワークの次元性に関する一考察:説明と解法

Curse of Dimensionality for TSK Fuzzy Neural Networks: Explanation and Solutions ( http://arxiv.org/abs/2102.04271v1 )

ライセンス: Link先を確認
Yuqi Cui and Dongrui Wu and Yifan Xu(参考訳) 高木sugeno-kang (tsk) fuzzy system with gaussian member function (mfs) は機械学習で最も広く使われているファジィシステムの一つである。 しかし、通常、高次元データセットの処理が困難である。 本稿では,ガウス MF を持つ TSK ファジィ系が高次元入力でフェールする理由を考察する。 脱ファジフィケーションをソフトマックス関数の等価形式に変換した後,ソフトマックスの飽和に起因する性能の低下が判明した。 本論文で最初に提案した2つの解凍操作であるLogTSKとHTSKは飽和を回避することができることを示す。 各種次元のデータセットを用いた実験結果から, LogTSK と HTSK の有効性を検証した。

Takagi-Sugeno-Kang (TSK) fuzzy system with Gaussian membership functions (MFs) is one of the most widely used fuzzy systems in machine learning. However, it usually has difficulty handling high-dimensional datasets. This paper explores why TSK fuzzy systems with Gaussian MFs may fail on high-dimensional inputs. After transforming defuzzification to an equivalent form of softmax function, we find that the poor performance is due to the saturation of softmax. We show that two defuzzification operations, LogTSK and HTSK, the latter of which is first proposed in this paper, can avoid the saturation. Experimental results on datasets with various dimensionalities validated our analysis and demonstrated the effectiveness of LogTSK and HTSK.
翻訳日:2021-02-09 15:33:51 公開日:2021-02-08
# エッジベース機械学習のための通信効率の良いk-Means

Communication-effici ent k-Means for Edge-based Machine Learning ( http://arxiv.org/abs/2102.04282v1 )

ライセンス: Link先を確認
Hanlin Lu, Ting He, Shiqiang Wang, Changchang Liu, Mehrdad Mahdavi, Vijaykrishnan Narayanan, Kevin S. Chan, Stephen Pasteris(参考訳) エッジベースの機械学習では,k-means センタの計算が問題となり,データソースが近くのエッジサーバに機械学習計算をオフロードする。 k-Meansの計算は多くのデータ分析に基本的であり、エッジサーバの計算能力をデータソースへの低通信と計算コストで活用することにより、実証可能な正確なk-meansセンタの計算能力は、これらの分析のパフォーマンスを大幅に向上させます。 そこで本稿では,データソースが共同次元減少 (DR) と濃度減少 (CR) によって生成される小さなサマリーを,複雑さの低減と通信コストの低減による近似k平均計算を支援するために送信することを提案する。 By analyzing the complexity, the communication cost, and the approximation error of k-means algorithms based on state-of-the-art DR/CR methods, we show that: (i) it is possible to achieve a near-optimal approximation at a near-linear complexity and a constant or logarithmic communication cost, (ii) the order of applying DR and CR significantly affects the complexity and the communication cost, and (iii) combining DR/CR methods with a properly configured quantizer can further reduce the communication cost without compromising the other performance metrics. 結果は実データに基づく実験によって検証される。

We consider the problem of computing the k-means centers for a large high-dimensional dataset in the context of edge-based machine learning, where data sources offload machine learning computation to nearby edge servers. k-Means computation is fundamental to many data analytics, and the capability of computing provably accurate k-means centers by leveraging the computation power of the edge servers, at a low communication and computation cost to the data sources, will greatly improve the performance of these analytics. We propose to let the data sources send small summaries, generated by joint dimensionality reduction (DR) and cardinality reduction (CR), to support approximate k-means computation at reduced complexity and communication cost. By analyzing the complexity, the communication cost, and the approximation error of k-means algorithms based on state-of-the-art DR/CR methods, we show that: (i) it is possible to achieve a near-optimal approximation at a near-linear complexity and a constant or logarithmic communication cost, (ii) the order of applying DR and CR significantly affects the complexity and the communication cost, and (iii) combining DR/CR methods with a properly configured quantizer can further reduce the communication cost without compromising the other performance metrics. Our findings are validated through experiments based on real datasets.
翻訳日:2021-02-09 15:33:38 公開日:2021-02-08
# 微分増幅係数に基づくバックプロパゲーションアルゴリズムの導出

Derivation of the Backpropagation Algorithm Based on Derivative Amplification Coefficients ( http://arxiv.org/abs/2102.04320v1 )

ライセンス: Link先を確認
Yiping Cheng(参考訳) ニューラルネットワークのバックプロパゲーションアルゴリズムは、よく書かれた説明や導出が存在するにもかかわらず、広く理解されにくい。 本稿では,微分増幅係数の概念に基づくこのアルゴリズムの新たな導出について述べる。 完全連結カスケードネットワークの著者らによって最初に提案されたこの概念は、従来のフィードフォワードニューラルネットワークにうまく適用され、微分増幅係数のバックプロパゲーションを可能にする重要な結果を確立する上で、数学的帰納的帰納的手法が用いられる。 次に,導関数増幅係数と誤差係数(文献では誤差と呼ぶことが多い)との接続を確立し,同じバックプロパゲーション手順を誤差係数に適用できることを示す。 したがって、全体の導出は厳密で単純でエレガントである。

The backpropagation algorithm for neural networks is widely felt hard to understand, despite the existence of some well-written explanations and/or derivations. This paper provides a new derivation of this algorithm based on the concept of derivative amplification coefficients. First proposed by this author for fully connected cascade networks, this concept is found to well carry over to conventional feedforward neural networks and it paves the way for the use of mathematical induction in establishing a key result that enables backpropagation for derivative amplification coefficients. Then we establish the connection between derivative amplification coefficients and error coefficients (commonly referred to as errors in the literature), and show that the same backpropagation procedure can be used for error coefficients. The entire derivation is thus rigorous, simple, and elegant.
翻訳日:2021-02-09 15:33:19 公開日:2021-02-08
# Tensor関数によるグラフトラバーサル:スケーラブルな学習のためのメタアルゴリズム

Graph Traversal with Tensor Functionals: A Meta-Algorithm for Scalable Learning ( http://arxiv.org/abs/2102.04350v1 )

ライセンス: Link先を確認
Elan Markowitz, Keshav Balasubramanian, Mehrnoosh Mirtaheri, Sami Abu-El-Haija, Bryan Perozzi, Greg Ver Steeg, Aram Galstyan(参考訳) グラフ表現学習(GRL)法は、化学から社会科学までの分野に影響を与えました。 しかし、それらのアルゴリズム実装は特定のユースケースに特化しており、例えばメッセージパッシングメソッドはノード埋め込みメソッドと異なる方法で実行される。 明らかな違いにもかかわらず、これらの方法はグラフ構造を利用するため、それらの学習は確率的グラフトラバーサルで近似することができる。 多様なグラフアルゴリズムの実装を容易にし、大規模グラフへの透過的かつ効率的なスケーリングを可能にする統一メタアルゴリズムフレームワークであるGTTF(Graph Traversal via Tensor Functionals)を提案する。 GTTFはデータ構造(スパーステンソルとして保存)と確率グラフトラバースアルゴリズム(テンソル演算を用いて記述)に基づいて構築される。 このアルゴリズムは2つの関数を受け入れる関数であり、単に2つの関数を変更するだけで、様々なGRLモデルと目的を得るのに特化することができる。 提案手法は多種多様であり,アルゴリズムは偏りのない方法で学習し,期待通り,特定の実装が直接実行されるように学習を近似する。 これらの機能により、既存のGRLライブラリよりも効率的でありながら、大規模なグラフデータセット上で最先端のメソッドを設定するために、スケール不可能なメソッドをスケールします。 GTTFとそのGRL実装は次の通りである。

Graph Representation Learning (GRL) methods have impacted fields from chemistry to social science. However, their algorithmic implementations are specialized to specific use-cases e.g.message passing methods are run differently from node embedding ones. Despite their apparent differences, all these methods utilize the graph structure, and therefore, their learning can be approximated with stochastic graph traversals. We propose Graph Traversal via Tensor Functionals(GTTF), a unifying meta-algorithm framework for easing the implementation of diverse graph algorithms and enabling transparent and efficient scaling to large graphs. GTTF is founded upon a data structure (stored as a sparse tensor) and a stochastic graph traversal algorithm (described using tensor operations). The algorithm is a functional that accept two functions, and can be specialized to obtain a variety of GRL models and objectives, simply by changing those two functions. We show for a wide class of methods, our algorithm learns in an unbiased fashion and, in expectation, approximates the learning as if the specialized implementations were run directly. With these capabilities, we scale otherwise non-scalable methods to set state-of-the-art on large graph datasets while being more efficient than existing GRL libraries - with only a handful of lines of code for each method specialization. GTTF and its various GRL implementations are on: https://github.com/i si-usc-edu/gttf.
翻訳日:2021-02-09 15:33:03 公開日:2021-02-08
# エネルギーによる任意条件分布

Arbitrary Conditional Distributions with Energy ( http://arxiv.org/abs/2102.04426v1 )

ライセンス: Link先を確認
Ryan R. Strauss, Junier B. Oliva(参考訳) 共変量のモデリング分布、すなわち密度推定は教師なし学習の核となる課題である。 しかし、ほとんどの作業は、実際の状況に限定された共同分布のみを考慮に入れている。 より一般的で有用な問題は任意の条件密度推定であり、これは共変体の集合上の任意の可能な条件分布をモデル化し、事前の知識に基づいて推論のより現実的な設定を反映することを目的とする。 特徴 $\mathbf{x}_u$ および $\mathbf{x}_o$ のすべての可能な部分集合に対して、分布 $p(\mathbf{x}_u \mid \mathbf{x}_o)$ を同時に推定できる新手法 Arbitrary conditioning with Energy (ACE) を提案する。 ACEはエネルギー関数を使用して密度を指定し、代替方法によって課されるアーキテクチャ上の制約と、トラクタブルパラメトリック分布によって課されるバイアスをバイパスします。 また,1次元条件のみを学習することで学習問題を単純化し,推論中により複雑な分布を復元する。 実験により、ACEは任意の条件および限界推定および表型データ計算のための最先端技術を実現していることを示す。

Modeling distributions of covariates, or density estimation, is a core challenge in unsupervised learning. However, the majority of work only considers the joint distribution, which has limited relevance to practical situations. A more general and useful problem is arbitrary conditional density estimation, which aims to model any possible conditional distribution over a set of covariates, reflecting the more realistic setting of inference based on prior knowledge. We propose a novel method, Arbitrary Conditioning with Energy (ACE), that can simultaneously estimate the distribution $p(\mathbf{x}_u \mid \mathbf{x}_o)$ for all possible subsets of features $\mathbf{x}_u$ and $\mathbf{x}_o$. ACE uses an energy function to specify densities, bypassing the architectural restrictions imposed by alternative methods and the biases imposed by tractable parametric distributions. We also simplify the learning problem by only learning one-dimensional conditionals, from which more complex distributions can be recovered during inference. Empirically, we show that ACE achieves state-of-the-art for arbitrary conditional and marginal likelihood estimation and for tabular data imputation.
翻訳日:2021-02-09 15:32:37 公開日:2021-02-08
# 局所GAN収束の機能空間解析

Functional Space Analysis of Local GAN Convergence ( http://arxiv.org/abs/2102.04448v1 )

ライセンス: Link先を確認
Valentin Khrulkov, Artem Babenko, Ivan Oseledets(参考訳) 最近の研究は、GANトレーニングを統括する連続時間力学の研究の利点を示した。 しかし、このダイナミクスはモデルパラメータ空間で解析され、その結果有限次元のダイナミクス系となる。 本稿では,一般関数空間における逆訓練の局所的ダイナミクスを研究する新しい視点を提案し,偏微分方程式系として表現できることを示す。 したがって、収束特性は、得られた微分作用素の固有値から推定することができる。 これらの固有値は、トレーニング前にターゲットデータセットから効率的に推定できることを示す。 我々の視点では、勾配ペナルティやデータ拡張、高度な統合スキームなど、GANの安定化に一般的に使用される実践的手法に関するいくつかの知見が明らかになっている。 即効的な利点として、特定の生成タスクに対して最適なデータ拡張戦略を事前選択できることを実証する。

Recent work demonstrated the benefits of studying continuous-time dynamics governing the GAN training. However, this dynamics is analyzed in the model parameter space, which results in finite-dimensional dynamical systems. We propose a novel perspective where we study the local dynamics of adversarial training in the general functional space and show how it can be represented as a system of partial differential equations. Thus, the convergence properties can be inferred from the eigenvalues of the resulting differential operator. We show that these eigenvalues can be efficiently estimated from the target dataset before training. Our perspective reveals several insights on the practical tricks commonly used to stabilize GANs, such as gradient penalty, data augmentation, and advanced integration schemes. As an immediate practical benefit, we demonstrate how one can a priori select an optimal data augmentation strategy for a particular generation task.
翻訳日:2021-02-09 15:32:11 公開日:2021-02-08
# 条件付き述語に基づく言語のための知識コンパイルマップ

A Knowledge Compilation Map for Conditional Preference Statements-based Languages ( http://arxiv.org/abs/2102.04107v1 )

ライセンス: Link先を確認
H\'el\`ene Fargier (IRIT-ADRIA), J\'er\^ome Mengin (IRIT-ADRIA)(参考訳) 条件付き選好ステートメントは、組み合わせドメインに対する選好をコンパクトに表現するために使われてきた。 彼らはCPネットとその一般化、および辞書の好みの木の中核にあります。 いくつかの作品がクエリの複雑さに対処している(最適化、特に支配)。 本稿では,これらの結果のいくつかを拡張し,条件付き選好ステートメントに基づく言語に関する知識コンパイルマップに寄与する等価性など,これまで対処されていない他のクエリについて検討する。 また、いくつかのクエリの複雑さに対して表現性のバランスをとることができる新しいパラメータ付き言語群も導入する。

Conditional preference statements have been used to compactly represent preferences over combinatorial domains. They are at the core of CP-nets and their generalizations, and lexicographic preference trees. Several works have addressed the complexity of some queries (optimization, dominance in particular). We extend in this paper some of these results, and study other queries which have not been addressed so far, like equivalence, thereby contributing to a knowledge compilation map for languages based on conditional preference statements. We also introduce a new parameterised family of languages, which enables to balance expressiveness against the complexity of some queries.
翻訳日:2021-02-09 15:31:19 公開日:2021-02-08
# The FairCeptron: アルゴリズムの公平性の人間の知覚を測定するためのフレームワーク

The FairCeptron: A Framework for Measuring Human Perceptions of Algorithmic Fairness ( http://arxiv.org/abs/2102.04119v1 )

ライセンス: Link先を確認
Georg Ahnert, Ivan Smirnov, Florian Lemmerich, Claudia Wagner, Markus Strohmaier(参考訳) アルゴリズム的公平度の測定は、しばしば異なる社会デモグラフィと利害関係者の間で実質的に異なるフェアネスの人間の知覚を考慮しない。 FairCeptronフレームワークは、ランキングや分類などのアルゴリズムによる意思決定における公平性の認識を研究するためのアプローチである。 i) 公正性の人間の知覚と、(ii) アルゴリズム的公正性の尺度と比較することを支援する。 このフレームワークは、公正シナリオ生成、公正知覚誘発、公正知覚分析を含む。 マイノリティの存在下での公正さに対する人間の認識を収集する仮説的大学入学文脈に適用することで、FairCeptronフレームワークを実証する。 FairCeptronフレームワークの実装は公開されており、他のアプリケーションコンテキストにおけるアルゴリズム的公正性の認識に容易に適応することができる。 我々は,アルゴリズムによる意思決定システムを設計する過程において,人間の公正感研究の役割を高めるための道を開くことを願っている。

Measures of algorithmic fairness often do not account for human perceptions of fairness that can substantially vary between different sociodemographics and stakeholders. The FairCeptron framework is an approach for studying perceptions of fairness in algorithmic decision making such as in ranking or classification. It supports (i) studying human perceptions of fairness and (ii) comparing these human perceptions with measures of algorithmic fairness. The framework includes fairness scenario generation, fairness perception elicitation and fairness perception analysis. We demonstrate the FairCeptron framework by applying it to a hypothetical university admission context where we collect human perceptions of fairness in the presence of minorities. An implementation of the FairCeptron framework is openly available, and it can easily be adapted to study perceptions of algorithmic fairness in other application contexts. We hope our work paves the way towards elevating the role of studies of human fairness perceptions in the process of designing algorithmic decision making systems.
翻訳日:2021-02-09 15:31:11 公開日:2021-02-08
# 変圧器モデルを用いたフェイクサイバー脅威インテリジェンスの生成

Generating Fake Cyber Threat Intelligence Using Transformer-Based Models ( http://arxiv.org/abs/2102.04351v1 )

ライセンス: Link先を確認
Priyanka Ranade, Aritran Piplai, Sudip Mittal, Anupam Joshi, Tim Finin(参考訳) サイバー防衛システムは、半構造化データおよび/またはテキストを含むサイバー脅威インテリジェンス(cti)を自動的に取り込み、知識グラフを投入するために開発されている。 潜在的なリスクは、偽のCTIがオープンソースインテリジェンス(OSINT)コミュニティまたはWebを介して生成および拡散され、これらのシステムにデータ中毒攻撃をもたらす可能性があることです。 敵は偽のCTIの例を、サイバー防衛システムを覆すためのトレーニングインプットとして使うことができ、モデルに悪意のあるニーズを満たすために誤ったインプットを学習させる。 本稿では,変換器を用いて偽のCTIテキスト記述を自動生成する。 gpt-2のように微調整されたパブリック言語モデルが、サイバー防衛システムを破る能力を持つ、妥当なctiテキストを生成することができることを示す。 我々は、生成された偽のCTIテキストを使用して、サイバーセキュリティ知識グラフ(CKG)とサイバーセキュリティコーパスにデータ中毒攻撃を行う。 毒殺攻撃は、不正な推論出力の返却、表現中毒、他のAIベースのサイバー防衛システムによる汚職などの有害な影響をもたらした。 我々は従来のアプローチで評価し,サイバーセキュリティ専門家や脅威ハンターと人間による評価研究を行う。 この研究によると、プロの脅威ハンターは、偽造のCTIを真実とみなす傾向がありました。

Cyber-defense systems are being developed to automatically ingest Cyber Threat Intelligence (CTI) that contains semi-structured data and/or text to populate knowledge graphs. A potential risk is that fake CTI can be generated and spread through Open-Source Intelligence (OSINT) communities or on the Web to effect a data poisoning attack on these systems. Adversaries can use fake CTI examples as training input to subvert cyber defense systems, forcing the model to learn incorrect inputs to serve their malicious needs. In this paper, we automatically generate fake CTI text descriptions using transformers. We show that given an initial prompt sentence, a public language model like GPT-2 with fine-tuning, can generate plausible CTI text with the ability of corrupting cyber-defense systems. We utilize the generated fake CTI text to perform a data poisoning attack on a Cybersecurity Knowledge Graph (CKG) and a cybersecurity corpus. The poisoning attack introduced adverse impacts such as returning incorrect reasoning outputs, representation poisoning, and corruption of other dependent AI-based cyber defense systems. We evaluate with traditional approaches and conduct a human evaluation study with cybersecurity professionals and threat hunters. Based on the study, professional threat hunters were equally likely to consider our fake generated CTI as true.
翻訳日:2021-02-09 15:30:44 公開日:2021-02-08
# 音声認識用エンド・ツー・エンドマルチチャネルトランス

End-to-End Multi-Channel Transformer for Speech Recognition ( http://arxiv.org/abs/2102.03951v1 )

ライセンス: Link先を確認
Feng-Ju Chang, Martin Radfar, Athanasios Mouchtaris, Brian King, and Siegfried Kunzmann(参考訳) トランスフォーマーは、注意メカニズムを使用して異なるモダリティを統合することができる強力な神経アーキテクチャです。 本稿では,多チャンネル音声認識システムにおけるニューラルトランスフォーマーアーキテクチャを活用し,異なるマイクロホンから収集したスペクトル情報と空間情報をアテンション層を用いて統合する。 当社のマルチチャネルトランスネットワークは、主にチャネルワイズセルフアテンション層(CSA)、クロスチャネルアテンション層(CCA)、マルチチャネルエンコーダデコーダアテンション層(EDA)の3つの部分で構成されています。 CSA層とCCA層は、それぞれチャンネル内および時間間のコンテキスト関係を符号化する。 次に、CSAとCCAからのチャネル接続された出力をEDA層に供給して、前者のトークンをデコードするのを助けます。 実験により,遠距離場内データセットにおいて,本手法は,トランスを組み込んだ超指向性・ニューラルビームフォーマと同様に,ベースラインの単一チャネルトランスよりも優れていた。

Transformers are powerful neural architectures that allow integrating different modalities using attention mechanisms. In this paper, we leverage the neural transformer architectures for multi-channel speech recognition systems, where the spectral and spatial information collected from different microphones are integrated using attention layers. Our multi-channel transformer network mainly consists of three parts: channel-wise self attention layers (CSA), cross-channel attention layers (CCA), and multi-channel encoder-decoder attention layers (EDA). The CSA and CCA layers encode the contextual relationship within and between channels and across time, respectively. The channel-attended outputs from CSA and CCA are then fed into the EDA layers to help decode the next token given the preceding ones. The experiments show that in a far-field in-house dataset, our method outperforms the baseline single-channel transformer, as well as the super-directive and neural beamformers cascaded with the transformers.
翻訳日:2021-02-09 15:29:47 公開日:2021-02-08
# 小型データレジームにおけるマルチスケールダイナミクスの物理認識と深い確率的モデリング

Physics-aware, deep probabilistic modeling of multiscale dynamics in the Small Data regime ( http://arxiv.org/abs/2102.04269v1 )

ライセンス: Link先を確認
Sebastian Kaltenbach, Phaedon-Stelios Koutsourelakis(参考訳) 高次元ダイナミクスシステムの効果的な粗粒化(CG)モデルのデータベースの発見は、計算物理学、特にマルチスケール問題におけるユニークな課題である。 本稿では,予測的,低次元粗粒度(CG)変数とそのダイナミクスを同時に同定する確率的視点を提案する。 我々は,cg進化法則の右辺を表現するために,ディープニューラルネットワークの表現能力を利用する。 さらに、物理的な制約(例えば)の形で非常に頻繁に利用できるドメイン知識を実証する。 保存法則)は、仮想観測可能な新しい概念に組み込むことができる。 このような制約は、物理的に現実的な予測に繋がるだけでなく、高次元のマルチスケールシステムに必要なトレーニングデータの量を大幅に削減することができる(小規模データレジーム)。 提案された状態空間モデルは確率的推論ツールを使用して訓練され、他のいくつかの手法とは対照的に、状態変数の詳細な制約(制限)投影や時間導出の処方は不要である。 採用された製剤は、CGプロセスにおける重要で、しばしば無視されるコンポーネントの定量化を可能にする。 情報損失による予測の不確実性。 さらに、完全な微細なシステムの進化を再構築することができるため、関心の観測対象を事前に選択する必要はない。 移動粒子の高次元システムにおいて,提案手法の有効性を実証する。

The data-based discovery of effective, coarse-grained (CG) models of high-dimensional dynamical systems presents a unique challenge in computational physics and particularly in the context of multiscale problems. The present paper offers a probabilistic perspective that simultaneously identifies predictive, lower-dimensional coarse-grained (CG) variables as well as their dynamics. We make use of the expressive ability of deep neural networks in order to represent the right-hand side of the CG evolution law. Furthermore, we demonstrate how domain knowledge that is very often available in the form of physical constraints (e.g. conservation laws) can be incorporated with the novel concept of virtual observables. Such constraints, apart from leading to physically realistic predictions, can significantly reduce the requisite amount of training data which for high-dimensional, multiscale systems are expensive to obtain (Small Data regime). The proposed state-space model is trained using probabilistic inference tools and, in contrast to several other techniques, does not require the prescription of a fine-to-coarse (restriction) projection nor time-derivatives of the state variables. The formulation adopted enables the quantification of a crucial, and often neglected, component in the CG process, i.e. the predictive uncertainty due to information loss. Furthermore, it is capable of reconstructing the evolution of the full, fine-scale system and therefore the observables of interest need not be selected a priori. We demonstrate the efficacy of the proposed framework in a high-dimensional system of moving particles.
翻訳日:2021-02-09 15:29:16 公開日:2021-02-08
# スクラッチからN:M微細構造スパースニューラルネットワークを学習する

Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch ( http://arxiv.org/abs/2102.04010v1 )

ライセンス: Link先を確認
Aojun Zhou, Yukun Ma, Junnan Zhu, Jianbo Liu, Zhijie Zhang, Kun Yuan, Wenxiu Sun, Hongsheng Li(参考訳) 深層ニューラルネットワーク(DNN)におけるスパーシティーは、資源制約環境におけるモデルを圧縮および加速するために広く研究されている。 一般に、ニューラルネットワークに分散した複数の個々の重みをゼロにする非構造化細粒度と、ニューラルネットワークのサブネットワークのブロックを汚染する構造化粗粒度に分けられる。 微細な粒度は高い圧縮比を達成できるが、ハードウェアフレンドリーではないため、速度の利得が制限される。 一方、粗粒度の粗さは、現代のGPUにおける明らかな加速度と十分な性能の両方を同時に達成できない。 本稿では,非構造化細粒度と構造粗粒度の両方のアドバンテージを,特別に設計されたgpu上で同時に維持できるn:m細粒度構造スパースネットワークをスクラッチから検討した。 具体的には、2:4のスパースネットワークはnvidia a100 gpuのパフォーマンス低下なしに2倍のスピードアップを達成できる。 さらに,バニラSTEの最適化における近似勾配の負の影響を軽減するために,スパース精製ストレートスルー推定器(SR-STE)を提案する。 また、トレーニングプロセス中にスパースネットワークのトポロジ変化を測定するために、メトリクスであるSparse Architecture Divergence(SAD)を定義します。 最後に、SR-STEの利点をSADで正当化し、様々なタスクで包括的な実験を行うことでSR-STEの有効性を実証します。 ソースコードとモデルはhttps://github.com/N M-sparsity/NM-sparsi tyで入手できる。

Sparsity in Deep Neural Networks (DNNs) has been widely studied to compress and accelerate the models on resource-constrained environments. It can be generally categorized into unstructured fine-grained sparsity that zeroes out multiple individual weights distributed across the neural network, and structured coarse-grained sparsity which prunes blocks of sub-networks of a neural network. Fine-grained sparsity can achieve a high compression ratio but is not hardware friendly and hence receives limited speed gains. On the other hand, coarse-grained sparsity cannot concurrently achieve both apparent acceleration on modern GPUs and decent performance. In this paper, we are the first to study training from scratch an N:M fine-grained structured sparse network, which can maintain the advantages of both unstructured fine-grained sparsity and structured coarse-grained sparsity simultaneously on specifically designed GPUs. Specifically, a 2:4 sparse network could achieve 2x speed-up without performance drop on Nvidia A100 GPUs. Furthermore, we propose a novel and effective ingredient, sparse-refined straight-through estimator (SR-STE), to alleviate the negative influence of the approximated gradients computed by vanilla STE during optimization. We also define a metric, Sparse Architecture Divergence (SAD), to measure the sparse network's topology change during the training process. Finally, We justify SR-STE's advantages with SAD and demonstrate the effectiveness of SR-STE by performing comprehensive experiments on various tasks. Source codes and models are available at https://github.com/N M-sparsity/NM-sparsi ty.
翻訳日:2021-02-09 15:26:11 公開日:2021-02-08
# ディスプレイ広告におけるクリエイティビティランキングのためのビジュアルプリミティブを用いたハイブリッドバンディットモデル

A Hybrid Bandit Model with Visual Priors for Creative Ranking in Display Advertising ( http://arxiv.org/abs/2102.04033v1 )

ライセンス: Link先を確認
Shiyao Wang, Qi Liu, Tiezheng Ge, Defu Lian and Zhiqiang Zhang(参考訳) クリエイティブは、製品を展示するための電子商取引において大きな役割を果たします。 売り手は通常、包括的なデモンストレーションのために複数のクリエイティブを作成するため、クリックスルーレート〜(CTR)を最大化するために最も魅力的なデザインを表示することが重要です。 この目的のために、現代のレコメンデータシステムは、ユーザが製品を提案するとき、クリエイティブを動的にランク付けする。 しかし,本論文では,従来の製品よりもコールドスタートの問題に苦しむため,まず視覚評価で予測し,次にハイブリッドバンディットモデルによる特殊性に着目して自然に進化する視覚プライオリティを用いたハイブリッドバンディットモデルを提案する。 1) 視覚的な外観に応じて創造性を順序づけるために, リスト毎のランキングロスを組み込んだビジュアルアウェアランキングモデル(vam)を提案する。 2) 先行する視覚評価では, オンラインシナリオを考慮し, 後方推定をより良くするためのハイブリッドバンディットモデル(hbm)が提案されている。 3) 最初の大規模なクリエイティブデータセットであるCreativeRankingが構築され、500万製品から170万以上のクリエイティブと、実際のインプレッションとクリックデータが含まれている。 提案手法の有効性を実証するため,我々のデータセットと公開Mushroomデータセットの両方で大規模な実験を行った。

Creative plays a great important role in e-commerce for exhibiting products. Sellers usually create multiple creatives for comprehensive demonstrations, thus it is crucial to display the most appealing design to maximize the Click-Through Rate~(CTR). For this purpose, modern recommender systems dynamically rank creatives when a product is proposed for a user. However, this task suffers more cold-start problem than conventional products recommendation In this paper, we propose a hybrid bandit model with visual priors which first makes predictions with a visual evaluation, and then naturally evolves to focus on the specialities through the hybrid bandit model. Our contributions are three-fold: 1) We present a visual-aware ranking model (called VAM) that incorporates a list-wise ranking loss for ordering the creatives according to the visual appearance. 2) Regarding visual evaluations as a prior, the hybrid bandit model (called HBM) is proposed to evolve consistently to make better posteriori estimations by taking more observations into consideration for online scenarios. 3) A first large-scale creative dataset, CreativeRanking, is constructed, which contains over 1.7M creatives of 500k products as well as their real impression and click data. Extensive experiments have also been conducted on both our dataset and public Mushroom dataset, demonstrating the effectiveness of the proposed method.
翻訳日:2021-02-09 15:25:42 公開日:2021-02-08
# 自動シーメンス路面電車

The Autonomous Siemens Tram ( http://arxiv.org/abs/2102.04034v1 )

ライセンス: Link先を確認
Andrew W. Palmer, Albi Sema, Wolfram Martens, Peter Rudolph and Wolfgang Waizenegger(参考訳) 本稿では,InnoTrans 2018の展示中にドイツのポツダムで公開された自律シーメンス軌道について述べる。 システムはSiemens Combino路面電車上に構築され、マルチモーダルセンサースイートを使用して車両をローカライズし、交通信号や障害物を検出して対応しました。 ハードウェアの概要と、開発されたローカリゼーション、信号処理、障害処理コンポーネントの概要と、そのパフォーマンスの概要を紹介します。

This paper presents the Autonomous Siemens Tram that was publicly demonstrated in Potsdam, Germany during the InnoTrans 2018 exhibition. The system was built on a Siemens Combino tram and used a multi-modal sensor suite to localize the vehicle, and to detect and respond to traffic signals and obstacles. An overview of the hardware and the developed localization, signal handling, and obstacle handling components is presented, along with a summary of their performance.
翻訳日:2021-02-09 15:25:18 公開日:2021-02-08
# OV$^{2}$SLAM : リアルタイムアプリケーションのための完全かつ汎用的なビジュアルSLAM

OV$^{2}$SLAM : A Fully Online and Versatile Visual SLAM for Real-Time Applications ( http://arxiv.org/abs/2102.04060v1 )

ライセンス: Link先を確認
Maxime Ferrera, Alexandre Eudes, Julien Moras, Martial Sanfourche, Guy Le Besnerais(参考訳) 拡張現実、仮想現実、ロボティクス、自律運転など、多くのVisual SLAMのアプリケーションは、多用途で堅牢で正確なソリューションを必要とし、多くの場合、リアルタイムな機能を備えている。 本稿では,完全オンラインアルゴリズムであるov$^{2}$slamについて述べる。単眼カメラとステレオカメラのセットアップ,数ヘルツから数百ヘルツまでの様々な地図スケールとフレームレートを扱う。 効率的なマルチスレッドアーキテクチャ内での視覚的ローカリゼーションにおける最近の多数の貢献を組み合わせている。 競合するアルゴリズムとの広範な比較は、得られたアルゴリズムの最先端の精度とリアルタイム性能を示している。 コミュニティの利益のために、ソースコード: \url{https://github.com/o v2slam/ov2slam}をリリースします。

Many applications of Visual SLAM, such as augmented reality, virtual reality, robotics or autonomous driving, require versatile, robust and precise solutions, most often with real-time capability. In this work, we describe OV$^{2}$SLAM, a fully online algorithm, handling both monocular and stereo camera setups, various map scales and frame-rates ranging from a few Hertz up to several hundreds. It combines numerous recent contributions in visual localization within an efficient multi-threaded architecture. Extensive comparisons with competing algorithms shows the state-of-the-art accuracy and real-time performance of the resulting algorithm. For the benefit of the community, we release the source code: \url{https://github.com/o v2slam/ov2slam}.
翻訳日:2021-02-09 15:25:09 公開日:2021-02-08
# 視覚特徴検出とマッチングを改善するための学習カメラ利得と露光制御

Learned Camera Gain and Exposure Control for Improved Visual Feature Detection and Matching ( http://arxiv.org/abs/2102.04341v1 )

ライセンス: Link先を確認
Justin Tomasi, Brandon Wagstaff, Steven L. Waslander, Jonathan Kelly(参考訳) 成功するビジュアルナビゲーションは、十分な有用な情報を含む画像のキャプチャに依存する。 本稿では,環境照明の変化を考慮したデータ駆動型手法を検討し,視覚オドメトリー (VO) や視覚同時局在化マッピング (SLAM) に用いる画像の品質を改善する。 重畳み込みニューラルネットワークモデルを訓練し、連続した画像が最大に適合する特徴量を含むように、カメラ利得と露光時間パラメータを予測的に調整する。 私たちのトレーニング信号は、基礎となるvoまたはslamパイプラインから派生しており、その結果、モデルは、その特定のパイプラインでうまく機能するように最適化されます。 私たちは、ネットワークが劇的な照明変化(例えば、道路トンネルへの遷移と出口)を予測し、補償することができる広範な実世界の実験を通じて実証し、競合するカメラパラメータ制御アルゴリズムよりも大幅に多くのインリエリピート機能マッチを維持します。

Successful visual navigation depends upon capturing images that contain sufficient useful information. In this paper, we explore a data-driven approach to account for environmental lighting changes, improving the quality of images for use in visual odometry (VO) or visual simultaneous localization and mapping (SLAM). We train a deep convolutional neural network model to predictively adjust camera gain and exposure time parameters such that consecutive images contain a maximal number of matchable features. The training process is fully self-supervised: our training signal is derived from an underlying VO or SLAM pipeline and, as a result, the model is optimized to perform well with that specific pipeline. We demonstrate through extensive real-world experiments that our network can anticipate and compensate for dramatic lighting changes (e.g., transitions into and out of road tunnels), maintaining a substantially higher number of inlier feature matches than competing camera parameter control algorithms.
翻訳日:2021-02-09 15:24:57 公開日:2021-02-08
# フェデレーションラーニングのためのダブルモーメントSGD

Double Momentum SGD for Federated Learning ( http://arxiv.org/abs/2102.03970v1 )

ライセンス: Link先を確認
An Xu, Heng Huang(参考訳) 連帯学習ではコミュニケーション効率が重要である。 クライアントとサーバ間の通信頻度を減らすためにクライアントで多くのローカルトレーニングステップを実行することは、この問題に対処する一般的な方法です。 しかし、クライアントドリフト問題は非i.i.dとして生じる。 異なるクライアントのデータ分散は、フェデレーション学習のパフォーマンスを著しく低下させる可能性がある。 本研究では,2つの運動量バッファが維持されるフェデレート学習におけるモデル性能を改善するため,DOMOと呼ばれる新しいSGD変種を提案する。 1つのモーメントバッファはサーバ更新方向を追跡し、もう1つはローカル更新方向を追跡する。 本稿では,サーバとローカルモーメントSGDを協調する新しいサーバモーメント融合手法を提案する。 また,サーバと局所運動量sgdの両方に関する最初の理論的解析を行う。 FedAvg よりも DOMO のモデル性能が向上し,既存の学習課題における SGD 変量も向上した。

Communication efficiency is crucial in federated learning. Conducting many local training steps in clients to reduce the communication frequency between clients and the server is a common method to address this issue. However, the client drift problem arises as the non-i.i.d. data distributions in different clients can severely deteriorate the performance of federated learning. In this work, we propose a new SGD variant named as DOMO to improve the model performance in federated learning, where double momentum buffers are maintained. One momentum buffer tracks the server update direction, while the other tracks the local update direction. We introduce a novel server momentum fusion technique to coordinate the server and local momentum SGD. We also provide the first theoretical analysis involving both the server and local momentum SGD. Extensive experimental results show a better model performance of DOMO than FedAvg and existing momentum SGD variants in federated learning tasks.
翻訳日:2021-02-09 15:20:10 公開日:2021-02-08
# エッジ推論のためのタスク指向コミュニケーションの学習:情報基盤アプローチ

Learning Task-Oriented Communication for Edge Inference: An Information Bottleneck Approach ( http://arxiv.org/abs/2102.04170v1 )

ライセンス: Link先を確認
Jiawei Shao, Yuyi Mao, and Jun Zhang(参考訳) 本稿では,ローエンドエッジデバイスがローカルデータサンプルの抽出した特徴ベクトルを処理対象の強力なエッジサーバに送信するエッジ推論のためのタスク指向通信について検討する。 帯域幅が限られているため、低遅延推論のための情報的かつコンパクトな表現にデータをエンコードすることが重要である。 本研究では,データ再構成よりも下流推論タスクを対象として,特徴抽出,ソースコーディング,チャネルコーディングをタスク指向で協調的に最適化する学習ベース通信方式を提案する。 具体的には、インフォメーションボトルネック(IB)フレームワークを利用して、エンコードされた機能のインフォマティリティと推論パフォーマンスの間のレート歪みトレードオフを形式化します。 IB最適化は高次元データに対して計算的に禁止されるため、可変情報ボトルネック(VIB)という変分近似を採用してトラクタブルな上限を構築する。 通信オーバーヘッドを削減するため、VIBフレームワークの前の変動としてスパーシティ誘導分布を利用し、符号化された特徴ベクトルをスパース化します。 さらに,実用的通信システムにおける動的チャネル条件を考慮した動的ニューラルネットワークに基づく可変長特徴符号化方式を提案し,符号化特徴の活性化次元を異なるチャネル条件に適応的に調整する。 大規模実験により,提案したタスク指向通信システムは,ベースライン方式よりも高い速度歪みトレードオフを実現し,動的チャネル条件における特徴伝達遅延を著しく低減することが示された。

This paper investigates task-oriented communication for edge inference, where a low-end edge device transmits the extracted feature vector of a local data sample to a powerful edge server for processing. It is critical to encode the data into an informative and compact representation for low-latency inference given the limited bandwidth. We propose a learning-based communication scheme that jointly optimizes feature extraction, source coding, and channel coding in a task-oriented manner, i.e., targeting the downstream inference task rather than data reconstruction. Specifically, we leverage an information bottleneck (IB) framework to formalize a rate-distortion tradeoff between the informativeness of the encoded feature and the inference performance. As the IB optimization is computationally prohibitive for the high-dimensional data, we adopt a variational approximation, namely the variational information bottleneck (VIB), to build a tractable upper bound. To reduce the communication overhead, we leverage a sparsity-inducing distribution as the variational prior for the VIB framework to sparsify the encoded feature vector. Furthermore, considering dynamic channel conditions in practical communication systems, we propose a variable-length feature encoding scheme based on dynamic neural networks to adaptively adjust the activated dimensions of the encoded feature to different channel conditions. Extensive experiments evidence that the proposed task-oriented communication system achieves a better rate-distortion tradeoff than baseline methods and significantly reduces the feature transmission latency in dynamic channel conditions.
翻訳日:2021-02-09 15:19:56 公開日:2021-02-08
# ガウス過程に基づく関数予測による直接粒子群最適化

Directed particle swarm optimization with Gaussian-process-bas ed function forecasting ( http://arxiv.org/abs/2102.04172v1 )

ライセンス: Link先を確認
Johannes Jakubik, Adrian Binding, Stefan Feuerriegel(参考訳) 粒子群最適化 (PSO) は、探索空間の周りの候補解の集合をランダム化されたステップ長を持つ最もよく知られたグローバルおよびローカルな解へと移動させる反復探索法である。 PSOは、勾配が利用できず、機能評価が高価である実用的なアプリケーションで頻繁に最適化を加速します。 しかし、従来のPSOアルゴリズムは、個々の粒子による観察から客観的関数の潜在的な知識を無視しています。 したがって,ベイズ最適化の概念を引き合いに出し,対象関数の確率的サロゲートモデルを導入する。 すなわち、対象関数の過去の評価にガウス過程を適合させ、その形状を予測し、それに基づいて粒子の動きを適応させる。 計算実験の結果, PSO (\ie, SPSO2011) のベースライン実装は性能に優れていた。 さらに、最先端のサロゲート支援進化アルゴリズムと比較して、いくつかの人気のあるベンチマーク関数の性能が大幅に向上する。 全体として,本アルゴリズムは探索的・搾取的行動に望ましい特性を持つ。

Particle swarm optimization (PSO) is an iterative search method that moves a set of candidate solution around a search-space towards the best known global and local solutions with randomized step lengths. PSO frequently accelerates optimization in practical applications, where gradients are not available and function evaluations expensive. Yet the traditional PSO algorithm ignores the potential knowledge that could have been gained of the objective function from the observations by individual particles. Hence, we draw upon concepts from Bayesian optimization and introduce a stochastic surrogate model of the objective function. That is, we fit a Gaussian process to past evaluations of the objective function, forecast its shape and then adapt the particle movements based on it. Our computational experiments demonstrate that baseline implementations of PSO (\ie, SPSO2011) are outperformed. Furthermore, compared to, state-of-art surrogate-assisted evolutionary algorithms, we achieve substantial performance improvements on several popular benchmark functions. Overall, we find that our algorithm attains desirable properties for exploratory and exploitative behavior.
翻訳日:2021-02-09 15:19:33 公開日:2021-02-08
# エッジ上でバイナリニューラルネットワークトレーニングを実現する

Enabling Binary Neural Network Training on the Edge ( http://arxiv.org/abs/2102.04270v1 )

ライセンス: Link先を確認
Erwei Wang, James J. Davis, Daniele Moro, Piotr Zielinski, Claudionor Coelho, Satrajit Chatterjee, Peter Y. K. Cheung, George A. Constantinides(参考訳) ますます複雑化する機械学習モデルの計算要求は、トレーニングに強力なクラウドベースのインフラストラクチャの使用をしばしば必要とします。 バイナリニューラルネットワークは、高精度な代替手段よりも極端な計算とメモリ節約のために、オンデバイス推論の有望な候補であることが知られている。 本稿では,これらが勾配量子化にも強く耐えられることを示し,現代のモデルのエッジ上でのトレーニングを現実的な現実にする。 本稿では,courbariaux & bengioの標準アプローチに対するメモリフットプリント低減と省エネを示す,低コストなバイナリニューラルネットワークトレーニング戦略を提案する。 後者に対して、偶然のメモリ要件と2-6$\times$のエネルギー消費の低下は、人気のあるデータセットを分類するために訓練されたさまざまな小規模モデルにわたって、同等の時間で同様のテスト精度に達しています。 ResNetE-18のImageNetトレーニングも紹介し、前述の標準よりも3.12$\times$メモリ削減を実現しています。 このような節約は、不要なクラウドオフロードを回避し、レイテンシを低減し、エネルギー効率を高め、プライバシの保護を可能にする。

The ever-growing computational demands of increasingly complex machine learning models frequently necessitate the use of powerful cloud-based infrastructure for their training. Binary neural networks are known to be promising candidates for on-device inference due to their extreme compute and memory savings over higher-precision alternatives. In this paper, we demonstrate that they are also strongly robust to gradient quantization, thereby making the training of modern models on the edge a practical reality. We introduce a low-cost binary neural network training strategy exhibiting sizable memory footprint reductions and energy savings vs Courbariaux & Bengio's standard approach. Against the latter, we see coincident memory requirement and energy consumption drops of 2--6$\times$, while reaching similar test accuracy in comparable time, across a range of small-scale models trained to classify popular datasets. We also showcase ImageNet training of ResNetE-18, achieving a 3.12$\times$ memory reduction over the aforementioned standard. Such savings will allow for unnecessary cloud offloading to be avoided, reducing latency, increasing energy efficiency and safeguarding privacy.
翻訳日:2021-02-09 15:19:19 公開日:2021-02-08
# RL-Scope: 深層強化学習ワークロードのためのクロススタックプロファイリング

RL-Scope: Cross-Stack Profiling for Deep Reinforcement Learning Workloads ( http://arxiv.org/abs/2102.04285v1 )

ライセンス: Link先を確認
James Gleeson, Srivatsan Krishnan, Moshe Gabel, Vijay Janapa Reddi, Eyal de Lara, Gennady Pekhimenko(参考訳) RLは、ロボティクス、データセンター管理、その他のアプリケーションで画期的な進歩を遂げました。 シミュレーションでトレーニングデータを集めること、MLバックエンドに頻繁に移行する高レベルのコード、そしてより小さなニューラルネットワークを含む、本質的にGPUに縛られた教師付き学習(SL)よりも少ないRLワークロードの基本的な構造的な違いを観察します。 RLワークロードのトレーニング時間を説明するために、低レベルのCPU/GPUリソースの使用を高レベルのアルゴリズム操作にスコープするクロススタックプロファイラであるRL-Scopeを提案し、オーバーヘッドのプロファイリングを修正して正確なインサイトを提供する。 RL-Scopeの有用性を詳細なケーススタディで実証します。 まず、RLフレームワークを比較し、MLバックエンドの背後にある基本的な設計選択の影響を定量化する。 次に,異なるシミュレータとrlアルゴリズムを考えることで,トレーニングボトルネックがどのように変化するかを検討する。 最後に、スケールアップワークロードをプロファイリングし、一般的に使用されているツールによって報告されたGPU利用メトリクスがGPU使用を劇的に拡大するのに対して、RL-ScopeはGPUの真のタイムを報告する。 RL-Scopeはオープンソースのツールで、https://github.com/U ofT-EcoSystem/rlscop e で利用できます。

RL has made groundbreaking advancements in robotic, datacenter managements and other applications. Unfortunately, system-level bottlenecks in RL workloads are poorly understood; we observe fundamental structural differences in RL workloads that make them inherently less GPU-bound than supervised learning (SL) including gathering training data in simulation, high-level code that frequently transitions to ML backends, and smaller neural networks. To explain where training time is spent in RL workloads, we propose RL-Scope, a cross-stack profiler that scopes low-level CPU/GPU resource usage to high-level algorithmic operations, and provides accurate insights by correcting for profiling overhead. We demonstrate RL-Scope's utility through in-depth case studies. First, we compare RL frameworks to quantify the effects of fundamental design choices behind ML backends. Next, we survey how training bottlenecks change as we consider different simulators and RL algorithms. Finally, we profile a scale-up workload and demonstrate that GPU utilization metrics reported by commonly-used tools dramatically inflate GPU usage, whereas RL-Scope reports true GPU-bound time. RL-Scope is an open-source tool available at https://github.com/U ofT-EcoSystem/rlscop e .
翻訳日:2021-02-09 15:19:03 公開日:2021-02-08
# 雑音非依存音声強調のための変分オートエンコーダ

Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual Speech Enhancement ( http://arxiv.org/abs/2102.04144v1 )

ライセンス: Link先を確認
Mostafa Sadeghi, Xavier Alameda-Pineda(参考訳) 近年,変分自動エンコーダ(VAE)に基づく教師なし環境では,音声・視覚的音声強調が取り組まれており,トレーニング中はクリーンデータのみを使用して音声生成モデルを訓練し,テスト時にはノイズモデルと組み合わせている。 非負行列分解(NMF)、そのパラメータは監督なしで学習されます。 その結果、提案されたモデルはノイズタイプに無知である。 視覚データがクリーンな場合、オーディオ視覚のVAEベースのアーキテクチャは、通常、オーディオのみのアーキテクチャよりも優れている。 逆は、例えば、クラッターによってビジュアルデータが腐敗した時に起こる。 カメラに面していないスピーカー。 本稿では,これら2つのアーキテクチャの最適な組み合わせを時間を通して求める。 より正確には、マルコフの依存関係を持つ潜在逐次変数を用いて、教師なしの方法で異なるVAEアーキテクチャを切り替える: 変分自動エンコーダ(SwVAE)の切り替えにつながる。 計算難易な後方分布を近似する変動因子化を提案する。 また、モデルパラメータを推定し、音声信号を強化するために、対応する変動予測最大化アルゴリズムを導出する。 私達の実験はSwVAEの有望な性能を示します。

Recently, audio-visual speech enhancement has been tackled in the unsupervised settings based on variational auto-encoders (VAEs), where during training only clean data is used to train a generative model for speech, which at test time is combined with a noise model, e.g. nonnegative matrix factorization (NMF), whose parameters are learned without supervision. Consequently, the proposed model is agnostic to the noise type. When visual data are clean, audio-visual VAE-based architectures usually outperform the audio-only counterpart. The opposite happens when the visual data are corrupted by clutter, e.g. the speaker not facing the camera. In this paper, we propose to find the optimal combination of these two architectures through time. More precisely, we introduce the use of a latent sequential variable with Markovian dependencies to switch between different VAE architectures through time in an unsupervised manner: leading to switching variational auto-encoder (SwVAE). We propose a variational factorization to approximate the computationally intractable posterior distribution. We also derive the corresponding variational expectation-maximiza tion algorithm to estimate the parameters of the model and enhance the speech signal. Our experiments demonstrate the promising performance of SwVAE.
翻訳日:2021-02-09 15:18:04 公開日:2021-02-08
# コミュニティ検出:重み付きグラフの正確な回復

Community Detection: Exact Recovery in Weighted Graphs ( http://arxiv.org/abs/2102.04439v1 )

ライセンス: Link先を確認
Mohammad Esmaeili and Aria Nosratinia(参考訳) コミュニティ検出において,Bernoulli分布から引き出されたエッジを持つ一般確率ブロックモデルの下で,コミュニティ(クラスター)の正確な回復について検討した。 本稿では,コミュニティ依存の手段と分散のガウス分布の集合,あるいはコミュニティ依存の手段の指数分布の集合からグラフエッジを描画する完全グラフにおけるコミュニティの正確な回復について考察する。 それぞれのケースについて,完全回復に必要な条件を記述した新しいセミメトリックを導入する。 必要かつ十分な条件は無症状にタイトです。 解析は不完全で完全連結な重み付きグラフにも拡張される。

In community detection, the exact recovery of communities (clusters) has been mainly investigated under the general stochastic block model with edges drawn from Bernoulli distributions. This paper considers the exact recovery of communities in a complete graph in which the graph edges are drawn from either a set of Gaussian distributions with community-dependent means and variances, or a set of exponential distributions with community-dependent means. For each case, we introduce a new semi-metric that describes sufficient and necessary conditions of exact recovery. The necessary and sufficient conditions are asymptotically tight. The analysis is also extended to incomplete, fully connected weighted graphs.
翻訳日:2021-02-09 15:17:46 公開日:2021-02-08
# 2重残差ニューラルデコーダ : 低複雑さ高機能チャネルデコーダを目指して

Doubly Residual Neural Decoder: Towards Low-Complexity High-Performance Channel Decoding ( http://arxiv.org/abs/2102.03959v1 )

ライセンス: Link先を確認
Siyu Liao, Chunhua Deng, Miao Yin, Bo Yuan(参考訳) 近年、ディープニューラルネットワークはデコード性能を改善するためにチャネル符号化に成功した。 しかし、最先端のニューラルチャネルデコーダは高いデコード性能と低い複雑さを同時に達成できない。 本稿では,この課題を克服するために,二重残存神経デコーダ(DRN)を提案する。 残差入力と残差学習の両方をニューラルチャネルデコーダの設計に統合することにより、DRNは複雑さを低く保ちながらデコード性能を著しく向上させることができる。 広範な実験結果から,drmデコーダのデコード性能,モデルサイズ,計算コストの面では,drmデコーダが最先端デコーダを一貫して上回っていることが示された。

Recently deep neural networks have been successfully applied in channel coding to improve the decoding performance. However, the state-of-the-art neural channel decoders cannot achieve high decoding performance and low complexity simultaneously. To overcome this challenge, in this paper we propose doubly residual neural (DRN) decoder. By integrating both the residual input and residual learning to the design of neural channel decoder, DRN enables significant decoding performance improvement while maintaining low complexity. Extensive experiment results show that on different types of channel codes, our DRN decoder consistently outperform the state-of-the-art decoders in terms of decoding performance, model sizes and computational cost.
翻訳日:2021-02-09 15:15:26 公開日:2021-02-08
# ベイズ統計逆数解法のための新しいディープニューラルネットワーク

Novel Deep neural networks for solving Bayesian statistical inverse ( http://arxiv.org/abs/2102.03974v1 )

ライセンス: Link先を確認
Harbir Antil, Howard C Elman, Akwum Onwunta, Deepanshu Verma(参考訳) 大規模線形および非線形偏微分方程式(PDE)によるベイズ統計逆問題のシミュレーションを検討する。 マルコフ連鎖モンテカルロ (MCMC) アルゴリズムはそのような問題を解決する標準的な手法である。 しかし、MCMC技術は数千のPDE解を必要とするため、計算的に困難である。 本研究の目的は,MCMCルーチン内での前方解に対する分数的なディープニューラルネットワークに基づくアプローチの導入である。 さらに,いくつかの近似誤差推定について検討し,いくつかの数値例を通して,提案手法の効率性を示す。

We consider the simulation of Bayesian statistical inverse problems governed by large-scale linear and nonlinear partial differential equations (PDEs). Markov chain Monte Carlo (MCMC) algorithms are standard techniques to solve such problems. However, MCMC techniques are computationally challenging as they require several thousands of forward PDE solves. The goal of this paper is to introduce a fractional deep neural network based approach for the forward solves within an MCMC routine. Moreover, we discuss some approximation error estimates and illustrate the efficiency of our approach via several numerical examples.
翻訳日:2021-02-09 15:15:13 公開日:2021-02-08
# 動的ユーザ行動を考慮した推薦システムのモンテカルロロールアウト政策

Monte Carlo Rollout Policy for Recommendation Systems with Dynamic User Behavior ( http://arxiv.org/abs/2102.04321v1 )

ライセンス: Link先を確認
Rahul Meshram and Kesav Kaza(参考訳) 我々は,隠れマルコフマルチステートレスレスレスレス・マルチアーム・バンディット問題を用いてオンラインレコメンデーションシステムをモデル化する。 そこで,モンテカルロのロールアウト政策を提案する。 モンテカルロロールアウト政策が特定の構造を持たない任意の遷移ダイナミクスの筋電図政策よりも優れていることを数値的に示す。 しかし、遷移ダイナミクスに何らかの構造を課すと、筋電図ポリシーはモンテカルロのロールアウトポリシーよりも優れています。

We model online recommendation systems using the hidden Markov multi-state restless multi-armed bandit problem. To solve this we present Monte Carlo rollout policy. We illustrate numerically that Monte Carlo rollout policy performs better than myopic policy for arbitrary transition dynamics with no specific structure. But, when some structure is imposed on the transition dynamics, myopic policy performs better than Monte Carlo rollout policy.
翻訳日:2021-02-09 15:14:59 公開日:2021-02-08
# スライスベースセットネットワークによる脳年齢推定の改善

Improved Brain Age Estimation with Slice-based Set Networks ( http://arxiv.org/abs/2102.04438v1 )

ライセンス: Link先を確認
Umang Gupta, Pradeep Lam, Greg Ver Steeg, Paul Thompson(参考訳) 神経画像データのディープラーニングは、有望だが挑戦的な方向だ。 3D MRIスキャンの高次元性は、この取り組みを計算とデータ集約にします。 従来の3Dニューロイメージング手法では、多数のパラメータを持つ3D-CNNベースのアーキテクチャを使用し、トレーニングにより多くの時間とデータを必要とする。 近年、2dスライスベースのモデルは、パラメータが少なく、同等の性能を達成するためにサンプルが少ないため、注目を集めている。 本稿では,Brainage予測のための新しいアーキテクチャを提案する。 提案されたアーキテクチャは、各2DスライスをMRIに深い2D-CNNモデルでエンコードすることで機能する。 次に、セットネットワークまたは置換不変層を用いて、これらの2Dスライス符号化の情報を組み合わせる。 ブリティッシュ・バイオバンク・データセットを用いたブレネージ予測問題の実験は、置換不変層を持つモデルがより高速に学習し、他の最先端のアプローチよりも優れた予測を提供することを示した。

Deep Learning for neuroimaging data is a promising but challenging direction. The high dimensionality of 3D MRI scans makes this endeavor compute and data-intensive. Most conventional 3D neuroimaging methods use 3D-CNN-based architectures with a large number of parameters and require more time and data to train. Recently, 2D-slice-based models have received increasing attention as they have fewer parameters and may require fewer samples to achieve comparable performance. In this paper, we propose a new architecture for BrainAGE prediction. The proposed architecture works by encoding each 2D slice in an MRI with a deep 2D-CNN model. Next, it combines the information from these 2D-slice encodings using set networks or permutation invariant layers. Experiments on the BrainAGE prediction problem, using the UK Biobank dataset, showed that the model with the permutation invariant layers trains faster and provides better predictions compared to other state-of-the-art approaches.
翻訳日:2021-02-09 15:14:51 公開日:2021-02-08
# ニューラルネットワークを用いた全天CMB角パワースペクトラムのアンバイアス推定法

An Unbiased Estimator of the Full-sky CMB Angular Power Spectrum using Neural Networks ( http://arxiv.org/abs/2102.04327v1 )

ライセンス: Link先を確認
Pallav Chanda, Rajib Saha(参考訳) 宇宙マイクロ波背景(CMB)角電力スペクトルの正確な推定は、それが提示する精密宇宙論の見通しのために魅力的です。 しかし、銀河フォアグラウンドの放出はCMB信号を汚染し、CMB温度推定の系統的な誤差を減らすために確実に減算する必要がある。 通常、地域の明るいフォアグラウンドは、フォアグラウンド除去技術が実行された後も、エリア内の温度推定のさらなる不確実性をもたらし、従って基礎となるフルスカイ角パワースペクトルの決定は困難をもたらす。 本研究では,CMB温度を隠蔽した部分空の観測角パワースペクトルから,人工ニューラルネットワークを用いて全天CMB温度マップの角パワースペクトルを予測することの実現可能性について検討する。 2つの異なるマスクを持つ大きな角スケールで解析を行う。 ニューラルネットワークを用いて、全天角電力スペクトルと基礎となる理論的電力スペクトルの偏見のない予測を生成する。 私たちの予測も、かなり関連性がない。 さらに、annによるフルスカイスペクトルの予測の多極・多極共分散は疑似$c_l$法を用いて得られた推定値よりもはるかに小さいことを示した。

Accurate estimation of the Cosmic Microwave Background (CMB) angular power spectrum is enticing due to the prospect for precision cosmology it presents. Galactic foreground emissions, however, contaminate the CMB signal and need to be subtracted reliably in order to lessen systematic errors on the CMB temperature estimates. Typically bright foregrounds in a region lead to further uncertainty in temperature estimates in the area even after some foreground removal technique is performed and hence determining the underlying full-sky angular power spectrum poses a challenge. We explore the feasibility of utilizing artificial neural networks to predict the angular power spectrum of the full sky CMB temperature maps from the observed angular power spectrum of the partial sky in which CMB temperatures in some bright foreground regions are masked. We present our analysis at large angular scales with two different masks. We produce unbiased predictions of the full-sky angular power spectrum and the underlying theoretical power spectrum using neural networks. Our predictions are also uncorrelated to a large extent. We further show that the multipole-multipole covariances of the predictions of the full-sky spectra made by the ANNs are much smaller than those of the estimates obtained using the method of pseudo-$C_l$.
翻訳日:2021-02-09 15:14:35 公開日:2021-02-08
# (参考訳) SLUA:クロスリンガルコントラスト学習による超軽量非教師付きワードアライメントモデル [全文訳有]

SLUA: A Super Lightweight Unsupervised Word Alignment Model via Cross-Lingual Contrastive Learning ( http://arxiv.org/abs/2102.04009v1 )

ライセンス: CC0 1.0
Di Wu, Liang Ding, Shuo Yang, Dacheng Tao(参考訳) ダウンストリームの言語間理解と生成タスクには,単語アライメントが不可欠だ。 近年, ニューラルワードアライメントモデルの性能は統計的モデルの性能を上回っている。 しかし、それらは高度な翻訳モデルに大きく依存している。 本研究では,コントラスト学習目的に訓練された双方向対称的注意点を導入した超軽量非教師なし単語アライメント(slua)モデルを提案し,アライメントが鏡型対称性仮説に従うようにアライメントマップをバインドするために合意損失を用いる。 いくつかの公開ベンチマークにおける実験結果から,本モデルの性能は,単語アライメントにおける技術水準と比較して,平均的なトレーニング時間と復号時間を大幅に削減しながら,競争力を発揮できることが示されている。 さらなるアブレーション分析とケーススタディは,提案したSLUAの優位性を示している。 特に,二言語の単語埋め込みと単語アライメントを統一する先駆的な試みとして認識した。 提案手法は,Transformerベースのアライメント手法と比較して,GIZA++に対する16.4倍の高速化と50倍のパラメータ圧縮を実現している。 コミュニティを促進するためにコードをリリースします。

Word alignment is essential for the down-streaming cross-lingual language understanding and generation tasks. Recently, the performance of the neural word alignment models has exceeded that of statistical models. However, they heavily rely on sophisticated translation models. In this study, we propose a super lightweight unsupervised word alignment (SLUA) model, in which bidirectional symmetric attention trained with a contrastive learning objective is introduced, and an agreement loss is employed to bind the attention maps, such that the alignments follow mirror-like symmetry hypothesis. Experimental results on several public benchmarks demonstrate that our model achieves competitive, if not better, performance compared to the state of the art in word alignment while significantly reducing the training and decoding time on average. Further ablation analysis and case studies show the superiority of our proposed SLUA. Notably, we recognize our model as a pioneer attempt to unify bilingual word embedding and word alignments. Encouragingly, our approach achieves 16.4x speedup against GIZA++, and 50x parameter compression} compared with the Transformer-based alignment methods. We will release our code to facilitate the community.
翻訳日:2021-02-09 15:13:47 公開日:2021-02-08
# (参考訳) 学習アルゴリズムにおけるアンダーフィッティングの不確定性 [全文訳有]

Undecidability of Underfitting in Learning Algorithms ( http://arxiv.org/abs/2102.02850v2 )

ライセンス: CC BY-SA 4.0
Sonia Sehra, David Flores, George D. Montanez(参考訳) 近年の機械学習の結果から,エンコード可能な学習アルゴリズムがデータセットに常に不適合であるかどうかを判断することは,無制限のトレーニング時間が与えられたとしても決定不可能であることを示す。 境界学習アルゴリズム適合のための情報理論および確率的戦略を含む、この結果の重要性とさらなる研究のための潜在的なトピックについて議論する。

Using recent machine learning results that present an information-theoreti c perspective on underfitting and overfitting, we prove that deciding whether an encodable learning algorithm will always underfit a dataset, even if given unlimited training time, is undecidable. We discuss the importance of this result and potential topics for further research, including information-theoreti c and probabilistic strategies for bounding learning algorithm fit.
翻訳日:2021-02-09 11:55:04 公開日:2021-02-08
# Sliced Stein Disrepancy のためのアクティブスライス

Active Slices for Sliced Stein Discrepancy ( http://arxiv.org/abs/2102.03159v2 )

ライセンス: Link先を確認
Wenbo Gong, Kaibo Zhang, Yingzhen Li, Jos\'e Miguel Hern\'andez-Lobato(参考訳) Sliced Stein discrepancy (SSD)とそのカーネル化された変種は、良好なテストと高次元でのモデル学習において有望な成功を収めた。 理論上の優雅さにもかかわらず、その経験的性能は2つの分布を区別する最適なスライシング方向の探索に大きく依存する。 残念ながら、このタスクに対する従来の勾配に基づく最適化アプローチは、計算コストが高く、初期化に敏感であり、収束の理論的保証が欠如している。 これらの問題を2つのステップで解決する。 まず,ssdのカーネル化バージョンにおける最適スライシング方向の使用要件を緩和し,有限ランダムスライシング方向による結果の不一致を検証できることを示す理論的結果を提供する。 第2に,良好なスライシング方向が実用的性能に不可欠であることを踏まえ,能動部分空間構成とスペクトル分解の考え方に基づくスライシング方向を求める高速アルゴリズムを提案する。 適合性テストとモデル学習の実験は、我々のアプローチが性能の向上とより高速な収束の両方を達成することを示している。 特に,グラデーションベースの代替品と比較した場合,14~80倍の速度アップを示す。

Sliced Stein discrepancy (SSD) and its kernelized variants have demonstrated promising successes in goodness-of-fit tests and model learning in high dimensions. Despite their theoretical elegance, their empirical performance depends crucially on the search of optimal slicing directions to discriminate between two distributions. Unfortunately, previous gradient-based optimisation approaches for this task return sub-optimal results: they are computationally expensive, sensitive to initialization, and they lack theoretical guarantees for convergence. We address these issues in two steps. First, we provide theoretical results stating that the requirement of using optimal slicing directions in the kernelized version of SSD can be relaxed, validating the resulting discrepancy with finite random slicing directions. Second, given that good slicing directions are crucial for practical performance, we propose a fast algorithm for finding such slicing directions based on ideas of active sub-space construction and spectral decomposition. Experiments on goodness-of-fit tests and model learning show that our approach achieves both improved performance and faster convergence. Especially, we demonstrate a 14-80x speed-up in goodness-of-fit tests when comparing with gradient-based alternatives.
翻訳日:2021-02-09 11:46:54 公開日:2021-02-08
# 変異型オートエンコーダを用いた植物病分類の解明

Achieving Explainability for Plant Disease Classification with Disentangled Variational Autoencoders ( http://arxiv.org/abs/2102.03082v2 )

ライセンス: Link先を確認
Harshana Habaragamuwa, Yu Oishi, Kenichi Tanaka(参考訳) 農業画像認識タスクは、深層学習(DL)にますます依存している。 優れた性能にもかかわらず、DLが意思決定にどのようなロジックや特徴を使うのかを理解するのは難しい。 これは、分類タスクなどの意思決定で使用される論理や特徴を知ることが、検証、アルゴリズムの改善、データ改善のトレーニング、知識抽出などにおいて非常に重要であるため、dlベースの画像認識手法の実装と開発への道のりとなった。 このような問題を解決するため,我々は,最も重要な特徴の位置だけでなく,その特徴のバリエーションも示すことのできる,変分オートエンコーダアーキテクチャに基づく分類法を開発した。 プラントビレッジデータセットを用いて, 分類の精度を犠牲にすることなく, 許容できるレベルの説明可能性を達成した。 提案手法は一部の作物で疾患診断のために試験されたが、他の作物や他の画像分類タスクにも拡張できる。 今後は、この説明可能な人工知能アルゴリズムを、ジャガイモブラックレッグ病やジャガイモウイルスY(PVY)の同定などの疾患識別タスクや、その他の画像分類タスクに活用していきたいと考えています。

Agricultural image recognition tasks are becoming increasingly dependent on deep learning (DL). Despite its excellent performance, it is difficult to comprehend what type of logic or features DL uses in its decision making. This has become a roadblock for the implementation and development of DL-based image recognition methods because knowing the logic or features used in decision making, such as in a classification task, is very important for verification, algorithm improvement, training data improvement, knowledge extraction, etc. To mitigate such problems, we developed a classification method based on a variational autoencoder architecture that can show not only the location of the most important features but also what variations of that particular feature are used. Using the PlantVillage dataset, we achieved an acceptable level of explainability without sacrificing the accuracy of the classification. Although the proposed method was tested for disease diagnosis in some crops, the method can be extended to other crops as well as other image classification tasks. In the future, we hope to use this explainable artificial intelligence algorithm in disease identification tasks, such as the identification of potato blackleg disease and potato virus Y (PVY), and other image classification tasks.
翻訳日:2021-02-09 11:46:09 公開日:2021-02-08
# 高次元Wasserstein測地学を学ぶ

Learning High Dimensional Wasserstein Geodesics ( http://arxiv.org/abs/2102.02992v2 )

ライセンス: Link先を確認
Shu Liu, Shaojun Ma, Yongxin Chen, Hongyuan Zha, Haomin Zhou(参考訳) 2つの確率分布を高次元で計算するための新しい定式化と学習戦略を提案する。 最適輸送(OT)問題の動的定式化にラグランジュ乗算器の手法を適用することにより、サドル点がWasserstein測地線であるミニマックス問題を導出する。 次に,深層ニューラルネットワークを用いて関数をパラメトリ化し,学習のためのサンプルベース双方向学習アルゴリズムを設計する。 訓練されたネットワークは、Wasserstein測地線からのサンプリングを可能にします。 副生成物として、アルゴリズムはワッサーシュタイン距離と限界分布間のOTマップも計算する。 合成データとリアルデータの両方を用いた一連の実験により、アルゴリズムの性能を実証します。

We propose a new formulation and learning strategy for computing the Wasserstein geodesic between two probability distributions in high dimensions. By applying the method of Lagrange multipliers to the dynamic formulation of the optimal transport (OT) problem, we derive a minimax problem whose saddle point is the Wasserstein geodesic. We then parametrize the functions by deep neural networks and design a sample based bidirectional learning algorithm for training. The trained networks enable sampling from the Wasserstein geodesic. As by-products, the algorithm also computes the Wasserstein distance and OT map between the marginal distributions. We demonstrate the performance of our algorithms through a series of experiments with both synthetic and realistic data.
翻訳日:2021-02-09 11:45:48 公開日:2021-02-08
# コミュニティディスカバリーのための高次情報融合による自己監督型ディープグラフ埋め込み

Self-Supervised Deep Graph Embedding with High-Order Information Fusion for Community Discovery ( http://arxiv.org/abs/2102.03302v2 )

ライセンス: Link先を確認
Shuliang Xu, Shenglan Liu, Lin Feng(参考訳) ディープグラフ埋め込みは、コミュニティ発見の重要なアプローチである。 自己教師機構を持つディープグラフニューラルネットワークは、ラベルなしおよび非構造化グラフデータからノードの低次元埋め込みベクトルを得ることができる。 グラフの高次情報は、ノードの表現学習により多くの構造情報を提供することができる。 しかし、ほとんどの自己監視型グラフニューラルネットワークは、隣接行列をグラフの入力トポロジ情報としてのみ使用し、グラフニューラルネットワークの層数がかなり限られているため、高階情報を得ることができない。 レイヤーが多すぎると、過度の平滑化の現象が現れます。 したがって、浅層グラフニューラルネットワークによるグラフの高次情報取得と融合は重要な課題である。 本稿では,コミュニティ発見のための自己監視機構を備えたディープグラフ埋め込みアルゴリズムを提案する。 提案アルゴリズムは,複数のディープグラフ畳み込みニューラルネットワークを訓練するために,自己監視機構とグラフの異なる高階情報を用いる。 複数のグラフ畳み込みニューラルネットワークの出力を融合して、グラフの属性と構造情報を含むノードの表現を抽出します。 また、トレーニングプロセスにデータ拡張と負サンプリングを導入することにより、埋め込み結果の改善が容易になる。 提案アルゴリズムと比較アルゴリズムは5つの実験データセット上で実行される。 実験の結果,提案アルゴリズムは,最も実験的なデータセットにおける比較アルゴリズムよりも優れていることがわかった。 実験結果は,提案アルゴリズムがコミュニティ発見に有効なアルゴリズムであることを示した。

Deep graph embedding is an important approach for community discovery. Deep graph neural network with self-supervised mechanism can obtain the low-dimensional embedding vectors of nodes from unlabeled and unstructured graph data. The high-order information of graph can provide more abundant structure information for the representation learning of nodes. However, most self-supervised graph neural networks only use adjacency matrix as the input topology information of graph and cannot obtain too high-order information since the number of layers of graph neural network is fairly limited. If there are too many layers, the phenomenon of over smoothing will appear. Therefore how to obtain and fuse high-order information of graph by a shallow graph neural network is an important problem. In this paper, a deep graph embedding algorithm with self-supervised mechanism for community discovery is proposed. The proposed algorithm uses self-supervised mechanism and different high-order information of graph to train multiple deep graph convolution neural networks. The outputs of multiple graph convolution neural networks are fused to extract the representations of nodes which include the attribute and structure information of a graph. In addition, data augmentation and negative sampling are introduced into the training process to facilitate the improvement of embedding result. The proposed algorithm and the comparison algorithms are conducted on the five experimental data sets. The experimental results show that the proposed algorithm outperforms the comparison algorithms on the most experimental data sets. The experimental results demonstrate that the proposed algorithm is an effective algorithm for community discovery.
翻訳日:2021-02-09 11:45:37 公開日:2021-02-08
# スマートコントラクトによるスマートプルーフ: 分散型市場による簡潔かつ情報的数学的デリベーション

Smart Proofs via Smart Contracts: Succinct and Informative Mathematical Derivations via Decentralized Markets ( http://arxiv.org/abs/2102.03044v2 )

ライセンス: Link先を確認
Sylvain Carr\'e, Franck Gabriel, Cl\'ement Hongler, Gustavo Lacerda, and Gloria Capano(参考訳) 現代の数学は証明を形式的証明に翻訳し、その妥当性は客観的な問題であり、コンピュータによって決定可能であるという考えに基づいている。 しかし実際には、証明は非公式であり、多くの詳細を省略することができる。 エージェントは、機械検証可能な証明に拡張できると信頼できる場合、証明を有効とみなす。 したがって、証明の妥当性は主観的な問題となり、解決が難しい議論につながる可能性がある。 したがって、有効な証明の概念は明確に定義されているが、妥当性を確立するプロセスはそれ自体が複雑なマルチエージェント問題である。 SPRIGプロトコルを紹介します。 SPRIGは、エージェントが簡潔で情報的な証明を分散的に提案し、検証することを可能にする。信頼は、エージェントが証明ステップで詳細を要求できることによって確立される。 バウンティとステークの構造は、誠実に行動するためにエージェントにインセンティブを与えるように設定されています。 本研究では,SPRIGのゲーム理論的議論を提案し,様々な情報を持つエージェントがどのように相互作用するかを示し,適切な詳細レベルの証明木と誤った証明の無効化につながり,様々な攻撃に対するレジリエンスについて議論する。 次に、単純化されたモデルを分析し、その平衡を特徴付け、エージェントの信頼レベルを計算する。 SPRIGはブロックチェーンプラットフォーム上でスマートコントラクトとして動作するように設計されている。 これにより、匿名のエージェントが検証討論に参加し、情報に貢献することができる。 スマートコントラクトはインタラクションを仲介し、議論を解決し、賞金と持分が指定された通りに支払われることを保証します。 SPRIGは、オープン問題に対するバウンティの発行、デリバティブ市場の創出など、新しいアプリケーションを可能にし、証明に関連するより多くの情報をエージェントが注入できるようにします。

Modern mathematics is built on the idea that proofs should be translatable into formal proofs, whose validity is an objective question, decidable by a computer. Yet, in practice, proofs are informal and may omit many details. An agent considers a proof valid if they trust that it could be expanded into a machine-verifiable proof. A proof's validity can thus become a subjective matter and lead to a debate, which may be difficult to settle. Hence, while the concept of valid proof is well-defined, the process to establish validity is itself a complex multi-agent problem. We introduce the SPRIG protocol. SPRIG allows agents to propose and verify succinct and informative proofs in a decentralized fashion; the trust is established by agents being able to request more details in the proof steps; debates, if they arise, must isolate details of proofs and, if they persist, go down to machine-level details, where they are automatically settled. A structure of bounties and stakes is set to incentivize agents to act in good faith. We propose a game-theoretic discussion of SPRIG, showing how agents with various types of information interact, leading to a proof tree with an appropriate level of detail and to the invalidation of wrong proofs, and we discuss resilience against various attacks. We then analyze a simplified model, characterize its equilibria and compute the agents' level of trust. SPRIG is designed to run as a smart contract on a blockchain platform. This allows anonymous agents to participate in the verification debate, and to contribute with their information. The smart contract mediates the interactions, settles debates, and guarantees that bounties and stakes are paid as specified. SPRIG enables new applications, such as the issuance of bounties for open problems, and the creation of derivatives markets, allowing agents to inject more information pertaining to proofs.
翻訳日:2021-02-09 11:45:16 公開日:2021-02-08
# テンソル特性と分子スペクトルの予測のための等変メッセージパッシング

Equivariant message passing for the prediction of tensorial properties and molecular spectra ( http://arxiv.org/abs/2102.03150v2 )

ライセンス: Link先を確認
Kristof T. Sch\"utt, Oliver T. Unke, Michael Gastegger(参考訳) メッセージパッシングニューラルネットワークは、特に化学特性の予測と分子動力学研究の加速をグラフ上で学習する方法として選択されている。 大規模なトレーニングデータセットに容易にスケールできるが、以前のアプローチでは、カーネルメソッドよりもデータ効率が低いことが証明されている。 不変表現の限界を主要な理由として特定し、メッセージ通過式を回転同値表現に拡張する。 そこで本研究では, 分極性原子間相互作用ニューラルネットワーク (PaiNN) を提案し, 従来のネットワークよりも一般的な分子ベンチマークを改善し, モデルサイズと推論時間を短縮した。 PaiNN によって得られる同値の原子回り表現をテンソル特性の予測に活用する。 最後に、これを分子スペクトルのシミュレーションに適用し、電子構造基準と比較して4-5桁の速度向上を達成する。

Message passing neural networks have become a method of choice for learning on graphs, in particular the prediction of chemical properties and the acceleration of molecular dynamics studies. While they readily scale to large training data sets, previous approaches have proven to be less data efficient than kernel methods. We identify limitations of invariant representations as a major reason and extend the message passing formulation to rotationally equivariant representations. On this basis, we propose the polarizable atom interaction neural network (PaiNN) and improve on common molecule benchmarks over previous networks, while reducing model size and inference time. We leverage the equivariant atomwise representations obtained by PaiNN for the prediction of tensorial properties. Finally, we apply this to the simulation of molecular spectra, achieving speedups of 4-5 orders of magnitude compared to the electronic structure reference.
翻訳日:2021-02-09 11:44:49 公開日:2021-02-08