このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210221となっている論文です。

PDF登録状況(公開日: 20210221)

TitleAuthorsAbstract論文公表日・翻訳日
# リフレクションアウェアガイドによる2段単一反射除去

Two-Stage Single Image Reflection Removal with Reflection-Aware Guidance ( http://arxiv.org/abs/2012.00945v2 )

ライセンス: Link先を確認
Yu Li, Ming Liu, Yaling Yi, Qince Li, Dongwei Ren, Wangmeng Zuo(参考訳) ガラス表面を捉えた画像から望ましくない反射を除去することは、多くの実用的な応用シナリオにおいて非常に難しい問題である。 反射除去を改善するため、カスケード深部モデルは通常、進行的に伝達を推定するために採用されている。 しかし、既存のほとんどの手法は、伝送推定の導出に先立って結果を利用する際にはまだ限られている。 本稿では,単一画像反射除去(sirr)のためのリフレクションアウェアガイダンス(ragnet)を用いた2段階ネットワークを提案する。 具体的に言うと、反射層は一般に非常に単純であり、比較的容易に推定できるため、最初に推定される。 リフレクションアウェア誘導(RAG)モジュールは、送信層の予測において、推定反射をよりうまく活用するために精査される。 推定反射と観測から特徴マップを組み込むことにより、ragは(i)観測からの反射の効果を緩和するために、(ii)部分畳み込みにおいてマスクを生成し、線形結合仮説から逸脱する効果を緩和することができる。 さらに、エンコーダとデコーダの機能のコントリビューションの調整のために、専用のマスクロスが提示される。 5つの一般的なデータセットの実験は、最先端SIRR法と比較して、RAGNetの量的および定性的優位性を示している。 ソースコードと事前訓練されたモデルはhttps://github.com/l iyucs/RAGNet.comで入手できる。

Removing undesired reflection from an image captured through a glass surface is a very challenging problem with many practical application scenarios. For improving reflection removal, cascaded deep models have been usually adopted to estimate the transmission in a progressive manner. However, most existing methods are still limited in exploiting the result in prior stage for guiding transmission estimation. In this paper, we present a novel two-stage network with reflection-aware guidance (RAGNet) for single image reflection removal (SIRR). To be specific, the reflection layer is firstly estimated due to that it generally is much simpler and is relatively easier to estimate. Reflectionaware guidance (RAG) module is then elaborated for better exploiting the estimated reflection in predicting transmission layer. By incorporating feature maps from the estimated reflection and observation, RAG can be used (i) to mitigate the effect of reflection from the observation, and (ii) to generate mask in partial convolution for mitigating the effect of deviating from linear combination hypothesis. A dedicated mask loss is further presented for reconciling the contributions of encoder and decoder features. Experiments on five commonly used datasets demonstrate the quantitative and qualitative superiority of our RAGNet in comparison to the state-of-the-art SIRR methods. The source code and pre-trained model are available at https://github.com/l iyucs/RAGNet.
翻訳日:2021-05-25 04:02:27 公開日:2021-02-21
# (参考訳) 深部生成モデルを用いたベイズ画像再構成 [全文訳有]

Bayesian Image Reconstruction using Deep Generative Models ( http://arxiv.org/abs/2012.04567v3 )

ライセンス: CC BY 4.0
Razvan V Marinescu, Daniel Moyer, Polina Golland(参考訳) 機械学習モデルは、ペア(入力、出力)データを使用して、エンドツーエンドおよび教師付き設定で一般的に訓練される。 古典的な例としては、(低解像度、高解像度)画像のペアでトレーニングする最近のスーパーレゾリューション法がある。 しかしながら、これらのエンドツーエンドアプローチは、入力(例えば、夜間画像と日光)や関連する潜伏変数(例えば、カメラのぼやけや手の動き)の分布シフトがある度に再トレーニングする必要がある。 本研究では,最先端(sota)生成モデル(以下stylegan2)を強力な画像前駆的手法として活用し,ベイズの定理を多くの下流復元タスクに適用する。 BRGM (Bayesian Reconstruction through Generative Models) と呼ばれる本手法では,1つの事前学習されたジェネレータモデルを用いて,画像復元作業,すなわち超解像およびインペイントを,異なる前方破壊モデルと組み合わせることで解く。 i) Flick Faces High Qualityのデータセット(ii) MIMIC IIIの240,000個の胸部X線、(iii)脳MRIの5つのデータセットと7,329個のスキャンを組み合わせた3つの大きな、多種多様なデータセットについて、BRGMをデモした。 3つのデータセットにまたがって,データセット固有のハイパーパラメータチューニングがなければ,各再構築作業に特有の最先端手法と比較して,特に低解像度レベルでの最先端のパフォーマンスが得られます。 私たちのソースコードと事前訓練済みのモデルはすべてオンラインで利用可能です。

Machine learning models are commonly trained end-to-end and in a supervised setting, using paired (input, output) data. Classical examples include recent super-resolution methods that train on pairs of (low-resolution, high-resolution) images. However, these end-to-end approaches require re-training every time there is a distribution shift in the inputs (e.g., night images vs daylight) or relevant latent variables (e.g., camera blur or hand motion). In this work, we leverage state-of-the-art (SOTA) generative models (here StyleGAN2) for building powerful image priors, which enable application of Bayes' theorem for many downstream reconstruction tasks. Our method, called Bayesian Reconstruction through Generative Models (BRGM), uses a single pre-trained generator model to solve different image restoration tasks, i.e., super-resolution and in-painting, by combining it with different forward corruption models. We demonstrate BRGM on three large, yet diverse, datasets that enable us to build powerful priors: (i) 60,000 images from the Flick Faces High Quality dataset (ii) 240,000 chest X-rays from MIMIC III and (iii) a combined collection of 5 brain MRI datasets with 7,329 scans. Across all three datasets and without any dataset-specific hyperparameter tuning, our approach yields state-of-the-art performance on super-resolution, particularly at low-resolution levels, as well as inpainting, compared to state-of-the-art methods that are specific to each reconstruction task. Our source code and all pre-trained models are available online: https://razvanmarine scu.github.io/brgm/.
翻訳日:2021-05-17 03:03:06 公開日:2021-02-21
# 異種情報ネットワークの分類におけるメタパスコンテキストの活用

Leveraging Meta-path Contexts for Classification in Heterogeneous Information Networks ( http://arxiv.org/abs/2012.10024v2 )

ライセンス: Link先を確認
Xiang Li, Danhao Ding, Ben Kao, Yizhou Sun, Nikos Mamoulis(参考訳) 異種情報ネットワーク(HIN)は、異なるタイプのオブジェクトを頂点として、また様々なタイプのオブジェクト間の関係をエッジとして持つ。 HINにおけるオブジェクトの分類問題について検討する。 既存の手法の多くは、ラベル付きオブジェクトをトレーニングセットとして与えたときに性能が悪く、そのようなシナリオで分類精度を向上させる手法は計算量的に高価であることが多い。 これらの問題に対処するために,グラフニューラルネットワークモデルであるConCHを提案する。 ConCHは、半教師付き学習と自己教師付き学習を組み合わせたマルチタスク学習問題として分類問題を定式化し、ラベル付きデータとラベルなしデータの両方から学習する。 ConCHはメタパスを使用し、オブジェクト間のセマンティックな関係をキャプチャするオブジェクトタイプのシーケンスである。 ConCHは、グラフ畳み込みによるオブジェクトの埋め込みとコンテキストの埋め込みを共用する。 また、注意機構を使ってそのような埋め込みを融合する。 我々は、他の15の分類法に対して、ConCHの性能を評価するために広範な実験を行う。 以上の結果から,ConCHはHIN分類の効率的かつ効率的な方法であることがわかった。

A heterogeneous information network (HIN) has as vertices objects of different types and as edges the relations between objects, which are also of various types. We study the problem of classifying objects in HINs. Most existing methods perform poorly when given scarce labeled objects as training sets, and methods that improve classification accuracy under such scenarios are often computationally expensive. To address these problems, we propose ConCH, a graph neural network model. ConCH formulates the classification problem as a multi-task learning problem that combines semi-supervised learning with self-supervised learning to learn from both labeled and unlabeled data. ConCH employs meta-paths, which are sequences of object types that capture semantic relationships between objects. ConCH co-derives object embeddings and context embeddings via graph convolution. It also uses the attention mechanism to fuse such embeddings. We conduct extensive experiments to evaluate the performance of ConCH against other 15 classification methods. Our results show that ConCH is an effective and efficient method for HIN classification.
翻訳日:2021-05-01 18:00:59 公開日:2021-02-21
# フェデレーション・アンラーニング

Federated Unlearning ( http://arxiv.org/abs/2012.13891v2 )

ライセンス: Link先を確認
Gaoyang Liu, Yang Yang, Xiaoqiang Ma, Chen Wang, Jiangchuan Liu(参考訳) Federated Learning (FL)は先頃、有望な分散機械学習(ML)パラダイムとして登場した。 忘れられる権利"の実践的なニーズとデータ中毒に対する攻撃は、訓練されたFLモデルから特定のトレーニングデータを取り除いたり、未学習にしたりできる効率的なテクニックを要求する。 しかし、MLの文脈における既存の未学習技術は、FLとMLがデータからどのように学習するかという固有の区別のために、FLにはもはや効果がない。 したがって、FLモデルから効率的にデータを除去する方法はほとんど探索されていない。 In this paper, we take the first step to fill this gap by presenting FedEraser, the first federated unlearning methodology that can eliminate the influence of a federated client's data on the global FL model while significantly reducing the time used for constructing the unlearned FL model.The basic idea of FedEraser is to trade the central server's storage for unlearned model's construction time, where FedEraser reconstructs the unlearned model by leveraging the historical parameter updates of federated clients that have been retained at the central server during the training process of FL. モデル有効性を維持しつつ、未学習モデルの再構築に著しいスピードアップをもたらすため、未学習モデルの迅速な構築に使用される新しいキャリブレーション法も開発されている。 現実的な4つのデータセットの実験では、FedEraserの有効性が示されており、スクラッチからの再トレーニングと比較すると、期待速度は4\times$である。 我々は、FLの早期段階として、公正かつ透明な方法で、法的および倫理的基準に準拠することを期待している。

Federated learning (FL) has recently emerged as a promising distributed machine learning (ML) paradigm. Practical needs of the "right to be forgotten" and countering data poisoning attacks call for efficient techniques that can remove, or unlearn, specific training data from the trained FL model. Existing unlearning techniques in the context of ML, however, are no longer in effect for FL, mainly due to the inherent distinction in the way how FL and ML learn from data. Therefore, how to enable efficient data removal from FL models remains largely under-explored. In this paper, we take the first step to fill this gap by presenting FedEraser, the first federated unlearning methodology that can eliminate the influence of a federated client's data on the global FL model while significantly reducing the time used for constructing the unlearned FL model.The basic idea of FedEraser is to trade the central server's storage for unlearned model's construction time, where FedEraser reconstructs the unlearned model by leveraging the historical parameter updates of federated clients that have been retained at the central server during the training process of FL. A novel calibration method is further developed to calibrate the retained updates, which are further used to promptly construct the unlearned model, yielding a significant speed-up to the reconstruction of the unlearned model while maintaining the model efficacy. Experiments on four realistic datasets demonstrate the effectiveness of FedEraser, with an expected speed-up of $4\times$ compared with retraining from the scratch. We envision our work as an early step in FL towards compliance with legal and ethical criteria in a fair and transparent manner.
翻訳日:2021-04-24 20:08:13 公開日:2021-02-21
# DeepHateExplainer: アンダーリソースベンガル語における説明可能なヘイト音声検出

DeepHateExplainer: Explainable Hate Speech Detection in Under-resourced Bengali Language ( http://arxiv.org/abs/2012.14353v2 )

ライセンス: Link先を確認
Md. Rezaul Karim and Sumon Kanti Dey and Bharathi Raja Chakravarthi(参考訳) ソーシャルメディアやマイクロブログサイトの指数関数的な成長は、表現の自由と個人の声の強化のためのプラットフォームを提供するだけでなく、オンラインハラスメント、サイバーいじめ、ヘイトスピーチなどの反社会的行動を表現することもできる。 社会的および反社会的行動分析にテキストデータを活用するために、主に英語のような高リソース言語に対してコンテキストを予測することで、多くの研究が提案されている。 しかし、ベンガル語のような、正確な自然言語処理(NLP)のための計算資源が不足している、一部の言語はリソース不足である。 本稿では,我々はdeephateexplainerという語源の少ないベンガル語からヘイトスピーチを検出するための説明可能なアプローチを提案する。 このアプローチでは、ベンガルテキストはまず、政治的、個人的、地政学的、宗教的嫌悪に分類される前に、様々なトランスフォーマーベースのニューラルアンサンブル法(単言語バングラ・バートベース、多言語bert-cased/uncased、xlm-roberta)を用いて、包括的に前処理される。 その後、人間の解釈可能な説明を提供する前に、重要な(ほとんど、少なくとも)用語が感度分析とレイヤワイド関連伝播(LRP)で識別される。 最後に、説明の質(すなわち忠実さ)を測定するために、包括性と十分性を計算する。 機械学習(リニアモデルとツリーベースモデル)とディープニューラルネットワーク(CNN、Bi-LSTM、および単語埋め込みによるConv-LSTM)に対する評価は、MLとDNNのベースラインを上回る政治的、個人的、地政学的、宗教的憎悪に対して、F1スコアが84%、90%、88%、そして88%となる。

The exponential growths of social media and micro-blogging sites not only provide platforms for empowering freedom of expression and individual voices, but also enables people to express anti-social behavior like online harassment, cyberbullying, and hate speech. Numerous works have been proposed to utilize the textual data for social and anti-social behavior analysis, by predicting the contexts mostly for highly-resourced languages like English. However, some languages are under-resourced, e.g., South Asian languages like Bengali, that lack computational resources for accurate natural language processing (NLP). In this paper, we propose an explainable approach for hate speech detection from the under-resourced Bengali language, which we called DeepHateExplainer. In our approach, Bengali texts are first comprehensively preprocessed, before classifying them into political, personal, geopolitical, and religious hates, by employing the neural ensemble method of different transformer-based neural architectures (i.e., monolingual Bangla BERT-base, multilingual BERT-cased/uncased, and XLM-RoBERTa). Subsequently, important (most and least) terms are identified with sensitivity analysis and layer-wise relevance propagation (LRP), before providing human-interpretable explanations. Finally, to measure the quality of the explanation (i.e., faithfulness), we compute the comprehensiveness and sufficiency. Evaluations against machine learning (linear and tree-based models) and deep neural networks (i.e., CNN, Bi-LSTM, and Conv-LSTM with word embeddings) baselines yield F1 scores of 84%, 90%, 88%, and 88%, for political, personal, geopolitical, and religious hates, respectively, outperforming both ML and DNN baselines.
翻訳日:2021-04-19 11:12:59 公開日:2021-02-21
# (参考訳) インシリコ抗体親和性成熟のためのシーケンスベースディープラーニング抗体の設計 [全文訳有]

Sequence-based deep learning antibody design for in silico antibody affinity maturation ( http://arxiv.org/abs/2103.03724v1 )

ライセンス: CC BY 4.0
Yue Kang, Dawei Leng, Jinjiang Guo, Lurong Pan(参考訳) 抗体治療は過去数十年間、薬物の発見と開発に広く研究されてきた。 抗体発見パイプラインにおける注目度は、治療リードの最適化ステップである。 従来の方法とin silicoアプローチは、特定のターゲット抗原に対して高い結合親和性を持つ候補を生成することを目的としている。 従来のin vitroアプローチでは、候補選択にハイブリドーマやファージディスプレイ、評価に表面プラズモン共鳴(SPR)を使用し、シリコ計算では、設計プロセスに数学的アルゴリズムと計算処理力を組み込むことで、高コスト化と効率の向上を目指している。 本研究では, 深層学習技術を用いた抗体親和性予測法を用いて, 抗体-抗原相互作用を表現するための異なるグラフに基づく設計について検討した。 他のシリコ計算では実験的に決定された結晶構造を必要とするが、本研究はインシリコ抗体成熟のための配列ベースのモデルの能力に関心を寄せた。 本研究は,従来の手法や深層学習手法と比較して,結合親和性の予測精度を達成した。 抗体-抗原結合特異性をさらに研究し、実際のシナリオにおける最適化プロセスをシミュレートするために、ペアワイズ予測戦略を導入した。 ベースラインおよびペアワイズ予測の結果に基づいて解析を行った。 結果として得られた予測と効率は、スケーラブルな産業プラクティスとして適応するシーケンスベースの手法の実現可能性と計算効率を証明する。

Antibody therapeutics has been extensively studied in drug discovery and development within the past decades. One increasingly popular focus in the antibody discovery pipeline is the optimization step for therapeutic leads. Both traditional methods and in silico approaches aim to generate candidates with high binding affinity against specific target antigens. Traditional in vitro approaches use hybridoma or phage display for candidate selection, and surface plasmon resonance (SPR) for evaluation, while in silico computational approaches aim to reduce the high cost and improve efficiency by incorporating mathematical algorithms and computational processing power in the design process. In the present study, we investigated different graph-based designs for depicting antibody-antigen interactions in terms of antibody affinity prediction using deep learning techniques. While other in silico computations require experimentally determined crystal structures, our study took interest in the capability of sequence-based models for in silico antibody maturation. Our preliminary studies achieved satisfying prediction accuracy on binding affinities comparing to conventional approaches and other deep learning approaches. To further study the antibody-antigen binding specificity, and to simulate the optimization process in real-world scenario, we introduced pairwise prediction strategy. We performed analysis based on both baseline and pairwise prediction results. The resulting prediction and efficiency prove the feasibility and computational efficiency of sequence-based method to be adapted as a scalable industry practice.
翻訳日:2021-04-05 09:42:28 公開日:2021-02-21
# (参考訳) IoTで実現可能な社会関係 - 人工知能 [全文訳有]

IoT-Enabled Social Relationships Meet Artificial Social Intelligence ( http://arxiv.org/abs/2103.01776v1 )

ライセンス: CC BY 4.0
Sahraoui Dhelim, Huansheng Ning, Fadi Farha, Liming Chen, Luigi Atzori and Mahmoud Daneshmand(参考訳) モノのインターネットの最近の進歩、ユビキタスコンピューティングリソースやモバイルデバイスのアクセシビリティの増大、リッチメディアコンテンツの普及、そしてその後の社会的、経済的、文化的変化により、コンピューティング技術とアプリケーションはこの10年間で急速に進化してきた。 今やそれらはパーソナルコンピューティングを超えて、コラボレーションと社会的インタラクションを全般的に促進し、iotエンティティ間の社会的関係の急速な拡大を引き起こしている。 これらの関係と不均一な社会的特徴の増大は、IoTネットワークがこれらの関係を利用して提供されたサービスを改善し、リレーションブレーションとして知られる配信コンテンツをカスタマイズするのを防ぐ、コンピューティングと通信のボトルネックに繋がった。 一方、ソーシャルコンピューティングにおける人工知能応用の急速な進歩は、社会関係爆発問題に対処する可能性を持つ人工知能(ASI)と呼ばれる有望な研究分野の出現につながっている。 本稿では、社会関係の検出と管理におけるIoTの役割、IoTにおける社会関係の爆発的発生問題について論じ、社会指向機械学習やディープラーニング技術を含むAISを用いた提案されたソリューションについてレビューする。

With the recent advances of the Internet of Things, and the increasing accessibility of ubiquitous computing resources and mobile devices, the prevalence of rich media contents, and the ensuing social, economic, and cultural changes, computing technology and applications have evolved quickly over the past decade. They now go beyond personal computing, facilitating collaboration and social interactions in general, causing a quick proliferation of social relationships among IoT entities. The increasing number of these relationships and their heterogeneous social features have led to computing and communication bottlenecks that prevent the IoT network from taking advantage of these relationships to improve the offered services and customize the delivered content, known as relationship explosion. On the other hand, the quick advances in artificial intelligence applications in social computing have led to the emerging of a promising research field known as Artificial Social Intelligence (ASI) that has the potential to tackle the social relationship explosion problem. This paper discusses the role of IoT in social relationships detection and management, the problem of social relationships explosion in IoT and reviews the proposed solutions using ASI, including social-oriented machine-learning and deep-learning techniques.
翻訳日:2021-04-05 09:34:03 公開日:2021-02-21
# (参考訳) 異なる不確かさ環境下でのネットワーク最適化モデル

Some Network Optimization Models under Diverse Uncertain Environments ( http://arxiv.org/abs/2103.08327v1 )

ライセンス: CC0 1.0
Saibal Majumder(参考訳) ネットワークモデルは、多くの実生活問題を数学的に表す効率的な方法を提供する。 過去数十年間、ネットワーク最適化の分野は、研究者や実践者の間で関心が高まってきた。 本論文で検討したネットワークモデルは,交通問題,最短経路問題,最短木問題,最大フロー問題を含む4つのタイプに分類される。 ネットワーク最適化問題の決定パラメータが正確ではなく、不完全なデータや証拠の欠如、不適切な判断やランダム性といった要因から生じる様々な不確実性によって特徴付けられる場合、状況に遭遇することが多い。 決定論的環境を考えると、ネットワーク最適化に関するいくつかの研究がある。 しかし、文献では、様々な不確実なフレームワークの下で、単一および多目的のネットワーク最適化問題に関する調査はあまり行われていない。 この論文は、異なる不確実なパラダイムの下で7つの異なるネットワークモデルを提案する。 ここで、不確実性ネットワークモデルを定式化する不確実性プログラミング手法は、(i)期待値モデル、(ii)確率制約モデル、(iii)依存確率制約モデルである。 その後、不確実なネットワークモデルの対応するcrisp同値を、異なる解法を用いて解決する。 この論文で用いられる解法は古典的手法と進化的アルゴリズムに広く分類することができる。 この論文で使用される古典的手法は、DijkstraアルゴリズムとKruskalアルゴリズム、修正された粗いDijkstraアルゴリズム、大域的基準法、エプシロン制約法、ファジィプログラミング法である。 一方,進化アルゴリズムでは,非決定的な交叉を伴う多様な集団遺伝アルゴリズムを提案し,2つの多目的進化アルゴリズムを検討した。

Network models provide an efficient way to represent many real life problems mathematically. In the last few decades, the field of network optimization has witnessed an upsurge of interest among researchers and practitioners. The network models considered in this thesis are broadly classified into four types including transportation problem, shortest path problem, minimum spanning tree problem and maximum flow problem. Quite often, we come across situations, when the decision parameters of network optimization problems are not precise and characterized by various forms of uncertainties arising from the factors, like insufficient or incomplete data, lack of evidence, inappropriate judgements and randomness. Considering the deterministic environment, there exist several studies on network optimization problems. However, in the literature, not many investigations on single and multi objective network optimization problems are observed under diverse uncertain frameworks. This thesis proposes seven different network models under different uncertain paradigms. Here, the uncertain programming techniques used to formulate the uncertain network models are (i) expected value model, (ii) chance constrained model and (iii) dependent chance constrained model. Subsequently, the corresponding crisp equivalents of the uncertain network models are solved using different solution methodologies. The solution methodologies used in this thesis can be broadly categorized as classical methods and evolutionary algorithms. The classical methods, used in this thesis, are Dijkstra and Kruskal algorithms, modified rough Dijkstra algorithm, global criterion method, epsilon constraint method and fuzzy programming method. Whereas, among the evolutionary algorithms, we have proposed the varying population genetic algorithm with indeterminate crossover and considered two multi objective evolutionary algorithms.
翻訳日:2021-04-05 09:06:43 公開日:2021-02-21
# 都市ビッグデータを用いたマルチモーダル情報融合のためのコンパクトニューラルモデルによる交通事故リスク予測

Risk Prediction on Traffic Accidents using a Compact Neural Model for Multimodal Information Fusion over Urban Big Data ( http://arxiv.org/abs/2103.05107v1 )

ライセンス: Link先を確認
Wenshan Wang, Su Yang, and Weishan Zhang(参考訳) 交通事故のリスクマップの予測は,事故予防と緊急対応の早期計画に不可欠である。 ここでの課題は、都市ビッグデータのマルチモーダルな性質にある。 本稿では,マルチモーダルな特徴を用いたオーバーフィッティングを緩和するコンパクトニューラルアンサンブルモデルを提案し,衛星画像における道路複雑性のフラクタル測度,タクシー流れ,pois,道路幅,openstreetmapにおける接続性などの新機能を開発する。 このソリューションは、ベースラインメソッドや単一モダリティデータベースのソリューションよりもパフォーマンスに有望である。 マイクロビューから可視化した結果,リスクの高いシーンやリスクの低いシーンの視覚的パターンが明らかになり,将来の道路設計の教訓となる。 都市の観点からは、予測されたリスクマップは基礎的真理に近く、緊急対応のための資源の空間的構成や警報標識の最適化の基盤として機能することができる。 私たちの知る限りでは、交通事故予測における視覚的かつ時空間的特徴を融合し、データマイニングに基づく都市コンピューティングとコンピュータビジョンに基づく都市認識のギャップを埋める最初の作業である。

Predicting risk map of traffic accidents is vital for accident prevention and early planning of emergency response. Here, the challenge lies in the multimodal nature of urban big data. We propose a compact neural ensemble model to alleviate overfitting in fusing multimodal features and develop some new features such as fractal measure of road complexity in satellite images, taxi flows, POIs, and road width and connectivity in OpenStreetMap. The solution is more promising in performance than the baseline methods and the single-modality data based solutions. After visualization from a micro view, the visual patterns of the scenes related to high and low risk are revealed, providing lessons for future road design. From city point of view, the predicted risk map is close to the ground truth, and can act as the base in optimizing spatial configuration of resources for emergency response, and alarming signs. To the best of our knowledge, it is the first work to fuse visual and spatio-temporal features in traffic accident prediction while advances to bridge the gap between data mining based urban computing and computer vision based urban perception.
翻訳日:2021-04-05 00:45:11 公開日:2021-02-21
# オンラインオンラインメタ学習によるスパイキングニューラルネットワークの高速オンデバイス適応

Fast On-Device Adaptation for Spiking Neural Networks via Online-Within-Online Meta-Learning ( http://arxiv.org/abs/2103.03901v1 )

ライセンス: Link先を確認
Bleema Rosenfeld, Bipin Rajendran, Osvaldo Simeone(参考訳) Spiking Neural Networks(SNN)は、モバイルヘルスケア管理や自然言語処理などのアプリケーションのためのデバイス上でのエッジインテリジェンスのための機械学習モデルとして最近人気を集めている。 このような高度にパーソナライズされたユースケースでは、モデルが最小限のトレーニングデータしか持たない個人のユニークな特徴に適応できることが重要です。 メタラーニングは、新しいタスクに素早く適応するためのモデルを訓練する方法として提案されている。 SNNのための数少ないメタラーニングソリューションはオフラインで動作し、現在のニューロモルフィックエッジデバイスと互換性のないある種のバックプロパゲーションを必要とする。 本稿では,タスクストリーム上での生涯学習を可能にする,OWOML-SNNと呼ばれるSNNのオンライン・オンラインメタ学習ルールを提案する。

Spiking Neural Networks (SNNs) have recently gained popularity as machine learning models for on-device edge intelligence for applications such as mobile healthcare management and natural language processing due to their low power profile. In such highly personalized use cases, it is important for the model to be able to adapt to the unique features of an individual with only a minimal amount of training data. Meta-learning has been proposed as a way to train models that are geared towards quick adaptation to new tasks. The few existing meta-learning solutions for SNNs operate offline and require some form of backpropagation that is incompatible with the current neuromorphic edge-devices. In this paper, we propose an online-within-online meta-learning rule for SNNs termed OWOML-SNN, that enables lifelong learning on a stream of tasks, and relies on local, backprop-free, nested updates.
翻訳日:2021-04-05 00:42:49 公開日:2021-02-21
# ディープラーニングのための再生活性化関数

Reproducing Activation Function for Deep Learning ( http://arxiv.org/abs/2101.04844v2 )

ライセンス: Link先を確認
Senwei Liang and Liyao Lyu and Chunmei Wang and Haizhao Yang(参考訳) 本稿では,コンピュータビジョンから科学計算に至るまで,様々な応用のディープラーニング精度を向上させるために,再生活性化関数(RAF)を提案する。 この考え方は、いくつかの基本的な機能と学習可能な線形結合を用いて、ニューロンごとにニューロンのデータ駆動活性化関数を構築することである。 RAFで武装したニューラルネットワーク(NN)は、従来の近似ツールを再現できるため、従来のNNよりも少ないパラメータのターゲット関数を近似することができる。 NNトレーニングでは、RAFは従来のアクティベーション機能よりも条件番号のよいニューラルタンジェントカーネル(NTK)を生成でき、ディープラーニングのスペクトルバイアスを低減できる。 広範な数値実験によって示されるように,提案するrafは,既存の音声/画像/ビデオ再構成,pdes,固有値問題に対して,既存のディープラーニングソルバよりも高精度な解に対するディープラーニング最適化の収束を容易にする。 RAFでは,音声・ビデオ再生の誤差,PDE,固有値問題の誤差がベースラインに比べて14%以上,73%以上,99%減少し,画像再構成の性能は58%向上した。

We propose reproducing activation functions (RAFs) to improve deep learning accuracy for various applications ranging from computer vision to scientific computing. The idea is to employ several basic functions and their learnable linear combination to construct neuron-wise data-driven activation functions for each neuron. Armed with RAFs, neural networks (NNs) can reproduce traditional approximation tools and, therefore, approximate target functions with a smaller number of parameters than traditional NNs. In NN training, RAFs can generate neural tangent kernels (NTKs) with a better condition number than traditional activation functions lessening the spectral bias of deep learning. As demonstrated by extensive numerical tests, the proposed RAFs can facilitate the convergence of deep learning optimization for a solution with higher accuracy than existing deep learning solvers for audio/image/video reconstruction, PDEs, and eigenvalue problems. With RAFs, the errors of audio/video reconstruction, PDEs, and eigenvalue problems are decreased by over 14%, 73%, 99%, respectively, compared with baseline, while the performance of image reconstruction increases by 58%.
翻訳日:2021-03-30 08:02:02 公開日:2021-02-21
# グローバルおよびパートアウェア深部特徴表現学習による人格識別

Hand-Based Person Identification using Global and Part-Aware Deep Feature Representation Learning ( http://arxiv.org/abs/2101.05260v3 )

ライセンス: Link先を確認
Nathanael L. Baisa, Zheheng Jiang, Ritesh Vyas, Bryan Williams, Hossein Rahmani, Plamen Angelov, Sue Black(参考訳) 性的虐待を含む重大犯罪の場合、身元を特定できる唯一の可能な情報は手の画像であることが多い。 この証拠は制御不能な状況にあるため、分析は困難である。 この場合、機能比較のグローバルアプローチは限られているため、ローカル情報を検討するために拡張することが重要である。 本研究では,グローバルとローカル両方の深層特徴表現を学習し,ハンドベースの人物識別を提案する。 提案手法であるglobal and part-aware network (gpa-net)は,conv-layer上にグローバルおよびローカルなブランチを作成し,ロバストなグローバルおよびパートレベルの特徴を学習する。 局所的な(部分レベルの)特徴を学習するために、水平方向と垂直方向の両方で凸層上の均一なパーティショニングを行う。 画像のパーティショニングやポーズ推定などの外部の手がかりを必要とすることなく,ソフトパーティショニングを行うことで,部品の検索を行う。 提案手法が競合するアプローチを著しく上回っていることを示すため,2つの大規模マルチエスニックデータセットと公開ハンドデータセットについて広範な評価を行った。

In cases of serious crime, including sexual abuse, often the only available information with demonstrated potential for identification is images of the hands. Since this evidence is captured in uncontrolled situations, it is difficult to analyse. As global approaches to feature comparison are limited in this case, it is important to extend to consider local information. In this work, we propose hand-based person identification by learning both global and local deep feature representation. Our proposed method, Global and Part-Aware Network (GPA-Net), creates global and local branches on the conv-layer for learning robust discriminative global and part-level features. For learning the local (part-level) features, we perform uniform partitioning on the conv-layer in both horizontal and vertical directions. We retrieve the parts by conducting a soft partition without explicitly partitioning the images or requiring external cues such as pose estimation. We make extensive evaluations on two large multi-ethnic and publicly available hand datasets, demonstrating that our proposed method significantly outperforms competing approaches.
翻訳日:2021-03-30 07:56:39 公開日:2021-02-21
# (参考訳) CheXtransfer:胸部X線解釈のための画像ネットモデルの性能とパラメータ効率 [全文訳有]

CheXtransfer: Performance and Parameter Efficiency of ImageNet Models for Chest X-Ray Interpretation ( http://arxiv.org/abs/2101.06871v2 )

ライセンス: CC BY 4.0
Alexander Ke, William Ellsworth, Oishi Banerjee, Andrew Y. Ng, Pranav Rajpurkar(参考訳) 胸部x線解釈のための深層学習法は通常、imagenet用に開発された事前訓練されたモデルに依存している。 このパラダイムは、より良いImageNetアーキテクチャが胸部X線タスクでより良く機能し、ImageNetが予めトレーニングした重みがランダム初期化よりもパフォーマンスを高めることを前提としている。 本研究は, 大規模胸部X線データセット(CheXpert)における16の人気の畳み込みアーキテクチャの伝達性能とパラメータ効率を比較し, これらの仮定について検討する。 まず,事前トレーニングのないモデルと事前トレーニングのないモデルで,ImageNetのパフォーマンスとCheXpertパフォーマンスの関係は見つからない。 第二に、事前訓練のないモデルの場合、モデルファミリーの選択は、医療画像タスクのための家族内のサイズ以上のパフォーマンスに影響を与える。 第3に、ImageNet事前学習は、より小さなアーキテクチャにおいて、より統計的に重要なアーキテクチャ間のパフォーマンス向上をもたらすことを観察する。 第4に、事前訓練されたモデルから最終ブロックをトラッカーすることで、ImageNetアーキテクチャがCheXpertにとって不要に大きいかどうかを調べ、統計的に重要な性能低下を伴わずに、平均3.25倍のパラメータ効率が得られることを発見した。 本研究は,ImageNetと胸部X線解釈性能の関係に関する新たな実験的証拠を提供する。

Deep learning methods for chest X-ray interpretation typically rely on pretrained models developed for ImageNet. This paradigm assumes that better ImageNet architectures perform better on chest X-ray tasks and that ImageNet-pretrained weights provide a performance boost over random initialization. In this work, we compare the transfer performance and parameter efficiency of 16 popular convolutional architectures on a large chest X-ray dataset (CheXpert) to investigate these assumptions. First, we find no relationship between ImageNet performance and CheXpert performance for both models without pretraining and models with pretraining. Second, we find that, for models without pretraining, the choice of model family influences performance more than size within a family for medical imaging tasks. Third, we observe that ImageNet pretraining yields a statistically significant boost in performance across architectures, with a higher boost for smaller architectures. Fourth, we examine whether ImageNet architectures are unnecessarily large for CheXpert by truncating final blocks from pretrained models, and find that we can make models 3.25x more parameter-efficient on average without a statistically significant drop in performance. Our work contributes new experimental evidence about the relation of ImageNet to chest x-ray interpretation performance.
翻訳日:2021-03-27 17:42:40 公開日:2021-02-21
# (参考訳) 積分学習による有能な物体検出 [全文訳有]

Salient Object Detection via Integrity Learning ( http://arxiv.org/abs/2101.07663v3 )

ライセンス: CC BY 4.0
Mingchen Zhuge, Deng-Ping Fan, Nian Liu, Dingwen Zhang, Dong Xu, and Ling Shao(参考訳) 現行の正当性物体検出(SOD)は驚くべき進歩を遂げているが、予測された正当性領域の整合性に関しては影に映し出される。 マイクロレベルとマクロレベルの両方で整合性の概念を定義します。 特にマイクロレベルでは、マクロレベルでは、モデルが与えられたイメージシーンからすべての有能なオブジェクトを発見する必要があるが、特定の有能なオブジェクトに属する全ての部分を強調する必要がある。 健全な物体検出のための整合性学習を容易にするため、我々は3つの重要な要素を探索し、強健な整合性特徴を学習する新しい積分認知ネットワーク(ICON)を設計する。 1) 特徴の識別性を重視する既存のモデルとは異なり,様々な受容領域(カーネル形状やコンテキストなど)で特徴を集約し,特徴の多様性を高めるために,多彩な特徴集約(dfa)コンポーネントを導入する。 このような多様性は、積分サルエント天体の採掘の基礎である。 2) DFA の特徴に基づき,マクロレベルでの健全なオブジェクトを強調表示する機能チャネルの強化と,他の注意をそらすものを抑制することを目的とした整合性チャネル拡張 (ICE) コンポーネントを導入する。 3) 拡張特徴を抽出した後, 部分検証 (pwv) 法を用いて, 部分と対象特徴が強い一致を持つか否かを判定する。 このような部分的な合意は、それぞれの有能なオブジェクトに対するマイクロレベルの整合性をさらに改善することができる。 ICONの有効性を示すため、7つの挑戦的なベンチマークで総合的な実験を行い、有望な結果が得られた。

Albeit current salient object detection (SOD) works have achieved fantastic progress, they are cast into the shade when it comes to the integrity of the predicted salient regions. We define the concept of integrity at both the micro and macro level. Specifically, at the micro level, the model should highlight all parts that belong to a certain salient object, while at the macro level, the model needs to discover all salient objects from the given image scene. To facilitate integrity learning for salient object detection, we design a novel Integrity Cognition Network (ICON), which explores three important components to learn strong integrity features. 1) Unlike the existing models that focus more on feature discriminability, we introduce a diverse feature aggregation (DFA) component to aggregate features with various receptive fields (i.e.,, kernel shape and context) and increase the feature diversity. Such diversity is the foundation for mining the integral salient objects. 2) Based on the DFA features, we introduce the integrity channel enhancement (ICE) component with the goal of enhancing feature channels that highlight the integral salient objects at the macro level, while suppressing the other distracting ones. 3) After extracting the enhanced features, the part-whole verification (PWV) method is employed to determine whether the part and whole object features have strong agreement. Such part-whole agreements can further improve the micro-level integrity for each salient object. To demonstrate the effectiveness of ICON, comprehensive experiments are conducted on seven challenging benchmarks, where promising results are achieved.
翻訳日:2021-03-23 01:34:43 公開日:2021-02-21
# クラス不均衡下での深部ニューラルネットワーク訓練のための制約付き最適化

Constrained Optimization for Training Deep Neural Networks Under Class Imbalance ( http://arxiv.org/abs/2102.12894v1 )

ライセンス: Link先を確認
Sara Sangalli, Ertunc Erdil, Andreas Hoetker, Olivio Donati, Ender Konukoglu(参考訳) ディープニューラルネットワーク(DNN)は、トレーニング中に他のものよりもサンプルが大幅に少ないクラスに対してより多くの間違いを犯すことで悪名高い。 このようなクラス不均衡は臨床応用においてユビキタスであり、最も少ないサンプルを持つクラスは、誤った分類が深刻な結果をもたらす重要なケース(例えば、がん)に対応しているため、処理が非常に重要である。 このようなケースを見逃さないように、バイナリ分類器はより高いしきい値を設定することによって高いTrue Positive Rates(TPR)で動作する必要がありますが、クラス不均衡の問題に対して非常に高いFalse Positive Rates(FPR)のコストがかかります。 授業の不均衡下での既存の学習方法は、これを考慮しないことが多い。 正のサンプルの誤分類が高コストに結びついている問題に対して,高いTPRでFPRを減らし,予測精度を向上させるべきである。 この目的のために,制約付き最適化問題として二項分類のためのDNNのトレーニングを行い,既存の損失関数と併用してROC曲線(AUC)の下で最大領域を強制できる新しい制約を導入する。 拡張ラグランジアン法(alm, augmented lagrangian method)を用いて制約付き最適化問題を解く。 CIFAR10と社内医療画像データセットを用いた画像分類アプリケーションの実験結果を提示する。 その結果,提案手法は,高TPR,高AUCで低FPRを達成することにより,使用する損失関数をほぼ常に向上させることが示された。

Deep neural networks (DNNs) are notorious for making more mistakes for the classes that have substantially fewer samples than the others during training. Such class imbalance is ubiquitous in clinical applications and very crucial to handle because the classes with fewer samples most often correspond to critical cases (e.g., cancer) where misclassifications can have severe consequences. Not to miss such cases, binary classifiers need to be operated at high True Positive Rates (TPR) by setting a higher threshold but this comes at the cost of very high False Positive Rates (FPR) for problems with class imbalance. Existing methods for learning under class imbalance most often do not take this into account. We argue that prediction accuracy should be improved by emphasizing reducing FPRs at high TPRs for problems where misclassification of the positive samples are associated with higher cost. To this end, we pose the training of a DNN for binary classification as a constrained optimization problem and introduce a novel constraint that can be used with existing loss functions to enforce maximal area under the ROC curve (AUC). We solve the resulting constrained optimization problem using an Augmented Lagrangian method (ALM), where the constraint emphasizes reduction of FPR at high TPR. We present experimental results for image-based classification applications using the CIFAR10 and an in-house medical imaging dataset. Our results demonstrate that the proposed method almost always improves the loss functions it is used with by attaining lower FPR at high TPR and higher or equal AUC.
翻訳日:2021-02-26 14:03:25 公開日:2021-02-21
# 順序的相対的信念エントロピー

Ordinal relative belief entropy ( http://arxiv.org/abs/2102.12575v1 )

ライセンス: Link先を確認
Yuanpeng He(参考訳) 特殊にカスタマイズされたエントロピーは、識別枠に存在する不確実性の度合いを測るために広く用いられる。 しかし、これらのエントロピーはすべて、フレームを、実際の状況に合致しない線量を既に決定済みの全体と見なす。 実生活では、すべてが順序で来るので、識別フレームに含まれる命題の配列を決定する動的プロセスの不確実性を測定する方法は、まだオープンな問題であり、関連する研究は行われていません。 そこで本稿では,提案の確認順序を考慮した識別枠の不確実性を測定するための新しい順序エントロピーを提案する。 伝統的なエントロピーと比較して、認識の枠組みに存在する命題の順序によってもたらされる不確かさの程度に影響を及ぼす。 また,本論文では,提案エントロピーの正確性と妥当性を検証するための数値的例を示す。

Specially customised Entropies are widely applied in measuring the degree of uncertainties existing in the frame of discernment. However, all of these entropies regard the frame as a whole that has already been determined which dose not conform to actual situations. In real life, everything comes in an order, so how to measure uncertainties of the dynamic process of determining sequence of propositions contained in a frame of discernment is still an open issue and no related research has been proceeded. Therefore, a novel ordinal entropy to measure uncertainties of the frame of discernment considering the order of confirmation of propositions is proposed in this paper. Compared with traditional entropies, it manifests effects on degree of uncertainty brought by orders of propositions existing in a frame of discernment. Besides, some numerical examples are provided to verify the correctness and validity of the proposed entropy in this paper.
翻訳日:2021-02-26 13:51:58 公開日:2021-02-21
# (参考訳) データ保護法によるプライバシーポリシーの遵守の検出 [全文訳有]

Detecting Compliance of Privacy Policies with Data Protection Laws ( http://arxiv.org/abs/2102.12362v1 )

ライセンス: CC BY 4.0
Ayesha Qamar, Tehreem Javed, and Mirza Omer Beg(参考訳) プライバシポリシ(privacy policy)とは、組織や企業がユーザの個人情報の処理に採用したプラクティスを記述した法的文書である。 しかし、ポリシーは法的文書であるため、理解が難しい広範な法的用語で書かれることがよくあります。 プライバシポリシに関する作業は行われているが、特定のプライバシポリシが特定の国や州のデータ保護法に準拠しているかどうかを検証する問題に対処するものはない。 我々は、一般データ保護規則(gdpr)など、さまざまなデータ保護法に照らしてプライバシーポリシーを分析するフレームワークを提供することで、このギャップを埋めることを目指している。 そのために、まずプライバシーポリシーと法律の両方をラベル付けしました。 次に、ポリシーの内容を、ポリシーが準拠しなければならない適切な法律セグメントにマップするために相関スキームが開発されます。 次に、NLP技術を使用して、法律の対応するテキストでプライバシーポリシーのテキストの遵守を確認します。 このようなツールを使用することで、ユーザーは自分の個人データがどのように管理されているかを理解することができます。 現在、GDPRとPDPAのマッピングを提供していますが、すでに構築されているパイプラインに他の法律を簡単に組み込むことができます。

Privacy Policies are the legal documents that describe the practices that an organization or company has adopted in the handling of the personal data of its users. But as policies are a legal document, they are often written in extensive legal jargon that is difficult to understand. Though work has been done on privacy policies but none that caters to the problem of verifying if a given privacy policy adheres to the data protection laws of a given country or state. We aim to bridge that gap by providing a framework that analyzes privacy policies in light of various data protection laws, such as the General Data Protection Regulation (GDPR). To achieve that, firstly we labeled both the privacy policies and laws. Then a correlation scheme is developed to map the contents of a privacy policy to the appropriate segments of law that a policy must conform to. Then we check the compliance of privacy policy's text with the corresponding text of the law using NLP techniques. By using such a tool, users would be better equipped to understand how their personal data is managed. For now, we have provided a mapping for the GDPR and PDPA, but other laws can easily be incorporated in the already built pipeline.
翻訳日:2021-02-25 15:46:21 公開日:2021-02-21
# (参考訳) タスク識別のための同時脳波と視線追跡データの動的グラフモデリング [全文訳有]

Dynamic Graph Modeling of Simultaneous EEG and Eye-tracking Data for Reading Task Identification ( http://arxiv.org/abs/2102.11922v1 )

ライセンス: CC BY 4.0
Puneet Mathur, Trisha Mittal and Dinesh Manocha(参考訳) 我々は,脳波~(EEG)と眼球運動~(EM)データからヒトの読取意図を識別し,通常の読取とタスク指向読取を区別するために,AdaGTCNと呼ぶ新しいアプローチを提案する。 読解プロセスの生理的側面(認知的負荷と読解意図)を理解することは,クラウドソースによる注釈付きデータの品質向上に役立つ。 適応グラフ時間畳み込みネットワーク(AdaGTCN)は適応グラフ学習層と深部グラフ畳み込み層を用いて,単語レベルの眼球運動固定中に記録された時間ロックされたEEGシーケンスを用いて読み出し活動を識別する。 Adaptive Graph Learning LayerはEEG電極信号間の空間的相関を動的に学習する一方、Deep Neighborhood Graph Convolution Layerは高密度グラフ近傍の時間的特徴を活用して、他の現代的なアプローチよりもタスク識別を読み取る技術の現状を確立する。 このアプローチといくつかのベースラインを比較し、ZuCo 2.0データセットの6.29%の改善と広範なアブレーション実験を報告する。

We present a new approach, that we call AdaGTCN, for identifying human reader intent from Electroencephalogram ~(EEG) and Eye movement~(EM) data in order to help differentiate between normal reading and task-oriented reading. Understanding the physiological aspects of the reading process~(the cognitive load and the reading intent) can help improve the quality of crowd-sourced annotated data. Our method, Adaptive Graph Temporal Convolution Network (AdaGTCN), uses an Adaptive Graph Learning Layer and Deep Neighborhood Graph Convolution Layer for identifying the reading activities using time-locked EEG sequences recorded during word-level eye-movement fixations. Adaptive Graph Learning Layer dynamically learns the spatial correlations between the EEG electrode signals while the Deep Neighborhood Graph Convolution Layer exploits temporal features from a dense graph neighborhood to establish the state of the art in reading task identification over other contemporary approaches. We compare our approach with several baselines to report an improvement of 6.29% on the ZuCo 2.0 dataset, along with extensive ablation experiments
翻訳日:2021-02-25 14:15:22 公開日:2021-02-21
# (参考訳) 隠れた共同創業者との因果関係分析 [全文訳有]

Causal Mediation Analysis with Hidden Confounders ( http://arxiv.org/abs/2102.11724v1 )

ライセンス: CC BY 4.0
Lu Cheng, Ruocheng Guo, Huan Liu(参考訳) 因果関係推論の重要な問題は、治療の総効果を異なる因果経路に分解し、各経路における因果効果を定量化することである。 因果分析(CMA)は、これらの因果効果を特定し、推定するための公式な統計的アプローチである。 CMAの中心は、全ての前処理の共同設立者が測定され、後処理の共同設立者や隠れた共同設立者など、様々な種類の共同設立を捉えることができるという逐次的無知の仮定である。 通常、観察研究では検証できないが、この仮定は従来の手法の適用範囲と実用性の両方を抑える。 したがって、この作業は、統一された共著者とそのプロキシ変数による因果グラフに従うことによって、厳密な仮定を回避することを目的とする。 我々のコアコントリビューションは、深層潜伏変数モデルとプロキシ戦略を組み合わせたアルゴリズムであり、統一された代理共同創設者を共同で推論し、観測変数からCMAの異なる因果効果を推定する。 合成データと半合成データの両方を用いた経験的評価により,提案手法の有効性が検証された。

An important problem in causal inference is to break down the total effect of treatment into different causal pathways and quantify the causal effect in each pathway. Causal mediation analysis (CMA) is a formal statistical approach for identifying and estimating these causal effects. Central to CMA is the sequential ignorability assumption that implies all pre-treatment confounders are measured and they can capture different types of confounding, e.g., post-treatment confounders and hidden confounders. Typically unverifiable in observational studies, this assumption restrains both the coverage and practicality of conventional methods. This work, therefore, aims to circumvent the stringent assumption by following a causal graph with a unified confounder and its proxy variables. Our core contribution is an algorithm that combines deep latent-variable models and proxy strategy to jointly infer a unified surrogate confounder and estimate different causal effects in CMA from observed variables. Empirical evaluations using both synthetic and semi-synthetic datasets validate the effectiveness of the proposed method.
翻訳日:2021-02-25 01:57:33 公開日:2021-02-21
# (参考訳) robust action governorを用いた安全強化学習 [全文訳有]

Safe Reinforcement Learning Using Robust Action Governor ( http://arxiv.org/abs/2102.10643v1 )

ライセンス: CC BY 4.0
Yutong Li, Nan Li, H. Eric Tseng, Anouck Girard, Dimitar Filev, Ilya Kolmanovsky(参考訳) Reinforcement Learning(RL)は、基本的に試行錯誤学習の手順であり、探索と探索プロセス中に安全でない行動を引き起こす可能性があります。 これにより、RLの現実世界の制御問題、特に安全クリティカルシステムへの応用が妨げられる。 本論文では, RLアルゴリズムと, 学習中の安全関連要件を管理するために, セット理論的手法とオンライン最適化を応用したロバスト・アクション・ガバナー (RAG) と呼ばれる, アドオン安全監督モジュールを組み込んだ安全RLのフレームワークについて紹介する。 自動車用アダプティブクルーズ制御への適用を通じて,提案された安全RLフレームワークを例示する。

Reinforcement Learning (RL) is essentially a trial-and-error learning procedure which may cause unsafe behavior during the exploration-and-expl oitation process. This hinders the applications of RL to real-world control problems, especially to those for safety-critical systems. In this paper, we introduce a framework for safe RL that is based on integration of an RL algorithm with an add-on safety supervision module, called the Robust Action Governor (RAG), which exploits set-theoretic techniques and online optimization to manage safety-related requirements during learning. We illustrate this proposed safe RL framework through an application to automotive adaptive cruise control.
翻訳日:2021-02-24 19:43:08 公開日:2021-02-21
# (参考訳) メモリ効率の高いオープンドメインQAのためのインデックスコンテンツの運用 [全文訳有]

Pruning the Index Contents for Memory Efficient Open-Domain QA ( http://arxiv.org/abs/2102.10697v1 )

ライセンス: CC BY 4.0
Martin Fajcik, Martin Docekal, Karel Ondrej, Pavel Smrz(参考訳) 本研究では、NaturalQuestionsとEfficentQAデータセットの50%の正確な一致を超え、最先端のアプローチを組み合わせることで達成可能なものを示す新しいパイプラインを提示する。 具体的には,レトリバー,リカウンタ,抽出リーダ,生成リーダ,およびそれらを統合する簡単な方法からなる,新たなr2-d2パイプラインを提案する。 さらに、以前の作業では、数十ギブの順番でスケールする外部ドキュメントの巨大なインデックスがしばしば付いている。 本研究では,オープンドメインQAシステムをインデックス,OS,ライブラリコンポーネントで完全に6GiBドッカー画像に収まるとともに,元のインデックス内容の8%しか保持せず,3%のEM精度を失うような,大規模インデックスの内容をprunする簡単なアプローチを提案する。

This work presents a novel pipeline that demonstrates what is achievable with a combined effort of state-of-the-art approaches, surpassing the 50% exact match on NaturalQuestions and EfficentQA datasets. Specifically, it proposes the novel R2-D2 (Rank twice, reaD twice) pipeline composed of retriever, reranker, extractive reader, generative reader and a simple way to combine them. Furthermore, previous work often comes with a massive index of external documents that scales in the order of tens of GiB. This work presents a simple approach for pruning the contents of a massive index such that the open-domain QA system altogether with index, OS, and library components fits into 6GiB docker image while retaining only 8% of original index contents and losing only 3% EM accuracy.
翻訳日:2021-02-24 16:21:27 公開日:2021-02-21
# (参考訳) CheXseg: エキスパートアノテーションとDNN生成したSaliency Mapsを組み合わせてX線セグメンテーション [全文訳有]

CheXseg: Combining Expert Annotations with DNN-generated Saliency Maps for X-ray Segmentation ( http://arxiv.org/abs/2102.10484v1 )

ライセンス: CC BY 4.0
Soham Gadgil, Mark Endo, Emily Wen, Andrew Y. Ng, Pranav Rajpurkar(参考訳) 医療画像のセグメンテーションモデルは通常、ピクセルレベルで専門家のアノテーションによって監督される。 本研究では,多ラベルセマンティックセグメンテーションモデルのトレーニングのために,高品質の画素レベルのエキスパートアノテーションと粗いDNN生成サリエンシマップのスケールを組み合わせる手法を提案する。 我々はCheXsegと呼ばれる半教師付き手法のマルチラベル胸部X線解釈への応用を実演する。 CheXsegは、ピクセルレベルのエキスパートアノテーションのみを13.4%、DNN生成のサリエンシーマップのみを91.2%、完全に監視されたメソッドのパフォーマンス(mIoU)を改善する。 さらに, ナレッジ蒸留を用いた半監督法を実装し, CheXseg が優勢であるにもかかわらず, 最良完全監督法の性能 (mIoU) を4.83%上回ることがわかった。 我々の最善の方法は10の病理のうち3つについて放射線科医の合意を一致させ、全体的な性能の差を71.6%削減できる。

Medical image segmentation models are typically supervised by expert annotations at the pixel-level, which can be expensive to acquire. In this work, we propose a method that combines the high quality of pixel-level expert annotations with the scale of coarse DNN-generated saliency maps for training multi-label semantic segmentation models. We demonstrate the application of our semi-supervised method, which we call CheXseg, on multi-label chest x-ray interpretation. We find that CheXseg improves upon the performance (mIoU) of fully-supervised methods that use only pixel-level expert annotations by 13.4% and weakly-supervised methods that use only DNN-generated saliency maps by 91.2%. Furthermore, we implement a semi-supervised method using knowledge distillation and find that though it is outperformed by CheXseg, it exceeds the performance (mIoU) of the best fully-supervised method by 4.83%. Our best method is able to match radiologist agreement on three out of ten pathologies and reduces the overall performance gap by 71.6% as compared to weakly-supervised methods.
翻訳日:2021-02-24 15:33:37 公開日:2021-02-21
# (参考訳) 弱めのNAS予測器は必要なだけ [全文訳有]

Weak NAS Predictors Are All You Need ( http://arxiv.org/abs/2102.10490v1 )

ライセンス: CC BY 4.0
Junru Wu, Xiyang Dai, Dongdong Chen, Yinpeng Chen, Mengchen Liu, Ye Yu, Zhangyang Wang, Zicheng Liu, Mei Chen, Lu Yuan(参考訳) neural architecture search (nas)は、アーキテクチャとパフォーマンスの多様体を探索することで、最良のネットワークアーキテクチャを見つける。 しばしば多くのアーキテクチャを訓練し、評価し、膨大な計算コストを発生させる。 最近の予測器ベースのnasアプローチは、アーキテクチャとパフォーマンスのペアをサンプリングし、プロキシの精度を予測するという2つの重要なステップでこの問題を解決しようとする。 しかし、サンプルが限られているため、これらの予測器はトップアーキテクチャを見つけるにはほど遠い。 本稿では,アーキテクチャ空間全体をカバーする複雑な予測器の探索から,ハイパフォーマンスなサブ空間へと徐々に進む弱い予測器のセットへとパラダイムをシフトする。 提案する弱い予測器の鍵となる特性に基づいて、より良いアーキテクチャをサンプリングする確率が増加している。 したがって、以前に学習した予測器によって導かれたいくつかの優れたアーキテクチャをサンプリングし、新しい弱い予測器を推定する。 この粗い繰り返しにより、サンプリング空間のランク付けは徐々に洗練され、最終的には最適なアーキテクチャを見つけるのに役立つ。 NAS-Bench-101 および NAS-Bench-201 の最高性能アーキテクチャを見つけるのにサンプルのコストが少ないことを実証し、NASNet 検索空間における最先端の ImageNet 性能を実現します。 コードはhttps://github.com/V ITA-Group/WeakNASで入手できます。

Neural Architecture Search (NAS) finds the best network architecture by exploring the architecture-to-perf ormance manifold. It often trains and evaluates a large number of architectures, causing tremendous computation costs. Recent predictor-based NAS approaches attempt to solve this problem with two key steps: sampling some architecture-perform ance pairs and fitting a proxy accuracy predictor. Given limited samples, these predictors, however, are far from accurate to locate top architectures. In this paper, we shift the paradigm from finding a complicated predictor that covers the whole architecture space to a set of weaker predictors that progressively move towards the high-performance sub-space. It is based on the key property of the proposed weak predictors that their probabilities of sampling better architectures keep increasing. We thus only sample a few well-performed architectures guided by the previously learned predictor and estimate a new better weak predictor. By this coarse-to-fine iteration, the ranking of sampling space is refined gradually, which helps find the optimal architectures eventually. Experiments demonstrate that our method costs fewer samples to find the top-performance architectures on NAS-Bench-101 and NAS-Bench-201, and it achieves the state-of-the-art ImageNet performance on the NASNet search space. The code is available at https://github.com/V ITA-Group/WeakNAS
翻訳日:2021-02-24 15:20:01 公開日:2021-02-21
# (参考訳) コンピュータ支援全スライディング画像解析の総合的レビュー:データセットから特徴抽出, セグメンテーション, 分類, 検出アプローチまで

A Comprehensive Review of Computer-aided Whole-slide Image Analysis: from Datasets to Feature Extraction, Segmentation, Classification, and Detection Approaches ( http://arxiv.org/abs/2102.10553v1 )

ライセンス: CC BY 4.0
Chen Li, Xintong Li, Md Rahaman, Xiaoyan Li, Hongzan Sun, Hong Zhang, Yong Zhang, Xiaoqi Li, Jian Wu, Yudong Yao, Marcin Grzegorzek(参考訳) コンピュータ支援診断(CAD)および画像スキャン技術の開発により、WSI(Whole-slide Image)スキャナーは病理診断の分野で広く使用されています。 したがって、wsi分析は現代のデジタル病理学の鍵となっている。 2004年以来、WSIはCADでますます使用されています。 機械ビジョン法は通常半自動または全自動コンピュータに基づいているため、高効率で省力化が可能です。 WSIとCAD技術の組み合わせにより、病理学者はより安定的で定量的な分析結果を得ることができ、労働コストを節約し、診断の客観性を向上させることができる。 本稿では,機械学習に基づくWSI分析手法について概説する。 まず、WSI および CAD メソッドの開発状況を紹介する。 次に, セグメンテーション, 分類, 検出タスクのためのWSIデータセットと評価指標について論じる。 次に、wsiセグメンテーション、分類、検出における機械学習の最新開発を継続的にレビューする。 最後に, 既存手法について検討し, 解析手法の適用性を分析し, この分野における解析手法の適用可能性を予測する。

With the development of computer-aided diagnosis (CAD) and image scanning technology, Whole-slide Image (WSI) scanners are widely used in the field of pathological diagnosis. Therefore, WSI analysis has become the key to modern digital pathology. Since 2004, WSI has been used more and more in CAD. Since machine vision methods are usually based on semi-automatic or fully automatic computers, they are highly efficient and labor-saving. The combination of WSI and CAD technologies for segmentation, classification, and detection helps histopathologists obtain more stable and quantitative analysis results, save labor costs and improve diagnosis objectivity. This paper reviews the methods of WSI analysis based on machine learning. Firstly, the development status of WSI and CAD methods are introduced. Secondly, we discuss publicly available WSI datasets and evaluation metrics for segmentation, classification, and detection tasks. Then, the latest development of machine learning in WSI segmentation, classification, and detection are reviewed continuously. Finally, the existing methods are studied, the applicabilities of the analysis methods are analyzed, and the application prospects of the analysis methods in this field are forecasted.
翻訳日:2021-02-24 14:14:50 公開日:2021-02-21
# (参考訳) 対比的自己監督型ニューラルネットワーク探索 [全文訳有]

Contrastive Self-supervised Neural Architecture Search ( http://arxiv.org/abs/2102.10557v1 )

ライセンス: CC BY 4.0
Nam Nguyen and J. Morris Chang(参考訳) 本論文では,教師付き学習から受け継いだデータラベリングのコストを完全に軽減する,細胞ベースのニューラルアーキテクチャ探索アルゴリズム(NAS)を提案する。 本アルゴリズムは,画像表現に対する自己教師あり学習の有効性を活かし,コンピュータビジョンの重要課題となっている。 まず、対照的な自己監督学習の下でわずかのラベルなしの列車データを使用して、より広範な検索空間を検索し、計算リソースを消費することなく、より良い神経アーキテクチャを発見することができます。 第二に、評価段階でのアーキテクチャの最終性能を損なうことなく、検索段階でのラベル付きデータ(コントラスト損失)のコストを完全に軽減します。 最後に,木分割推定器 (SMBO-TPE) による逐次モデルベース最適化によりNAS問題の固有離散探索空間に取り組み,計算コスト応答面を著しく低減する。 実験により, 検索アルゴリズムは, データラベリングコスト, 探索時間, 最終的な検証精度において, より効率的な結果が得られることを示した。

This paper proposes a novel cell-based neural architecture search algorithm (NAS), which completely alleviates the expensive costs of data labeling inherited from supervised learning. Our algorithm capitalizes on the effectiveness of self-supervised learning for image representations, which is an increasingly crucial topic of computer vision. First, using only a small amount of unlabeled train data under contrastive self-supervised learning allow us to search on a more extensive search space, discovering better neural architectures without surging the computational resources. Second, we entirely relieve the cost for labeled data (by contrastive loss) in the search stage without compromising architectures' final performance in the evaluation phase. Finally, we tackle the inherent discrete search space of the NAS problem by sequential model-based optimization via the tree-parzen estimator (SMBO-TPE), enabling us to reduce the computational expense response surface significantly. An extensive number of experiments empirically show that our search algorithm can achieve state-of-the-art results with better efficiency in data labeling cost, searching time, and accuracy in final validation.
翻訳日:2021-02-24 13:38:09 公開日:2021-02-21
# (参考訳) 事前学習言語モデルを用いた自動コード生成 [全文訳有]

Automatic Code Generation using Pre-Trained Language Models ( http://arxiv.org/abs/2102.10535v1 )

ライセンス: CC BY 4.0
Luis Perez, Lizi Ottens, Sudharshan Viswanathan(参考訳) 自然言語処理の最近の進歩 \cite{gpt2} \cite{BERT} は、複数の自然言語タスクで人間に近いパフォーマンスをもたらしている。 本稿では,厳密な構文規則を持つ高度に構造化された環境に類似の手法を適用することができるかを検討する。 具体的には,事前学習された言語モデル上に構築したpython言語におけるコード生成のためのエンドツーエンド機械学習モデルを提案する。 本研究では,BLEUスコア0.22を達成し,合理的なシーケンス・ツー・シーケンスベースラインよりも46\%向上した微調整モデルが,コード生成タスクにおいて良好に動作できることを実証する。 トレーニングやデータ処理に使用されるすべての結果と関連コードはGitHubで入手できる。

Recent advancements in natural language processing \cite{gpt2} \cite{BERT} have led to near-human performance in multiple natural language tasks. In this paper, we seek to understand whether similar techniques can be applied to a highly structured environment with strict syntax rules. Specifically, we propose an end-to-end machine learning model for code generation in the Python language built on-top of pre-trained language models. We demonstrate that a fine-tuned model can perform well in code generation tasks, achieving a BLEU score of 0.22, an improvement of 46\% over a reasonable sequence-to-sequence baseline. All results and related code used for training and data processing are available on GitHub.
翻訳日:2021-02-24 13:05:58 公開日:2021-02-21
# (参考訳) 30歳で帰納論理プログラミング [全文訳有]

Inductive logic programming at 30 ( http://arxiv.org/abs/2102.10556v1 )

ライセンス: CC BY 4.0
Andrew Cropper, Sebastijan Duman\v{c}i\'c, Richard Evans, and Stephen H. Muggleton(参考訳) インダクティブ・ロジック・プログラミング(Inductive logic programming、ILP)は、論理ベースの機械学習の一種である。 ILPの目標は、与えられたトレーニング例と背景知識を一般化する仮説(論理プログラム)を誘導することです。 ILPが30歳になると、フィールドでの最近の作業を調査します。 本調査では, (i) メタレベルの探索手法, (ii) 少数の例から一般化した再帰的プログラムの学習手法, (iii) 発明を述語する新しいアプローチ, (iv) 様々な技術, 特に解集合プログラミングとニューラルネットワークの利用に焦点を当てた。 ILPの現在の限界について論じ、今後の研究の方向性について論じる。

Inductive logic programming (ILP) is a form of logic-based machine learning. The goal of ILP is to induce a hypothesis (a logic program) that generalises given training examples and background knowledge. As ILP turns 30, we survey recent work in the field. In this survey, we focus on (i) new meta-level search methods, (ii) techniques for learning recursive programs that generalise from few examples, (iii) new approaches for predicate invention, and (iv) the use of different technologies, notably answer set programming and neural networks. We conclude by discussing some of the current limitations of ILP and discuss directions for future research.
翻訳日:2021-02-24 12:09:59 公開日:2021-02-21
# (参考訳) 深部ReLUネットワークの長所を期待する [全文訳有]

Deep ReLU Networks Preserve Expected Length ( http://arxiv.org/abs/2102.10492v1 )

ライセンス: CC BY 4.0
Boris Hanin, Ryan Jeong, David Rolnick(参考訳) ニューラルネットワークによって計算される関数の複雑さを評価することは、ネットワークがどのように学習し一般化するかを理解するのに役立つ。 ネットワークが長さを歪める方法 - もしネットワークが単位長曲線を入力として取ると、結果の出力曲線の長さはどのくらいになるのか? この長さはネットワークの深さで指数関数的に増加すると広く信じられている。 期待される長さの歪みは深さとともに成長せず、標準のランダム初期化を持つRELUネットワークでは、実際にわずかに縮小します。 また、この結果は、長さ歪みの高次モーメントと高次元体積の歪みの両方に対して上界を証明して一般化する。 これらの理論結果は実験結果と相関しており、トレーニング後も長さの歪みは控えめなままです。

Assessing the complexity of functions computed by a neural network helps us understand how the network will learn and generalize. One natural measure of complexity is how the network distorts length -- if the network takes a unit-length curve as input, what is the length of the resulting curve of outputs? It has been widely believed that this length grows exponentially in network depth. We prove that in fact this is not the case: the expected length distortion does not grow with depth, and indeed shrinks slightly, for ReLU networks with standard random initialization. We also generalize this result by proving upper bounds both for higher moments of the length distortion and for the distortion of higher-dimensional volumes. These theoretical results are corroborated by our experiments, which indicate that length distortion remains modest even after training.
翻訳日:2021-02-24 10:46:23 公開日:2021-02-21
# (参考訳) MedAug: 患者メタデータを活用したコントラスト学習は胸部X線解釈の表現を改善する [全文訳有]

MedAug: Contrastive learning leveraging patient metadata improves representations for chest X-ray interpretation ( http://arxiv.org/abs/2102.10663v1 )

ライセンス: CC BY 4.0
Yen Nhi Truong Vu, Richard Wang, Niranjan Balachandar, Can Liu, Andrew Y. Ng, Pranav Rajpurkar(参考訳) 同じ画像の複数のビューのペア間の自己教師ありコントラスト学習は、ラベルのないデータを利用して、自然画像と医学画像の両方に有意義な視覚的表現を作り出すことに成功している。 しかし、患者メタデータの可用性を利用して表現を改善する医療画像のペアを選択する方法を決定する作業は限られています。 本研究では, 患者メタデータを用いて, 多分異なる画像の視点から正のペアを選択する手法を開発した。 胸部X線解釈の正の対を選択するための戦略を比較検討し, 同一患者, 画像研究, 側方性などを検討した。 胸水分類のためのラベル付きデータセットの1%にリニア層を微調整して下流タスク性能を評価する。 すべての側面で同じ研究から同じ患者からの画像を使用することを含む私たちの最高のパフォーマンスの肯定的なペア選択戦略は、それぞれ前の対照的方法とImageNet事前訓練ベースラインの両方から平均AUCで3.4%と14.4%のパフォーマンスの増加を達成します。 疾患分類における下流性能向上の鍵となるのは、(1)患者メタデータを用いて、同一の病状を持つ異なる画像から正のペアを適切に作成すること、(2)クエリーのペアリングに用いられる異なる画像の数を最大化することである。 さらに,コントラスト学習における患者メタデータの活用について検討するが,メタデータを使用しないベースラインの改善は見つからない。 本手法は医用画像解釈に広く適用でき,コントラスト学習のためのペア選択に医学的洞察を取り入れる柔軟性がある。

Self-supervised contrastive learning between pairs of multiple views of the same image has been shown to successfully leverage unlabeled data to produce meaningful visual representations for both natural and medical images. However, there has been limited work on determining how to select pairs for medical images, where availability of patient metadata can be leveraged to improve representations. In this work, we develop a method to select positive pairs coming from views of possibly different images through the use of patient metadata. We compare strategies for selecting positive pairs for chest X-ray interpretation including requiring them to be from the same patient, imaging study or laterality. We evaluate downstream task performance by fine-tuning the linear layer on 1% of the labeled dataset for pleural effusion classification. Our best performing positive pair selection strategy, which involves using images from the same patient from the same study across all lateralities, achieves a performance increase of 3.4% and 14.4% in mean AUC from both a previous contrastive method and ImageNet pretrained baseline respectively. Our controlled experiments show that the keys to improving downstream performance on disease classification are (1) using patient metadata to appropriately create positive pairs from different images with the same underlying pathologies, and (2) maximizing the number of different images used in query pairing. In addition, we explore leveraging patient metadata to select hard negative pairs for contrastive learning, but do not find improvement over baselines that do not use metadata. Our method is broadly applicable to medical image interpretation and allows flexibility for incorporating medical insights in choosing pairs for contrastive learning.
翻訳日:2021-02-24 06:13:12 公開日:2021-02-21
# (参考訳) 血管内超音波画像におけるlumenおよびmedia-adventitiaの深層学習による抽出法 [全文訳有]

A Deep Learning-based Method to Extract Lumen and Media-Adventitia in Intravascular Ultrasound Images ( http://arxiv.org/abs/2102.10480v1 )

ライセンス: CC BY 4.0
Fubao Zhu, Zhengyuan Gao, Chen Zhao, Hanlei Zhu, Yong Dong, Jingfeng Jiang, Neng Dai, Weihua Zhou(参考訳) 血管内超音波検査(IVUS)は冠動脈壁の直接の可視化を可能にし,動脈硬化の評価と狭窄度に適している。 このような臨床評価には、IVUSのルーメンと中性アドベンチア(MA)の正確なセグメンテーションと測定が不可欠です。 しかし、現在のセグメンテーションは、時間とユーザ依存のマニュアル操作に依存している。 本稿では,lumen と ma の境界を自動抽出するエンコーダ・デコーダ深層アーキテクチャを用いた深層学習に基づく手法を提案する。 IVUS-U-Net++というメソッドは、よく知られたU-Net++モデルの拡張です。 より具体的には、U-Net++モデルに機能ピラミッドネットワークが追加され、さまざまなスケールで機能マップの利用が可能になった。 その結果、確率マップの精度とその後のセグメンテーションが改善されました。この研究では18人の患者から1746個のIVUS画像を集めました。 データセット全体を10倍のクロスバリデーションのためのトレーニングデータセット(1572イメージ)と、モデルのパフォーマンスを評価するテストデータセット(174イメージ)に分割した。 我々のivus-u-net++セグメンテーションモデルは、jaccard測度 (jm) が 0.9412、ハウスドルフ距離 (hd) が 0.0639 mm、jmが 0.9509、それぞれma境界が 0.0867 mmであった。 また,Pearson相関とBland-Altman相関解析により,セグメント化結果から測定した12の臨床パラメータと地上真理との相関性を評価し,地上真理(全Ps<0.01)と自動測定が一致した。 以上の結果から,提案したIVUS-U-Net++モデルが臨床応用に大いに期待できることが示唆された。

Intravascular ultrasound (IVUS) imaging allows direct visualization of the coronary vessel wall and is suitable for the assessment of atherosclerosis and the degree of stenosis. Accurate segmentation and measurements of lumen and median-adventitia (MA) from IVUS are essential for such a successful clinical evaluation. However, current segmentation relies on manual operations, which is time-consuming and user-dependent. In this paper, we aim to develop a deep learning-based method using an encoder-decoder deep architecture to automatically extract both lumen and MA border. Our method named IVUS-U-Net++ is an extension of the well-known U-Net++ model. More specifically, a feature pyramid network was added to the U-Net++ model, enabling the utilization of feature maps at different scales. As a result, the accuracy of the probability map and subsequent segmentation have been improved We collected 1746 IVUS images from 18 patients in this study. The whole dataset was split into a training dataset (1572 images) for the 10-fold cross-validation and a test dataset (174 images) for evaluating the performance of models. Our IVUS-U-Net++ segmentation model achieved a Jaccard measure (JM) of 0.9412, a Hausdorff distance (HD) of 0.0639 mm for the lumen border, and a JM of 0.9509, an HD of 0.0867 mm for the MA border, respectively. Moreover, the Pearson correlation and Bland-Altman analyses were performed to evaluate the correlations of 12 clinical parameters measured from our segmentation results and the ground truth, and automatic measurements agreed well with those from the ground truth (all Ps<0.01). In conclusion, our preliminary results demonstrate that the proposed IVUS-U-Net++ model has great promise for clinical use.
翻訳日:2021-02-24 03:38:13 公開日:2021-02-21
# (参考訳) 発達障害児に対するAIによる行動分析 : 精密治療に向けて [全文訳有]

AI-Augmented Behavior Analysis for Children with Developmental Disabilities: Building Towards Precision Treatment ( http://arxiv.org/abs/2102.10635v1 )

ライセンス: CC BY 4.0
Shadi Ghafghazi, Amarie Carnett, Leslie Neely, Arun Das, Paul Rad(参考訳) 自閉症スペクトラム障害は、社会的、コミュニケーション的、行動的課題を特徴とする発達障害である。 自閉症、知的障害、発達障害(auidd)と診断される個人は通常、長期のケアと治療と教育を必要とする。 AUIDDの効果的な治療は、訓練された応用行動分析者(ABA)が行う効率的で慎重な行動観察に依存している。 しかし、このプロセスは、臨床医にデータの収集と分析、問題行動の特定、分類的結果の分類と予測のためのパターン分析の実行、治療に対する応答性の仮説化、治療計画の効果の検出など、ABAを過大評価する。 臨床意思決定パイプラインへのデジタル技術の統合と人工知能(AI)アルゴリズムによる自動意思決定の進歩は、新しいアルゴリズムと高忠実度センサーを使用して教育と治療を強化することの重要性を強調しています。 本稿では、AI-Augmented Learning and Applied Behavior Analytics(AI-ABA)プラットフォームを紹介し、AUIDD個人に対してパーソナライズされた治療と学習計画を提供する。 自動データ収集と分析とともに体系的な実験を定義することで、AI-ABAは強化ベースの拡張現実や仮想現実やその他のモバイルプラットフォームを使用した自己規制行動を促進することができる。 これにより、AI-ABAは、臨床医が正確なデータ駆動意思決定に集中し、AUIDDの個人に対する個別の介入の質を高めることができる。

Autism spectrum disorder is a developmental disorder characterized by significant social, communication, and behavioral challenges. Individuals diagnosed with autism, intellectual, and developmental disabilities (AUIDD) typically require long-term care and targeted treatment and teaching. Effective treatment of AUIDD relies on efficient and careful behavioral observations done by trained applied behavioral analysts (ABAs). However, this process overburdens ABAs by requiring the clinicians to collect and analyze data, identify the problem behaviors, conduct pattern analysis to categorize and predict categorical outcomes, hypothesize responsiveness to treatments, and detect the effects of treatment plans. Successful integration of digital technologies into clinical decision-making pipelines and the advancements in automated decision-making using Artificial Intelligence (AI) algorithms highlights the importance of augmenting teaching and treatments using novel algorithms and high-fidelity sensors. In this article, we present an AI-Augmented Learning and Applied Behavior Analytics (AI-ABA) platform to provide personalized treatment and learning plans to AUIDD individuals. By defining systematic experiments along with automated data collection and analysis, AI-ABA can promote self-regulative behavior using reinforcement-based augmented or virtual reality and other mobile platforms. Thus, AI-ABA could assist clinicians to focus on making precise data-driven decisions and increase the quality of individualized interventions for individuals with AUIDD.
翻訳日:2021-02-23 20:36:55 公開日:2021-02-21
# (参考訳) 深層強化学習の高速化:人間プレイヤーからの衝突回避学習 [全文訳有]

Accelerated Sim-to-Real Deep Reinforcement Learning: Learning Collision Avoidance from Human Player ( http://arxiv.org/abs/2102.10711v1 )

ライセンス: CC BY 4.0
Hanlin Niu, Ze Ji, Farshad Arvin, Barry Lennox, Hujun Yin, and Joaquin Carrasco(参考訳) 本稿では,センサレベルのマップレス衝突回避アルゴリズムを提案する。このアルゴリズムは,センサデータを線形および角速度にマッピングし,地図のない未知環境をナビゲートする移動ロボットである。 ロボットが人間体験データと自己探索データの両方から学習できるように,効率的な学習戦略を提案する。 ゲームフォーマットシミュレーションフレームワークは、人間が移動ロボットを目標に遠隔操作できるように設計され、報酬関数を用いて人間のアクションもスコアされる。 人間のプレイヤーデータと自己再生データは、優先された体験再生アルゴリズムを用いてサンプリングされる。 提案手法と学習戦略は,シミュレーション環境である \textit{environment 1} とシミュレーション廊下環境である \textit{environment 2} の2つの異なる実験構成で評価し,その性能について検討した。 提案手法は,環境1および環境2の20\%において,標準的Deep Deterministic Policy Gradient (DDPG)法が要求するトレーニングステップの16\%のみを用いて,同じレベルの報酬を得ていることを示した。 20回のランダムミッションの評価において,提案手法はガゼボの2つの環境において,訓練時間の2~h未満と2.5~h未満で衝突することはなかった。 また、DDPGよりもスムーズな軌道も生成した。 提案手法は実環境における実ロボットにも実装され,性能評価を行った。 シミュレーションソフトウェアを用いてトレーニングしたモデルは,さらに微調整することなく実世界のシナリオに直接適用可能であることを確認でき,DDPGよりも高い堅牢性を示すことができる。 https://youtu.be/Bmw xevgsdGc https://github.com/h anlinniu/turtlebot3_ ddpg_collision_avoid ance

This paper presents a sensor-level mapless collision avoidance algorithm for use in mobile robots that map raw sensor data to linear and angular velocities and navigate in an unknown environment without a map. An efficient training strategy is proposed to allow a robot to learn from both human experience data and self-exploratory data. A game format simulation framework is designed to allow the human player to tele-operate the mobile robot to a goal and human action is also scored using the reward function. Both human player data and self-playing data are sampled using prioritized experience replay algorithm. The proposed algorithm and training strategy have been evaluated in two different experimental configurations: \textit{Environment 1}, a simulated cluttered environment, and \textit{Environment 2}, a simulated corridor environment, to investigate the performance. It was demonstrated that the proposed method achieved the same level of reward using only 16\% of the training steps required by the standard Deep Deterministic Policy Gradient (DDPG) method in Environment 1 and 20\% of that in Environment 2. In the evaluation of 20 random missions, the proposed method achieved no collision in less than 2~h and 2.5~h of training time in the two Gazebo environments respectively. The method also generated smoother trajectories than DDPG. The proposed method has also been implemented on a real robot in the real-world environment for performance evaluation. We can confirm that the trained model with the simulation software can be directly applied into the real-world scenario without further fine-tuning, further demonstrating its higher robustness than DDPG. The video and code are available: https://youtu.be/Bmw xevgsdGc https://github.com/h anlinniu/turtlebot3_ ddpg_collision_avoid ance
翻訳日:2021-02-23 20:23:58 公開日:2021-02-21
# (参考訳) Mastering Terra Mystica: マルチエージェント協調ボードゲームに自己再生を適用する [全文訳有]

Mastering Terra Mystica: Applying Self-Play to Multi-agent Cooperative Board Games ( http://arxiv.org/abs/2102.10540v1 )

ライセンス: CC BY 4.0
Luis Perez(参考訳) 本稿では,terra mysticaの複雑な戦略ゲームを解くための複数のアルゴリズムを探索・比較し,以下tmと略す。 これまでAIを用いたスーパーヒューマンゲームプレイの分野では、Go、Chess、Shogi \cite{AlphaZero}などのゲームにおけるジェネリックアルゴリズムのブレークスルーが有効であることが証明されています。 われわれはこれらのブレークスルーを直接、人間のプレイヤーと競合するAIを作成することを目的として、TMの新たな国家表現に適用する。 具体的には,この状態表現にalphazeroを適用する最初の結果を示し,その戦略を分析する。 簡単な分析がなされた。 我々はこの修正アルゴリズムを新しい状態表現型アルファtmと呼ぶ。 最後に、複数のベースラインと典型的な人間のスコアを比較して、この手法の成功と欠点について議論する。 この論文で使用されるすべてのコードは、 \href{https://github.com/k andluis/terrazero}{GitHub} で入手できる。

In this paper, we explore and compare multiple algorithms for solving the complex strategy game of Terra Mystica, hereafter abbreviated as TM. Previous work in the area of super-human game-play using AI has proven effective, with recent break-through for generic algorithms in games such as Go, Chess, and Shogi \cite{AlphaZero}. We directly apply these breakthroughs to a novel state-representation of TM with the goal of creating an AI that will rival human players. Specifically, we present the initial results of applying AlphaZero to this state-representation and analyze the strategies developed. A brief analysis is presented. We call this modified algorithm with our novel state-representation AlphaTM. In the end, we discuss the success and shortcomings of this method by comparing against multiple baselines and typical human scores. All code used for this paper is available at on \href{https://github.com/k andluis/terrazero}{GitHub}.
翻訳日:2021-02-23 19:07:40 公開日:2021-02-21
# (参考訳) 画像処理のための深分解ネットワーク:可視・赤外画像融合の事例研究 [全文訳有]

A Deep Decomposition Network for Image Processing: A Case Study for Visible and Infrared Image Fusion ( http://arxiv.org/abs/2102.10526v1 )

ライセンス: CC0 1.0
Yu Fu, Xiao-Jun Wu, Josef Kittler(参考訳) 画像分解は画像処理分野において重要な課題である。 ソース画像から有能な特徴を抽出することができる。 本稿では畳み込みニューラルネットワークに基づく新しい画像分解法を提案する。 この方法は、多くの画像処理タスクに適用できる。 本稿では,画像分解ネットワークを画像融合タスクに適用する。 赤外線画像と可視光画像を入力し、それぞれ3つの高周波特徴画像と低周波特徴画像に分解する。 2つの特徴画像セットは、特定の融合戦略を用いて融合特徴画像を取得する。 最後に、特徴画像を再構成して融合画像を得る。 現状の融合法と比較すると,本手法は主観的評価と客観的評価の両方において優れた性能を示した。

Image decomposition is a crucial subject in the field of image processing. It can extract salient features from the source image. We propose a new image decomposition method based on convolutional neural network. This method can be applied to many image processing tasks. In this paper, we apply the image decomposition network to the image fusion task. We input infrared image and visible light image and decompose them into three high-frequency feature images and a low-frequency feature image respectively. The two sets of feature images are fused using a specific fusion strategy to obtain fusion feature images. Finally, the feature images are reconstructed to obtain the fused image. Compared with the state-of-the-art fusion methods, this method has achieved better performance in both subjective and objective evaluation.
翻訳日:2021-02-23 18:29:30 公開日:2021-02-21
# (参考訳) Kuka LBR iiwaロボットを用いた3Dビジョン誘導ピックアンドプレイス [全文訳有]

3D Vision-guided Pick-and-Place Using Kuka LBR iiwa Robot ( http://arxiv.org/abs/2102.10710v1 )

ライセンス: CC BY 4.0
Hanlin Niu, Ze Ji, Zihang Zhu, Hujun Yin, and Joaquin Carrasco(参考訳) 本論文では,3Dカメラを搭載したロボットアームを用いた視覚誘導ピック・アンド・プレースタスク制御システムの開発について述べる。 主なステップには、カメラの本質的および外部的なキャリブレーション、手目キャリブレーション、初期オブジェクトポーズ登録、オブジェクトポーズアライメントアルゴリズム、ピック&プレース実行が含まれます。 提案システムにより,ロボットは新しいオブジェクトを登録する時間に制限のあるオブジェクトを選択・配置することができ,開発したソフトウェアを新たなオブジェクトシナリオに迅速に適用することができる。 この統合システムは、kuka iiwaとrobotiq gripper(2本の指グリッパーと3本の指グリッパー)と3dカメラ(intel realsense d415カメラ、intel realsense d435カメラ、microsoft kinect v2)のハードウェアの組み合わせでテストされた。 システム全体は、他のロボットアーム、グリッパー、および3dカメラの組み合わせのためにも変更できる。

This paper presents the development of a control system for vision-guided pick-and-place tasks using a robot arm equipped with a 3D camera. The main steps include camera intrinsic and extrinsic calibration, hand-eye calibration, initial object pose registration, objects pose alignment algorithm, and pick-and-place execution. The proposed system allows the robot be able to to pick and place object with limited times of registering a new object and the developed software can be applied for new object scenario quickly. The integrated system was tested using the hardware combination of kuka iiwa, Robotiq grippers (two finger gripper and three finger gripper) and 3D cameras (Intel realsense D415 camera, Intel realsense D435 camera, Microsoft Kinect V2). The whole system can also be modified for the combination of other robotic arm, gripper and 3D camera.
翻訳日:2021-02-23 18:11:31 公開日:2021-02-21
# (参考訳) 科学的発見のための記号回帰:風速予測への応用 [全文訳有]

Symbolic regression for scientific discovery: an application to wind speed forecasting ( http://arxiv.org/abs/2102.10570v1 )

ライセンス: CC BY-SA 4.0
Ismail Alaoui Abdellaoui and Siamak Mehrkanoon(参考訳) 記号回帰は、データから解析方程式を明らかにするための一連の手法に対応する。 閉じた形式式を通じて、これらの技術は、新しい法則の潜在的な科学的発見、説明可能性、特徴工学、高速推論などの大きな利点を提供します。 同様に、ディープラーニングベースの技術は複雑なパターンをモデリングする素晴らしい能力を示している。 本論文は,最近のエンドツーエンドのシンボリック回帰手法の適用を目的とする。 風速予測のための分析式を得るために、方程式学習者(EQL)。 短時間の地平線予測に対して,少数の特徴量のみを用いて合理的な精度が得られる解析式を導出できることを示す。

Symbolic regression corresponds to an ensemble of techniques that allow to uncover an analytical equation from data. Through a closed form formula, these techniques provide great advantages such as potential scientific discovery of new laws, as well as explainability, feature engineering as well as fast inference. Similarly, deep learning based techniques has shown an extraordinary ability of modeling complex patterns. The present paper aims at applying a recent end-to-end symbolic regression technique, i.e. the equation learner (EQL), to get an analytical equation for wind speed forecasting. We show that it is possible to derive an analytical equation that can achieve reasonable accuracy for short term horizons predictions only using few number of features.
翻訳日:2021-02-23 16:07:00 公開日:2021-02-21
# 大規模ブラックボックス最適化のためのゼロオーダーブロックコーディネートディサントアルゴリズム

A Zeroth-Order Block Coordinate Descent Algorithm for Huge-Scale Black-Box Optimization ( http://arxiv.org/abs/2102.10707v1 )

ライセンス: Link先を確認
HanQin Cai, Yuchen Lou, Daniel McKenzie, Wotao Yin(参考訳) 問題の大きさがあまりに大きいため,決定変数に対する基本ベクトル演算さえも実現不可能な,大規模環境におけるゼロ階最適化問題を考える。 本稿では,総問合せ複雑性が良好で,文単位の計算複雑性がはるかに小さいzo-bcdという新しいアルゴリズムを提案する。 さらに,循環式測定行列を巧みに利用することで,zo-bcdのメモリフットプリントをさらに削減できることを示す。 本手法の適用例として,ウェーブレット領域におけるニューラルネットワークに基づく分類器に対する敵攻撃を作れば,問題次元が170万を超える可能性がある。 特に、ウェーブレット領域における音声分類器の対角的例を作成することで、最先端の攻撃成功率97.9%を達成できることを示す。

We consider the zeroth-order optimization problem in the huge-scale setting, where the dimension of the problem is so large that performing even basic vector operations on the decision variables is infeasible. In this paper, we propose a novel algorithm, coined ZO-BCD, that exhibits favorable overall query complexity and has a much smaller per-iteration computational complexity. In addition, we discuss how the memory footprint of ZO-BCD can be reduced even further by the clever use of circulant measurement matrices. As an application of our new method, we propose the idea of crafting adversarial attacks on neural network based classifiers in a wavelet domain, which can result in problem dimensions of over 1.7 million. In particular, we show that crafting adversarial examples to audio classifiers in a wavelet domain can achieve the state-of-the-art attack success rate of 97.9%.
翻訳日:2021-02-23 15:27:10 公開日:2021-02-21
# 生成モデルは絡み合いを知っているか? コントラスト学習は必要なだけ

Do Generative Models Know Disentanglement? Contrastive Learning is All You Need ( http://arxiv.org/abs/2102.10543v1 )

ライセンス: Link先を確認
Xuanchi Ren, Tao Yang, Yuwang Wang, Wenjun Zeng(参考訳) 不連続生成モデルは典型的には余分な正規化項で訓練されるが、これは各潜在因子が世代品質のコストで個別で独立した変化を起こすことを奨励する。 離散項なしで訓練された生成モデルの潜在空間を横断するとき、生成されたサンプルは意味的に意味のある変化を示し、疑問を提起する。 本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。 ディスコは、 (i) 潜在空間で横断方向を提供するナビゲータと、 (ii) 2つの共有重みエンコーダからなる$\delta$-contrastorと、これらの方向に沿って画像ペアをそれぞれ不等角表現にエンコードし、エンコードされた表現を変分空間にマッピングする差分演算子からなる。 エントロピーに基づくエンコード表現をよりアンタングルにするための支配損失と、同じ意味を持つ方向に対応するためにハードネガティブを反転させる戦略の2つの重要な手法を提案する。 DisCoは、ナビゲーターを最適化して潜時空間の偏角方向を発見し、エンコーダはコントラスト学習で画像から偏角表現を抽出し、GAN、VAE、フローを含む事前訓練された非偏角生成モデルに与えられた最先端の離角化を実現します。 Project page at https://github.com/x renaa/DisCo.com

Disentangled generative models are typically trained with an extra regularization term, which encourages the traversal of each latent factor to make a distinct and independent change at the cost of generation quality. When traversing the latent space of generative models trained without the disentanglement term, the generated samples show semantically meaningful change, raising the question: do generative models know disentanglement? We propose an unsupervised and model-agnostic method: Disentanglement via Contrast (DisCo) in the Variation Space. DisCo consists of: (i) a Navigator providing traversal directions in the latent space, and (ii) a $\Delta$-Contrastor composed of two shared-weight Encoders, which encode image pairs along these directions to disentangled representations respectively, and a difference operator to map the encoded representations to the Variation Space. We propose two more key techniques for DisCo: entropy-based domination loss to make the encoded representations more disentangled and the strategy of flipping hard negatives to address directions with the same semantic meaning. By optimizing the Navigator to discover disentangled directions in the latent space and Encoders to extract disentangled representations from images with Contrastive Learning, DisCo achieves the state-of-the-art disentanglement given pretrained non-disentangled generative models, including GAN, VAE, and Flow. Project page at https://github.com/x renaa/DisCo.
翻訳日:2021-02-23 15:25:40 公開日:2021-02-21
# コンテンツとスタイルを再考する: 教師なしの絡み合いのバイアスを探る

Rethinking Content and Style: Exploring Bias for Unsupervised Disentanglement ( http://arxiv.org/abs/2102.10544v1 )

ライセンス: Link先を確認
Xuanchi Ren, Tao Yang, Yuwang Wang, Wenjun Zeng(参考訳) content and style (c-s) disentanglementはオブジェクトの基本的な説明要素を2つの独立した部分空間に分解することを目的としている。 教師なしのアンサンブルの観点から、コンテンツとスタイルを再考し、データバイアスとして機能する画像再構築に異なる要因が重要であると仮定して、教師なしのC-Sアンサングル化の定式化を提案します。 実データ分布を近似する際,C-Sディコンタングルメントモジュール(C-S DisMo)により,対応するモデル帰納的バイアスを導入し,異なる役割と独立な役割をコンテンツやスタイルに割り当てる。 具体的には、画像再構築の最も支配的な要因をエンコードするデータセットから埋め込まれた各コンテンツは、データセット全体の共有分布からサンプリングされるものと仮定される。 アフィン変換によって共有分布をカスタマイズするために、残りの因子を符号化する特定の画像に対するスタイル埋め込みが使用される。 いくつかのポピュラーデータセットの実験では、この方法が最先端の監視されていないC-Sの非絡み合いを達成していることが示されています。 提案手法の有効性を,ドメイン翻訳と単一ビュー3D再構成という下流タスクで検証する。 Project page at https://github.com/x renaa/CS-DisMo

Content and style (C-S) disentanglement intends to decompose the underlying explanatory factors of objects into two independent subspaces. From the unsupervised disentanglement perspective, we rethink content and style and propose a formulation for unsupervised C-S disentanglement based on our assumption that different factors are of different importance and popularity for image reconstruction, which serves as a data bias. The corresponding model inductive bias is introduced by our proposed C-S disentanglement Module (C-S DisMo), which assigns different and independent roles to content and style when approximating the real data distributions. Specifically, each content embedding from the dataset, which encodes the most dominant factors for image reconstruction, is assumed to be sampled from a shared distribution across the dataset. The style embedding for a particular image, encoding the remaining factors, is used to customize the shared distribution through an affine transformation. The experiments on several popular datasets demonstrate that our method achieves the state-of-the-art unsupervised C-S disentanglement, which is comparable or even better than supervised methods. We verify the effectiveness of our method by downstream tasks: domain translation and single-view 3D reconstruction. Project page at https://github.com/x renaa/CS-DisMo.
翻訳日:2021-02-23 15:24:54 公開日:2021-02-21
# IndoBERTを用いたインドネシアのクリックベイト見出し検出のためのWebベースアプリケーション

Web-based Application for Detecting Indonesian Clickbait Headlines using IndoBERT ( http://arxiv.org/abs/2102.10601v1 )

ライセンス: Link先を確認
Muhammad Noor Fakhruzzaman, Sie Wildan Gunawan(参考訳) インドネシアのオンラインニュースでクリックベイトの使用が増加すると、ニュース価値の高い記事がクリックベイティニュースに埋もれてしまうことがあります。 このようなクリックベイトを検出するには、信頼性と軽量なツールが必要です。 最先端の自然言語処理モデルBERTを活用し、RESTful APIベースのアプリケーションを開発する。 この研究では、クラウドサーバー上でモデルをトレーニングするために必要なコンピューティングリソースをオフロードし、クライアント側アプリケーションはAPIにリクエストを送信するだけで、クラウドサーバーは残りの処理を行います。 IndoBERTを言語モデルとして,インドネシアのクリックベイトを検出するWebアプリケーションの設計と開発を行った。 アプリケーションの使用状況が議論され、平均ROC-AUCの89%のパフォーマンスで一般公開されています。

With increasing usage of clickbaits in Indonesian Online News, newsworthy articles sometimes get buried among clickbaity news. A reliable and lightweight tool is needed to detect such clickbaits on-the-go. Leveraging state-of-the-art natural language processing model BERT, a RESTful API based application is developed. This study offloaded the computing resources needed to train the model on the cloud server, while the client-side application only needs to send a request to the API and the cloud server will handle the rest. This study proposed the design and developed a web-based application to detect clickbait in Indonesian using IndoBERT as a language model. The application usage is discussed and available for public use with a performance of mean ROC-AUC of 89%.
翻訳日:2021-02-23 15:23:14 公開日:2021-02-21
# アラビア語のツイートに関する事前トレーニングBERT:実践的考察

Pre-Training BERT on Arabic Tweets: Practical Considerations ( http://arxiv.org/abs/2102.10684v1 )

ライセンス: Link先を確認
Ahmed Abdelali, Sabit Hassan, Hamdy Mubarak, Kareem Darwish and Younes Samih(参考訳) 下流NLPタスクのためのトランスフォーマー(BERT)からの双方向エンコーダ表現の事前トレーニングは、非トリバルタスクです。 トレーニングセットのサイズ、形式と非公式のアラビア語の混合、言語前処理の5つのBERTモデルを事前訓練した。 すべてアラビア方言とソーシャルメディアをサポートすることを意図している。 実験では、データ多様性の集中性と言語的に認識されたセグメンテーションの有効性を強調した。 また、より多くのデータやトレーニングステップがよりよいモデルを必要としないことも強調している。 私達の新しいモデルは複数の下流のタスクで新しい最先端の結果を達成します。 得られたモデルはQARiBという名前でコミュニティにリリースされている。

Pretraining Bidirectional Encoder Representations from Transformers (BERT) for downstream NLP tasks is a non-trival task. We pretrained 5 BERT models that differ in the size of their training sets, mixture of formal and informal Arabic, and linguistic preprocessing. All are intended to support Arabic dialects and social media. The experiments highlight the centrality of data diversity and the efficacy of linguistically aware segmentation. They also highlight that more data or more training step do not necessitate better models. Our new models achieve new state-of-the-art results on several downstream tasks. The resulting models are released to the community under the name QARiB.
翻訳日:2021-02-23 15:23:03 公開日:2021-02-21
# 画像データに基づく条件付き生成逆ニューラルネットワークのスケーラブルバランストレーニング

Scalable Balanced Training of Conditional Generative Adversarial Neural Networks on Image Data ( http://arxiv.org/abs/2102.10485v1 )

ライセンス: Link先を確認
Massimiliano Lupo Pasini, Vittorio Gabbi, Junqi Yin, Simona Perotto, Nouamane Laanait(参考訳) 本稿では,DC-CGANモデル(Deep Convolutional Generative Adversarial Neural Network)を学習するための分散アプローチを提案する。 本手法は,データラベルに従ってトレーニングデータを分割することで,ジェネレータと判別器間の不均衡を低減し,複数のジェネレータが同時にトレーニングされる並列トレーニングを実行し,それぞれが単一のデータラベルに焦点を当てたスケーラビリティを向上させる。 MNIST, CIFAR10, CIFAR100, ImageNet1kデータセットのインセプションスコアと画質の評価を行い、DC-CGANのトレーニングにおける最先端技術と比較して大幅に改善した。 olcf supercomputer summitでは、最大1000プロセスと2000のnvidia v100 gpuを使用して、4つのデータセットすべてで弱いスケーリングを実現している。

We propose a distributed approach to train deep convolutional generative adversarial neural network (DC-CGANs) models. Our method reduces the imbalance between generator and discriminator by partitioning the training data according to data labels, and enhances scalability by performing a parallel training where multiple generators are concurrently trained, each one of them focusing on a single data label. Performance is assessed in terms of inception score and image quality on MNIST, CIFAR10, CIFAR100, and ImageNet1k datasets, showing a significant improvement in comparison to state-of-the-art techniques to training DC-CGANs. Weak scaling is attained on all the four datasets using up to 1,000 processes and 2,000 NVIDIA V100 GPUs on the OLCF supercomputer Summit.
翻訳日:2021-02-23 15:22:10 公開日:2021-02-21
# 回路による期待核のトラクタブル計算

Tractable Computation of Expected Kernels by Circuits ( http://arxiv.org/abs/2102.10562v1 )

ライセンス: Link先を確認
Wenzhe Li, Zhe Zeng, Antonio Vergari, Guy Van den Broeck(参考訳) あるカーネル関数の期待値の計算は、古典的サポートベクターマシンの理論から、確率的モデリング、統計的推論、カジュアルな発見、ディープラーニングまで幅広い応用における分布のカーネル埋め込みの活用まで、機械学習においてユビキタスである。 これらすべてのシナリオにおいて、カーネルの期待は一般に難解であるため、モンテカルロの推定に頼りがちである。 本研究では, 確率的回路表現の最近の進歩を活かして, 期待カーネルを正確かつ効率的に計算できる条件を特徴付ける。 まず、カーネルの回路表現を構築し、そのようなトラクタブル計算へのアプローチを提案する。 次に, 1 つの難解なシナリオ,1) カーネルサポートベクターレグレッセプタによるデータ不足の推論,2) 崩壊したブラックボックス重要サンプリングスキームの考案,の2つの難解なシナリオの新たなアルゴリズムを導出することにより,カーネル埋め込みフレームワークの進歩を実証する。 最後に、両アルゴリズムを実証的に評価し、様々なデータセットの標準ベースラインを上回っていることを示す。

Computing the expectation of some kernel function is ubiquitous in machine learning, from the classical theory of support vector machines, to exploiting kernel embeddings of distributions in applications ranging from probabilistic modeling, statistical inference, casual discovery, and deep learning. In all these scenarios, we tend to resort to Monte Carlo estimates as expectations of kernels are intractable in general. In this work, we characterize the conditions under which we can compute expected kernels exactly and efficiently, by leveraging recent advances in probabilistic circuit representations. We first construct a circuit representation for kernels and propose an approach to such tractable computation. We then demonstrate possible advancements for kernel embedding frameworks by exploiting tractable expected kernels to derive new algorithms for two challenging scenarios: 1) reasoning under missing data with kernel support vector regressors; 2) devising a collapsed black-box importance sampling scheme. Finally, we empirically evaluate both algorithms and show that they outperform standard baselines on a variety of datasets.
翻訳日:2021-02-23 15:19:02 公開日:2021-02-21
# 領域不変性に対応する形状の深層的特徴の学習

Learning Deep Features for Shape Correspondence with Domain Invariance ( http://arxiv.org/abs/2102.10493v1 )

ライセンス: Link先を確認
Praful Agrawal, Ross T. Whitaker, Shireen Y. Elhabian(参考訳) 対応に基づく形状モデルは、解剖学の統計解析に依存する様々な医学的イメージング応用の鍵となる。 このような形状モデルは、集団固有の形状統計のための集団全体の一貫した解剖学的特徴を表すことが期待されている。 対応配置の初期のアプローチは、より単純な解剖学の近くの探索に依存している。 形状対応の座標変換は、増大する解剖学的複雑性に対処することを約束する。 それにもかかわらず、固有の形状レベルの幾何学的複雑性と人口レベルの形状変化のため、座標的対応はしばしば解剖学的対応に変換されない。 対応配置に対する別のグループ的なアプローチは、幾何学的記述と人口の統計コンパクト性の間のトレードオフを明示的にモデル化する。 しかし、これらのモデルは非線形形状対応の解決に限定的に成功している。 近年の研究では、位置データを高次元の特徴空間に引き上げることで、アプリケーション固有の対応の概念を採用することで、この制限に対処している。 しかし、彼らはドメイン固有の機能と一貫したランドマークを作成するために手動の専門知識に大きく依存しています。 本論文では, 深層畳み込みニューラルネットワークを用いて, 形状アンサンブルから対応しやすい特徴を抽出する, 自動機能学習手法を提案する。 さらに,事前学習された幾何学的特徴を新たな解剖学で補強するために,教師なし領域適応スキームを導入する。 ヒト肩甲骨,大腿骨骨,骨盤骨の解剖学的データセットの結果,教師付きファッションで学習した特徴は,手動による特徴と比較すると,対応推定のパフォーマンスが向上したことを示している。 さらに、教師なし学習は、より単純な解剖学的に学習した特徴から教師付きドメイン適応を用いて複雑な解剖学的特徴を学習する。

Correspondence-based shape models are key to various medical imaging applications that rely on a statistical analysis of anatomies. Such shape models are expected to represent consistent anatomical features across the population for population-specific shape statistics. Early approaches for correspondence placement rely on nearest neighbor search for simpler anatomies. Coordinate transformations for shape correspondence hold promise to address the increasing anatomical complexities. Nonetheless, due to the inherent shape-level geometric complexity and population-level shape variation, the coordinate-wise correspondence often does not translate to the anatomical correspondence. An alternative, group-wise approach for correspondence placement explicitly models the trade-off between geometric description and the population's statistical compactness. However, these models achieve limited success in resolving nonlinear shape correspondence. Recent works have addressed this limitation by adopting an application-specific notion of correspondence through lifting positional data to a higher dimensional feature space. However, they heavily rely on manual expertise to create domain-specific features and consistent landmarks. This paper proposes an automated feature learning approach, using deep convolutional neural networks to extract correspondence-frien dly features from shape ensembles. Further, an unsupervised domain adaptation scheme is introduced to augment the pretrained geometric features with new anatomies. Results on anatomical datasets of human scapula, femur, and pelvis bones demonstrate that features learned in supervised fashion show improved performance for correspondence estimation compared to the manual features. Further, unsupervised learning is demonstrated to learn complex anatomy features using the supervised domain adaptation from features learned on simpler anatomy.
翻訳日:2021-02-23 15:13:17 公開日:2021-02-21
# 画像分布とタスクが対比ロバスト性に及ぼす影響

The Effects of Image Distribution and Task on Adversarial Robustness ( http://arxiv.org/abs/2102.10534v1 )

ライセンス: Link先を確認
Owen Kunhardt, Arturo Deza, Tomaso Poggio(参考訳) 本稿では,曲線(AUC)測定値の下の領域に適応して,初期$\epsilon=-interval $[\epsilon_0, \epsilon_1]$(逆摂動強度のインターバル)のモデルに対して,初期$\epsilon_0$のパフォーマンスが異なる場合に,モデル間の非バイアスな比較を容易にする。 これは、異なる画像分布やタスク(または他の変数)に対して、逆向きにモデルがどの程度頑健であるかを判断したり、モデルが他のモデルに対してどの程度頑健であるかを測定するのに使うことができる。 We used this adversarial robustness metric on models of an MNIST, CIFAR-10, and a Fusion dataset (CIFAR-10 + MNIST) where trained models performed either a digit or object recognition task using a LeNet, ResNet50, or a fully connected network (FullyConnectedNet) architecture and found the following: 1) CIFAR-10 models are inherently less adversarially robust than MNIST models; 2) Both the image distribution and task that a model is trained on can affect the adversarial robustness of the resultant model. 3)異なる画像分布とタスクの事前学習は、その画像分布と結果モデルにおけるタスクによって引き起こされる敵の頑健さを乗り越えることがあるが、この結果は、異なる画像統計やタスク(主にオブジェクト対数字)に暴露されることから、ある知覚システムの学習された表現空間を他に比べて非自明に区別することを意味する。 さらに、モデルシステムが同じレベルのパフォーマンスを持つように等しい場合、または融合画像のほぼ一致した画像統計にさらされた場合でも、これらの結果は保持されますが、異なるタスク。

In this paper, we propose an adaptation to the area under the curve (AUC) metric to measure the adversarial robustness of a model over a particular $\epsilon$-interval $[\epsilon_0, \epsilon_1]$ (interval of adversarial perturbation strengths) that facilitates unbiased comparisons across models when they have different initial $\epsilon_0$ performance. This can be used to determine how adversarially robust a model is to different image distributions or task (or some other variable); and/or to measure how robust a model is comparatively to other models. We used this adversarial robustness metric on models of an MNIST, CIFAR-10, and a Fusion dataset (CIFAR-10 + MNIST) where trained models performed either a digit or object recognition task using a LeNet, ResNet50, or a fully connected network (FullyConnectedNet) architecture and found the following: 1) CIFAR-10 models are inherently less adversarially robust than MNIST models; 2) Both the image distribution and task that a model is trained on can affect the adversarial robustness of the resultant model. 3) Pretraining with a different image distribution and task sometimes carries over the adversarial robustness induced by that image distribution and task in the resultant model; Collectively, our results imply non-trivial differences of the learned representation space of one perceptual system over another given its exposure to different image statistics or tasks (mainly objects vs digits). Moreover, these results hold even when model systems are equalized to have the same level of performance, or when exposed to approximately matched image statistics of fusion images but with different tasks.
翻訳日:2021-02-23 15:12:53 公開日:2021-02-21
# 分離型畳み込みLSTMを用いたバイオレンス検出のための高効率2ストリームネットワーク

Efficient Two-Stream Network for Violence Detection Using Separable Convolutional LSTM ( http://arxiv.org/abs/2102.10590v1 )

ライセンス: Link先を確認
Zahidul Islam, Mohammad Rukonuzzaman, Raiyan Ahmed, Md. Hasanul Kabir, Moshiur Farazi(参考訳) 監視映像から暴力を自動的に検出することは、無人のセキュリティ監視システムやインターネットビデオフィルタリングなどに適用可能であるため、特に注目に値する活動認識のサブセットである。 本研究では,SepConvLSTM (Separable Convolutional LSTM) とプリトレーニングされたMobileNet(ストリームがバックグラウンドで抑制されたフレームを入力として取り込む)と,隣接するフレームの他のストリームプロセスの違いを利用して,効率的な2ストリームディープラーニングアーキテクチャを提案する。 我々は,移動しない背景を抑え,フレーム間の動きを捉えることによって,フレーム内の移動物体をハイライトする,シンプルで高速な入力前処理技術を採用した。 暴力的な行動は体の動きによって特徴づけられるため、これらの入力は差別的な特徴を生み出すのに役立つ。 SepConvLSTM は、ConvLSTM の各ゲートの畳み込み操作を深さ方向の分離可能な畳み込みに置き換えることで構築され、非常に少ないパラメータを使用して堅牢な長距離時空間特性を生成します。 2つのストリームの出力特徴マップを結合する3つの融合手法を実験した。 提案手法の評価は3つの標準公開データセットで行った。 我々のモデルは、より大きく、より困難なRWF-2000データセットの精度を2%以上のマージンで上回り、より小さなデータセットの最先端結果と一致させる。 実験の結果,提案モデルの方が計算効率と検出精度の両面で優れていることがわかった。

Automatically detecting violence from surveillance footage is a subset of activity recognition that deserves special attention because of its wide applicability in unmanned security monitoring systems, internet video filtration, etc. In this work, we propose an efficient two-stream deep learning architecture leveraging Separable Convolutional LSTM (SepConvLSTM) and pre-trained MobileNet where one stream takes in background suppressed frames as inputs and other stream processes difference of adjacent frames. We employed simple and fast input pre-processing techniques that highlight the moving objects in the frames by suppressing non-moving backgrounds and capture the motion in-between frames. As violent actions are mostly characterized by body movements these inputs help produce discriminative features. SepConvLSTM is constructed by replacing convolution operation at each gate of ConvLSTM with a depthwise separable convolution that enables producing robust long-range Spatio-temporal features while using substantially fewer parameters. We experimented with three fusion methods to combine the output feature maps of the two streams. Evaluation of the proposed methods was done on three standard public datasets. Our model outperforms the accuracy on the larger and more challenging RWF-2000 dataset by more than a 2% margin while matching state-of-the-art results on the smaller datasets. Our experiments lead us to conclude, the proposed models are superior in terms of both computational efficiency and detection accuracy.
翻訳日:2021-02-23 15:12:23 公開日:2021-02-21
# 自律型安全な着陸サイト選択のための不確実性認識深層学習

Uncertainty-Aware Deep Learning for Autonomous Safe Landing Site Selection ( http://arxiv.org/abs/2102.10545v1 )

ライセンス: Link先を確認
Kento Tomita and Katherine A. Skinner and Koki Ho(参考訳) 危険な検出は、惑星表面への自律着陸を可能にするために重要です。 現在の最新の方法は、従来のコンピュータビジョンアプローチを利用して、入力デジタル標高モデル(DEM)から安全な地形の識別を自動化します。 しかし, センサノイズの増加に伴い, 入力demの性能が低下する可能性がある。 同時に、さまざまなアプリケーション向けにディープラーニング技術が開発されています。 それでも、安全に重要な宇宙ミッションへの適用は、その出力の信頼性に関する懸念のため、しばしば制限されてきた。 そこで本論文では,危険検知と着陸地点選定のための不確実性を考慮した学習手法を提案する。 i) ベイズ深層学習と意味セグメンテーションにより安全性予測マップとその不確実性マップを生成すること、および(ii) 生成された不確実性マップを用いて、予測マップ内の不確実性画素をフィルタし、特定の画素(すなわち、モデルが安全予測について確信を持っている画素)のみに基づいて安全な着陸地点の選択を行うことによる、信頼性の高い安全な着陸地点選択を可能にする。 提案手法の性能を実証するために,Mars HiRISEデジタル地形モデルと各種騒音レベルに基づくシミュレーションデータを用いて実験を行った。

Hazard detection is critical for enabling autonomous landing on planetary surfaces. Current state-of-the-art methods leverage traditional computer vision approaches to automate identification of safe terrain from input digital elevation models (DEMs). However, performance for these methods can degrade for input DEMs with increased sensor noise. At the same time, deep learning techniques have been developed for various applications. Nevertheless, their applicability to safety-critical space missions has been often limited due to concerns regarding their outputs' reliability. In response to this background, this paper proposes an uncertainty-aware learning-based method for hazard detection and landing site selection. The developed approach enables reliable safe landing site selection by: (i) generating a safety prediction map and its uncertainty map together via Bayesian deep learning and semantic segmentation; and (ii) using the generated uncertainty map to filter out the uncertain pixels in the prediction map so that the safe landing site selection is performed only based on the certain pixels (i.e., pixels for which the model is certain about its safety prediction). Experiments are presented with simulated data based on a Mars HiRISE digital terrain model and varying noise levels to demonstrate the performance of the proposed approach.
翻訳日:2021-02-23 15:11:42 公開日:2021-02-21
# 画像分類強化のためのスパイクニューラルネットワークと人工ニューラルネットワークの組み合わせ

Combining Spiking Neural Network and Artificial Neural Network for Enhanced Image Classification ( http://arxiv.org/abs/2102.10592v1 )

ライセンス: Link先を確認
Naoya Muramatsu and Hai-Tao Yu(参考訳) 深層ニューラルネットワークの継続的な革新により、生物学的脳シナプスに近いスパイクニューラルネットワーク(SNN)が、低消費電力のため注目を集めている。 しかしながら、連続的なデータ値に対しては、値をスパイクトレインに変換するためのコーディングプロセスを採用する必要がある。 したがって、これらの値を直接処理する人工知能ニューラルネットワーク(ANN)の性能を超えていない。 この目的のために、ANNとSNNを組み合わせて、関連するパフォーマンスを改善する汎用ハイブリッドニューラルネットワーク(HNN)を構築する。

With the continued innovations of deep neural networks, spiking neural networks (SNNs) that more closely resemble biological brain synapses have attracted attention owing to their low power consumption. However, for continuous data values, they must employ a coding process to convert the values to spike trains. Thus, they have not yet exceeded the performance of artificial neural networks (ANNs), which handle such values directly. To this end, we combine an ANN and an SNN to build versatile hybrid neural networks (HNNs) that improve the concerned performance.
翻訳日:2021-02-23 15:08:57 公開日:2021-02-21
# 画像超解像のための領域ベースディープラーニングアーキテクチャのTchebichef変換

Tchebichef Transform Domain-based Deep Learning Architecture for Image Super-resolution ( http://arxiv.org/abs/2102.10640v1 )

ライセンス: Link先を確認
Ahlad Kumar and Harsh Vardhan Singh(参考訳) 最近の新型コロナウイルスの流行は、人工知能とディープラーニングを用いた医療画像の分野に貢献する研究者を動機づけています。 ここ数年、超解像(SR)は深層学習法を用いて顕著な成果を上げてきた。 低解像度(LR)画像から対応する高分解能(HR)画像への非線形マッピングを学ぶためのディープラーニング手法の能力は、さまざまな研究分野でSRのための説得力のある結果をもたらします。 本稿では,Tchebichef変換領域における深層学習に基づく画像超解像アーキテクチャを提案する。 これは、カスタマイズされたtchebichef畳み込み層(tcl$)を通じて変換層を提案アーキテクチャに統合することで実現される。 TCLの役割は、Tchebichef基底関数を使用して、LRイメージを空間領域から直交変換ドメインに変換することである。 上記の変換の反転は、逆チェビシェフ畳み込み層 (ITCL) と呼ばれる別の層を用いて達成され、変換領域から空間領域へのLR画像の逆変換を行う。 SRのタスクにTchebichef変換ドメインを使用することは、超解像のタスクを簡素化する画像の高低周波数表現の利点を取ることが観察されています。 さらに,コビッドをベースとした医用画像の品質向上のためのトランスファーラーニング手法を導入する。 当院のアーキテクチャはcovid-19のx線およびct画像の品質を高め,臨床診断に有用な画像品質を提供する。 提案した Tchebichef transform domain super- resolution (TTDSR) アーキテクチャを用いて得られた実験結果は、訓練可能なパラメータの少ない深層学習手法と比較して、競合する結果をもたらす。

The recent outbreak of COVID-19 has motivated researchers to contribute in the area of medical imaging using artificial intelligence and deep learning. Super-resolution (SR), in the past few years, has produced remarkable results using deep learning methods. The ability of deep learning methods to learn the non-linear mapping from low-resolution (LR) images to their corresponding high-resolution (HR) images leads to compelling results for SR in diverse areas of research. In this paper, we propose a deep learning based image super-resolution architecture in Tchebichef transform domain. This is achieved by integrating a transform layer into the proposed architecture through a customized Tchebichef convolutional layer ($TCL$). The role of TCL is to convert the LR image from the spatial domain to the orthogonal transform domain using Tchebichef basis functions. The inversion of the aforementioned transformation is achieved using another layer known as the Inverse Tchebichef convolutional Layer (ITCL), which converts back the LR images from the transform domain to the spatial domain. It has been observed that using the Tchebichef transform domain for the task of SR takes the advantage of high and low-frequency representation of images that makes the task of super-resolution simplified. We, further, introduce transfer learning approach to enhance the quality of Covid based medical images. It is shown that our architecture enhances the quality of X-ray and CT images of COVID-19, providing a better image quality that helps in clinical diagnosis. Experimental results obtained using the proposed Tchebichef transform domain super-resolution (TTDSR) architecture provides competitive results when compared with most of the deep learning methods employed using a fewer number of trainable parameters.
翻訳日:2021-02-23 15:08:49 公開日:2021-02-21
# 直観的な手術ロボット遠隔操作を強化するためのマイクロ外科手術時の手指運動のマッピング

Mapping Surgeon's Hand/Finger Motion During Conventional Microsurgery to Enhance Intuitive Surgical Robot Teleoperation ( http://arxiv.org/abs/2102.10585v1 )

ライセンス: Link先を確認
Mohammad Fattahi Sani, Raimondo Ascione, Sanja Dogramadzi(参考訳) 目的: ロボットと人工知能(AI)の最近の進歩は、いくつかの外科専門分野でロボット支援最小侵襲手術(RAMIS)を強化する医療技術の大幅な進歩をもたらしました。 しかし、現在の人間ロボットインタフェースは直感的な遠隔操作を欠いているため、外科医の手指の感覚や微妙な動きを模倣することはできない。 これらの制限により、遠隔操作のロボット手術はマイクロ手術には適せず、確立した外科医には学習が困難になる。 本研究では,心臓微小手術における術者の手の動きと相乗的運動を直感的に記録・マッピングし,今後の直感的遠隔手術を改善するパイロット研究を報告する。 方法: モックアップ心臓マイクロ手術中に手首,手指,手術用具のリアルタイムデータ取得(rtda)入力をマッピングすることで,深層神経ネットワーク(dnn)を訓練できるプロトタイプシステムの開発に取り組んだ。 トレーニングされたネットワークは、洗練された手関節角度からツールのポーズを推定するために使用された。 結果: 模擬マイクロサージにおける外科医のフィードバックに基づき, 運動追跡のための軽量センサを備えたウェアラブルシステムは, 手術や器具のハンドリングに干渉しなかった。 このウェアラブルモーショントラッキングシステムは、推定ツールポーズと測定ツールポーズを比較して、DNNネットワークの入力を表す有意義なデータセットを必要に応じて追加した15個の指先関節角度センサを用いて生成する。 DNNアーキテクチャは高い推定精度と最小二乗誤差でツールのポーズを決定する能力に最適化された。 本手法は, 平均2乗誤差(MSE)が0.3%未満である記録外科医の手指の動きから, 遠隔操作に必要な手術器具のポーズを正確に推定できることを示した。

Purpose: Recent developments in robotics and artificial intelligence (AI) have led to significant advances in healthcare technologies enhancing robot-assisted minimally invasive surgery (RAMIS) in some surgical specialties. However, current human-robot interfaces lack intuitive teleoperation and cannot mimic surgeon's hand/finger sensing and fine motion. These limitations make tele-operated robotic surgery not suitable for micro-surgery and difficult to learn for established surgeons. We report a pilot study showing an intuitive way of recording and mapping surgeon's gross hand motion and the fine synergic motion during cardiac micro-surgery as a way to enhance future intuitive teleoperation. Methods: We set to develop a prototype system able to train a Deep Neural Net-work (DNN) by mapping wrist, hand and surgical tool real-time data acquisition(RTDA) inputs during mock-up heart micro-surgery procedures. The trained network was used to estimate the tools poses from refined hand joint angles. Results: Based on surgeon's feedback during mock micro-surgery, the developed wearable system with light-weight sensors for motion tracking did not interfere with the surgery and instrument handling. The wearable motion tracking system used 15 finger-thumb-wrist joint angle sensors to generate meaningful data-sets representing inputs of the DNN network with new hand joint angles added as necessary based on comparing the estimated tool poses against measured tool pose. The DNN architecture was optimized for the highest estimation accuracy and the ability to determine the tool pose with the least mean squared error. This novel approach showed that the surgical instrument's pose, an essential requirement for teleoperation, can be accurately estimated from recorded surgeon's hand/finger movements with a mean squared error (MSE) less than 0.3%
翻訳日:2021-02-23 15:08:00 公開日:2021-02-21
# 認知のパターン:確率的型付きメタグラフの時系列化によるガロア接続としての認知アルゴリズム

Patterns of Cognition: Cognitive Algorithms as Galois Connections Fulfilled by Chronomorphisms On Probabilistically Typed Metagraphs ( http://arxiv.org/abs/2102.10581v1 )

ライセンス: Link先を確認
Ben Goertzel(参考訳) AGI関連アルゴリズムの広いクラスは、エッジターゲットが確率依存型でラベル付けされている有向メタグラフの探索と最適化プロセスをリンクするガロア接続を指定し、これらの接続をメタグラフクロノ同型を含むプロセスによって実現することによって、共通の形式的フレームワークで表現することができる。 OpenCog AGIフレームワークで使用されるコア認知アルゴリズムは、確率論的論理推論、進化的プログラム学習、パターンマイニング、集約的クラスタリング、パターンマイニング、非線形動的注意割り当てである。 提示された分析は、これらの認知アルゴリズムを、メタグラフ上で定義された関数を最適化する再帰的離散的決定プロセスとして表現することを含む。 認知過程に関わる結合操作の相互関連性は、しばしばプロセスの折り畳みおよび展開操作への分解を可能にする上で重要な役割を果たしていることが示されている。 可逆論理と可逆プログラム実行の使用に向けての武装。 また、この相互連想性が成り立つ場合、再帰的決定プロセスの実行に使用されるサブゴールの階層と、形式パターン理論の観点で定義可能なサブパターンの階層との間にアライメントがあることも観察されている。

It is argued that a broad class of AGI-relevant algorithms can be expressed in a common formal framework, via specifying Galois connections linking search and optimization processes on directed metagraphs whose edge targets are labeled with probabilistic dependent types, and then showing these connections are fulfilled by processes involving metagraph chronomorphisms. Examples are drawn from the core cognitive algorithms used in the OpenCog AGI framework: Probabilistic logical inference, evolutionary program learning, pattern mining, agglomerative clustering, pattern mining and nonlinear-dynamical attention allocation. The analysis presented involves representing these cognitive algorithms as recursive discrete decision processes involving optimizing functions defined over metagraphs, in which the key decisions involve sampling from probability distributions over metagraphs and enacting sets of combinatory operations on selected sub-metagraphs. The mutual associativity of the combinatory operations involved in a cognitive process is shown to often play a key role in enabling the decomposition of the process into folding and unfolding operations; a conclusion that has some practical implications for the particulars of cognitive processes, e.g. militating toward use of reversible logic and reversible program execution. It is also observed that where this mutual associativity holds, there is an alignment between the hierarchy of subgoals used in recursive decision process execution and a hierarchy of subpatterns definable in terms of formal pattern theory.
翻訳日:2021-02-23 15:03:20 公開日:2021-02-21
# 胃病理学的画像分類のための階層的条件付きランダムフィールドに基づく注意メカニズムのアプローチ

A Hierarchical Conditional Random Field-based Attention Mechanism Approach for Gastric Histopathology Image Classification ( http://arxiv.org/abs/2102.10499v1 )

ライセンス: Link先を確認
Yixin Li, Xinran Wu, Chen Li, Changhao Sun, Md Rahaman, Yudong Yao, Xiaoyan Li, Yong Zhang, Tao Jiang(参考訳) 通常弱い教師付き学習ミッションである胃病理学画像分類(GHIC)タスクでは、画像に必然的に冗長な情報があります。 そのため,特徴を効果的に区別できるネットワークを設計することが研究の話題となっている。 本稿では,臨床診断におけるGHICの課題を克服し,病理医を支援するために,階層型条件付ランダムフィールドベース注意機構(HCRF-AM)モデルを提案する。 HCRF-AMモデルは、注意機構(AM)モジュールと画像分類(IC)モジュールで構成される。 AMモジュールでは、注意領域を抽出するためにHCRFモデルを構築している。 icモジュールでは、注意領域選択により畳み込みニューラルネットワーク(cnn)モデルを訓練し、cnnのパッチレベル出力から画像レベルの結果を得るための分類確率に基づくアンサンブル学習と呼ばれるアルゴリズムを適用する。 この実験では、胃病理学的データセットで96.67%の分類特異性が700の画像で達成される。 HCRF-AMモデルは高い分類性能を示し,GHIC分野での有効性と将来の可能性を示す。

In the Gastric Histopathology Image Classification (GHIC) tasks, which is usually weakly supervised learning missions, there is inevitably redundant information in the images. Therefore, designing networks that can focus on effective distinguishing features has become a popular research topic. In this paper, to accomplish the tasks of GHIC superiorly and to assist pathologists in clinical diagnosis, an intelligent Hierarchical Conditional Random Field based Attention Mechanism (HCRF-AM) model is proposed. The HCRF-AM model consists of an Attention Mechanism (AM) module and an Image Classification (IC) module. In the AM module, an HCRF model is built to extract attention regions. In the IC module, a Convolutional Neural Network (CNN) model is trained with the attention regions selected and then an algorithm called Classification Probability-based Ensemble Learning is applied to obtain the image-level results from patch-level output of the CNN. In the experiment, a classification specificity of 96.67% is achieved on a gastric histopathology dataset with 700 images. Our HCRF-AM model demonstrates high classification performance and shows its effectiveness and future potential in the GHIC field.
翻訳日:2021-02-23 14:59:25 公開日:2021-02-21
# 双曲確率符号化による認知機能低下の予測

Predicting Future Cognitive Decline with Hyperbolic Stochastic Coding ( http://arxiv.org/abs/2102.10503v1 )

ライセンス: Link先を確認
J. Zhang, Q. Dong, J. Shi, Q. Li, C.M. Stonnington, B.A. Gutman, K. Chen, E.M. Reiman, R.J. Caselli, P.M. Thompson, J. Ye, Y. Wang(参考訳) 双曲幾何学は、一般的なトポロジカル構造を持つ脳皮質および皮質表面のモデリングに成功した。 しかし、そのようなアプローチは、他の表面ベースの脳形態分析法と同様に、通常、高次元の特徴を生み出す。 認知低下予測研究、特に限られた対象数を持つデータセットにおける統計力を制限する。 このような制約に対処するため,HSC(hyperbolic stochastic code)と呼ばれる新しいフレームワークを提案する。 予備実験の結果から,様々な分類タスクで優れた結果が得られることが示された。 我々の研究は、表面ベースの脳画像研究ツールを充実させ、個々の治療戦略に役立つ診断および予後指標をもたらす可能性がある。

Hyperbolic geometry has been successfully applied in modeling brain cortical and subcortical surfaces with general topological structures. However such approaches, similar to other surface based brain morphology analysis methods, usually generate high dimensional features. It limits their statistical power in cognitive decline prediction research, especially in datasets with limited subject numbers. To address the above limitation, we propose a novel framework termed as hyperbolic stochastic coding (HSC). Our preliminary experimental results show that our algorithm achieves superior results on various classification tasks. Our work may enrich surface based brain imaging research tools and potentially result in a diagnostic and prognostic indicator to be useful in individualized treatment strategies.
翻訳日:2021-02-23 14:59:06 公開日:2021-02-21
# 単一画像デハージングのためのプログレッシブ深度学習

Progressive Depth Learning for Single Image Dehazing ( http://arxiv.org/abs/2102.10514v1 )

ライセンス: Link先を確認
Yudong Liang, Bin Wang, Jiaying Liu, Deyu Li, Sanping Zhou and Wenqi Ren(参考訳) ヘイズ画像の定式化は、主に反射光と周囲のエアライトが主である。 既存の脱湿法は、しばしば深度を無視し、より重いヘイズが視界を乱す遠くの地域で失敗する。 しかし,伝送推定のための深度情報のガイダンスは,距離が大きくなるにつれて視界が低下する可能性があることに留意する。 次いで、良好な伝送推定は、ヘイズ画像の深さ推定を容易にすることができる。 本稿では,画像の奥行きと透過マップを反復的に推定する遠距離モデルを提案し,奥行き情報の指導により,hazy画像の効率的な奥行き予測を行い,デハザーズ性能を向上させる。 画像深度と伝送マップを段階的に洗練して、デハズドイメージをよりよく復元します。 私たちのアプローチは、画像深度と伝送マップの内部関係を明示的にモデリングすることから利益を得ます。 提案するネットワークは, 深度推定とヘイズ除去の観点から, 最先端の脱ヘイズ法に対して良好に機能することを示した。

The formulation of the hazy image is mainly dominated by the reflected lights and ambient airlight. Existing dehazing methods often ignore the depth cues and fail in distant areas where heavier haze disturbs the visibility. However, we note that the guidance of the depth information for transmission estimation could remedy the decreased visibility as distances increase. In turn, the good transmission estimation could facilitate the depth estimation for hazy images. In this paper, a deep end-to-end model that iteratively estimates image depths and transmission maps is proposed to perform an effective depth prediction for hazy images and improve the dehazing performance with the guidance of depth information. The image depth and transmission map are progressively refined to better restore the dehazed image. Our approach benefits from explicitly modeling the inner relationship of image depth and transmission map, which is especially effective for distant hazy areas. Extensive results on the benchmarks demonstrate that our proposed network performs favorably against the state-of-the-art dehazing methods in terms of depth estimation and haze removal.
翻訳日:2021-02-23 14:58:56 公開日:2021-02-21
# ResNetと軽量アグリゲーションによる行動品質評価の改善

Improving Action Quality Assessment using ResNets and Weighted Aggregation ( http://arxiv.org/abs/2102.10555v1 )

ライセンス: Link先を確認
Shafkat Farabi, Hasibul Haque Himel, Fakhruddin Gazzali, Bakhtiar Hasan, Md. Hasanul Kabir, Moshiur Farazi(参考訳) アクション品質評価(AQA)は、そのアクションのビデオに基づいて人間の行動を自動的に判断し、パフォーマンススコアを割り当てることを目指しています。 AQAの既存の文献の多くは、RGBのビデオをC3Dネットワークを使って高レベルな表現に変換する。 これらの高レベル表現は、行動品質評価を行うために使用されます。 C3Dの比較的浅い性質のため、抽出された特徴の質はより深い畳み込みニューラルネットワークを用いて抽出できるものよりも低い。 本稿では,行動品質評価のための学習表現のための残差接続を持つ深い畳み込みニューラルネットワークを実験する。 畳み込みニューラルネットワークの深さと入力クリップサイズが動作スコアの予測精度に及ぼす影響について検討した。 また,特徴抽出のための3次元畳み込みの代わりに(2+1)d畳み込みを用いる効果についても検討する。 平均化の現在のクリップレベルの特徴表現集約技術は,特徴の相対的重要性を捉えるには不十分であることがわかった。 そこで本研究では,学習に基づく重み付け学習手法を提案する。 提案した集計手法を用いて, 34層(2+1)の畳み込みニューラルネットワークを用いて, MTL-AQAデータセットにおける最新のスピアマンのランク相関0.9315(0.45%の増加)を達成した。

Action quality assessment (AQA) aims at automatically judging human action based on a video of the said action and assigning a performance score to it. The majority of works in the existing literature on AQA transform RGB videos to higher-level representations using C3D networks. These higher-level representations are used to perform action quality assessment. Due to the relatively shallow nature of C3D, the quality of extracted features is lower than what could be extracted using a deeper convolutional neural network. In this paper, we experiment with deeper convolutional neural networks with residual connections for learning representations for action quality assessment. We assess the effects of the depth and the input clip size of the convolutional neural network on the quality of action score predictions. We also look at the effect of using (2+1)D convolutions instead of 3D convolutions for feature extraction. We find that the current clip level feature representation aggregation technique of averaging is insufficient to capture the relative importance of features. To overcome this, we propose a learning-based weighted-averaging technique that can perform better. We achieve a new state-of-the-art Spearman's rank correlation of 0.9315 (an increase of 0.45%) on the MTL-AQA dataset using a 34 layer (2+1)D convolutional neural network with the capability of processing 32 frame clips, using our proposed aggregation technique.
翻訳日:2021-02-23 14:58:41 公開日:2021-02-21
# Few-shot Visual Question Answeringにおける構成表現の学習

Learning Compositional Representation for Few-shot Visual Question Answering ( http://arxiv.org/abs/2102.10575v1 )

ライセンス: Link先を確認
Dalu Guo, Dacheng Tao(参考訳) 現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。 しかし、人間がこれらの新しいカテゴリーに素早く適応できるのは、これまで見てきた概念を整理して、深層学習手法ではほとんど検討されていない新しいクラスを解明することを学ぶためです。 そこで,本稿では,回答から得られた属性を十分なデータで抽出する手法を提案する。 人間の努力なしに、さまざまな回答と属性を持つVQAの少数ショットデータセットを生成します。 このデータセットでは、属性ネットワークを構築し、属性全体ではなく画像の一部から特徴を学習することによって属性を分離します。 vqa v2.0バリデーションデータセットにおける実験結果は,提案する属性ネットワークの有効性と,回答とそれに対応する属性との制約,および少数のトレーニング例で回答を処理する方法の能力を示している。

Current methods of Visual Question Answering perform well on the answers with an amount of training data but have limited accuracy on the novel ones with few examples. However, humans can quickly adapt to these new categories with just a few glimpses, as they learn to organize the concepts that have been seen before to figure the novel class, which are hardly explored by the deep learning methods. Therefore, in this paper, we propose to extract the attributes from the answers with enough data, which are later composed to constrain the learning of the few-shot ones. We generate the few-shot dataset of VQA with a variety of answers and their attributes without any human effort. With this dataset, we build our attribute network to disentangle the attributes by learning their features from parts of the image instead of the whole one. Experimental results on the VQA v2.0 validation dataset demonstrate the effectiveness of our proposed attribute network and the constraint between answers and their corresponding attributes, as well as the ability of our method to handle the answers with few training examples.
翻訳日:2021-02-23 14:58:21 公開日:2021-02-21
# 結核のセグメンテーションとローカライゼーションを改善するための弱局所化を用いたカスタムモダリティ特化U-Netモデルの訓練

Training custom modality-specific U-Net models with weak localizations for improved Tuberculosis segmentation and localization ( http://arxiv.org/abs/2102.10607v1 )

ライセンス: Link先を確認
Sivaramakrishnan Rajaraman, Les Folio, Jane Dimperio, Philip Alderson and Sameer Antani(参考訳) UNetセグメンテーションモデルは従来の手工芸品よりも優れた性能を示している。 モダリティ固有のDLモデルは、ストック画像で事前訓練されているものよりも、ドメイン知識を関連するターゲットタスクに転送するのがよい。 それらの利用は、モデル適応、一般化、興味ある局所化のクラス固有の領域を改善するのに役立ちます。 本研究では,結核 (tb) の意味セグメンテーションのためのカスタム胸部x線モダリティ特定 unet モデルを訓練した。 このような症状の自動化セグメンテーションは、放射線科医が最初の解釈とレポートの完了後にエラーを減らすのに役立ちます。 これにより、患者のケアと生産性を改善しつつ意思決定を補うことで、放射線学の精度を向上させることができる。 私たちのアプローチは、まず一般にバウンディングボックスとして提供される弱いTBアノテーションを備えた公開胸部X線データセットを使用して、UNetモデルのセットを訓練する包括的な戦略を使用します。 次に,TBの出現を疑う2値決定ROIマスクを作成するために訓練されたDL分類器の出力から,ローカライゼーションの弱いデータに対する強化トレーニング戦略を用いて,最高の性能モデルの結果を改善する。 この強化は、同じトレーニング分布やその他の機関横断的なコレクションから得られるテストデータを用いて、パフォーマンスを向上させることを目的としている。 非拡張トレーニングと比較して、当社の強化トレーニング戦略は、トレーニング分布に類似したテストデータと、機関間テストセットの両方で、カスタムモダリティ固有のunetモデルが優れたパフォーマンスを達成するのに役立ちました。

UNet segmentation models have demonstrated superior performance compared to conventional handcrafted features. Modality specific DL models are better at transferring domain knowledge to a relevant target task than those that are pretrained on stock photography images. Using them helps improve model adaptation, generalization, and class-specific region of interest localization. In this study, we train custom chest X ray modality specific UNet models for semantic segmentation of Tuberculosis (TB) consistent findings. Automated segmentation of such manifestations could help radiologists reduce errors following initial interpretation and before finalizing the report. This could improve radiologist accuracy by supplementing decision making while improving patient care and productivity. Our approach uses a comprehensive strategy that first uses publicly available chest X ray datasets with weak TB annotations, typically provided as bounding boxes, to train a set of UNet models. Next, we improve the results of the best performing model using an augmented training strategy on data with weak localizations from the outputs of a selection of DL classifiers that are trained to produce a binary decision ROI mask for suspected TB manifestations. The augmentation aims to improve performance with test data derived from the same training distribution and other cross institutional collections. We observe that compared to non augmented training our augmented training strategy helped the custom modality specific UNet models achieve superior performance with test data that is both similar to the training distribution as well as for cross institutional test sets.
翻訳日:2021-02-23 14:58:04 公開日:2021-02-21
# 医療用トランス:医療用画像セグメンテーションのための定格軸注意

Medical Transformer: Gated Axial-Attention for Medical Image Segmentation ( http://arxiv.org/abs/2102.10662v1 )

ライセンス: Link先を確認
Jeya Maria Jose Valanarasu, Poojan Oza, Ilker Hacihaliloglu, Vishal M. Patel(参考訳) 過去10年間で、Deep Convolutional Neural Networksは医療画像のセグメンテーションに広く採用され、十分なパフォーマンスを実現している。 しかし、畳み込みアーキテクチャに固有の帰納バイアスがあるため、画像内の長距離依存性の理解が欠如している。 最近提案されたTransformerベースのアーキテクチャは,長距離依存性を符号化し,表現力の高い表現を学習する。 これにより、Transformerベースのソリューションを探究し、Transformerベースのネットワークアーキテクチャを医療画像のセグメンテーションタスクに適用する可能性について検討する。 ビジョンアプリケーション用に提案された既存のトランスフォーマーベースのネットワークアーキテクチャの大部分は、大規模なデータセットを適切にトレーニングする必要がある。 しかし、視覚応用用のデータセットと比較して、医用イメージングではデータサンプル数は比較的少なく、医療用トランスフォーマーの効率的な訓練が困難である。 そこで本研究では,自己配置モジュールに新たな制御機構を導入することにより,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。 さらに,医療画像上でモデルを効果的に訓練するために,LoGo(Lo-Global Training Strategy)を提案する。 具体的には、画像全体とパッチで運用し、それぞれグローバルとローカルの機能を学びます。 The proposed Medical Transformer (MedT) are evaluate on three different medical image segmentation datasets and that it achieve a good performance than the convolutional and other related transformer based architectures。 コード: https://github.com/j eya-maria-jose/Medic al-Transformer

Over the past decade, Deep Convolutional Neural Networks have been widely adopted for medical image segmentation and shown to achieve adequate performance. However, due to the inherent inductive biases present in the convolutional architectures, they lack understanding of long-range dependencies in the image. Recently proposed Transformer-based architectures that leverage self-attention mechanism encode long-range dependencies and learn representations that are highly expressive. This motivates us to explore Transformer-based solutions and study the feasibility of using Transformer-based network architectures for medical image segmentation tasks. Majority of existing Transformer-based network architectures proposed for vision applications require large-scale datasets to train properly. However, compared to the datasets for vision applications, for medical imaging the number of data samples is relatively low, making it difficult to efficiently train transformers for medical applications. To this end, we propose a Gated Axial-Attention model which extends the existing architectures by introducing an additional control mechanism in the self-attention module. Furthermore, to train the model effectively on medical images, we propose a Local-Global training strategy (LoGo) which further improves the performance. Specifically, we operate on the whole image and patches to learn global and local features, respectively. The proposed Medical Transformer (MedT) is evaluated on three different medical image segmentation datasets and it is shown that it achieves better performance than the convolutional and other related transformer-based architectures. Code: https://github.com/j eya-maria-jose/Medic al-Transformer
翻訳日:2021-02-23 14:57:40 公開日:2021-02-21
# マルチタスクCNNを用いた確率的車両再構成

Probabilistic Vehicle Reconstruction Using a Multi-Task CNN ( http://arxiv.org/abs/2102.10681v1 )

ライセンス: Link先を確認
Max Coenen and Franz Rottensteiner(参考訳) 画像からの3次元ポーズと物体の形状の検索は不適切な問題である。 オブジェクト再構成の一般的な方法は、変形可能な3Dモデルのキーポイント、エッジ、輪郭などのエンティティを、画像から推測される対応するエンティティにマッチさせることである。 しかし、そのようなアプローチはモデルの初期化やキーポイントの局所化や照明条件に非常に敏感である。 本稿では,新しいマルチタスクCNNの出力を利用するステレオ画像から形状認識型3D車両を復元する確率論的手法を提案する。 具体的には、車両の向きと車両のキーポイントとワイヤフレームエッジの両方の確率分布を出力するCNNを訓練する。 3次元ステレオ情報と共に予測分布を共通の確率的枠組みに統合する。 CNNによるワイヤフレームエッジの検出は、照明条件やオブジェクトコントラストに対する感度を低下させ、キーポイント位置を推定する代わりに生の確率マップを使用することで、キーポイント位置決め誤差に対する感度を低下させると考えている。 提案手法は,KITTIベンチマークと新たな"Stereo-Vehicle"データセットを用いて,提案手法の有効性を検証した。

The retrieval of the 3D pose and shape of objects from images is an ill-posed problem. A common way to object reconstruction is to match entities such as keypoints, edges, or contours of a deformable 3D model, used as shape prior, to their corresponding entities inferred from the image. However, such approaches are highly sensitive to model initialisation, imprecise keypoint localisations and/or illumination conditions. In this paper, we present a probabilistic approach for shape-aware 3D vehicle reconstruction from stereo images that leverages the outputs of a novel multi-task CNN. Specifically, we train a CNN that outputs probability distributions for the vehicle's orientation and for both, vehicle keypoints and wireframe edges. Together with 3D stereo information we integrate the predicted distributions into a common probabilistic framework. We believe that the CNN-based detection of wireframe edges reduces the sensitivity to illumination conditions and object contrast and that using the raw probability maps instead of inferring keypoint positions reduces the sensitivity to keypoint localisation errors. We show that our method achieves state-of-the-art results, evaluating our method on the challenging KITTI benchmark and on our own new 'Stereo-Vehicle' dataset.
翻訳日:2021-02-23 14:57:16 公開日:2021-02-21
# Reward Delay Calibration が有効であった1例

Empirical Sufficiency Featuring Reward Delay Calibration ( http://arxiv.org/abs/2102.10527v1 )

ライセンス: Link先を確認
Yixuan Liu, Hu Wang, Xiaowei Wang, Xiaoyue Sun, Liuyue Jiang and Minhui Xue(参考訳) 遅延報酬の適切なクレジット割り当ては、強化学習の基本的な課題です。 この問題に対処するために,分類の観点から着想を得た遅延報酬校正パラダイムを提案する。 我々は、よく表現された状態ベクトルは、同一または同等の必須情報を含むので互いに類似性を持つと仮定する。 この目的のために,我々は,分布内の状態ベクトルがエージェントを連続したステップで環境報酬信号に導くような経験的十分分布を定義する。 したがって、純度訓練された分類器は、その分布を取得し、校正された報酬を生成するように設計されている。 実時間抽出を追跡し,異なる報酬関数を構築することで,十分な状態抽出の正しさを検証した。 その結果,分類器は時間的,正確な校正報酬を生成することができた。 さらに、報酬はモデルのトレーニングプロセスをより効率的にすることができる。 最後に, モデルによって抽出された十分条件が, ヒトの観察と共振することを示す。

Appropriate credit assignment for delay rewards is a fundamental challenge for reinforcement learning. To tackle this problem, we introduce a delay reward calibration paradigm inspired from a classification perspective. We hypothesize that well-represented state vectors share similarities with each other since they contain the same or equivalent essential information. To this end, we define an empirical sufficient distribution, where the state vectors within the distribution will lead agents to environmental reward signals in the consequent steps. Therefore, a purify-trained classifier is designed to obtain the distribution and generate the calibrated rewards. We examine the correctness of sufficient state extraction by tracking the real-time extraction and building different reward functions in environments. The results demonstrate that the classifier could generate timely and accurate calibrated rewards. Moreover, the rewards are able to make the model training process more efficient. Finally, we identify and discuss that the sufficient states extracted by our model resonate with the observations of humans.
翻訳日:2021-02-23 14:52:07 公開日:2021-02-21
# 摂動と勾配に基づく説明の統一とロバスト性に向けて

Towards the Unification and Robustness of Perturbation and Gradient Based Explanations ( http://arxiv.org/abs/2102.10618v1 )

ライセンス: Link先を確認
Sushant Agarwal, Shahin Jabbari, Chirag Agarwal, Sohini Upadhyay, Zhiwei Steven Wu, Himabindu Lakkaraju(参考訳) 機械学習のブラックボックスは、医療や刑事司法などの重要な領域にますます展開されているため、ポストホックな方法でこれらのブラックボックスを説明するテクニックの開発に重点が置かれている。 本研究では、グラデーションに基づく手法であるSmoothGradと、摂動に基づく手法であるLIMEの変種という2つのポピュラーなポストホック解釈手法を分析します。 より具体的には、これらの2つの方法によって出力される説明に対して明示的な閉じた形式表現を導出し、両者が期待値において同じ説明に収束することを示す。 その後、この接続を活用して、これらの技術のために堅牢性などの他の望ましい特性を確立します。 また、これらの方法が期待される説明に収束するために必要な摂動数に対する有限個のサンプル複雑性境界も導出する。 最後に,合成データと実世界データの両方について広範な実験を行い,理論を実証的に検証した。

As machine learning black boxes are increasingly being deployed in critical domains such as healthcare and criminal justice, there has been a growing emphasis on developing techniques for explaining these black boxes in a post hoc manner. In this work, we analyze two popular post hoc interpretation techniques: SmoothGrad which is a gradient based method, and a variant of LIME which is a perturbation based method. More specifically, we derive explicit closed form expressions for the explanations output by these two methods and show that they both converge to the same explanation in expectation, i.e., when the number of perturbed samples used by these methods is large. We then leverage this connection to establish other desirable properties, such as robustness, for these techniques. We also derive finite sample complexity bounds for the number of perturbations required for these methods to converge to their expected explanation. Finally, we empirically validate our theory using extensive experimentation on both synthetic and real world datasets.
翻訳日:2021-02-23 14:51:54 公開日:2021-02-21
# 深層ネットワークにおける合成再現性

Synthesizing Irreproducibility in Deep Networks ( http://arxiv.org/abs/2102.10696v1 )

ライセンス: Link先を確認
Robert R. Snapp and Gil I. Shamir(参考訳) ディープネットワークの成功と優れたパフォーマンスは、その人気と使用をますます多くのアプリケーションに広めています。 しかし、最近の研究では、現代のディープネットワークが再現性(非決定性または非特異性とも呼ばれる)に苦しんでいることが示されている。 アーキテクチャ、構造、トレーニングハイパーパラメータ、パラメータで同じで、まったく同じトレーニングデータでトレーニングされている2つ以上のモデルでは、これまで見つからなかった個々の例で異なる予測が得られます。 したがって、制御されたテストデータに対してうまく機能するモデルは、テストデータと似たデータが期待される現実世界にデプロイされた場合、予期せぬ方法で実行される可能性がある。 これらの問題の起源を理解するために、単純な合成モデルとデータを研究します。 単一の非線形性や非常に単純なデータやモデルであっても、不再現性が生じることを示す。 本研究は,初期化におけるランダム性,データシャッフルウィンドウサイズ,アクティベーション関数が,非常に制御された合成データにおいても予測不能な予測に与える影響を示す。 予測されるように、初期化におけるランダム性や訓練例のシャッフルは、この現象を悪化させるが、モデル複雑性と非線形性の選択は、深層モデルを作る際にも重要な役割を果たす。

The success and superior performance of deep networks is spreading their popularity and use to an increasing number of applications. Very recent works, however, demonstrate that modern day deep networks suffer from irreproducibility (also referred to as nondeterminism or underspecification). Two or more models that are identical in architecture, structure, training hyper-parameters, and parameters, and that are trained on exactly the same training data, yield different predictions on individual previously unseen examples. Thus, a model that performs well on controlled test data, may perform in unexpected ways when deployed in the real world, whose data is expected to be similar to the test data. We study simple synthetic models and data to understand the origins of these problems. We show that even with a single nonlinearity and for very simple data and models, irreproducibility occurs. Our study demonstrates the effects of randomness in initialization, training data shuffling window size, and activation functions on prediction irreproducibility, even under very controlled synthetic data. While, as one would expect, randomness in initialization and in shuffling the training examples exacerbates the phenomenon, we show that model complexity and the choice of nonlinearity also play significant roles in making deep models irreproducible.
翻訳日:2021-02-23 14:51:35 公開日:2021-02-21
# オンラインプラットフォームに対する批判的コメントを検索するソーシャルネットワーク分析

Social Networks Analysis to Retrieve Critical Comments on Online Platforms ( http://arxiv.org/abs/2102.10495v1 )

ライセンス: Link先を確認
Shova Bhandari, Rini Raju(参考訳) ソーシャルネットワークは、生活のあらゆる面でユーザーの習慣を分析するための豊富なデータソースである。 ユーザーの行動は、さまざまな国の健康システムの決定的なコンポーネントです。 善行の促進は公衆衛生を著しく改善させる。 本研究では,テキスト解析手法を用いて,ソーシャルネットワーク解析のための新しいモデルを開発する。 グローバルパンデミックに対する各ユーザの反応を,オンライン行動の分析によって定義する。 類似の習慣を持つオンラインユーザのグループをクラスタ化することで、異なる社会にウイルスがどのように広がるかを見つけるのに役立つ。 ソーシャルメディアのハイリスクオンラインユーザーにおける健康的なライフスタイルを促進することは、公衆衛生に大きな影響を与え、世界的なパンデミックの影響を軽減します。 本研究では,パンデミック時のソーシャルメディア上でのユーザ活動に基づくクラスタリング行動に対する新たなアプローチを導入し,オンラインプラットフォームにおける健康を促進するための機械学習モデルを提案する。

Social networks are rich source of data to analyze user habits in all aspects of life. User's behavior is decisive component of a health system in various countries. Promoting good behavior can improve the public health significantly. In this work, we develop a new model for social network analysis by using text analysis approach. We define each user reaction to global pandemic with analyzing his online behavior. Clustering a group of online users with similar habits, help to find how virus spread in different societies. Promoting the healthy life style in the high risk online users of social media have significant effect on public health and reducing the effect of global pandemic. In this work, we introduce a new approach to clustering habits based on user activities on social media in the time of pandemic and recommend a machine learning model to promote health in the online platforms.
翻訳日:2021-02-23 14:48:33 公開日:2021-02-21
# STDPはスパイクニューラルネットワークのバックプロパゲーションによる学習を促進する

STDP enhances learning by backpropagation in a spiking neural network ( http://arxiv.org/abs/2102.10530v1 )

ライセンス: Link先を確認
Kotaro Furuya and Jun Ohkubo(参考訳) スパイクニューラルネットワークのための半教師付き学習法を提案する。 提案手法は, 生物学的に妥当な学習規則である, バックプロパゲーションによる教師あり学習とスパイクタイピング依存塑性(STDP)による教師なし学習からなる。 数値実験により,少量のラベル付きデータを用いた場合,追加のラベル付けを行わずに精度を向上できることを示した。 この特徴は、既存の識別モデルの半教師付き学習法では達成されていない。 イベント駆動システムのための学習手法を提案することができる。 したがって、ニューロモルフィックハードウェアで実装すれば、リアルタイムの問題で非常に効率的になります。 その結果,STDPは教師付き学習の後に適用された場合,自己組織化以外の重要な役割を担っていることが示唆された。

A semi-supervised learning method for spiking neural networks is proposed. The proposed method consists of supervised learning by backpropagation and subsequent unsupervised learning by spike-timing-depende nt plasticity (STDP), which is a biologically plausible learning rule. Numerical experiments show that the proposed method improves the accuracy without additional labeling when a small amount of labeled data is used. This feature has not been achieved by existing semi-supervised learning methods of discriminative models. It is possible to implement the proposed learning method for event-driven systems. Hence, it would be highly efficient in real-time problems if it were implemented on neuromorphic hardware. The results suggest that STDP plays an important role other than self-organization when applied after supervised learning, which differs from the previous method of using STDP as pre-training interpreted as self-organization.
翻訳日:2021-02-23 14:48:21 公開日:2021-02-21
# 既約論理の相対表現性 II

Relative Expressiveness of Defeasible Logics II ( http://arxiv.org/abs/2102.10532v1 )

ライセンス: Link先を確認
Michael J. Maher(参考訳) (maher 2012) は、難解論理の相対表現性に関するアプローチを導入し、相対表現性の概念を2つ検討した。 これらの相対表現性の第一の定義を用いて、DLフレームワークの全ての非実現可能論理は、この相対表現性の定式化の下で等しく表現可能であることを示す。 相対表現性の第二の定式化は、第一よりも強い。 しかし,個々の敗退を取り入れた論理は,チーム敗退の論理と同等に表現できることを示す。 したがって、DLにおける論理表現性の唯一の相違は、あいまいさの扱い方の違いから生じる。 これにより、dl の相対表現性の研究は \cite{maher12} で始まる。

(Maher 2012) introduced an approach for relative expressiveness of defeasible logics, and two notions of relative expressiveness were investigated. Using the first of these definitions of relative expressiveness, we show that all the defeasible logics in the DL framework are equally expressive under this formulation of relative expressiveness. The second formulation of relative expressiveness is stronger than the first. However, we show that logics incorporating individual defeat are equally expressive as the corresponding logics with team defeat. Thus the only differences in expressiveness of logics in DL arise from differences in how ambiguity is handled. This completes the study of relative expressiveness in DL begun in \cite{Maher12}.
翻訳日:2021-02-23 14:48:07 公開日:2021-02-21
# 渦流場における効率的なナビゲーションの学習

Learning Efficient Navigation in Vortical Flow Fields ( http://arxiv.org/abs/2102.10536v1 )

ライセンス: Link先を確認
Peter Gunnarson, Ioannis Mandralis, Guido Novati, Petros Koumoutsakos, John O. Dabiri(参考訳) 海洋測量などのロボットアプリケーションでは、バックグラウンドフローフィールドの存在下での効率的なポイントツーポイントナビゲーションが重要です。 このようなアプリケーションでは、ロボットは周囲の状況を知るか、時間的に変化する電流に直面するだけであり、軌道計画に最適な制御技術を使うことは制限される。 本研究では,新しい強化学習アルゴリズムを適用し,非定常2次元流れ場を介して固定速度スイマーを操る時間効率のよいナビゲーションポリシを探索する。 このアルゴリズムは、環境手がかりをディープニューラルネットワークに入力し、スイマーの行動を判断し、記憶と記憶のリプレイを展開する。 得られたスイマーは,目標に達するために背景の流れをうまく利用できたが,この成功は知覚された環境条件の種類に依存している。 驚くべきことに、速度センシングアプローチは、バイオミメティック渦センシングアプローチをほぼ2倍の成功率で上回った。 局所速度測定を取り入れた強化学習アルゴリズムは,グローバルな最適制御プランナーが発見する経路の時間効率に近づきながら,目標地点に到達するのにほぼ100%の成功を収めた。

Efficient point-to-point navigation in the presence of a background flow field is important for robotic applications such as ocean surveying. In such applications, robots may only have knowledge of their immediate surroundings or be faced with time-varying currents, which limits the use of optimal control techniques for planning trajectories. Here, we apply a novel Reinforcement Learning algorithm to discover time-efficient navigation policies to steer a fixed-speed swimmer through an unsteady two-dimensional flow field. The algorithm entails inputting environmental cues into a deep neural network that determines the swimmer's actions, and deploying Remember and Forget Experience replay. We find that the resulting swimmers successfully exploit the background flow to reach the target, but that this success depends on the type of sensed environmental cue. Surprisingly, a velocity sensing approach outperformed a bio-mimetic vorticity sensing approach by nearly two-fold in success rate. Equipped with local velocity measurements, the reinforcement learning algorithm achieved near 100% success in reaching the target locations while approaching the time-efficiency of paths found by a global optimal control planner.
翻訳日:2021-02-23 14:47:57 公開日:2021-02-21
# checksoft: 人々中心の空間に人や物事を追跡するスケーラブルなイベント駆動ソフトウェアアーキテクチャ

CheckSoft : A Scalable Event-Driven Software Architecture for Keeping Track of People and Things in People-Centric Spaces ( http://arxiv.org/abs/2102.10513v1 )

ライセンス: Link先を確認
Rohan Sarkar and Avinash C. Kak(参考訳) 空港のチェックポイントセキュリティエリア,自動小売店舗,スマートライブラリなど,人中心のアプリケーションにおける対象と対象とのインタラクションを追跡するための,スケーラブルなイベント駆動型ソフトウェアアーキテクチャであるchecksoftを提案する。 このアーキテクチャは、監視カメラのネットワークによってリアルタイムで生成されたビデオデータを利用する。 これらのアプリケーションの自動化にはさまざまな側面がありますが、全体的な問題の最も難しい部分は、人とオブジェクトの相互作用を追跡することです。 CheckSoftは有限状態マシン(FSM)ベースのロジックを使用して、そのようなインタラクションを追跡し、システムがビデオカメラによるインタラクションの誤った検出を迅速に拒否できるようにします。 CheckSoftは、アーキテクチャは、個別のプロセスが各人間と各オブジェクトの「ストレージコンテナ」に割り当てられるマルチプロセスに基づいているため、容易にスケーラブルである。 ストレージコンテナは、CheckSoftがデプロイされた特定のアプリケーションに応じて、オブジェクトを表示する棚またはオブジェクトが格納されるビンである場合があります。

We present CheckSoft, a scalable event-driven software architecture for keeping track of people-object interactions in people-centric applications such as airport checkpoint security areas, automated retail stores, smart libraries, and so on. The architecture works off the video data generated in real time by a network of surveillance cameras. Although there are many different aspects to automating these applications, the most difficult part of the overall problem is keeping track of the interactions between the people and the objects. CheckSoft uses finite-state-machine (FSM) based logic for keeping track of such interactions which allows the system to quickly reject any false detections of the interactions by the video cameras. CheckSoft is easily scalable since the architecture is based on multi-processing in which a separate process is assigned to each human and to each "storage container" for the objects. A storage container may be a shelf on which the objects are displayed or a bin in which the objects are stored, depending on the specific application in which CheckSoft is deployed.
翻訳日:2021-02-23 14:45:03 公開日:2021-02-21
# 移動可能な視覚単語:自己監督学習のための解剖学的パターンのセマンティクスを探求する

Transferable Visual Words: Exploiting the Semantics of Anatomical Patterns for Self-supervised Learning ( http://arxiv.org/abs/2102.10680v1 )

ライセンス: Link先を確認
Fatemeh Haghighi, Mohammad Reza Hosseinzadeh Taher, Zongwei Zhou, Michael B. Gotway, Jianming Liang(参考訳) 本稿では,医学画像解析における深層学習のためのアノテーション効率を実現するために,transportable visual words(transvw)という新しい概念を提案する。 医療画像 - 定義された臨床目的のために身体の特定の部分に焦点を合わせ、患者間で解剖学的に非常に類似した画像を生成し、画像間で洗練された解剖学的パターンを生成する。 これらの視覚単語は自己発見を通じて解剖学的一貫性に従って自動的に収穫され、自己発見された視覚単語は、自己分類と自己修復(self-supervision and self-restoration)を通じて意味論に富んだ汎用画像表現を学ぶための、深いモデルにとって強力で自由な監督信号として機能する。 我々は,複数のアプリケーションにおいて,より高い性能とより高速なコンバージェンスとアノテーションコストの低減により,transvwのアノテーション効率を実証する。 Our TransVW has several important advantages, including (1) TransVW is a fully autodidactic scheme, which exploits the semantics of visual words for self-supervised learning, requiring no expert annotation; (2) visual word learning is an add-on strategy, which complements existing self-supervised methods, boosting their performance; and (3) the learned image representation is semantics-enriched models, which have proven to be more robust and generalizable, saving annotation efforts for a variety of applications through transfer learning. 私たちのコード、事前訓練されたモデル、およびキュレートされたビジュアルワードはhttps://github.com/J LiangLab/TransVW.org で利用可能です。

This paper introduces a new concept called "transferable visual words" (TransVW), aiming to achieve annotation efficiency for deep learning in medical image analysis. Medical imaging--focusing on particular parts of the body for defined clinical purposes--generates images of great similarity in anatomy across patients and yields sophisticated anatomical patterns across images, which are associated with rich semantics about human anatomy and which are natural visual words. We show that these visual words can be automatically harvested according to anatomical consistency via self-discovery, and that the self-discovered visual words can serve as strong yet free supervision signals for deep models to learn semantics-enriched generic image representation via self-supervision (self-classification and self-restoration). Our extensive experiments demonstrate the annotation efficiency of TransVW by offering higher performance and faster convergence with reduced annotation cost in several applications. Our TransVW has several important advantages, including (1) TransVW is a fully autodidactic scheme, which exploits the semantics of visual words for self-supervised learning, requiring no expert annotation; (2) visual word learning is an add-on strategy, which complements existing self-supervised methods, boosting their performance; and (3) the learned image representation is semantics-enriched models, which have proven to be more robust and generalizable, saving annotation efforts for a variety of applications through transfer learning. Our code, pre-trained models, and curated visual words are available at https://github.com/J LiangLab/TransVW.
翻訳日:2021-02-23 14:44:30 公開日:2021-02-21
# Saatyの不整合指数の非完全比較への拡張:近似しきい値

Extension of Saaty's inconsistency index to incomplete comparisons: Approximated thresholds ( http://arxiv.org/abs/2102.10558v1 )

ライセンス: Link先を確認
Kolos Csaba \'Agoston and L\'aszl\'o Csat\'o(参考訳) ペアワイズ比較行列は、いくつかのペアが欠落している設定でますます使用される。 しかし、このような不完全なデータセットを分析するための不整合指標は少なく、関連するしきい値を持つ指標も少ない。 本稿では,saatyが提案する不整合指数を不完全ペアワイズ比較行列に一般化する。 この拡張は、不足要素を埋めて不完全行列の固有値を最小化するアプローチに基づいている。 これは、0.1の有名なしきい値が許容される不整合の条件を提供する一貫性比の重要な成分であるランダムインデックスの確立された値を直接適用できないことを意味する。 ランダム行列の不一致は、行列サイズと欠落した要素の数の関数であることが判明し、後者の変数の場合にはほぼ線形依存である。 この結果は,不完全ペアワイズ比較行列の受入・取り消しのための統計的基準として,実践者によって直接利用できる。

Pairwise comparison matrices are increasingly used in settings where some pairs are missing. However, there exist few inconsistency indices to analyse such incomplete data sets and even fewer measures have an associated threshold. This paper generalises the inconsistency index proposed by Saaty to incomplete pairwise comparison matrices. The extension is based on the approach of filling the missing elements to minimise the eigenvalue of the incomplete matrix. It means that the well-established values of the random index, a crucial component of the consistency ratio for which the famous threshold of 0.1 provides the condition for the acceptable level of inconsistency, cannot be directly adopted. The inconsistency of random matrices turns out to be the function of matrix size and the number of missing elements, with a nearly linear dependence in the case of the latter variable. Our results can be directly used by practitioners as a statistical criterion for accepting/rejecting an incomplete pairwise comparison matrix.
翻訳日:2021-02-23 14:42:54 公開日:2021-02-21
# Flipping Limited Weight Bitsによるディープニューラルネットワークに対するターゲット攻撃

Targeted Attack against Deep Neural Networks via Flipping Limited Weight Bits ( http://arxiv.org/abs/2102.10496v1 )

ライセンス: Link先を確認
Jiawang Bai, Baoyuan Wu, Yong Zhang, Yiming Li, Zhifeng Li, Shu-Tao Xia(参考訳) ディープニューラルネットワーク(DNN)の脆弱性を探るため、トレーニング段階における中毒ベースのバックドア攻撃や推論段階における敵攻撃など、多くの攻撃パラダイムが研究されている。 本稿では,悪質な目的で展開段階におけるモデルパラメータを修飾する新しい攻撃パラダイムについて検討する。 具体的には、特定のサンプルをサンプル修正なしにターゲットクラスに誤分類すると同時に、他のサンプルの予測精度を著しく低減し、ステルス性を確保することが目的である。 この目的のために、パラメータはメモリにバイナリビット($i.e.$, 0, 1)として保存されるため、この問題をバイナリ整数プログラミング(BIP)として定式化する。 整数プログラミングにおける最新の手法を利用することで、このBIP問題を連続最適化問題として等価に再構成し、乗算器の交互方向法(ADMM)を用いて効率よく効率的に解けるようにする。 したがって、反転した臨界ビットはヒューリスティックな戦略を用いるのではなく、最適化によって容易に決定することができる。 広範な実験は、DNN攻撃における我々の方法の優位性を示す。

To explore the vulnerability of deep neural networks (DNNs), many attack paradigms have been well studied, such as the poisoning-based backdoor attack in the training stage and the adversarial attack in the inference stage. In this paper, we study a novel attack paradigm, which modifies model parameters in the deployment stage for malicious purposes. Specifically, our goal is to misclassify a specific sample into a target class without any sample modification, while not significantly reduce the prediction accuracy of other samples to ensure the stealthiness. To this end, we formulate this problem as a binary integer programming (BIP), since the parameters are stored as binary bits ($i.e.$, 0 and 1) in the memory. By utilizing the latest technique in integer programming, we equivalently reformulate this BIP problem as a continuous optimization problem, which can be effectively and efficiently solved using the alternating direction method of multipliers (ADMM) method. Consequently, the flipped critical bits can be easily determined through optimization, rather than using a heuristic strategy. Extensive experiments demonstrate the superiority of our method in attacking DNNs.
翻訳日:2021-02-23 14:40:30 公開日:2021-02-21
# LSTM深層学習モデルを用いたデリー大気質予測 : 新型コロナウイルスロックダウンに着目して

Delhi air quality prediction using LSTM deep learning models with a focus on COVID-19 lockdown ( http://arxiv.org/abs/2102.10551v1 )

ライセンス: Link先を確認
Animesh Tiwari, Rishabh Gupta, Rohitash Chandra(参考訳) 大気汚染は、農業、経済、道路事故、健康に幅広い影響を与えます。 本稿では,インドのデリー州において,短期的(多段階的)空気品質予測のための新しい深層学習手法を提案する。 我々のディープラーニング手法は、双方向LSTMやエンコーダ・デコーダLSTMモデルなどを含む長期短期記憶(LSTM)ネットワークモデルで構成されている。 我々は,80時間にわたる10の予測地平線に対する空気質の予測と,不確かさを定量化した長期(1ヶ月先)予測を行う多変量時系列手法を用いる。 以上の結果から,多変量双方向LSTMモデルでは,完全ロックダウン期間と部分ロックダウン期間の空気品質にCOVID-19の影響があるにもかかわらず,最高の予測が可能であることが示唆された。 新型コロナウイルス(COVID-19)による大気質への影響は、完全ロックダウン中に有意であるが、その後の大気品質の低下は前例のないほど成長した。

Air pollution has a wide range of implications on agriculture, economy, road accidents, and health. In this paper, we use novel deep learning methods for short-term (multi-step-ahead) air-quality prediction in selected parts of Delhi, India. Our deep learning methods comprise of long short-term memory (LSTM) network models which also include some recent versions such as bidirectional-LSTM and encoder-decoder LSTM models. We use a multivariate time series approach that attempts to predict air quality for 10 prediction horizons covering total of 80 hours and provide a long-term (one month ahead) forecast with uncertainties quantified. Our results show that the multivariate bidirectional-LSTM model provides best predictions despite COVID-19 impact on the air-quality during full and partial lockdown periods. The effect of COVID-19 on the air quality has been significant during full lockdown; however, there was unprecedented growth of poor air quality afterwards.
翻訳日:2021-02-23 14:40:12 公開日:2021-02-21
# CT-SCANのホモロジーによるCOVID-19の分類

Classification of COVID-19 via Homology of CT-SCAN ( http://arxiv.org/abs/2102.10593v1 )

ライセンス: Link先を確認
Sohail Iqbal, H. Fareed Ahmed, Talha Qaiser, Muhammad Imran Qureshi, Nasir Rajpoot(参考訳) SARS-CoV-2(COVID-19) 感染の世界的な広がりでは、特にこの流行のホットスポットで早期に病気を検出することが非常に重要です。 世界には110万人以上の感染者がいます、ソファー。 逆転写ポリメラーゼ連鎖反応(RT-PCR)には、その迅速性および有効結果のCTスキャン画像が好ましい。 患者の早期発見と分離は、病気の広がりを制御する唯一の可能な方法です。 CT-Scansの自動解析は、このプロセスにおいて大きな支援を提供することができる。 本稿では,CTスキャン画像を用いたSARS-CoV-2検出手法を提案する。 本手法は,非常に直感的で自然な形状解析の考え方に基づいており,専門医を模倣する試みである。 SARS-CoV-2の特徴をトポロジカル特性を定量化して主に追跡します。 私たちは主にトポロジカルデータ分析(TDA)から永続ホモロジーと呼ばれるツールを使用して、これらのトポロジカル特性を計算します。 我々は,sars-cov-2 ct-scanデータセット (sars-cov-2 ct-scan dataset) \citep{soares2020sars} のトレーニングとテストを行った。 我々のモデルは、全体的なベンチマークf1スコアを99.42\%$、精度99.416\%$、精度99.41\%$、そして99.42\%$をリコールしました。 TDA技術には、新型コロナウイルスの効率的かつ迅速な検出に使用できる大きなポテンシャルがあります。 特にRT-PCRラボやキットが深刻な危機に陥っている低所得国では、TDAの潜在能力は、世界的な新型コロナウイルスの迅速かつ安全な検出のためにクリニックで活用される可能性がある。

In this worldwide spread of SARS-CoV-2 (COVID-19) infection, it is of utmost importance to detect the disease at an early stage especially in the hot spots of this epidemic. There are more than 110 Million infected cases on the globe, sofar. Due to its promptness and effective results computed tomography (CT)-scan image is preferred to the reverse-transcriptio n polymerase chain reaction (RT-PCR). Early detection and isolation of the patient is the only possible way of controlling the spread of the disease. Automated analysis of CT-Scans can provide enormous support in this process. In this article, We propose a novel approach to detect SARS-CoV-2 using CT-scan images. Our method is based on a very intuitive and natural idea of analyzing shapes, an attempt to mimic a professional medic. We mainly trace SARS-CoV-2 features by quantifying their topological properties. We primarily use a tool called persistent homology, from Topological Data Analysis (TDA), to compute these topological properties. We train and test our model on the "SARS-CoV-2 CT-scan dataset" \citep{soares2020sars}, an open-source dataset, containing 2,481 CT-scans of normal and COVID-19 patients. Our model yielded an overall benchmark F1 score of $99.42\% $, accuracy $99.416\%$, precision $99.41\%$, and recall $99.42\%$. The TDA techniques have great potential that can be utilized for efficient and prompt detection of COVID-19. The immense potential of TDA may be exploited in clinics for rapid and safe detection of COVID-19 globally, in particular in the low and middle-income countries where RT-PCR labs and/or kits are in a serious crisis.
翻訳日:2021-02-23 14:38:35 公開日:2021-02-21
# 凸面上の最も近い点を見つけるためのスケッチ法

A Sketching Method for Finding the Closest Point on a Convex Hull ( http://arxiv.org/abs/2102.10502v1 )

ライセンス: Link先を確認
Roozbeh Yousefzadeh(参考訳) 我々は,データセットの凸殻上の点を,その外側の問合せ点に最も近いようにスケッチするアルゴリズムを開発した。 データセットの凸包の研究は、その幾何学的構造とその分布に関する有用な情報を提供することができる。 多くの機械学習データセットは多数の特徴を持つサンプルを持っているが、計算幾何学における正確なアルゴリズムは通常そのような設定のために設計されていない。 あるいは、線形制約を持つ線型最小二乗問題として定式化することもできる。 しかし、標準最適化アルゴリズムを使って問題を解決することは、大規模なデータセットにとって非常に高価である。 提案アルゴリズムでは,データ構造を利用したスケッチ処理を行い,無関係な点から最適化プロセスを解き放つ。 これには、データを断片に分割し、徐々にピースをつなぎ合わせながら、アクティブな制約セットを迅速に変更できる勾配のプロジェクトメソッドを使用して最適なソリューションを改善します。 本手法は, 既成のアルゴリズムよりも高速な凸問題の最適解を導出する。

We develop a sketching algorithm to find the point on the convex hull of a dataset, closest to a query point outside it. Studying the convex hull of datasets can provide useful information about their geometric structure and their distribution. Many machine learning datasets have large number of samples with large number of features, but exact algorithms in computational geometry are usually not designed for such setting. Alternatively, the problem can be formulated as a linear least-squares problem with linear constraints. However, solving the problem using standard optimization algorithms can be very expensive for large datasets. Our algorithm uses a sketching procedure to exploit the structure of the data and unburden the optimization process from irrelevant points. This involves breaking the data into pieces and gradually putting the pieces back together, while improving the optimal solution using a gradient project method that can rapidly change its active set of constraints. Our method eventually leads to the optimal solution of our convex problem faster than off-the-shelf algorithms.
翻訳日:2021-02-23 14:34:21 公開日:2021-02-21
# 不均質情報ネットワークにおけるレコメンデーションの遺伝的メタ構造探索

Genetic Meta-Structure Search for Recommendation on Heterogeneous Information Network ( http://arxiv.org/abs/2102.10550v1 )

ライセンス: Link先を確認
Zhenyu Han, Fengli Xu, Jinghan Shi, Yu Shang, Haorui Ma, Pan Hui, Yong Li(参考訳) 過去10年間で、異種情報ネットワーク(HIN)は現代のレコメンデーターシステムにとって重要な方法論となっている。 そのパワーをフル活用するために、手動設計のネットワークテンプレート、すなわちメタ構造を導入し、セマンティック・アウェア情報をフィルタリングする。 手作りのメタ構造は、労力とデータに依存した高度な専門家の知識に依存している。 一方、メタ構造の数は、そのサイズとノードタイプ数によって指数関数的に増加するため、ブルートフォース検索は禁止される。 これらの課題に対処するために、HINの推薦のためのメタ構造設計を自動的に最適化する遺伝的メタ構造探索(GEMS)を提案する。 具体的には、GEMSは、推奨のために意味のあるメタ構造を探索する並列遺伝的アルゴリズムを採用し、検索空間を効率的に探索する専用のルールとメタ構造予測器を設計します。 最後に,様々なメタ構造から情報を動的に融合するマルチビューグラフ畳み込みネットワークモジュールを提案する。 3つの実世界のデータセットに対する大規模な実験は、GEMSの有効性を示唆している。 手作業によるメタパスを利用する簡略化されたGEMSと比較して、GEMSはほとんどの評価指標で$ 6\%$パフォーマンス向上を達成します。 より重要なことは、hinベースのレコメンダシステム設計に光を当てる、特定されたメタ構造に関する詳細な分析を行います。

In the past decade, the heterogeneous information network (HIN) has become an important methodology for modern recommender systems. To fully leverage its power, manually designed network templates, i.e., meta-structures, are introduced to filter out semantic-aware information. The hand-crafted meta-structure rely on intense expert knowledge, which is both laborious and data-dependent. On the other hand, the number of meta-structures grows exponentially with its size and the number of node types, which prohibits brute-force search. To address these challenges, we propose Genetic Meta-Structure Search (GEMS) to automatically optimize meta-structure designs for recommendation on HINs. Specifically, GEMS adopts a parallel genetic algorithm to search meaningful meta-structures for recommendation, and designs dedicated rules and a meta-structure predictor to efficiently explore the search space. Finally, we propose an attention based multi-view graph convolutional network module to dynamically fuse information from different meta-structures. Extensive experiments on three real-world datasets suggest the effectiveness of GEMS, which consistently outperforms all baseline methods in HIN recommendation. Compared with simplified GEMS which utilizes hand-crafted meta-paths, GEMS achieves over $6\%$ performance gain on most evaluation metrics. More importantly, we conduct an in-depth analysis on the identified meta-structures, which sheds light on the HIN based recommender system design.
翻訳日:2021-02-23 14:34:06 公開日:2021-02-21
# 信頼領域分割によるマルチエージェント強化学習における非定常処理

Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via Trust Region Decomposition ( http://arxiv.org/abs/2102.10616v1 )

ライセンス: Link先を確認
Wenhao Li, Xiangfeng Wang, Bo Jin, Junjie Sheng, Hongyuan Zha(参考訳) 非定常性は、学習手順中のエージェントのポリシー変更によって引き起こされるマルチエージェント強化学習における厄介な問題です。 この問題を解決する現在の取り組みには、中央集権的な批評家や分散アクター(ccda)、人口ベースのセルフプレイ、その他のモデリングなど、有効性とスケーラビリティに独自の制限がある。 本稿では, 新規に$\delta$-stationarit y測定法を導入し, 共同政策の発散に比例することが理論的に証明された政策シーケンスの定常性を明示的にモデル化する。 しかし、平均場近似のような単純な政策因子化は、信頼領域分解ジレンマとみなすことができるより大きな政策発散につながる。 共同政策を一般的なマルコフ確率場としてモデル化し、メッセージパッシングに基づく信頼領域分解ネットワークを提案し、共同政策の発散をより正確に推定する。 MAMTと呼ばれるトラスト領域分解を伴うマルチエージェントミラー下降ポリシーアルゴリズムは、$\delta$-stationarit yを満たす目的で確立されています。 MAMTは、地域政策の信頼領域をエンドツーエンドで適応的に調整できるため、非定常問題を緩和するために共同政策の発散をほぼ制限することができます。 本手法は,複雑度の異なるコーディネーションタスクのベースラインと比較して,目立った,安定した性能向上を実現する。

Non-stationarity is one thorny issue in multi-agent reinforcement learning, which is caused by the policy changes of agents during the learning procedure. Current works to solve this problem have their own limitations in effectiveness and scalability, such as centralized critic and decentralized actor (CCDA), population-based self-play, modeling of others and etc. In this paper, we novelly introduce a $\delta$-stationarit y measurement to explicitly model the stationarity of a policy sequence, which is theoretically proved to be proportional to the joint policy divergence. However, simple policy factorization like mean-field approximation will mislead to larger policy divergence, which can be considered as trust region decomposition dilemma. We model the joint policy as a general Markov random field and propose a trust region decomposition network based on message passing to estimate the joint policy divergence more accurately. The Multi-Agent Mirror descent policy algorithm with Trust region decomposition, called MAMT, is established with the purpose to satisfy $\delta$-stationarit y. MAMT can adjust the trust region of the local policies adaptively in an end-to-end manner, thereby approximately constraining the divergence of joint policy to alleviate the non-stationary problem. Our method can bring noticeable and stable performance improvement compared with baselines in coordination tasks of different complexity.
翻訳日:2021-02-23 14:33:44 公開日:2021-02-21