このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201216となっている論文です。

PDF登録状況(公開日: 20201216)

TitleAuthorsAbstract論文公表日・翻訳日
# 分布外検出のための特徴空間特異性

Feature Space Singularity for Out-of-Distribution Detection ( http://arxiv.org/abs/2011.14654v2 )

ライセンス: Link先を確認
Haiwen Huang, Zhihan Li, Lulu Wang, Sishuo Chen, Bin Dong, Xinyu Zhou(参考訳) OoD(Out-of-Distribut ion)検出は、安全な人工知能システムを構築する上で重要である。 しかし、現在のOoD検出方法は、実際のデプロイメントのパフォーマンス要件を満たすことはできない。 本稿では,新しい観測に基づく単純かつ効果的なアルゴリズムを提案する。訓練されたニューラルネットワークでは,境界ノルムを持つoodサンプルが特徴空間によく集中する。 We called the center of OoD features the Feature Space Singularity (FSS) and indicate the distance of a sample feature to FSS as FSSD。 次に、OoDサンプルをFSSDのしきい値を取ることで識別することができる。 この現象を解析した結果、アルゴリズムが機能する理由が明らかになった。 提案アルゴリズムは,OoD検出ベンチマークにおける最先端性能を実現する。 さらに、FSSDはテストデータのわずかな破損に対する堅牢性も享受し、アンサンブルによってさらに強化される。 これにより、FSSDは実世界で採用される有望なアルゴリズムとなる。 コードは \url{https://github.com/m egvii-research/fsd_o od_detection} でリリースします。

Out-of-Distribution (OoD) detection is important for building safe artificial intelligence systems. However, current OoD detection methods still cannot meet the performance requirements for practical deployment. In this paper, we propose a simple yet effective algorithm based on a novel observation: in a trained neural network, OoD samples with bounded norms well concentrate in the feature space. We call the center of OoD features the Feature Space Singularity (FSS), and denote the distance of a sample feature to FSS as FSSD. Then, OoD samples can be identified by taking a threshold on the FSSD. Our analysis of the phenomenon reveals why our algorithm works. We demonstrate that our algorithm achieves state-of-the-art performance on various OoD detection benchmarks. Besides, FSSD also enjoys robustness to slight corruption in test data and can be further enhanced by ensembling. These make FSSD a promising algorithm to be employed in real world. We release our code at \url{https://github.com/m egvii-research/FSSD_ OoD_Detection}.
翻訳日:2021-06-06 15:00:31 公開日:2020-12-16
# 乳がんを自動的に検出するワンピクセルアタック

One-Pixel Attack Deceives Automatic Detection of Breast Cancer ( http://arxiv.org/abs/2012.00517v2 )

ライセンス: Link先を確認
Joni Korpihalkola, Tuomo Sipola, Samir Puuska, Tero Kokkonen(参考訳) 本稿では,入力画像中の1つの画素だけを変更することで,スライド画像全体のmitosisを含むかどうかを予測できる最先端の機械学習モデルを示す。 コンピュータビジョンと機械学習は、がんの診断と検出における様々なタスクを自動化するために使用できる。 攻撃者が自動処理を操作できれば、結果は破壊的になり、最悪の場合、誤った診断と治療につながる可能性がある。 この研究では、実際の腫瘍データセットを用いて、1ピクセルの攻撃を現実のシナリオで実証する。 解析の結果,スライド画像全体の小さな1ピクセルの修正が診断に影響を及ぼす可能性が示唆された。 この攻撃はサイバーセキュリティの観点から脅威となる。1ピクセルの方法は、動機づけられた攻撃者が攻撃ベクターとして使用できる。

In this article we demonstrate that a state-of-the-art machine learning model predicting whether a whole slide image contains mitosis can be fooled by changing just a single pixel in the input image. Computer vision and machine learning can be used to automate various tasks in cancer diagnostic and detection. If an attacker can manipulate the automated processing, the results can be devastating and in the worst case lead to wrong diagnostic and treatments. In this research one-pixel attack is demonstrated in a real-life scenario with a real tumor dataset. The results indicate that a minor one-pixel modification of a whole slide image under analysis can affect the diagnosis. The attack poses a threat from the cyber security perspective: the one-pixel method can be used as an attack vector by a motivated attacker.
翻訳日:2021-05-30 19:55:47 公開日:2020-12-16
# (参考訳) アクティブラーニング:問題の設定と最近の展開

Active Learning: Problem Settings and Recent Developments ( http://arxiv.org/abs/2012.04225v2 )

ライセンス: CC BY 4.0
Hideitsu Hino(参考訳) 教師あり学習では、予測モデルのためのラベル付きトレーニングデータを取得するのは非常にコストがかかるが、ラベルなしデータの大量取得は容易であることが多い。 アクティブラーニング(active learning)は、ラベル付けのためのサンプルの適応的な選択を通じて、限られたコストで高精度な予測モデルを得る方法である。 本稿では,アクティブラーニングの基本的課題と最近の研究動向を説明する。 特に,ラベリング用データからサンプルを選択する学習獲得関数の研究,アクティブ学習アルゴリズムに関する理論的研究,逐次データ取得のための停止基準について注目する。 材料開発や計測への応用例を紹介する。

In supervised learning, acquiring labeled training data for a predictive model can be very costly, but acquiring a large amount of unlabeled data is often quite easy. Active learning is a method of obtaining predictive models with high precision at a limited cost through the adaptive selection of samples for labeling. This paper explains the basic problem settings of active learning and recent research trends. In particular, research on learning acquisition functions to select samples from the data for labeling, theoretical work on active learning algorithms, and stopping criteria for sequential data acquisition are highlighted. Application examples for material development and measurement are introduced.
翻訳日:2021-05-17 09:33:29 公開日:2020-12-16
# (参考訳) パスワード生成のための生成深層学習技術 [全文訳有]

Generative Deep Learning Techniques for Password Generation ( http://arxiv.org/abs/2012.05685v2 )

ライセンス: CC BY 4.0
David Biesner, Kostadin Cvejoski, Bogdan Georgiev, Rafet Sifa, Erik Krupicka(参考訳) 深層学習によるパスワード推測アプローチは、新しい現実的なパスワード候補を生成する能力において重要なブレークスルーによって最近研究されている。 本研究では,注意に基づくディープニューラルネットワーク,自動エンコード機構,生成的敵ネットワークといった,パスワード推測の観点から,幅広い深層学習モデルと確率ベースモデルについて検討する。 最新のサンプリング性能を示す変分オートエンコーダという観点からは,新しい生成的ディープラーニングモデルを提供し,補間やターゲットサンプリングなどの潜在空間的特徴を生み出す。 最後に、よく知られたデータセット(RockYou、LinkedIn、Youku、Zomato、Pwnd)上で、統一制御フレームワークで徹底的な実験分析を行います。 我々の結果は、ディープニューラルネットワークによって駆動される最も有望なスキームを識別するだけでなく、生成の多様性とサンプルの特異性の観点から、それぞれのアプローチの強みも示している。

Password guessing approaches via deep learning have recently been investigated with significant breakthroughs in their ability to generate novel, realistic password candidates. In the present work we study a broad collection of deep learning and probabilistic based models in the light of password guessing: attention-based deep neural networks, autoencoding mechanisms and generative adversarial networks. We provide novel generative deep-learning models in terms of variational autoencoders exhibiting state-of-art sampling performance, yielding additional latent-space features such as interpolations and targeted sampling. Lastly, we perform a thorough empirical analysis in a unified controlled framework over well-known datasets (RockYou, LinkedIn, Youku, Zomato, Pwnd). Our results not only identify the most promising schemes driven by deep neural networks, but also illustrate the strengths of each approach in terms of generation variability and sample uniqueness.
翻訳日:2021-05-15 15:21:45 公開日:2020-12-16
# (参考訳) ベトナムSNSにおける信頼度情報識別のための移動学習の活用(ReINTEL) [全文訳有]

Leveraging Transfer Learning for Reliable Intelligence Identification on Vietnamese SNSs (ReINTEL) ( http://arxiv.org/abs/2012.07557v2 )

ライセンス: CC BY 4.0
Trung-Hieu Tran, Long Phan, Truong-Son Nguyen, Tien-Huy Nguyen(参考訳) 本稿ではVLSP 2020評価キャンペーンにおいてベトナムのソーシャルネットワーク上での信頼性情報同定のためのトランスフォーマーに基づくいくつかのアプローチを提案する。 単言語モデルと多言語事前学習モデルの両方を利用する。 さらに,アンサンブル法を用いて,異なるアプローチの堅牢性を向上させる。 我々のチームは、他の参加者と競争するプライベートテストセットでROC-AUCで0.9378のスコアを獲得しました。

This paper proposed several transformer-based approaches for Reliable Intelligence Identification on Vietnamese social network sites at VLSP 2020 evaluation campaign. We exploit both of monolingual and multilingual pre-trained models. Besides, we utilize the ensemble method to improve the robustness of different approaches. Our team achieved a score of 0.9378 at ROC-AUC metric in the private test set which is competitive to other participants.
翻訳日:2021-05-15 14:10:51 公開日:2020-12-16
# (参考訳) ニューロシンボリックAI:第3波

Neurosymbolic AI: The 3rd Wave ( http://arxiv.org/abs/2012.05876v2 )

ライセンス: CC BY 4.0
Artur d'Avila Garcez and Luis C. Lamb(参考訳) 人工知能(AI)と機械学習(ML)の最近の進歩は、研究コミュニティや業界全体に前例のない影響を与えた。 それでも、AIの信頼性、安全性、解釈可能性、説明責任に関する懸念は、影響力のある思想家によって提起された。 多くの人は、知識表現と推論を深層学習と統合し、説明しやすくする必要性を認識している。 ニューラルネットワークにおけるロバストな学習と、ネットワークモデルのシンボリック表現による推論と説明可能性の実現を目的とした研究は、長年にわたって活発に行われてきた。 本稿では、ニューロシンボリックAIの最近の研究成果と、次のAIシステムの波の鍵となる要素を特定することを目的としている。 我々は、ニューラルネットワークに基づく学習を、記号的知識表現と論理的推論で原則的に統合する研究に焦点をあてる。 20年間のニューラルシンボリックコンピューティングの知見は、aiの信頼、安全性、解釈可能性、説明可能性という、ますます目立つ役割に新たな光を当てている。 また、ニューラルシンボリックシステムの観点から、今後10年間のAI研究における有望な方向性と課題を特定します。

Current advances in Artificial Intelligence (AI) and Machine Learning (ML) have achieved unprecedented impact across research communities and industry. Nevertheless, concerns about trust, safety, interpretability and accountability of AI were raised by influential thinkers. Many have identified the need for well-founded knowledge representation and reasoning to be integrated with deep learning and for sound explainability. Neural-symbolic computing has been an active area of research for many years seeking to bring together robust learning in neural networks with reasoning and explainability via symbolic representations for network models. In this paper, we relate recent and early research results in neurosymbolic AI with the objective of identifying the key ingredients of the next wave of AI systems. We focus on research that integrates in a principled way neural network-based learning with symbolic knowledge representation and logical reasoning. The insights provided by 20 years of neural-symbolic computing are shown to shed new light onto the increasingly prominent role of trust, safety, interpretability and accountability of AI. We also identify promising directions and challenges for the next decade of AI research from the perspective of neural-symbolic systems.
翻訳日:2021-05-15 11:06:12 公開日:2020-12-16
# (参考訳) 音声の言語的・ジェスチャー的品質の認識による評価予測の公正性 [全文訳有]

Fairness in Rating Prediction by Awareness of Verbal and Gesture Quality of Public Speeches ( http://arxiv.org/abs/2012.06157v2 )

ライセンス: CC0 1.0
Rupam Acharyya, Ankani Chattoraj, Shouman Das, Md. Iftekhar Tanveer, Ehsan Hoque(参考訳) 広範に公の場で話すことに対する言語的および非言語的手がかりの役割は、何十年もの間、探究の話題となっている。 我々は、チャネルやコミュニケーションのモードにおける「多様性または不均一性」の要素である、現在の理論間の共通性を特定する(例)。 物語、科学的事実、感情的なつながり、表情などに頼るさま 効果的な情報伝達に欠かせないものです 本研究は,言語領域と非言語領域(文字と顔のジェスチャー)における発話の質を定量化する,新しいヘテロジニティー・メトリック(HEM)を定式化する。 我々はTEDトークを公開スピーチの入力レポジトリとして使用しています。 HEMとTEDトークの視聴者による評価との間には興味深い関係があることが示されている。 HEMは本質的に、"多様性"や"異質性"に基づいた講演の質を表すものだ、と氏は強調する。 さらに、HEMが人種や性別に関する評価の偏りを捉えることに成功し、センシティブな属性(これらに基づく予測が不公平な結果をもたらす可能性があるため)と呼ぶこともわかりました。 我々は,HEMの指標をニューラルネットワークの損失関数に組み込んで,人種や性別に関する評価予測における不公平さを低減することを目的とする。 本結果は,ニューラルネットワークの予測精度に大きな影響を及ぼすことなく,予測の公平性を向上することを示す。 我々の研究は、言語ドメインと非言語ドメインの両方の公開スピーチのための新しいメトリクスと、ニューラルネットワークの計算能力とを結びつけて、話者のための公正な予測システムを設計する。

The role of verbal and non-verbal cues towards great public speaking has been a topic of exploration for many decades. We identify a commonality across present theories, the element of "variety or heterogeneity" in channels or modes of communication (e.g. resorting to stories, scientific facts, emotional connections, facial expressions etc.) which is essential for effectively communicating information. We use this observation to formalize a novel HEterogeneity Metric, HEM, that quantifies the quality of a talk both in the verbal and non-verbal domain (transcript and facial gestures). We use TED talks as an input repository of public speeches because it consists of speakers from a diverse community besides having a wide outreach. We show that there is an interesting relationship between HEM and the ratings of TED talks given to speakers by viewers. It emphasizes that HEM inherently and successfully represents the quality of a talk based on "variety or heterogeneity". Further, we also discover that HEM successfully captures the prevalent bias in ratings with respect to race and gender, that we call sensitive attributes (because prediction based on these might result in unfair outcome). We incorporate the HEM metric into the loss function of a neural network with the goal to reduce unfairness in rating predictions with respect to race and gender. Our results show that the modified loss function improves fairness in prediction without considerably affecting prediction accuracy of the neural network. Our work ties together a novel metric for public speeches in both verbal and non-verbal domain with the computational power of a neural network to design a fair prediction system for speakers.
翻訳日:2021-05-14 08:09:18 公開日:2020-12-16
# 近似トレース再構成

Approximate Trace Reconstruction ( http://arxiv.org/abs/2012.06713v2 )

ライセンス: Link先を確認
Sami Davies, Miklos Z. Racz, Cyrus Rashtchian, Benjamin G. Schiffer(参考訳) 通常のトレース再構成問題では、未知の長さの文字列を、独立に何度も削除チャネルを通過した後、正確に再構築し、一連のトレース(すなわち、文字列のランダムな部分列)を生成する。 近似復元の緩和問題を考察する。 ここでの目標は、正確な再構築に必要なトレースよりも少ないトレースを使用して、編集距離で元の文字列に近い文字列を出力することである。 推定値が$n/\mathrm{polylog}(n)$Edit distance内にあり、$\mathrm{polylog}(n)$ traces(あるいは単に1つのトレース)しか使用できないような、あるクラスに属する文字列をおよそ再構成できるアルゴリズムをいくつか提示する。 これらのクラスは、正確な復元のために線形数のトレースを必要とする文字列を含み、典型的なランダム文字列とは全く異なる。 技術的観点から,我々のアルゴリズムは,トレースの高密度領域を整列させ,各領域を近似するために適切な長さのランを用いて,未知文字列の連続的なサブストリングを概ね再構成する。 アルゴリズムを補完するために、近似再構成のための一般的なブラックボックスの下限を示し、最悪の場合、2つの入力文字列を区別するために下限の上に構築する。 特に、これは$n^{1/3 - \delta}$編集距離が$n^{1 + 3\delta/2}/\mathrm{polylog}(n)$ traces for $0< \delta < 1/3$ であることを示している。

In the usual trace reconstruction problem, the goal is to exactly reconstruct an unknown string of length $n$ after it passes through a deletion channel many times independently, producing a set of traces (i.e., random subsequences of the string). We consider the relaxed problem of approximate reconstruction. Here, the goal is to output a string that is close to the original one in edit distance while using much fewer traces than is needed for exact reconstruction. We present several algorithms that can approximately reconstruct strings that belong to certain classes, where the estimate is within $n/\mathrm{polylog}(n)$ edit distance, and where we only use $\mathrm{polylog}(n)$ traces (or sometimes just a single trace). These classes contain strings that require a linear number of traces for exact reconstruction and which are quite different from a typical random string. From a technical point of view, our algorithms approximately reconstruct consecutive substrings of the unknown string by aligning dense regions of traces and using a run of a suitable length to approximate each region. To complement our algorithms, we present a general black-box lower bound for approximate reconstruction, building on a lower bound for distinguishing between two candidate input strings in the worst case. In particular, this shows that approximating to within $n^{1/3 - \delta}$ edit distance requires $n^{1 + 3\delta/2}/\mathrm{polylog}(n)$ traces for $0< \delta < 1/3$ in the worst case.
翻訳日:2021-05-10 05:09:36 公開日:2020-12-16
# (参考訳) 局所的歪み尺度による深層学習の一般化予測 [全文訳有]

Predicting Generalization in Deep Learning via Local Measures of Distortion ( http://arxiv.org/abs/2012.06969v2 )

ライセンス: CC BY 4.0
Abhejit Rajagopal, Vamshi C. Madala, Shivkumar Chandrasekaran, Peder E. Z. Larson(参考訳) 近似と情報理論で開発された複雑性尺度に訴えることにより,ディープラーニングの一般化を研究する。 これらの概念は、深層学習の高次元的・データ定義的な性質から問題視されているが、PCA、GMM、SVMといった単純なベクトル量子化アプローチは、階層的に深層抽出された特徴を応用した場合に、一般化性能とよく相関する比較的安価な複雑さ対策をもたらすことを示す。 我々は2020年のNeurIPS PGDLチャレンジの結果について論じる。

We study generalization in deep learning by appealing to complexity measures originally developed in approximation and information theory. While these concepts are challenged by the high-dimensional and data-defined nature of deep learning, we show that simple vector quantization approaches such as PCA, GMMs, and SVMs capture their spirit when applied layer-wise to deep extracted features giving rise to relatively inexpensive complexity measures that correlate well with generalization performance. We discuss our results in 2020 NeurIPS PGDL challenge.
翻訳日:2021-05-09 19:36:43 公開日:2020-12-16
# (参考訳) 保守的帯域問題に対する一次元全解法 [全文訳有]

A One-Size-Fits-All Solution to Conservative Bandit Problems ( http://arxiv.org/abs/2012.07341v3 )

ライセンス: CC BY 4.0
Yihan Du, Siwei Wang, Longbo Huang(参考訳) 本稿では,サンプルパス報酬制約を伴う保守的バンディット問題(cbps)の一家系について検討する。 本稿では, CBP に対する 1-Size-Fits-All ソリューションを提案する。 保守的多腕包帯(CMAB)、保守的線形包帯(CLB)、保守的文脈結合包帯(CCCB)。 期待される報酬に対する高い確率制約を考慮した以前の研究とは異なり、実際に受け取った報酬に対するサンプルパス制約に注目し、より理論的な保証(T$非依存的な追加的後悔)と経験的なパフォーマンスを達成する。 さらに,評価結果を拡張し,期待される報奨と変動性の両方で学習性能を測定する新しい平均分散バンドイット問題(MV-CBP)を検討する。 この拡張問題に対して、o(1/t)$正規化加法後悔(累積形式ではt$非依存)を持つ新しいアルゴリズムを提供し、経験的評価によって検証する。

In this paper, we study a family of conservative bandit problems (CBPs) with sample-path reward constraints, i.e., the learner's reward performance must be at least as well as a given baseline at any time. We propose a One-Size-Fits-All solution to CBPs and present its applications to three encompassed problems, i.e. conservative multi-armed bandits (CMAB), conservative linear bandits (CLB) and conservative contextual combinatorial bandits (CCCB). Different from previous works which consider high probability constraints on the expected reward, we focus on a sample-path constraint on the actually received reward, and achieve better theoretical guarantees ($T$-independent additive regrets instead of $T$-dependent) and empirical performance. Furthermore, we extend the results and consider a novel conservative mean-variance bandit problem (MV-CBP), which measures the learning performance with both the expected reward and variability. For this extended problem, we provide a novel algorithm with $O(1/T)$ normalized additive regrets ($T$-independent in the cumulative form) and validate this result through empirical evaluation.
翻訳日:2021-05-09 05:48:46 公開日:2020-12-16
# (参考訳) Squirrel: スイッチングハイパーパラメータ最適化器 [全文訳有]

Squirrel: A Switching Hyperparameter Optimizer ( http://arxiv.org/abs/2012.08180v2 )

ライセンス: CC BY 4.0
Noor Awad, Gresa Shala, Difan Deng, Neeratyoy Mallik, Matthias Feurer, Katharina Eggensperger, Andre' Biedenkapp, Diederick Vermetten, Hao Wang, Carola Doerr, Marius Lindauer, Frank Hutter(参考訳) 本稿では,NeurIPS 2020 BBOチャレンジへの応募について述べる。 異なるオプティマイザが異なる問題に対してうまく機能するという事実に動機づけられ、アプローチは異なるオプティマイザを切り替えます。 コンテストのリーダーボードのチーム名は、形容詞と同じ初期文字を持つ動物からなるランダムに生成された「発音のあだ名」であったので、我々はこのアプローチをスイッチングリス、またはここでは短いリスと呼んだ。

In this short note, we describe our submission to the NeurIPS 2020 BBO challenge. Motivated by the fact that different optimizers work well on different problems, our approach switches between different optimizers. Since the team names on the competition's leaderboard were randomly generated "alliteration nicknames", consisting of an adjective and an animal with the same initial letter, we called our approach the Switching Squirrel, or here, short, Squirrel.
翻訳日:2021-05-08 07:58:54 公開日:2020-12-16
# (参考訳) 深部生成モデルにおける大域的要因の教師なし学習 [全文訳有]

Unsupervised Learning of Global Factors in Deep Generative Models ( http://arxiv.org/abs/2012.08234v2 )

ライセンス: CC BY 4.0
Ignacio Peis, Pablo M. Olmos and Antonio Art\'es-Rodr\'iguez(参考訳) 非i.i.d.に基づく新しい深層生成モデルを提案する。 完全に教師なしの方法で観察間のグローバルな依存関係をキャプチャする変分オートエンコーダ。 近年の深部生成モデルにおける大域的モデリングのための半教師付き代替案とは対照的に、局所的あるいはデータ依存空間における混合モデルと大域ガウス潜在変数を組み合わせることで、3つの特別な洞察を得ることができた。 第一に、帰納的大域空間は、($\beta$-VAEとその一般化のように)エビデンスの下界におけるユーザ定義正規化のない解釈不能な非交叉表現をキャプチャする。 第二に、モデルがドメインアライメントを行い、相関関係を見つけ、異なるデータベース間で補間することを示す。 最後に,共有属性を持つ顔画像やデジット画像の定義配列など,非自明な基盤構造を持つ観測群を区別する大域空間の能力について検討した。

We present a novel deep generative model based on non i.i.d. variational autoencoders that captures global dependencies among observations in a fully unsupervised fashion. In contrast to the recent semi-supervised alternatives for global modeling in deep generative models, our approach combines a mixture model in the local or data-dependent space and a global Gaussian latent variable, which lead us to obtain three particular insights. First, the induced latent global space captures interpretable disentangled representations with no user-defined regularization in the evidence lower bound (as in $\beta$-VAE and its generalizations). Second, we show that the model performs domain alignment to find correlations and interpolate between different databases. Finally, we study the ability of the global space to discriminate between groups of observations with non-trivial underlying structures, such as face images with shared attributes or defined sequences of digits images.
翻訳日:2021-05-08 06:04:28 公開日:2020-12-16
# rgb-dシークエンスにおける3次元マルチオブジェクト追跡のための後方視

Seeing Behind Objects for 3D Multi-Object Tracking in RGB-D Sequences ( http://arxiv.org/abs/2012.08197v2 )

ライセンス: Link先を確認
Norman M\"uller, Yu-Shiang Wong, Niloy J. Mitra, Angela Dai and Matthias Nie{\ss}ner(参考訳) RGB-Dビデオシーケンスからの多対象追跡は、時間とともに視点、動き、オクルージョンが変化するため、難しい問題である。 我々は,物体の完全な形状を持つことが追跡に役立つことを観察し,物体の完全な形状を共同で推測し,時間とともに剛的に動く物体を追跡することを提案する。 私たちの重要な洞察は、オブジェクトの完全な幾何学を推測することは、追跡に大いに役立ちます。 物体の見えない領域を幻覚させることにより、同一のインスタンス間で追加の対応を得ることができ、外見の強い変化の下でもロバストな追跡を行うことができる。 RGB-Dフレームのシーケンスから、各フレーム内のオブジェクトを検出し、その完全なオブジェクト形状を予測し、高密度な対応関係を標準空間にマッピングする。 これにより、各フレーム内のオブジェクトに対する6dofポーズとフレーム間の対応を導出し、rgb-dシーケンスにわたって堅牢なオブジェクトトラッキングを提供することができます。 合成データと実世界のrgb-dデータの両方における実験により,動的物体追跡における最先端の性能が得られた。 さらに,対象の完成度が追跡に大いに寄与し,平均motaで6.5\%$の改善が期待できることを示した。

Multi-object tracking from RGB-D video sequences is a challenging problem due to the combination of changing viewpoints, motion, and occlusions over time. We observe that having the complete geometry of objects aids in their tracking, and thus propose to jointly infer the complete geometry of objects as well as track them, for rigidly moving objects over time. Our key insight is that inferring the complete geometry of the objects significantly helps in tracking. By hallucinating unseen regions of objects, we can obtain additional correspondences between the same instance, thus providing robust tracking even under strong change of appearance. From a sequence of RGB-D frames, we detect objects in each frame and learn to predict their complete object geometry as well as a dense correspondence mapping into a canonical space. This allows us to derive 6DoF poses for the objects in each frame, along with their correspondence between frames, providing robust object tracking across the RGB-D sequence. Experiments on both synthetic and real-world RGB-D data demonstrate that we achieve state-of-the-art performance on dynamic object tracking. Furthermore, we show that our object completion significantly helps tracking, providing an improvement of $6.5\%$ in mean MOTA.
翻訳日:2021-05-07 05:23:41 公開日:2020-12-16
# Amazon SageMaker Autopilot: 大規模にホワイトボックスのAutoMLソリューション

Amazon SageMaker Autopilot: a white box AutoML solution at scale ( http://arxiv.org/abs/2012.08483v2 )

ライセンス: Link先を確認
Piali Das, Valerio Perrone, Nikita Ivkin, Tanya Bansal, Zohar Karnin, Huibin Shen, Iaroslav Shcherbatyi, Yotam Elor, Wilton Wu, Aida Zolic, Thibaut Lienart, Alex Tang, Amr Ahmed, Jean Baptiste Faddoul, Rodolphe Jenatton, Fela Winkelmolen, Philip Gautier, Leo Dirac, Andre Perunicic, Miroslav Miladinovic, Giovanni Zappella, C\'edric Archambeau, Matthias Seeger, Bhaskar Dutt, Laurence Rouesnel(参考訳) AutoMLシステムは、フィーチャーの正しい処理方法を選択し、アルゴリズムを選択し、パイプライン全体のハイパーパラメータをチューニングすることで、機械学習問題に対するブラックボックスソリューションを提供する。 これらのシステムは、多くのデータセットでうまく機能するが、それでも、個々のシステムが生成するワンショットソリューションがサブパリティパフォーマンスを提供するような、不要な数のデータセットが存在する。 本稿では,自動MLソリューションを提供するフルマネージドシステムであるAmazon SageMaker Autopilotについて述べる。 表形式でのデータセットとターゲット列の名前が与えられたとき、Autopilotは問題タイプを特定し、データを解析し、特徴前処理やMLアルゴリズムを含むさまざまな完全なMLパイプラインを生成し、候補モデルのリーダーボードを生成するように調整する。 パフォーマンスが不十分なシナリオでは、データサイエンティストは、提案されたMLパイプラインを閲覧し、編集して、完全に手動のソリューションに戻ることなく、専門知識とビジネス知識を注入することができる。 本稿では、autopilotのさまざまなコンポーネントについて説明し、スケーラビリティ、高品質モデル、編集可能なmlパイプライン、オフラインメタラーニングのアーティファクトの消費、およびこれらのトレーニングされたモデルをプロダクション環境で使用できるsagemakerスイート全体と便利な統合を可能にするインフラストラクチャの選択を強調する。

AutoML systems provide a black-box solution to machine learning problems by selecting the right way of processing features, choosing an algorithm and tuning the hyperparameters of the entire pipeline. Although these systems perform well on many datasets, there is still a non-negligible number of datasets for which the one-shot solution produced by each particular system would provide sub-par performance. In this paper, we present Amazon SageMaker Autopilot: a fully managed system providing an automated ML solution that can be modified when needed. Given a tabular dataset and the target column name, Autopilot identifies the problem type, analyzes the data and produces a diverse set of complete ML pipelines including feature preprocessing and ML algorithms, which are tuned to generate a leaderboard of candidate models. In the scenario where the performance is not satisfactory, a data scientist is able to view and edit the proposed ML pipelines in order to infuse their expertise and business knowledge without having to revert to a fully manual solution. This paper describes the different components of Autopilot, emphasizing the infrastructure choices that allow scalability, high quality models, editable ML pipelines, consumption of artifacts of offline meta-learning, and a convenient integration with the entire SageMaker suite allowing these trained models to be used in a production setting.
翻訳日:2021-05-07 05:16:30 公開日:2020-12-16
# 幾何学的3d-2dエッジアライメントに基づくrgb-dカメラによる視覚オドメトリ

Canny-VO: Visual Odometry with RGB-D Cameras based on Geometric 3D-2D Edge Alignment ( http://arxiv.org/abs/2012.08228v2 )

ライセンス: Link先を確認
Yi Zhou, Hongdong Li, Laurent Kneip(参考訳) 本稿では,画像から抽出したカンニーエッジ特徴を効率的に追跡するため,自由形曲線登録の古典的な問題を再検討し,効率的なrgbdビジュアルオドメトリシステムcanny-voに適用する。 エッジ登録でよく用いられる距離変換の代替として、近似近接近傍場と配向近接近傍場という2つの方法が提案されている。 3D2Dエッジアライメントは、効率と精度の両方の観点から、これらの代替の定式化の恩恵を受ける。 これは、データからモデルへの登録、双線形補間、および下位段階の計算といった、より計算に要求されるパラダイムの必要性を取り除く。 出力器やセンサノイズの存在下でシステムの堅牢性を確保するために、登録を最大後続問題として定式化し、その結果の重み付き最小二乗目標を反復的に再重み付き最小二乗法により解決する。 種々のロバスト重み関数を調査し,残差誤差の統計に基づいて最適選択を行う。 さらに、近くの場の適応的なサンプル定義によって効率が向上する。 SLAMベンチマークシーケンスの大規模評価は、最先端の性能と古典的ユークリッド距離場に対する優位性を示す。

The present paper reviews the classical problem of free-form curve registration and applies it to an efficient RGBD visual odometry system called Canny-VO, as it efficiently tracks all Canny edge features extracted from the images. Two replacements for the distance transformation commonly used in edge registration are proposed: Approximate Nearest Neighbour Fields and Oriented Nearest Neighbour Fields. 3D2D edge alignment benefits from these alternative formulations in terms of both efficiency and accuracy. It removes the need for the more computationally demanding paradigms of datato-model registration, bilinear interpolation, and sub-gradient computation. To ensure robustness of the system in the presence of outliers and sensor noise, the registration is formulated as a maximum a posteriori problem, and the resulting weighted least squares objective is solved by the iteratively re-weighted least squares method. A variety of robust weight functions are investigated and the optimal choice is made based on the statistics of the residual errors. Efficiency is furthermore boosted by an adaptively sampled definition of the nearest neighbour fields. Extensive evaluations on public SLAM benchmark sequences demonstrate state-of-the-art performance and an advantage over classical Euclidean distance fields.
翻訳日:2021-05-07 05:11:54 公開日:2020-12-16
# (参考訳) DialogXL:多人数会話感情認識のためのオールインワンXLNet [全文訳有]

DialogXL: All-in-One XLNet for Multi-Party Conversation Emotion Recognition ( http://arxiv.org/abs/2012.08695v1 )

ライセンス: CC BY 4.0
Weizhou Shen, Junqing Chen, Xiaojun Quan and Zhixian Xie(参考訳) 本稿では、事前学習された言語モデルを用いた会話(ERC)における感情認識の先駆的取り組みについて述べる。 通常の文書とは異なり、会話の発話は異なる当事者から交互に現れ、通常以前の作品の階層構造として整理される。 このような構造は、XLNetのような事前訓練された言語モデルの適用には適していない。 この問題に対処するために,より長い歴史的コンテキストを記憶するためのメモリ拡張と,複数パーティ構造を扱うための対話型自己アテンションを備えたオールインワンXLNetモデル,すなわちDialogXLを提案する。 具体的には,まず,XLNetの繰り返しメカニズムをセグメントレベルから発話レベルに修正し,会話データをモデル化する。 第2に,xlnetのバニラセルフアテンションに代わるダイアログアウェアな自己アテンションを導入し,有用な話者間および話者間依存性を捉える。 比較のために主要なモデルを提示した4つのERCベンチマークで大規模な実験が行われた。 実験の結果,提案モデルがすべてのデータセットのベースラインを上回ることがわかった。 アブレーション研究やエラー解析など,いくつかの実験も実施され,DialogXLの臨界モジュールの役割が確認された。

This paper presents our pioneering effort for emotion recognition in conversation (ERC) with pre-trained language models. Unlike regular documents, conversational utterances appear alternately from different parties and are usually organized as hierarchical structures in previous work. Such structures are not conducive to the application of pre-trained language models such as XLNet. To address this issue, we propose an all-in-one XLNet model, namely DialogXL, with enhanced memory to store longer historical context and dialog-aware self-attention to deal with the multi-party structures. Specifically, we first modify the recurrence mechanism of XLNet from segment-level to utterance-level in order to better model the conversational data. Second, we introduce dialog-aware self-attention in replacement of the vanilla self-attention in XLNet to capture useful intra- and inter-speaker dependencies. Extensive experiments are conducted on four ERC benchmarks with mainstream models presented for comparison. The experimental results show that the proposed model outperforms the baselines on all the datasets. Several other experiments such as ablation study and error analysis are also conducted and the results confirm the role of the critical modules of DialogXL.
翻訳日:2021-05-07 02:46:41 公開日:2020-12-16
# (参考訳) ノード分類におけるCNNに対するGNNの有効性の指標としてのエッジエントロピー [全文訳有]

Edge Entropy as an Indicator of the Effectiveness of GNNs over CNNs for Node Classification ( http://arxiv.org/abs/2012.08698v1 )

ライセンス: CC BY-SA 4.0
Lavender Yao Jiang, John Shi, Mark Cheung, Oren Wright, Jos\'e M.F. Moura(参考訳) グラフニューラルネットワーク(GNN)は、畳み込みニューラルネットワーク(CNN)をグラフベースのデータに拡張する。 問題となるのは、GNNの基盤となるグラフ構造がCNNに対してどの程度の性能向上をもたらすかである(このグラフ構造を無視する)。 この問題に対処するために、エッジエントロピーを導入し、CNNに対するGNNの性能改善の可能性を示す指標として、その性能を評価する。 合成および実データを用いたノード分類の結果, エッジエントロピーの低値は, CNNよりもGNNの方が期待される性能向上を予測し, 逆にエッジエントロピーの高次化は, より小さな改善効果をもたらすことが示された。

Graph neural networks (GNNs) extend convolutional neural networks (CNNs) to graph-based data. A question that arises is how much performance improvement does the underlying graph structure in the GNN provide over the CNN (that ignores this graph structure). To address this question, we introduce edge entropy and evaluate how good an indicator it is for possible performance improvement of GNNs over CNNs. Our results on node classification with synthetic and real datasets show that lower values of edge entropy predict larger expected performance gains of GNNs over CNNs, and, conversely, higher edge entropy leads to expected smaller improvement gains.
翻訳日:2021-05-07 02:32:47 公開日:2020-12-16
# (参考訳) SID-NISM: 自己監督型低光画像強調フレームワーク [全文訳有]

SID-NISM: A Self-supervised Low-light Image Enhancement Framework ( http://arxiv.org/abs/2012.08707v1 )

ライセンス: CC BY 4.0
Lijun Zhang, Xiao Liu, Erik Learned-Miller, Hui Guan(参考訳) 低照度で画像を撮影する場合、画像の視認性が低下し、画像の視覚的な美しさが低下するだけでなく、多くのコンピュータビジョンアルゴリズムの性能が著しく低下する。 本稿では,SID-NISM(Self-super vised Image Decomposition Network)と非線形照明飽和マッピング機能(Nyronic Illumination Saturation Mapping Function,NISM)の2つのコンポーネントからなる,自己監督型低照度画像強調フレームワークを提案する。 自己教師付きネットワークとして、SID-Netは与えられた低照度画像を、事前のトレーニングや参照画像なしで直接反射、照明、ノイズに分解することができる。 すると、分解された照明マップはNISMによって強化される。 復元された照明マップを持つことにより、拡張を達成できる。 SID-NISMによって強化された画像はより自然であり、予期せぬ成果物が少ないことが、いくつかの公的な挑戦的な低照度画像データセットの実験で明らかになった。

When capturing images in low-light conditions, the images often suffer from low visibility, which not only degrades the visual aesthetics of images, but also significantly degenerates the performance of many computer vision algorithms. In this paper, we propose a self-supervised low-light image enhancement framework (SID-NISM), which consists of two components, a Self-supervised Image Decomposition Network (SID-Net) and a Nonlinear Illumination Saturation Mapping function (NISM). As a self-supervised network, SID-Net could decompose the given low-light image into its reflectance, illumination and noise directly without any prior training or reference image, which distinguishes it from existing supervised-learning methods greatly. Then, the decomposed illumination map will be enhanced by NISM. Having the restored illumination map, the enhancement can be achieved accordingly. Experiments on several public challenging low-light image datasets reveal that the images enhanced by SID-NISM are more natural and have less unexpected artifacts.
翻訳日:2021-05-07 02:24:12 公開日:2020-12-16
# (参考訳) ディープグラフニューラルネットワークアーキテクチャ設計:グローバルピラミッド風収縮骨格から局所トポロジリンクリライトへ [全文訳有]

A Deep Graph Neural Networks Architecture Design: From Global Pyramid-like Shrinkage Skeleton to Local Topology Link Rewiring ( http://arxiv.org/abs/2012.08717v1 )

ライセンス: CC BY 4.0
Gege Zhang(参考訳) 表現性はディープニューラルネットワークの評価において基本的な役割を担い、パフォーマンス改善の限界を理解することと密接に関連している。 本稿では,大域的モデル収縮,重みの進化,リンクの重み回復など,臨界表現性に基づく3つのパイプラインのトレーニングフレームワークを提案する。 具体的には,情報伝達に影響を与える鞍点を克服するピラミッド状骨格を提案する。 そして、ネットワークトポロジにおけるモジュラリティ(クラスタリング)現象の理由を分析し、それを潜在的に誤った重み付きリンクをリ配線する。 ノード分類に関する数値実験を行い,提案したトレーニングフレームワークが,誤重み付きリンクに対する高速収束とロバスト性において,性能を著しく向上させることを確認した。 GNNのアーキテクチャ設計は、動的および位相空間的な側面からGNNの表現性を検証し、より効率的なニューラルネットワークの設計に有用なガイドラインを提供する。

Expressivity plays a fundamental role in evaluating deep neural networks, and it is closely related to understanding the limit of performance improvement. In this paper, we propose a three-pipeline training framework based on critical expressivity, including global model contraction, weight evolution, and link's weight rewiring. Specifically, we propose a pyramidal-like skeleton to overcome the saddle points that affect information transfer. Then we analyze the reason for the modularity (clustering) phenomenon in network topology and use it to rewire potential erroneous weighted links. We conduct numerical experiments on node classification and the results confirm that the proposed training framework leads to a significantly improved performance in terms of fast convergence and robustness to potential erroneous weighted links. The architecture design on GNNs, in turn, verifies the expressivity of GNNs from dynamics and topological space aspects and provides useful guidelines in designing more efficient neural networks.
翻訳日:2021-05-06 12:29:22 公開日:2020-12-16
# (参考訳) piSAAC:異なる機械学習アルゴリズムを用いた酵素モデルの識別のためのSAAC特徴選択法の拡張 [全文訳有]

piSAAC: Extended notion of SAAC feature selection novel method for discrimination of Enzymes model using different machine learning algorithm ( http://arxiv.org/abs/2101.03126v1 )

ライセンス: CC BY 4.0
Zaheer Ullah Khan, Dechang Pi, Izhar Ahmed Khan, Asif Nawaz, Jamil Ahmad, Mushtaq Hussain(参考訳) 酵素とタンパク質は生きた駆動の生化学であり、活性のある環境に劇的な影響を及ぼす。 したがって、酵素の性質を正確に予測するためのロバストで高精度な自動計算モデルを構築することは極めて有望である。 本研究では, piSAACと命名された新規アミノ酸合成モデルを提案する。 このモデルでは、タンパク質配列は等しくバランスの取れた末端で識別され、配列の固有相関性を完全に評価する。 提案したモデルを評価するためにいくつかの最先端アルゴリズムが用いられている。 10倍のクロスバリデーション評価は、例えば異なる統計測度を用いてモデルの信頼性と堅牢性を明らかにするために用いられる。 精度, 感度, 特異性, F測定値, 面積アンダーROC曲線 実験の結果、piSAAC特徴抽出による確率的ニューラルネットワークアルゴリズムは、98.01%の精度、97.12%の感度、95.87%の特異性、0.9812and AUC 0.95812のf値、データセットS1の精度、97.85%の精度、97.54%の感度、96.24%の特異性、0.9774とAUC 0.9803のデータセットS2のF値が得られた。 これらの優れた実験結果から、提案モデルは、学術研究および薬物設計関連応用分野において非常に有用なツールとなる。

Enzymes and proteins are live driven biochemicals, which has a dramatic impact over the environment, in which it is active. So, therefore, it is highly looked-for to build such a robust and highly accurate automatic and computational model to accurately predict enzymes nature. In this study, a novel split amino acid composition model named piSAAC is proposed. In this model, protein sequence is discretized in equal and balanced terminus to fully evaluate the intrinsic correlation properties of the sequence. Several state-of-the-art algorithms have been employed to evaluate the proposed model. A 10-folds cross-validation evaluation is used for finding out the authenticity and robust-ness of the model using different statistical measures e.g. Accuracy, sensitivity, specificity, F-measure and area un-der ROC curve. The experimental results show that, probabilistic neural network algorithm with piSAAC feature extraction yields an accuracy of 98.01%, sensitivity of 97.12%, specificity of 95.87%, f-measure of 0.9812and AUC 0.95812, over dataset S1, accuracy of 97.85%, sensitivity of 97.54%, specificity of 96.24%, f-measure of 0.9774 and AUC 0.9803 over dataset S2. Evident from these excellent empirical results, the proposed model would be a very useful tool for academic research and drug designing related application areas.
翻訳日:2021-05-06 12:16:25 公開日:2020-12-16
# (参考訳) 画像超解像の学習による品質評価 [全文訳有]

Learning-Based Quality Assessment for Image Super-Resolution ( http://arxiv.org/abs/2012.08732v1 )

ライセンス: CC BY 4.0
Tiesong Zhao, Yuting Lin, Yiwen Xu, Weiling Chen, Zhou Wang(参考訳) 画像超解像(SR)技術は、画像の空間分解能を高めて視覚品質を向上させる。 品質評価指標は、SRアルゴリズムの比較と最適化において重要な役割を果たすが、現在のメトリクスは、正確で堅牢なSR品質指標を学ぶのに不可欠な大規模な品質データベースが欠如していることから、限られた成功しか達成していない。 本研究では、まず、新しい半自動ラベリングアプローチを用いて、大規模なSR画像データベースを構築する。 SR-IQAデータベースの最大であるSemi-Automatic Ratings (SISAR)による結果のSR画像品質データベースには、100の自然シーンの8,400の画像が含まれている。 特徴抽出に2ストリームのDeep Neural Networks (DNN) を用いて、エンドツーエンドのDeep Image SR Quality (DISQ) モデルを訓練し、続いて品質予測のための機能融合ネットワークを訓練する。 実験結果から,提案手法は最先端のメトリクスよりも優れ,データベース間テストにおいて有望な一般化性能を実現することが示された。 SISARデータベースとdisQモデルは、再現可能な研究を促進するために公開されます。

Image Super-Resolution (SR) techniques improve visual quality by enhancing the spatial resolution of images. Quality evaluation metrics play a critical role in comparing and optimizing SR algorithms, but current metrics achieve only limited success, largely due to the lack of large-scale quality databases, which are essential for learning accurate and robust SR quality metrics. In this work, we first build a large-scale SR image database using a novel semi-automatic labeling approach, which allows us to label a large number of images with manageable human workload. The resulting SR Image quality database with Semi-Automatic Ratings (SISAR), so far the largest of SR-IQA database, contains 8,400 images of 100 natural scenes. We train an end-to-end Deep Image SR Quality (DISQ) model by employing two-stream Deep Neural Networks (DNNs) for feature extraction, followed by a feature fusion network for quality prediction. Experimental results demonstrate that the proposed method outperforms state-of-the-art metrics and achieves promising generalization performance in cross-database tests. The SISAR database and DISQ model will be made publicly available to facilitate reproducible research.
翻訳日:2021-05-06 12:07:34 公開日:2020-12-16
# (参考訳) プロジェクト管理における人工知能の最後の状況 [全文訳有]

The Last State of Artificial Intelligence in Project Management ( http://arxiv.org/abs/2012.12262v1 )

ライセンス: CC BY-SA 4.0
Mohammad Reza Davahli(参考訳) 人工知能(AI)は、教育、医療、金融など、さまざまな分野の発展に利用されてきた。 しかし、プロジェクトマネジメント(PM)分野におけるAIの適用は、等しく進展していない。 本稿では,PMにおけるAIの適用を調査するために使用される論文の体系的レビューについて報告する。 この体系的なレビューは、web of science、science direct、google scholar databaseを用いて関連論文を特定した。 652の論文のうち58が事前定義された基準を満たし、レビューに含まれていた。 追加の論文は、PM知識領域、PMプロセス、AIテクニックの3つに分類された。 その結果, プロジェクトステークホルダ管理, プロジェクト調達管理, プロジェクトコミュニケーション管理といったプロセスグループにおいて, PMにおけるAIの適用は初期段階にあり, 複数のPMプロセスにAIモデルは適用されていないことが明らかとなった。 しかしながら、論文の中で最も一般的なPMプロセスはプロジェクトの取り組み予測とコスト推定であり、最も人気のあるAI技術はベクトルマシン、ニューラルネットワーク、遺伝的アルゴリズムのサポートであった。

Artificial intelligence (AI) has been used to advance different fields, such as education, healthcare, and finance. However, the application of AI in the field of project management (PM) has not progressed equally. This paper reports on a systematic review of the published studies used to investigate the application of AI in PM. This systematic review identified relevant papers using Web of Science, Science Direct, and Google Scholar databases. Of the 652 articles found, 58 met the predefined criteria and were included in the review. Included papers were classified per the following dimensions: PM knowledge areas, PM processes, and AI techniques. The results indicated that the application of AI in PM was in its early stages and AI models have not applied for multiple PM processes especially in processes groups of project stakeholder management, project procurements management, and project communication management. However, the most popular PM processes among included papers were project effort prediction and cost estimation, and the most popular AI techniques were support vector machines, neural networks, and genetic algorithms.
翻訳日:2021-05-06 11:34:28 公開日:2020-12-16
# (参考訳) TikTokコメントデータセットに基づくドメイン固有辞書の構築 [全文訳有]

Building domain specific lexicon based on TikTok comment dataset ( http://arxiv.org/abs/2012.08773v1 )

ライセンス: CC BY 4.0
Hao Jiaxiang(参考訳) 感情分析タスクでは、文の感情傾向を予測することが重要な分野である。 従来の研究は、例えば、Valence、Arousal、Dominance of sentenceに基づく文の感情傾向の分析など、英語の感情分析に重点を置いていた。 感情的な傾向は 2つの言語で異なります 例えば、中国語と英語の文順は異なる感情を示すことがある。 本稿では,ドメイン固有辞書を構築する手法を試みた。 このように、モデルは感情的な傾向で中国語を分類することができる。 このアプローチでは,[13]に基づいて,中国語TikTokレビューと感情的語彙源(シード語)の単語埋め込みを通じて,超高密度空間埋め込みテーブルを訓練する。 モデルの結果はドメイン固有の語彙であり、単語の感情的な傾向を示す。 トレーニングデータとして中国のTikTokコメントを収集しました。 トレーニング結果とPCA法を比較して,中国語の感情分類におけるモデルの性能を評価することで,そのモデルが中国語でうまく機能したことを示す。 ソースコードがgithubでリリースされた。https://github.com/h 2222/douyin_comment_ dataset

In the sentiment analysis task, predicting the sentiment tendency of a sentence is an important branch. Previous research focused more on sentiment analysis in English, for example, analyzing the sentiment tendency of sentences based on Valence, Arousal, Dominance of sentences. the emotional tendency is different between the two languages. For example, the sentence order between Chinese and English may present different emotions. This paper tried a method that builds a domain-specific lexicon. In this way, the model can classify Chinese words with emotional tendency. In this approach, based on the [13], an ultra-dense space embedding table is trained through word embedding of Chinese TikTok review and emotional lexicon sources(seed words). The result of the model is a domain-specific lexicon, which presents the emotional tendency of words. I collected Chinese TikTok comments as training data. By comparing The training results with the PCA method to evaluate the performance of the model in Chinese sentiment classification, the results show that the model has done well in Chinese. The source code has released on github:https://githu b.com/h2222/douyin_c omment_dataset
翻訳日:2021-05-06 10:53:50 公開日:2020-12-16
# (参考訳) コンピュータトモグラフィーによる3次元脳波ランドマークの自動識別 [全文訳有]

Automated 3D cephalometric landmark identification using computerized tomography ( http://arxiv.org/abs/2101.05205v1 )

ライセンス: CC BY 4.0
Hye Sun Yun, Chang Min Hyun, Seong Hyeon Baek, Sang-Hwy Lee, Jin Keun Seo(参考訳) 頭蓋骨の形状を代用する3次元頭蓋骨計測のランドマークの同定は、頭蓋骨計測の基本的なステップである。 3dct画像からの手動ランドマーク作成は、訓練された専門家にとっても面倒な作業なので、自動3dランドマーク検出システムは非常に必要です。 近年, 深層学習(DL)を用いた2次元脳波の自動的ランドマーク化は大きな成功を収めているが, 医療データの利用に関する倫理的制約により, 入力データの高次元性や学習量の制限といった機械学習を妨げる要因から, 80以上のランドマークを用いた3次元ランドマーク化は, まだ満足のいくレベルに達していない。 本稿では,匿名化ランドマークデータセットを利用した3次元ランドマーク作成のための半教師付きdl法を提案する。 提案手法は,まず少数の簡易参照ランドマークを検出し,それを用いて変分オートエンコーダ(vae)で学習した低次元表現を用いてランドマーク全体の大まかな推定を行う。 匿名化されたランドマークデータセットは、VAEのトレーニングに使用される。 最後に, 下顎骨と頭蓋骨に適した分離戦略を用いて, 粗さを推定した小さな境界箱に粗さ検出を適用した。 下顎のランドマークについて, パッチベースの3D CNNを下顎骨(上顎から分離した)の分割像に適用し, ランドマークに関連付けられた下顎骨の3次元形態的特徴を捉えた。 コンディル周辺の6つのランドマークは、互いに密接に関連しているため、1つずつではなく、一度に検出する。 頭蓋のランドマークについては、vaeベースの潜在表現をもっと正確なアノテーションとして使用します。 本実験では,90個のランドマークに対して平均2.91mmの3次元点間誤差を15対のトレーニングデータで達成した。

Identification of 3D cephalometric landmarks that serve as proxy to the shape of human skull is the fundamental step in cephalometric analysis. Since manual landmarking from 3D computed tomography (CT) images is a cumbersome task even for the trained experts, automatic 3D landmark detection system is in a great need. Recently, automatic landmarking of 2D cephalograms using deep learning (DL) has achieved great success, but 3D landmarking for more than 80 landmarks has not yet reached a satisfactory level, because of the factors hindering machine learning such as the high dimensionality of the input data and limited amount of training data due to ethical restrictions on the use of medical data. This paper presents a semi-supervised DL method for 3D landmarking that takes advantage of anonymized landmark dataset with paired CT data being removed. The proposed method first detects a small number of easy-to-find reference landmarks, then uses them to provide a rough estimation of the entire landmarks by utilizing the low dimensional representation learned by variational autoencoder (VAE). Anonymized landmark dataset is used for training the VAE. Finally, coarse-to-fine detection is applied to the small bounding box provided by rough estimation, using separate strategies suitable for mandible and cranium. For mandibular landmarks, patch-based 3D CNN is applied to the segmented image of the mandible (separated from the maxilla), in order to capture 3D morphological features of mandible associated with the landmarks. We detect 6 landmarks around the condyle all at once, instead of one by one, because they are closely related to each other. For cranial landmarks, we again use VAE-based latent representation for more accurate annotation. In our experiment, the proposed method achieved an averaged 3D point-to-point error of 2.91 mm for 90 landmarks only with 15 paired training data.
翻訳日:2021-05-06 10:42:18 公開日:2020-12-16
# (参考訳) 非言語ダイアドコミュニケーションにおける感情の影響の方向分析:顔表情研究 [全文訳有]

Analysing the Direction of Emotional Influence in Nonverbal Dyadic Communication: A Facial-Expression Study ( http://arxiv.org/abs/2012.08780v1 )

ライセンス: CC BY 4.0
Maha Shadaydeh, Lea Mueller, Dana Schneider, Martin Thuemmel, Thomas Kessler, Joachim Denzler(参考訳) ディヤド対話における感情的影響の方向性を特定することは、心理療法、政治的相互作用の分析、対人対立行動に応用される心理科学への興味を高めている。 表情は自動的であり、過剰な影響を及ぼさないと広く説明されている。 このように、社会的感情認知プロセスに関する意図しない行動の手がかりをよりよく理解するための完璧な尺度である。 そこで本研究では,表情のみに基づくダイアディック対話における感情的影響の方向分析について考察した。 コンピュータビジョンの能力と因果推論理論を用いて,対話における感情的影響,すなわち因果効果関係の方向に関する仮説の定量的検証を行う。 主な2つの問題に対処する。 まず、ダイアド対話において、感情的な影響は過渡的な時間間隔で起こり、時間とともに変化する強さと方向と共に起こる。 そこで本研究では,因果推論を適用すべき過渡区間を特定するために,因果推論に先立って使用する関連する区間選択手法を提案する。 第2に,強烈な顔の感情が見えなくなった場合に生じる,きめ細かい表情を用いることを提案する。 影響の方向を特定するために,グラガー因果関係の概念を,選択された関連区間における表情の時系列に適用する。 実験により得られたデータを用いて実験を行った。 感情的影響の方向に関する仮説を定量的に検証した結果,提案手法が最も有望であることを示すことができた。

Identifying the direction of emotional influence in a dyadic dialogue is of increasing interest in the psychological sciences with applications in psychotherapy, analysis of political interactions, or interpersonal conflict behavior. Facial expressions are widely described as being automatic and thus hard to overtly influence. As such, they are a perfect measure for a better understanding of unintentional behavior cues about social-emotional cognitive processes. With this view, this study is concerned with the analysis of the direction of emotional influence in dyadic dialogue based on facial expressions only. We exploit computer vision capabilities along with causal inference theory for quantitative verification of hypotheses on the direction of emotional influence, i.e., causal effect relationships, in dyadic dialogues. We address two main issues. First, in a dyadic dialogue, emotional influence occurs over transient time intervals and with intensity and direction that are variant over time. To this end, we propose a relevant interval selection approach that we use prior to causal inference to identify those transient intervals where causal inference should be applied. Second, we propose to use fine-grained facial expressions that are present when strong distinct facial emotions are not visible. To specify the direction of influence, we apply the concept of Granger causality to the time series of facial expressions over selected relevant intervals. We tested our approach on newly, experimentally obtained data. Based on the quantitative verification of hypotheses on the direction of emotional influence, we were able to show that the proposed approach is most promising to reveal the causal effect pattern in various instructed interaction conditions.
翻訳日:2021-05-06 10:22:53 公開日:2020-12-16
# (参考訳) 単元変換による$O( \max \{n_1, n_2 \}\log ( \max \{n_1, n_2 \} n_3) )$n_1 \times n_2 \times n_3$ Tensor Completion [全文訳有]

On $O( \max \{n_1, n_2 \}\log ( \max \{ n_1, n_2 \} n_3) )$ Sample Entries for $n_1 \times n_2 \times n_3$ Tensor Completion via Unitary Transformation ( http://arxiv.org/abs/2012.08784v1 )

ライセンス: CC BY 4.0
Guang-Jing Song, Michael K. Ng and Xiongjun Zhang(参考訳) テンソル補完の重要な問題の1つは、回復保証に必要な一様ランダムなサンプルエントリの数である。 本論文の主な目的は、$n_1 \times n_2 \times n_3$ third-order tensor completion を研究し、$n_3$ low-rank $n_1$-by-$n_2$ matrix slices の非コヒーレンス条件を、$n_3$-dimension に沿ってユニタリ変換を適用した変換テンソル特異値分解の下で検討することである。 そのような低ランクテンソルは、ランダムに観測された成分の数が次数$O( r\max \{n_1, n_2 \} \log ( \max \{n_1, n_2 \} n_3))$である場合、高い確率で復元可能である。 合成データと画像データセットを用いて, 有効不整合条件下で理論結果が得られることを示すとともに, 提案手法のテンソル完了性能は, サンプルサイズ要件の観点からも既存の手法よりも優れていることを示した。

One of the key problems in tensor completion is the number of uniformly random sample entries required for recovery guarantee. The main aim of this paper is to study $n_1 \times n_2 \times n_3$ third-order tensor completion and investigate into incoherence conditions of $n_3$ low-rank $n_1$-by-$n_2$ matrix slices under the transformed tensor singular value decomposition where the unitary transformation is applied along $n_3$-dimension. We show that such low-rank tensors can be recovered exactly with high probability when the number of randomly observed entries is of order $O( r\max \{n_1, n_2 \} \log ( \max \{ n_1, n_2 \} n_3))$, where $r$ is the sum of the ranks of these $n_3$ matrix slices in the transformed tensor. By utilizing synthetic data and imaging data sets, we demonstrate that the theoretical result can be obtained under valid incoherence conditions, and the tensor completion performance of the proposed method is also better than that of existing methods in terms of sample sizes requirement.
翻訳日:2021-05-06 10:04:46 公開日:2020-12-16
# (参考訳) 生成逆ネットワーク上の潜在空間条件付け [全文訳有]

Latent Space Conditioning on Generative Adversarial Networks ( http://arxiv.org/abs/2012.08803v1 )

ライセンス: CC BY 4.0
Ricard Durall, Kalun Ho, Franz-Josef Pfreundt and Janis Keuper(参考訳) 生成的逆ネットワークは、学習された合成画像生成に対する芸術的アプローチの現状である。 初期の成功は、ほとんど教師なしのものだったが、ラベル付きデータに基づくアプローチに取って代わられた。 これらの教師付き手法により、出力画像のよりきめ細かい制御が可能となり、柔軟性と安定性が向上する。 それでも、そのようなモデルの主な欠点は、注釈付きデータが必要であることである。 本研究では,敵対的学習と表現学習という2つの一般的な学習手法の恩恵を受ける新しい枠組みを導入し,教師なし条件付きGANへの一歩を踏み出した。 特に,提案手法は潜在空間の構造(表現学習によって学習される)を利用して生成モデルを条件付けする。 このようにして、条件とラベルの間の従来の依存関係を分解し、後者を潜在空間から来る教師なしの特徴に置き換える。 最後に,この新しい手法は,監視対象の品質を維持しながら,オンデマンドでサンプルを生成できることを実証する。

Generative adversarial networks are the state of the art approach towards learned synthetic image generation. Although early successes were mostly unsupervised, bit by bit, this trend has been superseded by approaches based on labelled data. These supervised methods allow a much finer-grained control of the output image, offering more flexibility and stability. Nevertheless, the main drawback of such models is the necessity of annotated data. In this work, we introduce an novel framework that benefits from two popular learning techniques, adversarial training and representation learning, and takes a step towards unsupervised conditional GANs. In particular, our approach exploits the structure of a latent space (learned by the representation learning) and employs it to condition the generative model. In this way, we break the traditional dependency between condition and label, substituting the latter by unsupervised features coming from the latent space. Finally, we show that this new technique is able to produce samples on demand keeping the quality of its supervised counterpart.
翻訳日:2021-05-06 09:11:54 公開日:2020-12-16
# (参考訳) 繰り返しニューラルネットワークと対向領域適応を用いたsEMGセンサデータからの連続ジェスチャー認識 [全文訳有]

Continuous Gesture Recognition from sEMG Sensor Data with Recurrent Neural Networks and Adversarial Domain Adaptation ( http://arxiv.org/abs/2012.08816v1 )

ライセンス: CC BY 4.0
Ivan Sosin, Daniel Kudenko, and Aleksei Shpilman(参考訳) 人工肢の運動制御は近年大きな進歩を遂げている。 新たなセンサと制御技術により、手足の機能と有用性が強化され、握りなどの複雑な動きを限られた範囲で行うことが可能になった。 これまで、最も成功した結果は、recurrent neural networks (rnn)を適用することで達成された。 しかし、人工手の分野では、これまでの実験は非移動式手首に限られており、義肢の機能を大幅に低下させる。 本稿では,携帯型手首と非モバイル型手首を用いたジェスチャー認識における経験的結果を初めて提示する。 さらに、腕の筋肉から電磁波を検知するアームバンド(表面筋電図またはsEMG)のデータに基づいて、ジェスチャー認識精度において、単純なリカレントユニット(SRU)によるリカレントニューラルネットワークが通常のRNNより優れていることを示す。 最後に,rnnを用いた連続的なジェスチャ認識にドメイン適応技術を加えることで,被験者間の伝達能力が向上することを示す。

Movement control of artificial limbs has made big advances in recent years. New sensor and control technology enhanced the functionality and usefulness of artificial limbs to the point that complex movements, such as grasping, can be performed to a limited extent. To date, the most successful results were achieved by applying recurrent neural networks (RNNs). However, in the domain of artificial hands, experiments so far were limited to non-mobile wrists, which significantly reduces the functionality of such prostheses. In this paper, for the first time, we present empirical results on gesture recognition with both mobile and non-mobile wrists. Furthermore, we demonstrate that recurrent neural networks with simple recurrent units (SRU) outperform regular RNNs in both cases in terms of gesture recognition accuracy, on data acquired by an arm band sensing electromagnetic signals from arm muscles (via surface electromyography or sEMG). Finally, we show that adding domain adaptation techniques to continuous gesture recognition with RNN improves the transfer ability between subjects, where a limb controller trained on data from one person is used for another person.
翻訳日:2021-05-06 08:59:28 公開日:2020-12-16
# (参考訳) 細胞内微小管ネットワークの顕微鏡画像を用いた細胞分類の深層学習 [全文訳有]

Deep Learning of Cell Classification using Microscope Images of Intracellular Microtubule Networks ( http://arxiv.org/abs/2012.12125v1 )

ライセンス: CC BY 4.0
Aleksei Shpilman, Dmitry Boikiy, Marina Polyakova, Daniel Kudenko, Anton Burakov and Elena Nadezhdina(参考訳) マイクロタブールネットワーク(MT)は、様々な化学物質の存在を示すことができる細胞の構成要素であり、治療抵抗性などの特性を認識するために用いられる。 したがって,MT画像の分類は細胞診断に極めて重要である。 ヒトの専門家は、細胞の化合物曝露のレベルを認識するのが特に難しいと考えている。 自動化技術による精度の向上は、細胞療法に大きな影響を与える。 本稿では, 深層学習をMT画像分類に適用し, 化学薬品に3度曝露した動物細胞の大規模なMT画像データセット上で評価する。 その結果、学習した深層ネットワークは、人間の専門家よりも、対応する細胞分類タスクにおいて同等以上の性能を発揮することが示された。 具体的には、異なるレベルの化学物質曝露を認識するタスクは、ニューラルネットワークによって人間の専門家よりはるかにうまく処理できることを示す。

Microtubule networks (MTs) are a component of a cell that may indicate the presence of various chemical compounds and can be used to recognize properties such as treatment resistance. Therefore, the classification of MT images is of great relevance for cell diagnostics. Human experts find it particularly difficult to recognize the levels of chemical compound exposure of a cell. Improving the accuracy with automated techniques would have a significant impact on cell therapy. In this paper we present the application of Deep Learning to MT image classification and evaluate it on a large MT image dataset of animal cells with three degrees of exposure to a chemical agent. The results demonstrate that the learned deep network performs on par or better at the corresponding cell classification task than human experts. Specifically, we show that the task of recognizing different levels of chemical agent exposure can be handled significantly better by the neural network than by human experts.
翻訳日:2021-05-06 08:51:11 公開日:2020-12-16
# (参考訳) 人群を通したロボットナビゲーションのための機械学習手法の比較評価 [全文訳有]

A comparative evaluation of machine learning methods for robot navigation through human crowds ( http://arxiv.org/abs/2012.08822v1 )

ライセンス: CC BY 4.0
Anastasia Gaydashenko, Daniel Kudenko, Aleksei Shpilman(参考訳) 群衆を通したロボットナビゲーションは、高速で効率的な動きをもたらすが、同時に安全性を損なうことは許されないため、AIシステムにとって難しい課題である。 これまでのほとんどのアプローチは、歩行者歩行予測のためのパスフィニングアルゴリズムと機械学習の組み合わせに焦点を当てていた。 近年,研究文献に強化学習技術が提案されている。 本稿では,ニューヨークのグランド・セントラル駅で撮影された監視映像から収集した群集運動データを用いて,パスファインディング・予測・強化学習手法の比較評価を行う。 その結果, パスフィンディングに対する最先端の強化学習手法と, 最先端の行動予測手法との強い優位性を示した。

Robot navigation through crowds poses a difficult challenge to AI systems, since the methods should result in fast and efficient movement but at the same time are not allowed to compromise safety. Most approaches to date were focused on the combination of pathfinding algorithms with machine learning for pedestrian walking prediction. More recently, reinforcement learning techniques have been proposed in the research literature. In this paper, we perform a comparative evaluation of pathfinding/predicti on and reinforcement learning approaches on a crowd movement dataset collected from surveillance videos taken at Grand Central Station in New York. The results demonstrate the strong superiority of state-of-the-art reinforcement learning approaches over pathfinding with state-of-the-art behaviour prediction techniques.
翻訳日:2021-05-06 08:42:52 公開日:2020-12-16
# (参考訳) 映像データからの潜在的リワードシェーピングとデモによる実行学習 [全文訳有]

Learning to Run with Potential-Based Reward Shaping and Demonstrations from Video Data ( http://arxiv.org/abs/2012.08824v1 )

ライセンス: CC BY 4.0
Aleksandra Malysheva, Daniel Kudenko, Aleksei Shpilman(参考訳) nips 2017の"learning to run"コンペティションで示されているように、ヒューマノイドロボットをスクラッチから効率的に動作させるための学習は難しい問題である。 この競技の目的は、最大速度でシミュレートされたレースコースを走るヒューマノイドボディの2本足のモデルを訓練することであった。 すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。 本稿では,人間の動画(例えば,動画)からのデータについて述べる。 youtubeから引用)は、ヒューマノイド学習エージェントの報酬を形作り、学習をスピードアップさせ、より良い結果を生み出すために使用できる。 具体的には、鍵体部分の位置を一定時間間隔で使用して、ポテンシャルベース報酬形成(PBRS)のポテンシャル関数を定義する。 PBRSは最適なポリシーを変更しないため、このアプローチにより、RLエージェントはビデオで示されている人間の動きの準最適性を克服することができる。 我々は,nipsコンペティションにおけるトップ10アプローチから選択した手法と,ベースラインとして高性能エージェントを作成するためのさらなる最適化を組み合わせる実験を行った。 そして、ビデオベースの報酬形成によってさらにパフォーマンスが向上し、12時間のトレーニングでベースラインの2倍の速度でRLエージェントが実行されることを示す。 さらに,本手法は,動画のランニングエージェントよりも学習ポリシーが優れており,映像の準最適ランニング動作を克服できることを示す。

Learning to produce efficient movement behaviour for humanoid robots from scratch is a hard problem, as has been illustrated by the "Learning to run" competition at NIPS 2017. The goal of this competition was to train a two-legged model of a humanoid body to run in a simulated race course with maximum speed. All submissions took a tabula rasa approach to reinforcement learning (RL) and were able to produce relatively fast, but not optimal running behaviour. In this paper, we demonstrate how data from videos of human running (e.g. taken from YouTube) can be used to shape the reward of the humanoid learning agent to speed up the learning and produce a better result. Specifically, we are using the positions of key body parts at regular time intervals to define a potential function for potential-based reward shaping (PBRS). Since PBRS does not change the optimal policy, this approach allows the RL agent to overcome sub-optimalities in the human movements that are shown in the videos. We present experiments in which we combine selected techniques from the top ten approaches from the NIPS competition with further optimizations to create an high-performing agent as a baseline. We then demonstrate how video-based reward shaping improves the performance further, resulting in an RL agent that runs twice as fast as the baseline in 12 hours of training. We furthermore show that our approach can overcome sub-optimal running behaviour in videos, with the learned policy significantly outperforming that of the running agent from the video.
翻訳日:2021-05-06 08:36:13 公開日:2020-12-16
# (参考訳) 生体エンティティリンクのための軽量ニューラルネットワークモデル [全文訳有]

A Lightweight Neural Model for Biomedical Entity Linking ( http://arxiv.org/abs/2012.08844v1 )

ライセンス: CC BY 4.0
Lihu Chen, Ga\"el Varoquaux, Fabian M. Suchanek(参考訳) バイオメディカルエンティティリンク(biomedical entity link)は、病気や薬物などの生体医学的な言及を、与えられた知識ベースにおける標準的な実体にマッピングすることを目的としている。 この文脈における特定の課題は、同じ生物医学的実体が、同義語、形態的変異、異なる語順を持つ名前など、幅広い名前を持つことができることである。 近年,BERTに基づく手法は,単語列の表現をリッチにすることで最先端の手法が進歩している。 しかし、それらはしばしば数億のパラメータを持ち、重い計算リソースを必要とするため、リソース制限のシナリオでアプリケーションを制限する。 本稿では,bertモデルのパラメータのほんの一部しか必要とせず,計算資源もはるかに少ない生体エンティティリンクのための軽量ニューラルネットワークを提案する。 本手法では,アライメント層とアライメント機構を用いて参照とエンティティ名の違いをキャプチャする。 しかし,本モデルは,従来の標準評価ベンチマークと競合することを示した。

Biomedical entity linking aims to map biomedical mentions, such as diseases and drugs, to standard entities in a given knowledge base. The specific challenge in this context is that the same biomedical entity can have a wide range of names, including synonyms, morphological variations, and names with different word orderings. Recently, BERT-based methods have advanced the state-of-the-art by allowing for rich representations of word sequences. However, they often have hundreds of millions of parameters and require heavy computing resources, which limits their applications in resource-limited scenarios. Here, we propose a lightweight neural method for biomedical entity linking, which needs just a fraction of the parameters of a BERT model and much less computing resources. Our method uses a simple alignment layer with attention mechanisms to capture the variations between mention and entity names. Yet, we show that our model is competitive with previous work on standard evaluation benchmarks.
翻訳日:2021-05-06 08:27:07 公開日:2020-12-16
# (参考訳) 最適ニューラルネットワークの蒸留: 拡散空間における高速探索 [全文訳有]

Distilling Optimal Neural Networks: Rapid Search in Diverse Spaces ( http://arxiv.org/abs/2012.08859v1 )

ライセンス: CC BY 4.0
Bert Moons, Parham Noorzad, Andrii Skliar, Giovanni Mariani, Dushyant Mehta, Chris Lott, Tijmen Blankevoort(参考訳) DONNA(Distilling Optimal Neural Network Architectures)は、複数の異なるハードウェアプラットフォームとユーザシナリオをターゲットにした、高速なニューラルネットワーク検索と検索空間探索のための新しいパイプラインである。 DONNAでは、探索は3つのフェーズで構成される。 まず, ブロックワイド知識蒸留を用いて, 多様な探索空間に対して精度予測器を構築する。 この予測器は、レイヤタイプ、アテンション機構、チャネル幅などの様々なマクロアーキテクチャネットワークパラメータを探索し、ブロックリピート、カーネルサイズ、拡張レートなどのマイクロアーキテクチャパラメータを探索することができる。 第二に、急激な進化的探索フェーズは、予測器とデバイス上の測定値を用いて、あらゆるシナリオの精度とレイテンシの観点から、パレート最適化アーキテクチャの集合を見つける。 第3に、パレート最適モデルは、完全精度で迅速に微調整できる。 このアプローチでは、donnaは芸術の状態を上回っているアーキテクチャを見つける。 ImageNet分類では、DONNAが発見したアーキテクチャはNvidia V100 GPUのEfficientNet-B0やMobileNetV2より20%高速で、Samsung S20スマートフォンのMobileNetV2-1.4xより10%高速で0.5%高速である。 ニューラルネットワーク検索に加えて、DONNAは検索空間探索やハードウェア対応モデル圧縮にも使用されている。

This work presents DONNA (Distilling Optimal Neural Network Architectures), a novel pipeline for rapid neural architecture search and search space exploration, targeting multiple different hardware platforms and user scenarios. In DONNA, a search consists of three phases. First, an accuracy predictor is built for a diverse search space using blockwise knowledge distillation. This predictor enables searching across diverse macro-architectural network parameters such as layer types, attention mechanisms, and channel widths, as well as across micro-architectural parameters such as block repeats, kernel sizes, and expansion rates. Second, a rapid evolutionary search phase finds a Pareto-optimal set of architectures in terms of accuracy and latency for any scenario using the predictor and on-device measurements. Third, Pareto-optimal models can be quickly finetuned to full accuracy. With this approach, DONNA finds architectures that outperform the state of the art. In ImageNet classification, architectures found by DONNA are 20% faster than EfficientNet-B0 and MobileNetV2 on a Nvidia V100 GPU at similar accuracy and 10% faster with 0.5% higher accuracy than MobileNetV2-1.4x on a Samsung S20 smartphone. In addition to neural architecture search, DONNA is used for search-space exploration and hardware-aware model compression.
翻訳日:2021-05-06 08:12:43 公開日:2020-12-16
# (参考訳) 5G V2X通信におけるNLOSミリ波の機械学習アルゴリズム [全文訳有]

Machine Learning Algorithm for NLOS Millimeter Wave in 5G V2X Communication ( http://arxiv.org/abs/2012.12123v1 )

ライセンス: CC BY 4.0
Deepika Mohan, G.G.Md.Nawaz Ali, Peter Han Joo Chong(参考訳) 自律・半自律運転のための5G車両間通信(V2X)は無線通信技術を利用しており、ミリ波帯はこの種の車載ネットワークアプリケーションで広く実装されている。 本研究の目的は,mmWave基地局からLOS(Line-of-sight)とNLOS(Non-LOS)の車両にメッセージを送信することである。 機械学習(RML)アルゴリズムを使用したリレーは、そのカバレッジ領域内のブロックを特定するためにmmBSをトレーニングし、LOSノードをリレーとしてNLOSの車両にメッセージをブロードキャストする。 情報伝送は高いスループットで高速化され、再利用される広い帯域幅をカバーしているため、NLOSのほとんどの車両は、mBSのカバー範囲内で機械学習を行うことができる。 NLOSの移動ノードと通信するために,独自のリレー機構と機械学習を組み合わせる方法を提案する。

The 5G vehicle-to-everythin g (V2X) communication for autonomous and semi-autonomous driving utilizes the wireless technology for communication and the Millimeter Wave bands are widely implemented in this kind of vehicular network application. The main purpose of this paper is to broadcast the messages from the mmWave Base Station to vehicles at LOS (Line-of-sight) and NLOS (Non-LOS). Relay using Machine Learning (RML) algorithm is formulated to train the mmBS for identifying the blockages within its coverage area and broadcast the messages to the vehicles at NLOS using a LOS nodes as a relay. The transmission of information is faster with higher throughput and it covers a wider bandwidth which is reused, therefore when performing machine learning within the coverage area of mmBS most of the vehicles in NLOS can be benefited. A unique method of relay mechanism combined with machine learning is proposed to communicate with mobile nodes at NLOS.
翻訳日:2021-05-06 07:48:11 公開日:2020-12-16
# (参考訳) 商品選択重量と逆順序割当に基づく旅行泥棒問題の解法 [全文訳有]

Solving the Travelling Thief Problem based on Item Selection Weight and Reverse Order Allocation ( http://arxiv.org/abs/2012.08888v1 )

ライセンス: CC BY 4.0
Lei Yang, Zitong Zhang, Xiaotian Jia, Peipei Kang, Wensheng Zhang, Dongya Wang(参考訳) トラベリング・ティーフ問題(TTP)は、多くの学者を惹きつける組合せ最適化問題である。 TTPは、トラベルセールスマン問題(TSP)と0-1クナップサック問題(KP)の2つのよく知られたNPハード問題を相互接続している。 2つの相互依存サブプロブレムを組み合わせた新しい問題の解法が提案されている。 本稿では,TTPを理論的,実証的に検討する。 提案手法は,提案手法によって算出されたスコア値に基づいて,スコア値に照らして,逆順にアイテムを並べ替える手法を提案する。 実験により,提案手法はベンチマークTTPインスタンスの総合的なセット上で,現在の最先端のヒューリスティックソリューションに適合あるいは打ち勝つ上で極めて効率的であることが示唆された。

The Travelling Thief Problem (TTP) is a challenging combinatorial optimization problem that attracts many scholars. The TTP interconnects two well-known NP-hard problems: the Travelling Salesman Problem (TSP) and the 0-1 Knapsack Problem (KP). Increasingly algorithms have been proposed for solving this novel problem that combines two interdependent sub-problems. In this paper, TTP is investigated theoretically and empirically. An algorithm based on the score value calculated by our proposed formulation in picking items and sorting items in the reverse order in the light of the scoring value is proposed to solve the problem. Different approaches for solving the TTP are compared and analyzed; the experimental investigations suggest that our proposed approach is very efficient in meeting or beating current state-of-the-art heuristic solutions on a comprehensive set of benchmark TTP instances.
翻訳日:2021-05-04 13:29:43 公開日:2020-12-16
# (参考訳) ReINTEL: ソーシャルネットワーク上での応答性情報識別のためのマルチモーダルデータチャレンジ

ReINTEL: A Multimodal Data Challenge for Responsible Information Identification on Social Network Sites ( http://arxiv.org/abs/2012.08895v1 )

ライセンス: CC BY 4.0
Duc-Trong Le, Xuan-Son Vu, Nhu-Dung To, Huu-Quang Nguyen, Thuy-Trinh Nguyen, Linh Le, Anh-Tuan Nguyen, Minh-Duc Hoang, Nghia Le, Huyen Nguyen and Hoang D. Nguyen(参考訳) 本稿では,ベトナム語・音声処理に関する第7回年次ワークショップ(VLSP 2020)で開催されているソーシャルネットワーク上でのReINTEL Shared Task for Responsible Information Identificationについて報告する。 各テキスト、ビジュアルコンテンツ、メタデータを含むニュースが与えられた場合、参加者はニュースが「信頼性」か「信頼できない」かを分類する必要がある。 公平なベンチマークを生成するために,ベトナムのソーシャルネットワークから収集された1万以上のニュースの,人間の注釈付きデータセットを紹介する。 全てのモデルは、分類の典型的な評価指標であるAUC-ROCスコアで評価される。 コンペはcodalabプラットフォームで行われた。 2ヶ月以内に60人以上の参加者を集め、1000人近い応募者を記録した。

This paper reports on the ReINTEL Shared Task for Responsible Information Identification on social network sites, which is hosted at the seventh annual workshop on Vietnamese Language and Speech Processing (VLSP 2020). Given a piece of news with respective textual, visual content and metadata, participants are required to classify whether the news is `reliable' or `unreliable'. In order to generate a fair benchmark, we introduce a novel human-annotated dataset of over 10,000 news collected from a social network in Vietnam. All models will be evaluated in terms of AUC-ROC score, a typical evaluation metric for classification. The competition was run on the Codalab platform. Within two months, the challenge has attracted over 60 participants and recorded nearly 1,000 submission entries.
翻訳日:2021-05-04 13:12:41 公開日:2020-12-16
# (参考訳) 統計的推論のためのパターン分類問題と一般線形モデルとの接続 [全文訳有]

A connection between the pattern classification problem and the General Linear Model for statistical inference ( http://arxiv.org/abs/2012.08903v1 )

ライセンス: CC BY 4.0
Juan Manuel Gorriz and SIPBA group and John Suckling(参考訳) 本稿では,一般線形モデル(GLM)と古典的統計的推論と機械学習(MLE)に基づく推論との接続について述べる。 第一に、glmパラメータの推定は、インジケータ行列の線形回帰モデル(lrm)、すなわち、観測を後退させる逆問題として表現される。 言い換えれば、どちらのアプローチもそうである。 GLM と LRM は異なる領域、観測領域、ラベル領域に適用され、最小二乗解の正規化値でリンクされる。 この関係から、より洗練された予測アルゴリズムに基づく統計的テスト、すなわち、導出する。 置換解析において、分離のクラスマージンを最大化する(非)線形サポートベクターマシン(svm)。 mleに基づく推論は、残差スコアを採用し、実際の(実)エラーのより良い推定を計算するための上限を含んでいる。 実験により,各モデルから導出したパラメータ推定が等価逆問題において異なる分類性能をもたらすことを示す。 さらに, 実データを用いて, モデルフリー推定器を含む置換試験における予測アルゴリズムは, I型誤差と統計的パワーとの間によいトレードオフを与えることができる。

A connection between the General Linear Model (GLM) in combination with classical statistical inference and the machine learning (MLE)-based inference is described in this paper. Firstly, the estimation of the GLM parameters is expressed as a Linear Regression Model (LRM) of an indicator matrix, that is, in terms of the inverse problem of regressing the observations. In other words, both approaches, i.e. GLM and LRM, apply to different domains, the observation and the label domains, and are linked by a normalization value at the least-squares solution. Subsequently, from this relationship we derive a statistical test based on a more refined predictive algorithm, i.e. the (non)linear Support Vector Machine (SVM) that maximizes the class margin of separation, within a permutation analysis. The MLE-based inference employs a residual score and includes the upper bound to compute a better estimation of the actual (real) error. Experimental results demonstrate how the parameter estimations derived from each model resulted in different classification performances in the equivalent inverse problem. Moreover, using real data the aforementioned predictive algorithms within permutation tests, including such model-free estimators, are able to provide a good trade-off between type I error and statistical power.
翻訳日:2021-05-04 13:11:50 公開日:2020-12-16
# (参考訳) r$^2$-net:文意味マッチングのための関係学習ネットワークの関係性 [全文訳有]

R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic Matching ( http://arxiv.org/abs/2012.08920v1 )

ライセンス: CC BY 4.0
Kun Zhang, Le Wu, Guangyi Lv, Meng Wang, Enhong Chen, Shulan Ruan(参考訳) 文の意味マッチングは自然言語処理における基本的なタスクの1つであり、エージェントは入力文間の意味関係を決定する必要がある。 近年、深層ニューラルネットワークはこの分野、特にBERTで顕著なパフォーマンスを達成している。 これらのモデルの有効性にもかかわらず、その多くは出力ラベルを意味のない1つのホットベクターとして扱い、それらのラベルが示す意味的情報や関係のガイダンスを過小評価している。 この問題を解決するために,文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。 具体的には、まずBERTを用いて、グローバルな視点から入力文を符号化する。 次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。 本稿では,関係情報の抽出にラベルを十分に活用するために,r2-netを誘導するための関係分類タスクの自己教師付き関係を導入する。 一方、より細かい粒度でクラス内およびクラス間関係を区別するために三重項損失が用いられる。 2文意味マッチングタスクの実証実験により,提案モデルの有効性が示された。 副産物として、我々は他の研究を促進するためのコードをリリースした。

Sentence semantic matching is one of the fundamental tasks in natural language processing, which requires an agent to determine the semantic relation among input sentences. Recently, deep neural networks have achieved impressive performance in this area, especially BERT. Despite the effectiveness of these models, most of them treat output labels as meaningless one-hot vectors, underestimating the semantic information and guidance of relations that these labels reveal, especially for tasks with a small number of labels. To address this problem, we propose a Relation of Relation Learning Network (R2-Net) for sentence semantic matching. Specifically, we first employ BERT to encode the input sentences from a global perspective. Then a CNN-based encoder is designed to capture keywords and phrase information from a local perspective. To fully leverage labels for better relation information extraction, we introduce a self-supervised relation of relation classification task for guiding R2-Net to consider more about labels. Meanwhile, a triplet loss is employed to distinguish the intra-class and inter-class relations in a finer granularity. Empirical experiments on two sentence semantic matching tasks demonstrate the superiority of our proposed model. As a byproduct, we have released the codes to facilitate other researches.
翻訳日:2021-05-04 12:56:59 公開日:2020-12-16
# (参考訳) 物理的不可避関数との秘密鍵合意 - 最適性の概要 [全文訳有]

Secret Key Agreement with Physical Unclonable Functions: An Optimality Summary ( http://arxiv.org/abs/2012.08924v1 )

ライセンス: CC BY 4.0
Onur G\"unl\"u and Rafael F. Schaefer(参考訳) 我々は、認証、識別、メッセージ暗号化/復号化、安全な計算のために秘密鍵が生成される情報理論的最適性の観点から、デジタルデバイスと生体認証のセキュリティとプライバシーの問題に対処する。 物理的非拘束機能(PUF)はデジタルデバイスにおけるローカルセキュリティのための有望なソリューションであり、このレビューは、最適なPUF構築に興味がある情報理論家、コーディング理論家、信号処理コミュニティメンバーに最も関連性の高い概要を提供する。 本稿では,情報理論解析のための変換符号化などの低複雑さ信号処理手法について論じる。 複数のPUF測定のためのシークレットキー、プライバシ推論、ストレージレートの最適なトレードオフが与えられる。 ベクトル量子化器と誤り訂正符号パラメータを共同で設計する最適符号構成を提案する。 これらの構成には、極符号や畳み込み符号のような近代的および代数的符号が含まれており、どちらも少数のPUF回路に対応する短いブロック長で小さなブロックエラー確率を達成することができる。 PUFの文献において、信号処理、情報理論、コーディング理論、ハードウェア複雑性の観点からのオープンな問題とその組み合わせは、ローカルプライバシとセキュリティの研究のさらなる進歩を促進するためにリストされている。

We address security and privacy problems for digital devices and biometrics from an information-theoreti c optimality perspective, where a secret key is generated for authentication, identification, message encryption/decryptio n, or secure computations. A physical unclonable function (PUF) is a promising solution for local security in digital devices and this review gives the most relevant summary for information theorists, coding theorists, and signal processing community members who are interested in optimal PUF constructions. Low-complexity signal processing methods such as transform coding that are developed to make the information-theoreti c analysis tractable are discussed. The optimal trade-offs between the secret-key, privacy-leakage, and storage rates for multiple PUF measurements are given. Proposed optimal code constructions that jointly design the vector quantizer and error-correction code parameters are listed. These constructions include modern and algebraic codes such as polar codes and convolutional codes, both of which can achieve small block-error probabilities at short block lengths, corresponding to a small number of PUF circuits. Open problems in the PUF literature from a signal processing, information theory, coding theory, and hardware complexity perspectives and their combinations are listed to stimulate further advancements in the research on local privacy and security.
翻訳日:2021-05-04 12:40:42 公開日:2020-12-16
# (参考訳) SimuGAN:LIDARカメラの教師なし前方モデリングと最適設計 [全文訳有]

SimuGAN: Unsupervised forward modeling and optimal design of a LIDAR Camera ( http://arxiv.org/abs/2012.08951v1 )

ライセンス: CC BY 4.0
Nir Diamant and Tal Mund and Ohad Menashe and Aviad Zabatani and Alex M. Bronstein(参考訳) 短距離用省エネルギーlidarカメラは、時間的強度符号化レーザ光パルスを用いて物体の距離を推定し、後方散乱パルスとの最大相関を計算する。 低電力では、バックス散乱パルスはノイズと不安定であり、不正確で信頼性の低い深さ推定に繋がる。 この問題に対処するために、私たちは2つのニューラルネットワークであるGAN(Generative Adversarial Networks)を使用します。 lidarカメラの隠れた特性と動作を学習し、カメラをシミュレートする新しい教師なしのフォワードモデルを作成しました。 次に,モデルの微分可能性を用いてカメラパラメータ空間を探索し,そのパラメータを深さ,精度,安定性の観点から最適化する。 また,この目的を達成するために,後方散乱コード分布の弱点とその円形挙動に指定された新たなカスタム損失関数を提案する。 結果は合成データと実データの両方で示される。

Energy-saving LIDAR camera for short distances estimates an object's distance using temporally intensity-coded laser light pulses and calculates the maximum correlation with the back-scattered pulse. Though on low power, the backs-scattered pulse is noisy and unstable, which leads to inaccurate and unreliable depth estimation. To address this problem, we use GANs (Generative Adversarial Networks), which are two neural networks that can learn complicated class distributions through an adversarial process. We learn the LIDAR camera's hidden properties and behavior, creating a novel, fully unsupervised forward model that simulates the camera. Then, we use the model's differentiability to explore the camera parameter space and optimize those parameters in terms of depth, accuracy, and stability. To achieve this goal, we also propose a new custom loss function designated to the back-scattered code distribution's weaknesses and its circular behavior. The results are demonstrated on both synthetic and real data.
翻訳日:2021-05-04 12:11:52 公開日:2020-12-16
# (参考訳) eコマースにおけるマルチスセナリオレコメンデーションのシナリオ認識と相互ベースアプローチ [全文訳有]

Scenario-aware and Mutual-based approach for Multi-scenario Recommendation in E-Commerce ( http://arxiv.org/abs/2012.08952v1 )

ライセンス: CC BY 4.0
Yuting Chen, Yanshi Wang, Yabo Ni, An-Xiang Zeng and Lanfen Lin(参考訳) リコメンダシステム(RS)は、ユーザの膨大なニーズを満たすために、Eコマースプラットフォームにとって不可欠である。 ユーザの興味を捉えて、異質なeコマースシナリオでユーザに対して正確な推奨を行うには、依然として研究課題である。 プラットフォームから収集されたログデータは、自然に異なるシナリオ(例えば、国、都市、文化)に分割することができる。 シナリオが不均一であることは,両者の相違が大きいためである。 したがって、複数のシナリオ間の複雑な相関(例えば、相違点や類似点)を効果的に捉えるのが難しいため、推奨結果の精度が著しく低下する。 本稿では,eコマースにおけるマルチスセナリオ推薦の問題を対象とし,複数のシナリオ間の差異と類似性を活用した新しいシナリオ認識相互学習(saml)を提案する。 まず,組み込みモジュールとアテンションモジュールを変換して,機能をグローバルおよびシナリオ固有のサブスペースに並列にマップする,シナリオ認識機能表現を導入する。 次に,すべてのシナリオで共有知識をモデル化する補助ネットワークを導入し,マルチブランチネットワークを用いて特定のシナリオ間の差異をモデル化する。 最後に,様々なシナリオ間の類似性を適応的に学習し,マルチブランチネットワークに組み込むために,新たな相互ユニットを用いる。 公立および工業用両方のデータセットに対して広範な実験を行い、SAMLが一貫して、最先端の手法よりも著しく優れていることを示す実証実験を行った。

Recommender systems (RSs) are essential for e-commerce platforms to help meet the enormous needs of users. How to capture user interests and make accurate recommendations for users in heterogeneous e-commerce scenarios is still a continuous research topic. However, most existing studies overlook the intrinsic association of the scenarios: the log data collected from platforms can be naturally divided into different scenarios (e.g., country, city, culture). We observed that the scenarios are heterogeneous because of the huge differences among them. Therefore, a unified model is difficult to effectively capture complex correlations (e.g., differences and similarities) between multiple scenarios thus seriously reducing the accuracy of recommendation results. In this paper, we target the problem of multi-scenario recommendation in e-commerce, and propose a novel recommendation model named Scenario-aware Mutual Learning (SAML) that leverages the differences and similarities between multiple scenarios. We first introduce scenario-aware feature representation, which transforms the embedding and attention modules to map the features into both global and scenario-specific subspace in parallel. Then we introduce an auxiliary network to model the shared knowledge across all scenarios, and use a multi-branch network to model differences among specific scenarios. Finally, we employ a novel mutual unit to adaptively learn the similarity between various scenarios and incorporate it into multi-branch network. We conduct extensive experiments on both public and industrial datasets, empirical results show that SAML consistently and significantly outperforms state-of-the-art methods.
翻訳日:2021-05-04 12:00:50 公開日:2020-12-16
# (参考訳) 履歴依存マニピュレーションのための視覚的接地指導 [全文訳有]

Visually Grounding Instruction for History-Dependent Manipulation ( http://arxiv.org/abs/2012.08977v1 )

ライセンス: CC BY 4.0
Hyemin Ahn, Obin Kwon, Kyoungdo Kim, Dongheui Lee, Songhwai Oh(参考訳) 本稿では,ロボットのタスク履歴を参照する能力の重要性を強調する。 操作履歴を参照することの利点は、(1)詳細を省略する命令、または共参照式を使用する指示を解釈し、(2)以前の操作で無視されたオブジェクトの視覚情報を推測する2つの折り返しに分類することができる。 本稿では,タスク履歴に応じて適切な操作を行うための一連のテキスト命令を視覚的に接地する,履歴依存操作のタスクを紹介する。 また、ディープニューラルネットワークに基づく関連するデータセットと方法論を提案し、CycleGANに基づく合成スタイルに変換された画像に基づいて、合成データセットでトレーニングされたネットワークを現実世界に適用可能であることを示す。

This paper emphasizes the importance of robot's ability to refer its task history, when it executes a series of pick-and-place manipulations by following text instructions given one by one. The advantage of referring the manipulation history can be categorized into two folds: (1) the instructions omitting details or using co-referential expressions can be interpreted, and (2) the visual information of objects occluded by previous manipulations can be inferred. For this challenge, we introduce the task of history-dependent manipulation which is to visually ground a series of text instructions for proper manipulations depending on the task history. We also suggest a relevant dataset and a methodology based on the deep neural network, and show that our network trained with a synthetic dataset can be applied to the real world based on images transferred into synthetic-style based on the CycleGAN.
翻訳日:2021-05-04 11:46:28 公開日:2020-12-16
# (参考訳) AutoDis: CTR予測に数値的特徴を埋め込むための自動離散化 [全文訳有]

AutoDis: Automatic Discretization for Embedding Numerical Features in CTR Prediction ( http://arxiv.org/abs/2012.08986v1 )

ライセンス: CC BY 4.0
Huifeng Guo, Bo Chen, Ruiming Tang, Zhenguo Li, Xiuqiang He(参考訳) 高度な機能相互作用の学習は、推奨システムにおけるクリックスルーレート(CTR)予測に不可欠である。 様々な深いCTRモデルは、埋め込みとフィーチャーインタラクションのパラダイムに従います。 データと機能インタラクションモジュールのボトルネックとして機能する組み込みモジュールが見過ごされている一方で、機能インタラクションモジュールにおけるネットワークアーキテクチャの設計に重点が置かれている。 数値特徴埋め込みの一般的な方法は正規化と離散化である。 前者はフィールド内特徴に対する単一の埋め込みを共有し、後者は様々な離散化アプローチを通じて特徴を分類形式に変換する。 しかし、第1のアプローチサーファーは低容量であり、第2のアプローチサーファーはCTRモデルの究極のゴールで離散化ルールを最適化できないため、性能も制限する。 本稿では,数値的な特徴を表現するためのギャップを埋めるために,数値場の特徴を自動的に識別し,CTRモデルでエンドツーエンドに最適化するフレームワークであるAutoDisを提案する。 具体的には,フィールド内特徴間の関係をモデル化するメタエンベディングのセットを紹介し,数値特徴とメタエンベディングの相関を捉えるための自動微分可能離散化と集約手法を提案する。 SOTA法に対するAutoDisの有効性を検証するために,2つのパブリックデータセットと1つの産業データセットに関する総合的な実験を行った。

Learning sophisticated feature interactions is crucial for Click-Through Rate (CTR) prediction in recommender systems. Various deep CTR models follow an Embedding & Feature Interaction paradigm. The majority focus on designing network architectures in Feature Interaction module to better model feature interactions while the Embedding module, serving as a bottleneck between data and Feature Interaction module, has been overlooked. The common methods for numerical feature embedding are Normalization and Discretization. The former shares a single embedding for intra-field features and the latter transforms the features into categorical form through various discretization approaches. However, the first approach surfers from low capacity and the second one limits performance as well because the discretization rule cannot be optimized with the ultimate goal of CTR model. To fill the gap of representing numerical features, in this paper, we propose AutoDis, a framework that discretizes features in numerical fields automatically and is optimized with CTR models in an end-to-end manner. Specifically, we introduce a set of meta-embeddings for each numerical field to model the relationship among the intra-field features and propose an automatic differentiable discretization and aggregation approach to capture the correlations between the numerical features and meta-embeddings. Comprehensive experiments on two public and one industrial datasets are conducted to validate the effectiveness of AutoDis over the SOTA methods.
翻訳日:2021-05-04 11:32:21 公開日:2020-12-16
# (参考訳) LiveMap: 自動車エッジコンピューティングにおけるリアルタイム動的マップ [全文訳有]

LiveMap: Real-Time Dynamic Map in Automotive Edge Computing ( http://arxiv.org/abs/2012.10252v1 )

ライセンス: CC BY 4.0
Qiang Liu, Tao Han, Jiang (Linda) Xie, BaekGyu Kim(参考訳) 自律運転は、視覚的閉塞や極端な天候といった様々な環境の不確実性の下で障害を受ける可能性のある環境を知覚するために、様々な視線センサーを必要とする。 運転安全性を向上させるため,自動車エッジコンピューティングネットワークにおいて,接続された車両間で知覚情報を無線で共有することを検討する。 しかし、動的ネットワーク条件と様々な計算ワークロードの下で、大量の知覚データをリアルタイムで共有することは困難である。 本稿では,道路上の物体を検出し,一致し,追跡するリアルタイム動的マップであるLiveMapを提案する。 オブジェクト検出,投影,特徴抽出,オブジェクトマッチングにより個々の車両データを効率的に処理し,複数車両からのオブジェクトとオブジェクトの組み合わせを効果的に統合するLiveMapのデータプレーンを開発した。 我々は,車載計算の適応的オフロードを可能にするLiveMapの制御プレーンを設計し,深部強化学習(DRL)技術に基づく車両のオフロード遅延を低減するインテリジェントな車両スケジューリングおよびオフロードアルゴリズムを開発した。 小型テストベッド上でLiveMapを実装し,大規模ネットワークシミュレータを開発した。 実験とシミュレーションの両方でLiveMapの性能を評価し,結果からベースラインソリューションよりも34.1%平均遅延を低減した。

Autonomous driving needs various line-of-sight sensors to perceive surroundings that could be impaired under diverse environment uncertainties such as visual occlusion and extreme weather. To improve driving safety, we explore to wirelessly share perception information among connected vehicles within automotive edge computing networks. Sharing massive perception data in real time, however, is challenging under dynamic networking conditions and varying computation workloads. In this paper, we propose LiveMap, a real-time dynamic map, that detects, matches, and tracks objects on the road with crowdsourcing data from connected vehicles in sub-second. We develop the data plane of LiveMap that efficiently processes individual vehicle data with object detection, projection, feature extraction, object matching, and effectively integrates objects from multiple vehicles with object combination. We design the control plane of LiveMap that allows adaptive offloading of vehicle computations, and develop an intelligent vehicle scheduling and offloading algorithm to reduce the offloading latency of vehicles based on deep reinforcement learning (DRL) techniques. We implement LiveMap on a small-scale testbed and develop a large-scale network simulator. We evaluate the performance of LiveMap with both experiments and simulations, and the results show LiveMap reduces 34.1% average latency than the baseline solution.
翻訳日:2021-05-04 11:17:16 公開日:2020-12-16
# (参考訳) 識別器から抽出したメタ知識を用いてニューロシンボリックアルゴリズムのインテント認識を改善する [全文訳有]

Using Meta-Knowledge Mined from Identifiers to Improve Intent Recognition in Neuro-Symbolic Algorithms ( http://arxiv.org/abs/2012.09005v1 )

ライセンス: CC BY 4.0
Claudio Pinhanez, Paulo Cavalin, Victor Ribeiro, Heloisa Candello, Julio Nogima, Ana Appel, Mauro Pichiliani, Maira Gatti de Bayser, Melina Guerra, Henrique Ferreira, Gabriel Malfatti(参考訳) 本稿では,会話システムにおける意図認識を改善するために,意図識別子に埋め込まれたメタ知識の利用を検討する。 何千もの現実世界のチャットボットの分析や、プロのチャットボットキュレーターとのインタビューで証明されたように、開発者やドメインの専門家は、プロトタコノミを用いてチャットボットを識別することで、チャットボットの意図を整理する傾向にある。 神経シンボリックアルゴリズムを用いて, インテント表現を拡張するために, インテント認識の精度を向上させることができることを示す。 数百のプロのチャットボットからのインテントやサンプルの発話を含むデータセットでは、メタ知識を持たない同じアルゴリズムのベースラインと比較して、これらのアルゴリズムを適用すると、チャットボットのほぼ3分の1で、同じエラー率(eer)が10%以上向上しました。 メタ知識は、スコープ外発話の検出にさらに関連があることが判明し、チャットボットの約半数において、偽受け入れ率(FAR)を20%以上減少させた。 これらのシンボリックメタ知識構造は神経シンボリックアルゴリズムによって効果的に採掘・利用され、明らかに問題解決の高レベルな構造を学習プロセスに組み込むことによって実現されることが実証された。 これらの結果に基づき,神経シンボリックアルゴリズムにおける知識獲得の課題に対する答えとして,マイニングされたメタ知識の利用について検討する。

In this paper we explore the use of meta-knowledge embedded in intent identifiers to improve intent recognition in conversational systems. As evidenced by the analysis of thousands of real-world chatbots and in interviews with professional chatbot curators, developers and domain experts tend to organize the set of chatbot intents by identifying them using proto-taxonomies, i.e., meta-knowledge connecting high-level, symbolic concepts shared across different intents. By using neuro-symbolic algorithms able to incorporate such proto-taxonomies to expand intent representation, we show that such mined meta-knowledge can improve accuracy in intent recognition. In a dataset with intents and example utterances from hundreds of professional chatbots, we saw improvements of more than 10% in the equal error rate (EER) in almost a third of the chatbots when we apply those algorithms in comparison to a baseline of the same algorithms without the meta-knowledge. The meta-knowledge proved to be even more relevant in detecting out-of-scope utterances, decreasing the false acceptance rate (FAR) in more than 20\% in about half of the chatbots. The experiments demonstrate that such symbolic meta-knowledge structures can be effectively mined and used by neuro-symbolic algorithms, apparently by incorporating into the learning process higher-level structures of the problem being solved. Based on these results, we also discuss how the use of mined meta-knowledge can be an answer for the challenge of knowledge acquisition in neuro-symbolic algorithms.
翻訳日:2021-05-03 13:18:42 公開日:2020-12-16
# (参考訳) Diffeomorphism-Aware K-Meansによる解釈可能な画像クラスタリング [全文訳有]

Interpretable Image Clustering via Diffeomorphism-Aware K-Means ( http://arxiv.org/abs/2012.09743v1 )

ライセンス: CC BY 4.0
Romain Cosentino, Randall Balestriero, Yanis Bahroun, Anirvan Sengupta, Richard Baraniuk, Behnaam Aazhang(参考訳) 画像多様体の非線形構造を考慮した解釈可能なクラスタリングアルゴリズムを設計する。 画像空間に適用した$k$-meansの解釈可能性を利用し,クラスタリング性能の問題に対処した。 具体的には,変形の一般的なクラスである微分同相写像(diffeomorphisms)を包含する画像とセントロイドの類似性の尺度を開発し,それらのクラスタリングを不変にする。 本研究は, 薄板スプライン補間法を応用し, 画像多様体を最もよく特徴づける微分同相写像を効率的に学習する。 大規模な数値シミュレーションにより,本手法は各種データセットの最先端手法と競合することが示された。

We design an interpretable clustering algorithm aware of the nonlinear structure of image manifolds. Our approach leverages the interpretability of $K$-means applied in the image space while addressing its clustering performance issues. Specifically, we develop a measure of similarity between images and centroids that encompasses a general class of deformations: diffeomorphisms, rendering the clustering invariant to them. Our work leverages the Thin-Plate Spline interpolation technique to efficiently learn diffeomorphisms best characterizing the image manifolds. Extensive numerical simulations show that our approach competes with state-of-the-art methods on various datasets.
翻訳日:2021-05-03 10:35:02 公開日:2020-12-16
# (参考訳) Segment CMR ソフトウェアを用いたディープラーニングによる心筋梗塞定量化の検討 [全文訳有]

Evaluation of deep learning-based myocardial infarction quantification using Segment CMR software ( http://arxiv.org/abs/2012.09070v1 )

ライセンス: CC BY 4.0
Olivier Rukundo(参考訳) 本稿では,Segment Cardiovascular magnetic resonance(CMR)ソフトウェアにおける深部学習を用いて,心筋梗塞(MI)の大きさの定量化の自動化に関する予備的作業を評価する。 ここでは, 予測最大化, 重み付け強度, セグメントcmrソフトウェアに組み込まれた事前情報 (ewa) アルゴリズムを用いて, mi サイズの自動定量化を行う前に, 深層学習を用いて心筋境界のセグメント化を自動化する。 MIの大きさを実験的に評価したところ, ネットワークを用いた結果の50%以上(平均梗塞傷量), 75%以上(平均梗塞量), 65%(平均微小血管閉塞率)は, 専門的記述に基づく結果とほぼ一致していた。 また、心筋輪郭と梗塞輪郭の可視化を含む実験では、選択されたスタックの全画像において、ネットワークと専門家による結果が、梗塞および梗塞輪郭の個数で関連付けられる。

In this paper, the author evaluates the preliminary work related to automating the quantification of the size of the myocardial infarction (MI) using deep learning in Segment cardiovascular magnetic resonance (CMR) software. Here, deep learning is used to automate the segmentation of myocardial boundaries before triggering the automatic quantification of the size of the MI using the expectation-maximiza tion, weighted intensity, a priori information (EWA) algorithm incorporated in the Segment CMR software. Experimental evaluation of the size of the MI shows that more than 50 % (average infarct scar volume), 75% (average infarct scar percentage), and 65 % (average microvascular obstruction percentage) of the network-based results are approximately very close to the expert delineation-based results. Also, in an experiment involving the visualization of myocardial and infarct contours, in all images of the selected stack, the network and expert-based results tie in terms of the number of infarcted and contoured images.
翻訳日:2021-05-03 10:10:58 公開日:2020-12-16
# (参考訳) あなたがツイートしているもの:過去のツイートでユーザーをプロファイリングしてヘイトスピーチの検出を改善する [全文訳有]

You Are What You Tweet: Profiling Users by Past Tweets to Improve Hate Speech Detection ( http://arxiv.org/abs/2012.09090v1 )

ライセンス: CC BY 4.0
Prateek Chaudhry and Matthew Lease(参考訳) ヘイトスピーチ検出の研究は、追加の文脈を使わずに、純粋にコンテンツベースの手法に重点を置いている。 我々はこの課題の定式化を簡潔に批判する。 次に,新しい発話がヘイトスピーチであるか否かを予測するために,過去の発話によるユーザを情報として調査する。 これを評価するために、Twitterのヘイトスピーチデータセットを3つ追加のタイムラインデータで拡張し、この追加コンテキストを強力なベースラインモデルに組み込む。 有望な結果はさらなる調査のメリットを示唆するが、分析はアノテーションのスキームやプロセスの違いやtwitter apiの制限、データ共有ポリシーによって複雑である。

Hate speech detection research has predominantly focused on purely content-based methods, without exploiting any additional context. We briefly critique pros and cons of this task formulation. We then investigate profiling users by their past utterances as an informative prior to better predict whether new utterances constitute hate speech. To evaluate this, we augment three Twitter hate speech datasets with additional timeline data, then embed this additional context into a strong baseline model. Promising results suggest merit for further investigation, though analysis is complicated by differences in annotation schemes and processes, as well as Twitter API limitations and data sharing policies.
翻訳日:2021-05-03 10:06:06 公開日:2020-12-16
# (参考訳) メトリクス学習によるディープラーニングの一般化予測 -- PGDL共有タスク [全文訳有]

Predicting Generalization in Deep Learning via Metric Learning -- PGDL Shared task ( http://arxiv.org/abs/2012.09117v1 )

ライセンス: CC BY 4.0
Sebastian Me\v{z}nar and Bla\v{z} \v{S}krlj(参考訳) コンテスト "predicting generalization in deep learning (pgdl)" は、ディープラーニングモデルの一般化に関する厳密な研究のためのプラットフォームの提供と、これらのモデルの理解と説明の進展に関する洞察の提供を目的としている。 本報告では,コンペティションにおいて8位を獲得したユーザ \emph{smeznar} が提示した解を提案する。 提案手法では、単純なメトリクスを作成し、提供されたデータセット上での自動テストと最適な組み合わせを見つけ、入力ニューラルネットワークアーキテクチャの様々な特性の組み合わせが、それらの一般化の予測にどのように役立つかを検討する。

The competition "Predicting Generalization in Deep Learning (PGDL)" aims to provide a platform for rigorous study of generalization of deep learning models and offer insight into the progress of understanding and explaining these models. This report presents the solution that was submitted by the user \emph{smeznar} which achieved the eight place in the competition. In the proposed approach, we create simple metrics and find their best combination with automatic testing on the provided dataset, exploring how combinations of various properties of the input neural network architectures can be used for the prediction of their generalization.
翻訳日:2021-05-03 09:58:20 公開日:2020-12-16
# (参考訳) ソーシャルメディア上での自殺イデオロギー検出を改善するための個人知識グラフの構築と利用 [全文訳有]

Building and Using Personal Knowledge Graph to Improve Suicidal Ideation Detection on Social Media ( http://arxiv.org/abs/2012.09123v1 )

ライセンス: CC BY 4.0
Lei Cao, Huijun Zhang, and Ling Feng(参考訳) 多くの人々が自殺的な考えに苦しんでいます。 個人が自殺的な考えに苦しむ理由には、多くの原因がある。 自己表現、感情の解放、そして個人的な相互作用のための最も人気のあるプラットフォームとして、個人はソーシャルメディアに自殺的思考の多くの症状を示す可能性がある。 それでも、データと知識の両面からの課題は障害として残り、ソーシャルメディアベースの検出性能を制限している。 データの暗黙性と疎遠さは、自分の投稿に基づいて個人の内部の真意を発見するのを難しくする。 心理学的な研究に着想を得て,ソーシャルメディア上で自殺のイデオレーションを検出するために,深層ニューラルネットワークを用いた自殺指向の知識グラフを構築し,統合する。 さらに,個人の自殺イデオロギーに対する重要なリスク要因を明確化するために,二層注意機構を設計・構築する。 マイクロブログとredditのパフォーマンススタディによると、1)パーソナルナレッジグラフの構築により、ソーシャルメディアベースの自殺防止イデオレーション検出は93%以上の精度を達成でき、2)個人的要因、ポスト、パーソナリティ、経験の6つのカテゴリがトップ3の指標となっている。 これらのカテゴリでは、投稿されたテキスト、ストレスレベル、ストレス持続時間、投稿された画像、反響的な思考が自殺的思考の検出に寄与する。

A large number of individuals are suffering from suicidal ideation in the world. There are a number of causes behind why an individual might suffer from suicidal ideation. As the most popular platform for self-expression, emotion release, and personal interaction, individuals may exhibit a number of symptoms of suicidal ideation on social media. Nevertheless, challenges from both data and knowledge aspects remain as obstacles, constraining the social media-based detection performance. Data implicitness and sparsity make it difficult to discover the inner true intentions of individuals based on their posts. Inspired by psychological studies, we build and unify a high-level suicide-oriented knowledge graph with deep neural networks for suicidal ideation detection on social media. We further design a two-layered attention mechanism to explicitly reason and establish key risk factors to individual's suicidal ideation. The performance study on microblog and Reddit shows that: 1) with the constructed personal knowledge graph, the social media-based suicidal ideation detection can achieve over 93% accuracy; and 2) among the six categories of personal factors, post, personality, and experience are the top-3 key indicators. Under these categories, posted text, stress level, stress duration, posted image, and ruminant thinking contribute to one's suicidal ideation detection.
翻訳日:2021-05-03 09:54:07 公開日:2020-12-16
# (参考訳) autocaption: ニューラルネットワーク検索による画像キャプション [全文訳有]

AutoCaption: Image Captioning with Neural Architecture Search ( http://arxiv.org/abs/2012.09742v1 )

ライセンス: CC BY 4.0
Xinxin Zhu and Weining Wang and Longteng Guo and Jing Liu(参考訳) 画像キャプションは複雑な視覚情報を抽象自然言語に変換し、コンピュータが世界を理解するのに役立ちます。 しかし、実際の環境の複雑さのため、キーオブジェクトを識別し、それらの接続を実現し、さらに自然言語を生成する必要がある。 プロセス全体は、視覚的理解モジュールと言語生成モジュールを含んでおり、他のタスクよりもディープニューラルネットワークの設計に多くの課題をもたらす。 neural architecture search (nas) は様々な画像認識タスクにおいて重要な役割を担っている。 さらに、RNNは画像キャプションタスクにおいて重要な役割を果たす。 画像キャプションのデコーダモジュールを設計するためにAutoCaptionメソッドを導入し、NASを使用してAutoRNNと呼ばれるデコーダモジュールを自動設計する。 本稿では,共有パラメータに基づく強化学習手法を用いてAutoRNNの自動設計を行う。 AutoCaptionの検索スペースには、レイヤとレイヤ内の操作の両方の接続が含まれており、AutoRNNがより多くのアーキテクチャを表現することができる。 特に、RNNは我々の検索空間のサブセットに相当する。 MSCOCOデータセットの実験から、私たちのAutoCaptionモデルは従来の手書き設計手法よりも優れたパフォーマンスを実現できます。 我々のAutoCaptionは、COCOカルパチーテスト分割で135.8%の最高のCIDEr性能を得る。 さらにアンサンブル技術を使用すると、CIDErは139.5%まで上昇する。

Image captioning transforms complex visual information into abstract natural language for representation, which can help computers understanding the world quickly. However, due to the complexity of the real environment, it needs to identify key objects and realize their connections, and further generate natural language. The whole process involves a visual understanding module and a language generation module, which brings more challenges to the design of deep neural networks than other tasks. Neural Architecture Search (NAS) has shown its important role in a variety of image recognition tasks. Besides, RNN plays an essential role in the image captioning task. We introduce a AutoCaption method to better design the decoder module of the image captioning where we use the NAS to design the decoder module called AutoRNN automatically. We use the reinforcement learning method based on shared parameters for automatic design the AutoRNN efficiently. The search space of the AutoCaption includes connections between the layers and the operations in layers both, and it can make AutoRNN express more architectures. In particular, RNN is equivalent to a subset of our search space. Experiments on the MSCOCO datasets show that our AutoCaption model can achieve better performance than traditional hand-design methods. Our AutoCaption obtains the best published CIDEr performance of 135.8% on COCO Karpathy test split. When further using ensemble technology, CIDEr is boosted up to 139.5%.
翻訳日:2021-05-03 09:22:29 公開日:2020-12-16
# (参考訳) 無線バーチャルリアリティ(VR)ネットワークのための学習ベース予測とアップリンク再送信 [全文訳有]

Learning-based Prediction and Uplink Retransmission for Wireless Virtual Reality (VR) Network ( http://arxiv.org/abs/2012.12725v1 )

ライセンス: CC BY 4.0
Xiaonan Liu and Xinyu Li and Yansha Deng(参考訳) ワイヤレスバーチャルリアリティ(VR)ユーザーはいつでもどこでも没入感のある体験を楽しめる。 しかし、vrインタラクションのレイテンシーが制限された状態で高品質な球形vrビデオを提供することは困難である。 事前にVRユーザの視点を予測することができれば、必要な視点のみをレンダリングして配信する必要があるため、VRインタラクションのレイテンシが減少する可能性がある。 そこで本稿では,オフラインおよびオンライン学習アルゴリズムを用いて,実際のvrデータセットを用いてvrユーザの視点を予測する。 オフライン学習アルゴリズムでは,トレーニングされた学習モデルを用いて,VRユーザの視点を連続的に予測する。 オンライン学習アルゴリズムでは、アップリンク送信によって提供されるVRユーザの実際の視点に基づいて、予測された視点と比較し、オンライン学習アルゴリズムのパラメータを更新して予測精度をさらに向上させる。 アップリンク伝送の信頼性を保証するため,提案するオンライン学習アルゴリズムにproactive retransmission schemeを統合する。 シミュレーションの結果,proactive retransmission schemeを用いたアップリンク無線vrネットワークのオンライン学習アルゴリズムは,約5%の予測誤差しか示さないことがわかった。

Wireless Virtual Reality (VR) users are able to enjoy immersive experience from anywhere at anytime. However, providing full spherical VR video with high quality under limited VR interaction latency is challenging. If the viewpoint of the VR user can be predicted in advance, only the required viewpoint is needed to be rendered and delivered, which can reduce the VR interaction latency. Therefore, in this paper, we use offline and online learning algorithms to predict viewpoint of the VR user using real VR dataset. For the offline learning algorithm, the trained learning model is directly used to predict the viewpoint of VR users in continuous time slots. While for the online learning algorithm, based on the VR user's actual viewpoint delivered through uplink transmission, we compare it with the predicted viewpoint and update the parameters of the online learning algorithm to further improve the prediction accuracy. To guarantee the reliability of the uplink transmission, we integrate the Proactive retransmission scheme into our proposed online learning algorithm. Simulation results show that our proposed online learning algorithm for uplink wireless VR network with the proactive retransmission scheme only exhibits about 5% prediction error.
翻訳日:2021-05-03 09:07:20 公開日:2020-12-16
# (参考訳) モデルベース強化学習のための高精度長期ダイナミクスの学習 [全文訳有]

Learning Accurate Long-term Dynamics for Model-based Reinforcement Learning ( http://arxiv.org/abs/2012.09156v1 )

ライセンス: CC BY 4.0
Nathan O. Lambert, Albert Wilcox, Howard Zhang, Kristofer S. J. Pister, Roberto Calandra(参考訳) ロボットシステムのダイナミクスを正確に予測することは、モデルに基づく制御と強化学習に不可欠である。 ダイナミクスを推定する最も一般的な方法は、一段階の予測モデルに当てはめ、それを用いて長い地平線上の予測状態分布を再帰的に伝播させることである。 残念ながら、このアプローチは小さな予測誤差を複雑にすることで、長期的な予測が不正確なことが知られている。 本稿では,より長い地平線で安定に予測するために,状態行動データの教師付き学習を行うための新しいパラメータ化を提案する。 この軌道ベースモデルでは、初期状態、将来の時間指標、およびパラメータを入力として制御し、将来の状態を予測する。 シミュレーションおよび実験によるロボット作業の結果、軌道に基づくモデルにより、より正確な長期予測、サンプル効率の向上、タスク報酬予測能力が得られることが示された。

Accurately predicting the dynamics of robotic systems is crucial for model-based control and reinforcement learning. The most common way to estimate dynamics is by fitting a one-step ahead prediction model and using it to recursively propagate the predicted state distribution over long horizons. Unfortunately, this approach is known to compound even small prediction errors, making long-term predictions inaccurate. In this paper, we propose a new parametrization to supervised learning on state-action data to stably predict at longer horizons -- that we call a trajectory-based model. This trajectory-based model takes an initial state, a future time index, and control parameters as inputs, and predicts the state at the future time. Our results in simulated and experimental robotic tasks show that our trajectory-based models yield significantly more accurate long term predictions, improved sample efficiency, and ability to predict task reward.
翻訳日:2021-05-03 08:49:10 公開日:2020-12-16
# (参考訳) 反復線形最適化によるクラスタリング [全文訳有]

Clustering with Iterated Linear Optimization ( http://arxiv.org/abs/2012.09202v1 )

ライセンス: CC BY 4.0
Pedro Felzenszwalb, Caroline Klivans, Alice Paul(参考訳) 我々は、Max k-Cut問題の半定値プログラミング(SDP)緩和を用いたクラスタリングの新しい手法を提案する。 このアプローチは、反復線形最適化を用いてSDPの解を丸める新しい手法に基づいている。 我々は、Max k-Cut SDP緩和の頂点がデータの分割に対応していることを示す。 また、頂点は反復線形最適化の魅力的な固定点であることを示す。 直近の頂点問題の繰り返し緩和として線形最適化を用いて固定点反復の過程を解釈する。 実験の結果, Max k-Cut SDP の緩和に固定点反復を用いると, ランダム化ラウンドリングに比べて有意に良好な結果が得られた。

We introduce a novel method for clustering using a semidefinite programming (SDP) relaxation of the Max k-Cut problem. The approach is based on a new methodology for rounding the solution of an SDP using iterated linear optimization. We show the vertices of the Max k-Cut SDP relaxation correspond to partitions of the data into at most k sets. We also show the vertices are attractive fixed points of iterated linear optimization. We interpret the process of fixed point iteration with linear optimization as repeated relaxations of the closest vertex problem. Our experiments show that using fixed point iteration for rounding the Max k-Cut SDP relaxation leads to significantly better results when compared to randomized rounding.
翻訳日:2021-05-03 08:29:51 公開日:2020-12-16
# (参考訳) MELINDA: 生体実験法分類のためのマルチモーダルデータセット [全文訳有]

MELINDA: A Multimodal Dataset for Biomedical Experiment Method Classification ( http://arxiv.org/abs/2012.09216v1 )

ライセンス: CC BY 4.0
Te-Lin Wu, Shikhar Singh, Sayan Paul, Gully Burns, Nanyun Peng(参考訳) 我々はMELINDA(Multimodal biomEdicaL experImeNt methoD clAssification)を導入した。 データセットを完全自動化された遠隔監視方法で収集し、既存のキュレートされたデータベースからラベルを取得し、データベース内の各レコードに関連付けられた論文から実際の内容を抽出する。 我々は、字幕テキストまたは画像のみを入力とするユニモーダルモデルやマルチモーダルモデルを含む、最先端のnlpおよびコンピュータビジョンモデルをベンチマークする。 広範な実験と分析により、マルチモーダルモデルはユニモーダルモデルよりも優れていても、特に言語で視覚的概念を接地する教師の少ない方法や、リソースの少ないドメインへの転送性の向上において、改善が必要であることが示された。 我々は,マルチモーダル学習の今後の研究を促進するために,データセットとベンチマークを公開し,特に科学的分野の応用を目標とする改善を動機づける。

We introduce a new dataset, MELINDA, for Multimodal biomEdicaL experImeNt methoD clAssification. The dataset is collected in a fully automated distant supervision manner, where the labels are obtained from an existing curated database, and the actual contents are extracted from papers associated with each of the records in the database. We benchmark various state-of-the-art NLP and computer vision models, including unimodal models which only take either caption texts or images as inputs, and multimodal models. Extensive experiments and analysis show that multimodal models, despite outperforming unimodal ones, still need improvements especially on a less-supervised way of grounding visual concepts with languages, and better transferability to low resource domains. We release our dataset and the benchmarks to facilitate future research in multimodal learning, especially to motivate targeted improvements for applications in scientific domains.
翻訳日:2021-05-03 08:18:41 公開日:2020-12-16
# (参考訳) learning-num: 未知のユーティリティ関数と待ち行列遅延によるネットワークユーティリティ最大化 [全文訳有]

Learning-NUM: Network Utility Maximization with Unknown Utility Functions and Queueing Delay ( http://arxiv.org/abs/2012.09222v1 )

ライセンス: CC BY 4.0
Xinzhe Fu, Eytan Modiano(参考訳) ネットワーク利用度最大化(NUM)は、ネットワークリソースの制約を受けるユーザの全ユーティリティを最大化するために、トラフィックレートをネットワークユーザに割り当てる問題を研究する。 本稿では,NUMフレームワークであるLearning-NUMを提案する。これは,ユーザのユーティリティ関数が未知のアプリオリであり,対応するトラフィックが目的地に配信された後にのみ,トラフィックレートのユーティリティ関数値が観測可能であるため,ユーティリティフィードバックが‘textit{queueing delay} を体験できることを意味する。 目的は、ユーティリティ関数を徐々に学習し、有限時間地平線上で得られた全ユーティリティを最大化するために、レート割り当てとネットワークスケジューリング/ルーティング決定を行うポリシーを設計することである。 未知の効用関数や確率的制約に加えて、我々の問題の中心的な課題は観測の待ち行列遅延であり、これは無制限でありポリシーの決定に依存する可能性がある。 まず,最善の動的ポリシによって得られる期待総ユーティリティは,静的最適化問題に対する解によって上限されることを示す。 フィードバック遅延がなければ,勾配推定と最大重み付けスケジューリングのアイデアに基づくアルゴリズムを設計する。 フィードバック遅延に対処するため、並列インスタンスパラダイムにアルゴリズムを組み込み、$\tilde{O}(T^{3/4})$-regret、すなわち、最高の動的ポリシーによって得られる期待ユーティリティとポリシーとの差を$\tilde{O}(T^{3/4})$とする。 最後に,learning-numフレームワークの実用性を示すために,データベースクエリ,ジョブスケジューリング,ビデオストリーミングという3つのアプリケーションシナリオに適用した。 さらに,本政策の実証的性能を評価するために,ジョブスケジューリングアプリケーション上でシミュレーションを行う。

Network Utility Maximization (NUM) studies the problems of allocating traffic rates to network users in order to maximize the users' total utility subject to network resource constraints. In this paper, we propose a new NUM framework, Learning-NUM, where the users' utility functions are unknown apriori and the utility function values of the traffic rates can be observed only after the corresponding traffic is delivered to the destination, which means that the utility feedback experiences \textit{queueing delay}. The goal is to design a policy that gradually learns the utility functions and makes rate allocation and network scheduling/routing decisions so as to maximize the total utility obtained over a finite time horizon $T$. In addition to unknown utility functions and stochastic constraints, a central challenge of our problem lies in the queueing delay of the observations, which may be unbounded and depends on the decisions of the policy. We first show that the expected total utility obtained by the best dynamic policy is upper bounded by the solution to a static optimization problem. Without the presence of feedback delay, we design an algorithm based on the ideas of gradient estimation and Max-Weight scheduling. To handle the feedback delay, we embed the algorithm in a parallel-instance paradigm to form a policy that achieves $\tilde{O}(T^{3/4})$-regret, i.e., the difference between the expected utility obtained by the best dynamic policy and our policy is in $\tilde{O}(T^{3/4})$. Finally, to demonstrate the practical applicability of the Learning-NUM framework, we apply it to three application scenarios including database query, job scheduling and video streaming. We further conduct simulations on the job scheduling application to evaluate the empirical performance of our policy.
翻訳日:2021-05-03 07:49:54 公開日:2020-12-16
# (参考訳) ベクトルガウス混合モデルに対する最適輸送 [全文訳有]

Optimal transport for vector Gaussian mixture models ( http://arxiv.org/abs/2012.09226v1 )

ライセンス: CC BY 4.0
Jiening Zhu, Kaiming Xu, Allen Tannenbaum(参考訳) ベクトルガウス混合モデルはベクトル値分布の重要な特殊部分集合を形成する。 与えられた空間に分布する別の表現を変更または遷移できる任意の物理的実体は、このカテゴリに該当する。 主な例はカラー画像である。 本稿では,ガウス混合モデルをベクトル化し,そのようなモデルに対する最適物質輸送関連問題を考察する。 最適物質輸送にベクトルガウス混合を用いる利点は、計算効率と構造を保存する能力である。

Vector Gaussian mixture models form an important special subset of vector-valued distributions. Any physical entity that can mutate or transit among alternative manifestations distributed in a given space falls into this category. A key example is color imagery. In this note, we vectorize the Gaussian mixture model and study different optimal mass transport related problems for such models. The benefits of using vector Gaussian mixture for optimal mass transport include computational efficiency and the ability to preserve structure.
翻訳日:2021-05-03 07:19:00 公開日:2020-12-16
# (参考訳) S3CNet:LiDARポイントクラウドのためのスパースセマンティックシーンコンプリートネットワーク [全文訳有]

S3CNet: A Sparse Semantic Scene Completion Network for LiDAR Point Clouds ( http://arxiv.org/abs/2012.09242v1 )

ライセンス: CC BY 4.0
Ran Cheng, Christopher Agia, Yuan Ren, Xinhai Li, Liu Bingbing(参考訳) 自動運転車や類似のロボットシステムが堅牢な3Dビジョンに依存しているため、深い畳み込みニューラルネットワークによるLiDARスキャンの処理は、アカデミックや産業でもトレンドになっている。 密集した3d構造と関連する意味ラベルを「スパース」表現から推論する、難易度の高いセマンティックシーン補完タスクの以前の試みは、密集点雲や密集深度マップがrgb画像からのセマンティックセグメンテーションマップと融合する場合に、ある程度屋内の小さなシーンでうまくいった。 しかし, 動的かつ指数関数的にスパルサー条件を特徴とする大規模屋外シーンに適用すると, これらのシステムの性能は大幅に低下する。 同様に、sparseボリューム全体の処理はメモリの制限や回避策によって実現不可能となり、全体的なボリュームを複数の等しいセグメントに分割し、個別に推測せざるを得なくなり、リアルタイムパフォーマンスが不可能になるため、計算効率が低下する。 本研究では,大規模環境の疎結合性を仮定した手法を定式化し,単一のlidar点クラウドから意味的に完結したシーンを予測する疎畳み型ニューラルネットワークs3cnetを提案する。 提案手法は,SemanticKITTIベンチマークを用いて,3次元課題における全ての課題に優れることを示す。 さらに,3次元ネットワークを補完する多視点融合戦略を備えたS3CNetの2次元変種を提案する。 2Dセマンティックシーン完了タスクの実験を行い、2つのオープンソースデータセット上での鳥の目視分割に適応したいくつかの主要なLiDARセグメンテーションモデルと比較した。

With the increasing reliance of self-driving and similar robotic systems on robust 3D vision, the processing of LiDAR scans with deep convolutional neural networks has become a trend in academia and industry alike. Prior attempts on the challenging Semantic Scene Completion task - which entails the inference of dense 3D structure and associated semantic labels from "sparse" representations - have been, to a degree, successful in small indoor scenes when provided with dense point clouds or dense depth maps often fused with semantic segmentation maps from RGB images. However, the performance of these systems drop drastically when applied to large outdoor scenes characterized by dynamic and exponentially sparser conditions. Likewise, processing of the entire sparse volume becomes infeasible due to memory limitations and workarounds introduce computational inefficiency as practitioners are forced to divide the overall volume into multiple equal segments and infer on each individually, rendering real-time performance impossible. In this work, we formulate a method that subsumes the sparsity of large-scale environments and present S3CNet, a sparse convolution based neural network that predicts the semantically completed scene from a single, unified LiDAR point cloud. We show that our proposed method outperforms all counterparts on the 3D task, achieving state-of-the art results on the SemanticKITTI benchmark. Furthermore, we propose a 2D variant of S3CNet with a multi-view fusion strategy to complement our 3D network, providing robustness to occlusions and extreme sparsity in distant regions. We conduct experiments for the 2D semantic scene completion task and compare the results of our sparse 2D network against several leading LiDAR segmentation models adapted for bird's eye view segmentation on two open-source datasets.
翻訳日:2021-05-03 07:01:30 公開日:2020-12-16
# (参考訳) ISD:反復的類似度蒸留による自己指導型学習 [全文訳有]

ISD: Self-Supervised Learning by Iterative Similarity Distillation ( http://arxiv.org/abs/2012.09259v1 )

ライセンス: CC BY 4.0
Ajinkya Tejankar, Soroush Abbasi Koohpayegani, Vipin Pillai, Paolo Favaro, and Hamed Pirsiavash(参考訳) 近年、コントラスト学習は、画像(正のペア)を他のランダムな画像(負のペア)よりも2つ増やすという、自己教師付き学習において大きな成果を上げている。 すべてのランダムな画像が等しくないと主張する。 そこで我々は,正対と負対の2値差ではなく,負像にソフトな類似性を用いる自己教師付き学習アルゴリズムを導入する。 質問画像とランダムな画像との類似性を捉え、その知識を学生に伝達することにより、ゆっくりと進化する教師モデルを学生モデルに反復蒸留する。 提案手法は最近のコントラスト学習法に比べて制約が少ないため,より優れた特徴を学習することができる。 具体的には、ランダムに選択された負集合は、クエリ画像と意味的に類似する多くのサンプルを含む可能性があるため、既存のコントラスト学習法よりも不均衡でラベルなしのデータを扱うべきである。 この場合,本手法は非常に類似度が高いが,標準コントラスト法では負のペアとラベル付けする。 転送学習におけるBYOLやMoCoといった最先端モデルと比較すると,より優れた結果が得られる。 また,ラベルのないデータがバランスの取れない環境では,本手法が優れていることを示す。 私たちのコードは、https://github.com/U MBCvision/ISD.comで利用可能です。

Recently, contrastive learning has achieved great results in self-supervised learning, where the main idea is to push two augmentations of an image (positive pairs) closer compared to other random images (negative pairs). We argue that not all random images are equal. Hence, we introduce a self supervised learning algorithm where we use a soft similarity for the negative images rather than a binary distinction between positive and negative pairs. We iteratively distill a slowly evolving teacher model to the student model by capturing the similarity of a query image to some random images and transferring that knowledge to the student. We argue that our method is less constrained compared to recent contrastive learning methods, so it can learn better features. Specifically, our method should handle unbalanced and unlabeled data better than existing contrastive learning methods, because the randomly chosen negative set might include many samples that are semantically similar to the query image. In this case, our method labels them as highly similar while standard contrastive methods label them as negative pairs. Our method achieves better results compared to state-of-the-art models like BYOL and MoCo on transfer learning settings. We also show that our method performs better in the settings where the unlabeled data is unbalanced. Our code is available here: https://github.com/U MBCvision/ISD.
翻訳日:2021-05-03 06:23:08 公開日:2020-12-16
# (参考訳) マルチオーガンセグメンテーションのための空間文脈認識自己照準モデル [全文訳有]

Spatial Context-Aware Self-Attention Model For Multi-Organ Segmentation ( http://arxiv.org/abs/2012.09279v1 )

ライセンス: CC BY 4.0
Hao Tang, Xingwei Liu, Kun Han, Shanlin Sun, Narisu Bai, Xuming Chen, Huang Qian, Yong Liu, Xiaohui Xie(参考訳) 医用画像解析における深層学習の最も成功した応用の1つである。 深部畳み込みニューラルネット(CNN)は,CT画像やMRI画像上で臨床応用画像のセグメンテーション性能を達成する上で非常に有望である。 最先端のcnnセグメンテーションモデルでは、入力画像に2dまたは3dの畳み込みを適用でき、2d畳み込みは高速であり、メモリ集約性が低いが、ボリューム画像から3dコンテキスト情報を抽出するには不十分である。 3D CNNモデルをCTまたはMRI画像のコモディティGPUに適合させるためには、通常、入力イメージをダウンサンプルするか、収穫した局所領域を入力として使用する必要がある。 本研究では,高分解能2次元畳み込みによってセグメンテーションを実現するが,低分解能3次元モデルから抽出した空間的文脈情報に導かれる3次元モデルと2次元モデルを組み合わせた新しい枠組みを提案する。 2dセグメンテーションのガイドに使用する3d機能を制御するためのセルフアテンション機構を実装した。 我々のモデルはメモリ使用量に重点を置いているが、3Dコンテキスト情報を考慮に入れている。 複数の臓器セグメンテーションデータセットを用いた実験により,2dモデルと3dモデルの両方を利用することで,既存の2dモデルと3dモデルとを,臓器セグメンテーション精度で一貫して上回っており,しかも全ボリューム画像データを入力として直接取得できることを示した。

Multi-organ segmentation is one of most successful applications of deep learning in medical image analysis. Deep convolutional neural nets (CNNs) have shown great promise in achieving clinically applicable image segmentation performance on CT or MRI images. State-of-the-art CNN segmentation models apply either 2D or 3D convolutions on input images, with pros and cons associated with each method: 2D convolution is fast, less memory-intensive but inadequate for extracting 3D contextual information from volumetric images, while the opposite is true for 3D convolution. To fit a 3D CNN model on CT or MRI images on commodity GPUs, one usually has to either downsample input images or use cropped local regions as inputs, which limits the utility of 3D models for multi-organ segmentation. In this work, we propose a new framework for combining 3D and 2D models, in which the segmentation is realized through high-resolution 2D convolutions, but guided by spatial contextual information extracted from a low-resolution 3D model. We implement a self-attention mechanism to control which 3D features should be used to guide 2D segmentation. Our model is light on memory usage but fully equipped to take 3D contextual information into account. Experiments on multiple organ segmentation datasets demonstrate that by taking advantage of both 2D and 3D models, our method is consistently outperforms existing 2D and 3D models in organ segmentation accuracy, while being able to directly take raw whole-volume image data as inputs.
翻訳日:2021-05-03 05:39:36 公開日:2020-12-16
# (参考訳) 深層学習ATRにおけるデータ拡張のためのスパース信号モデル [全文訳有]

Sparse Signal Models for Data Augmentation in Deep Learning ATR ( http://arxiv.org/abs/2012.09284v1 )

ライセンス: CC BY 4.0
Tushar Agarwal, Nithin Sugavanam and Emre Ertin(参考訳) 自動ターゲット認識(ATR)アルゴリズムは、与えられた合成開口レーダ(SAR)画像を、各クラスで利用可能なトレーニングイメージのセットを使用して、既知のターゲットクラスの1つに分類する。 近年,十分なトレーニングデータが利用可能で,クラスやポーズ上で一様にサンプリングされた場合,最先端の分類精度を実現する学習手法が提案されている。 本稿では,限られた訓練画像を用いたATRの課題について考察する。 本稿では,畳み込みニューラルネットワーク(CNN)のようなデータ集約学習アルゴリズムの一般化能力を向上させるために,ドメイン知識を取り入れたデータ拡張手法を提案する。 提案手法は,広角合成開口レーダ(sar)画像の共通観測特性を活かした,永続性スパースモデリング手法を採用している。 具体的には,空間領域における散乱中心のスパース性とアジムタル領域における散乱係数の滑らかな変動構造を利用して,過パラメータモデルフィッティングの不適切な問題を解く。 この推定モデルを用いて、与えられたデータでは使用できないポーズとサブピクセルの翻訳で新しい画像を合成し、cnnのトレーニングデータを強化する。 実験結果から, トレーニングデータ飢餓領域において, 提案手法は, ATRアルゴリズムの一般化性能において有意な向上をもたらすことが示された。

Automatic Target Recognition (ATR) algorithms classify a given Synthetic Aperture Radar (SAR) image into one of the known target classes using a set of training images available for each class. Recently, learning methods have shown to achieve state-of-the-art classification accuracy if abundant training data is available, sampled uniformly over the classes, and their poses. In this paper, we consider the task of ATR with a limited set of training images. We propose a data augmentation approach to incorporate domain knowledge and improve the generalization power of a data-intensive learning algorithm, such as a Convolutional neural network (CNN). The proposed data augmentation method employs a limited persistence sparse modeling approach, capitalizing on commonly observed characteristics of wide-angle synthetic aperture radar (SAR) imagery. Specifically, we exploit the sparsity of the scattering centers in the spatial domain and the smoothly-varying structure of the scattering coefficients in the azimuthal domain to solve the ill-posed problem of over-parametrized model fitting. Using this estimated model, we synthesize new images at poses and sub-pixel translations not available in the given data to augment CNN's training data. The experimental results show that for the training data starved region, the proposed method provides a significant gain in the resulting ATR algorithm's generalization performance.
翻訳日:2021-05-03 05:20:32 公開日:2020-12-16
# (参考訳) Latent-CF: 逆の相互説明のためのシンプルなベースライン [全文訳有]

Latent-CF: A Simple Baseline for Reverse Counterfactual Explanations ( http://arxiv.org/abs/2012.09301v1 )

ライセンス: CC BY 4.0
Rachana Balasubramanian, Samuel Sharpe, Brian Barr, Jason Wittenbach, and C. Bayan Bruss(参考訳) 公正貸付法と一般データ保護規則(GDPR)の環境においては、モデルの予測を説明する能力が最も重要である。 高品質な説明は公平さを評価する最初のステップです。 カウンターファクトは説明可能性にとって貴重なツールです。 予測から決定される個人に対して、実行可能な、理解可能な説明を提供する。 それらを製造するためのベースラインを見つけることが重要です。 自動エンコーダの潜伏空間における探索に勾配勾配を用いた反事実生成法を提案し, 特徴空間における反事実探索手法に対して, 本手法をベンチマークする。 さらに,対策品の品質を具体的に評価する指標を実装した。 潜在空間の反事実生成は,基本的な特徴勾配降下手法の速度と,より複雑な特徴空間指向手法によって生じる反事実のばらつきと信頼性のバランスをとることを示す。

In the environment of fair lending laws and the General Data Protection Regulation (GDPR), the ability to explain a model's prediction is of paramount importance. High quality explanations are the first step in assessing fairness. Counterfactuals are valuable tools for explainability. They provide actionable, comprehensible explanations for the individual who is subject to decisions made from the prediction. It is important to find a baseline for producing them. We propose a simple method for generating counterfactuals by using gradient descent to search in the latent space of an autoencoder and benchmark our method against approaches that search for counterfactuals in feature space. Additionally, we implement metrics to concretely evaluate the quality of the counterfactuals. We show that latent space counterfactual generation strikes a balance between the speed of basic feature gradient descent methods and the sparseness and authenticity of counterfactuals generated by more complex feature space oriented techniques.
翻訳日:2021-05-03 04:57:47 公開日:2020-12-16
# (参考訳) 人工知能・量子・高性能コンピューティングのための基盤 [全文訳有]

Infrastructure for Artificial Intelligence, Quantum and High Performance Computing ( http://arxiv.org/abs/2012.09303v1 )

ライセンス: CC BY 4.0
William Gropp, Sujata Banerjee, and Ian Foster(参考訳) ハイパフォーマンスコンピューティング(HPC)、人工知能(AI)/マシンラーニング(ML)、量子コンピューティング(QC)およびコミュニケーションは、イノベーションと社会への影響の巨大な機会を提供する。 これらの分野の研究者は、コンピューティングインフラストラクチャへのアクセスに依存しているが、これらのリソースは不足しており、研究コミュニティのサポートでサイロ化されており、収束的かつ学際的な研究を追求することがより困難である。 このような研究は、段階ごとに異なるリソースを必要とする複雑なワークフローに依存している。 本稿では,コンピュータ科学研究を支援するために,コンピューティングインフラストラクチャに対するより包括的なアプローチと,商用クラウドから量子コンピューティングまで,新たなコンピューティングアプローチからの相補的能力の両方を認識するアプローチが必要であることを論じる。

High Performance Computing (HPC), Artificial Intelligence (AI)/Machine Learning (ML), and Quantum Computing (QC) and communications offer immense opportunities for innovation and impact on society. Researchers in these areas depend on access to computing infrastructure, but these resources are in short supply and are typically siloed in support of their research communities, making it more difficult to pursue convergent and interdisciplinary research. Such research increasingly depends on complex workflows that require different resources for each stage. This paper argues that a more-holistic approach to computing infrastructure, one that recognizes both the convergence of some capabilities and the complementary capabilities from new computing approaches, be it commercial cloud to Quantum Computing, is needed to support computer science research.
翻訳日:2021-05-03 04:48:53 公開日:2020-12-16
# (参考訳) ディープフェイク検出のためのパッチワイズ一貫性の認識 [全文訳有]

Learning to Recognize Patch-Wise Consistency for Deepfake Detection ( http://arxiv.org/abs/2012.09311v1 )

ライセンス: CC BY 4.0
Tianchen Zhao, Xiang Xu, Mingze Xu, Hui Ding, Yuanjun Xiong, Wei Xia(参考訳) 本稿では,顔の操作によって生成されたディープフェイクを,その基本的な特徴の1つに基づいて検出する。画像は複数のソースからのパッチでブレンドされ,特徴と永続性を持つ。 特に,本課題に対する新しい表現学習手法であるpatch-wise consistency learning (pcl)を提案する。 イメージソースの特徴の一貫性を計測することで、複数の偽造方法に対して、優れた解釈性と堅牢性を持つ表現が可能になる。 我々は,PCLのトレーニングデータを生成し,その堅牢性を高めるために,不整合画像生成装置(I2G)を開発した。 一般的な7つのDeepfake検出データセットに対するアプローチを評価する。 本モデルは優れた検出精度を達成し,未発見生成法によく一般化する。 平均して,本モデルでは,AUCを2%,クロスデータセット評価を8%上回る結果を得た。

We propose to detect Deepfake generated by face manipulation based on one of their fundamental features: images are blended by patches from multiple sources, carrying distinct and persistent source features. In particular, we propose a novel representation learning approach for this task, called patch-wise consistency learning (PCL). It learns by measuring the consistency of image source features, resulting to representation with good interpretability and robustness to multiple forgery methods. We develop an inconsistency image generator (I2G) to generate training data for PCL and boost its robustness. We evaluate our approach on seven popular Deepfake detection datasets. Our model achieves superior detection accuracy and generalizes well to unseen generation methods. On average, our model outperforms the state-of-the-art in terms of AUC by 2% and 8% in the in- and cross-dataset evaluation, respectively.
翻訳日:2021-05-03 04:45:11 公開日:2020-12-16
# (参考訳) StarcNet:スタークラスタ識別のための機械学習 [全文訳有]

StarcNet: Machine Learning for Star Cluster Identification ( http://arxiv.org/abs/2012.09327v1 )

ライセンス: CC BY 4.0
Gustavo Perez, Matteo Messa, Daniela Calzetti, Subhransu Maji, Dooseok Jung, Angela Adamo, Mattia Siressi(参考訳) 我々は,LEGUS(Legacy ExtraGalactic Ultraviolet Survey)の一環としてハッブル宇宙望遠鏡で得られた観測から,近隣銀河のマルチカラー画像中の星団を識別する機械学習(ML)パイプラインを提案する。 starcnet (star cluster classification network) は多スケール畳み込みニューラルネットワーク (cnn) であり、ヒトのエキスパート性能にほぼ匹敵する星団分類のために68.6% (4クラス)/86.0% (2クラス:クラスタ/非クラスタ)の精度を達成する。 我々は、トレーニングセットに含まれない銀河に事前訓練されたcnnモデルを適用することで、starcnetの性能をテストする。 ヒトおよびml分類標本では,starcnetの光度,色,物理特性の分布が類似しているため,starcnetが生成するカタログとヒトラベルによる多色光度関数と質量分布プロットを比較して,推定されたクラスター特性に対するstarcnetの予測の影響を検証した。 MLアプローチには2つの利点がある:(1) 分類の再現可能性: MLアルゴリズムのバイアスは固定され、その後の分析のために測定できる。 人間の分類器と同等の精度を達成することで、starcnetは、現在利用可能なより多くの候補サンプルに分類を拡張できるため、クラスタ研究の統計が大幅に増加する。

We present a machine learning (ML) pipeline to identify star clusters in the multi{color images of nearby galaxies, from observations obtained with the Hubble Space Telescope as part of the Treasury Project LEGUS (Legacy ExtraGalactic Ultraviolet Survey). StarcNet (STAR Cluster classification NETwork) is a multi-scale convolutional neural network (CNN) which achieves an accuracy of 68.6% (4 classes)/86.0% (2 classes: cluster/non-cluster) for star cluster classification in the images of the LEGUS galaxies, nearly matching human expert performance. We test the performance of StarcNet by applying pre-trained CNN model to galaxies not included in the training set, finding accuracies similar to the reference one. We test the effect of StarcNet predictions on the inferred cluster properties by comparing multi-color luminosity functions and mass-age plots from catalogs produced by StarcNet and by human-labeling; distributions in luminosity, color, and physical characteristics of star clusters are similar for the human and ML classified samples. There are two advantages to the ML approach: (1) reproducibility of the classifications: the ML algorithm's biases are fixed and can be measured for subsequent analysis; and (2) speed of classification: the algorithm requires minutes for tasks that humans require weeks to months to perform. By achieving comparable accuracy to human classifiers, StarcNet will enable extending classifications to a larger number of candidate samples than currently available, thus increasing significantly the statistics for cluster studies.
翻訳日:2021-05-03 04:27:07 公開日:2020-12-16
# (参考訳) 深層学習生成モデルを用いた新しい2次元材料の発見 [全文訳有]

Computational discovery of new 2D materials using deep learning generative models ( http://arxiv.org/abs/2012.09314v1 )

ライセンス: CC BY 4.0
Yuqi Song, Edirisuriya M. Dilanga Siriwardane, Yong Zhao, Jianjun Hu(参考訳) 2次元(2D)材料は、半導体や光電気など多くの用途で期待できる機能材料として出現している。 既存の素材データベースでは数千の2D素材がスクリーニングされているが、新しい2D素材の発見はいまだに難しい。 本稿では,ランダムフォレストに基づく2次元材料分類器と組み合わせた合成生成のための深層学習生成モデルを提案する。 さらに,新たに予測した仮定式の一部集合の結晶構造を予測するために,テンプレートに基づく要素置換構造予測手法を開発し,dft計算による構造安定性の検証を可能にした。 これまでに267,489個の新しい2次元材料組成を発見し,DFT生成エネルギー計算により12個の層状材料を確認した。 この結果から, 生成機械学習モデルは, 新しい2次元材料発見のための膨大な化学設計空間を探索する有効な方法であることがわかった。

Two dimensional (2D) materials have emerged as promising functional materials with many applications such as semiconductors and photovoltaics because of their unique optoelectronic properties. While several thousand 2D materials have been screened in existing materials databases, discovering new 2D materials remains to be challenging. Herein we propose a deep learning generative model for composition generation combined with random forest based 2D materials classifier to discover new hypothetical 2D materials. Furthermore, a template based element substitution structure prediction approach is developed to predict the crystal structures of a subset of the newly predicted hypothetical formulas, which allows us to confirm their structure stability using DFT calculations. So far, we have discovered 267,489 new potential 2D materials compositions and confirmed twelve 2D/layered materials by DFT formation energy calculation. Our results show that generative machine learning models provide an effective way to explore the vast chemical design space for new 2D materials discovery.
翻訳日:2021-05-03 03:46:39 公開日:2020-12-16
# 逆行訓練を伴わない多型絡み合い乱れ

Multi-type Disentanglement without Adversarial Training ( http://arxiv.org/abs/2012.08883v1 )

ライセンス: Link先を確認
Lei Sha, Thomas Lukasiewicz(参考訳) 潜在空間を分離することで自然言語のスタイルを制御することは、解釈可能な機械学習への重要なステップである。 潜在空間が乱れた後、文の他の特徴に影響を与えずにスタイル表現をチューニングすることで文のスタイルを変換できる。 従来の研究は通常、逆行ベクトルが互いに影響しないことを保証するために逆行訓練を使用する。 しかし、敵対的な方法の訓練は困難である。 特に、複数の特徴(例えば、この論文ではスタイルタイプと呼ぶ)がある場合、各特徴は、その特徴に対応する非絡み合ったスタイルベクトルを抽出する別個の識別器を必要とする。 本稿では,それぞれのスタイル値(例えば,肯定的な感情,過去の時制など)を一意に表現する分散制御手法を提案する。 この手法は,多型対角法における対角法トレーニングを避けるための理論的基礎となる。 また,スタイル・コンテントの絡み合いや複数のスタイルタイプ間の絡み合いを実現するために,複数の損失関数を提案する。 さらに、2つの異なるスタイル型が常にデータセット内で一緒に発生する特定のスタイル値を持っている場合、スタイル値の転送時に互いに影響する。 我々は,この現象をトレーニングバイアスと呼び,複数のタイプを分離しながらトレーニングバイアスを緩和するロス関数を提案する。 2つのデータセット(yelp service reviewsとamazon product reviews)で実験を行い、スタイル区別効果と教師なしのスタイル転送性能について、センチメントとテンスという2つのスタイルタイプで評価した。 実験の結果,本モデルの有効性が示された。

Controlling the style of natural language by disentangling the latent space is an important step towards interpretable machine learning. After the latent space is disentangled, the style of a sentence can be transformed by tuning the style representation without affecting other features of the sentence. Previous works usually use adversarial training to guarantee that disentangled vectors do not affect each other. However, adversarial methods are difficult to train. Especially when there are multiple features (e.g., sentiment, or tense, which we call style types in this paper), each feature requires a separate discriminator for extracting a disentangled style vector corresponding to that feature. In this paper, we propose a unified distribution-control ling method, which provides each specific style value (the value of style types, e.g., positive sentiment, or past tense) with a unique representation. This method contributes a solid theoretical basis to avoid adversarial training in multi-type disentanglement. We also propose multiple loss functions to achieve a style-content disentanglement as well as a disentanglement among multiple style types. In addition, we observe that if two different style types always have some specific style values that occur together in the dataset, they will affect each other when transferring the style values. We call this phenomenon training bias, and we propose a loss function to alleviate such training bias while disentangling multiple types. We conduct experiments on two datasets (Yelp service reviews and Amazon product reviews) to evaluate the style-disentangling effect and the unsupervised style transfer performance on two style types: sentiment and tense. The experimental results show the effectiveness of our model.
翻訳日:2021-05-03 03:13:59 公開日:2020-12-16
# LIREx: 関連説明による言語推論の強化

LIREx: Augmenting Language Inference with Relevant Explanation ( http://arxiv.org/abs/2012.09157v1 )

ライセンス: Link先を確認
Xinyan Zhao, V.G.Vinod Vydiswaran(参考訳) 自然言語説明 (NLE) は、アノテータがデータインスタンスにラベルを割り当てるときに有理性(最も重要なテキストトークン)を識別し、その有理性に基づいて自然言語でラベルの説明を書く、特別な形式のデータアノテーションである。 NLEは人間の推論をより良く捉えることが示されているが、自然言語推論(NLI)には有益ではない。 本稿では,現在NLEが言語推論タスクのための説明生成器の訓練に使われている2つの主要な欠陥を分析する。 ラベルの人的説明に固有の変動性を考慮していないこと,そして現在の説明生成モデルが突発的な説明を生成することを確認した。 これらの制約を克服するために、論理型説明生成器とインスタンスセレクタの両方を組み込んだ新しいフレームワーク LIREx を提案し、NLI モデルの拡張に有効な NLE のみを選択する。 標準化されたSNLIデータセットで評価すると、LIRExは91.87%の精度、ベースラインよりも0.32の改善、データセット上で最も報告されたパフォーマンスと一致した。 また、ドメイン外のMultiNLIデータセットに転送した場合、以前の研究よりも大幅にパフォーマンスが向上する。 定性的分析により、LIRExはフレキシブルで忠実で関連するNLEを生成し、モデルが素早い説明のためにより堅牢であることが示される。 コードはhttps://github.com/z haoxy92/lirexで入手できる。

Natural language explanations (NLEs) are a special form of data annotation in which annotators identify rationales (most significant text tokens) when assigning labels to data instances, and write out explanations for the labels in natural language based on the rationales. NLEs have been shown to capture human reasoning better, but not as beneficial for natural language inference (NLI). In this paper, we analyze two primary flaws in the way NLEs are currently used to train explanation generators for language inference tasks. We find that the explanation generators do not take into account the variability inherent in human explanation of labels, and that the current explanation generation models generate spurious explanations. To overcome these limitations, we propose a novel framework, LIREx, that incorporates both a rationale-enabled explanation generator and an instance selector to select only relevant, plausible NLEs to augment NLI models. When evaluated on the standardized SNLI data set, LIREx achieved an accuracy of 91.87%, an improvement of 0.32 over the baseline and matching the best-reported performance on the data set. It also achieves significantly better performance than previous studies when transferred to the out-of-domain MultiNLI data set. Qualitative analysis shows that LIREx generates flexible, faithful, and relevant NLEs that allow the model to be more robust to spurious explanations. The code is available at https://github.com/z haoxy92/LIREx.
翻訳日:2021-05-03 03:11:43 公開日:2020-12-16
# 相互平均学習による教師なしイメージセグメンテーション

Unsupervised Image Segmentation using Mutual Mean-Teaching ( http://arxiv.org/abs/2012.08922v1 )

ライセンス: Link先を確認
Zhichao Wu and Lei Guo and Hao Zhang and Dan Xu(参考訳) 教師なし画像セグメンテーション(unsupervised image segmentation)は、同様の機能を持つピクセルを、アノテーションなしで同じクラスタに割り当てることを目的としている。 事前の知識が欠如しているため、既存のモデルの多くは適切な結果を得るために数回訓練する必要がある。 そこで本稿では,Mutual Mean-Teaching (MMT) フレームワークに基づく教師なし画像分割モデルを提案する。 また、2つのモデルからのピクセルのラベルが一致しないため、ハンガリーのアルゴリズムに基づくラベルアライメントアルゴリズムがクラスタラベルと一致するように提案されている。 実験結果から,提案モデルでは様々な画像の分割が可能であり,既存の手法よりも優れた性能が得られることが示された。

Unsupervised image segmentation aims at assigning the pixels with similar feature into a same cluster without annotation, which is an important task in computer vision. Due to lack of prior knowledge, most of existing model usually need to be trained several times to obtain suitable results. To address this problem, we propose an unsupervised image segmentation model based on the Mutual Mean-Teaching (MMT) framework to produce more stable results. In addition, since the labels of pixels from two model are not matched, a label alignment algorithm based on the Hungarian algorithm is proposed to match the cluster labels. Experimental results demonstrate that the proposed model is able to segment various types of images and achieves better performance than the existing methods.
翻訳日:2021-05-03 03:11:15 公開日:2020-12-16
# 低リソース言語のための多言語ニューラルマシン翻訳の改善:フランス語、英語、ベトナム語

Improving Multilingual Neural Machine Translation For Low-Resource Languages: French-, English- Vietnamese ( http://arxiv.org/abs/2012.08743v1 )

ライセンス: Link先を確認
Thi-Vinh Ngo, Phuong-Thai Nguyen, Thanh-Le Ha, Khac-Quy Dinh, Le-Minh Nguyen(参考訳) 以前の研究では、低リソースの言語ペアが、多くの言語ペアのジョイントトレーニングに依存する多言語機械翻訳(MT)システムの恩恵を受けることが示されている。 本稿では,多言語mtシステムにおける希少な単語問題に対処するための2つの単純な戦略を提案する。 第1の戦略は、ソース言語間の共有空間におけるトークンの動的学習単語類似性であり、第1の戦略は、トレーニング中に埋め込みを更新することで稀な単語の翻訳能力を増強しようとするものである。 さらに,多言語MTシステムにおける単言語データを利用して,データの分散性問題に対処しながら,合成並列コーパスの量を増やす。 両言語対のバイリンガルベースラインシステムに対して,+1.62および+2.54のBLEU点が大幅に改善され,研究コミュニティ向けのデータセットがリリースされた。

Prior works have demonstrated that a low-resource language pair can benefit from multilingual machine translation (MT) systems, which rely on many language pairs' joint training. This paper proposes two simple strategies to address the rare word issue in multilingual MT systems for two low-resource language pairs: French-Vietnamese and English-Vietnamese. The first strategy is about dynamical learning word similarity of tokens in the shared space among source languages while another one attempts to augment the translation ability of rare words through updating their embeddings during the training. Besides, we leverage monolingual data for multilingual MT systems to increase the amount of synthetic parallel corpora while dealing with the data sparsity problem. We have shown significant improvements of up to +1.62 and +2.54 BLEU points over the bilingual baseline systems for both language pairs and released our datasets for the research community.
翻訳日:2021-05-03 03:11:01 公開日:2020-12-16
# 確率的ソフト論理規則化と大域的推論を用いた臨床時間関係抽出

Clinical Temporal Relation Extraction with Probabilistic Soft Logic Regularization and Global Inference ( http://arxiv.org/abs/2012.08790v1 )

ライセンス: Link先を確認
Yichao Zhou, Yu Yan, Rujun Han, J. Harry Caufield, Kai-Wei Chang, Yizhou Sun, Peipei Ping, and Wei Wang(参考訳) 臨床イベント間の時間的関係を正確に抽出する医療コミュニティは着実に必要とされている。 特に、時間情報は、ケースレポート検索や医療質問応答など、さまざまなダウンストリームアプリケーションを促進することができる。 既存のメソッドは、高価な機能エンジニアリングを必要とするか、イベント間のグローバルなリレーショナル依存関係をモデル化できないかのいずれかです。 本稿では,確率的ソフト論理規則化とグローバル推論(CTRL-PG)による,文書レベルでの問題に取り組むための新手法を提案する。 2つのベンチマークデータセットであるI2B2-2012とTB-Denseの大規模な実験により、CTRL-PGは時間的関係抽出の基準法よりも著しく優れていることが示された。

There has been a steady need in the medical community to precisely extract the temporal relations between clinical events. In particular, temporal information can facilitate a variety of downstream applications such as case report retrieval and medical question answering. Existing methods either require expensive feature engineering or are incapable of modeling the global relational dependencies among the events. In this paper, we propose a novel method, Clinical Temporal ReLation Exaction with Probabilistic Soft Logic Regularization and Global Inference (CTRL-PG) to tackle the problem at the document level. Extensive experiments on two benchmark datasets, I2B2-2012 and TB-Dense, demonstrate that CTRL-PG significantly outperforms baseline methods for temporal relation extraction.
翻訳日:2021-05-03 03:10:46 公開日:2020-12-16
# 2次勾配に基づくニューラルネットワークの大規模バッチサイズトレーニングに関する研究

Study on the Large Batch Size Training of Neural Networks Based on the Second Order Gradient ( http://arxiv.org/abs/2012.08795v1 )

ライセンス: Link先を確認
Fengli Gao and Huicai Zhong(参考訳) ディープニューラルネットワーク(DNN)における大規模なバッチサイズトレーニングは、よく知られた「一般化ギャップ」を持ち、一般化性能の低下を著しく引き起こす。 しかし、バッチサイズの違いがNNの構造に与える影響は、まだ不明である。 本稿では,nnの勾配,パラメータ更新ステップ長,損失更新ステップ長といった基本構造特性の異なるバッチサイズにおける進化について,理論と実験を組み合わせて検討する。 小型サンプルの廃棄とバッチサイズのスケジューリングを含む2つの設計手法により,汎用性を向上させるための新たなガイダンスを提供する。 NNの層間における大規模バッチサイズトレーニングに影響を及ぼす敏感な要因である曲率変動に適合させるために,曲率に基づく学習率(CBLR)アルゴリズムを提案する。 CBLRの近似として、中央曲率LR(MCLR)アルゴリズムは、Layer-wise Adaptive Rate Scaling (LARS)アルゴリズムに匹敵する性能を得る。 我々の理論結果とアルゴリズムは既存の研究に幾何学に基づく説明を提供する。 さらに,レイヤワイズLRアルゴリズム,例えばLARSがCBLRの特別な例であることを示す。 最後に,大規模バッチサイズトレーニングの理論的幾何学的図式を導出し,ネットワークパラメータが関連するミニマについて中心となる傾向を示す。

Large batch size training in deep neural networks (DNNs) possesses a well-known 'generalization gap' that remarkably induces generalization performance degradation. However, it remains unclear how varying batch size affects the structure of a NN. Here, we combine theory with experiments to explore the evolution of the basic structural properties, including gradient, parameter update step length, and loss update step length of NNs under varying batch sizes. We provide new guidance to improve generalization, which is further verified by two designed methods involving discarding small-loss samples and scheduling batch size. A curvature-based learning rate (CBLR) algorithm is proposed to better fit the curvature variation, a sensitive factor affecting large batch size training, across layers in a NN. As an approximation of CBLR, the median-curvature LR (MCLR) algorithm is found to gain comparable performance to Layer-wise Adaptive Rate Scaling (LARS) algorithm. Our theoretical results and algorithm offer geometry-based explanations to the existing studies. Furthermore, we demonstrate that the layer wise LR algorithms, for example LARS, can be regarded as special instances of CBLR. Finally, we deduce a theoretical geometric picture of large batch size training, and show that all the network parameters tend to center on their related minima.
翻訳日:2021-05-03 03:10:34 公開日:2020-12-16
# リレーショナルブーイングバンド

Relational Boosted Bandits ( http://arxiv.org/abs/2012.09220v1 )

ライセンス: Link先を確認
Ashutosh Kakadiya and Sriraam Natarajan and Balaraman Ravindran(参考訳) コンテキストバンディットアルゴリズムは,近年,実世界のユーザインタラクション問題において必須となっている。 しかし、これらのアルゴリズムは属性の値表現としてコンテキストに依存しており、ソーシャルネットワークのような現実世界のドメインは本質的に関係性がない。 本稿では,(関係)ブースト木に基づく関係領域の文脈的バンドイットアルゴリズムであるrelational boosted bandits(rb2)を提案する。 RB2により、関係表現のより記述的な性質から解釈可能で説明可能なモデルを学ぶことができる。 リンク予測や関係分類,レコメンデーションといったタスクにおけるRB2の有効性と解釈性を実証的に示す。

Contextual bandits algorithms have become essential in real-world user interaction problems in recent years. However, these algorithms rely on context as attribute value representation, which makes them unfeasible for real-world domains like social networks are inherently relational. We propose Relational Boosted Bandits(RB2), acontextual bandits algorithm for relational domains based on (relational) boosted trees. RB2 enables us to learn interpretable and explainable models due to the more descriptive nature of the relational representation. We empirically demonstrate the effectiveness and interpretability of RB2 on tasks such as link prediction, relational classification, and recommendations.
翻訳日:2021-05-03 03:10:00 公開日:2020-12-16
# series saliency:temporal interpretation for multivariate time series forecasting (特集 時系列予測)

Series Saliency: Temporal Interpretation for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2012.09324v1 )

ライセンス: Link先を確認
Qingyi Pan, Wenbo Hu, Jun Zhu(参考訳) 時系列予測は重要だが、難しい課題である。 近年,予測結果に優れた深層学習手法が開発されているが,時系列モデルの解釈性の向上が不可欠である。 一般的なニューラルネットワークや注意に基づく手法を含む以前の解釈法は、重要な時間次元を無視しながら特徴次元の解釈を主に考慮している。 本稿では,多変量時系列予測における時間的解釈のための時系列サリエンシ・フレームワークについて述べる。 時系列のスライディングウィンドウから「時系列画像」を抽出することにより、最小の破壊領域原理に従って、サリエンシーマップのセグメンテーションを適用する。 series saliency frameworkは、明確に定義されたディープラーニングモデルに採用することができ、より正確な予測を得るためにデータ拡張として機能する。 いくつかの実データセットに対する実験結果から,本フレームワークは時系列予測タスクの時間的解釈を生成し,正確な時系列予測を生成する。

Time series forecasting is an important yet challenging task. Though deep learning methods have recently been developed to give superior forecasting results, it is crucial to improve the interpretability of time series models. Previous interpretation methods, including the methods for general neural networks and attention-based methods, mainly consider the interpretation in the feature dimension while ignoring the crucial temporal dimension. In this paper, we present the series saliency framework for temporal interpretation for multivariate time series forecasting, which considers the forecasting interpretation in both feature and temporal dimensions. By extracting the "series images" from the sliding windows of the time series, we apply the saliency map segmentation following the smallest destroying region principle. The series saliency framework can be employed to any well-defined deep learning models and works as a data augmentation to get more accurate forecasts. Experimental results on several real datasets demonstrate that our framework generates temporal interpretations for the time series forecasting task while produces accurate time series forecast.
翻訳日:2021-05-03 03:09:52 公開日:2020-12-16
# モデル圧縮における過度パラメータ化の確率的メリット:ダブルディフレッシュからプルーニングニューラルネット

Provable Benefits of Overparameterization in Model Compression: From Double Descent to Pruning Neural Networks ( http://arxiv.org/abs/2012.08749v1 )

ライセンス: Link先を確認
Xiangyu Chang, Yingcong Li, Samet Oymak, Christos Thrampoulidis(参考訳) ディープネットワークは通常、トレーニングデータセットのサイズよりも多くのパラメータでトレーニングされる。 最近の実証的証拠は、過剰パラメータ化のプラクティスは、大きなモデルをトレーニングするだけでなく、軽量モデルを構築するのに役立つことを示しています。 具体的には、過剰パラメータ化はモデルプルーニング/スパース化の利点を示唆する。 本稿では, 過パラメータ化状態におけるモデルプルーニングの高次元漸近特性を理論的に特徴付けることにより, これらの経験的発見に光を当てる。 この理論は、「最初は小さなモデルを訓練するか、最初は大きなモデルを訓練し、次にプルーンを訓練するか」という質問に対処した。 もっとも情報性の高い特徴の位置が分かっていても、大きなモデルに適合して、既知の情報のある特徴で単にトレーニングするよりは、プルーニングする方がよいと、我々は分析的に判断する。 これはスパースモデルのトレーニングにおいて、新たな二重降下をもたらす: 元のモデルを成長させる一方で、ターゲットの間隔を保ちながら、オーバーパラメータ化しきい値を超えてテスト精度を向上させる。 分析により,特徴相関に関連付けることで,リトレーニングの利点がさらに明らかとなった。 上記の現象は、線形およびランダム特徴モデルにすでに存在することが分かる。 本手法は,高次元解析のツールセットを進化させ,超パラメータ最小二乗の漸近分布を正確に特徴付ける。 より単純なモデルを分析することによって得られる直感は、ニューラルネットワーク上で数値的に検証される。

Deep networks are typically trained with many more parameters than the size of the training dataset. Recent empirical evidence indicates that the practice of overparameterization not only benefits training large models, but also assists - perhaps counterintuitively - building lightweight models. Specifically, it suggests that overparameterization benefits model pruning / sparsification. This paper sheds light on these empirical findings by theoretically characterizing the high-dimensional asymptotics of model pruning in the overparameterized regime. The theory presented addresses the following core question: "should one train a small model from the beginning, or first train a large model and then prune?". We analytically identify regimes in which, even if the location of the most informative features is known, we are better off fitting a large model and then pruning rather than simply training with the known informative features. This leads to a new double descent in the training of sparse models: growing the original model, while preserving the target sparsity, improves the test accuracy as one moves beyond the overparameterization threshold. Our analysis further reveals the benefit of retraining by relating it to feature correlations. We find that the above phenomena are already present in linear and random-features models. Our technical approach advances the toolset of high-dimensional analysis and precisely characterizes the asymptotic distribution of over-parameterized least-squares. The intuition gained by analytically studying simpler models is numerically verified on neural networks.
翻訳日:2021-05-03 03:09:36 公開日:2020-12-16
# MINIROCKET: 時系列分類のための非常に高速な(ほぼ)決定論的変換

MINIROCKET: A Very Fast (Almost) Deterministic Transform for Time Series Classification ( http://arxiv.org/abs/2012.08791v1 )

ライセンス: Link先を確認
Angus Dempster, Daniel F. Schmidt, Geoffrey I. Webb(参考訳) 最近まで、時系列分類の最も正確な方法は計算の複雑さによって制限されていた。 ROCKETは、ランダムな畳み込みカーネルを用いて入力時系列を変換し、変換された特徴を用いて線形分類器を訓練することにより、既存の手法の計算コストのごく一部で最先端の精度を達成する。 ROCKETを新しい手法であるMINIROCKETに再構成し、より大きなデータセットで最大75倍高速にし、ほぼ決定論的に(そしてオプションで、追加の計算コストで、完全に決定論的に)、本質的に同じ精度を維持しながら、ほぼ決定的になる。 この方法を用いることで、UCRアーカイブから最先端の精度まで、10分以内で109のデータセットの分類器をトレーニングし、テストすることができる。 MINIROCKETは、ROCKETを含む他のどの精度の方法よりもはるかに高速で、ほぼ同様の計算コストの方法よりもはるかに正確である。 したがって、MINIROCKET は ROCKET のデフォルト変種として考慮され、使用されるべきである。

Until recently, the most accurate methods for time series classification were limited by high computational complexity. ROCKET achieves state-of-the-art accuracy with a fraction of the computational expense of most existing methods by transforming input time series using random convolutional kernels, and using the transformed features to train a linear classifier. We reformulate ROCKET into a new method, MINIROCKET, making it up to 75 times faster on larger datasets, and making it almost deterministic (and optionally, with additional computational expense, fully deterministic), while maintaining essentially the same accuracy. Using this method, it is possible to train and test a classifier on all of 109 datasets from the UCR archive to state-of-the-art accuracy in less than 10 minutes. MINIROCKET is significantly faster than any other method of comparable accuracy (including ROCKET), and significantly more accurate than any other method of even roughly-similar computational expense. As such, we suggest that MINIROCKET should now be considered and used as the default variant of ROCKET.
翻訳日:2021-05-03 03:09:12 公開日:2020-12-16
# 深層ニューラルネットワークのランキング一般化におけるノイズレジリエンスの利用

Using noise resilience for ranking generalization of deep neural networks ( http://arxiv.org/abs/2012.08854v1 )

ライセンス: Link先を確認
Depen Morwani, Rahul Vashisht, Harish G. Ramaswamy(参考訳) 近年の論文では、十分な過パラメータのニューラルネットワークがランダムラベルにも完全に適合できることが示されている。 したがって、実世界のデータ上でのネットワークの一般化性能の背景となる理由を理解することが重要である。 本研究では,トレーニングデータとそのパラメータからネットワークの一般化誤差を予測するためのいくつかの手法を提案する。 この手法の1つを用いて,NeurIPS 2020における深層学習(PGDL)競争の予測一般化において,ネットワークの耐雑音性に基づいて第5位を確保した。

Recent papers have shown that sufficiently overparameterized neural networks can perfectly fit even random labels. Thus, it is crucial to understand the underlying reason behind the generalization performance of a network on real-world data. In this work, we propose several measures to predict the generalization error of a network given the training data and its parameters. Using one of these measures, based on noise resilience of the network, we secured 5th position in the predicting generalization in deep learning (PGDL) competition at NeurIPS 2020.
翻訳日:2021-05-03 03:08:51 公開日:2020-12-16
# 故障発生予測のための時間的テンソル分解

Time-Aware Tensor Decomposition for Missing Entry Prediction ( http://arxiv.org/abs/2012.08855v1 )

ライセンス: Link先を確認
Dawon Ahn, Jun-Gi Jang, U Kang(参考訳) 不足エントリを持つ時間進化テンソルを考えると、不足エントリを正確に予測するために効果的に分解できるだろうか? テンソル因子化は様々な多次元実世界のデータ解析に広く利用されている。 しかし,既存のテンソル因子化モデルではテンソル因子化の時間的特性は無視されている。 さらに、タイムスライスのスパース性のため、精度の低下には対処しない。 テンソル分解における時間的特性の活用と時間スライスの空間性を考える上での本質的な問題は未解決のままである。 本稿では,実世界のテンソルに対する新しいテンソル分解法である tatd (time-aware tensor decomposition) を提案する。 TATDは、実世界の時間的テンソルの時間的依存性と時間的変化を利用するように設計されている。 時間依存をモデル化するための新しいスムーズな正規化法を提案する。 さらに,時間的変化を考慮したTATDの性能向上を図る。 時相テンソル因子化に適した交互最適化スキームをスムーズな正規化で設計する。 大規模な実験により、TATDは時間テンソルを分解するための最先端の精度を提供することが示された。

Given a time-evolving tensor with missing entries, how can we effectively factorize it for precisely predicting the missing entries? Tensor factorization has been extensively utilized for analyzing various multi-dimensional real-world data. However, existing models for tensor factorization have disregarded the temporal property for tensor factorization while most real-world data are closely related to time. Moreover, they do not address accuracy degradation due to the sparsity of time slices. The essential problems of how to exploit the temporal property for tensor decomposition and consider the sparsity of time slices remain unresolved. In this paper, we propose TATD (Time-Aware Tensor Decomposition), a novel tensor decomposition method for real-world temporal tensors. TATD is designed to exploit temporal dependency and time-varying sparsity of real-world temporal tensors. We propose a new smoothing regularization with Gaussian kernel for modeling time dependency. Moreover, we improve the performance of TATD by considering time-varying sparsity. We design an alternating optimization scheme suitable for temporal tensor factorization with our smoothing regularization. Extensive experiments show that TATD provides the state-of-the-art accuracy for decomposing temporal tensors.
翻訳日:2021-05-03 03:08:41 公開日:2020-12-16
# クラスタリングアンサンブル - 低ランクテンソル近似

Clustering Ensemble Meets Low-rank Tensor Approximation ( http://arxiv.org/abs/2012.08916v1 )

ライセンス: Link先を確認
Yuheng Jia, Hui Liu, Junhui Hou, Qingfu Zhang(参考訳) 本稿では,複数のクラスタリングを組み合わせ,個々のクラスタリングよりも優れたパフォーマンスを実現するクラスタリングアンサンブルの問題について検討する。 既存のクラスタリングアンサンブル法は一般に、異なる基底クラスタリングからの連結行列の重み付き線形結合としてサンプル間の対の類似性を示す共結合行列を構築し、結果として得られる共結合行列を、例えばスペクトルクラスタリングのようなオフ・ザ・セットクラスタリングアルゴリズムの入力として採用する。 しかし、共連想行列は、粗い塩基クラスタリングによって支配され、結果として性能は低下する。 本稿では,グローバルな視点から問題を解くために,新しい低ランクテンソル近似法を提案する。 具体的には、2つのサンプルが同一のクラスタに異なるベースクラスタでクラスタ化されているかどうかを調べることで、サンプル間の限定的かつ信頼性の高い関係を含むコヒーレントリンク行列を導出する。 次にコヒーレントリンク行列と共結合行列を積み重ねて3次元テンソルを形成する。低ランク性はコヒーレントリンク行列の情報を共結合行列に伝達するためにさらに研究され、洗練された共結合行列を生成する。 提案手法を凸制約最適化問題として定式化し,効率よく解く。 7つのベンチマークデータセットを用いた実験の結果,提案手法は12の最先端手法と比較して,クラスタリング性能のブレークスルーを達成した。 我々の知る限りでは、これはクラスタリングアンサンブルにおける低ランクテンソルの可能性を探究する最初の試みであり、これは従来のアプローチと根本的に異なる。

This paper explores the problem of clustering ensemble, which aims to combine multiple base clusterings to produce better performance than that of the individual one. The existing clustering ensemble methods generally construct a co-association matrix, which indicates the pairwise similarity between samples, as the weighted linear combination of the connective matrices from different base clusterings, and the resulting co-association matrix is then adopted as the input of an off-the-shelf clustering algorithm, e.g., spectral clustering. However, the co-association matrix may be dominated by poor base clusterings, resulting in inferior performance. In this paper, we propose a novel low-rank tensor approximation-based method to solve the problem from a global perspective. Specifically, by inspecting whether two samples are clustered to an identical cluster under different base clusterings, we derive a coherent-link matrix, which contains limited but highly reliable relationships between samples. We then stack the coherent-link matrix and the co-association matrix to form a three-dimensional tensor, the low-rankness property of which is further explored to propagate the information of the coherent-link matrix to the co-association matrix, producing a refined co-association matrix. We formulate the proposed method as a convex constrained optimization problem and solve it efficiently. Experimental results over 7 benchmark data sets show that the proposed model achieves a breakthrough in clustering performance, compared with 12 state-of-the-art methods. To the best of our knowledge, this is the first work to explore the potential of low-rank tensor on clustering ensemble, which is fundamentally different from previous approaches.
翻訳日:2021-05-03 03:08:27 公開日:2020-12-16
# 対実データ拡張によるサンプル効率の良い強化学習

Sample-Efficient Reinforcement Learning via Counterfactual-Based Data Augmentation ( http://arxiv.org/abs/2012.09092v1 )

ライセンス: Link先を確認
Chaochao Lu, Biwei Huang, Ke Wang, Jos\'e Miguel Hern\'andez-Lobato, Kun Zhang, Bernhard Sch\"olkopf(参考訳) 強化学習(rl)アルゴリズムは通常、かなりの量のインタラクションデータを必要とし、固定された環境での特定のタスクに対してのみうまく機能する。 しかしながら、医療などのいくつかのシナリオでは、通常、各患者に利用可能な記録はほとんどなく、患者は同じ治療に対する異なる反応を示すことがあるため、最適なポリシーを学ぶために現在のRLアルゴリズムの適用を妨げる。 本研究では, 構造因果モデル(SCM)を用いて, 対象間の共通性と相違を利用して推定される状態ダイナミクスをモデル化するデータ効率の高いRLアルゴリズムを提案する。 学習されたscmは、もし別の治療が受けられたら何が起こったのかを、事実上の推論を可能にします。 実際の(おそらくリスクの高い)探索を避け、限られた経験がバイアスのあるポリシーにつながる問題を軽減します。 本稿では,人口レベルと個人レベルの両方を学習するための対実的RLアルゴリズムを提案する。 本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。 合成および実世界のデータに対する実験結果から,提案手法の有効性が示された。

Reinforcement learning (RL) algorithms usually require a substantial amount of interaction data and perform well only for specific tasks in a fixed environment. In some scenarios such as healthcare, however, usually only few records are available for each patient, and patients may show different responses to the same treatment, impeding the application of current RL algorithms to learn optimal policies. To address the issues of mechanism heterogeneity and related data scarcity, we propose a data-efficient RL algorithm that exploits structural causal models (SCMs) to model the state dynamics, which are estimated by leveraging both commonalities and differences across subjects. The learned SCM enables us to counterfactually reason what would have happened had another treatment been taken. It helps avoid real (possibly risky) exploration and mitigates the issue that limited experiences lead to biased policies. We propose counterfactual RL algorithms to learn both population-level and individual-level policies. We show that counterfactual outcomes are identifiable under mild conditions and that Q- learning on the counterfactual-based augmented data set converges to the optimal value function. Experimental results on synthetic and real-world data demonstrate the efficacy of the proposed approach.
翻訳日:2021-05-03 03:07:58 公開日:2020-12-16
# カルマンフィルタを用いた前方衝突警報システムの逐次攻撃

Sequential Attacks on Kalman Filter-based Forward Collision Warning Systems ( http://arxiv.org/abs/2012.08704v1 )

ライセンス: Link先を確認
Yuzhe Ma, Jon Sharp, Ruizhe Wang, Earlence Fernandes, Xiaojin Zhu(参考訳) カルマンフィルタ(KF)は、逐次学習や変数推定を行うために様々な領域で広く使われている。 自動運転車の文脈では、KFは前方衝突警報(FCW)など多くの先進運転支援システム(ADAS)のコアコンポーネントを構成する。 状態(距離、速度など)を追跡する。 センサーの計測に基づく 関連する交通物体についてです KFのトラッキング出力は、しばしば下流ロジックに入力され、警告を生成する。 本稿では,前方衝突警告のより複雑な機械・人間ハイブリッドシステムの一部として,kfに対する敵意攻撃について検討する。 我々の攻撃目標は、KFに誤った状態推定を出力させ、誤った警告や遅延を発生させることで、人間のブレーキ決定に悪影響を及ぼすことです。 我々は,kfに供給される量量を順次操作し,最適操作を計算するための新しいモデル予測制御(mpc)手法を提案する。 シミュレーション運転環境で行った実験により、攻撃者は所望の目標時間に先立って測定を予定する操作により、FCW警告信号を変更できることが判明した。 これらの結果は、我々の攻撃が人間のドライバーをひそかに誤解させ、車両の衝突を引き起こすことを実証している。

Kalman Filter (KF) is widely used in various domains to perform sequential learning or variable estimation. In the context of autonomous vehicles, KF constitutes the core component of many Advanced Driver Assistance Systems (ADAS), such as Forward Collision Warning (FCW). It tracks the states (distance, velocity etc.) of relevant traffic objects based on sensor measurements. The tracking output of KF is often fed into downstream logic to produce alerts, which will then be used by human drivers to make driving decisions in near-collision scenarios. In this paper, we study adversarial attacks on KF as part of the more complex machine-human hybrid system of Forward Collision Warning. Our attack goal is to negatively affect human braking decisions by causing KF to output incorrect state estimations that lead to false or delayed alerts. We accomplish this by sequentially manipulating measure ments fed into the KF, and propose a novel Model Predictive Control (MPC) approach to compute the optimal manipulation. Via experiments conducted in a simulated driving environment, we show that the attacker is able to successfully change FCW alert signals through planned manipulation over measurements prior to the desired target time. These results demonstrate that our attack can stealthily mislead a distracted human driver and cause vehicle collisions.
翻訳日:2021-05-03 03:06:36 公開日:2020-12-16
# 公正攻撃によるアルゴリズムバイアスの悪化

Exacerbating Algorithmic Bias through Fairness Attacks ( http://arxiv.org/abs/2012.08723v1 )

ライセンス: Link先を確認
Ninareh Mehrabi, Muhammad Naveed, Fred Morstatter, Aram Galstyan(参考訳) 近年、アルゴリズム的公平性が注目され、さまざまな機械学習アルゴリズムの公平性を特徴付ける多くの定量的指標が提案されている。 この関心にもかかわらず、意図的敵意攻撃に対する公平度対策の堅牢性は適切に対処されていない。 実際、ほとんどの敵対的機械学習は、システムの公正性に関係なく、システムの正確性に対する悪意のある攻撃の影響に焦点を当てている。 本稿では,敵が意図的にシステムの公正性を狙う新たな種類のデータ中毒攻撃を提案する。 具体的には、フェアネス対策を狙う2つの攻撃群を提案する。 アンカー攻撃では、特定のターゲットポイントに毒点を配置することで決定境界を歪め、結果にバイアスを与える。 公平性に対する影響攻撃においては,敏感な属性と決定結果の共分散を最大化し,モデルの公平性に影響を与えることを目的とする。 提案攻撃の有効性を示す広範な実験を行った。

Algorithmic fairness has attracted significant attention in recent years, with many quantitative measures suggested for characterizing the fairness of different machine learning algorithms. Despite this interest, the robustness of those fairness measures with respect to an intentional adversarial attack has not been properly addressed. Indeed, most adversarial machine learning has focused on the impact of malicious attacks on the accuracy of the system, without any regard to the system's fairness. We propose new types of data poisoning attacks where an adversary intentionally targets the fairness of a system. Specifically, we propose two families of attacks that target fairness measures. In the anchoring attack, we skew the decision boundary by placing poisoned points near specific target points to bias the outcome. In the influence attack on fairness, we aim to maximize the covariance between the sensitive attributes and the decision outcome and affect the fairness of the model. We conduct extensive experiments that indicate the effectiveness of our proposed attacks.
翻訳日:2021-05-03 03:06:15 公開日:2020-12-16
# より業界に優しい:高効率設計による連合学習

More Industry-friendly: Federated Learning with High Efficient Design ( http://arxiv.org/abs/2012.08809v1 )

ライセンス: Link先を確認
Dingwei Li, Qinglong Chang, Lixue Pang, Yanfang Zhang, Xudong Sun, Jikun Ding, Liang Zhang(参考訳) Googleがフェデレートドラーニング(FL)のパラダイムを捨てて以来、多くの成果が達成されているが、研究者がその効率を最適化する余地は依然としてたくさんある。 本稿では,非iidデータセットに対するパーソナライズ最適化を目的としたダブルヘッド設計と通信節約のための段階的モデル共有設計を備えた高効率fl手法を提案する。 実験結果から,本手法は他の最先端技術手法 (sotas) よりも精度が安定し,様々なデータ分散間での通信効率が向上し,業界フレンドリーであることが判明した。

Although many achievements have been made since Google threw out the paradigm of federated learning (FL), there still exists much room for researchers to optimize its efficiency. In this paper, we propose a high efficient FL method equipped with the double head design aiming for personalization optimization over non-IID dataset, and the gradual model sharing design for communication saving. Experimental results show that, our method has more stable accuracy performance and better communication efficient across various data distributions than other state of art methods (SOTAs), makes it more industry-friendly.
翻訳日:2021-05-03 03:06:02 公開日:2020-12-16
# 非定常環境におけるベイズ決定モデルに基づくL'evy walk

L\'evy walks derived from a Bayesian decision-making model in non-stationary environments ( http://arxiv.org/abs/2012.08858v1 )

ライセンス: Link先を確認
Shuji Shinohara, Nobuhito Manome, Yoshihiro Nakajima, Yukio Pegio Gunji, Toru Moriyama, Hiroshi Okamoto, Shunji Mitsuyoshi, Ung-il Chung(参考訳) l\'evy walkは様々な生物の回遊行動パターンに見られ、この現象の理由はよく議論されている。 学習が非定常環境における意思決定時の信頼度レベルの変化を引き起こし、l\'evy-walkのようなパターンをもたらすことをシミュレーションを用いて実証する。 信頼を伴う推論アルゴリズムはベイズ推論である。 本稿では,ベイズ推論における学習と忘れの影響を紹介するアルゴリズムを提案し,提案アルゴリズムを組み込んだ2つの意思決定エージェントが,相手の観測データから互いの内部モデルを推定する模倣ゲームを提案する。 学習なしでは、エージェントの信頼度レベルは、相手に関する情報が不足しているため低く、ブラウンの歩行は、幅広い記憶喪失率で発生した。 逆に、学習が導入されたとき、高い信頼度は高い忘れ込み率でも時折発生し、ブラウンの歩行は、高信頼状態と低信頼状態が混在するL''evyの歩行となった。

L\'evy walks are found in the migratory behaviour patterns of various organisms, and the reason for this phenomenon has been much discussed. We use simulations to demonstrate that learning causes the changes in confidence level during decision-making in non-stationary environments, and results in L\'evy-walk-like patterns. One inference algorithm involving confidence is Bayesian inference. We propose an algorithm that introduces the effects of learning and forgetting into Bayesian inference, and simulate an imitation game in which two decision-making agents incorporating the algorithm estimate each other's internal models from their opponent's observational data. For forgetting without learning, agent confidence levels remained low due to a lack of information on the counterpart and Brownian walks occurred for a wide range of forgetting rates. Conversely, when learning was introduced, high confidence levels occasionally occurred even at high forgetting rates, and Brownian walks universally became L\'evy walks through a mixture of high- and low-confidence states.
翻訳日:2021-05-03 03:05:50 公開日:2020-12-16
# 知識グラフマイニングと説明可能なAIを用いたADR機構の検討

Investigating ADR mechanisms with knowledge graph mining and explainable AI ( http://arxiv.org/abs/2012.09077v1 )

ライセンス: Link先を確認
Emmanuel Bresso, Pierre Monnin, C\'edric Bousquet, Fran\c{c}ois-Elie Calvier, Ndeye-Coumba Ndiaye, Nadine Petitpain, Malika Sma\"il-Tabbone, Adrien Coulet(参考訳) 逆薬物反応(ADRs)は、ランダム化臨床試験や市販後の薬剤移動において特徴付けられるが、ほとんどの場合、その分子機構は分かっていない。 臨床試験とは別に、薬物成分に関する多くの知識要素がオープンアクセスナレッジグラフで利用可能である。 さらに、薬物をいくつかのADRに対して因果的または非因果的とみなす薬物分類が確立されている。 特定の種類のadrに対して薬剤因果を区別するかどうかを自動的に再現できる生体分子の特徴を同定するための知識グラフをマイニングする。 説明可能なaiの観点からは、分類自体を説明する人間の可読性モデルを提供するが、adrの背後にある分子メカニズムの説明要素を提供するため、決定木や分類規則のような単純な分類手法を探求する。 まとめると、我々は特徴の知識グラフを抽出し、ADRに関連付けられていない薬物を識別するための分類器を訓練し、専門家の分類を再現し、専門家によって解釈できる特徴(遺伝子オントロジー用語、薬物標的、経路名など)を分離し、手動で説明できるかどうかを評価する。 抽出された特徴は、DILIおよびSCARの薬剤因果関係の良好な忠実度分類で再現される。 専門家は、最も差別的な特徴の73%と38%は、それぞれDILIとSCARの解説であり、90%と77%で部分的に合意している(2/3)。 知識グラフは、シンプルで説明可能なモデルで、ADRに原因があるかどうかを区別するための多様な機能を提供します。 分類を説明することに加えて、ほとんどの識別的特徴はadr機構をさらに調査する良い候補であると考えられる。

Adverse Drug Reactions (ADRs) are characterized within randomized clinical trials and postmarketing pharmacovigilance, but their molecular mechanism remains unknown in most cases. Aside from clinical trials, many elements of knowledge about drug ingredients are available in open-access knowledge graphs. In addition, drug classifications that label drugs as either causative or not for several ADRs, have been established. We propose to mine knowledge graphs for identifying biomolecular features that may enable reproducing automatically expert classifications that distinguish drug causative or not for a given type of ADR. In an explainable AI perspective, we explore simple classification techniques such as Decision Trees and Classification Rules because they provide human-readable models, which explain the classification itself, but may also provide elements of explanation for molecular mechanisms behind ADRs. In summary, we mine a knowledge graph for features; we train classifiers at distinguishing, drugs associated or not with ADRs; we isolate features that are both efficient in reproducing expert classifications and interpretable by experts (i.e., Gene Ontology terms, drug targets, or pathway names); and we manually evaluate how they may be explanatory. Extracted features reproduce with a good fidelity classifications of drugs causative or not for DILI and SCAR. Experts fully agreed that 73% and 38% of the most discriminative features are possibly explanatory for DILI and SCAR, respectively; and partially agreed (2/3) for 90% and 77% of them. Knowledge graphs provide diverse features to enable simple and explainable models to distinguish between drugs that are causative or not for ADRs. In addition to explaining classifications, most discriminative features appear to be good candidates for investigating ADR mechanisms further.
翻訳日:2021-05-03 03:05:11 公開日:2020-12-16
# carla real traffic scenarios -- new training ground and benchmark for autonomous driving

CARLA Real Traffic Scenarios -- novel training ground and benchmark for autonomous driving ( http://arxiv.org/abs/2012.11329v1 )

ライセンス: Link先を確認
B{\l}a\.zej Osi\'nski, Piotr Mi{\l}o\'s, Adam Jakubowski, Pawe{\l} Zi\k{e}cina, Micha{\l} Martyniak, Christopher Galias, Antonia Breuer, Silviu Homoceanu, Henryk Michalewski(参考訳) 本研究は,実世界のトラヒックに基づくcarlaシミュレータにおいて,インタラクティブなトラヒックシナリオを導入する。 我々は数秒間続く戦術的タスクに集中しており、これは現在の制御方法では特に困難である。 carla real traffic scenarios (crts)は、自動運転システムの訓練とテストの場となることを目的としている。 この目的のために、パーミッシブライセンスの下でコードをオープンソース化し、ベースラインポリシーのセットを提示します。 CRTSは交通シナリオの現実性とシミュレーションの柔軟性を組み合わせる。 我々は強化学習アルゴリズムを用いてエージェントを訓練する。 競技警察の獲得方法を示し,観察型や報奨制度が訓練過程やエージェントの行動に与える影響を実験的に評価する。

This work introduces interactive traffic scenarios in the CARLA simulator, which are based on real-world traffic. We concentrate on tactical tasks lasting several seconds, which are especially challenging for current control methods. The CARLA Real Traffic Scenarios (CRTS) is intended to be a training and testing ground for autonomous driving systems. To this end, we open-source the code under a permissive license and present a set of baseline policies. CRTS combines the realism of traffic scenarios and the flexibility of simulation. We use it to train agents using a reinforcement learning algorithm. We show how to obtain competitive polices and evaluate experimentally how observation types and reward schemes affect the training process and the resulting agent's behavior.
翻訳日:2021-05-03 03:04:03 公開日:2020-12-16
# 変分量子アルゴリズム

Variational Quantum Algorithms ( http://arxiv.org/abs/2012.09265v1 )

ライセンス: Link先を確認
M. Cerezo, Andrew Arrasmith, Ryan Babbush, Simon C. Benjamin, Suguru Endo, Keisuke Fujii, Jarrod R. McClean, Kosuke Mitarai, Xiao Yuan, Lukasz Cincio, Patrick J. Coles(参考訳) 大規模量子系をシミュレートしたり、大規模線形代数問題を解くような応用は、計算コストが極端に高いため、古典コンピュータにとって非常に困難である。 量子コンピュータはこれらのアプリケーションをアンロックすることを約束するが、フォールトトレラントな量子コンピュータは数年は利用できないだろう。 現在利用可能な量子デバイスには、量子ビット数の制限や回路深さを制限するノイズプロセスなど、深刻な制約がある。 パラメトリズド量子回路の訓練に古典的最適化器を用いる変分量子アルゴリズム(vqas)は、これらの制約に対処するための主要な戦略として登場した。 VQAは現在、研究者が量子コンピュータのために想定した全てのアプリケーションに対して提案されており、量子優位を得るための最良の希望のようだ。 それでも、VQAの訓練性、正確性、効率性などの課題は残っている。 本稿では,VQAの分野の概要を紹介する。 さらに,これらの課題を克服する戦略や,量子的優位性を得る手段として利用するためのエキサイティングな展望についても論じる。

Applications such as simulating large quantum systems or solving large-scale linear algebra problems are immensely challenging for classical computers due their extremely high computational cost. Quantum computers promise to unlock these applications, although fault-tolerant quantum computers will likely not be available for several years. Currently available quantum devices have serious constraints, including limited qubit numbers and noise processes that limit circuit depth. Variational Quantum Algorithms (VQAs), which employ a classical optimizer to train a parametrized quantum circuit, have emerged as a leading strategy to address these constraints. VQAs have now been proposed for essentially all applications that researchers have envisioned for quantum computers, and they appear to the best hope for obtaining quantum advantage. Nevertheless, challenges remain including the trainability, accuracy, and efficiency of VQAs. In this review article we present an overview of the field of VQAs. Furthermore, we discuss strategies to overcome their challenges as well as the exciting prospects for using them as a means to obtain quantum advantage.
翻訳日:2021-05-03 03:03:49 公開日:2020-12-16
# 容器追跡のための学習アルゴリズム : レビュー

Learning-Based Algorithms for Vessel Tracking: A Review ( http://arxiv.org/abs/2012.08929v1 )

ライセンス: Link先を確認
Dengqiang Jia, Xiahai Zhuang(参考訳) 血管疾患の診断と治療において,効率的な血管追跡アルゴリズムの開発が重要である。 血管追跡は、キー(シード)ポイントの検出、中心線抽出、血管分割などの認識問題を解決することを目的としている。 血管の複雑な形態と血管造影の像特性に起因する血管追跡の問題を克服するために,広範な画像処理技術が開発されている。 本稿では,機械学習に基づく船舶追跡手法に関する文献レビューを行う。 まず、従来の機械学習ベースのアルゴリズムをレビューし、次にディープラーニングベースのフレームワークに関する一般的な調査を行う。 レビューした手法に基づいて,評価問題を提起する。 本論文は, 残りの治験と今後の研究に関する議論で締めくくられる。

Developing efficient vessel-tracking algorithms is crucial for imaging-based diagnosis and treatment of vascular diseases. Vessel tracking aims to solve recognition problems such as key (seed) point detection, centerline extraction, and vascular segmentation. Extensive image-processing techniques have been developed to overcome the problems of vessel tracking that are mainly attributed to the complex morphologies of vessels and image characteristics of angiography. This paper presents a literature review on vessel-tracking methods, focusing on machine-learning-bas ed methods. First, the conventional machine-learning-bas ed algorithms are reviewed, and then, a general survey of deep-learning-based frameworks is provided. On the basis of the reviewed methods, the evaluation issues are introduced. The paper is concluded with discussions about the remaining exigencies and future research.
翻訳日:2021-05-03 03:03:33 公開日:2020-12-16
# 網膜画像からの血管分割のための重み付き損失関数と群正規化による伝達学習

Transfer Learning Through Weighted Loss Function and Group Normalization for Vessel Segmentation from Retinal Images ( http://arxiv.org/abs/2012.09250v1 )

ライセンス: Link先を確認
Abdullah Sarhan, Jon Rokne, Reda Alhajj, and Andrew Crichton(参考訳) 血管の血管構造は緑内障や糖尿病網膜症などの網膜疾患の診断に重要である。 これらの血管の正確なセグメンテーションは、光学ディスクや光学カップのような網膜の物体の検出に役立ち、これらの領域に損傷があるかどうかを決定する。 また,血管構造は緑内障の診断に有用である。 デジタルイメージングとコンピュータビジョン技術の急速な発展は、網膜血管を分割するアプローチを開発する可能性を高めた。 本稿では,深層学習と伝達学習を併用した網膜血管の分節化手法を提案する。 我々は、U-Net構造をエンコーダとしてカスタマイズしたInceptionV3を使い、複数のスキップ接続を使ってデコーダを作った。 さらに,網膜画像におけるクラス不均衡の問題に対処するために重み付き損失関数を用いた。 さらに,この分野に新たなデータセットを寄贈した。 私たちは6つの公開データセットと新しく作成されたデータセットでこのアプローチをテストしました。 平均精度は95.60%、サイス係数は80.98%であった。 総合的な実験から得られた結果は、異なるソースから得られた網膜画像における血管の分画に対する我々のアプローチの堅牢性を示している。 提案手法は,他の手法よりもセグメンテーション精度が高い。

The vascular structure of blood vessels is important in diagnosing retinal conditions such as glaucoma and diabetic retinopathy. Accurate segmentation of these vessels can help in detecting retinal objects such as the optic disc and optic cup and hence determine if there are damages to these areas. Moreover, the structure of the vessels can help in diagnosing glaucoma. The rapid development of digital imaging and computer-vision techniques has increased the potential for developing approaches for segmenting retinal vessels. In this paper, we propose an approach for segmenting retinal vessels that uses deep learning along with transfer learning. We adapted the U-Net structure to use a customized InceptionV3 as the encoder and used multiple skip connections to form the decoder. Moreover, we used a weighted loss function to handle the issue of class imbalance in retinal images. Furthermore, we contributed a new dataset to this field. We tested our approach on six publicly available datasets and a newly created dataset. We achieved an average accuracy of 95.60% and a Dice coefficient of 80.98%. The results obtained from comprehensive experiments demonstrate the robustness of our approach to the segmentation of blood vessels in retinal images obtained from different sources. Our approach results in greater segmentation accuracy than other approaches.
翻訳日:2021-05-03 03:02:32 公開日:2020-12-16
# Mis-Predictionsとの衝突に注目した言語事前学習を支援する

Focusing More on Conflicts with Mis-Predictions Helps Language Pre-Training ( http://arxiv.org/abs/2012.08789v1 )

ライセンス: Link先を確認
Chen Xing, Wencong Xiao, Yong Li, Wei Lin(参考訳) 本研究では,事前学習における誤り予測の助けを借りて,言語事前学習手法の有効性を向上させることを提案する。 誤った予測と相反する意味論を持つ入力文中の単語を無視することは、事前学習時に誤予測を引き起こす原因になりがちである。 したがって、事前学習中の誤予測はモデルの悪焦点の検出器として機能すると仮定する。 入力文中の他の単語に重点を置きながら、誤った予測との衝突にもっと焦点を合わせるようにモデルをトレーニングすれば、誤った予測をより容易に修正でき、モデル全体をより良く訓練することができます。 この目的に向けて、ミス予測(McMisP)の文脈に焦点を合わせることを提案する。 McMisPでは、単語間の共起情報を記録し、矛盾する単語と誤予測を教師なしで検出する。 すると、McMisPはそのような情報を使って注意モジュールを誘導する。 特に、トランスフォーマーのいくつかの注意モジュールは、誤った予測とほとんど共起していない入力文の単語に焦点を合わせるように最適化されている。 結果から,McMisPはBERTとELECTRAを著しく高速化し,下流タスクにおける性能向上を図っている。

In this work, we propose to improve the effectiveness of language pre-training methods with the help of mis-predictions during pre-training. Neglecting words in the input sentence that have conflicting semantics with mis-predictions is likely to be the reason of generating mis-predictions at pre-training. Therefore, we hypothesis that mis-predictions during pre-training can act as detectors of the ill focuses of the model. If we train the model to focus more on the conflicts with the mis-predictions while focus less on the rest words in the input sentence, the mis-predictions can be more easily corrected and the entire model could be better trained. Towards this end, we introduce Focusing Less on Context of Mis-predictions(McMi sP). In McMisP, we record the co-occurrence information between words to detect the conflicting words with mis-predictions in an unsupervised way. Then McMisP uses such information to guide the attention modules when a mis-prediction occurs. Specifically, several attention modules in the Transformer are optimized to focus more on words in the input sentence that have co-occurred rarely with the mis-predictions and vice versa. Results show that McMisP significantly expedites BERT and ELECTRA and improves their performances on downstream tasks.
翻訳日:2021-05-03 03:01:26 公開日:2020-12-16
# Show or Tell? 説明は説明よりも共有知覚の変化にロバストである

Show or Tell? Demonstration is More Robust to Changes in Shared Perception than Explanation ( http://arxiv.org/abs/2012.09035v1 )

ライセンス: Link先を確認
Theodore R. Sumers, Mark K. Ho, Thomas L. Griffiths(参考訳) 成功する教育には、教師と学習者の間の複雑な相互作用が伴う。 教師は、学習者が知覚し、信じるものに基づいて情報を選択し、伝達しなければならない。 教育学の研究は、教師と学習者が認識を共有する状況に焦点を当てていることが多い。 それにもかかわらず、教師と学習者は常に環境の同じ側面を経験したり経験したりするとは限らない。 本稿では,誤認識がコミュニケーションに与える影響について考察する。 異なる形態のコミュニケーションの有効性は、教師と学習者の間で共有される知覚状態に依存すると仮定する。 我々は,教師と学習者が知覚的に一致していない場合に,具体的媒体(デモ)が抽象的媒体(言語)よりも堅牢であるかどうかをテストするための協調学習ゲームを開発する。 その結果,(1)言語に基づく授業は知覚的不適応の影響を受けやすいが,(2)実演に基づく教育はニュアンス情報を伝達する可能性が低いことがわかった。 人間の教育と機械学習について考察する。

Successful teaching entails a complex interaction between a teacher and a learner. The teacher must select and convey information based on what they think the learner perceives and believes. Teaching always involves misaligned beliefs, but studies of pedagogy often focus on situations where teachers and learners share perceptions. Nonetheless, a teacher and learner may not always experience or attend to the same aspects of the environment. Here, we study how misaligned perceptions influence communication. We hypothesize that the efficacy of different forms of communication depends on the shared perceptual state between teacher and learner. We develop a cooperative teaching game to test whether concrete mediums (demonstrations, or "showing") are more robust than abstract ones (language, or "telling") when the teacher and learner are not perceptually aligned. We find evidence that (1) language-based teaching is more affected by perceptual misalignment, but (2) demonstration-based teaching is less likely to convey nuanced information. We discuss implications for human pedagogy and machine learning.
翻訳日:2021-05-03 03:00:58 公開日:2020-12-16
# 帰納的関係推論のためのコミュニケーションメッセージパッシング

Communicative Message Passing for Inductive Relation Reasoning ( http://arxiv.org/abs/2012.08911v1 )

ライセンス: Link先を確認
Sijie Mai, Shuangjia Zheng, Yuedong Yang, Haifeng Hu(参考訳) 知識グラフの関連性予測は、エンティティ間の欠落関係を予測することを目的としている。 帰納的関係予測の重要性にもかかわらず、以前の作品のほとんどはトランスダクティブな設定に限られており、以前は目に見えない実体を処理できない。 最近提案された部分グラフに基づく関係推論モデルは、候補トリプレットをインダクティブに囲む部分グラフ構造からリンクを予測する代替手段を提供した。 しかし,これらの手法は,抽出した部分グラフの有向性を無視し,部分グラフモデリングにおける関係情報の役割を弱めることが多い。 その結果、非対称/反対称三重項を効果的に扱うことができず、標的三重項への埋め込みが不十分である。 この目的のために、局所的な有向部分グラフ構造に起因し、エンティティに依存しない意味関係を処理するために活発な帰納的バイアスを持つ、 \textbf{C}\textbf{o}mmunicative \textbf{M}essage \textbf{P}assing Neural Network for \textbf{I}nductive re\textbf{L}ation r\textbf{E}asoning, \textbf{CoMPILE} を導入する。 既存のモデルとは対照的に、CoMPILEは通信カーネルを介してエッジとタイトル間のメッセージインタラクションを強化し、関係情報の十分なフローを可能にする。 さらに,非対称/反対称関係を自然に処理できることを示すため,有向包含部分グラフを抽出し,モデルパラメータ数を爆発的に増加させる必要がなくなる。 広範囲な実験により、変種インダクティブ設定で一般的に使用されるベンチマークデータセットの最先端メソッドと比較して、実質的なパフォーマンス向上を示す。

Relation prediction for knowledge graphs aims at predicting missing relationships between entities. Despite the importance of inductive relation prediction, most previous works are limited to a transductive setting and cannot process previously unseen entities. The recent proposed subgraph-based relation reasoning models provided alternatives to predict links from the subgraph structure surrounding a candidate triplet inductively. However, we observe that these methods often neglect the directed nature of the extracted subgraph and weaken the role of relation information in the subgraph modeling. As a result, they fail to effectively handle the asymmetric/anti-symm etric triplets and produce insufficient embeddings for the target triplets. To this end, we introduce a \textbf{C}\textbf{o}mmunicative \textbf{M}essage \textbf{P}assing neural network for \textbf{I}nductive re\textbf{L}ation r\textbf{E}asoning, \textbf{CoMPILE}, that reasons over local directed subgraph structures and has a vigorous inductive bias to process entity-independent semantic relations. In contrast to existing models, CoMPILE strengthens the message interactions between edges and entitles through a communicative kernel and enables a sufficient flow of relation information. Moreover, we demonstrate that CoMPILE can naturally handle asymmetric/anti-symm etric relations without the need for explosively increasing the number of model parameters by extracting the directed enclosing subgraphs. Extensive experiments show substantial performance gains in comparison to state-of-the-art methods on commonly used benchmark datasets with variant inductive settings.
翻訳日:2021-05-03 03:00:34 公開日:2020-12-16
# 生産・生産における知識グラフ : 体系的文献レビュー

Knowledge Graphs in Manufacturing and Production: A Systematic Literature Review ( http://arxiv.org/abs/2012.09049v1 )

ライセンス: Link先を確認
Georg Buchgeher, David Gabauer, Jorge Martinez-Gil, Lisa Ehrlinger(参考訳) 製造および生産における知識グラフは、生産ラインをより高い品質の出力でより効率的かつ柔軟にすることを目的としている。 これにより、知識グラフは企業が産業の4.0の目標に達するのを魅力的にしている。 しかし、この分野における既存の研究は非常に予備的であり、製造・生産分野における知識グラフの適用方法を分析するためのさらなる研究が必要である。 そこで我々は,この分野の最先端を特徴づける試みとして,退出研究を同定し,さらなる研究のためのギャップと機会を識別し,体系的な文献レビューを行った。 そこで本研究では,文献の重要事実,研究型ファセット,知識グラフの特徴,応用シナリオの4つの基準に従って分類・分析された既存文献の主研究の発見に焦点をあてた。 さらに,方法論,実証的証拠,関連性の観点からより深い知見を得るために,本研究の評価も行われている。 その結果、知識融合が現在、知識グラフの主要なユースケースであるという事実、経験的研究と産業的応用が依然として欠落していること、グラフ埋め込みが十分に活用されていないこと、技術的文献が急速に成長しているにもかかわらずピークには程遠いと思われることなど、ドメインの全体像を提供することができる。

Knowledge graphs in manufacturing and production aim to make production lines more efficient and flexible with higher quality output. This makes knowledge graphs attractive for companies to reach Industry 4.0 goals. However, existing research in the field is quite preliminary, and more research effort on analyzing how knowledge graphs can be applied in the field of manufacturing and production is needed. Therefore, we have conducted a systematic literature review as an attempt to characterize the state-of-the-art in this field, i.e., by identifying exiting research and by identifying gaps and opportunities for further research. To do that, we have focused on finding the primary studies in the existing literature, which were classified and analyzed according to four criteria: bibliometric key facts, research type facets, knowledge graph characteristics, and application scenarios. Besides, an evaluation of the primary studies has also been carried out to gain deeper insights in terms of methodology, empirical evidence, and relevance. As a result, we can offer a complete picture of the domain, which includes such interesting aspects as the fact that knowledge fusion is currently the main use case for knowledge graphs, that empirical research and industrial application are still missing to a large extent, that graph embeddings are not fully exploited, and that technical literature is fast-growing but seems to be still far from its peak.
翻訳日:2021-05-03 02:59:54 公開日:2020-12-16
# 特徴分離とアライメントによるドメイン適応オブジェクト検出

Domain Adaptive Object Detection via Feature Separation and Alignment ( http://arxiv.org/abs/2012.08689v1 )

ライセンス: Link先を確認
Chengyang Liang, Zixiang Zhao, Junmin Liu, Jiangshe Zhang(参考訳) 近年,対向型ドメイン適応オブジェクト検出法(DAOD)が急速に開発されている。 しかし、緊急に解決しなければならない問題が2つある。 まず、各ドメインのプライベート情報を無視しながら、ソースとターゲットドメインの全ての機能を整列させることで、多くのメソッドが分散シフトを減らす。 第二に、DAODは画像内の既存の領域に特徴アライメントを考慮すべきである。 しかし、領域の提案とバックグラウンドノイズの冗長性は、ドメインの転送可能性を減らす可能性がある。 そこで,grey-scale feature separation (gsfs) モジュール,local-global feature alignment (lgfa) モジュール,および region-instance-leve l alignment (rila) モジュールからなる特徴分離アライメントネットワーク (fsanet) を構築した。 GSFSモジュールは、二重ストリームフレームワークによる検出で役に立たない、散在/共有された情報を分解し、本質的なオブジェクト機能に集中し、最初の問題を解決する。 そして、LGFAとRILAモジュールはマルチレベル機能の分散シフトを低減する。 特に、スケールスペースフィルタリングはアライン化すべき領域の適応的探索の実装に活用され、各領域のインスタンスレベルの特徴を洗練し、第2号で述べた冗長性とノイズを低減する。 複数のベンチマークデータセットに対する様々な実験により、FSANetはターゲット領域の検出においてより良いパフォーマンスを達成し、最先端の手法を超えることが証明された。

Recently, adversarial-based domain adaptive object detection (DAOD) methods have been developed rapidly. However, there are two issues that need to be resolved urgently. Firstly, numerous methods reduce the distributional shifts only by aligning all the feature between the source and target domain, while ignoring the private information of each domain. Secondly, DAOD should consider the feature alignment on object existing regions in images. But redundancy of the region proposals and background noise could reduce the domain transferability. Therefore, we establish a Feature Separation and Alignment Network (FSANet) which consists of a gray-scale feature separation (GSFS) module, a local-global feature alignment (LGFA) module and a region-instance-leve l alignment (RILA) module. The GSFS module decomposes the distractive/shared information which is useless/useful for detection by a dual-stream framework, to focus on intrinsic feature of objects and resolve the first issue. Then, LGFA and RILA modules reduce the distributional shifts of the multi-level features. Notably, scale-space filtering is exploited to implement adaptive searching for regions to be aligned, and instance-level features in each region are refined to reduce redundancy and noise mentioned in the second issue. Various experiments on multiple benchmark datasets prove that our FSANet achieves better performance on the target domain detection and surpasses the state-of-the-art methods.
翻訳日:2021-05-03 02:59:30 公開日:2020-12-16
# セルフディープマッチングによる2段階コピーモーブ偽造検出と提案スーパーグルー

Two-Stage Copy-Move Forgery Detection with Self Deep Matching and Proposal SuperGlue ( http://arxiv.org/abs/2012.08697v1 )

ライセンス: Link先を確認
Yaqi Liu and Chao Xia and Xiaobin Zhu and Shengwei Xu(参考訳) コピーモーブ偽造検出は、同一画像中のペースト領域とソース領域を検出して改ざん画像を特定する。 本稿では,コピーモーブ偽造検出のための新しい二段階フレームワークを提案する。 第1ステージはバックボーンのセルフディープマッチングネットワークで、第2ステージはプロポーザル・スーパーグルーと名付けられている。 第1段階では、アトラス畳み込みとスキップマッチングが組み込まれ、空間情報を豊かにし、階層的特徴を活用する。 空間的注意は自己相関に基づいて構築され、外観に類似した領域を見つける能力を強化する。 第2段階では、偽アラーム領域を除去し、不完全領域を修復する提案が提案されている。 特に提案選択戦略は,提案生成とバックボーンスコアマップに基づいて,高度に疑わしい領域を囲むように設計されている。 次に、深層学習に基づくキーポイント抽出とマッチング、すなわちSuperPointとSuperGlueによって、候補提案の間でペアワイズマッチングを行う。 統合スコアマップ生成および改良手法は、両方のステージの結果を統合し、最適化された結果を得るように設計されている。 この二段階フレームワークは,疑わしい提案を得ることにより,エンドツーエンドのディープマッチングとキーポイントマッチングを統一し,コピーモブ偽造検出におけるディープラーニング研究のための新たなゲートを開く。 公開データセットの実験では、2段階フレームワークの有効性が示されています。

Copy-move forgery detection identifies a tampered image by detecting pasted and source regions in the same image. In this paper, we propose a novel two-stage framework specially for copy-move forgery detection. The first stage is a backbone self deep matching network, and the second stage is named as Proposal SuperGlue. In the first stage, atrous convolution and skip matching are incorporated to enrich spatial information and leverage hierarchical features. Spatial attention is built on self-correlation to reinforce the ability to find appearance similar regions. In the second stage, Proposal SuperGlue is proposed to remove false-alarmed regions and remedy incomplete regions. Specifically, a proposal selection strategy is designed to enclose highly suspected regions based on proposal generation and backbone score maps. Then, pairwise matching is conducted among candidate proposals by deep learning based keypoint extraction and matching, i.e., SuperPoint and SuperGlue. Integrated score map generation and refinement methods are designed to integrate results of both stages and obtain optimized results. Our two-stage framework unifies end-to-end deep matching and keypoint matching by obtaining highly suspected proposals, and opens a new gate for deep learning research in copy-move forgery detection. Experiments on publicly available datasets demonstrate the effectiveness of our two-stage framework.
翻訳日:2021-05-03 02:59:06 公開日:2020-12-16
# ランダムサンプル画像からの視覚情報推定の難しさ

Difficulty in estimating visual information from randomly sampled images ( http://arxiv.org/abs/2012.08751v1 )

ライセンス: Link先を確認
Masaki Kitayama, Hitoshi Kiya(参考訳) 本稿では,次元的に縮小した画像からオリジナル画像の視覚情報を推定することの難易度の観点から次元性低減法を評価する。 近年、ランダム変数の数を減少させるだけでなく、プライバシー保護機械学習のための視覚情報を保護するプロセスとして、次元減少が注目されている。 このような理由から,視覚情報推定の難しさについて論じる。 特に,プライバシ保全機械学習のために提案されたランダムサンプリング法を,典型的な次元性低減法と比較した。 画像分類実験において, ランダムサンプリング法は, 空間情報の不変性を維持しつつ, 高い難易度を有するだけでなく, 他の次元削減法と同等であることを示す。

In this paper, we evaluate dimensionality reduction methods in terms of difficulty in estimating visual information on original images from dimensionally reduced ones. Recently, dimensionality reduction has been receiving attention as the process of not only reducing the number of random variables, but also protecting visual information for privacy-preserving machine learning. For such a reason, difficulty in estimating visual information is discussed. In particular, the random sampling method that was proposed for privacy-preserving machine learning, is compared with typical dimensionality reduction methods. In an image classification experiment, the random sampling method is demonstrated not only to have high difficulty, but also to be comparable to other dimensionality reduction methods, while maintaining the property of spatial information invariant.
翻訳日:2021-05-03 02:57:49 公開日:2020-12-16
# CTスライスにおけるユニバーサル病変検出のための事前トレーニングによる3次元コンテキストモデリングの再検討

Revisiting 3D Context Modeling with Supervised Pre-training for Universal Lesion Detection in CT Slices ( http://arxiv.org/abs/2012.08770v1 )

ライセンス: Link先を確認
Shu Zhang, Jincheng Xu, Yu-Chun Chen, Jiechao Ma, Zihao Li, Yizhou Wang and Yizhou Yu(参考訳) CTスライスからのユニバーサル病変検出は,包括的疾患検診において重要である。 各病変は複数の隣接スライスに配置できるため、3次元コンテキストモデリングは自動病変検出アルゴリズムを開発する上で非常に重要である。 本研究では,深部分離可能な畳み込みフィルタとグループ変換モジュール(GTM)を利用して,CTスライスにおける普遍的病変検出のための3Dコンテキスト強化2次元特徴を効率よく抽出する改良された擬似3D特徴ピラミッドネットワーク(MP3D FPN)を提案する。 より高速な収束を実現するため,自然画像領域における大規模2次元物体検出データセットのみを用いて,新しい3Dネットワーク事前学習手法を導出する。 本研究では,新たに開発したmp3d fpnがdeeplesionデータセット(fps@0.5の感度の絶対値が3.48%)で最先端検出性能を達成し,最大6.06% (map@0.5) の精度で3次元コンテキストモデリングに2次元畳み込みを適用した。 さらに,提案する3次元事前学習重みは,他の3次元医用画像解析タスクの性能向上に有用である可能性が示唆された。

Universal lesion detection from computed tomography (CT) slices is important for comprehensive disease screening. Since each lesion can locate in multiple adjacent slices, 3D context modeling is of great significance for developing automated lesion detection algorithms. In this work, we propose a Modified Pseudo-3D Feature Pyramid Network (MP3D FPN) that leverages depthwise separable convolutional filters and a group transform module (GTM) to efficiently extract 3D context enhanced 2D features for universal lesion detection in CT slices. To facilitate faster convergence, a novel 3D network pre-training method is derived using solely large-scale 2D object detection dataset in the natural image domain. We demonstrate that with the novel pre-training method, the proposed MP3D FPN achieves state-of-the-art detection performance on the DeepLesion dataset (3.48% absolute improvement in the sensitivity of FPs@0.5), significantly surpassing the baseline method by up to 6.06% (in MAP@0.5) which adopts 2D convolution for 3D context modeling. Moreover, the proposed 3D pre-trained weights can potentially be used to boost the performance of other 3D medical image analysis tasks.
翻訳日:2021-05-03 02:57:36 公開日:2020-12-16
# C2F-FWN:空間的一貫した運動伝達のための粗対有限フローワーピングネットワーク

C2F-FWN: Coarse-to-Fine Flow Warping Network for Spatial-Temporal Consistent Motion Transfer ( http://arxiv.org/abs/2012.08976v1 )

ライセンス: Link先を確認
Dongxu Wei, Xiaowei Xu, Haibin Shen, Kejie Huang(参考訳) HVMT(Human Video Motion Transfer)は、ある人が他人の行動を模倣したビデオを合成することを目的としている。 既存のGANベースのHVMT法は大きな成功を収めているが、合成画像と模範画像の間の空間的整合性の欠如による外観の保存に失敗するか、ビデオフレーム間の時間的整合性の欠如による不整合性ビデオ結果を生成する。 本稿では,空間的時間的一貫したHVMTのためのC2F-FWN(Carse-to-Fin e Flow Warping Network)を提案する。 特に、C2F-FWNは粗大なフローワーピングとLayout-Constrained Deformable Convolution (LC-DConv)を使用して空間的一貫性を改善し、時間的一貫性を高めるためにFlow Temporal Consistency (FTC) Lossを使用している。 さらに、複数ソースの外観入力を備えたc2f-fwnは、高い柔軟性と効率性で外観属性編集をサポートできる。 公開データセットに加えて、評価のためにSoloDanceという大規模なHVMTデータセットも収集しました。 当社のsolodanceデータセットとiperデータセットで行った広範な実験により,我々は空間的および時間的一貫性の観点から,最先端のhvmt法よりも優れた手法を示した。 ソースコードとsolodanceデータセットはhttps://github.com/w swdx/c2f-fwnで入手できる。

Human video motion transfer (HVMT) aims to synthesize videos that one person imitates other persons' actions. Although existing GAN-based HVMT methods have achieved great success, they either fail to preserve appearance details due to the loss of spatial consistency between synthesized and exemplary images, or generate incoherent video results due to the lack of temporal consistency among video frames. In this paper, we propose Coarse-to-Fine Flow Warping Network (C2F-FWN) for spatial-temporal consistent HVMT. Particularly, C2F-FWN utilizes coarse-to-fine flow warping and Layout-Constrained Deformable Convolution (LC-DConv) to improve spatial consistency, and employs Flow Temporal Consistency (FTC) Loss to enhance temporal consistency. In addition, provided with multi-source appearance inputs, C2F-FWN can support appearance attribute editing with great flexibility and efficiency. Besides public datasets, we also collected a large-scale HVMT dataset named SoloDance for evaluation. Extensive experiments conducted on our SoloDance dataset and the iPER dataset show that our approach outperforms state-of-art HVMT methods in terms of both spatial and temporal consistency. Source code and the SoloDance dataset are available at https://github.com/w swdx/C2F-FWN.
翻訳日:2021-05-03 02:57:12 公開日:2020-12-16
# ベクトル流とグレースケールによる描画過程によるスケッチ生成

Sketch Generation with Drawing Process Guided by Vector Flow and Grayscale ( http://arxiv.org/abs/2012.09004v1 )

ライセンス: Link先を確認
Zhengyan Tong, Xuanhong Chen, Bingbing Ni, Xiaohang Wang(参考訳) 高品質な鉛筆スケッチを生成するだけでなく,描画プロセスも提供できる新しい画像-ペンシル変換法を提案する。 既存の鉛筆スケッチアルゴリズムは、ストロークの直接の模倣ではなく、テクスチャレンダリングに基づいており、描画プロセスは表示できないが最終的な結果に過ぎない。 この課題に対処するため,まず鉛筆ストローク模倣機構を確立する。 次に、ストローク描画を導く3つのブランチからなるフレームワークを開発し、第1のブランチがストロークの方向を案内し、第2のブランチがストロークのシェードを決定し、第3のブランチがさらに詳細を強化する。 このフレームワークのガイダンスでは、毎回1ストロークを描くことで、鉛筆のスケッチを作成できる。 我々の方法は完全に解釈できる。 既存の鉛筆描画アルゴリズムと比較すると,本手法はテクスチャ品質,スタイル,ユーザ評価の点で他よりも優れている。

We propose a novel image-to-pencil translation method that could not only generate high-quality pencil sketches but also offer the drawing process. Existing pencil sketch algorithms are based on texture rendering rather than the direct imitation of strokes, making them unable to show the drawing process but only a final result. To address this challenge, we first establish a pencil stroke imitation mechanism. Next, we develop a framework with three branches to guide stroke drawing: the first branch guides the direction of the strokes, the second branch determines the shade of the strokes, and the third branch enhances the details further. Under this framework's guidance, we can produce a pencil sketch by drawing one stroke every time. Our method is fully interpretable. Comparison with existing pencil drawing algorithms shows that our method is superior to others in terms of texture quality, style, and user evaluation.
翻訳日:2021-05-03 02:56:44 公開日:2020-12-16
# I3DOL: カタストロフィック・フォーミングを伴わないインクリメンタル3Dオブジェクト学習

I3DOL: Incremental 3D Object Learning without Catastrophic Forgetting ( http://arxiv.org/abs/2012.09014v1 )

ライセンス: Link先を確認
Jiahua Dong, Yang Cong, Gan Sun, Bingtao Ma and Lichen Wang(参考訳) 3Dオブジェクト分類は、学術研究や産業応用において注目されている。 しかし、既存のほとんどのメソッドは、一般的な現実のシナリオに直面しているときに、過去の3Dオブジェクトクラスのトレーニングデータにアクセスする必要がある。 さらに、3次元点雲データの不規則かつ冗長な幾何学構造のため、過去の学習クラス(すなわち破滅的な忘れ方)では高度なアプローチの性能が劇的に低下する。 これらの課題に対処するため,我々は新しいインクリメンタル3Dオブジェクト学習モデル(I3DOL)を提案し,これが3Dオブジェクトの新しいクラスを継続的に学習する最初の試みである。 具体的には,3次元物体に対する不規則点雲表現をよりよく特徴付けることのできる,局所的な識別的局所幾何学構造を構築するために,適応幾何学式セントロイドモジュールを設計する。 その後,冗長な幾何学的情報によってもたらされる破滅的な忘れを防止すべく,局所幾何学的構造の寄与を定量化し,授業インクリメンタル学習に高い寄与を持つユニークな3次元幾何学的特徴を探索するための幾何学的認識注意機構が開発された。 一方, 評価段階における新たなクラスに対するバイアス予測を補正することにより, 過去と新クラスの3Dオブジェクト間の不均衡データによる壊滅的忘れを緩和するスコアフェアネス補償戦略を提案する。 3次元代表データセットの実験は、i3dolフレームワークの優位性を検証する。

3D object classification has attracted appealing attentions in academic researches and industrial applications. However, most existing methods need to access the training data of past 3D object classes when facing the common real-world scenario: new classes of 3D objects arrive in a sequence. Moreover, the performance of advanced approaches degrades dramatically for past learned classes (i.e., catastrophic forgetting), due to the irregular and redundant geometric structures of 3D point cloud data. To address these challenges, we propose a new Incremental 3D Object Learning (i.e., I3DOL) model, which is the first exploration to learn new classes of 3D object continually. Specifically, an adaptive-geometric centroid module is designed to construct discriminative local geometric structures, which can better characterize the irregular point cloud representation for 3D object. Afterwards, to prevent the catastrophic forgetting brought by redundant geometric information, a geometric-aware attention mechanism is developed to quantify the contributions of local geometric structures, and explore unique 3D geometric characteristics with high contributions for classes incremental learning. Meanwhile, a score fairness compensation strategy is proposed to further alleviate the catastrophic forgetting caused by unbalanced data between past and new classes of 3D object, by compensating biased prediction for new classes in the validation phase. Experiments on 3D representative datasets validate the superiority of our I3DOL framework.
翻訳日:2021-05-03 02:56:27 公開日:2020-12-16
# 複合タスク:タスクの空間構成による画像理解

CompositeTasking: Understanding Images by Spatial Composition of Tasks ( http://arxiv.org/abs/2012.09030v1 )

ライセンス: Link先を確認
Nikola Popovic, Danda Pani Paudel, Thomas Probst, Guolei Sun, Luc Van Gool(参考訳) 本稿では,画像理解の様々な側面において,複合タスクの概念を,複数の空間分布タスクの融合として定義する。 空間的に分散されたタスクを学習することは、タスク間でスパースラベルのみを頻繁に利用できることと、コンパクトなマルチタスクネットワークへの欲求によって動機づけられる。 複合タスクを容易にするために,複数の空間的に異なるタスクを同時に実行する単一エンコーダデコーダネットワークである新しいタスクコンディショニングモデルを導入する。 提案するネットワークは、画像のペアと画素毎の濃密なタスクのセットを入力として、どのタスクをどこに適用するかの決定を含む各ピクセルのタスク関連予測を行う。 後者については、いくつかの複合タスクルールに従って実行する必要があるタスクの構成を学習する。 マルチタスクのためのコンパクトなネットワークを提供するだけでなく、タスク編集も可能です。 提案手法の強みは,タスクごとのスパース・インシデントのみを必要とすることで示される。 得られた結果は,高密度監視とマルチヘッドマルチタスク設計を用いたベースラインと同等である。 ソースコードはwww.github.com/nikol a3794/composite-task ingで公開されている。

We define the concept of CompositeTasking as the fusion of multiple, spatially distributed tasks, for various aspects of image understanding. Learning to perform spatially distributed tasks is motivated by the frequent availability of only sparse labels across tasks, and the desire for a compact multi-tasking network. To facilitate CompositeTasking, we introduce a novel task conditioning model -- a single encoder-decoder network that performs multiple, spatially varying tasks at once. The proposed network takes a pair of an image and a set of pixel-wise dense tasks as inputs, and makes the task related predictions for each pixel, which includes the decision of applying which task where. As to the latter, we learn the composition of tasks that needs to be performed according to some CompositeTasking rules. It not only offers us a compact network for multi-tasking, but also allows for task-editing. The strength of the proposed method is demonstrated by only having to supply sparse supervision per task. The obtained results are on par with our baselines that use dense supervision and a multi-headed multi-tasking design. The source code will be made publicly available at www.github.com/nikol a3794/composite-task ing .
翻訳日:2021-05-03 02:56:02 公開日:2020-12-16
# 新しい視覚領域における新しい意味概念認識に向けて

Towards Recognizing New Semantic Concepts in New Visual Domains ( http://arxiv.org/abs/2012.09058v1 )

ライセンス: Link先を確認
Massimiliano Mancini(参考訳) ディープラーニングモデルは、トレーニングのために大規模な注釈付きデータセットに大きく依存している。 残念ながら、データセットは現実世界の無限の変動を捉えられないため、ニューラルネットワークは本質的に、トレーニングセットに含まれる制限された視覚的および意味的な情報によって制限される。 この論文では、未確認の視覚領域で動作し、新しい意味概念を認識できる深層アーキテクチャを設計することが重要であると論じる。 論文の第1部では、ラベル付きソースドメインからラベル付きデータがないドメイン(ターゲット)に知識を転送することで、深層モデルを新たなビジュアルドメインに一般化するための、異なるソリューションについて記述する。 我々は、ソースとターゲットが複数の潜在ドメインの混合である場合のドメイン適応から、ドメインの一般化、連続的なドメイン適応、そして、ターゲットドメインに関する情報がメタデータの形でのみ利用できる予測的ドメイン適応まで、バッチ正規化(bn)の変種がどのように異なるシナリオに適用できるかを示す。 論文の第2部では、事前学習された深層モデルの知識を、元のトレーニングセットにアクセスすることなく、新しい意味概念に拡張する方法を示す。 タスク固有のバイナリマスク,オープンワールド認識,エンドツーエンドのトレーニングとクラスタ化,セマンティックセグメンテーションにおけるインクリメンタルなクラス学習といった,逐次的マルチタスク学習のシナリオを取り上げ,背景クラスのセマンティックシフトの問題を強調し,対処する。 最後に、複数のドメインとセマンティックカテゴリのイメージ(属性を含む)が与えられた場合、目に見えないドメインの概念のイメージを認識するモデルをどのように構築するかという課題に取り組みます。 また、この問題を解決するための第一歩として、入力と特徴のドメインとセマンティックな混合に基づくアプローチを提案する。

Deep learning models heavily rely on large scale annotated datasets for training. Unfortunately, datasets cannot capture the infinite variability of the real world, thus neural networks are inherently limited by the restricted visual and semantic information contained in their training set. In this thesis, we argue that it is crucial to design deep architectures that can operate in previously unseen visual domains and recognize novel semantic concepts. In the first part of the thesis, we describe different solutions to enable deep models to generalize to new visual domains, by transferring knowledge from a labeled source domain(s) to a domain (target) where no labeled data are available. We will show how variants of batch-normalization (BN) can be applied to different scenarios, from domain adaptation when source and target are mixtures of multiple latent domains, to domain generalization, continuous domain adaptation, and predictive domain adaptation, where information about the target domain is available only in the form of metadata. In the second part of the thesis, we show how to extend the knowledge of a pretrained deep model to new semantic concepts, without access to the original training set. We address the scenarios of sequential multi-task learning, using transformed task-specific binary masks, open-world recognition, with end-to-end training and enforced clustering, and incremental class learning in semantic segmentation, where we highlight and address the problem of the semantic shift of the background class. In the final part, we tackle a more challenging problem: given images of multiple domains and semantic categories (with their attributes), how to build a model that recognizes images of unseen concepts in unseen domains? We also propose an approach based on domain and semantic mixing of inputs and features, which is a first, promising step towards solving this problem.
翻訳日:2021-05-03 02:55:43 公開日:2020-12-16
# 点変圧器

Point Transformer ( http://arxiv.org/abs/2012.09164v1 )

ライセンス: Link先を確認
Hengshuang Zhao, Li Jiang, Jiaya Jia, Philip Torr, Vladlen Koltun(参考訳) 自己追跡ネットワークは自然言語処理に革命をもたらし、画像分類やオブジェクト検出などの画像解析タスクにおいて印象的な進歩を遂げている。 この成功に触発されて、3Dポイントクラウド処理への自己注意ネットワークの適用について検討する。 我々はポイントクラウドのための自己注意層を設計し、これらを用いてセマンティックシーンセグメンテーション、オブジェクト部分セグメンテーション、オブジェクト分類などのタスクのための自己注意ネットワークを構築する。 ポイントトランスフォーマーの設計は、ドメインやタスク間の事前作業を改善する。 例えば、大規模セマンティックシーンセグメンテーションのための挑戦的なS3DISデータセットでは、ポイントトランスフォーマーがエリア5で70.4%のmIoUに達し、最強の先行モデルよりも3.3絶対パーセンテージで、初めて70% mIoU閾値を超えた。

Self-attention networks have revolutionized natural language processing and are making impressive strides in image analysis tasks such as image classification and object detection. Inspired by this success, we investigate the application of self-attention networks to 3D point cloud processing. We design self-attention layers for point clouds and use these to construct self-attention networks for tasks such as semantic scene segmentation, object part segmentation, and object classification. Our Point Transformer design improves upon prior work across domains and tasks. For example, on the challenging S3DIS dataset for large-scale semantic scene segmentation, the Point Transformer attains an mIoU of 70.4% on Area 5, outperforming the strongest prior model by 3.3 absolute percentage points and crossing the 70% mIoU threshold for the first time.
翻訳日:2021-05-03 02:54:56 公開日:2020-12-16
# コントラスト的シーンコンテキストを用いたデータ効率のよい3次元シーン理解の探索

Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts ( http://arxiv.org/abs/2012.09165v1 )

ライセンス: Link先を確認
Ji Hou, Benjamin Graham, Matthias Nie{\ss}ner, Saining Xie(参考訳) 3Dシーン理解の急速な進歩は、データに対する需要の高まりとともにいるが、3Dシーンの収集や注釈付け(例)は行われている。 点雲)は難しいことで悪名高い。 例えばシーン数(例:シーン数)。 屋内の部屋)は、アクセスやスキャンが可能で、十分なデータさえあれば、3dラベル(例えば、3dラベル)を取得することができる。 仮面) 集中労働を必要とする。 本稿では,3Dポイントクラウドのためのデータ効率学習について検討する。 この方向への第一歩として,シーン内の点レベル対応と空間コンテキストの両方を利用する3次元事前学習手法であるContrastive Scene Contextsを提案する。 本手法は,トレーニングデータやラベルが不足しているベンチマークの組において,最先端の結果を得る。 注目すべきことに、scannetでは、0.1%のポイントラベルを使用しても、完全なアノテーションを使用するベースラインのパフォーマンスの89%(インスタンスセグメンテーション)と96%(セマンティックセグメンテーション)を達成しています。

The rapid progress in 3D scene understanding has come with growing demand for data; however, collecting and annotating 3D scenes (e.g. point clouds) are notoriously hard. For example, the number of scenes (e.g. indoor rooms) that can be accessed and scanned might be limited; even given sufficient data, acquiring 3D labels (e.g. instance masks) requires intensive human labor. In this paper, we explore data-efficient learning for 3D point cloud. As a first step towards this direction, we propose Contrastive Scene Contexts, a 3D pre-training method that makes use of both point-level correspondences and spatial contexts in a scene. Our method achieves state-of-the-art results on a suite of benchmarks where training data or labels are scarce. Our study reveals that exhaustive labelling of 3D point clouds might be unnecessary; and remarkably, on ScanNet, even using 0.1% of point labels, we still achieve 89% (instance segmentation) and 96% (semantic segmentation) of the baseline performance that uses full annotations.
翻訳日:2021-05-03 02:54:39 公開日:2020-12-16
# AIST:犯罪予測のための解釈可能な注意に基づくディープラーニングモデル

AIST: An Interpretable Attention-based Deep Learning Model for Crime Prediction ( http://arxiv.org/abs/2012.08713v1 )

ライセンス: Link先を確認
Yeasir Rayhan, Tanzima Hashem(参考訳) 精度と解釈可能性は犯罪予測モデルに不可欠な2つの性質である。 犯罪が人命、経済、安全に悪影響を及ぼす可能性があるため、犯罪の発生をできるだけ正確に予測できるモデルが必要である。 一方、解釈可能なモデルでは、モデルの予測の背後にある理由を明らかにし、その透明性を確保し、それに応じて防犯手順を計画することができる。 モデルを開発する上で重要な課題は、モデルの基本構造を解釈可能に保ちながら、特定の犯罪カテゴリの非線形空間依存性と時間的パターンを捉えることである。 本稿では,犯罪予測のための注意型解釈可能時空間ネットワークであるAISTを開発する。 AISTは過去の犯罪発生、外的特徴(交通の流れや関心点(POI)情報)、犯罪の繰り返し傾向に基づく犯罪カテゴリーの動的時空間相関をモデル化する。 広範な実験により,実データを用いた精度と解釈性の両方において,モデルの優越性が示された。

Accuracy and interpretability are two essential properties for a crime prediction model. Because of the adverse effects that the crimes can have on human life, economy and safety, we need a model that can predict future occurrence of crime as accurately as possible so that early steps can be taken to avoid the crime. On the other hand, an interpretable model reveals the reason behind a model's prediction, ensures its transparency and allows us to plan the crime prevention steps accordingly. The key challenge in developing the model is to capture the non-linear spatial dependency and temporal patterns of a specific crime category while keeping the underlying structure of the model interpretable. In this paper, we develop AIST, an Attention-based Interpretable Spatio Temporal Network for crime prediction. AIST models the dynamic spatio-temporal correlations for a crime category based on past crime occurrences, external features (e.g., traffic flow and point of interest (POI) information) and recurring trends of crime. Extensive experiments show the superiority of our model in terms of both accuracy and interpretability using real datasets.
翻訳日:2021-05-03 02:54:21 公開日:2020-12-16
# 匿名空間隣接情報を用いた配車システムにおける時空間深層学習による需要予測と需給ギャップ

Using Spatio-temporal Deep Learning for Forecasting Demand and Supply-demand Gap in Ride-hailing System with Anonymized Spatial Adjacency Information ( http://arxiv.org/abs/2012.08868v1 )

ライセンス: Link先を確認
M. H. Rahman and S. M. Rifaat(参考訳) 乗客待ち時間と運転者の検索摩擦を軽減するため、配車会社は時空間需要と供給需要ギャップを正確に予測する必要がある。 しかし、配車システムの需要と需給ギャップに関する時空間的依存関係のため、需要と需給ギャップの正確な予測が難しい。 さらに、機密性やプライバシーの問題から、時空間依存の検出を妨げるゾーンの空間的隣接情報を除去することで、配車データを研究者に公開することもある。 そこで本論文では,一次元畳み込みニューラルネットワーク(CNN)とゾーン独立型リカレントニューラルネットワーク(IndRNN)を含む時空間ディープラーニングアーキテクチャを特徴重層に統合した,匿名化された空間隣接情報を用いた配車システムの需要と需給ギャップを予測するための新しい時空間ディープラーニングアーキテクチャを提案する。 開発したアーキテクチャは、didi chuxingの実際のデータセットでテストされ、提案するアーキテクチャに基づくモデルは、従来の時系列モデル(例えばarima)や機械学習モデル(例えば、勾配ブースティングマシン、分散ランダムフォレスト、一般化線形モデル、ニューラルネットワーク)よりも優れています。 さらに、特徴重要層は、予測に使用される入力特徴の寄与を明らかにすることにより、モデルの解釈を提供する。

To reduce passenger waiting time and driver search friction, ride-hailing companies need to accurately forecast spatio-temporal demand and supply-demand gap. However, due to spatio-temporal dependencies pertaining to demand and supply-demand gap in a ride-hailing system, making accurate forecasts for both demand and supply-demand gap is a difficult task. Furthermore, due to confidentiality and privacy issues, ride-hailing data are sometimes released to the researchers by removing spatial adjacency information of the zones, which hinders the detection of spatio-temporal dependencies. To that end, a novel spatio-temporal deep learning architecture is proposed in this paper for forecasting demand and supply-demand gap in a ride-hailing system with anonymized spatial adjacency information, which integrates feature importance layer with a spatio-temporal deep learning architecture containing one-dimensional convolutional neural network (CNN) and zone-distributed independently recurrent neural network (IndRNN). The developed architecture is tested with real-world datasets of Didi Chuxing, which shows that our models based on the proposed architecture can outperform conventional time-series models (e.g., ARIMA) and machine learning models (e.g., gradient boosting machine, distributed random forest, generalized linear model, artificial neural network). Additionally, the feature importance layer provides an interpretation of the model by revealing the contribution of the input features utilized in prediction.
翻訳日:2021-05-03 02:54:06 公開日:2020-12-16
# 局所モデルを用いた予測k平均

Predictive K-means with local models ( http://arxiv.org/abs/2012.09630v1 )

ライセンス: Link先を確認
Vincent Lemaire, Oumaima Alaoui Ismaili, Antoine Cornu\'ejols, Dominique Gay(参考訳) 教師付き分類は予測に有効であるが、解釈可能性や説明可能性(XAI)に弱い場合もある。 一方、クラスタリングは意味のあるカテゴリやプロファイルを分離する傾向がありますが、ラベルの予測に有用である保証はありません。 予測的クラスタリングは2つの世界の最高のものを得ようとしている。 ラベル付きデータから始めて、クラスラベルに関して可能な限り純粋なクラスタを探す。 1つのテクニックはクラスタリングアルゴリズムを微調整することで、同じラベルを共有するデータポイントが集約される傾向がある。 k-meansのような距離ベースのアルゴリズムでは、アルゴリズムが使用する距離を変更して、データポイントのラベルに関する情報を取り込むことが解決策となる。 本稿では,クラス密度に導かれる表現の変化に頼り,新たな表現空間でクラスタリングを行う別の手法を提案する。 本稿では,この手法を用いた2つの新しいアルゴリズムを提案し,クラスタの解釈可能性を提供しながら,純粋教師付き分類器による予測性能に競争力があることを示す。

Supervised classification can be effective for prediction but sometimes weak on interpretability or explainability (XAI). Clustering, on the other hand, tends to isolate categories or profiles that can be meaningful but there is no guarantee that they are useful for labels prediction. Predictive clustering seeks to obtain the best of the two worlds. Starting from labeled data, it looks for clusters that are as pure as possible with regards to the class labels. One technique consists in tweaking a clustering algorithm so that data points sharing the same label tend to aggregate together. With distance-based algorithms, such as k-means, a solution is to modify the distance used by the algorithm so that it incorporates information about the labels of the data points. In this paper, we propose another method which relies on a change of representation guided by class densities and then carries out clustering in this new representation space. We present two new algorithms using this technique and show on a variety of data sets that they are competitive for prediction performance with pure supervised classifiers while offering interpretability of the clusters discovered.
翻訳日:2021-05-03 02:53:15 公開日:2020-12-16
# クロスロードでアクティブラーニングを学ぶか? 評価と議論

Learning active learning at the crossroads? evaluation and discussion ( http://arxiv.org/abs/2012.09631v1 )

ライセンス: Link先を確認
Louis Desreumaux and Vincent Lemaire(参考訳) アクティブラーニングは、人間の専門家がラベル付けするのに役立つサンプルを予測することによって、アノテーションのコストを削減することを目的としている。 この分野はかなり古いが、実世界の環境でアクティブラーニングを使うためのいくつかの重要な課題はまだ解決されていない。 特に、ほとんどの選択戦略は手作業で設計されており、すべてのアプリケーションで他の全てを一貫して上回る最高のアクティブな学習戦略は存在しないことが明らかになっている。 これは「積極的に学習する方法を学ぶ」メタ学習アルゴリズムの研究を動機付けている。 本稿では,このようなアプローチをランダムフォレストとマージンサンプリング戦略の関連性と比較し,最近の比較研究で非常に競争力のあるヒューリスティックであると報告した。 そこで本研究では,最近のメタラーニングアルゴリズムとマージンサンプリングを用いて学習した戦略を比較した20のデータセットを用いたベンチマーク結果を示す。 また、学習とオープンな将来の展望を示す。

Active learning aims to reduce annotation cost by predicting which samples are useful for a human expert to label. Although this field is quite old, several important challenges to using active learning in real-world settings still remain unsolved. In particular, most selection strategies are hand-designed, and it has become clear that there is no best active learning strategy that consistently outperforms all others in all applications. This has motivated research into meta-learning algorithms for "learning how to actively learn". In this paper, we compare this kind of approach with the association of a Random Forest with the margin sampling strategy, reported in recent comparative studies as a very competitive heuristic. To this end, we present the results of a benchmark performed on 20 datasets that compares a strategy learned using a recent meta-learning algorithm with margin sampling. We also present some lessons learned and open future perspectives.
翻訳日:2021-05-03 02:52:58 公開日:2020-12-16
# 線形複雑性を伴う自己注意修正Linformerの再検討

Revisiting Linformer with a modified self-attention with linear complexity ( http://arxiv.org/abs/2101.10277v1 )

ライセンス: Link先を確認
Madhusudan Verma(参考訳) GoogleのBERTやOpenAIのGPT-3といったTransformerモデルは、多くの自然言語処理タスクで成功しているが、これらのモデルのトレーニングとデプロイはコストがかかり、非効率である。 デプロイとは別に、これらのモデルは推論中にユーザーフレンドリを制限するためにより時間がかかる。 主なボトルネックは、シーケンス長に関して二次時間と空間を使用する自己着脱である。 FacebookのAI研究チームのLinformer氏は、自己認識機構の二次的時間的複雑さを低減するために、低ランク行列で自己認識機構を近似できることを示し、この発見を活用して、線形時間と空間の複雑さを備えた新たな自己認識方法を提案した。 リンフォーマーでは、時間複雑性はハイパーパラメータとして機能し、モデルの性能に影響を与えるプロジェクションマッピング次元に依存し、このハイパーパラメータのチューニングには時間がかかる。 本稿では,時間と空間における線形複雑性を持つ自己着脱の代替手法を提案し,射影写像次元とは独立な方法を提案する。 この方法は長いシーケンスで機能するので、音声だけでなく画像にも使用できる。

Although Transformer models such as Google's BERT and OpenAI's GPT-3 are successful in many natural language processing tasks, training and deploying these models are costly and inefficient.Even if pre-trained models are used, deploying these models still remained a challenge due to their large size. Apart from deployment, these models take higher time during inference restricting user-friendliness. The main bottleneck is self-attention which uses quadratic time and space with respect to the sequence length. In order to reduce the quadratic time complexity of the self-attention mechanism, Linformer by Facebook's AI research team was introduced where they showed that the self-attention mechanism can be approximated by a low-rank matrix and exploiting this finding, a new method for self-attention with linear time and space complexity was proposed by them. In the Linformer, the time complexity depends on the projection mapping dimension which acts as a hyperparameter and affects the performance of the model, tuning this hyperparameter can be time-consuming. In this paper, I proposed an alternative method for self-attention with linear complexity in time and space and is independent of the projection mapping dimension. Since this method works for long sequences this can be used for images as well as audios.
翻訳日:2021-05-03 02:52:08 公開日:2020-12-16
# データジャーナリズムのための構造化・半構造化・非構造化データのグラフ統合

Graph integration of structured, semistructured and unstructured data for data journalism ( http://arxiv.org/abs/2012.08830v1 )

ライセンス: Link先を確認
Angelos-Christos Anadiotis, Oana Balalau, Catarina Conceicao, Helena Galhardas, Mhd Yamen Haddad, Ioana Manolescu, Tayeb Merabti, Jingmao You(参考訳) デジタルデータは現代のジャーナリズムの金鉱である。 しかし、ジャーナリストに興味のあるデータセットは、高度に構造化された(リレーショナルデータベース)、半構造化された(json、xml、html)、グラフ(例えばrdf)、テキストなど、非常に異質である。 ジャーナリスト(ほとんどの非政府組織や小さな行政機関のような先進的なIT専門知識を欠いている他のクラスのユーザー)は、特別な抽出-変換-負荷ワークフローの定義とデプロイができない場合でも、このような異質なコーパスを理解する必要がある。 このようなグラフを有用にするために直面した課題は、それらの統合をスケール可能にすることであり、これらの問題に対して提案した解決策である。 提案手法はConnectionLensシステム内に実装されており,一連の実験を通じて検証する。

Digital data is a gold mine for modern journalism. However, datasets which interest journalists are extremely heterogeneous, ranging from highly structured (relational databases), semi-structured (JSON, XML, HTML), graphs (e.g., RDF), and text. Journalists (and other classes of users lacking advanced IT expertise, such as most non-governmental-org anizations, or small public administrations) need to be able to make sense of such heterogeneous corpora, even if they lack the ability to define and deploy custom extract-transform-lo ad workflows, especially for dynamically varying sets of data sources. We describe a complete approach for integrating dynamic sets of heterogeneous datasets along the lines described above: the challenges we faced to make such graphs useful, allow their integration to scale, and the solutions we proposed for these problems. Our approach is implemented within the ConnectionLens system; we validate it through a set of experiments.
翻訳日:2021-05-03 02:51:47 公開日:2020-12-16
# 骨格に基づく行動認識のための時間グラフモデリング

Temporal Graph Modeling for Skeleton-based Action Recognition ( http://arxiv.org/abs/2012.08804v1 )

ライセンス: Link先を確認
Jianan Li, Xuemei Xie, Zhifu Zhao, Yuhan Cao, Qingzhe Pan and Guangming Shi(参考訳) 骨格データをグラフとしてモデル化するグラフ畳み込みネットワーク(GCN)は、骨格に基づく行動認識において顕著な性能を得た。 特に、骨格配列の時間的ダイナミクスは認識タスクにおいて重要な情報を伝達する。 時間的動的モデリングにおいて、GCNに基づく手法は、隣接する時間ステップ間の時間的関係を抽出するために、多層1次元局所畳み込みのみを積み重ねる。 局所的な畳み込みの繰り返しにより,非隣接時間距離の重要時間情報は情報希釈のために無視される可能性がある。 したがって、これらの方法はまだ骨格配列の時間的ダイナミクスを十分に探求する方法が不明である。 本稿では,この制限に対処するための時間拡張グラフ畳み込みネットワーク(TE-GCN)を提案する。 TE-GCNは、複雑な時間的ダイナミクスを捉えるために時間的関係グラフを構成する。 具体的には、構築された時間関係グラフは、隣接時間ステップと非隣接時間ステップの両方の時間関係をモデル化するために、意味的に関連する時間的特徴間の関係を明示的に構築する。 一方、十分な時間的ダイナミクスを探求するために、時間的関係の多種間を調査するために、マルチヘッド機構が設計されている。 NTU-60 RGB+DとNTU-120 RGB+Dの2つの大規模データセットで大規模な実験が行われた。 実験結果から,動作認識のための時間的モデリングに寄与することで,提案モデルが最先端の性能を達成することを示す。

Graph Convolutional Networks (GCNs), which model skeleton data as graphs, have obtained remarkable performance for skeleton-based action recognition. Particularly, the temporal dynamic of skeleton sequence conveys significant information in the recognition task. For temporal dynamic modeling, GCN-based methods only stack multi-layer 1D local convolutions to extract temporal relations between adjacent time steps. With the repeat of a lot of local convolutions, the key temporal information with non-adjacent temporal distance may be ignored due to the information dilution. Therefore, these methods still remain unclear how to fully explore temporal dynamic of skeleton sequence. In this paper, we propose a Temporal Enhanced Graph Convolutional Network (TE-GCN) to tackle this limitation. The proposed TE-GCN constructs temporal relation graph to capture complex temporal dynamic. Specifically, the constructed temporal relation graph explicitly builds connections between semantically related temporal features to model temporal relations between both adjacent and non-adjacent time steps. Meanwhile, to further explore the sufficient temporal dynamic, multi-head mechanism is designed to investigate multi-kinds of temporal relations. Extensive experiments are performed on two widely used large-scale datasets, NTU-60 RGB+D and NTU-120 RGB+D. And experimental results show that the proposed model achieves the state-of-the-art performance by making contribution to temporal modeling for action recognition.
翻訳日:2021-05-03 02:51:02 公開日:2020-12-16
# キャリブレーションカメラを用いた2次元距離データの自己監視人検出

Self-Supervised Person Detection in 2D Range Data using a Calibrated Camera ( http://arxiv.org/abs/2012.08890v1 )

ライセンス: Link先を確認
Dan Jia and Mats Steinweg and Alexander Hermans and Bastian Leibe(参考訳) ディープラーニングは、2dレンジデータにおける最先端の人物検出器の重要な構築ブロックである。 しかし、これらのディープネットワークのトレーニングとテストのために利用可能なデータセットはわずかであり、新しい環境や異なるLiDARモデルにデプロイする際のパフォーマンスを制限する可能性がある。 画像ベース検出器(例)からのバウンディングボックスを利用する手法を提案する。 キャリブレーションカメラ上のより高速なR-CNNは、2D LiDARベースの人検知器のためのトレーニングラベル(擬似ラベルと呼ばれる)を自動的に生成する。 DROW3とDR-SPAAMの2つの検出器モデルを用いたJackRabbotデータセットの実験を通して、擬似ラベルで訓練された、または微調整された自己教師型検出器が、異なるデータセットから手動アノテーションを用いて訓練された優れた検出器であることを示す。 堅牢なトレーニング技術と組み合わせて、自己監視型検出器は手動のアノテーションを使って訓練されたものに近いパフォーマンスを達成する。 本手法は,追加のラベル付けを行わずに展開中の人体検知器を改良する有効な方法であり,関連するロボットアプリケーションをサポートするためにソースコードをリリースする。

Deep learning is the essential building block of state-of-the-art person detectors in 2D range data. However, only a few annotated datasets are available for training and testing these deep networks, potentially limiting their performance when deployed in new environments or with different LiDAR models. We propose a method, which uses bounding boxes from an image-based detector (e.g. Faster R-CNN) on a calibrated camera to automatically generate training labels (called pseudo-labels) for 2D LiDAR-based person detectors. Through experiments on the JackRabbot dataset with two detector models, DROW3 and DR-SPAAM, we show that self-supervised detectors, trained or fine-tuned with pseudo-labels, outperform detectors trained using manual annotations from a different dataset. Combined with robust training techniques, the self-supervised detectors reach a performance close to the ones trained using manual annotations. Our method is an effective way to improve person detectors during deployment without any additional labeling effort, and we release our source code to support relevant robotic applications.
翻訳日:2021-05-03 02:50:39 公開日:2020-12-16
# PGMAN: パンシャーピングのための教師なし生成マルチアドバイザリアルネットワーク

PGMAN: An Unsupervised Generative Multi-adversarial Network for Pan-sharpening ( http://arxiv.org/abs/2012.09054v1 )

ライセンス: Link先を確認
Huanyu Zhou and Qingjie Liu and Yunhong Wang(参考訳) パンシャーペンは、低分解能(LR)マルチスペクトル(MS)画像と高分解能(HR)パンクロマティック(PAN)画像を衛星が取得してHRMS画像を生成することを目的としている。 近年,多くの深層学習手法が開発されている。 しかしながら、学習の基準としてHRMSイメージが意図されていないため、既存の手法のほとんど全てがMSとPANのイメージをダウンサンプルし、元のMSイメージをターゲットとして、トレーニングのための教師付き設定を形成する。 これらの手法はダウンスケール画像ではうまく機能するが、フル解像度画像では不十分である。 この問題を克服するため,我々は,事前処理することなく全解像度画像から直接学習可能な教師なしフレームワークを設計した。 このモデルは、新しい生成型マルチアドバーサルネットワークに基づいて構築されている。 本研究では,2ストリーム生成器を用いてPAN画像とMS画像からモダリティ固有の特徴を抽出し,融合時に入力のスペクトル情報と空間情報を保存する2重識別器を開発した。 さらに、教師なし設定下でのトレーニングを容易にするために、新たな損失関数を導入する。 GaoFen-2 および QuickBird 画像における他の最先端手法との比較実験により,提案手法がフル解像度画像上でより優れた融合結果を得ることができることを示した。

Pan-sharpening aims at fusing a low-resolution (LR) multi-spectral (MS) image and a high-resolution (HR) panchromatic (PAN) image acquired by a satellite to generate an HR MS image. Many deep learning based methods have been developed in the past few years. However, since there are no intended HR MS images as references for learning, almost all of the existing methods down-sample the MS and PAN images and regard the original MS images as targets to form a supervised setting for training. These methods may perform well on the down-scaled images, however, they generalize poorly to the full-resolution images. To conquer this problem, we design an unsupervised framework that is able to learn directly from the full-resolution images without any preprocessing. The model is built based on a novel generative multi-adversarial network. We use a two-stream generator to extract the modality-specific features from the PAN and MS images, respectively, and develop a dual-discriminator to preserve the spectral and spatial information of the inputs when performing fusion. Furthermore, a novel loss function is introduced to facilitate training under the unsupervised setting. Experiments and comparisons with other state-of-the-art methods on GaoFen-2 and QuickBird images demonstrate that the proposed method can obtain much better fusion results on the full-resolution images.
翻訳日:2021-05-03 02:50:19 公開日:2020-12-16
# 画像強調のための投影分布損失

Projected Distribution Loss for Image Enhancement ( http://arxiv.org/abs/2012.09289v1 )

ライセンス: Link先を確認
Mauricio Delbracio, Hossein Talebi, Peyman Milanfar(参考訳) 物体認識cnnから得られた特徴は画像間の知覚的類似性を測定するために広く用いられている。 このような差別化可能なメトリクスは、イメージ拡張モデルをトレーニングするために知覚学習損失として使用できる。 しかし,入力特徴と対象特徴との間の距離関数の選択は,訓練されたモデルの性能に連続的に影響する可能性がある。 抽出された特徴間の差異の基準を用いると詳細の幻覚は限定されるが、特徴の分布間の距離を測定するとテクスチャが増え、さらに非現実的な詳細やアーティファクトも生まれる。 本稿では,cnnアクティベーション間の1d-wasserstein距離の集約が,既存の手法よりも信頼性が高く,拡張モデルの知覚性能を大幅に向上できることを示す。 より具体的には、デノイング、超解像、デモサイシング、デブロアリング、JPEGアーティファクト除去などの画像アプリケーションにおいて、提案した学習損失は、参照に基づく知覚的損失に対する現在の最先端よりも優れていることを示す。 つまり、提案された学習損失を異なるイメージングフレームワークにプラグインし、知覚的に現実的な結果を生成することができる。

Features obtained from object recognition CNNs have been widely used for measuring perceptual similarities between images. Such differentiable metrics can be used as perceptual learning losses to train image enhancement models. However, the choice of the distance function between input and target features may have a consequential impact on the performance of the trained model. While using the norm of the difference between extracted features leads to limited hallucination of details, measuring the distance between distributions of features may generate more textures; yet also more unrealistic details and artifacts. In this paper, we demonstrate that aggregating 1D-Wasserstein distances between CNN activations is more reliable than the existing approaches, and it can significantly improve the perceptual performance of enhancement models. More explicitly, we show that in imaging applications such as denoising, super-resolution, demosaicing, deblurring and JPEG artifact removal, the proposed learning loss outperforms the current state-of-the-art on reference-based perceptual losses. This means that the proposed learning loss can be plugged into different imaging frameworks and produce perceptually realistic results.
翻訳日:2021-05-03 02:49:57 公開日:2020-12-16
# ポリブラル:多項式リブラリングによるゆるやかなぼやけの除去

Polyblur: Removing mild blur by polynomial reblurring ( http://arxiv.org/abs/2012.09322v1 )

ライセンス: Link先を確認
Mauricio Delbracio, Ignacio Garcia-Dorado, Sungjoon Choi, Damien Kelly, Peyman Milanfar(参考訳) 自然画像の鮮やかなぼやけを取り除くために,高効率なブラインド復元法を提案する。 主流とは対照的に、映像品質が損なわれ、焦点のずれやレンズのぼやき、あるいはカメラの動きによって一般的に発生するぼやけの除去に焦点を合わせます。 提案アルゴリズムはまず画像のぼかしを推定し,次に推定したぼかしの複数の応用を原理的に組み合わせて補正する。 ぼやけを推定するために,シャープな自然画像における勾配分布に関する経験的観測に基づく,単純かつロバストなアルゴリズムを導入する。 実験により, 軽度のぼやけた状況下では, 提案手法は従来のブラインド・ブラインド・デブロアリング法より優れ, わずかな時間で実行可能であることがわかった。 本手法は,市販の高精細度超解像法を適用する前に,ぼかしを盲目的に補正するために使用することができる。 提案手法は,携帯電話の12MP画像からわずか1秒で軽度のぼかしを推定し,除去する。

We present a highly efficient blind restoration method to remove mild blur in natural images. Contrary to the mainstream, we focus on removing slight blur that is often present, damaging image quality and commonly generated by small out-of-focus, lens blur, or slight camera motion. The proposed algorithm first estimates image blur and then compensates for it by combining multiple applications of the estimated blur in a principled way. To estimate blur we introduce a simple yet robust algorithm based on empirical observations about the distribution of the gradient in sharp natural images. Our experiments show that, in the context of mild blur, the proposed method outperforms traditional and modern blind deblurring methods and runs in a fraction of the time. Our method can be used to blindly correct blur before applying off-the-shelf deep super-resolution methods leading to superior results than other highly complex and computationally demanding techniques. The proposed method estimates and removes mild blur from a 12MP image on a modern mobile phone in a fraction of a second.
翻訳日:2021-05-03 02:49:39 公開日:2020-12-16
# 4次元心筋速度マッピング心筋mrのための自動マルチチャネルセグメンテーション

Automated Multi-Channel Segmentation for the 4D Myocardial Velocity Mapping Cardiac MR ( http://arxiv.org/abs/2012.12188v1 )

ライセンス: Link先を確認
Yinzhe Wu, Suzan Hatipoglu, Diego Alonso-\'Alvarez, Peter Gatehouse, David Firmin, Jennifer Keegan, Guang Yang(参考訳) 4次元(4D)左室速度マッピング(MVM)は、心臓磁気共鳴(CMR)技術であり、3方向の心臓運動の評価を可能にする。 心筋の正確かつ再現性のあるデライン化は, 収縮期および拡張期心筋速度の正確な解析に不可欠である。 従来のCMRデータに加えて、4D MVMは速度マップを生成するために使用される3つの速度符号化位相データセットも取得する。 これらは心筋の脱線を促進および改善するために用いられる。 医用画像処理における深層学習の成功を踏まえ,注目モジュールとのクロスチャネル融合と形状情報に基づく後処理により,これらのCMRマルチチャネルデータ(マグニチュードとフェーズ)に基づく標準U-Netベースの手法を改良し,心内膜および心内膜輪郭の正確なデライン化を実現する,新しい自動化フレームワークを提案する。 この結果を評価するために, 広く用いられている dice スコアと, 心筋縦断ピーク速度の定量化を行った。 提案するネットワークは,シングルチャネルデータで訓練された標準U-Netネットワークと比較して,性能が向上した。 その結果,本手法は4次元mvm cmrデータのマルチチャネル画像解析のための設計と応用のための説得力のある証拠を提供する。

Four-dimensional (4D) left ventricular myocardial velocity mapping (MVM) is a cardiac magnetic resonance (CMR) technique that allows assessment of cardiac motion in three orthogonal directions. Accurate and reproducible delineation of the myocardium is crucial for accurate analysis of peak systolic and diastolic myocardial velocities. In addition to the conventionally available magnitude CMR data, 4D MVM also acquires three velocity-encoded phase datasets which are used to generate velocity maps. These can be used to facilitate and improve myocardial delineation. Based on the success of deep learning in medical image processing, we propose a novel automated framework that improves the standard U-Net based methods on these CMR multi-channel data (magnitude and phase) by cross-channel fusion with attention module and shape information based post-processing to achieve accurate delineation of both epicardium and endocardium contours. To evaluate the results, we employ the widely used Dice scores and the quantification of myocardial longitudinal peak velocities. Our proposed network trained with multi-channel data shows enhanced performance compared to standard U-Net based networks trained with single-channel data. Based on the results, our method provides compelling evidence for the design and application for the multi-channel image analysis of the 4D MVM CMR data.
翻訳日:2021-05-03 02:49:18 公開日:2020-12-16
# リカレントグラフニューラルネットワークを用いた動的グラフの解釈可能なクラスタリング

Interpretable Clustering on Dynamic Graphs with Recurrent Graph Neural Networks ( http://arxiv.org/abs/2012.08740v1 )

ライセンス: Link先を確認
Yuhang Yao, Carlee Joe-Wong(参考訳) ノードとノードのクラスタメンバシップ間の接続が時間とともに変化する可能性がある動的グラフにおけるノードのクラスタリングの問題を,例えばコミュニティマイグレーションによって検討する。 まず、これらの変化を捉える動的確率的ブロックモデルと、それらの間の重み付き接続に基づいてノードをクラスタリングする単純な減衰に基づくクラスタリングアルゴリズムを提案する。 この崩壊率は、クラスタリングに歴史的接続情報を含めることの重要性を表すものとして解釈できる。 しかし、最適崩壊速度はターンオーバー率の異なるクラスターで異なる可能性がある。 本稿では,各クラスタの最適減衰率を特徴付け,真のクラスタのほぼ完全回復を実現するクラスタリング手法を提案する。 次に,シミュレーショングラフデータに対する減衰率を最適化したクラスタリングアルゴリズムの有効性を示す。 逐次学習のための一般的なアルゴリズムであるリカレントニューラルネットワーク(RNN)は、同様の減衰に基づく手法を用いて、半教師付きグラフクラスタリングのための2つの新しいRNN-GCNアーキテクチャを提案する。 提案したアーキテクチャは,最先端のグラフクラスタリングアルゴリズムと比較して,実データでよく動作することを示す。

We study the problem of clustering nodes in a dynamic graph, where the connections between nodes and nodes' cluster memberships may change over time, e.g., due to community migration. We first propose a dynamic stochastic block model that captures these changes, and a simple decay-based clustering algorithm that clusters nodes based on weighted connections between them, where the weight decreases at a fixed rate over time. This decay rate can then be interpreted as signifying the importance of including historical connection information in the clustering. However, the optimal decay rate may differ for clusters with different rates of turnover. We characterize the optimal decay rate for each cluster and propose a clustering method that achieves almost exact recovery of the true clusters. We then demonstrate the efficacy of our clustering algorithm with optimized decay rates on simulated graph data. Recurrent neural networks (RNNs), a popular algorithm for sequence learning, use a similar decay-based method, and we use this insight to propose two new RNN-GCN (graph convolutional network) architectures for semi-supervised graph clustering. We finally demonstrate that the proposed architectures perform well on real data compared to state-of-the-art graph clustering algorithms.
翻訳日:2021-05-03 02:48:18 公開日:2020-12-16
# PHP脆弱性検出のためのハイブリッドグラフニューラルネットワークアプローチ

A Hybrid Graph Neural Network Approach for Detecting PHP Vulnerabilities ( http://arxiv.org/abs/2012.08835v1 )

ライセンス: Link先を確認
Rishi Rabheru, Hazim Hanif, Sergio Maffeis(参考訳) 本稿では,phpソースコードの脆弱性を検出するディープラーニングアプローチであるdeeptectiveを提案する。 提案手法は,sqli,xss,osciの脆弱性を構文情報と意味情報の両方を利用して検出するために,ゲートリカレント単位とグラフ畳み込みネットワークを組み合わせた新しいハイブリッド手法を実装している。 我々は、DeepTectiveを評価し、確立された合成データセットとGitHubから収集された新しい実世界のデータセットのアートの状態と比較する。 実験の結果、DeepTectiveは合成データセットのほぼ完全な分類を達成し、F1スコアは現実的なデータセットの88.12%であり、関連するアプローチよりも優れていた。 確立したWordPressプラグインに4つの新たな脆弱性を発見し,DeepTectiveを実証した。

This paper presents DeepTective, a deep learning approach to detect vulnerabilities in PHP source code. Our approach implements a novel hybrid technique that combines Gated Recurrent Units and Graph Convolutional Networks to detect SQLi, XSS and OSCI vulnerabilities leveraging both syntactic and semantic information. We evaluate DeepTective and compare it to the state of the art on an established synthetic dataset and on a novel real-world dataset collected from GitHub. Experimental results show that DeepTective achieves near perfect classification on the synthetic dataset, and an F1 score of 88.12% on the realistic dataset, outperforming related approaches. We validate DeepTective in the wild by discovering 4 novel vulnerabilities in established WordPress plugins.
翻訳日:2021-05-03 02:47:58 公開日:2020-12-16
# セッションベースレコメンデーションのためのバッチ制約分布強化学習

Batch-Constrained Distributional Reinforcement Learning for Session-based Recommendation ( http://arxiv.org/abs/2012.08984v1 )

ライセンス: Link先を確認
Diksha Garg, Priyanka Gupta, Pankaj Malhotra, Lovekesh Vig, Gautam Shroff(参考訳) セッションベースのレコメンデーションのための既存の深層強化学習(rl)アプローチのほとんどは、実際のユーザとの高価なオンラインインタラクションに依存するか、あるいは潜在的にバイアスのあるルールベースまたはデータ駆動の学習モデルに依存している。 この作業では、代わりに、純粋なバッチまたはオフライン設定、すなわち、レコメンデーションポリシーの学習にフォーカスします。 学習ポリシは、オフラインの履歴インタラクションログや、未知で最適でない動作ポリシから生成されたバッチデータのみから、現実世界やユーザビヘイビアモデルからのデータにアクセスせずに取得する。 BCD4Rec: Batch-Constrained Distributional RL for Session-based Recommendationsを提案する。 BCD4Recは、オフラインログから学習するためのバッチ(オフライン)RLと分散RLの最近の進歩の上に構築されている。 我々は,BCD4Recが,Click Through Rates や Buy Rates といった標準的なパフォーマンス指標を用いて,バッチ設定における強力なRLおよび非RLベースラインと同様に,行動ポリシーを大幅に改善することを示した。 bcd4recの他の有用な特性としては: i. 大きなアクションスペース(アイテム数順)にもかかわらず、正しい潜在カテゴリからの項目を推奨する。 クリックまたは購入アイテムの人気バイアスを克服する 通常はオフラインログに存在する

Most of the existing deep reinforcement learning (RL) approaches for session-based recommendations either rely on costly online interactions with real users, or rely on potentially biased rule-based or data-driven user-behavior models for learning. In this work, we instead focus on learning recommendation policies in the pure batch or offline setting, i.e. learning policies solely from offline historical interaction logs or batch data generated from an unknown and sub-optimal behavior policy, without further access to data from the real-world or user-behavior models. We propose BCD4Rec: Batch-Constrained Distributional RL for Session-based Recommendations. BCD4Rec builds upon the recent advances in batch (offline) RL and distributional RL to learn from offline logs while dealing with the intrinsically stochastic nature of rewards from the users due to varied latent interest preferences (environments). We demonstrate that BCD4Rec significantly improves upon the behavior policy as well as strong RL and non-RL baselines in the batch setting in terms of standard performance metrics like Click Through Rates or Buy Rates. Other useful properties of BCD4Rec include: i. recommending items from the correct latent categories indicating better value estimates despite large action space (of the order of number of items), and ii. overcoming popularity bias in clicked or bought items typically present in the offline logs.
翻訳日:2021-05-03 02:47:46 公開日:2020-12-16
# 生成と検証:ニューラルネットワーク知覚システムの意味のある形式解析

Generate and Verify: Semantically Meaningful Formal Analysis of Neural Network Perception Systems ( http://arxiv.org/abs/2012.09313v1 )

ライセンス: Link先を確認
Chris R. Serrano and Pape M. Sylla and Michael A. Warren(参考訳) テストは、ニューラルネットワーク知覚システムの精度を評価する主要な方法である。 ニューラルネットワーク知覚モデルの形式的検証に関する以前の研究は、個々の画像入力に対する分類の局所的逆ロバスト性の概念に限定されてきた。 本研究では,意味的に有意味な潜在空間を持つ生成型ニューラルネットワークに対して回帰を行うニューラルネットワーク知覚モデルに対する大域的正しさの概念を提案する。 すなわち、生成モデルが潜在空間の間隔で生成する無限の画像に対して、ニューラルネットワークの検証を用いて、モデルが基底真理の何らかの誤差境界内で常に推定値を生成することを証明する。 知覚モデルが失敗すると、対応する画像の人間による検査なしにプログラム的に使用できる興味のあるシステムの具体的状態に関する情報を運ぶ意味的に有意義な反例を得る。 我々のアプローチであるGenerate and Verifyは、ニューラルネットワーク認識システムの障害事例に関する洞察を集めるための新しい技術を提供し、安全クリティカルなアプリケーションにおける正しい振る舞いの有意義な保証を提供する。

Testing remains the primary method to evaluate the accuracy of neural network perception systems. Prior work on the formal verification of neural network perception models has been limited to notions of local adversarial robustness for classification with respect to individual image inputs. In this work, we propose a notion of global correctness for neural network perception models performing regression with respect to a generative neural network with a semantically meaningful latent space. That is, against an infinite set of images produced by a generative model over an interval of its latent space, we employ neural network verification to prove that the model will always produce estimates within some error bound of the ground truth. Where the perception model fails, we obtain semantically meaningful counter-examples which carry information on concrete states of the system of interest that can be used programmatically without human inspection of corresponding generated images. Our approach, Generate and Verify, provides a new technique to gather insight into the failure cases of neural network perception systems and provide meaningful guarantees of correct behavior in safety critical applications.
翻訳日:2021-05-03 02:46:51 公開日:2020-12-16
# 特定薬剤を用いたICD10自動予測のための協調学習者

Collaborative residual learners for automatic icd10 prediction using prescribed medications ( http://arxiv.org/abs/2012.11327v1 )

ライセンス: Link先を確認
Yassien Shaalan, Alexander Dokumentov, Piyapong Khumrin, Krit Khwanngern, Anawat Wisetborisu, Thanakom Hatsadeang, Nattapat Karaket, Witthawin Achariyaviriya, Sansanee Auephanwiriyakul, Nipon Theera-Umpon, Terence Siganakis(参考訳) 臨床コーディングは、治療のエピソードからicd10のような標準的なコード形式への診断データの変換を含む管理プロセスである。 請求書やエチオロジー研究など多くの重要な応用がある。 データスパーシティ、デジタルヘルスシステムの低相互運用性、実際の診断の複雑さ、icd10コード空間の巨大化などにより、臨床コーディングの自動化は非常に困難である。 関連する作業は、多くのデータソースへの依存、非効率なモデリング、より汎用性の低いソリューションによって、適用性が低下する。 本稿では,処方用データのみを用いたicd10符号の自動予測のための協調残差学習モデルを提案する。 Maharaj Nakorn Chiang Mai病院の2つの臨床データセット(外来患者と入院患者)において,実ケースミックスの分布について広範な実験を行った。 f1-score の 0.71 と 0.57 のマルチラベル分類精度,f1-score の 0.57 と 0.38 それぞれ 0.73 と 0.44 の精度が得られた。

Clinical coding is an administrative process that involves the translation of diagnostic data from episodes of care into a standard code format such as ICD10. It has many critical applications such as billing and aetiology research. The automation of clinical coding is very challenging due to data sparsity, low interoperability of digital health systems, complexity of real-life diagnosis coupled with the huge size of ICD10 code space. Related work suffer from low applicability due to reliance on many data sources, inefficient modelling and less generalizable solutions. We propose a novel collaborative residual learning based model to automatically predict ICD10 codes employing only prescriptions data. Extensive experiments were performed on two real-world clinical datasets (outpatient & inpatient) from Maharaj Nakorn Chiang Mai Hospital with real case-mix distributions. We obtain multi-label classification accuracy of 0.71 and 0.57 of average precision, 0.57 and 0.38 of F1-score and 0.73 and 0.44 of accuracy in predicting principal diagnosis for inpatient and outpatient datasets respectively.
翻訳日:2021-05-03 02:46:37 公開日:2020-12-16
# ICd10符号化予測のためのアンサンブルモデル

Ensemble model for pre-discharge icd10 coding prediction ( http://arxiv.org/abs/2012.11333v1 )

ライセンス: Link先を確認
Yassien Shaalan, Alexander Dokumentov, Piyapong Khumrin, Krit Khwanngern, Anawat Wisetborisu, Thanakom Hatsadeang, Nattapat Karaket, Witthawin Achariyaviriya, Sansanee Auephanwiriyakul, Nipon Theera-Umpon, Terence Siganakis(参考訳) 医学的診断から臨床的コーディングへの変換は、請求書作成、エチオロジー分析、監査に幅広い応用がある。 現在、コーディングは手作業ですが、このようなタスクの自動化は直接ではありません。 課題には、散らかって騒がしい臨床記録、ケースの複雑さ、巨大なICD10コード空間などがある。 以前の研究は主に予測のための放電音に頼っており、非常に限られたデータスケールに適用された。 正確なコード予測のために複数の臨床データソースを組み込んだアンサンブルモデルを提案する。 さらに,予測結果に対する信頼度を提供する評価機構を提案する。 Maharaj Nakorn Chiang Mai病院の患者と外来の2つの臨床データセットに、未修正の症例混合分布を用いた大規模な実験を行った。 その結果,F1スコアの平均精度は0.73,0.58,F1スコアは0.56,0.35の多ラベル分類精度が0.71,0.4の精度で得られた。

The translation of medical diagnosis to clinical coding has wide range of applications in billing, aetiology analysis, and auditing. Currently, coding is a manual effort while the automation of such task is not straight forward. Among the challenges are the messy and noisy clinical records, case complexities, along with the huge ICD10 code space. Previous work mainly relied on discharge notes for prediction and was applied to a very limited data scale. We propose an ensemble model incorporating multiple clinical data sources for accurate code predictions. We further propose an assessment mechanism to provide confidence rates in predicted outcomes. Extensive experiments were performed on two new real-world clinical datasets (inpatient & outpatient) with unaltered case-mix distributions from Maharaj Nakorn Chiang Mai Hospital. We obtain multi-label classification accuracies of 0.73 and 0.58 for average precision, 0.56 and 0.35 for F1-scores and 0.71 and 0.4 accuracy in predicting principal diagnosis for inpatient and outpatient datasets respectively.
翻訳日:2021-05-03 02:46:18 公開日:2020-12-16
# 対外取引

Adversarial trading ( http://arxiv.org/abs/2101.03128v1 )

ライセンス: Link先を確認
Alexandre Miot(参考訳) 逆行的なサンプルは、ここ数年機械学習コミュニティから多くの注目を集めてきた。 悪いサンプルは、ミスリーディングを目的としたサンプルポイントの不可避な修正から生じる人工データポイントである。 驚くべきことに、金融調査では、具体的な取引の観点からこの話題に関してはほとんど行われていない。 本研究は,これらのサンプルを取引環境に実装し,特定の市場参加者に悪影響を及ぼすことを示す。 これは取引や規制の観点から、金融市場に大きな影響を与える可能性がある。

Adversarial samples have drawn a lot of attention from the Machine Learning community in the past few years. An adverse sample is an artificial data point coming from an imperceptible modification of a sample point aiming at misleading. Surprisingly, in financial research, little has been done in relation to this topic from a concrete trading point of view. We show that those adversarial samples can be implemented in a trading environment and have a negative impact on certain market participants. This could have far reaching implications for financial markets either from a trading or a regulatory point of view.
翻訳日:2021-05-03 02:45:46 公開日:2020-12-16
# 発達障害児向け移動療法ゲームにおけるフレームを用いた感情検出分類器の訓練

Training an Emotion Detection Classifier using Frames from a Mobile Therapeutic Game for Children with Developmental Disorders ( http://arxiv.org/abs/2012.08678v1 )

ライセンス: Link先を確認
Peter Washington, Haik Kalantarian, Jack Kent, Arman Husic, Aaron Kline, Emilie Leblanc, Cathy Hou, Cezmi Mutlu, Kaitlyn Dunlap, Yordan Penev, Maya Varma, Nate Stockham, Brianna Chrisman, Kelley Paskov, Min Woo Sun, Jae-Yoon Jung, Catalin Voss, Nick Haber, Dennis P. Wall(参考訳) 自動感情分類は、自閉症などの発達的行動条件を持つ子供を含む感情認識に苦しむ人々を助ける可能性がある。 しかし、ほとんどのコンピュータビジョンの感情モデルは大人の感情に基づいて訓練され、それゆえ子供の顔に過小評価される。 本研究では,自動児童感情検出の性能を,翻訳デジタル医療に必要なレベルに近づけるために,収集と子どものラベル付けがデータに与える影響をゲーミフィケーションする戦略を考案した。 われわれは、発達・行動条件を持つ子供向けに主に設計された治療用スマートフォンゲームGuessWhatを利用して、ゲームによって引き起こされる様々な感情を表現する子供たちのビデオデータのセキュアな収集をゲーミフィケーションした。 人間のラベル付けを楽しませるセキュアなWebインターフェースを通じて、私たちは2,155の動画、39,968の感情フレーム、106,001のラベルを集めました。 この拡張された小児感情中心データベース(既存の公開小児感情中心データベースの30倍)を用いて、我々は小児の幸福、悲しみ、驚き、恐怖、怒り、嫌悪感、中性表現の小児感情分類畳み込みニューラルネットワーク(CNN)分類器を訓練した。 この分類器はカフェ全体で66.9%のバランス付き精度と67.4%のf1-scoreと79.1%のバランス付き精度と78.0%のf1-scoreを達成した。 この性能は、以前のすべての分類器よりも少なくとも10%高く、"anger" と "disgust" を1つのクラスに組み合わせた場合でも、56.%のバランスの取れた精度に達している。 本研究は, 小児科治療用に設計されたモバイルゲームが, 高量のドメイン関連データセットを生成し, 美術分類器の状態を訓練し, 精度の高い健康活動に高い関係のあるタスクを遂行できることを検証する。

Automated emotion classification could aid those who struggle to recognize emotion, including children with developmental behavioral conditions such as autism. However, most computer vision emotion models are trained on adult affect and therefore underperform on child faces. In this study, we designed a strategy to gamify the collection and the labeling of child affect data in an effort to boost the performance of automatic child emotion detection to a level closer to what will be needed for translational digital healthcare. We leveraged our therapeutic smartphone game, GuessWhat, which was designed in large part for children with developmental and behavioral conditions, to gamify the secure collection of video data of children expressing a variety of emotions prompted by the game. Through a secure web interface gamifying the human labeling effort, we gathered and labeled 2,155 videos, 39,968 emotion frames, and 106,001 labels on all images. With this drastically expanded pediatric emotion centric database (>30x larger than existing public pediatric affect datasets), we trained a pediatric emotion classification convolutional neural network (CNN) classifier of happy, sad, surprised, fearful, angry, disgust, and neutral expressions in children. The classifier achieved 66.9% balanced accuracy and 67.4% F1-score on the entirety of CAFE as well as 79.1% balanced accuracy and 78.0% F1-score on CAFE Subset A, a subset containing at least 60% human agreement on emotions labels. This performance is at least 10% higher than all previously published classifiers, the best of which reached 56.% balanced accuracy even when combining "anger" and "disgust" into a single class. This work validates that mobile games designed for pediatric therapies can generate high volumes of domain-relevant datasets to train state of the art classifiers to perform tasks highly relevant to precision health efforts.
翻訳日:2021-05-03 02:45:41 公開日:2020-12-16
# 周波数情報変換による1d 1h-nmrスペクトルの複雑さの低減

Reduction in the complexity of 1D 1H-NMR spectra by the use of Frequency to Information Transformation ( http://arxiv.org/abs/2012.09267v1 )

ライセンス: Link先を確認
Homayoun Valafar, Faramarz Valafar(参考訳) 1H-NMRスペクトルの分析は、しばしばこれらのスペクトルの収集中に起こる大きな変動によって妨げられる。 大きな溶媒と標準ピーク、ベースラインドリフトと負のピーク(不適切なフェージングによる)は、これらのバリエーションの1つである。 さらに、不正なシミングなどの機器依存的な変化も記録されたスペクトルに埋め込まれている。 これらの信号の変更の予測不能な性質は、これらのスペクトルの自動化およびインストゥルメンタルなコンピュータ解析を信頼できないものにした。 本稿では、周波数情報変換(FIT)と呼ばれる信号(周波数領域1H-NMRスペクトル)の情報内容を抽出し、従来使用されていた手法(SPUTNIK)と比較する。 fitは、フーリエ変換信号を情報スペクトル(is)に変換することによって、信号の残りを破棄しながら、信号に存在するパターンマッチングタスクに関連する情報を適切に抽出することができる。 本手法は,クラス内相関係数を増加させながらクラス間相関係数を減少させる能力を示す。 言い換えれば、同じ分子の異なるスペクトルは互いに似ているが、異なる分子のスペクトルは互いにより異なるように見える。 この機能により、コンピュータアルゴリズムを用いたスペクトルシグネチャに基づく分子の自動識別と解析が容易になる。

Analysis of 1H-NMR spectra is often hindered by large variations that occur during the collection of these spectra. Large solvent and standard peaks, base line drift and negative peaks (due to improper phasing) are among some of these variations. Furthermore, some instrument dependent alterations, such as incorrect shimming, are also embedded in the recorded spectrum. The unpredictable nature of these alterations of the signal has rendered the automated and instrument independent computer analysis of these spectra unreliable. In this paper, a novel method of extracting the information content of a signal (in this paper, frequency domain 1H-NMR spectrum), called the frequency-informatio n transformation (FIT), is presented and compared to a previously used method (SPUTNIK). FIT can successfully extract the relevant information to a pattern matching task present in a signal, while discarding the remainder of a signal by transforming a Fourier transformed signal into an information spectrum (IS). This technique exhibits the ability of decreasing the inter-class correlation coefficients while increasing the intra-class correlation coefficients. Different spectra of the same molecule, in other words, will resemble more to each other while the spectra of different molecules will look more different from each other. This feature allows easier automated identification and analysis of molecules based on their spectral signatures using computer algorithms.
翻訳日:2021-05-03 02:45:04 公開日:2020-12-16
# 決定木によるテストと再構築

Testing and reconstruction via decision trees ( http://arxiv.org/abs/2012.08735v1 )

ライセンス: Link先を確認
Guy Blanc, Jane Lange, Li-Yang Tan(参考訳) 決定木に対する部分線形および局所計算アルゴリズムを,テストと再構成に焦点をあてて検討した。 最初の結果は、$\mathrm{poly}(\log s, 1/\varepsilon)\cdot n\log n$ timeで実行されるテスターで、$\mathrm{poly}(\log s,1/\varepsilon)\cdo t \log n$クエリを未知の関数に$f$、$\circ$ accepts if $f$ is $\varepsilon$-close to a size-$s$ decision tree; $\circ$ rejects if $f$ is $\omega(\varepsilon) $-far from decision tree of size $s^{\tilde{o}((\log s)^2/\varepsilon^2)} とします。 既存のテスターは、$s$決定木と$\varepsilon$-farと$\mathrm{poly}(s^s,1/\varepsilon)\cdo t n$ time with $\tilde{o}(s/\varepsilon)$ queryとを区別する。 したがって、比較不能な問題を解決するが、時間とクエリの複雑さの2倍の指数関数的改善をそれぞれ達成する。 このアルゴリズムは,小さな決定木に近い関数$f$に対するクエリアクセスを与えられた場合,f$に近い小さな決定木に対する高速なクエリアクセスを提供する。 既知の関係によって、我々の結果は、フーリエ度、ランダム化および量子クエリの複雑度、証明書の複雑さ、感度など、他の多くのブール関数特性の再構成アルゴリズムをもたらす。 これによって、これらのプロパティの新しいテスタが生まれます。 最後に、未知関数が$\varepsilon$-close- toか$\omega(\varepsilon) $-far-from size-$s$ decision treeであるかどうかをテストするための難しい結果を与える。 この課題に対する効率的なアルゴリズムは、学習理論の中心的なオープン問題である決定木を適切に学習するための効率的なアルゴリズムをもたらす。 任意のクラスに対する適切な学習アルゴリズムである$\mathcal{H}$ yield property testers for $\mathcal{H}$が知られている。

We study sublinear and local computation algorithms for decision trees, focusing on testing and reconstruction. Our first result is a tester that runs in $\mathrm{poly}(\log s, 1/\varepsilon)\cdot n\log n$ time, makes $\mathrm{poly}(\log s,1/\varepsilon)\cdo t \log n$ queries to an unknown function $f$, and: $\circ$ Accepts if $f$ is $\varepsilon$-close to a size-$s$ decision tree; $\circ$ Rejects if $f$ is $\Omega(\varepsilon) $-far from decision trees of size $s^{\tilde{O}((\log s)^2/\varepsilon^2)}$. Existing testers distinguish size-$s$ decision trees from those that are $\varepsilon$-far from from size-$s$ decision trees in $\mathrm{poly}(s^s,1/\varepsilon)\cdo t n$ time with $\tilde{O}(s/\varepsilon)$ queries. We therefore solve an incomparable problem, but achieve doubly-exponential-i n-$s$ and exponential-in-$s$ improvements in time and query complexities respectively. We obtain our tester by designing a reconstruction algorithm for decision trees: given query access to a function $f$ that is close to a small decision tree, this algorithm provides fast query access to a small decision tree that is close to $f$. By known relationships, our results yield reconstruction algorithms for numerous other boolean function properties -- Fourier degree, randomized and quantum query complexities, certificate complexity, sensitivity, etc. -- which in turn yield new testers for these properties. Finally, we give a hardness result for testing whether an unknown function is $\varepsilon$-close- to or $\Omega(\varepsilon) $-far-from size-$s$ decision trees. We show that an efficient algorithm for this task would yield an efficient algorithm for properly learning decision trees, a central open problem of learning theory. It has long been known that proper learning algorithms for any class $\mathcal{H}$ yield property testers for $\mathcal{H}$; this provides an example of a converse.
翻訳日:2021-05-03 02:43:11 公開日:2020-12-16
# 確率的保証付きニューラルネットワークの検証について

On The Verification of Neural ODEs with Stochastic Guarantees ( http://arxiv.org/abs/2012.08863v1 )

ライセンス: Link先を確認
Sophie Gruenbacher, Ramin Hasani, Mathias Lechner, Jacek Cyranka, Scott A. Smolka, Radu Grosu(参考訳) 時間連続ニューラルネットワークの新たなクラスであるneural odesは,グローバル最適化問題の集合を解いて検証できることを示す。 この目的のために、Stochastic Lagrangian Reachability (SLR)は、タイトなReachtubeを構築するための抽象的手法であり、Reachtube境界に対する信頼区間の形で確率的保証を提供する。 SLRは本質的に悪名高いラップング効果(過近似誤差の累積)を回避し、決定論的リーチビリティー法によって行われるように、安全領域を何度も前進させる代わりに、局所的な最適化手順を実行する。 高速局所最適化を実現するために,バックプロパゲーションを必要とせずに勾配を計算するための新しいフォワードモード随伴感度法を提案する。 最後に,SLRに対する漸近的および非漸近的収束率を確立する。

We show that Neural ODEs, an emerging class of time-continuous neural networks, can be verified by solving a set of global-optimization problems. For this purpose, we introduce Stochastic Lagrangian Reachability (SLR), an abstraction-based technique for constructing a tight Reachtube (an over-approximation of the set of reachable states over a given time-horizon), and provide stochastic guarantees in the form of confidence intervals for the Reachtube bounds. SLR inherently avoids the infamous wrapping effect (accumulation of over-approximation errors) by performing local optimization steps to expand safe regions instead of repeatedly forward-propagating them as is done by deterministic reachability methods. To enable fast local optimizations, we introduce a novel forward-mode adjoint sensitivity method to compute gradients without the need for backpropagation. Finally, we establish asymptotic and non-asymptotic convergence rates for SLR.
翻訳日:2021-05-03 02:42:06 公開日:2020-12-16
# セキュリティ運用センターにおける機械学習ツールの利用性評価

An Assessment of the Usability of Machine Learning Based Tools for the Security Operations Center ( http://arxiv.org/abs/2012.09013v1 )

ライセンス: Link先を確認
Sean Oesch, Robert Bridges, Jared Smith, Justin Beaver, John Goodall, Kelly Huffer, Craig Miles, Dan Scofield(参考訳) 大規模なリサーチとアドバイザリ企業であるGartnerは、2024年までにセキュリティオペレーションセンター(SOC)の80%が、機械学習(ML)ベースのソリューションを使用して運用を強化することを予測している。 このような普及を踏まえて、研究コミュニティはユーザビリティの懸念を特定し、対処することが不可欠である。 本研究は,mlベースのツールを用いた最初の実地ユーザビリティアセスメントの結果を示す。 米国海軍の支援を得て、最先端のネットワークとユーザーエミュレーション機能を備えた大型の空飛ぶサイバーテストベッドであるnational cyber rangeを活用し、アメリカ海軍のsocアナリスト6名による2つのツールの使用状況を調査した。 本分析では,ユーザインタフェース設計の確立されたユーザビリティヒューリスティックの複数の違反を含む,ユーザビリティに関する重大な問題をいくつか明らかにした。 また、アナリストはこれらのツールがスコアを生成する方法の明確なメンタルモデルに欠けており、ツール自体の誤信や誤用を引き起こしていることも分かりました。 意外なことに、アナリストの教育水準や経験年数と、どちらのツールとのパフォーマンスとの間には相関が見られず、背景知識や人格といった他の要因がMLベースのツールの使用において重要な役割を果たすことが示唆された。 この結果から,MLベースのセキュリティツールベンダは,経験と経験の浅いアナリストとの共同作業に新たな重点を置き,現実のセキュリティ運用環境において,彼らのシステムが有用かつ有用であることを確認する必要がある。

Gartner, a large research and advisory company, anticipates that by 2024 80% of security operation centers (SOCs) will use machine learning (ML) based solutions to enhance their operations. In light of such widespread adoption, it is vital for the research community to identify and address usability concerns. This work presents the results of the first in situ usability assessment of ML-based tools. With the support of the US Navy, we leveraged the national cyber range, a large, air-gapped cyber testbed equipped with state-of-the-art network and user emulation capabilities, to study six US Naval SOC analysts' usage of two tools. Our analysis identified several serious usability issues, including multiple violations of established usability heuristics form user interface design. We also discovered that analysts lacked a clear mental model of how these tools generate scores, resulting in mistrust and/or misuse of the tools themselves. Surprisingly, we found no correlation between analysts' level of education or years of experience and their performance with either tool, suggesting that other factors such as prior background knowledge or personality play a significant role in ML-based tool usage. Our findings demonstrate that ML-based security tool vendors must put a renewed focus on working with analysts, both experienced and inexperienced, to ensure that their systems are usable and useful in real-world security operations settings.
翻訳日:2021-05-03 02:41:50 公開日:2020-12-16
# FedADC: ドリフトコントロールによるフェデレーション学習の促進

FedADC: Accelerated Federated Learning with Drift Control ( http://arxiv.org/abs/2012.09102v1 )

ライセンス: Link先を確認
Emre Ozfatura and Kerem Ozfatura and Deniz Gunduz(参考訳) フェデレートラーニング(FL)は、プライバシーに関するエッジデバイス間の協調学習のためのデファクトフレームワークとなっている。 fl戦略の核心は、確率勾配降下(sgd)を分散的に使用することである。 FLの大規模実装は、SGD用に設計された加速技術の分散環境への導入や、局所データセットの非均一分布によるドリフト問題の緩和など、新たな課題をもたらす。 この2つの問題は文献で個別に研究されているが,本稿では,flフレームワークに大きな変更を加えることなく,単一の戦略を用いて,あるいは追加の計算処理と通信負荷を導入することで,どちらの問題にも対処できることを示す。 この目的を達成するために,ドリフト制御付き高速化FLアルゴリズムであるFedADCを提案する。 FedADCの利点を実証的に説明します。

Federated learning (FL) has become de facto framework for collaborative learning among edge devices with privacy concern. The core of the FL strategy is the use of stochastic gradient descent (SGD) in a distributed manner. Large scale implementation of FL brings new challenges, such as the incorporation of acceleration techniques designed for SGD into the distributed setting, and mitigation of the drift problem due to non-homogeneous distribution of local datasets. These two problems have been separately studied in the literature; whereas, in this paper, we show that it is possible to address both problems using a single strategy without any major alteration to the FL framework, or introducing additional computation and communication load. To achieve this goal, we propose FedADC, which is an accelerated FL algorithm with drift control. We empirically illustrate the advantages of FedADC.
翻訳日:2021-05-03 02:41:26 公開日:2020-12-16
# 複数の異なるプライベートクエリを答える際のユニオンバウンド回避について

On Avoiding the Union Bound When Answering Multiple Differentially Private Queries ( http://arxiv.org/abs/2012.09116v1 )

ライセンス: Link先を確認
Badih Ghazi, Ravi Kumar, Pasin Manurangsi(参考訳) 本研究では,各問合せが1つの感度を持つ,$(\epsilon, \delta)$差分プライバシで$k$クエリに応答する問題を考察する。 このタスクのアルゴリズムは、$o(\frac{1}{\epsilon}\sqrt{k \log \frac{1}{\delta}})$の期待値$\ell_\infty$エラーバウンドを達成し、タイトであることが知られている(steinke and ullman, 2016)。 dagan and kur (2020) による最近の研究でも、まったく異なるアプローチで同様の結果が得られている。 私たちの仕事と彼らの仕事との違いの1つは、我々の保証が $\delta < 2^{-\Omega(k/(\log k)^8)}$ であっても成り立つことである。 一方、Dagan と Kur のアルゴリズムは、$\ell_{\infty}$ の誤差境界が $O(\frac{1}{\epsilon}\sqrt{k \log \frac{1}{\delta}})$ が期待されるだけでなく、常に(確率 1 で)成り立つが、その誤差に対して高い確率(あるいは予想される)保証しか得られないという驚くべき優位性を持っている。

In this work, we study the problem of answering $k$ queries with $(\epsilon, \delta)$-differentia l privacy, where each query has sensitivity one. We give an algorithm for this task that achieves an expected $\ell_\infty$ error bound of $O(\frac{1}{\epsilon}\sqrt{k \log \frac{1}{\delta}})$, which is known to be tight (Steinke and Ullman, 2016). A very recent work by Dagan and Kur (2020) provides a similar result, albeit via a completely different approach. One difference between our work and theirs is that our guarantee holds even when $\delta < 2^{-\Omega(k/(\log k)^8)}$ whereas theirs does not apply in this case. On the other hand, the algorithm of Dagan and Kur has a remarkable advantage that the $\ell_{\infty}$ error bound of $O(\frac{1}{\epsilon}\sqrt{k \log \frac{1}{\delta}})$ holds not only in expectation but always (i.e., with probability one) while we can only get a high probability (or expected) guarantee on the error.
翻訳日:2021-05-03 02:41:11 公開日:2020-12-16
# 正則埋め込みの微分による交流最適潮流の解法

Learning to Solve AC Optimal Power Flow by Differentiating through Holomorphic Embeddings ( http://arxiv.org/abs/2012.09622v1 )

ライセンス: Link先を確認
Henning Lange, Bingqing Chen, Mario Berges, Soummya Kar(参考訳) 交流最適潮流(AC-OPF)は電力系統の運用における基本的な問題の一つである。 AC-OPFは伝統的に、最適生成セットポイントを求める制約付き最適化問題として、非線型平等制約の集合(電力フロー方程式)を満たす。 再生可能発電の普及に伴い、グリッドオペレーターはより短い間隔でより大きな問題を解決する必要がある。 これにより、高速推論時間を持ち、大規模ネットワークに拡張可能なニューラルネットワークでopfソリューションを学ぶことに対する研究の関心が高まる。 AC-OPF問題の解決における主な困難は、この等式制約を扱うことにある。 パワーフロー方程式を満たす電圧の割り当てがあるが、物理的には実現できない。 この性質は、これらの非物理的根が誘引子として振る舞うことができるため、射影勾配の脆さに依存する任意の方法を示す。 本稿では,電力フロー方程式を正則関数に組み込む電力フローソルバの演算を微分することにより,この問題を回避する効率的な戦略を示す。 得られた学習ベースのアプローチは,200バスシステム上で実験的に検証され,訓練後,学習エージェントが確実に高速に最適化されたパワーフローソリューションを生成できることが示されている。 具体的には,従来の解法に比べて12倍の速度向上と40%の堅牢性向上を報告した。 我々の知る限り、このアプローチは完全な非線形AC-OPF方程式をうまく尊重する最初の学習ベースのアプローチを構成する。

Alternating current optimal power flow (AC-OPF) is one of the fundamental problems in power systems operation. AC-OPF is traditionally cast as a constrained optimization problem that seeks optimal generation set points whilst fulfilling a set of non-linear equality constraints -- the power flow equations. With increasing penetration of renewable generation, grid operators need to solve larger problems at shorter intervals. This motivates the research interest in learning OPF solutions with neural networks, which have fast inference time and is potentially scalable to large networks. The main difficulty in solving the AC-OPF problem lies in dealing with this equality constraint that has spurious roots, i.e. there are assignments of voltages that fulfill the power flow equations that however are not physically realizable. This property renders any method relying on projected-gradients brittle because these non-physical roots can act as attractors. In this paper, we show efficient strategies that circumvent this problem by differentiating through the operations of a power flow solver that embeds the power flow equations into a holomorphic function. The resulting learning-based approach is validated experimentally on a 200-bus system and we show that, after training, the learned agent produces optimized power flow solutions reliably and fast. Specifically, we report a 12x increase in speed and a 40% increase in robustness compared to a traditional solver. To the best of our knowledge, this approach constitutes the first learning-based approach that successfully respects the full non-linear AC-OPF equations.
翻訳日:2021-05-03 02:40:40 公開日:2020-12-16
# 単調超モジュラー関数の比最適化に関する一考察

A Note on Optimizing the Ratio of Monotone Supermodular Functions ( http://arxiv.org/abs/2012.09725v1 )

ライセンス: Link先を確認
Wenxin Li(参考訳) 2つの超モジュラー関数の比率を最小化(または最大化)する問題に対して,2つの超モジュラー関数が単調な非退化あるいは非開化である場合,多項式数による有界近似比は得られないことを示す。

We show that for the problem of minimizing (or maximizing) the ratio of two supermodular functions, no bounded approximation ratio can be achieved via polynomial number of queries, if the two supermodular functions are both monotone non-decreasing or non-increasing.
翻訳日:2021-05-03 02:40:07 公開日:2020-12-16
# IoT環境におけるボットネット攻撃の検出: 最適化された機械学習アプローチ

Detecting Botnet Attacks in IoT Environments: An Optimized Machine Learning Approach ( http://arxiv.org/abs/2012.11325v1 )

ライセンス: Link先を確認
MohammadNoor Injadat and Abdallah Moubayed and Abdallah Shami(参考訳) インターネットへの依存の高まりとそれに伴う接続需要の増加により、IoT(Internet-of-Thin gs)デバイスは大幅に成長した。 最近のレポートによると、IoTデバイスの継続的デプロイは、ネットワーク攻撃の増加につながった。最近の報告によると、IoTマルウェア攻撃は2017年の1030万から2018年の3270万へと215.7%増加した。 これはIoTデバイスとネットワークの脆弱性と感受性の増加を示している。 そのため,このような環境下では,適切な効果的な攻撃検出・緩和技術が必要である。 マシンラーニング(ML)は、IoTデバイスやネットワークで生成された大量のデータによって、潜在的なソリューションのひとつとして浮上している。 したがって、IoT環境の侵入検知に採用される可能性がある。 そこで本研究では,ベイズ最適化ガウシアンプロセス(BO-GP)アルゴリズムと決定木分類(DT)モデルを組み合わせたMLベースのフレームワークを提案し,IoTデバイスに対する攻撃を効果的かつ効率的に検出する。 提案フレームワークの性能はBot-IoT-2018データセットを用いて評価する。 実験の結果,提案フレームワークは高い検出精度,精度,リコール,Fスコアを有し,IoT環境におけるボットネット攻撃の検出の有効性と堅牢性を強調した。

The increased reliance on the Internet and the corresponding surge in connectivity demand has led to a significant growth in Internet-of-Things (IoT) devices. The continued deployment of IoT devices has in turn led to an increase in network attacks due to the larger number of potential attack surfaces as illustrated by the recent reports that IoT malware attacks increased by 215.7% from 10.3 million in 2017 to 32.7 million in 2018. This illustrates the increased vulnerability and susceptibility of IoT devices and networks. Therefore, there is a need for proper effective and efficient attack detection and mitigation techniques in such environments. Machine learning (ML) has emerged as one potential solution due to the abundance of data generated and available for IoT devices and networks. Hence, they have significant potential to be adopted for intrusion detection for IoT environments. To that end, this paper proposes an optimized ML-based framework consisting of a combination of Bayesian optimization Gaussian Process (BO-GP) algorithm and decision tree (DT) classification model to detect attacks on IoT devices in an effective and efficient manner. The performance of the proposed framework is evaluated using the Bot-IoT-2018 dataset. Experimental results show that the proposed optimized framework has a high detection accuracy, precision, recall, and F-score, highlighting its effectiveness and robustness for the detection of botnet attacks in IoT environments.
翻訳日:2021-05-03 02:39:59 公開日:2020-12-16
# DNSクエリに基づくボットネット検出のための最適化ランダムフォレストモデル

Optimized Random Forest Model for Botnet Detection Based on DNS Queries ( http://arxiv.org/abs/2012.11326v1 )

ライセンス: Link先を確認
Abdallah Moubayed and MohammadNoor Injadat and Abdallah Shami(参考訳) ドメイン名システム(dns)プロトコルは、ウェブサイト名と対応するipアドレスの間で翻訳されるため、今日のインターネットにおいて重要な役割を果たす。 しかし、データの整合性とオリジン認証のプロセスが不足しているため、DNSプロトコルにはいくつかのセキュリティ脆弱性がある。 これはボットネットネットワーク攻撃など、様々なサイバー攻撃につながることが多い。 DNSベースのボットネット攻撃を検出するための有望なソリューションのひとつは、機械学習(ML)ベースのソリューションを採用することだ。 そこで,本稿では,対応するDNSクエリに基づいてボットネットを検出するためのMLベースのフレームワークを提案する。 具体的には、情報ゲインを特徴選択方法として、遺伝的アルゴリズム(GA)をハイパーパラメータ最適化モデルとして使用し、ランダムフォレスト(RF)分類器のパラメータをチューニングする。 提案フレームワークは最先端のTI-2016 DNSデータセットを用いて評価される。 実験の結果,提案した最適化フレームワークにより,機能セットのサイズが最大60%削減された。 さらに、デフォルトの分類器と比較して高い検出精度、精度、リコール、Fスコアを達成した。 これは、ボットネット攻撃検出における提案フレームワークの有効性と堅牢性を強調している。

The Domain Name System (DNS) protocol plays a major role in today's Internet as it translates between website names and corresponding IP addresses. However, due to the lack of processes for data integrity and origin authentication, the DNS protocol has several security vulnerabilities. This often leads to a variety of cyber-attacks, including botnet network attacks. One promising solution to detect DNS-based botnet attacks is adopting machine learning (ML) based solutions. To that end, this paper proposes a novel optimized ML-based framework to detect botnets based on their corresponding DNS queries. More specifically, the framework consists of using information gain as a feature selection method and genetic algorithm (GA) as a hyper-parameter optimization model to tune the parameters of a random forest (RF) classifier. The proposed framework is evaluated using a state-of-the-art TI-2016 DNS dataset. Experimental results show that the proposed optimized framework reduced the feature set size by up to 60%. Moreover, it achieved a high detection accuracy, precision, recall, and F-score compared to the default classifier. This highlights the effectiveness and robustness of the proposed framework in detecting botnet attacks.
翻訳日:2021-05-03 02:39:41 公開日:2020-12-16
# 構造ダイナミクス解析のための時間連続エネルギー保存ニューラルネットワーク

Time-Continuous Energy-Conservation Neural Network for Structural Dynamics Analysis ( http://arxiv.org/abs/2012.14334v1 )

ライセンス: Link先を確認
Yuan Feng, Hexiang Wang, Han Yang, Fangbo Wang(参考訳) 高速で正確な構造力学解析は構造設計と損傷評価に重要である。 近年,機械学習技術を活用した構造力学解析が注目されている。 基本ニューラルネットワークは構造動力学解析の代替手法を提供するが、ニューラルネットワーク内の物理法則の欠如はモデルの正確性と忠実性を制限する。 本稿では、物理法則を尊重するエネルギー保存型ニューラルネットワークの新たなファミリーについて紹介する。 ニューラルネットワークは、基本的な単一自由度システムから複雑な多自由度システムまで探索される。 減衰力と外部力も段階的に考慮される。 アルゴリズムの並列化を改善するために、構造状態の離散列を指定するのではなく、新しいエネルギー保存ニューラルネットワークで構造状態の微分をパラメータ化する。 提案モデルでは, システムエネルギーをニューラルネットワークの最後の層として利用し, 基礎となる自動微分グラフを活用し, システムエネルギーを自然に組み込むことで, 最終的に地震時の応答計算の精度と長期安定性を向上させる。 計算精度と速度のトレードオフについて議論する。 ケーススタディとして,現実的な地震記録を用いて3層建物地震シミュレーションを行う。

Fast and accurate structural dynamics analysis is important for structural design and damage assessment. Structural dynamics analysis leveraging machine learning techniques has become a popular research focus in recent years. Although the basic neural network provides an alternative approach for structural dynamics analysis, the lack of physics law inside the neural network limits the model accuracy and fidelity. In this paper, a new family of the energy-conservation neural network is introduced, which respects the physical laws. The neural network is explored from a fundamental single-degree-of-fre edom system to a complicated multiple-degrees-of- freedom system. The damping force and external forces are also considered step by step. To improve the parallelization of the algorithm, the derivatives of the structural states are parameterized with the novel energy-conservation neural network instead of specifying the discrete sequence of structural states. The proposed model uses the system energy as the last layer of the neural network and leverages the underlying automatic differentiation graph to incorporate the system energy naturally, which ultimately improves the accuracy and long-term stability of structures dynamics response calculation under an earthquake impact. The trade-off between computation accuracy and speed is discussed. As a case study, a 3-story building earthquake simulation is conducted with realistic earthquake records.
翻訳日:2021-05-03 02:39:24 公開日:2020-12-16
# プログラム可能な量子アニール-ノイズギブズサンプリング

Programmable Quantum Annealers as Noisy Gibbs Samplers ( http://arxiv.org/abs/2012.08827v1 )

ライセンス: Link先を確認
Marc Vuffray, Carleton Coffrin, Yaroslav A. Kharkov, Andrey Y. Lokhov(参考訳) 高次元確率分布から独立したサンプルを描くことは、ディープラーニングのような強力な機械学習フレームワークを含む現代のアルゴリズムの主要な計算ボトルネックである。 サンプリングを効率的に実現できるより大きな分布の族を発見するための探究は、確立された計算方法を超えて、量子計算の原理を利用する新しい物理デバイスへと変化した。 量子アニーリングは、ギブス分布におけるエネルギー景観の複雑さと密接に関連している有望な計算パラダイムを具現化し、系の状態の確率とこれらの状態のエネルギーを関連付ける。 本稿では,超伝導フラックス量子ビットのプログラム可能な格子を用いて実装した量子アニーラの物理的実現のサンプリング特性について検討する。 これらの量子マシンが生成するデータの包括的統計分析により、量子アニールは低温ノイズギブス分布から独立した構成を生成するサンプルとして振る舞う。 出力分布の構造は、個々の量子ビットの有効温度や局所量子ビット雑音の大きさなどの量子デバイス固有の物理特性をプローブし、結果として非線形応答関数とハードウェア実装に欠落するスプリアス相互作用をもたらすことを示す。 我々は,次世代の量子アニールや他のアナログコンピューティング機器のキャラクタリゼーションにおいて,我々の方法論が広く利用されることを期待する。

Drawing independent samples from high-dimensional probability distributions represents the major computational bottleneck for modern algorithms, including powerful machine learning frameworks such as deep learning. The quest for discovering larger families of distributions for which sampling can be efficiently realized has inspired an exploration beyond established computing methods and turning to novel physical devices that leverage the principles of quantum computation. Quantum annealing embodies a promising computational paradigm that is intimately related to the complexity of energy landscapes in Gibbs distributions, which relate the probabilities of system states to the energies of these states. Here, we study the sampling properties of physical realizations of quantum annealers which are implemented through programmable lattices of superconducting flux qubits. Comprehensive statistical analysis of the data produced by these quantum machines shows that quantum annealers behave as samplers that generate independent configurations from low-temperature noisy Gibbs distributions. We show that the structure of the output distribution probes the intrinsic physical properties of the quantum device such as effective temperature of individual qubits and magnitude of local qubit noise, which result in a non-linear response function and spurious interactions that are absent in the hardware implementation. We anticipate that our methodology will find widespread use in characterization of future generations of quantum annealers and other emerging analog computing devices.
翻訳日:2021-05-03 02:39:08 公開日:2020-12-16