このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210703となっている論文です。

PDF登録状況(公開日: 20210703)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) boost-r:gradient boosted trees for repeat data

Boost-R: Gradient Boosted Trees for Recurrence Data ( http://arxiv.org/abs/2107.08784v1 )

ライセンス: CC BY 4.0
Xiao Liu, Rong Pan(参考訳) 再発データは、信頼性、サイバーセキュリティ、ヘルスケア、オンライン小売など幅広い分野から生じる。 本稿では,静的および動的両方の特徴を持つイベントデータに対して,Boost-R(Boosting for Recurrence Data)と呼ばれる付加木に基づくアプローチを検討する。 boost-rは勾配強化付加木のアンサンブルを構築し、再帰事象過程の累積強度関数を推定し、観測値と予測値の間の正規化l2距離を最小化し、新しい木をアンサンブルに追加する。 従来の回帰木とは異なり、時間依存関数は各木の葉にBoost-Rによって構築される。 これらの関数の和は、複数の木から、累積強度のアンサンブル推定子が得られる。 不均質な集団内に隠れたサブ集団が存在する場合、木に基づく方法の分断・対数性は魅力的である。 回帰木の非パラメトリックな性質は、イベントプロセスと特徴の間の複雑な相互作用に関するパラメトリックな仮定を避けるのに役立つ。 boost-rの批判的知見と利点を包括的数値例を通して検討した。 boost-rのデータセットとコンピュータコードはgithubから入手できる。 私たちの知る限り、Boost-Rは、静的および動的特徴情報の両方で大規模なリカレントイベントデータをモデル化するための、最初のグラデーション強化付加木ベースのアプローチです。

Recurrence data arise from multi-disciplinary domains spanning reliability, cyber security, healthcare, online retailing, etc. This paper investigates an additive-tree-based approach, known as Boost-R (Boosting for Recurrence Data), for recurrent event data with both static and dynamic features. Boost-R constructs an ensemble of gradient boosted additive trees to estimate the cumulative intensity function of the recurrent event process, where a new tree is added to the ensemble by minimizing the regularized L2 distance between the observed and predicted cumulative intensity. Unlike conventional regression trees, a time-dependent function is constructed by Boost-R on each tree leaf. The sum of these functions, from multiple trees, yields the ensemble estimator of the cumulative intensity. The divide-and-conquer nature of tree-based methods is appealing when hidden sub-populations exist within a heterogeneous population. The non-parametric nature of regression trees helps to avoid parametric assumptions on the complex interactions between event processes and features. Critical insights and advantages of Boost-R are investigated through comprehensive numerical examples. Datasets and computer code of Boost-R are made available on GitHub. To our best knowledge, Boost-R is the first gradient boosted additive-tree-based approach for modeling large-scale recurrent event data with both static and dynamic feature information.
翻訳日:2021-07-25 14:08:25 公開日:2021-07-03
# (参考訳) エネルギーモデルによる分布外検出について [全文訳有]

On Out-of-distribution Detection with Energy-based Models ( http://arxiv.org/abs/2107.08785v1 )

ライセンス: CC BY 4.0
Sven Elflein, Bertrand Charpentier, Daniel Z\"ugner, Stephan G\"unnemann(参考訳) いくつかの密度推定法では、異常なデータに高い確率を割り当てることで、分布外サンプル(OOD)の検出に失敗することが示されている。 エネルギーベースモデル(EBM)はフレキシブルで非正規化密度モデルであり、この障害モードを改善することができる。 本研究では,表や画像データに対して異なるアプローチで訓練したESMを用いたOOD検出について広範な研究を行い,ESMが一貫した優位性を提供していないことを見出した。 EBMは正規化フローに似た識別的構造にもかかわらず意味的特徴を学習しないという仮説を立てる。 この仮説を検証するために,訓練アプローチとは無関係にESMのOOD検出を監督的・建築的制約により改善することを示す。

Several density estimation methods have shown to fail to detect out-of-distribution (OOD) samples by assigning higher likelihoods to anomalous data. Energy-based models (EBMs) are flexible, unnormalized density models which seem to be able to improve upon this failure mode. In this work, we provide an extensive study investigating OOD detection with EBMs trained with different approaches on tabular and image data and find that EBMs do not provide consistent advantages. We hypothesize that EBMs do not learn semantic features despite their discriminative structure similar to Normalizing Flows. To verify this hypotheses, we show that supervision and architectural restrictions improve the OOD detection of EBMs independent of the training approach.
翻訳日:2021-07-25 14:06:56 公開日:2021-07-03
# TagRec:階層的な学習分類による質問の自動タグ付け

TagRec: Automated Tagging of Questions with Hierarchical Learning Taxonomy ( http://arxiv.org/abs/2107.10649v1 )

ライセンス: Link先を確認
Venktesh V, Mukesh Mohania, Vikram Goyal(参考訳) オンライン教育プラットフォームは階層的な学習分類 (subject-chapter-top ic) に基づいて学術的な問題を整理する。 既存の分類で新しい質問を自動的にタグ付けすることで、これらの質問を階層分類の異なるクラスに整理し、章のような顔に基づいて検索できるようにする。 このタスクはフラットなマルチクラス分類問題として定式化することができる。 通常、フラット分類に基づく手法は階層分類学の用語と疑問の間の意味的関係を無視する。 いくつかの伝統的なメソッドは、階層を無視している葉ノードのみを考慮するため、クラス不均衡の問題にも悩まされている。 そこで我々は,この問題を類似性に基づく検索タスクとして定式化し,分類学と質問のセマンティック関連性を最適化する。 本研究では,本手法が未確認ラベルの扱いに役立ち,野生の分類学的タグ付けに有効であることを示す。 本手法では,質問応答を対応する回答で拡張し,より多くの意味情報を取得するとともに,質問応答対の文脈的埋め込みを対応するラベル(タコノミー)ベクトル表現と整合させる。 表現は、コサイン類似性とヒンジランク損失の組合せである損失関数を変換器ベースモデルに微調整することで整列される。 損失関数は質問応答対と正しいラベル表現との類似性を最大化し、無関係なラベルとの類似性を最小化する。 最後に、2つの実世界のデータセットで実験を行う。 提案手法は,Recall@kが測定したマルチクラス分類法やその他の手法を用いて学習した表現を6%向上させ,ネットワークを再学習することなく,学習対象のような未確認だが関連する学習内容に対して,提案手法の有効性を示す。

Online educational platforms organize academic questions based on a hierarchical learning taxonomy (subject-chapter-top ic). Automatically tagging new questions with existing taxonomy will help organize these questions into different classes of hierarchical taxonomy so that they can be searched based on the facets like chapter. This task can be formulated as a flat multi-class classification problem. Usually, flat classification based methods ignore the semantic relatedness between the terms in the hierarchical taxonomy and the questions. Some traditional methods also suffer from the class imbalance issues as they consider only the leaf nodes ignoring the hierarchy. Hence, we formulate the problem as a similarity-based retrieval task where we optimize the semantic relatedness between the taxonomy and the questions. We demonstrate that our method helps to handle the unseen labels and hence can be used for taxonomy tagging in the wild. In this method, we augment the question with its corresponding answer to capture more semantic information and then align the question-answer pair's contextualized embedding with the corresponding label (taxonomy) vector representations. The representations are aligned by fine-tuning a transformer based model with a loss function that is a combination of the cosine similarity and hinge rank loss. The loss function maximizes the similarity between the question-answer pair and the correct label representations and minimizes the similarity to unrelated labels. Finally, we perform experiments on two real-world datasets. We show that the proposed learning method outperforms representations learned using the multi-class classification method and other state of the art methods by 6% as measured by Recall@k. We also demonstrate the performance of the proposed method on unseen but related learning content like the learning objectives without re-training the network.
翻訳日:2021-07-25 11:55:48 公開日:2021-07-03
# 敗血症における機械学習による過剰診断の定量化

Quantifying machine learning-induced overdiagnosis in sepsis ( http://arxiv.org/abs/2107.10399v1 )

ライセンス: Link先を確認
Anna Fedyukova, Douglas Pires, Daniel Capurro(参考訳) 自己監視システムやウェアラブルを含む早期診断技術の急増と、これらの技術が健康な人口の大きなセグメントに応用されることは、過剰診断の問題を著しく悪化させる可能性がある。 これにより、医療システム過負荷や過剰治療などの望ましくない結果につながり、健康な個人に害を与える可能性がある。 診断を支援する機械学習ツールの出現は、患者管理とスクリーニングの迅速化を約束する一方で、この問題に寄与する可能性がある。 過度診断の同定は通常、後遺症であり、長期(数年から数十年)の後に実証され、費用のかかるランダム化制御試験が行われる。 本稿では,予測モデル開発における過剰診断の可能性を事前に検出できる革新的な手法を提案する。 この手法は、成人の敗血症を検査ケースとして、予測モデルから得られたラベルとクラスター化された医療軌跡の組み合わせに基づいている。 これは機械学習による過剰診断を定量化する最初の試みの1つであり、我々はさらなる開発のためのプラットフォームとして機能し、計算診断ツールの安全な展開のためのガイドラインとなると信じている。

The proliferation of early diagnostic technologies, including self-monitoring systems and wearables, coupled with the application of these technologies on large segments of healthy populations may significantly aggravate the problem of overdiagnosis. This can lead to unwanted consequences such as overloading health care systems and overtreatment, with potential harms to healthy individuals. The advent of machine-learning tools to assist diagnosis -- while promising rapid and more personalised patient management and screening -- might contribute to this issue. The identification of overdiagnosis is usually post hoc and demonstrated after long periods (from years to decades) and costly randomised control trials. In this paper, we present an innovative approach that allows us to preemptively detect potential cases of overdiagnosis during predictive model development. This approach is based on the combination of labels obtained from a prediction model and clustered medical trajectories, using sepsis in adults as a test case. This is one of the first attempts to quantify machine-learning induced overdiagnosis and we believe will serves as a platform for further development, leading to guidelines for safe deployment of computational diagnostic tools.
翻訳日:2021-07-25 11:55:21 公開日:2021-07-03
# 機械学習実践者のための種分布モデリング : 概観

Species Distribution Modeling for Machine Learning Practitioners: A Review ( http://arxiv.org/abs/2107.10400v1 )

ライセンス: Link先を確認
Sara Beery, Elijah Cole, Joseph Parker, Pietro Perona, Kevin Winner(参考訳) 保全科学は、特定の生態系で起きていることの正確な理解に依存します。 いくつの種が住んでいますか。 人口の化粧は何ですか。 時間とともにどう変わるのか? 種分布モデリング(SDM)は、種の発生の空間的(時空間的)パターンを予測しようとする。 種が見つかる可能性が高い場所です ここ数年、生態学の課題に強力な機械学習ツールを適用することへの関心が高まっている。 その重要性にもかかわらず、SDMはコンピュータ科学コミュニティから比較的注目を集めていない。 本研究の目的は、コンピュータ科学者にSDM文献を読み、生態学的に有用なMLベースのSDMアルゴリズムを開発するために必要な背景を提供することである。 特に、重要なsdmの概念と用語を紹介し、標準モデルをレビューし、データ可用性について議論し、技術的な課題と落とし穴を強調します。

Conservation science depends on an accurate understanding of what's happening in a given ecosystem. How many species live there? What is the makeup of the population? How is that changing over time? Species Distribution Modeling (SDM) seeks to predict the spatial (and sometimes temporal) patterns of species occurrence, i.e. where a species is likely to be found. The last few years have seen a surge of interest in applying powerful machine learning tools to challenging problems in ecology. Despite its considerable importance, SDM has received relatively little attention from the computer science community. Our goal in this work is to provide computer scientists with the necessary background to read the SDM literature and develop ecologically useful ML-based SDM algorithms. In particular, we introduce key SDM concepts and terminology, review standard models, discuss data availability, and highlight technical challenges and pitfalls.
翻訳日:2021-07-25 11:54:43 公開日:2021-07-03
# (参考訳) 実現可能性を考慮したメトロサービス品質改善手法に関する研究 [全文訳有]

Research on Metro Service Quality Improvement Schemes Considering Feasibility ( http://arxiv.org/abs/2107.05558v1 )

ライセンス: CC BY 4.0
Chen Weiya, Li Jiajia, Kang Zixuan(参考訳) サービス品質調査の結果に基づき、適切な改善策を策定することが、都道府県の重要管理課題である。 本稿では, ある期間におけるサービス品質特性のスコア, 重み, 改善可能性を考慮して, 決定木(DT)を重要性能分析(IPA)に統合し, 属性の改善優先度を決定するためのDT-IPAモデルを構築し, 改善度を定量化する。 最適決定木から抽出されたif-then規則と、解析階層プロセスによって計算された改善実現可能性は、DT-IPAモデルから導出される2つの主要な項目である。 ipaによって決定される属性の初期改善優先度を最適化し、調整された属性の改善度を定量化するために使用される。 そして、全体のサービス品質は高いスコアに達し、運用目標を達成することができる。 DT-IPAモデルの有効性は,中国長沙市で実施された実証実験により検証された。 提案手法は,都道府県のマネジャーがメトロサービスの質を向上させるための意思決定ツールとなる。

It is an important management task of metro agencies to formulate reasonable improvement schemes based on the result of service quality surveys. Considering scores, weights, and improvement feasibility of service quality attributes in a certain period, this paper integrates Decision Tree (DT) into Importance-Performan ce analysis (IPA) to build a DT-IPA model, which is used to determine the improvement priority of attributes, and to quantify the improvement degree. If-then rules extracted from the optimal decision tree and the improvement feasibility computed by analytic hierarchy process are two main items derived from the DT-IPA model. They are used to optimize the initial improvement priority of attributes determined by IPA and to quantify the degree of improvement of the adjusted attributes. Then, the overall service quality can reach a high score, realizing the operation goal. The effectiveness of the DT-IPA model was verified through an empirical study which was taken place in Changsha Metro, China. The proposed method can be a decision-making tool for metro agency managers to improve the quality of metro service.
翻訳日:2021-07-18 16:42:30 公開日:2021-07-03
# 一般化されたロッキーチケット仮説

A Generalized Lottery Ticket Hypothesis ( http://arxiv.org/abs/2107.06825v1 )

ライセンス: Link先を確認
Ibrahim Alabdulmohsin, Larisa Markeeva, Daniel Keysers, Ilya Tolstikhin(参考訳) 本稿では,パラメータ空間の任意の基底を選択することで,「スパーシティ」の概念を緩和する抽選券仮説の一般化を提案する。 本研究は, 標準ベースで報告された当初の結果が, より広い範囲で維持されている証拠を提示する。 本稿では,この「一般化」抽選券仮説の具体例として,プルーニング単位や完全連結層を低ランク行列の積に分解する構造的プルーニング手法について述べる。 ここで報告された調査は予備的であり、この方向に関するさらなる研究を促進するために提供される。

We introduce a generalization to the lottery ticket hypothesis in which the notion of "sparsity" is relaxed by choosing an arbitrary basis in the space of parameters. We present evidence that the original results reported for the canonical basis continue to hold in this broader setting. We describe how structured pruning methods, including pruning units or factorizing fully-connected layers into products of low-rank matrices, can be cast as particular instances of this "generalized" lottery ticket hypothesis. The investigations reported here are preliminary and are provided to encourage further research along this direction.
翻訳日:2021-07-18 12:25:25 公開日:2021-07-03
# person-minkunet:lida r point cloudによる3次元人物検出

Person-MinkUNet: 3D Person Detection with LiDAR Point Cloud ( http://arxiv.org/abs/2107.06780v1 )

ライセンス: Link先を確認
Dan Jia, Bastian Leibe(参考訳) 本研究は,3次元人物検出作業に部分多様体スパース畳み込みを適用しようとするものである。 特に,u-netアーキテクチャを持つminkowskiエンジンに基づく,単段3次元人物検出ネットワークであるperson-minkunetを提案する。 ネットワークはJRDB 3D検出ベンチマークで76.4%の平均精度(AP)を達成した。

In this preliminary work we attempt to apply submanifold sparse convolution to the task of 3D person detection. In particular, we present Person-MinkUNet, a single-stage 3D person detection network based on Minkowski Engine with U-Net architecture. The network achieves a 76.4% average precision (AP) on the JRDB 3D detection benchmark.
翻訳日:2021-07-18 12:23:35 公開日:2021-07-03
# 多様性の価格

The Price of Diversity ( http://arxiv.org/abs/2107.03900v1 )

ライセンス: Link先を確認
Hari Bandi and Dimitris Bertsimas(参考訳) 性別、人種、民族に関する体系的な偏見は、しばしば無意識であり、個人の選択を含むデータセットでよく見られる。 その結果、社会は偏見を緩和し多様性を達成し、そのような環境下での長所性を維持することが困難であることが判明した。 We propose (a) a novel optimization approach based on optimally flipping outcome labels and training classification models simultaneously to discover changes to be made in the selection process so as to achieve diversity without significantly affecting meritocracy, and (b) a novel implementation tool employing optimal classification trees to provide insights on which attributes of individuals lead to flipping of their labels, and to help make changes in the current selection processes in a manner understandable by human decision makers. 本稿では,仮釈放,バーへの入場,貸付決定からなる3つの実世界のデータセットのケーススタディを行い,多様性の価格が低く,時にはマイナスであること,すなわち,能力主義に悪影響を及ぼすことなく多様性を高める方法で選択プロセスを変更することができること,およびそれを改善できることを実証する。

Systemic bias with respect to gender, race and ethnicity, often unconscious, is prevalent in datasets involving choices among individuals. Consequently, society has found it challenging to alleviate bias and achieve diversity in a way that maintains meritocracy in such settings. We propose (a) a novel optimization approach based on optimally flipping outcome labels and training classification models simultaneously to discover changes to be made in the selection process so as to achieve diversity without significantly affecting meritocracy, and (b) a novel implementation tool employing optimal classification trees to provide insights on which attributes of individuals lead to flipping of their labels, and to help make changes in the current selection processes in a manner understandable by human decision makers. We present case studies on three real-world datasets consisting of parole, admissions to the bar and lending decisions, and demonstrate that the price of diversity is low and sometimes negative, that is we can modify our selection processes in a way that enhances diversity without affecting meritocracy significantly, and sometimes improving it.
翻訳日:2021-07-11 11:38:11 公開日:2021-07-03
# (参考訳) Trans4E: 学習知識グラフのリンク予測 [全文訳有]

Trans4E: Link Prediction on Scholarly Knowledge Graphs ( http://arxiv.org/abs/2107.03297v1 )

ライセンス: CC BY 4.0
Mojtaba Nayyeri, Gokce Muge Cil, Sahar Vahdati, Francesco Osborne, Mahfuzur Rahman, Simone Angioni, Angelo Salatino, Diego Reforgiato Recupero, Nadezhda Vassilyeva, Enrico Motta, Jens Lehmann(参考訳) 知識グラフの不完全性(KGs)は、AIベースのサービスの品質に影響を与える重要な問題である。 学術領域では、研究出版物を記述するKGは一般的に重要な情報を欠き、研究のダイナミクスを分析し予測する能力を妨げる。 近年,知識グラフ埋め込みモデルに基づくリンク予測アプローチがこの問題の最初の支援となった。 そこで本研究では,N to M と N$\gg$M の関係を含む KG に特に適合する新しい埋め込みモデル Trans4E を提案する。 これは、比較的小さな分類群に従って多数の実体(研究記事、特許、人物など)を分類するkgに対して典型的である。 Trans4Eは、Academia/Industry DynAmics (AIDA) とMicrosoft Academic Graph (MAG) の2つの大規模知識グラフに適用され、学習分野に関する情報(例えば「神経ネットワーク」、「機械学習」、「芸術知能」)とアフィリエレーションタイプ(例えば「教育」、「企業」、そして「政府」)を補完し、結果データのスコープと精度を向上させる。 我々は,AIDA,MAG,および他の4つのベンチマーク(FB15k,FB15k-237,WN1 8RR,WN18RR)に対する代替ソリューションに対するアプローチを評価した。 Trans4Eは低埋め込み次元を使用する場合、他のモデルよりも優れ、高次元での競争結果が得られる。

The incompleteness of Knowledge Graphs (KGs) is a crucial issue affecting the quality of AI-based services. In the scholarly domain, KGs describing research publications typically lack important information, hindering our ability to analyse and predict research dynamics. In recent years, link prediction approaches based on Knowledge Graph Embedding models became the first aid for this issue. In this work, we present Trans4E, a novel embedding model that is particularly fit for KGs which include N to M relations with N$\gg$M. This is typical for KGs that categorize a large number of entities (e.g., research articles, patents, persons) according to a relatively small set of categories. Trans4E was applied on two large-scale knowledge graphs, the Academia/Industry DynAmics (AIDA) and Microsoft Academic Graph (MAG), for completing the information about Fields of Study (e.g., 'neural networks', 'machine learning', 'artificial intelligence'), and affiliation types (e.g., 'education', 'company', 'government'), improving the scope and accuracy of the resulting data. We evaluated our approach against alternative solutions on AIDA, MAG, and four other benchmarks (FB15k, FB15k-237, WN18, and WN18RR). Trans4E outperforms the other models when using low embedding dimensions and obtains competitive results in high dimensions.
翻訳日:2021-07-09 06:33:27 公開日:2021-07-03
# (参考訳) 心臓MRIにおける左室分節に対するCNN容量の検討 [全文訳有]

A study of CNN capacity applied to Left Venticle Segmentation in Cardiac MRI ( http://arxiv.org/abs/2107.01318v1 )

ライセンス: CC BY-SA 4.0
Marcelo Toledo, Daniel Lima, Jos\'e Krieger, Marco Gutierrez(参考訳) CNN(Convolutional Neural Network)モデルは、心臓MRI(Magnetic Resonance Imaging)における左室(LV)のセグメンテーションに成功し、臨床計測を提供してきた。 2) データセットのサイズがネットワークのパフォーマンスをどの程度変えるか? そこで本稿では,100から1万画像,ネットワークサイズ,学習率,正規化値の異なる6つのサブセットをスクラッチからトレーニングした,u-netファミリーの深層および浅層バージョンを実験し,それらに答えるフレームワークを提案する。 1620モデルについて5-foldcross-validati on by loss and DICE。 サンプルサイズは、アーキテクチャやハイパーパラメータよりもパフォーマンスに影響を与え、小さなサンプルでは、パフォーマンスはアーキテクチャよりもハイパーパラメータに敏感である。

CNN (Convolutional Neural Network) models have been successfully used for segmentation of the left ventricle (LV) in cardiac MRI (Magnetic Resonance Imaging), providing clinical measurements.In practice, two questions arise with deployment of CNNs: 1) when is it better to use a shallow model instead of a deeper one? 2) how the size of a dataset might change the network performance? We propose a framework to answer them, by experimenting with deep and shallow versions of three U-Net families, trained from scratch in six subsets varying from 100 to 10,000 images, different network sizes, learning rates and regularization values. 1620 models were evaluated using 5-foldcross-validati on by loss and DICE. The results indicate that: sample size affects performance more than architecture or hyper-parameters; in small samples the performance is more sensitive to hyper-parameters than architecture; the performance difference between shallow and deeper networks is not the same across families.
翻訳日:2021-07-07 11:37:18 公開日:2021-07-03
# (参考訳) 画像クラスタリングのための階層型ニューラルネットワークの学習 [全文訳有]

Learning Hierarchical Graph Neural Networks for Image Clustering ( http://arxiv.org/abs/2107.01319v1 )

ライセンス: CC BY 4.0
Yifan Xing, Tong He, Tianjun Xiao, Yongxin Wang, Yuanjun Xiong, Wei Xia, David Wipf Paul, Zheng Zhang, Stefano Soatto(参考訳) 本稿では, 階層型グラフニューラルネットワーク(GNN)モデルを提案する。このモデルでは, 画像の集合を未知の個数にクラスタリングする方法を, 異種集合に属するラベルを付加した画像のトレーニングセットを用いて学習する。 階層gnnは階層の各レベルで予測される連結コンポーネントをマージし、次のレベルで新しいグラフを形成するための新しいアプローチを用いています。 完全に教師なしの階層的クラスタリングとは異なり、グループ化と複雑性基準の選択は、トレーニングセットの監督から自然に生じる。 得られた手法であるHi-LANDERは、現在のGNNベースのクラスタリングアルゴリズムと比較して、Fスコアが平均54%向上し、正規化相互情報(NMI)が8%向上する。 さらに、最先端のGNNベースの手法は、クラスタリングプロセスの中間ステップとしてリンク確率とノード密度を予測するために別々のモデルに依存している。 対照的に、我々の統一フレームワークは計算コストの7倍の削減を達成している。 トレーニングと推論のコードはhttps://github.com/d mlc/dgl/tree/master/ examples/pytorch/hil anderでリリースしています。

We propose a hierarchical graph neural network (GNN) model that learns how to cluster a set of images into an unknown number of identities using a training set of images annotated with labels belonging to a disjoint set of identities. Our hierarchical GNN uses a novel approach to merge connected components predicted at each level of the hierarchy to form a new graph at the next level. Unlike fully unsupervised hierarchical clustering, the choice of grouping and complexity criteria stems naturally from supervision in the training set. The resulting method, Hi-LANDER, achieves an average of 54% improvement in F-score and 8% increase in Normalized Mutual Information (NMI) relative to current GNN-based clustering algorithms. Additionally, state-of-the-art GNN-based methods rely on separate models to predict linkage probabilities and node densities as intermediate steps of the clustering process. In contrast, our unified framework achieves a seven-fold decrease in computational cost. We release our training and inference code at https://github.com/d mlc/dgl/tree/master/ examples/pytorch/hil ander.
翻訳日:2021-07-07 11:25:16 公開日:2021-07-03
# (参考訳) 有限位置-スケール混合系における最小wasserstein距離推定器

Minimum Wasserstein Distance Estimator under Finite Location-scale Mixtures ( http://arxiv.org/abs/2107.01323v1 )

ライセンス: CC BY 4.0
Qiong Zhang, Jiahua Chen(参考訳) 集団が異質性を示すとき、それは有限混合によってモデル化され、いくつかの異なるが均質な部分集団に分解される。 現代の実践は、統計効率の確率を最大化し、数値計算に便利なEMアルゴリズムを学習することを好む。 しかし、特に最も広く使われる有限正規混合と、一般に有限な位置スケール混合では、最大度推定(mle)は明確に定義されていない。 したがって、最小距離推定器などのMLEの代替案について検討する。 近年、Wasserstein距離は機械学習コミュニティで注目を集めている。 直感的な幾何学的解釈を持ち、多くの新しい応用でうまく使われている。 最小wasserstein distance estimator (mwde) を用いて有限な位置スケールの混合物を学習することで何か得られるか? 本稿では,この可能性についていくつかの点で検討する。 MWDEは安定であり,有限位置スケール混合条件下での数値解を導出する。 外れ値と軽度のモデルミス特定に対する堅牢性について検討する。 我々の中等度スケールシミュレーション研究は、MWDEがMLEのペナル化バージョンに対してある程度の効率損失を被っていることを示している。 非正規有限な位置スケール混合においても,確率に基づく学習戦略の汎用性を再確認する。

When a population exhibits heterogeneity, we often model it via a finite mixture: decompose it into several different but homogeneous subpopulations. Contemporary practice favors learning the mixtures by maximizing the likelihood for statistical efficiency and the convenient EM-algorithm for numerical computation. Yet the maximum likelihood estimate (MLE) is not well defined for the most widely used finite normal mixture in particular and for finite location-scale mixture in general. We hence investigate feasible alternatives to MLE such as minimum distance estimators. Recently, the Wasserstein distance has drawn increased attention in the machine learning community. It has intuitive geometric interpretation and is successfully employed in many new applications. Do we gain anything by learning finite location-scale mixtures via a minimum Wasserstein distance estimator (MWDE)? This paper investigates this possibility in several respects. We find that the MWDE is consistent and derive a numerical solution under finite location-scale mixtures. We study its robustness against outliers and mild model mis-specifications. Our moderate scaled simulation study shows the MWDE suffers some efficiency loss against a penalized version of MLE in general without noticeable gain in robustness. We reaffirm the general superiority of the likelihood based learning strategies even for the non-regular finite location-scale mixtures.
翻訳日:2021-07-07 11:05:29 公開日:2021-07-03
# (参考訳) VinDr-RibCXR:胸部X線上の個々のリブの自動セグメンテーションとラベル付けのためのベンチマークデータセット [全文訳有]

VinDr-RibCXR: A Benchmark Dataset for Automatic Segmentation and Labeling of Individual Ribs on Chest X-rays ( http://arxiv.org/abs/2107.01327v1 )

ライセンス: CC BY 4.0
Hoang C. Nguyen and Tung T. Le and Hieu H. Pham and Ha Q. Nguyen(参考訳) VinDr-RibCXRと呼ばれる新しいベンチマークデータセットを導入し、胸部X線(CXR)スキャンから個々のリブの自動セグメンテーションとラベル付けを行う。 VinDr-RibCXRは245個のCXRと、それに対応する基礎的な真理アノテーションを含んでいる。 最先端セグメンテーションモデルのセットは、VinDr-RibCXRから20個の個々のリブのセグメンテーションとラベルまで196の画像に基づいて訓練される。 我々のベストパフォーマンスモデルは、49画像の独立したテストセットにおいて、0.834 (95% ci, 0.810--0.853)のサイススコアを得る。 そこで本研究では,今後の研究における概念実証とベースライン性能について述べる。

We introduce a new benchmark dataset, namely VinDr-RibCXR, for automatic segmentation and labeling of individual ribs from chest X-ray (CXR) scans. The VinDr-RibCXR contains 245 CXRs with corresponding ground truth annotations provided by human experts. A set of state-of-the-art segmentation models are trained on 196 images from the VinDr-RibCXR to segment and label 20 individual ribs. Our best performing model obtains a Dice score of 0.834 (95% CI, 0.810--0.853) on an independent test set of 49 images. Our study, therefore, serves as a proof of concept and baseline performance for future research.
翻訳日:2021-07-07 11:04:27 公開日:2021-07-03
# (参考訳) k-Triangle-Faithfuln ess 推定の下での非ガウス因果効果の一様一致推定器 [全文訳有]

A Uniformly Consistent Estimator of non-Gaussian Causal Effects Under the k-Triangle-Faithfuln ess Assumption ( http://arxiv.org/abs/2107.01333v1 )

ライセンス: CC BY 4.0
Shuyan Wang, Peter Spirtes(参考訳) kalisch and b\"{u}hlmann (2007) は、因果的マルコフ仮定、強い因果的忠実性仮定、因果的十分性の仮定の下での線型ガウスモデルに対して、pcアルゴリズムは線型ガウスモデルに対する真の因果的dagのマルコフ同値クラスの一様に一貫した推定子であることを示した。 k$-triangle-faithful ness の仮定は、強い因果的忠実性仮定の暗黙の含意を回避し、マルコフ同値類(弱められた意味で)と識別可能な因果効果の均一に一貫した推定を可能にする、厳密に弱い仮定である。 しかし、これらの仮定はどちらも線型ガウスモデルに制限される。 任意の滑らかな分布に適用できる一般化された $k$-三角忠実性を提案する。 加えて、一般化された$k$-三角忠実性仮定の下では、いくつかのケースで因果効果の均一に一貫した推定を提供するエッジ推定アルゴリズムと、(少し弱い意味で)真のdagのマルコフ同値クラスの均一に一貫した推定である \textit{very conservative }$sgs$アルゴリズムを記述する。

Kalisch and B\"{u}hlmann (2007) showed that for linear Gaussian models, under the Causal Markov Assumption, the Strong Causal Faithfulness Assumption, and the assumption of causal sufficiency, the PC algorithm is a uniformly consistent estimator of the Markov Equivalence Class of the true causal DAG for linear Gaussian models; it follows from this that for the identifiable causal effects in the Markov Equivalence Class, there are uniformly consistent estimators of causal effects as well. The $k$-Triangle-Faithfu lness Assumption is a strictly weaker assumption that avoids some implausible implications of the Strong Causal Faithfulness Assumption and also allows for uniformly consistent estimates of Markov Equivalence Classes (in a weakened sense), and of identifiable causal effects. However, both of these assumptions are restricted to linear Gaussian models. We propose the Generalized $k$-Triangle Faithfulness, which can be applied to any smooth distribution. In addition, under the Generalized $k$-Triangle Faithfulness Assumption, we describe the Edge Estimation Algorithm that provides uniformly consistent estimates of causal effects in some cases (and otherwise outputs "can't tell"), and the \textit{Very Conservative }$SGS$ Algorithm that (in a slightly weaker sense) is a uniformly consistent estimator of the Markov equivalence class of the true DAG.
翻訳日:2021-07-07 11:00:45 公開日:2021-07-03
# (参考訳) ct画像ハーモニゼーションによる放射線研究の促進 [全文訳有]

CT Image Harmonization for Enhancing Radiomics Studies ( http://arxiv.org/abs/2107.01337v1 )

ライセンス: CC BY-SA 4.0
Md Selim, Jie Zhang, Baowei Fei, Guo-Qiang Zhang, Jin Chen(参考訳) CT(Computed Tomography)では顕著な進歩があるが,非標準化プロトコルによるCT画像の撮影は放射線学的特徴の再現性が低く,大規模にCT画像解析の障壁を形成している。 RadiomicGANは、非標準再構成カーネルによる誤差を効果的に軽減するために開発された。 radiomicganは、事前訓練された層と訓練可能な層の両方を含むハイブリッドニューラルブロックで構成され、放射能の特徴分布を効率的に学習する。 Dynamic Window-based Trainingと呼ばれる新しいトレーニング手法が開発され、トレーニング済みのモデルを医療画像領域にスムーズに変換する。 1401の放射能特性を用いて評価したモデル性能は、RadiomicGANが最先端の画像標準化モデルよりも明らかに優れていることを示している。

While remarkable advances have been made in Computed Tomography (CT), capturing CT images with non-standardized protocols causes low reproducibility regarding radiomic features, forming a barrier on CT image analysis in a large scale. RadiomicGAN is developed to effectively mitigate the discrepancy caused by using non-standard reconstruction kernels. RadiomicGAN consists of hybrid neural blocks including both pre-trained and trainable layers adopted to learn radiomic feature distributions efficiently. A novel training approach, called Dynamic Window-based Training, has been developed to smoothly transform the pre-trained model to the medical imaging domain. Model performance evaluated using 1401 radiomic features show that RadiomicGAN clearly outperforms the state-of-art image standardization models.
翻訳日:2021-07-07 10:44:22 公開日:2021-07-03
# (参考訳) 最寄りプロトタイプ分類のための非計量空間におけるクラスター代表の選択 [全文訳有]

Cluster Representatives Selection in Non-Metric Spaces for Nearest Prototype Classification ( http://arxiv.org/abs/2107.01345v1 )

ライセンス: CC BY 4.0
Jaroslav Hlav\'a\v{c}, Martin Kopp, Jan Kohout(参考訳) 最も近いプロトタイプ分類は、特に大規模なデータセットを考慮に入れた場合、$k$-NN法の計算集約的な置き換えである。 計量空間では、セントロイドはクラスター全体を表すプロトタイプとしてしばしば用いられる。 非計量空間におけるクラスタプロトタイプの選択は、セントロイドの計算が直接適用されないため、より難しい。 本稿では,オブジェクトの小さいが代表的なサブセットをクラスタのプロトタイプとして選択する新しい手法であるCRSを提案する。 nn-descentアルゴリズムによって作成された各クラスタの類似性グラフ表現を利用して、メモリと計算効率のよい代表者選択を可能にする。 CRSはグラフベースのアプローチのため、任意の計量空間や非計量空間で使用することができる。 実験で示すように,本手法は異なる領域の複数のデータセット上で,技術技術の現状よりも優れている。

The nearest prototype classification is a less computationally intensive replacement for the $k$-NN method, especially when large datasets are considered. In metric spaces, centroids are often used as prototypes to represent whole clusters. The selection of cluster prototypes in non-metric spaces is more challenging as the idea of computing centroids is not directly applicable. In this paper, we present CRS, a novel method for selecting a small yet representative subset of objects as a cluster prototype. Memory and computationally efficient selection of representatives is enabled by leveraging the similarity graph representation of each cluster created by the NN-Descent algorithm. CRS can be used in an arbitrary metric or non-metric space because of the graph-based approach, which requires only a pairwise similarity measure. As we demonstrate in the experimental evaluation, our method outperforms the state of the art techniques on multiple datasets from different domains.
翻訳日:2021-07-07 10:35:53 公開日:2021-07-03
# (参考訳) 強化学習における平均と割引報酬最適基準の検討 [全文訳有]

Examining average and discounted reward optimality criteria in reinforcement learning ( http://arxiv.org/abs/2107.01348v1 )

ライセンス: CC BY 4.0
Vektor Dewanto, Marcus Gallagher(参考訳) 強化学習(RL)では、最適性基準が基本的に重要である最適ポリシーを得ることが目的である。 2つの主要な最適性基準は平均と割引報酬であり、後者は一般に前者の近似と見なされる。 割引報酬はより人気があるが、割引という自然な概念を持たない環境で適用することは問題となる。 これは、a) 動的プログラミングにおける最適性基準の進行、b) 人工的割引要因の正当化と複雑化、c) 平均的な報酬を直接最大化する利点を再検討する動機となる。 当社のコントリビューションには,平均値と割引値の関係の徹底的な検証や,rlの長所と短所に関する議論が含まれています。 我々は, 平均回帰RL法が, RLにおける一般割引フリー最適性基準(Veinott, 1969)の具体的および機構を持っていることを強調した。

In reinforcement learning (RL), the goal is to obtain an optimal policy, for which the optimality criterion is fundamentally important. Two major optimality criteria are average and discounted rewards, where the later is typically considered as an approximation to the former. While the discounted reward is more popular, it is problematic to apply in environments that have no natural notion of discounting. This motivates us to revisit a) the progression of optimality criteria in dynamic programming, b) justification for and complication of an artificial discount factor, and c) benefits of directly maximizing the average reward. Our contributions include a thorough examination of the relationship between average and discounted rewards, as well as a discussion of their pros and cons in RL. We emphasize that average-reward RL methods possess the ingredient and mechanism for developing the general discounting-free optimality criterion (Veinott, 1969) in RL.
翻訳日:2021-07-07 10:27:14 公開日:2021-07-03
# (参考訳) トランスフォーマーは自然言語で右にジャンプできるのか? SCANのパフォーマンス移行を評価する [全文訳有]

Can Transformers Jump Around Right in Natural Language? Assessing Performance Transfer from SCAN ( http://arxiv.org/abs/2107.01366v1 )

ライセンス: CC BY-SA 4.0
Rahma Chaabouni, Roberto Dess\`i, Eugene Kharitonov(参考訳) 実際の成功にもかかわらず、現代のSeq2seqアーキテクチャは複数のSCANタスクを体系的に一般化することはできない。 したがって、SCANスタイルの合成一般化が現実的なNLPタスクに有用かどうかは不明である。 本研究では,このような構成性が機械翻訳タスクにもたらすメリットについて検討する。 そこで本研究では,SCANの一般化能力を大幅に向上するTransformerのいくつかの改良点を紹介し,標準的な機械翻訳(MT)タスクにおいて,バニラトランスフォーマーと同程度に残るものを選択する。 次に,低リソース環境および新たに導入された英仏翻訳タスクにおいて,その性能について検討する。 全体として、SCAN対応モデルの改善は、リソース豊富なMT設定に直接転送されない。 対照的に、低リソース設定では、一般的な変更により最大13.1%のbleuスコアw.r.tが改善される。 バニラ変換器。 同様に、導入された構成英仏翻訳タスクにおいて、精度に基づくメトリックの14%の改善が達成される。 このことは、SCANで評価された合成一般化が特に資源探索およびドメインシフトのシナリオで有用であることを示す実験的な証拠を与える。

Despite their practical success, modern seq2seq architectures are unable to generalize systematically on several SCAN tasks. Hence, it is not clear if SCAN-style compositional generalization is useful in realistic NLP tasks. In this work, we study the benefit that such compositionality brings about to several machine translation tasks. We present several focused modifications of Transformer that greatly improve generalization capabilities on SCAN and select one that remains on par with a vanilla Transformer on a standard machine translation (MT) task. Next, we study its performance in low-resource settings and on a newly introduced distribution-shifted English-French translation task. Overall, we find that improvements of a SCAN-capable model do not directly transfer to the resource-rich MT setup. In contrast, in the low-resource setup, general modifications lead to an improvement of up to 13.1% BLEU score w.r.t. a vanilla Transformer. Similarly, an improvement of 14% in an accuracy-based metric is achieved in the introduced compositional English-French translation task. This provides experimental evidence that the compositional generalization assessed in SCAN is particularly useful in resource-starved and domain-shifted scenarios.
翻訳日:2021-07-07 10:09:28 公開日:2021-07-03
# (参考訳) disentangled feature augmentation による脱バイアス表現の学習 [全文訳有]

Learning Debiased Representation via Disentangled Feature Augmentation ( http://arxiv.org/abs/2107.01372v1 )

ライセンス: CC BY 4.0
Eungyeup Kim, Jungsoo Lee, Juyoung Lee, Jihyeon Lee, Jaegul Choo(参考訳) 画像分類モデルは、ターゲット変数(すなわちデータセットバイアス)と強い相関を持つデータ項目の周辺属性に基づいて決定を行う傾向がある。 これらのバイアス付きモデルは、偏りのないデータセットで評価した場合、一般化能力の低下に悩まされる。 デバイアスに対する既存のアプローチは、バイアスタイプを事前に定義することなく、そのような相関のないサンプル(例えばバイアス競合)を識別し強調することが多い。 しかし、そのような偏りを伴うサンプルはバイアス付きデータセットでは著しく不足しており、これらのアプローチの偏りを抑えることができる。 本稿では,まず,与えられた学習セットを超えたバイアス・コンフリクト・サンプルを用いたトレーニングが,一般化能力だけでなくデバイアスにも不可欠であることを示す経験的分析を行う。 そこで本研究では,様々なバイアス競合サンプルを合成するために,新しい特徴量データ拡張手法を提案する。 そこで本研究では,(1)固有の属性(すなわち,あるクラスを本質的に定義する属性)と(2)バイアス属性(すなわち,バイアスを引き起こす周辺属性)を,多数のバイアス整合サンプルから学習し,そのバイアス属性が対象変数と強い相関関係にあることを示す。 この不連続表現を用いて,バイアス整合サンプルの多様な固有属性を含むバイアス競合サンプルを,潜在特徴の入れ替えによって合成する。 トレーニング中にこれらの多様なバイアス競合機能を利用することで,既存のベースラインや実世界のデータセットに対して,より優れた分類精度とデバイアス結果が得られる。

Image classification models tend to make decisions based on peripheral attributes of data items that have strong correlation with a target variable (i.e., dataset bias). These biased models suffer from the poor generalization capability when evaluated on unbiased datasets. Existing approaches for debiasing often identify and emphasize those samples with no such correlation (i.e., bias-conflicting) without defining the bias type in advance. However, such bias-conflicting samples are significantly scarce in biased datasets, limiting the debiasing capability of these approaches. This paper first presents an empirical analysis revealing that training with "diverse" bias-conflicting samples beyond a given training set is crucial for debiasing as well as the generalization capability. Based on this observation, we propose a novel feature-level data augmentation technique in order to synthesize diverse bias-conflicting samples. To this end, our method learns the disentangled representation of (1) the intrinsic attributes (i.e., those inherently defining a certain class) and (2) bias attributes (i.e., peripheral attributes causing the bias), from a large number of bias-aligned samples, the bias attributes of which have strong correlation with the target variable. Using the disentangled representation, we synthesize bias-conflicting samples that contain the diverse intrinsic attributes of bias-aligned samples by swapping their latent features. By utilizing these diversified bias-conflicting features during the training, our approach achieves superior classification accuracy and debiasing results against the existing baselines on both synthetic as well as real-world datasets.
翻訳日:2021-07-07 09:51:53 公開日:2021-07-03
# (参考訳) 深層学習における記憶と注意

Memory and attention in deep learning ( http://arxiv.org/abs/2107.01390v1 )

ライセンス: CC BY 4.0
Hung Le(参考訳) 知性は記憶を必要とする。 記憶がなければ、人間は小説を読む、ゲームをする、数学を解くなど、様々な非自明なタスクを実行できない。 機械学習の最終的な目標は、人間のように学習し、自動的に行動するインテリジェントなシステムを導出することであり、マシンのメモリ構築は避けられない。 ニューラルネットワークは、記憶構造に似た機械学習アルゴリズムの典型的なクラスである重みによる計算単位の相互接続によって、脳内のニューロンとシナプスをモデル化する。 より複雑なモデリング技術(ディープラーニング)を備えた子孫は、多くの実用的な問題にうまく適用され、機械システムの学習プロセスにおいて記憶の重要性を実証してきた。 深層学習におけるメモリモデリングの最近の進歩は、計算チューリングモデルや生体神経系に非常にインスパイアされた外部記憶構造を中心に展開している。 注意機構は、外部メモリの取得および保持操作をサポートするために導出される。 理論的基盤が欠如しているにもかかわらず、これらのアプローチは機械システムがより高いレベルの知性に達するのを助けることを約束している。 本論文の目的は,深層学習における記憶と注意の理解を深めることである。 Its contributions include: (i) presenting a collection of taxonomies for memory, (ii) constructing new memory-augmented neural networks (MANNs) that support multiple control and memory units, (iii) introducing variability via memory in sequential generative models, (iv) searching for optimal writing operations to maximise the memorisation capacity in slot-based memory networks, and (v) simulating the Universal Turing Machine via Neural Stored-program Memory-a new kind of external memory for neural networks.

Intelligence necessitates memory. Without memory, humans fail to perform various nontrivial tasks such as reading novels, playing games or solving maths. As the ultimate goal of machine learning is to derive intelligent systems that learn and act automatically just like human, memory construction for machine is inevitable. Artificial neural networks model neurons and synapses in the brain by interconnecting computational units via weights, which is a typical class of machine learning algorithms that resembles memory structure. Their descendants with more complicated modeling techniques (a.k.a deep learning) have been successfully applied to many practical problems and demonstrated the importance of memory in the learning process of machinery systems. Recent progresses on modeling memory in deep learning have revolved around external memory constructions, which are highly inspired by computational Turing models and biological neuronal systems. Attention mechanisms are derived to support acquisition and retention operations on the external memory. Despite the lack of theoretical foundations, these approaches have shown promises to help machinery systems reach a higher level of intelligence. The aim of this thesis is to advance the understanding on memory and attention in deep learning. Its contributions include: (i) presenting a collection of taxonomies for memory, (ii) constructing new memory-augmented neural networks (MANNs) that support multiple control and memory units, (iii) introducing variability via memory in sequential generative models, (iv) searching for optimal writing operations to maximise the memorisation capacity in slot-based memory networks, and (v) simulating the Universal Turing Machine via Neural Stored-program Memory-a new kind of external memory for neural networks.
翻訳日:2021-07-07 09:35:03 公開日:2021-07-03
# (参考訳) wisdomnet:後天性胸部x線撮影による偽陰性症例の低予後とardsの成熟確率 [全文訳有]

WisdomNet: Prognosis of COVID-19 with Slender Prospect of False Negative Cases and Vaticinating the Probability of Maturation to ARDS using Posteroanterior Chest X-Rays ( http://arxiv.org/abs/2107.01392v1 )

ライセンス: CC BY-SA 4.0
Peeyush Kumar, Ayushe Gangal and Sunita Kumari(参考訳) ウイルスは多様なウイルスからなる大きなウイルスファミリーであり、一部のウイルスは哺乳類に広まり、他のウイルスはヒトに病気を引き起こす。 新型コロナウイルスは高度に感染し、急速に拡大しており、早期に既往の状態を診断している。 世界中の研究者、医療専門家、組織は、このウイルスと闘い、その封じ込めを助けるために熱心に取り組んできた。 本稿では,胸部X線を用いた新型コロナウイルスの診断のために,WisdomNetと呼ばれる新しいニューラルネットワークが提案されている。 WisdomNetはWisdom of Crowdsという概念を創始のアイデアとしている。 胸部X線画像を入力として利用する2層畳み込みニューラルネットワーク(CNN)である。 提案するニューラルネットワークの両レイヤはそれぞれ,複数のニューラルネットワークで構成されている。 本研究に用いられたデータセットはcohen博士がgithubで編集し共有したcovid-19陽性患者の胸部x線画像からなり、カグルからウイルス性肺炎および細菌性肺炎の影響を受ける健康な肺と肺の胸部x線画像を得た。 このネットワークは、新型コロナウイルスの存在を突き止めるだけでなく、急性呼吸障害症候群(ARDS)に成熟する可能性も示している。 これにより、covid-19陽性患者の疾患の進行を予測することができる。 また、このネットワークは偽陰性症例の発生を、閾値の高い値で抑制し、感染拡大を抑制するのに役立ち、covid-19、細菌、ウイルス性肺炎を患った患者の胸部x線中のcovid-19の予測に100%の精度を与える。

Coronavirus is a large virus family consisting of diverse viruses, some of which disseminate among mammals and others cause sickness among humans. COVID-19 is highly contagious and is rapidly spreading, rendering its early diagnosis of preeminent status. Researchers, medical specialists and organizations all over the globe have been working tirelessly to combat this virus and help in its containment. In this paper, a novel neural network called WisdomNet has been proposed, for the diagnosis of COVID-19 using chest X-rays. The WisdomNet uses the concept of Wisdom of Crowds as its founding idea. It is a two-layered convolutional Neural Network (CNN), which takes chest x-ray images as input. Both layers of the proposed neural network consist of a number of neural networks each. The dataset used for this study consists of chest x-ray images of COVID-19 positive patients, compiled and shared by Dr. Cohen on GitHub, and the chest x-ray images of healthy lungs and lungs affected by viral and bacterial pneumonia were obtained from Kaggle. The network not only pinpoints the presence of COVID-19, but also gives the probability of the disease maturing into Acute Respiratory Distress Syndrome (ARDS). Thus, predicting the progression of the disease in the COVID-19 positive patients. The network also slender the occurrences of false negative cases by employing a high threshold value, thus aids in curbing the spread of the disease and gives an accuracy of 100% for successfully predicting COVID-19 among the chest x-rays of patients affected with COVID-19, bacterial and viral pneumonia.
翻訳日:2021-07-07 09:32:41 公開日:2021-07-03
# (参考訳) 群重み変換をもつ二元重み付きネットワークにおける厳密なバックプロパゲーション [全文訳有]

Exact Backpropagation in Binary Weighted Networks with Group Weight Transformations ( http://arxiv.org/abs/2107.01400v1 )

ライセンス: CC BY 4.0
Yaniv Shulman(参考訳) 量子化に基づくモデル圧縮は、精度の高い浮動小数点に対して高い圧縮されたモデルをもたらす推論のための高性能で高速なアプローチとして機能する。 最も極端な量子化はパラメータの 1 ビット表現であり、通常は -1(0) または +1 の 2 つの値しか持たない。 重みをバイナリ値に制限するモデルは、リソース制約付き推論に有用である浮動小数点乗算を必要とせずに、ユビキタスドット製品の実装を効率的に行うことができる。 この研究の主な貢献は、経験的リスク最小化とバックプロパゲーションによって与えられた目的に対する期待損失を最小限に抑えるために、重みの2進ベクトルを決定する組合せ問題を円滑に行う方法の導入である。 これは、実数値連続パラメータの決定論的かつ微分可能な変換を利用して重み付け上の多変量二項状態の近似によって達成される。 提案手法はトレーニングのオーバーヘッドを少なくし、元のアーキテクチャに実質的な変更を加えることなく容易に適用でき、飽和した非線型性や補助的な損失を導入せず、アクティベーションをバイナライズするための他の方法の適用も禁止しない。 文献における一般的な主張とは対照的に、二元重み付きネットワークは、学習率の高い運動量SGDと、正規化の$L_2$の標準最適化手法と、それと同等のハイパーパラメータ設定で、うまくトレーニングすることができる。 ソースコードはhttps://bitbucket.or g/YanivShu/binary_we ighted_networks_publ icで公開されている。

Quantization based model compression serves as high performing and fast approach for inference that yields highly compressed models compared to their full-precision floating point counterparts. The most extreme quantization is a 1-bit representation of parameters such that they have only two possible values, typically -1(0) or +1. Models that constrain the weights to binary values enable efficient implementation of the ubiquitous dot product by additions only without requiring floating point multiplications which is beneficial for resources constrained inference. The main contribution of this work is the introduction of a method to smooth the combinatorial problem of determining a binary vector of weights to minimize the expected loss for a given objective by means of empirical risk minimization with backpropagation. This is achieved by approximating a multivariate binary state over the weights utilizing a deterministic and differentiable transformation of real-valued continuous parameters. The proposed method adds little overhead in training, can be readily applied without any substantial modifications to the original architecture, does not introduce additional saturating non-linearities or auxiliary losses, and does not prohibit applying other methods for binarizing the activations. It is demonstrated that contrary to common assertions made in the literature, binary weighted networks can train well with the same standard optimization techniques and similar hyperparameters settings as their full-precision counterparts, namely momentum SGD with large learning rates and $L_2$ regularization. The source code is publicly available at https://bitbucket.or g/YanivShu/binary_we ighted_networks_publ ic
翻訳日:2021-07-07 09:21:55 公開日:2021-07-03
# (参考訳) 希少な情報から学ぶ:ローマの細工陶器の分類に合成データを用いる [全文訳有]

Learning from scarce information: using synthetic data to classify Roman fine ware pottery ( http://arxiv.org/abs/2107.01401v1 )

ライセンス: CC BY 4.0
Santos J. N\'u\~nez Jare\~no, Dani\"el P. van Helden, Evgeny M. Mirkes, Ivan Y. Tyukin, Penelope M. Allison(参考訳) 本稿では,トレーニングセットを超えた一般化を可能にするには,サイズが制限されないデータセットから学習する上で難しい問題のバージョンを検討する。 この課題に対処するために、まずモデルが元のオブジェクトの特徴を複製する合成データセット上でトレーニングされる転送学習アプローチを提案する。 この研究は、ロンドン博物館のコレクションからほぼ完全なローマ・テラ・シギラタ陶器のスマートフォン写真である。 陶器のプロファイル図面から再現された特徴を取り入れることで、我々の合成データ生成装置を通じて専門家の知識をプロセスに統合できる。 この最初の訓練の後、実船の写真から得られたデータを微調整した。 提案手法は,複数の一般的なディープラーニングアーキテクチャ,異なるテスト先行,写真視点の影響と船体への過度な損傷を考慮した徹底的な実験を通じて,適切な一般化性能を持つ分類器の作成を可能にすることを示す。 このパフォーマンスは、小さなデータセットから学習する根本的な問題を緩和するアプローチの約束を示す元のデータにのみトレーニングされた分類器よりも大幅に優れている。

In this article we consider a version of the challenging problem of learning from datasets whose size is too limited to allow generalisation beyond the training set. To address the challenge we propose to use a transfer learning approach whereby the model is first trained on a synthetic dataset replicating features of the original objects. In this study the objects were smartphone photographs of near-complete Roman terra sigillata pottery vessels from the collection of the Museum of London. Taking the replicated features from published profile drawings of pottery forms allowed the integration of expert knowledge into the process through our synthetic data generator. After this first initial training the model was fine-tuned with data from photographs of real vessels. We show, through exhaustive experiments across several popular deep learning architectures, different test priors, and considering the impact of the photograph viewpoint and excessive damage to the vessels, that the proposed hybrid approach enables the creation of classifiers with appropriate generalisation performance. This performance is significantly better than that of classifiers trained exclusively on the original data which shows the promise of the approach to alleviate the fundamental issue of learning from small datasets.
翻訳日:2021-07-07 09:07:19 公開日:2021-07-03
# (参考訳) ニューラルネットワークガウス過程のスケール混合 [全文訳有]

Scale Mixtures of Neural Network Gaussian Processes ( http://arxiv.org/abs/2107.01408v1 )

ライセンス: CC BY 4.0
Hyungi Lee, Eunggu Yun, Hongseok Yang, Juho Lee(参考訳) 最近の研究は、任意のアーキテクチャの無限大のフィードフォワードまたはリカレントニューラルネットワークが、$\mathrm{NNGP}$と呼ばれるガウス過程に対応することを明らかにした。 これらの研究はガウス過程に収束するニューラルネットワークのクラスを著しく拡張してきたが、そのようなニューラルネットワークが収束する確率過程のクラスの拡大にはほとんど焦点が当てられていない。 本研究では,ガウス確率変数のスケール混合に着想を得て,ラスト層パラメータのスケールにおける事前分布を導入するために,$\mathrm{nngp}$ のスケール混合を提案する。 最終層パラメータに先行してスケールを導入するだけで、任意のアーキテクチャの無限大のニューラルネットワークをよりリッチな確率的プロセスに変換できることを示す。 特に,あるスケールプリエントの場合,重み付き確率的プロセスが得られ,逆ガンマプリエントの場合の学生の$t$プロセスが復元される。 さらに,先行設定で初期化したニューラルネットワークの分布を解析し,勾配降下訓練を行い,$\mathrm{nngp}$ と同様の結果を得た。 我々は,$\mathrm{nngp}$のスケール混合に対する実用的な後方参照アルゴリズムを提案し,回帰および分類タスクにおいてその有用性を実証する。

Recent works have revealed that infinitely-wide feed-forward or recurrent neural networks of any architecture correspond to Gaussian processes referred to as $\mathrm{NNGP}$. While these works have extended the class of neural networks converging to Gaussian processes significantly, however, there has been little focus on broadening the class of stochastic processes that such neural networks converge to. In this work, inspired by the scale mixture of Gaussian random variables, we propose the scale mixture of $\mathrm{NNGP}$ for which we introduce a prior distribution on the scale of the last-layer parameters. We show that simply introducing a scale prior on the last-layer parameters can turn infinitely-wide neural networks of any architecture into a richer class of stochastic processes. Especially, with certain scale priors, we obtain heavy-tailed stochastic processes, and we recover Student's $t$ processes in the case of inverse gamma priors. We further analyze the distributions of the neural networks initialized with our prior setting and trained with gradient descents and obtain similar results as for $\mathrm{NNGP}$. We present a practical posterior-inference algorithm for the scale mixture of $\mathrm{NNGP}$ and empirically demonstrate its usefulness on regression and classification tasks.
翻訳日:2021-07-07 08:45:48 公開日:2021-07-03
# (参考訳) 知識蒸留のための等速データ拡張 [全文訳有]

Isotonic Data Augmentation for Knowledge Distillation ( http://arxiv.org/abs/2107.01412v1 )

ライセンス: CC BY 4.0
Wanyun Cui, Sen Yan(参考訳) 知識蒸留は教師モデルによって予測される本物のハードラベルとソフトラベルの両方を監督する。 直感的には、ソフトラベルとハードラベルはw.r.t.と一致している。 確率の命令だ しかし,拡張サンプルでは,ハードラベルとソフトラベルの「臨界順序違反」が検出された。 例えば、$x=0.7*panda+0.3*cat$の場合、意味のあるソフトラベルの順序は$P_\text{soft}(panda|x)>P_\text{soft}(cat|x)>P_\text{soft}(other|x)$と期待する。 しかし、実際のソフトレーベルは通常、注文に違反する。 P_\text{soft}(tiger|x)>P_\text{soft}(panda|x)>P_\text{soft}(cat|x)$ これは教師の満足のいく一般化能力に起因し、強化サンプルの予測誤差につながる。 経験的に, 侵害が一般的であり, 知識伝達を損なうことが判明した。本論文では, 知識蒸留のためのデータ拡張に順序制限を導入し, 等張的データ拡張 (ida) と表記する。 isotonic regression (ir) -- 統計学の古典的なテクニック -- を使用して、順序違反を排除します。 IDAは木構造IR問題としてモデル化可能であることを示す。 したがって、従来のIRT-BINアルゴリズムを$O(c \log c)$時間複雑性の最適解に適用し、$c$はラベルの数である。 時間の複雑さをさらに減らすために、リニアな時間複雑性を持つgpuフレンドリーな近似である \cwy{propose} も提案する。 提案するidaアルゴリズムが, ランク違反を除去し, 知識蒸留の精度を効果的に向上させることを示す, 変種データセットとデータ拡張手法について検証した。

Knowledge distillation uses both real hard labels and soft labels predicted by teacher models as supervision. Intuitively, we expect the soft labels and hard labels to be concordant w.r.t. their orders of probabilities. However, we found {\it critical order violations} between hard labels and soft labels in augmented samples. For example, for an augmented sample $x=0.7*panda+0.3*cat$, we expect the order of meaningful soft labels to be $P_\text{soft}(panda|x)>P_\text{soft}(cat|x)>P_\text{soft}(other|x)$. But real soft labels usually violate the order, e.g. $P_\text{soft}(tiger|x)>P_\text{soft}(panda|x)>P_\text{soft}(cat|x)$. We attribute this to the unsatisfactory generalization ability of the teacher, which leads to the prediction error of augmented samples. Empirically, we found the violations are common and injure the knowledge transfer.In this paper, we introduce order restrictions to data augmentation for knowledge distillation, which is denoted as isotonic data augmentation (IDA). We use isotonic regression (IR) -- a classic technique from statistics -- to eliminate the order violations. We show that IDA can be modeled as a tree-structured IR problem. We thereby adapt the classical IRT-BIN algorithm for optimal solutions with $O(c \log c)$ time complexity, where $c$ is the number of labels. In order to further reduce the time complexity, we also \cwy{propose} a GPU-friendly approximation with linear time complexity. We have verified on variant datasets and data augmentation techniques that our proposed IDA algorithms effectively increases the accuracy of knowledge distillation by eliminating the rank violations.
翻訳日:2021-07-07 08:18:54 公開日:2021-07-03
# (参考訳) パラレル化単一光子検出による乱流媒体下のイメージングダイナミクス [全文訳有]

Imaging dynamics beneath turbid media via parallelized single-photon detection ( http://arxiv.org/abs/2107.01422v1 )

ライセンス: CC BY 4.0
Shiqi Xu, Xi Yang, Wenhui Liu, Joakim Jonsson, Ruobing Qian, Pavan Chandra Konda, Kevin C. Zhou, Qionghai Dai, Haoqian Wang, Edouard Berrocal, Roarke Horstmeyer(参考訳) ダイナミック散乱媒質による非侵襲光学イメージングには多くの重要なバイオメディカル応用があるが、依然として困難な課題である。 標準的な方法は、光吸収や蛍光発光に基づいて画像を形成することを目的としているが、散乱したコヒーレント光の時間的相関が光強度のように組織中に拡散する。 しかし、これらのデータを実験的に測定・処理し、デコリレーションダイナミクスの深部画像化を実証することを目的とした研究はほとんどない。 本研究では, 単光子型アバランシェ・ダイオード(SPAD)アレイカメラと1万個以上の検出器を用いて, 12個のファントム組織表面位置から1光子レベルのスペックル変動を同時に検出する。 次に, 深層ニューラルネットワークを用いて, 取得した単光子測定を, 液体組織ファントムの高速分離下での散乱ダイナミクスの映像に変換する。 組織ファントム下5~8mmの動的事象をmmスケールの解像度で2.5~10Hzのフレームレートで記録できることを実証した。

Noninvasive optical imaging through dynamic scattering media has numerous important biomedical applications but still remains a challenging task. While standard methods aim to form images based upon optical absorption or fluorescent emission, it is also well-established that the temporal correlation of scattered coherent light diffuses through tissue much like optical intensity. Few works to date, however, have aimed to experimentally measure and process such data to demonstrate deep-tissue imaging of decorrelation dynamics. In this work, we take advantage of a single-photon avalanche diode (SPAD) array camera, with over one thousand detectors, to simultaneously detect speckle fluctuations at the single-photon level from 12 different phantom tissue surface locations delivered via a customized fiber bundle array. We then apply a deep neural network to convert the acquired single-photon measurements into video of scattering dynamics beneath rapidly decorrelating liquid tissue phantoms. We demonstrate the ability to record video of dynamic events occurring 5-8 mm beneath a decorrelating tissue phantom with mm-scale resolution and at a 2.5-10 Hz frame rate.
翻訳日:2021-07-07 08:05:51 公開日:2021-07-03
# (参考訳) 畳み込みニューラルネットワークを用いたドローン検出 [全文訳有]

Drone Detection Using Convolutional Neural Networks ( http://arxiv.org/abs/2107.01435v1 )

ライセンス: CC BY 4.0
Fatemeh Mahdavi, Roozbeh Rajabi(参考訳) 画像処理では、航空目標、特にuavを検出し追跡することが不可欠である。 本稿では,魚眼カメラを用いて飛行中のドローンを検出する。 オブジェクトの診断と分類の分野では、この領域における迅速かつ著しい進歩の進展を妨げる問題は常に数多く存在する。 過去数十年間、畳み込みニューラルネットワークやサポートベクターマシンなどの高度な分類手法が開発されてきた。 本研究では,畳み込みニューラルネットワーク(cnn),サポートベクターマシン(svm),近接近傍の3つの分類法を用いてドローンの検出を行った。 その結果, CNN, SVM, および近隣諸国でそれぞれ95%, 88%, 80%の精度が得られた。 同じ実験条件の他の分類器と比較すると、畳み込みニューラルネットワーク分類器の精度は良好である。

In image processing, it is essential to detect and track air targets, especially UAVs. In this paper, we detect the flying drone using a fisheye camera. In the field of diagnosis and classification of objects, there are always many problems that prevent the development of rapid and significant progress in this area. During the previous decades, a couple of advanced classification methods such as convolutional neural networks and support vector machines have been developed. In this study, the drone was detected using three methods of classification of convolutional neural network (CNN), support vector machine (SVM), and nearest neighbor. The outcomes show that CNN, SVM, and nearest neighbor have total accuracy of 95%, 88%, and 80%, respectively. Compared with other classifiers with the same experimental conditions, the accuracy of the convolutional neural network classifier is satisfactory.
翻訳日:2021-07-07 07:43:06 公開日:2021-07-03
# (参考訳) 3次元胸部CTスキャン分類のためのカスタムディープニューラルネットワーク [全文訳有]

Custom Deep Neural Network for 3D Covid Chest CT-scan Classification ( http://arxiv.org/abs/2107.01456v1 )

ライセンス: CC BY 4.0
Quoc Huy Trinh, Minh Van Nguyen(参考訳) 胸部CT-Scanベースは近年、議論を呼んでいる研究の1つだ。 この疾患をCTスキャン画像で診断するには、Covid19を含む多くのタスクがある。 本稿では,深層ニューラルネットワークを用いて3次元ctスキャン胸部画像の系列を分類する手法を提案する。 提案手法では,DenseNet 121とResNet 101の2つのバックボーンを用いて実験を行った。 この提案では、実験を2つのタスクに分け、ひとつはResNetとDenseNetの2つのバックボーンの組み合わせ、もう一つはDenseNetのバックボーンの組み合わせです。

3D CT-scan base on chest is one of the controversial topisc of the researcher nowadays. There are many tasks to diagnose the disease through CT-scan images, include Covid19. In this paper, we propose a method that custom and combine Deep Neural Network to classify the series of 3D CT-scans chest images. In our methods, we experiment with 2 backbones is DenseNet 121 and ResNet 101. In this proposal, we separate the experiment into 2 tasks, one is for 2 backbones combination of ResNet and DenseNet, one is for DenseNet backbones combination.
翻訳日:2021-07-07 07:37:24 公開日:2021-07-03
# (参考訳) Mava:分散マルチエージェント強化学習のための研究フレームワーク [全文訳有]

Mava: a research framework for distributed multi-agent reinforcement learning ( http://arxiv.org/abs/2107.01460v1 )

ライセンス: CC BY 4.0
Arnu Pretorius, Kale-ab Tessera, Andries P. Smit, Claude Formanek, St John Grimbly, Kevin Eloff, Siphelele Danisa, Lawrence Francis, Jonathan Shock, Herman Kamper, Willie Brink, Herman Engelbrecht, Alexandre Laterre, Karim Beguir(参考訳) 強化学習(RL)研究におけるブレークスルーの進歩は、RLの開発と応用の急激な増加につながった。 この分野と急速な成長をサポートするために、コミュニティがより効果的でスケーラブルなエージェントを構築するのを支援するために、いくつかのフレームワークが登場した。 しかし、これらのフレームワークのごく一部は、分散化された意思決定問題に関わる活動的な分野であるマルチエージェントRL(MARL)のみをサポートしている。 本稿では,スケーラブルなmarlシステムの構築に特化した研究フレームワークであるmavaを提案することで,このギャップを埋めようとしている。 MavaはMARLの有用なコンポーネント、抽象化、ユーティリティ、ツールを提供し、マルチプロセスシステムのトレーニングと実行の簡単なスケーリングを可能にし、高いレベルの柔軟性と構成性を提供する。 MavaはDeepMindのAcme \citep{hoffman2020acme}上に構築されており、Acmeで利用可能な既存のシングルエージェントのRLコンポーネントと統合され、大きなメリットがある。 MARLのベースラインシステムは、すでにMavaで実装されている。 これらの実装は、交換可能なシステムアーキテクチャ、通信および混合モジュールなど、Mavaの再利用可能な機能を示す例として機能する。 さらに、これらの実装により既存のMARLアルゴリズムを容易に再現および拡張できる。 我々は,マルチエージェント環境の幅広い実装に対して実験結果を提供し,分散システムトレーニングの利点を強調する。

Breakthrough advances in reinforcement learning (RL) research have led to a surge in the development and application of RL. To support the field and its rapid growth, several frameworks have emerged that aim to help the community more easily build effective and scalable agents. However, very few of these frameworks exclusively support multi-agent RL (MARL), an increasingly active field in itself, concerned with decentralised decision-making problems. In this work, we attempt to fill this gap by presenting Mava: a research framework specifically designed for building scalable MARL systems. Mava provides useful components, abstractions, utilities and tools for MARL and allows for simple scaling for multi-process system training and execution, while providing a high level of flexibility and composability. Mava is built on top of DeepMind's Acme \citep{hoffman2020acme}, and therefore integrates with, and greatly benefits from, a wide range of already existing single-agent RL components made available in Acme. Several MARL baseline systems have already been implemented in Mava. These implementations serve as examples showcasing Mava's reusable features, such as interchangeable system architectures, communication and mixing modules. Furthermore, these implementations allow existing MARL algorithms to be easily reproduced and extended. We provide experimental results for these implementations on a wide range of multi-agent environments and highlight the benefits of distributed system training.
翻訳日:2021-07-07 07:34:14 公開日:2021-07-03
# (参考訳) 低複雑さデバイス・ロバスト型ニューラル音響シーン分類のためのロッキーチケット仮説フレームワーク [全文訳有]

A Lottery Ticket Hypothesis Framework for Low-Complexity Device-Robust Neural Acoustic Scene Classification ( http://arxiv.org/abs/2107.01461v1 )

ライセンス: CC BY-SA 4.0
Chao-Han Huck Yang, Hu Hu, Sabato Marco Siniscalchi, Qing Wang, Yuyang Wang, Xianjun Xia, Yuanjun Zhao, Yuzhong Wu, Yannan Wang, Jun Du, Chin-Hui Lee(参考訳) デバイス・ロバスト音響シーン分類(ASC)のための,データ拡張,知識伝達,プルーニング,量子化を組み合わせた新しいニューラルモデル圧縮戦略を提案する。 具体的には、最近提案されたLTH(Lottery Ticket hypothesis)と呼ばれる先進的なニューラルネットワーク解析機構を利用して、低リソース環境におけるASCタスクに取り組み、少量の非ゼロモデルパラメータに関連するサブネットワークニューラルモデルを見つける。 低複雑さ音響モデリングにおけるLTHの有効性を,様々なデータ拡張および圧縮手法を用いて評価し,低複雑さマルチデバイスASCのための効率的なジョイントフレームワークであるAustratic Lotteryについて報告する。 Acoustic Lotteryは1/10^{4}$でASCモデルを圧縮し、圧縮されていないシードモデルと比較して優れた性能(バリデーション精度74.01%、ログ損失0.76)を得ることができた。 本研究で報告されたすべての結果は,DCASE 2021チャレンジタスク1aにおける"低複雑音響シーン分類(ASC)"の解決を目的とした,GT-USTC-UKE-Tencent という4つのグループの共同作業に基づいている。

We propose a novel neural model compression strategy combining data augmentation, knowledge transfer, pruning, and quantization for device-robust acoustic scene classification (ASC). Specifically, we tackle the ASC task in a low-resource environment leveraging a recently proposed advanced neural network pruning mechanism, namely Lottery Ticket Hypothesis (LTH), to find a sub-network neural model associated with a small amount non-zero model parameters. The effectiveness of LTH for low-complexity acoustic modeling is assessed by investigating various data augmentation and compression schemes, and we report an efficient joint framework for low-complexity multi-device ASC, called Acoustic Lottery. Acoustic Lottery could compress an ASC model over $1/10^{4}$ and attain a superior performance (validation accuracy of 74.01% and Log loss of 0.76) compared to its not compressed seed model. All results reported in this work are based on a joint effort of four groups, namely GT-USTC-UKE-Tencent, aiming to address the "Low-Complexity Acoustic Scene Classification (ASC) with Multiple Devices" in the DCASE 2021 Challenge Task 1a.
翻訳日:2021-07-07 07:06:31 公開日:2021-07-03
# (参考訳) ニューラルネットワークの傾斜と一般化特性 [全文訳有]

Slope and generalization properties of neural networks ( http://arxiv.org/abs/2107.01473v1 )

ライセンス: CC BY 4.0
Anton Johansson, Niklas Engsner, Claes Stranneg{\aa}rd, Petter Mostad(参考訳) ニューラルネットワークは、例えば高度な分類において非常に成功したツールである。 統計的観点からは、ニューラルネットワークの適合は、入力空間からデータの「一般的な」形に従う分類確率の空間への関数を求める回帰の一種と見なすことができるが、個々のデータポイントの記憶を避けることによって過剰フィッティングを避けることができる。 統計学において、これは回帰関数の幾何学的複雑さを制御することで実現できる。 ネットワークの傾斜を制御してニューラルネットワークを適合させる手法を提案する。 勾配を定義して理論的な性質について議論した後、reluネットワークを用いて、よく訓練されたニューラルネットワーク分類器の勾配分布は、一般的に、完全接続されたネットワークの層幅とは独立であり、分布の平均は、モデルアーキテクチャ全般に弱い依存しか持たないことを実証的に示した。 傾斜は、関連する体積を通して同じ大きさで、滑らかに変化する。 また、再スケーリングの例で予測したように振る舞う。 本稿では,損失関数の一部として使用したり,ネットワークトレーニング中に基準値を停止したり,複雑性の観点からデータセットをランク付けしたりといった,スロープ概念の応用の可能性について議論する。

Neural networks are very successful tools in for example advanced classification. From a statistical point of view, fitting a neural network may be seen as a kind of regression, where we seek a function from the input space to a space of classification probabilities that follows the "general" shape of the data, but avoids overfitting by avoiding memorization of individual data points. In statistics, this can be done by controlling the geometric complexity of the regression function. We propose to do something similar when fitting neural networks by controlling the slope of the network. After defining the slope and discussing some of its theoretical properties, we go on to show empirically in examples, using ReLU networks, that the distribution of the slope of a well-trained neural network classifier is generally independent of the width of the layers in a fully connected network, and that the mean of the distribution only has a weak dependence on the model architecture in general. The slope is of similar size throughout the relevant volume, and varies smoothly. It also behaves as predicted in rescaling examples. We discuss possible applications of the slope concept, such as using it as a part of the loss function or stopping criterion during network training, or ranking data sets in terms of their complexity.
翻訳日:2021-07-07 06:54:38 公開日:2021-07-03
# (参考訳) BAGUA: システムの緩和による分散学習のスケールアップ [全文訳有]

BAGUA: Scaling up Distributed Learning with System Relaxations ( http://arxiv.org/abs/2107.01499v1 )

ライセンス: CC BY-SA 4.0
Shaoduo Gan, Xiangru Lian, Rui Wang, Jianbin Chang, Chengjun Liu, Hongmei Shi, Shengzhuo Zhang, Xianghong Li, Tengxu Sun, Jiawei Jiang, Binhang Yuan, Sen Yang, Ji Liu, Ce Zhang(参考訳) 近年、分散データ並列トレーニングのためのシステムのリストが増えている。 既存のシステムはパラメータサーバとMPIスタイルの集合演算という2つのパラダイムに大きく適合する。 アルゴリズムの面では、量子化、分散化、通信遅延といった、システム緩和による通信の低減のための幅広い技術が研究者によって提案されている。 しかし、すべてではないにしても、既存のシステムは標準の同期および非同期確率勾配(SG)ベースの最適化にのみ依存しているため、機械学習コミュニティが最近開発してきたすべての最適化を活用できない。 システムと理論の現況の新たなギャップを考えると、分散トレーニングの最先端システム緩和技術をサポートするために、フレキシブルかつモジュール化されたシステム抽象化を提供することを設計目標とする通信フレームワークであるBAGUAを構築します。 新しいシステム設計によって、BAGUAは様々な最先端の分散学習アルゴリズムを実装し拡張する能力を持つ。 最大16台のマシン(128GPU)を持つプロダクションクラスタでは、BAGUAはPyTorch-DDP、Horovod、BytePSを、さまざまなタスクでかなりの差(最大1.95倍)でエンドツーエンドのトレーニング時間で上回ることができる。 さらに、異なるアルゴリズムとシステム緩和が異なるネットワーク条件に対して最高の性能を達成することを示す厳密なトレードオフ探索を行う。

Recently years have witnessed a growing list of systems for distributed data-parallel training. Existing systems largely fit into two paradigms, i.e., parameter server and MPI-style collective operations. On the algorithmic side, researchers have proposed a wide range of techniques to lower the communication via system relaxations: quantization, decentralization, and communication delay. However, most, if not all, existing systems only rely on standard synchronous and asynchronous stochastic gradient (SG) based optimization, therefore, cannot take advantage of all possible optimizations that the machine learning community has been developing recently. Given this emerging gap between the current landscapes of systems and theory, we build BAGUA, a communication framework whose design goal is to provide a system abstraction that is both flexible and modular to support state-of-the-art system relaxation techniques of distributed training. Powered by the new system design, BAGUA has a great ability to implement and extend various state-of-the-art distributed learning algorithms. In a production cluster with up to 16 machines (128 GPUs), BAGUA can outperform PyTorch-DDP, Horovod and BytePS in the end-to-end training time by a significant margin (up to 1.95 times) across a diverse range of tasks. Moreover, we conduct a rigorous tradeoff exploration showing that different algorithms and system relaxations achieve the best performance over different network conditions.
翻訳日:2021-07-07 06:35:51 公開日:2021-07-03
# Split-and-Bridge: 単一ニューラルネットワークにおける適応型クラスインクリメンタル学習

Split-and-Bridge: Adaptable Class Incremental Learning within a Single Neural Network ( http://arxiv.org/abs/2107.01349v1 )

ライセンス: Link先を確認
Jong-Yeong Kim and Dong-Wan Choi(参考訳) 継続的学習は、ディープラーニングコミュニティの主要な問題であり、これまでのタスクの知識を忘れることなく、新たにやってくる一連のタスクを効果的に学習する方法が大きな課題となっている。 LwF(Learning without Forgetting)によって始められた既存の研究の多くは、知識蒸留は以前の知識を保存するのに効果的である、と報告しているので、彼らは一般的に、知識蒸留(KD)の損失、すなわち新しいタスクのクラスラベル、すなわちクロスエントロピー(CE)の損失を用いて、単一のニューラルネットワークの複合的損失を形成する。 しかし、KD損失が単一ネットワーク内の競合状態にある場合、しばしば目的関数に強く影響を与えるため、CE損失による知識の習得に苦慮する。 これは特にクラスインクリメンタルなシナリオにおいて重要な問題であり、タスク間の知識と新しいタスク内での知識はどちらもCE損失によってのみ取得できるが、本質的には統一分類器の存在によって学習される。 本稿では,ニューラルネットワークを2つのパーティションに分割して,従来のタスクから切り離されたタスクをトレーニングし,タスク間の知識を学習するために再接続することで,上記の問題に対処できる,Split-and-Bridgeという新しい連続学習手法を提案する。 本手法は,KDに基づく連続学習における最先端の競争相手よりも優れる。

Continual learning has been a major problem in the deep learning community, where the main challenge is how to effectively learn a series of newly arriving tasks without forgetting the knowledge of previous tasks. Initiated by Learning without Forgetting (LwF), many of the existing works report that knowledge distillation is effective to preserve the previous knowledge, and hence they commonly use a soft label for the old task, namely a knowledge distillation (KD) loss, together with a class label for the new task, namely a cross entropy (CE) loss, to form a composite loss for a single neural network. However, this approach suffers from learning the knowledge by a CE loss as a KD loss often more strongly influences the objective function when they are in a competitive situation within a single network. This could be a critical problem particularly in a class incremental scenario, where the knowledge across tasks as well as within the new task, both of which can only be acquired by a CE loss, is essentially learned due to the existence of a unified classifier. In this paper, we propose a novel continual learning method, called Split-and-Bridge, which can successfully address the above problem by partially splitting a neural network into two partitions for training the new task separated from the old task and re-connecting them for learning the knowledge across tasks. In our thorough experimental analysis, our Split-and-Bridge method outperforms the state-of-the-art competitors in KD-based continual learning.
翻訳日:2021-07-06 15:25:44 公開日:2021-07-03
# CInC Flow: キャラクタライズ可能な可逆3x3コンボリューション

CInC Flow: Characterizable Invertible 3x3 Convolution ( http://arxiv.org/abs/2107.01358v1 )

ライセンス: Link先を確認
Sandeep Nagar, Marius Dufraisse, Girish Varma(参考訳) 正規化フローは、データセットの最大可能性に基づいて直接最適化できる生成モデリングのためのGANに不可欠な代替手段である。 これらは可逆変換からなるため、画像に対応する正確な潜在ベクトルの計算も可能である。 しかし、変換の可逆性の必要性は、cnnのような標準的かつ表現力のあるニューラルネットワークモデルを直接使用することを妨げる。 創発的畳み込みは、マスクされた2つのCNN層を用いて可逆3$\times$3 CNN層を構築するために提案された。 3$\times$3 CNNは可逆であり、表現的正規化フローを構築することができる。 我々は、パッド付きcnnが可逆になるための必要十分条件を導出する。 インバータビリティの条件は単純であり、トレーニングプロセス中に容易に維持できる。 効果的な非可逆CNN層に1つのCNN層しか必要としないため、我々のアプローチは新たな畳み込みよりも効率的である。 また,結合法であるクアドカップリングも提案した。 このアプローチをベンチマークし,モデル効率を改善しながら,創発的畳み込みに類似のパフォーマンス結果を示す。

Normalizing flows are an essential alternative to GANs for generative modelling, which can be optimized directly on the maximum likelihood of the dataset. They also allow computation of the exact latent vector corresponding to an image since they are composed of invertible transformations. However, the requirement of invertibility of the transformation prevents standard and expressive neural network models such as CNNs from being directly used. Emergent convolutions were proposed to construct an invertible 3$\times$3 CNN layer using a pair of masked CNN layers, making them inefficient. We study conditions such that 3$\times$3 CNNs are invertible, allowing them to construct expressive normalizing flows. We derive necessary and sufficient conditions on a padded CNN for it to be invertible. Our conditions for invertibility are simple, can easily be maintained during the training process. Since we require only a single CNN layer for every effective invertible CNN layer, our approach is more efficient than emerging convolutions. We also proposed a coupling method, Quad-coupling. We benchmark our approach and show similar performance results to emergent convolutions while improving the model's efficiency.
翻訳日:2021-07-06 15:25:15 公開日:2021-07-03
# recurrent adversarial learningを用いたセンサ不変指紋roiセグメンテーション

Sensor-invariant Fingerprint ROI Segmentation Using Recurrent Adversarial Learning ( http://arxiv.org/abs/2107.01361v1 )

ライセンス: Link先を確認
Indu Joshi and Ayush Utkarsh and Riya Kothari and Vinod K Kurmi and Antitza Dantcheva and Sumantra Dutta Roy and Prem Kumar Kalra(参考訳) 前景の指紋を背景雑音から分離するために, 関心領域(roi)セグメンテーションアルゴリズムが設計されている。 論文で提案されている学習に基づく指紋roiセグメンテーションアルゴリズムはすべて、同じセンサから取得した指紋画像からトレーニングとテストの両方のデータベースを構成する場合のシナリオに基づいてベンチマークされる。 しかし、異なるセンサでテストを行う場合、得られるセグメンテーション性能は不満足であることが多い。 その結果、新しい指紋センサがテストに使用される度に、新しいセンサーから取得した指紋画像とそれに対応する手書きのROIで指紋ロイセグメンテーションモデルを再訓練する必要がある。 指紋のROIを手作業でマークするのは高価です。 そこで,本研究では,最先端技術が必要とするアノテーションを生成するための人的努力を省くために,未確認センサから抽出した指紋画像の特徴をトレーニング用に利用できる指紋から得られるものに近いように整列する指紋ロイ分割モデルを提案する。 具体的には,指紋roiセグメンテーションモデルによるセンサ不変特徴の学習を支援する,相反学習に基づく特徴アライメントネットワークを提案する。 その結果, roiセグメンテーションモデルにより学習したセンサ不変特性は, 新たなセンサから取得した指紋のセグメンテーション性能の向上に寄与する。 公開されているFVCデータベースの実験は,提案手法の有効性を実証している。

A fingerprint region of interest (roi) segmentation algorithm is designed to separate the foreground fingerprint from the background noise. All the learning based state-of-the-art fingerprint roi segmentation algorithms proposed in the literature are benchmarked on scenarios when both training and testing databases consist of fingerprint images acquired from the same sensors. However, when testing is conducted on a different sensor, the segmentation performance obtained is often unsatisfactory. As a result, every time a new fingerprint sensor is used for testing, the fingerprint roi segmentation model needs to be re-trained with the fingerprint image acquired from the new sensor and its corresponding manually marked ROI. Manually marking fingerprint ROI is expensive because firstly, it is time consuming and more importantly, requires domain expertise. In order to save the human effort in generating annotations required by state-of-the-art, we propose a fingerprint roi segmentation model which aligns the features of fingerprint images derived from the unseen sensor such that they are similar to the ones obtained from the fingerprints whose ground truth roi masks are available for training. Specifically, we propose a recurrent adversarial learning based feature alignment network that helps the fingerprint roi segmentation model to learn sensor-invariant features. Consequently, sensor-invariant features learnt by the proposed roi segmentation model help it to achieve improved segmentation performance on fingerprints acquired from the new sensor. Experiments on publicly available FVC databases demonstrate the efficacy of the proposed work.
翻訳日:2021-07-06 15:22:41 公開日:2021-07-03
# デミギーズ・アタック : 知覚的類似性を持つ不可視的セマンティック・アタック

Demiguise Attack: Crafting Invisible Semantic Adversarial Perturbations with Perceptual Similarity ( http://arxiv.org/abs/2107.01396v1 )

ライセンス: Link先を確認
Yajie Wang, Shangbo Wu, Wenyi Jiang, Shengang Hao, Yu-an Tan and Quanxin Zhang(参考訳) ディープニューラルネットワーク(DNN)は、敵の例に弱いことがわかっている。 敵対的な例は、視覚的に知覚できない摂動を持つ悪意のあるイメージである。 厳密な$\Lp$ノルム境界で制限されたこれらの注意深い摂動は小さいが、それでも人間によって容易に知覚できる。 これらの摂動は、ブラックボックスモデルやノイズ低減フィルタのような防御力のあるモデルを攻撃する場合の成功率も低い。 これらの問題を解決するために,知覚的類似性を伴う「非制限」摂動を実現するデミガイズアタックを提案する。 具体的には、知覚的類似性に基づいて意味情報を操作することによって、強力でフォトリアリスティックな敵意の例を作ることができる。 私たちが生成する敵対的な例は人間の視覚システム(HVS)に親しみやすいが、摂動は大きい。 我々は,このアプローチで広く使用されている攻撃を拡張し,非知覚性に寄与しながら,敵対的効果を著しく高めている。 実験結果から, 提案手法は, ダンピング率, 移動性, 堅牢性を両立させるだけでなく, 効果的に攻撃を改善できることが示唆された。 さらに,実世界のシナリオで発生する照明やコントラストの変化をシミュレートすることで,dnnの盲点の露出に寄与できることにも気付きました。

Deep neural networks (DNNs) have been found to be vulnerable to adversarial examples. Adversarial examples are malicious images with visually imperceptible perturbations. While these carefully crafted perturbations restricted with tight $\Lp$ norm bounds are small, they are still easily perceivable by humans. These perturbations also have limited success rates when attacking black-box models or models with defenses like noise reduction filters. To solve these problems, we propose Demiguise Attack, crafting ``unrestricted'' perturbations with Perceptual Similarity. Specifically, we can create powerful and photorealistic adversarial examples by manipulating semantic information based on Perceptual Similarity. Adversarial examples we generate are friendly to the human visual system (HVS), although the perturbations are of large magnitudes. We extend widely-used attacks with our approach, enhancing adversarial effectiveness impressively while contributing to imperceptibility. Extensive experiments show that the proposed method not only outperforms various state-of-the-art attacks in terms of fooling rate, transferability, and robustness against defenses but can also improve attacks effectively. In addition, we also notice that our implementation can simulate illumination and contrast changes that occur in real-world scenarios, which will contribute to exposing the blind spots of DNNs.
翻訳日:2021-07-06 15:22:16 公開日:2021-07-03
# shoring: シンボリックテストによる条件付き高次インタラクションネットワークの設計

SHORING: Design Provable Conditional High-Order Interaction Network via Symbolic Testing ( http://arxiv.org/abs/2107.01326v1 )

ライセンス: Link先を確認
Hui Li, Xing Fu, Ruofan Wu, Jinyu Xu, Kai Xiao, Xiaofu Chang, Weiqiang Wang, Shuai Chen, Leilei Shi, Tao Xiong, Yuan Qi(参考訳) ディープラーニングは、エンドツーエンドの方法で生データから効果的な表現を抽出する有望な方法を提供し、コンピュータビジョンや自然言語処理など、さまざまな領域でその効果が証明されている。 しかし、コンテンツ/プロダクトのレコメンデーションやリスク管理といったドメインでは、イベントデータのシーケンスが最も使用される生データフォームであり、専門家が派生した機能がより一般的に使用される場合、ディープラーニングモデルがゲームの支配に苦しむ。 本稿では,ニューラルネットワークによってどのような特徴が学習できるのかという疑問に答えるのに役立つシンボリックテストフレームワークを提案する。 このテストフレームワークにインスパイアされたSHORINGは,2つのコンポーネント, \textit{event network} と \textit{sequence network} を含む。 \textit{event} ネットワークは、証明可能な再パラメータ化トリックを通じて、任意にかつ効率的に高次 \textit{event-level} 埋め込みを学習し、 \textit{event-level} 埋め込みのシーケンスから \textit{sequence} ネットワークが集約される。 SHORINGは,標準的なマルチヘッド自己認識ネットワークでは学習できない,標準的な記号表現を学習し,4つの合成データセットと3つの実世界のデータセットに関する総合的な実験およびアブレーション研究を行うことができる。 その結果,SHORINGは最先端の手法よりも経験的に優れていることがわかった。

Deep learning provides a promising way to extract effective representations from raw data in an end-to-end fashion and has proven its effectiveness in various domains such as computer vision, natural language processing, etc. However, in domains such as content/product recommendation and risk management, where sequence of event data is the most used raw data form and experts derived features are more commonly used, deep learning models struggle to dominate the game. In this paper, we propose a symbolic testing framework that helps to answer the question of what kinds of expert-derived features could be learned by a neural network. Inspired by this testing framework, we introduce an efficient architecture named SHORING, which contains two components: \textit{event network} and \textit{sequence network}. The \textit{event} network learns arbitrarily yet efficiently high-order \textit{event-level} embeddings via a provable reparameterization trick, the \textit{sequence} network aggregates from sequence of \textit{event-level} embeddings. We argue that SHORING is capable of learning certain standard symbolic expressions which the standard multi-head self-attention network fails to learn, and conduct comprehensive experiments and ablation studies on four synthetic datasets and three real-world datasets. The results show that SHORING empirically outperforms the state-of-the-art methods.
翻訳日:2021-07-06 15:19:53 公開日:2021-07-03
# Grass Greenerはどこにありますか。 オフライン強化学習のための一般政策イテレーションの再検討

Where is the Grass Greener? Revisiting Generalized Policy Iteration for Offline Reinforcement Learning ( http://arxiv.org/abs/2107.01407v1 )

ライセンス: Link先を確認
Lionel Blond\'e, Alexandros Kalousis(参考訳) オフラインのRLレギュレーションにおける最先端のベースラインのパフォーマンスは、"極端から最適"なランダムデータから"極端から最適"な専門家のデモンストレーションまで、データセットの品質の範囲で大きく異なる。 我々は、これらを公正で統一的で高分解能なフレームワークで再実装し、与えられたベースラインがスペクトルの一方の端で競合相手を上回る場合、反対側では決して実行されないことを示す。 この一貫した傾向は、ボード全体の他の部分を上回る勝利を命名することを妨げる。 我々は,品質スペクトルの両端間の性能の非対称性をエージェントに注入された誘導バイアスの量とみなして,オフラインデータセットの動作がタスクに最適であることを示す。 バイアスが注入されるほど、データセットが最適に近い場合、エージェントのパフォーマンスが高くなる。 そうでなければ、その効果は残酷に有害である。 優位重み付き回帰テンプレートをベースとして、このような最適性誘導バイアスの注入がパロニカルに行われなければ、オフラインポリシーが準最適となると、エージェントが支配的なデータセットにサブパールする、という調査を行う。 本研究は、全スペクトルにわたって良好に機能する手法を設計するために、オフライン体制における一般化されたポリシー反復方式を再検討し、政策評価及び政策改善更新規則の一般化にかかわる行動に対する9つの新たな提案分布の影響について検討する。 特定のオーケストレーションが適切なバランスをとっており、一方のスペクトルの性能をもう一方の端で損なうことなく向上させることができることを示す。

The performance of state-of-the-art baselines in the offline RL regime varies widely over the spectrum of dataset qualities, ranging from "far-from-optimal&quo t; random data to "close-to-optimal&quo t; expert demonstrations. We re-implement these under a fair, unified, and highly factorized framework, and show that when a given baseline outperforms its competing counterparts on one end of the spectrum, it never does on the other end. This consistent trend prevents us from naming a victor that outperforms the rest across the board. We attribute the asymmetry in performance between the two ends of the quality spectrum to the amount of inductive bias injected into the agent to entice it to posit that the behavior underlying the offline dataset is optimal for the task. The more bias is injected, the higher the agent performs, provided the dataset is close-to-optimal. Otherwise, its effect is brutally detrimental. Adopting an advantage-weighted regression template as base, we conduct an investigation which corroborates that injections of such optimality inductive bias, when not done parsimoniously, makes the agent subpar in the datasets it was dominant as soon as the offline policy is sub-optimal. In an effort to design methods that perform well across the whole spectrum, we revisit the generalized policy iteration scheme for the offline regime, and study the impact of nine distinct newly-introduced proposal distributions over actions, involved in proposed generalization of the policy evaluation and policy improvement update rules. We show that certain orchestrations strike the right balance and can improve the performance on one end of the spectrum without harming it on the other end.
翻訳日:2021-07-06 15:19:28 公開日:2021-07-03
# 二分分類の公正な決定規則

Fair Decision Rules for Binary Classification ( http://arxiv.org/abs/2107.01325v1 )

ライセンス: Link先を確認
Connor Lawless, Oktay Gunluk(参考訳) 近年、機械学習は、大学入学、信用貸付、刑事判決など様々な分野における意思決定を自動化し始めている。 これらのアプリケーションの社会的に敏感な性質と規制上の制約の増加は、公平かつ解釈可能なアルゴリズムの必要性を招いた。 本稿では,二分分類のための解釈可能なモデルであるdisjunctive normal form (dnf) でブール規則集合を構築する問題を考える。 分類パリティの2つの異なる尺度(機会の平等と等化オッズ)に明示的な制約を課して分類精度を最大化する整数プログラムとして問題を定式化する。 カラム生成フレームワークは、新しい定式化とともに、指数関数的に多くの可能なルールを効率的に探索するために使用される。 高速ヒューリスティックと組み合わせることで,大規模データセットを扱うことができる。 他の公正かつ解釈可能な分類器と比較して、我々の手法は、公正性のより厳密な概念に適合する規則セットを精度の低いトレードオフで見つけることができる。

In recent years, machine learning has begun automating decision making in fields as varied as college admissions, credit lending, and criminal sentencing. The socially sensitive nature of some of these applications together with increasing regulatory constraints has necessitated the need for algorithms that are both fair and interpretable. In this paper we consider the problem of building Boolean rule sets in disjunctive normal form (DNF), an interpretable model for binary classification, subject to fairness constraints. We formulate the problem as an integer program that maximizes classification accuracy with explicit constraints on two different measures of classification parity: equality of opportunity and equalized odds. Column generation framework, with a novel formulation, is used to efficiently search over exponentially many possible rules. When combined with faster heuristics, our method can deal with large data-sets. Compared to other fair and interpretable classifiers, our method is able to find rule sets that meet stricter notions of fairness with a modest trade-off in accuracy.
翻訳日:2021-07-06 15:11:58 公開日:2021-07-03
# 通信深部強化学習エージェントを用いた交通信号制御 : 事例研究

Traffic Signal Control with Communicative Deep Reinforcement Learning Agents: a Case Study ( http://arxiv.org/abs/2107.01347v1 )

ライセンス: Link先を確認
Paolo Fazzini, Isaac Wheeler, Francesco Petracchini(参考訳) 本研究では,最近提案されている2つの多エージェント強化学習法であるma2c(multi-agent advantage actor-critic)とia2c(independent advantage actor-critic)を理論的に実験的に解析した。 この2つの方法は、ローカルまたはグローバルで計算された報酬の使用とエージェントのコミュニケーションの管理で異なる。 提案手法は,非マルコフ決定プロセスが提供するフレームワークを用いて理論的に解析し,アルゴリズムの分析に有用な知見を提供する。 また,bologna (italy)エリアの2つの交通エリアにおいて,ソフトウェアツールであるsumoによるシミュレーションを行い,実験的な手法の有効性と頑健性を解析した。 実験の結果,MA2Cはほとんどのケースで最高の性能を示し,検討した代替手法よりも優れ,学習過程において十分な安定性を示すことがわかった。

In this work we theoretically and experimentally analyze Multi-Agent Advantage Actor-Critic (MA2C) and Independent Advantage Actor-Critic (IA2C), two recently proposed multi-agent reinforcement learning methods that can be applied to control traffic signals in urban areas. The two methods differ in their use of a reward calculated locally or globally and in the management of agents' communication. We analyze the methods theoretically with the framework provided by non-Markov decision processes, which provides useful insights in the analysis of the algorithms. Moreover, we analyze the efficacy and the robustness of the methods experimentally by testing them in two traffic areas in the Bologna (Italy) area, simulated by SUMO, a software tool. The experimental results indicate that MA2C achieves the best performance in the majority of cases, outperforms the alternative method considered, and displays sufficient stability during the learning process.
翻訳日:2021-07-06 15:11:43 公開日:2021-07-03
# 時系列予測と因果推論のための時空間畳み込みネットワーク

Spatiotemporal convolutional network for time-series prediction and causal inference ( http://arxiv.org/abs/2107.01353v1 )

ライセンス: Link先を確認
Hao Peng, Pei Chen, Rui Liu, Luonan Chen(参考訳) 非線形システムでは、堅牢な方法で予測することは容易ではない。 本研究では,空間時空間情報(sti)変換を用いて時系列の多段階予測を効率的に高精度に行うために,時空間畳み込みネットワーク(stcn)と呼ばれるニューラルネットワーク計算フレームワークを開発した。 STCNは、時間畳み込みネットワーク(TCN)とSTI方程式の両方の利点を結合し、高次元/空間データを対象変数の将来の時間値にマッピングすることで、対象変数の予測を自然に提供する。 観測された変数から、STCNはまた、目標変数の因果因子をグランガー因果性(Granger causality)の意味で推論し、それが有効空間情報として選択され、予測ロバスト性を改善する。 stcnはベンチマークシステムと実世界のデータセットの両方にうまく適用され、データがノイズによって混乱した場合でも、マルチステップ・アヘッド予測において優れた性能と堅牢性を示している。 理論と計算の両面から、STCNは観測データのみに基づくモデルフリーな手法として、人工知能(AI)や機械学習分野の実践的応用に大きな可能性を秘めており、また、機械学習のダイナミックな方法で観測された高次元データを探索する新たな方法を開く。

Making predictions in a robust way is not easy for nonlinear systems. In this work, a neural network computing framework, i.e., a spatiotemporal convolutional network (STCN), was developed to efficiently and accurately render a multistep-ahead prediction of a time series by employing a spatial-temporal information (STI) transformation. The STCN combines the advantages of both the temporal convolutional network (TCN) and the STI equation, which maps the high-dimensional/spa tial data to the future temporal values of a target variable, thus naturally providing the prediction of the target variable. From the observed variables, the STCN also infers the causal factors of the target variable in the sense of Granger causality, which are in turn selected as effective spatial information to improve the prediction robustness. The STCN was successfully applied to both benchmark systems and real-world datasets, all of which show superior and robust performance in multistep-ahead prediction, even when the data were perturbed by noise. From both theoretical and computational viewpoints, the STCN has great potential in practical applications in artificial intelligence (AI) or machine learning fields as a model-free method based only on the observed data, and also opens a new way to explore the observed high-dimensional data in a dynamical manner for machine learning.
翻訳日:2021-07-06 15:11:25 公開日:2021-07-03
# 専門家のプール:大規模ニューラルネットワークにおける専門知識のリアルタイムクエリ

Pool of Experts: Realtime Querying Specialized Knowledge in Massive Neural Networks ( http://arxiv.org/abs/2107.01354v1 )

ライセンス: Link先を確認
Hakbin Kim and Dong-Wan Choi(参考訳) ディープラーニング技術の大きな成功にもかかわらず、実用可能なモデルのトレーニングと提供は依然として非常に時間を要するプロセスです。 さらに、結果のモデルは通常、汎用的で重すぎるため、組み込みシステムのようなリソース制限されたデバイスに適合するために、本質的に別の高価なモデル圧縮フェーズを通過する。 モバイルユーザが特に要求する機械学習タスクが、巨大なジェネリックモデルによってサポートされるよりもずっとシンプルであるという事実に触発されて、本稿では、トレーニングプロセスなしで、軽量でタスク固有のモデルを簡単に構築する、pool of experts(poe)と呼ばれるフレームワークを提案する。 リアルタイムモデルクエリサービスにおいて、PoEは、まず、新しい条件付き知識蒸留法を利用して、十分に訓練された、十分に汎用的なネットワークから、エキスパートと呼ばれるプリミティブなコンポーネントのプールを抽出し、次に、必要な専門家を迅速に軽量なネットワークに組み込むために、列車不要の知識統合を実行する。 このトレインフリーな性質のおかげで、PoEは極めて正確でコンパクトなモデルをリアルタイムに構築できますが、同じレベルの精度を達成するには、他のトレーニングメソッドのクエリに数分かかります。

In spite of the great success of deep learning technologies, training and delivery of a practically serviceable model is still a highly time-consuming process. Furthermore, a resulting model is usually too generic and heavyweight, and hence essentially goes through another expensive model compression phase to fit in a resource-limited device like embedded systems. Inspired by the fact that a machine learning task specifically requested by mobile users is often much simpler than it is supported by a massive generic model, this paper proposes a framework, called Pool of Experts (PoE), that instantly builds a lightweight and task-specific model without any training process. For a realtime model querying service, PoE first extracts a pool of primitive components, called experts, from a well-trained and sufficiently generic network by exploiting a novel conditional knowledge distillation method, and then performs our train-free knowledge consolidation to quickly combine necessary experts into a lightweight network for a target task. Thanks to this train-free property, in our thorough empirical study, PoE can build a fairly accurate yet compact model in a realtime manner, whereas it takes a few minutes per query for the other training methods to achieve a similar level of the accuracy.
翻訳日:2021-07-06 15:11:01 公開日:2021-07-03
# プレスタック破壊検出のための畳み込みニューラルネットワーク

A convolutional neural network for prestack fracture detection ( http://arxiv.org/abs/2107.01466v1 )

ライセンス: Link先を確認
Zhenyu Yuan, Yuxin Jiang, Jingjing Li, Handong Huang(参考訳) フラクチャーは炭化水素貯水池で広く発達し、石油とガスの蓄積空間と輸送路を構成する。 フラクチャー検出は貯留層キャラクタリゼーションの基本的な課題である。 地震前の群集から, フラクチャーの優占方向と相対強度を特徴付けるために, 異方性解析と逆転が一般的であった。 しかし,既存の手法は,主に垂直方向の事実仮説に基づいており,断裂の程度を認識することは不可能である。 さらに, 実際の破壊密度を達成する方法の確立は困難あるいは現実的ではない。 本稿では,データ駆動型深層学習に基づく畳み込みニューラルネットワークの設計を行った。 地震応答と破壊パラメータの関連性を活かし, 断裂有効媒質モデルと異方性平面波解析により, まず適切な方位データセットを作成した。 次に,複数の入力と複数出力の畳み込みニューラルネットワークを構築し,破壊密度,変位,衝突方位を同時に検出した。 実用的調査の応用は,提案したCNNモデルの有効性を検証した。

Fractures are widely developed in hydrocarbon reservoirs and constitute the accumulation spaces and transport channels of oil and gas. Fracture detection is a fundamental task for reservoir characterization. From prestack seismic gathers, anisotropic analysis and inversion were commonly applied to characterize the dominant orientations and relative intensities of fractures. However, the existing methods were mostly based on the vertical aligned facture hypothesis, it is impossible for them to recognize fracture dip. Furthermore, it is difficult or impractical for existing methods to attain the real fracture densities. Based on data-driven deep learning, this paper designed a convolutional neural network to perform prestack fracture detection. Capitalizing on the connections between seismic responses and fracture parameters, a suitable azimuth dataset was firstly generated through fracture effective medium modeling and anisotropic plane wave analyzing. Then a multi-input and multi-output convolutional neural network was constructed to simultaneously detect fracture density, dip and strike azimuth. The application on a practical survey validated the effectiveness of the proposed CNN model.
翻訳日:2021-07-06 15:10:39 公開日:2021-07-03
# 非分散グラフ上のグラフニューラルネットワークの位置および構造ノード特徴について

On Positional and Structural Node Features for Graph Neural Networks on Non-attributed Graphs ( http://arxiv.org/abs/2107.01495v1 )

ライセンス: Link先を確認
Hejie Cui, Zijie Lu, Pan Li, and Carl Yang(参考訳) グラフニューラルネットワーク(GNN)は、ノード分類やグラフ分類など、様々なグラフ関連問題で広く用いられている。 しかしながら、gnnが自然ノード機能なしでどのように機能するか、特に人工ノードを構築する様々な方法に関して、よく理解されていない。 本稿では,2種類の人工ノードの特徴,すなわち位置ノードの特徴と構造ノードの特徴を指摘し,それぞれが特定のタスク,すなわち位置ノードの分類,構造ノードの分類,グラフの分類に適している理由について考察する。 10のベンチマークデータセットによる大規模な実験結果から、非分散グラフ上のGNNの異なる人工ノード機能の選択に関する実践的なガイドラインが導かれる。 コードはhttps://github.com/z jzijielu/gnn-exp/で入手できる。

Graph neural networks (GNNs) have been widely used in various graph-related problems such as node classification and graph classification, where the superior performance is mainly established when natural node features are available. However, it is not well understood how GNNs work without natural node features, especially regarding the various ways to construct artificial ones. In this paper, we point out the two types of artificial node features,i.e., positional and structural node features, and provide insights on why each of them is more appropriate for certain tasks,i.e., positional node classification, structural node classification, and graph classification. Extensive experimental results on 10 benchmark datasets validate our insights, thus leading to a practical guideline on the choices between different artificial node features for GNNs on non-attributed graphs. The code is available at https://github.com/z jzijielu/gnn-exp/.
翻訳日:2021-07-06 15:10:23 公開日:2021-07-03
# 不特定事前のベイズ的意思決定とメタラーニングへの応用

Bayesian decision-making under misspecified priors with applications to meta-learning ( http://arxiv.org/abs/2107.01509v1 )

ライセンス: Link先を確認
Max Simchowitz, Christopher Tosh, Akshay Krishnamurthy, Daniel Hsu, Thodoris Lykouris, Miroslav Dud\'ik, Robert E. Schapire(参考訳) トンプソンサンプリングや他のベイズ列意思決定アルゴリズムは、(文脈的な)バンディットにおける探索/展開のトレードオフに取り組むための最も一般的なアプローチである。 これらのアルゴリズムにおける事前選択は、ドメイン知識をエンコードする柔軟性を提供するが、不特定化時に性能が低下することもある。 本稿では,性能が不明瞭に低下することを示す。 我々は、トンプソンサンプリング (ts) が不特定の事前値を持つ期待報酬は、最大で$\tilde{\mathcal{o}}(h^2 \epsilon)$ が、十分に指定された事前値を持つ ts と、$\epsilon$ が事前値と$h$ の間の全変数距離である場合の学習地平線と異なることを証明する。 我々の境界は、いかなるパラメトリック形式も前もって必要としない。 有界な支持を持つ事前に対しては、我々の境界は作用空間の濃度や構造とは独立であり、最悪の場合では普遍定数に密接であることが示される。 感度分析に基づいて,最近調査されたベイズメタラーニング設定におけるアルゴリズムの一般的なpac保証と,先駆者の様々なファミリーの登録者を導出する。 この結果は,(1)知識勾配アルゴリズム(KG)のモンテカルロ実装を含むベイズ的意思決定アルゴリズムのより広範なファミリーに適用し,(2)ベイズ的意思決定設定であるベイズ的POMDPに適用し,文脈的帯域幅を特殊なケースとして含む2つの軸に沿って一般化する。 数値シミュレーションにより,1段階のルック・アヘッド(kg)の事前の誤特定と配置が,構造化および相関した前処理を伴うマルチアームとコンテキストのバンディットにおけるメタラーニングの収束にどのように影響を与えるかを示す。

Thompson sampling and other Bayesian sequential decision-making algorithms are among the most popular approaches to tackle explore/exploit trade-offs in (contextual) bandits. The choice of prior in these algorithms offers flexibility to encode domain knowledge but can also lead to poor performance when misspecified. In this paper, we demonstrate that performance degrades gracefully with misspecification. We prove that the expected reward accrued by Thompson sampling (TS) with a misspecified prior differs by at most $\tilde{\mathcal{O}}(H^2 \epsilon)$ from TS with a well specified prior, where $\epsilon$ is the total-variation distance between priors and $H$ is the learning horizon. Our bound does not require the prior to have any parametric form. For priors with bounded support, our bound is independent of the cardinality or structure of the action space, and we show that it is tight up to universal constants in the worst case. Building on our sensitivity analysis, we establish generic PAC guarantees for algorithms in the recently studied Bayesian meta-learning setting and derive corollaries for various families of priors. Our results generalize along two axes: (1) they apply to a broader family of Bayesian decision-making algorithms, including a Monte-Carlo implementation of the knowledge gradient algorithm (KG), and (2) they apply to Bayesian POMDPs, the most general Bayesian decision-making setting, encompassing contextual bandits as a special case. Through numerical simulations, we illustrate how prior misspecification and the deployment of one-step look-ahead (as in KG) can impact the convergence of meta-learning in multi-armed and contextual bandits with structured and correlated priors.
翻訳日:2021-07-06 15:08:57 公開日:2021-07-03
# SPI-GAN:ジェネレーティブ・アドバイサル・ネットワークによる単一画素イメージングを目指して

SPI-GAN: Towards Single-Pixel Imaging through Generative Adversarial Network ( http://arxiv.org/abs/2107.01330v1 )

ライセンス: Link先を確認
Nazmul Karim and Nazanin Rahnavard(参考訳) シングルピクセルイメージングは、その膨大な計算ゲインと、可視スペクトルを超えた低コストのイメージングに代わる可能性から、新しいイメージングスキームとして人気を博している。 従来の再建法では、空間光変調器からの照明パターンの数を制限すると、明確な回復が困難である。 アーキテクチャのセットアップと損失関数により、優れた一般化能力に欠けるディープラーニングベースのソリューションがいくつか提案されている。 本稿では,SPI-GANと呼ばれる単一画素画像のための生成逆ネットワークに基づく再構成フレームワークを提案する。 サンプリング比が5%に低下しても、17.92dbpsnrと0.487ssimで画像を再構成できる。 これにより,本手法を1画素ビデオに適合させるのがより高速な再構成を可能にする。 さらに、ジェネレータ用のresnetライクなアーキテクチャは、完全に見えないオブジェクトを再構築できる有用な表現学習につながります。 実験の結果,spi-ganは有意な性能向上を達成した。 3dBに近いPSNRゲインは、現在の最先端メソッドよりも優れている。

Single-pixel imaging is a novel imaging scheme that has gained popularity due to its huge computational gain and potential for a low-cost alternative to imaging beyond the visible spectrum. The traditional reconstruction methods struggle to produce a clear recovery when one limits the number of illumination patterns from a spatial light modulator. As a remedy, several deep-learning-based solutions have been proposed which lack good generalization ability due to the architectural setup and loss functions. In this paper, we propose a generative adversarial network-based reconstruction framework for single-pixel imaging, referred to as SPI-GAN. Our method can reconstruct images with 17.92 dB PSNR and 0.487 SSIM, even if the sampling ratio drops to 5%. This facilitates much faster reconstruction making our method suitable for single-pixel video. Furthermore, our ResNet-like architecture for the generator leads to useful representation learning that allows us to reconstruct completely unseen objects. The experimental results demonstrate that SPI-GAN achieves significant performance gain, e.g. near 3dB PSNR gain, over the current state-of-the-art method.
翻訳日:2021-07-06 15:07:08 公開日:2021-07-03
# 胸部CT像の直交融合U-Net++による肺血管分画

Pulmonary Vessel Segmentation based on Orthogonal Fused U-Net++ of Chest CT Images ( http://arxiv.org/abs/2107.01502v1 )

ライセンス: Link先を確認
Hejie Cui, Xinglong Liu, Ning Huang(参考訳) 肺血管セグメンテーションは肺疾患の臨床的診断に重要であるが、複雑な構造のため困難である。 本研究では,胸部CT画像から肺血管セグメンテーションの有効な枠組みと改善過程について述べる。 アプローチの鍵となるのは3つの直交軸から2.5D区分けネットワークを応用し, ネットワークの複雑さとメモリ使用量の低下を伴って, 頑健で完全自動化された肺血管区分けの結果を3Dネットワークと比較した。 スライス半径を導入して中心スライスに関する情報を畳み込み、多平面融合によりスライス内および間スライス特徴の提示を最適化する。 また、分別精製や刈り取りに用いられる後処理工程において、肺血管の樹状構造を抽出する。 評価実験では, LIDCデータセットからランダムに選択された300例の肺画像に対して, 3つの融合法を試験し, 最も有望な2Dおよび3D構造と比較した。 文献で利用可能な肺血管分節モデルから得た知見によれば,本手法は他のネットワーク構造よりも高い性能を示し,DICEスコア0.9272,精度0.9310を極端に上回っている。

Pulmonary vessel segmentation is important for clinical diagnosis of pulmonary diseases, while is also challenging due to the complicated structure. In this work, we present an effective framework and refinement process of pulmonary vessel segmentation from chest computed tomographic (CT) images. The key to our approach is a 2.5D segmentation network applied from three orthogonal axes, which presents a robust and fully automated pulmonary vessel segmentation result with lower network complexity and memory usage compared to 3D networks. The slice radius is introduced to convolve the adjacent information of the center slice and the multi-planar fusion optimizes the presentation of intra- and inter- slice features. Besides, the tree-like structure of the pulmonary vessel is extracted in the post-processing process, which is used for segmentation refining and pruning. In the evaluation experiments, three fusion methods are tested and the most promising one is compared with the state-of-the-art 2D and 3D structures on 300 cases of lung images randomly selected from LIDC dataset. Our method outperforms other network structures by a large margin and achieves by far the highest average DICE score of 0.9272 and precision of 0.9310, as per our knowledge from the pulmonary vessel segmentation models available in the literature.
翻訳日:2021-07-06 15:06:51 公開日:2021-07-03
# グラフニューラルネットワークのための最大エントロピー重み付き独立集合プール

Maximum Entropy Weighted Independent Set Pooling for Graph Neural Networks ( http://arxiv.org/abs/2107.01410v1 )

ライセンス: Link先を確認
Amirhossein Nouranizadeh, Mohammadjavad Matinkia, Mohammad Rahmati, Reza Safabakhsh(参考訳) 本稿では,グラフと入力グラフの相互情報を最大化することに基づく,グラフニューラルネットワークのための新たなプーリング層を提案する。 最大相互情報は計算が難しいため、我々はプール法に対する帰納バイアスとしてグラフのシャノン容量を用いる。 より正確には、プール層への入力グラフはノイズの多い通信チャネルの表現として見ることができることを示す。 そのようなチャネルでは、グラフの独立集合に属するシンボルを送信すると、信頼できるエラーのない情報伝達が得られる。 最大相互情報に達することは、重みがエントロピーコンテンツを伝達するグラフの最大重み独立集合を見つけることと等価であることを示す。 この通信理論的な観点から、グラフニューラルネットワークによって実装されたノイズの多い通信チャネルにおける情報伝達速度の最大化として、グラフプーリングの問題を考えるための明確な視点を提供する。 我々は,最大エントロピー重み付き独立集合プール(MEWISPool)と呼ばれる手法を,グラフ分類タスクと最大独立集合の組合せ最適化問題に基づいて評価した。 実験により,提案手法は,グラフ分類タスクにおける最先端かつ競争的な結果と,複数のベンチマークデータセットにおける最大独立セット問題を実現することを示す。

In this paper, we propose a novel pooling layer for graph neural networks based on maximizing the mutual information between the pooled graph and the input graph. Since the maximum mutual information is difficult to compute, we employ the Shannon capacity of a graph as an inductive bias to our pooling method. More precisely, we show that the input graph to the pooling layer can be viewed as a representation of a noisy communication channel. For such a channel, sending the symbols belonging to an independent set of the graph yields a reliable and error-free transmission of information. We show that reaching the maximum mutual information is equivalent to finding a maximum weight independent set of the graph where the weights convey entropy contents. Through this communication theoretic standpoint, we provide a distinct perspective for posing the problem of graph pooling as maximizing the information transmission rate across a noisy communication channel, implemented by a graph neural network. We evaluate our method, referred to as Maximum Entropy Weighted Independent Set Pooling (MEWISPool), on graph classification tasks and the combinatorial optimization problem of the maximum independent set. Empirical results demonstrate that our method achieves the state-of-the-art and competitive results on graph classification tasks and the maximum independent set problem in several benchmark datasets.
翻訳日:2021-07-06 15:05:56 公開日:2021-07-03
# 補助タスクを伴う数学語問題に対するニューラルシンボリックソルバ

Neural-Symbolic Solver for Math Word Problems with Auxiliary Tasks ( http://arxiv.org/abs/2107.01431v1 )

ライセンス: Link先を確認
Jinghui Qin, Xiaodan Liang, Yining Hong, Jianheng Tang, Liang Lin(参考訳) エンコーダ・デコーダのパラダイムに従っていた従来の数学用語の問題解決者は、必須の数学記号の制約を明示的に含みず、説明不能で不合理な予測に繋がる。 本稿では,補助的なタスクによって異なるレベルの記号的制約を明示的にシームレスに組み込むニューラル・シンボリック・ソルバーを提案する。 NS-Solverは,問題をエンコードする問題リーダと,シンボル式を生成するプログラマと,回答を得るためのシンボルエグゼキュータから構成される。 また, 対象表現の監督とともに, 自己教師数予測タスク(a) 数量と数位置の両方を予測するタスク(b) 事前知識(例えば, 先行知識)を予測する定性予測タスク(b) の4つの新たな補助的目的によって最適化された。 c) 予測式と対象方程式の間の意味的損失を計算して合理的な方程式マッピングを確保するプログラム一貫性チェッカー;d) 記号式生成と問題部分生成の間の擬似双対性を利用して解法の理解能力を高める双対性を利用する。 さらに,汎用的でスケーラブルな解法を開発するための,より現実的で挑戦的なベンチマークを提供するために,17k以上のサンプルを持つ4種類のmwp (arithmetic,one-unkn own linear,one-unknown non-linear, equation set)からなる,大規模mwpベンチマークcm17kを構築した。 Math23KとCM17kの大規模な実験は、最先端の手法と比較してNS-Solverの優位性を示している。

Previous math word problem solvers following the encoder-decoder paradigm fail to explicitly incorporate essential math symbolic constraints, leading to unexplainable and unreasonable predictions. Herein, we propose Neural-Symbolic Solver (NS-Solver) to explicitly and seamlessly incorporate different levels of symbolic constraints by auxiliary tasks. Our NS-Solver consists of a problem reader to encode problems, a programmer to generate symbolic equations, and a symbolic executor to obtain answers. Along with target expression supervision, our solver is also optimized via 4 new auxiliary objectives to enforce different symbolic reasoning: a) self-supervised number prediction task predicting both number quantity and number locations; b) commonsense constant prediction task predicting what prior knowledge (e.g. how many legs a chicken has) is required; c) program consistency checker computing the semantic loss between predicted equation and target equation to ensure reasonable equation mapping; d) duality exploiting task exploiting the quasi duality between symbolic equation generation and problem's part-of-speech generation to enhance the understanding ability of a solver. Besides, to provide a more realistic and challenging benchmark for developing a universal and scalable solver, we also construct a new large-scale MWP benchmark CM17K consisting of 4 kinds of MWPs (arithmetic, one-unknown linear, one-unknown non-linear, equation set) with more than 17K samples. Extensive experiments on Math23K and our CM17k demonstrate the superiority of our NS-Solver compared to state-of-the-art methods.
翻訳日:2021-07-06 15:04:53 公開日:2021-07-03
# 微細マニフォールド蒸留による高効率ビジョントランス

Efficient Vision Transformers via Fine-Grained Manifold Distillation ( http://arxiv.org/abs/2107.01378v1 )

ライセンス: Link先を確認
Ding Jia, Kai Han, Yunhe Wang, Yehui Tang, Jianyuan Guo, Chao Zhang, Dacheng Tao(参考訳) 本稿では,視覚トランスフォーマのモデル圧縮問題について述べる。 自己注意モジュールの恩恵を受け、トランスフォーマーアーキテクチャは多くのコンピュータビジョンタスクで素晴らしいパフォーマンスを示している。 ネットワーク性能は向上するが、トランスフォーマーはメモリ使用量や推論の複雑さなどの計算資源を必要とすることが多い。 既存の知識蒸留法と比較して,画像と分割パッチの関係から教師変換器から有用な情報を抽出することを提案する。 次に,教師および学生モデルにおいて,クロスイメージ,クロスパッチ,ランダム選択多様体を同時に計算する効率的な細粒度多様体蒸留法を検討する。 いくつかのベンチマークで行った実験の結果は、より高性能な可搬変圧器モデルを蒸留するアルゴリズムが優れていることを示している。 例えば、DiT-TinyモデルのトレーニングのためのImageNet-1kデータセット上で75.06%のTop-1精度を実現し、他のViT蒸留法よりも優れている。

This paper studies the model compression problem of vision transformers. Benefit from the self-attention module, transformer architectures have shown extraordinary performance on many computer vision tasks. Although the network performance is boosted, transformers are often required more computational resources including memory usage and the inference complexity. Compared with the existing knowledge distillation approaches, we propose to excavate useful information from the teacher transformer through the relationship between images and the divided patches. We then explore an efficient fine-grained manifold distillation approach that simultaneously calculates cross-images, cross-patch, and random-selected manifolds in teacher and student models. Experimental results conducted on several benchmarks demonstrate the superiority of the proposed algorithm for distilling portable transformer models with higher performance. For example, our approach achieves 75.06% Top-1 accuracy on the ImageNet-1k dataset for training a DeiT-Tiny model, which outperforms other ViT distillation methods.
翻訳日:2021-07-06 15:01:31 公開日:2021-07-03
# レーダ物体検出のためのシーン認識学習ネットワーク

Scene-aware Learning Network for Radar Object Detection ( http://arxiv.org/abs/2107.01469v1 )

ライセンス: Link先を確認
Zangwei Zheng, Xiangyu Yue, Kurt Keutzer, Alberto Sangiovanni Vincentelli(参考訳) 物体検出は安全な自律運転や補助運転に不可欠である。 従来の作業は通常、RGBイメージやLiDARポイントクラウドを使用して、自動運転において複数のオブジェクトを特定し、ローカライズする。 しかし、例えば、カメラは運転状態が悪くなる傾向がある。 悪天候や照明が弱いが、LiDARスキャナーは高価すぎて商用アプリケーションに広くデプロイできない。 Radarはその堅牢性と低コストのために、ますます注目を集めている。 本稿では,高精度でロバストな物体検出のためのシーン認識レーダ学習フレームワークを提案する。 まず、学習フレームワークは、レーダシーケンスのシーンカテゴリを条件付けしたブランチを含み、各ブランチは特定のタイプのシーンに最適化される。 第2に、レーダーオブジェクト検出のための3つの異なる3次元オートエンコーダベースのアーキテクチャを提案し、最終性能をさらに向上するために異なるアーキテクチャ上でアンサンブル学習を行う。 第3に、より堅牢な検出結果を生成するために、シーン対応のシーンミックス強化(SceneMix)とシーン固有の後処理を提案する。 ROD2021 Challengeでは、平均精度75.0%、平均リコール81.0%の最終的な結果を得た。 さらに,駐車場の現場では,まず,平均精度97.8%,平均リコール率98.6%で評価し,その有効性を示した。

Object detection is essential to safe autonomous or assisted driving. Previous works usually utilize RGB images or LiDAR point clouds to identify and localize multiple objects in self-driving. However, cameras tend to fail in bad driving conditions, e.g. bad weather or weak lighting, while LiDAR scanners are too expensive to get widely deployed in commercial applications. Radar has been drawing more and more attention due to its robustness and low cost. In this paper, we propose a scene-aware radar learning framework for accurate and robust object detection. First, the learning framework contains branches conditioning on the scene category of the radar sequence; with each branch optimized for a specific type of scene. Second, three different 3D autoencoder-based architectures are proposed for radar object detection and ensemble learning is performed over the different architectures to further boost the final performance. Third, we propose novel scene-aware sequence mix augmentation (SceneMix) and scene-specific post-processing to generate more robust detection results. In the ROD2021 Challenge, we achieved a final result of average precision of 75.0% and an average recall of 81.0%. Moreover, in the parking lot scene, our framework ranks first with an average precision of 97.8% and an average recall of 98.6%, which demonstrates the effectiveness of our framework.
翻訳日:2021-07-06 15:01:17 公開日:2021-07-03
# 事前地理情報を用いた時系列データのクラスタリング

Clustering of Time Series Data with Prior Geographical Information ( http://arxiv.org/abs/2107.01310v1 )

ライセンス: Link先を確認
Reza Asadi and Amelia Regan(参考訳) 時系列データは輸送システムの様々な領域で広く研究されている。 空間的・時間的相関が強い多変量時系列であるため,時空間データに挑戦する交通データ領域が存在する。 トラフィックフローデータの時空間クラスタリングは、空間領域と時間領域の両方で類似したパターンを見つけ、交通ネットワークを解析し、トラフィックフロー予測や異常検出などの関連する機械学習モデルを改善する。 本稿では,空間的および時間的文脈に基づいて時系列データをクラスタリングする時空間クラスタリングモデルを提案する。 本稿では,時空間クラスタ探索のための深層クラスタリング(dec)モデルの変種を提案する。 提案するs-dec (s-dec) は, 潜在特徴表現の構築に先行する地理情報を用いる。 また,時空間クラスタの評価指標も定義する。 DTW距離を用いて評価すると,得られたクラスタの時間的類似性が向上するだけでなく,クラスタの空間接続性や非接続性も向上する。 分析にはPeMSが取得したトラフィックフローデータを用いる。 その結果,提案した空間DECにより,より望ましい時空間クラスタが得られた。

Time Series data are broadly studied in various domains of transportation systems. Traffic data area challenging example of spatio-temporal data, as it is multi-variate time series with high correlations in spatial and temporal neighborhoods. Spatio-temporal clustering of traffic flow data find similar patterns in both spatial and temporal domain, where it provides better capability for analyzing a transportation network, and improving related machine learning models, such as traffic flow prediction and anomaly detection. In this paper, we propose a spatio-temporal clustering model, where it clusters time series data based on spatial and temporal contexts. We propose a variation of a Deep Embedded Clustering(DEC) model for finding spatio-temporal clusters. The proposed model Spatial-DEC (S-DEC) use prior geographical information in building latent feature representations. We also define evaluation metrics for spatio-temporal clusters. Not only do the obtained clusters have better temporal similarity when evaluated using DTW distance, but also the clusters better represents spatial connectivity and dis-connectivity. We use traffic flow data obtained by PeMS in our analysis. The results show that the proposed Spatial-DEC can find more desired spatio-temporal clusters.
翻訳日:2021-07-06 14:55:46 公開日:2021-07-03
# 監督オフポリシーランキング

Supervised Off-Policy Ranking ( http://arxiv.org/abs/2107.01360v1 )

ライセンス: Link先を確認
Yue Jin, Yue Zhang, Tao Qin, Xudong Zhang, Jian Yuan, Houqiang Li, Tie-Yan Liu(参考訳) オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。 従来の ope 手法は主にポリシーの真の性能を正確に推定することに焦点を当てている。 多くのアプリケーションにおいて,(1)OPEの最終目標は2つないし複数の候補ポリシーを比較してよいものを選択することであり,これは実際の性能を評価するよりもはるかに簡単な作業であり,(2)現実のシステムにデプロイされた複数のポリシーが存在するため,実際のユーザへのサービス提供を通じて真のパフォーマンスが知られている。 本研究は,2つの観察から着想を得て,教師付き非政治ランキング(SOPR)という新たな課題を定義した。これは,教師付き学習に基づく一連の新しい/ターゲットポリシーのランク付けを目的としたもので,教師付き非政治データと既知のパフォーマンスのポリシーを利用する。 さらに、正確な性能を推定するのではなく、トレーニングポリシーを既知の性能で正しくランク付けすることで、政策スコアリングモデルを学ぶ教師なしランキングの手法を提案する。 本手法は,ログ状態を含むオフラインインタラクションデータと,これらの状態のターゲットポリシーが取得したアクションをスコアにマップするトランスフォーマティブモデルを学ぶために,ログ状態とポリシを活用する。 異なるゲーム,データセット,トレーニングポリシセット,テストポリシセットの実験から,本手法は,最良と最良の2つの上位3つのポリシの双方のランク相関とパフォーマンスギャップにおいて,強力なベースラインPEメソッドよりも優れることが示された。 さらに,本手法はベースライン法よりも安定である。

Off-policy evaluation (OPE) leverages data generated by other policies to evaluate a target policy. Previous OPE methods mainly focus on precisely estimating the true performance of a policy. We observe that in many applications, (1) the end goal of OPE is to compare two or multiple candidate policies and choose a good one, which is actually a much simpler task than evaluating their true performance; and (2) there are usually multiple policies that have been deployed in real-world systems and thus whose true performance is known through serving real users. Inspired by the two observations, in this work, we define a new problem, supervised off-policy ranking (SOPR), which aims to rank a set of new/target policies based on supervised learning by leveraging off-policy data and policies with known performance. We further propose a method for supervised off-policy ranking that learns a policy scoring model by correctly ranking training policies with known performance rather than estimating their precise performance. Our method leverages logged states and policies to learn a Transformer based model that maps offline interaction data including logged states and the actions taken by a target policy on these states to a score. Experiments on different games, datasets, training policy sets, and test policy sets show that our method outperforms strong baseline OPE methods in terms of both rank correlation and performance gap between the truly best and the best of the ranked top three policies. Furthermore, our method is more stable than baseline methods.
翻訳日:2021-07-06 14:55:29 公開日:2021-07-03
# 局所モデル更新の時空間分析によるビザンチンロバストフェデレート学習

Byzantine-robust Federated Learning through Spatial-temporal Analysis of Local Model Updates ( http://arxiv.org/abs/2107.01477v1 )

ライセンス: Link先を確認
Zhuohang Li, Luyang Liu, Jiaxin Zhang, Jian Liu(参考訳) フェデレートラーニング(FL)は、複数の分散クライアント(モバイルデバイスなど)が、クライアントにローカルにトレーニングデータを保持しながら、協調的に集中モデルのトレーニングを可能にする。 従来の集中型マシンラーニングと比較して、flは、通常は中央サーバで実行されるオフロード操作や、深刻なプライバシリークのリスク低減など、多くの望ましい機能を提供する。 しかしながら、システム障害や敵の攻撃による不正または破壊的な更新を送信するビザンツのクライアントは、共同学習プロセスを妨害し、結果としてモデルの性能が低下する可能性がある。 本稿では,これらの障害と攻撃を時空間の観点から緩和することを提案する。 具体的には,パラメータ空間の幾何学的特性を活用し,不正な更新の検出と排除にクラスタリングに基づく手法を用いる。 さらに,悪質なクライアントを時間変動行動で処理するために,モーメントベースの更新推測に基づいて学習率を適応的に調整することを提案する。 4つの公開データセットに対する広範囲な実験により、我々のアルゴリズムは、クロスサイロとクロスデバイスFL設定の両方の既存手法と、欠陥/脆弱性のあるクライアントとを比較して、堅牢性を向上することを示した。

Federated Learning (FL) enables multiple distributed clients (e.g., mobile devices) to collaboratively train a centralized model while keeping the training data locally on the client. Compared to traditional centralized machine learning, FL offers many favorable features such as offloading operations which would usually be performed by a central server and reducing risks of serious privacy leakage. However, Byzantine clients that send incorrect or disruptive updates due to system failures or adversarial attacks may disturb the joint learning process, consequently degrading the performance of the resulting model. In this paper, we propose to mitigate these failures and attacks from a spatial-temporal perspective. Specifically, we use a clustering-based method to detect and exclude incorrect updates by leveraging their geometric properties in the parameter space. Moreover, to further handle malicious clients with time-varying behaviors, we propose to adaptively adjust the learning rate according to momentum-based update speculation. Extensive experiments on 4 public datasets demonstrate that our algorithm achieves enhanced robustness comparing to existing methods under both cross-silo and cross-device FL settings with faulty/malicious clients.
翻訳日:2021-07-06 14:55:03 公開日:2021-07-03
# QKSA:量子知識探索エージェント

QKSA: Quantum Knowledge Seeking Agent ( http://arxiv.org/abs/2107.01429v1 )

ライセンス: Link先を確認
Aritra Sarkar(参考訳) 本稿では,量子知識探索エージェント(QKSA)の実装に向けたモチベーションとコアテーマについて述べる。 QKSAは、古典的および量子力学のモデル化に使用できる一般的な強化学習エージェントである。 汎用人工知能、コンストラクタ理論、遺伝的プログラミングのアイデアを融合させ、様々な環境でエージェントの能力をテストするための堅牢で汎用的なフレームワークを構築する。 人工知能は、知的なエージェントの集団をインスタンス化して、知覚をモデル化する有効な方法を探求する、人工生命(またはアニメーター)の道を歩む。 エージェントの多重性と生存性は、環境の資源境界計算モデルの説明可能性と予測可能性に関して、適合性によって定義される。 この一般的な学習アプローチは、エージェントの主観的観察状態に基づいて環境の物理をモデル化するために用いられる。 一般的なモデリング原理としての量子プロセストモグラフィーの具体例を示す。 この記事では、現在活発に開発されているqksaの実装の土台となる様々な背景の考え方とベースラインの形式について論じる。

In this article we present the motivation and the core thesis towards the implementation of a Quantum Knowledge Seeking Agent (QKSA). QKSA is a general reinforcement learning agent that can be used to model classical and quantum dynamics. It merges ideas from universal artificial general intelligence, constructor theory and genetic programming to build a robust and general framework for testing the capabilities of the agent in a variety of environments. It takes the artificial life (or, animat) path to artificial general intelligence where a population of intelligent agents are instantiated to explore valid ways of modelling the perceptions. The multiplicity and survivability of the agents are defined by the fitness, with respect to the explainability and predictability, of a resource-bounded computational model of the environment. This general learning approach is then employed to model the physics of an environment based on subjective observer states of the agents. A specific case of quantum process tomography as a general modelling principle is presented. The various background ideas and a baseline formalism are discussed in this article which sets the groundwork for the implementations of the QKSA that are currently in active development.
翻訳日:2021-07-06 14:51:52 公開日:2021-07-03
# 自動交渉戦略認識のためのデータ駆動手法

A Data-Driven Method for Recognizing Automated Negotiation Strategies ( http://arxiv.org/abs/2107.01496v1 )

ライセンス: Link先を確認
Ming Li, Pradeep K.Murukannaiah, Catholijn M.Jonker(参考訳) 相手のエージェントを理解することは交渉に役立ちます。 既存の研究では、相手の好みのモデリング(または相手の効用関数の推定)に焦点を当てている。 重要ではあるがほとんど未熟な方向は、相手の戦略を認識することであり、敵の戦術(例えば、初めは厳しいが期限に近付くこと)を捉えている。 複雑で最先端の交渉戦略を認識することは極めて困難であり、単純なヒューリスティックスはこの目的に適さないかもしれない。 本稿では,相手の交渉戦略を認識するための新しいデータ駆動手法を提案する。 提案手法は,エージェントがドメイン間のさまざまな相手と交渉することで,ドメインに依存しないシーケンスを生成するためのデータ生成方法と,ネゴシエーションデータを時系列として時間ステップ特徴と全体特徴と表現する特徴工学的手法と,入札の時系列から相手の戦略を認識するハイブリッド(リカレントニューラルネットワークベース)ディープラーニング手法とを含む。 4つの問題シナリオにまたがる広範な実験を行い,アプローチの有効性を実証した。

Understanding an opponent agent helps in negotiating with it. Existing works on understanding opponents focus on preference modeling (or estimating the opponent's utility function). An important but largely unexplored direction is recognizing an opponent's negotiation strategy, which captures the opponent's tactics, e.g., to be tough at the beginning but to concede toward the deadline. Recognizing complex, state-of-the-art, negotiation strategies is extremely challenging, and simple heuristics may not be adequate for this purpose. We propose a novel data-driven approach for recognizing an opponent's s negotiation strategy. Our approach includes a data generation method for an agent to generate domain-independent sequences by negotiating with a variety of opponents across domains, a feature engineering method for representing negotiation data as time series with time-step features and overall features, and a hybrid (recurrent neural network-based) deep learning method for recognizing an opponent's strategy from the time series of bids. We perform extensive experiments, spanning four problem scenarios, to demonstrate the effectiveness of our approach.
翻訳日:2021-07-06 14:51:36 公開日:2021-07-03
# EAR-NET:網膜血管セグメンテーションのためのエラー注意改善ネットワーク

EAR-NET: Error Attention Refining Network For Retinal Vessel Segmentation ( http://arxiv.org/abs/2107.01351v1 )

ライセンス: Link先を確認
Jun Wang, Xiaohan Yu and Yongsheng Gao(参考訳) 網膜画像における血管の正確な検出は、糖尿病、高血圧、太陽網膜症などの網膜血管疾患の早期診断に不可欠である。 既存の作品では、突然の明るく暗い領域など異常な領域の予測に失敗し、クラスの不均衡が著しいため、画素を背景に予測する傾向があり、感度が低く、精度と特異性が向上する。 そこで本研究では, 効果的な網膜血管セグメンテーションのための2段階の誤予測を学習し, 予測できる新しい誤り注意改善ネットワーク (era-net) を提案する。 改良段階において提案された era-net は,初期訓練段階において生じるセグメンテーションエラーに焦点を絞って洗練させる。 これを実現するために,従来の非教師なしの注意アプローチとは異なり,基底真理と初期セグメンテーション仮面の違いを基底真理として考慮し,注意マップ学習を監督する新しい誤り注意機構を導入する。 実験の結果,2つの一般的な網膜血管データセットの最先端性能が得られた。

The precise detection of blood vessels in retinal images is crucial to the early diagnosis of the retinal vascular diseases, e.g., diabetic, hypertensive and solar retinopathies. Existing works often fail in predicting the abnormal areas, e.g, sudden brighter and darker areas and are inclined to predict a pixel to background due to the significant class imbalance, leading to high accuracy and specificity while low sensitivity. To that end, we propose a novel error attention refining network (ERA-Net) that is capable of learning and predicting the potential false predictions in a two-stage manner for effective retinal vessel segmentation. The proposed ERA-Net in the refine stage drives the model to focus on and refine the segmentation errors produced in the initial training stage. To achieve this, unlike most previous attention approaches that run in an unsupervised manner, we introduce a novel error attention mechanism which considers the differences between the ground truth and the initial segmentation masks as the ground truth to supervise the attention map learning. Experimental results demonstrate that our method achieves state-of-the-art performance on two common retinal blood vessel datasets.
翻訳日:2021-07-06 14:49:31 公開日:2021-07-03
# パッチワーク特性を用いた無限領域CSPの解法

Solving Infinite-Domain CSPs Using the Patchwork Property ( http://arxiv.org/abs/2107.01428v1 )

ライセンス: Link先を確認
Konrad K. Dabrowski and Peter Jonsson and Sebastian Ordyniak and George Osipov(参考訳) 制約満足度問題(CSP)は、コンピュータ科学とAIにおいて重要な応用である。 特に、無限ドメインCSPは時空間推論のようなAIのサブ領域で集中的に使用されている。 制約満足度は計算的に難しい問題であるため、効率的に解くことができる制限された問題を特定することに多くの研究が費やされてきた。 これを行う一つの方法は変数と制約の相互作用を制限することであり、非常に成功したアプローチは、基礎となる原始グラフのツリー幅を束縛することである。 Bodirsky & Dalmau [J. Comput] システム。 Sci 79(1), 2013]およびHuang et al。 [芸術] インテリ。 195, 2013] は csp$(\gamma)$ が $n^{f(w)$ time (ここで $n$ はインスタンスのサイズ、$w$ はプリマルグラフのツリー幅、$f$ は計算可能な関数) で制約言語のクラス $\gamma$ で解くことができることを証明した。 我々はこれを$f(w) \cdot n^{O(1)}$に制限し、基本関係がパッチワーク特性を持つCSPに対して、関数$f$は言語$\Gamma$にのみ依存する。 したがって、そのような問題は固定パラメータ抽出可能であり、我々のアルゴリズムは前よりも漸近的に高速である。 さらに、我々のアプローチは二項制約に制限されないので、Huangらよりも厳密な問題のクラスに適用できる。 しかしながら、Bodirsky & Dalmau のアルゴリズムではカバーできるが我々のアルゴリズムではカバーできない自然問題が存在し、我々はその結果をより大きな言語族に一般化する方法を探り始める。 また、実行時間に関してアルゴリズムを分析し、AllenのInterval Algebraのような特定の言語に対して(指数時間仮説の下で)最適であることを示す。

The constraint satisfaction problem (CSP) has important applications in computer science and AI. In particular, infinite-domain CSPs have been intensively used in subareas of AI such as spatio-temporal reasoning. Since constraint satisfaction is a computationally hard problem, much work has been devoted to identifying restricted problems that are efficiently solvable. One way of doing this is to restrict the interactions of variables and constraints, and a highly successful approach is to bound the treewidth of the underlying primal graph. Bodirsky & Dalmau [J. Comput. System. Sci. 79(1), 2013] and Huang et al. [Artif. Intell. 195, 2013] proved that CSP$(\Gamma)$ can be solved in $n^{f(w)}$ time (where $n$ is the size of the instance, $w$ is the treewidth of the primal graph and $f$ is a computable function) for certain classes of constraint languages $\Gamma$. We improve this bound to $f(w) \cdot n^{O(1)}$, where the function $f$ only depends on the language $\Gamma$, for CSPs whose basic relations have the patchwork property. Hence, such problems are fixed-parameter tractable and our algorithm is asymptotically faster than the previous ones. Additionally, our approach is not restricted to binary constraints, so it is applicable to a strictly larger class of problems than that of Huang et al. However, there exist natural problems that are covered by Bodirsky & Dalmau's algorithm but not by ours, and we begin investigating ways of generalising our results to larger families of languages. We also analyse our algorithm with respect to its running time and show that it is optimal (under the Exponential Time Hypothesis) for certain languages such as Allen's Interval Algebra.
翻訳日:2021-07-06 14:48:05 公開日:2021-07-03
# 会話状態認識システムの開発

Development of a Conversation State Recognition System ( http://arxiv.org/abs/2107.01462v1 )

ライセンス: Link先を確認
Sujay Uday Rittikar(参考訳) LSTMを用いた話者ダイアリゼーションの概念の進化により、手動でタグ付けするよりも、入力された音声ストリームデータの特定のセグメントの話者識別を理解するのが比較的容易になる。 このような概念により,会話における話者状態の認識を支援するために,識別された話者アイデンティティを使用する可能性を考えることが望ましい。 本研究では、マルコフ連鎖を用いて、同一話者間の次の会話の話者状態の識別と更新を行い、最も自然な会話と長い会話におけるそれらの状態の識別を可能にする。 このモデルは、2つのデータセットで3人以上の話者の自然な会話から得られた音声サンプルに基づいており、認識された状態に対する総エラーの割合は12%以下である。 その結果,話者ダイアリゼーションへの拡張が会話の状態を予測するのに有効であることが示唆された。

With the evolution of the concept of Speaker diarization using LSTM, it is relatively easier to understand the speaker identities for specific segments of input audio stream data than manually tagging the data. With such a concept, it is highly desirable to consider the possibility of using the identified speaker identities to aid in recognizing the Speaker States in a conversation. In this study, the Markov Chains are used to identify and update the Speaker States for the next conversations between the same set of speakers, to enable identification of their states in the most natural and long conversations. The model is based on several audio samples from natural conversations of three or greater than three speakers in two datasets with overall total error percentages for recognized states being lesser than or equal to 12%. The findings imply that the proposed extension to the Speaker diarization is effective to predict the states for a conversation.
翻訳日:2021-07-06 14:47:32 公開日:2021-07-03
# 一般化線形モデルの兄弟回帰

Sibling Regression for Generalized Linear Models ( http://arxiv.org/abs/2107.01338v1 )

ライセンス: Link先を確認
Shiv Shankar, Daniel Sheldon(参考訳) フィールド観測は多くの科学研究の基礎、特に生態学と社会科学の基礎を形成する。 このような調査を標準化した方法で実施する努力にもかかわらず、観測は系統的な測定誤差を負う可能性がある。 観測プロセスによって導入された系統的変動の除去は、可能であれば、このデータの価値を大きく高めることができる。 このような誤りを補正する既存の非パラメトリック手法は、線形加法的雑音モデルを仮定する。 これは一般化線形モデル(glm)に適用された場合のバイアス付き推定に繋がる。 この制限に対処するための残差関数に基づくアプローチを提案する。 次に、その効果を合成データに示し、モト調査における系統的検出のばらつきを低減させることを示す。

Field observations form the basis of many scientific studies, especially in ecological and social sciences. Despite efforts to conduct such surveys in a standardized way, observations can be prone to systematic measurement errors. The removal of systematic variability introduced by the observation process, if possible, can greatly increase the value of this data. Existing non-parametric techniques for correcting such errors assume linear additive noise models. This leads to biased estimates when applied to generalized linear models (GLM). We present an approach based on residual functions to address this limitation. We then demonstrate its effectiveness on synthetic data and show it reduces systematic detection variability in moth surveys.
翻訳日:2021-07-06 14:45:43 公開日:2021-07-03
# 深い畳み込み型長期記憶ネットワークとカーネル密度推定に基づく短時間確率的太陽光発電電力予測

Short-term probabilistic photovoltaic power forecast based on deep convolutional long short-term memory network and kernel density estimation ( http://arxiv.org/abs/2107.01343v1 )

ライセンス: Link先を確認
Mingliang Bai, Xinyu Zhao, Zhenhua Long, Jinfu Liu, Daren Yu(参考訳) 太陽エネルギーはクリーンで再生可能エネルギーである。 太陽光発電(PV)は太陽エネルギーを利用する重要な方法である。 PV電力の大規模適用と電力グリッドの安定性には,正確なPV電力予測が不可欠である。 本稿では,Deep Convolutional long short-term memory (ConvLSTM) ネットワークとカーネル密度推定 (KDE) を用いた短期太陽光発電電力予測手法を提案する。 提案手法では, 将来の太陽光発電パワーを予測するためにConvLSTMを用い, KDEを用いて関節確率密度関数を推定し, 確率信頼区間を与える。 実太陽光発電所における実験により,提案手法の有効性が検証された。 畳み込みニューラルネットワーク(CNN)と長短期記憶ネットワーク(LSTM)の比較実験により、ConvLSTMはCNNとLSTMの両方の利点を組み合わせ、予測精度においてCNNとLSTMを著しく上回っていることが示された。 さらに、多層パーセプトロン(MLP)、サポートベクター回帰(SVR)、エクストリームラーニングマシン(ELM)、分類・回帰木(CART)、勾配促進決定木(GBDT)を含む従来の5つの手法と比較して、ConvLSTMは5つの手法のほとんどに対して20%以上精度を向上し、ConvLSTMの優位性をさらに検証することができる。

Solar energy is a clean and renewable energy. Photovoltaic (PV) power is an important way to utilize solar energy. Accurate PV power forecast is crucial to the large-scale application of PV power and the stability of electricity grid. This paper proposes a novel method for short-term photovoltaic power forecast using deep convolutional long short-term memory (ConvLSTM) network and kernel density estimation (KDE). In the proposed method, ConvLSTM is used to forecast the future photovoltaic power and KDE is used for estimating the joint probabilistic density function and giving the probabilistic confidence interval. Experiments in an actual photovoltaic power station verify the effectiveness of the proposed method. Comparison experiments with convolutional neural network (CNN) and long short-term memory network (LSTM)shows that ConvLSTM can combine the advantages of both CNN and LSTM and significantly outperform CNN and LSTM in terms of forecast accuracy. Through further comparison with other five conventional methods including multilayer perceptron (MLP), support vector regression (SVR), extreme learning machine (ELM), classification and regression tree (CART) and gradient boosting decision tree (GBDT), ConvLSTM can significantly improve the forecast accuracy by more than 20% for most of the five methods and the superiorities of ConvLSTM are further verified.
翻訳日:2021-07-06 14:45:36 公開日:2021-07-03
# グラフによるプライバシ保護表現学習:相互情報の観点から

Privacy-Preserving Representation Learning on Graphs: A Mutual Information Perspective ( http://arxiv.org/abs/2107.01475v1 )

ライセンス: Link先を確認
Binghui Wang, Jiayi Guo, Ang Li, Yiran Chen, Hai Li(参考訳) グラフによる学習は、最近大きな注目を集めている。 既存のグラフ表現学習手法は,ノード分類やリンク予測など,さまざまなグラフ関連タスクにおいて,最先端のパフォーマンスを実現している。 しかし,これらの手法は重大な個人情報を漏洩させる可能性がある。 例えば、既存の方法で学習ノード表現に基づいて訓練されたノード分類器(リンク予測器)からグラフ内のリンク(またはノードID)を正確に推測することができる。 この問題に対処するため,我々は,グラフ上のプライバシー保護表現学習フレームワークを, \emph{mutual information} の観点から提案する。 具体的には,プライマリ・ラーニング・タスクとプライバシ保護タスクを含み,ノード分類とリンク予測を関心のある2つのタスクとして検討する。 私たちの目標は、ランダムな推測に近いプライバシ保護タスクのパフォーマンスを取得しながら、プライマリな学習タスクのハイパフォーマンスを達成するために使用できるノード表現を学習することにあります。 我々は、相互情報目的を通じて目標を定式化する。 しかし、実際には相互情報を計算することは困難である。 そして、ニューラルネットワークを介して各境界をパラメータ化できるような、相互情報項のトラクタブルな変動境界を導出する。 次に、これらのパラメータ化されたニューラルネットワークをトレーニングし、真の相互情報を近似し、プライバシー保護ノード表現を学ぶ。 最後に、さまざまなグラフデータセットでフレームワークを評価します。

Learning with graphs has attracted significant attention recently. Existing representation learning methods on graphs have achieved state-of-the-art performance on various graph-related tasks such as node classification, link prediction, etc. However, we observe that these methods could leak serious private information. For instance, one can accurately infer the links (or node identity) in a graph from a node classifier (or link predictor) trained on the learnt node representations by existing methods. To address the issue, we propose a privacy-preserving representation learning framework on graphs from the \emph{mutual information} perspective. Specifically, our framework includes a primary learning task and a privacy protection task, and we consider node classification and link prediction as the two tasks of interest. Our goal is to learn node representations such that they can be used to achieve high performance for the primary learning task, while obtaining performance for the privacy protection task close to random guessing. We formally formulate our goal via mutual information objectives. However, it is intractable to compute mutual information in practice. Then, we derive tractable variational bounds for the mutual information terms, where each bound can be parameterized via a neural network. Next, we train these parameterized neural networks to approximate the true mutual information and learn privacy-preserving node representations. We finally evaluate our framework on various graph datasets.
翻訳日:2021-07-06 14:45:09 公開日:2021-07-03
# 統計的問題の平均ケース通信複雑性

Average-Case Communication Complexity of Statistical Problems ( http://arxiv.org/abs/2107.01335v1 )

ライセンス: Link先を確認
Cyrus Rashtchian, David P. Woodruff, Peng Ye, Hanlin Zhu(参考訳) 本研究では, 平均ケース通信複雑性の文脈において, 植込み傾斜, 変種, スパース主成分分析などの統計問題について検討する。 私たちの動機は、ストリーミング、スケッチ、クエリベースモデルにおける統計計算上のトレードオフを理解することです。 コミュニケーションの複雑さはこれらのモデルにおける下位境界を証明する主要なツールであるが、多くの先行結果は平均ケース設定では成立しない。 植え付け構造を有するランダムグラフやマトリクスに関する問題に対して、入力分布を保存できる汎用的な還元方法を提供する。 次に,二者間および多者間コミュニケーションの下限を導出して,植栽されたクレーク,二部的なクレーク,および関連する問題を検出し,発見する。 その結果,edge-probe, vector-matrix-vector , matrix-vector, linear sketching, $\mathbb{f}_2$-sketchingモデルにおけるクエリ複雑性の新しい境界が得られる。 これらの結果の多くはほぼ厳密であり、エッジプローブモデルに対する既知の下界の簡単な証明を提供するために我々の手法を用いている。

We study statistical problems, such as planted clique, its variants, and sparse principal component analysis in the context of average-case communication complexity. Our motivation is to understand the statistical-computat ional trade-offs in streaming, sketching, and query-based models. Communication complexity is the main tool for proving lower bounds in these models, yet many prior results do not hold in an average-case setting. We provide a general reduction method that preserves the input distribution for problems involving a random graph or matrix with planted structure. Then, we derive two-party and multi-party communication lower bounds for detecting or finding planted cliques, bipartite cliques, and related problems. As a consequence, we obtain new bounds on the query complexity in the edge-probe, vector-matrix-vector , matrix-vector, linear sketching, and $\mathbb{F}_2$-sketching models. Many of these results are nearly tight, and we use our techniques to provide simple proofs of some known lower bounds for the edge-probe model.
翻訳日:2021-07-06 14:40:47 公開日:2021-07-03