このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210517となっている論文です。

PDF登録状況(公開日: 20210517)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 正規および分数分数ブラックシェール方程式の新規解法 [全文訳有]

Novel ANN method for solving ordinary and fractional Black-Scholes equation ( http://arxiv.org/abs/2105.11240v1 )

ライセンス: CC BY 4.0
Saeed Bajalan and Nastaran Bajalan(参考訳) 本研究の主な目的は,二層型ニューラルネットワーク(ANN)を導入して,分数次あるいは常順序のブラック・スコイルズ偏微分方程式(PDE)を解くことである。 まず、離散化法を用いてモデルを正規微分方程式(ODE)の列に変換する。 そして、それぞれのODEはANNの助けを借りて解決される。 adam氏の最適化は学習パラダイムとして採用されており、実際の最適なソリューションに近づくと最適化のプロセスが遅くなるという予知を加えることができる。 このモデルは、プロセスとドメインマッピングをスピードアップして無限のドメイン問題に直面するための微調整の利点も生かしている。 最後に,複数種類のブラックスコールモデルの精度,速度,収束性について報告する。

The main aim of this study is to introduce a 2-layered Artificial Neural Network (ANN) for solving the Black-Scholes partial differential equation (PDE) of either fractional or ordinary orders. Firstly, a discretization method is employed to change the model into a sequence of Ordinary Differential Equations (ODE). Then each of these ODEs is solved with the aid of an ANN. Adam optimization is employed as the learning paradigm since it can add the foreknowledge of slowing down the process of optimization when getting close to the actual optimum solution. The model also takes advantage of fine tuning for speeding up the process and domain mapping to confront infinite domain issue. Finally, the accuracy, speed, and convergence of the method for solving several types of Black-Scholes model are reported.
翻訳日:2021-06-06 10:42:33 公開日:2021-05-17
# RL-GRIT:文法推論のための強化学習

RL-GRIT: Reinforcement Learning for Grammar Inference ( http://arxiv.org/abs/2105.13114v1 )

ライセンス: Link先を確認
Walt Woods(参考訳) データフォーマットの使用法を理解するために作業する場合、データフォーマットの例は、しばしばフォーマットの仕様よりも代表的である。 例えば、2つの異なるアプリケーションが全く異なるjson表現を使用する場合や、2つのpdfライティングアプリケーションは、同じレンダリングコンテンツを実現するために、pdf仕様のまったく異なる領域を利用する場合があります。 これらの異なる起源から生じる複雑さは、大きな、理解し難い攻撃面をもたらす可能性があるため、外乱とデータ統合失調症の両方を考慮すると、セキュリティ上の懸念が生じる。 文法推論は、データフォーマットの例の背後にある実用的な言語ジェネレータを記述するのに役立つ。 しかし、ほとんどの文法推論研究は、データ形式ではなく自然言語に焦点を当てており、型再帰のような重要な機能をサポートしていない。 本稿では,文法推論のための新しいメカニズムであるRL-GRITを提案し,それをデファクトデータ形式理解に適用する。 既存の文法推論ソリューションをレビューした結果、Reinforcement Learning (RL) において、より柔軟な新しい足場が見つかることが判明した。 本研究では,RLを従来の逐次的環境から高度に相互依存的な解析環境に適応させるために必要なアルゴリズム的変化について概説する。 その結果、単純なデータフォーマットで再帰的制御構造を実証的に学習でき、pdfフォーマットの断片から有意義な構造を抽出することができる。 文法推論における先行研究は正規言語か選挙区解析に焦点をあてたものの,RLは両クラスの表現性を超越し,文脈に敏感な言語を学ぶための明確な道筋を示す。 提案アルゴリズムは,デファクトデータフォーマットのエコシステムを理解するためのビルディングブロックとして機能する。

When working to understand usage of a data format, examples of the data format are often more representative than the format's specification. For example, two different applications might use very different JSON representations, or two PDF-writing applications might make use of very different areas of the PDF specification to realize the same rendered content. The complexity arising from these distinct origins can lead to large, difficult-to-underst and attack surfaces, presenting a security concern when considering both exfiltration and data schizophrenia. Grammar inference can aid in describing the practical language generator behind examples of a data format. However, most grammar inference research focuses on natural language, not data formats, and fails to support crucial features such as type recursion. We propose a novel set of mechanisms for grammar inference, RL-GRIT, and apply them to understanding de facto data formats. After reviewing existing grammar inference solutions, it was determined that a new, more flexible scaffold could be found in Reinforcement Learning (RL). Within this work, we lay out the many algorithmic changes required to adapt RL from its traditional, sequential-time environment to the highly interdependent environment of parsing. The result is an algorithm which can demonstrably learn recursive control structures in simple data formats, and can extract meaningful structure from fragments of the PDF format. Whereas prior work in grammar inference focused on either regular languages or constituency parsing, we show that RL can be used to surpass the expressiveness of both classes, and offers a clear path to learning context-sensitive languages. The proposed algorithm can serve as a building block for understanding the ecosystems of de facto data formats.
翻訳日:2021-06-06 08:51:35 公開日:2021-05-17
# 薬物発見における知識グラフ埋め込みの性能理解

Understanding the Performance of Knowledge Graph Embeddings in Drug Discovery ( http://arxiv.org/abs/2105.10488v1 )

ライセンス: Link先を確認
Stephen Bonner and Ian P Barrett and Cheng Ye and Rowan Swiers and Ola Engkvist and William L Hamilton(参考訳) 知識グラフ(KG)と関連する知識グラフ埋め込み(KGE)モデルは、最近、薬物発見の文脈で研究され始めており、ターゲット識別などの重要な課題に対処する可能性がある。 薬物発見領域では、KGは、ラボベースの実験が行われ、あるいは他の決定に影響を与え、かなりの時間と金銭的コスト、そして最も重要なことは、最終的に患者医療に影響を与えるプロセスの一部として使用できる。 KGEモデルがこの領域に影響を及ぼすためには、パフォーマンスだけでなく、それを決定するさまざまな要因についてもより深く理解する必要がある。 本研究では,2つの薬品発見指向kgs上での5kgeモデルの予測性能について,数千の実験を通して検討した。 私たちの目標は、最高のモデルや設定に集中するのではなく、トレーニング設定の変更、ハイパーパラメータの選択、モデルパラメータの初期化シード、データセットのさまざまな分割によるパフォーマンスへの影響について、より深く検討することにあります。 結果から,これらの要因が性能に重大な影響を与え,モデルランキングにも影響を及ぼす可能性が示唆された。 実際、これらの要因をモデルアーキテクチャとともに報告して、将来の作業の再現性と公正な比較を確実にするべきである。 自分たちの作業の再現性を支援するため、実験コードをすべてリリースします。

Knowledge Graphs (KG) and associated Knowledge Graph Embedding (KGE) models have recently begun to be explored in the context of drug discovery and have the potential to assist in key challenges such as target identification. In the drug discovery domain, KGs can be employed as part of a process which can result in lab-based experiments being performed, or impact on other decisions, incurring significant time and financial costs and most importantly, ultimately influencing patient healthcare. For KGE models to have impact in this domain, a better understanding of not only of performance, but also the various factors which determine it, is required. In this study we investigate, over the course of many thousands of experiments, the predictive performance of five KGE models on two public drug discovery-oriented KGs. Our goal is not to focus on the best overall model or configuration, instead we take a deeper look at how performance can be affected by changes in the training setup, choice of hyperparameters, model parameter initialisation seed and different splits of the datasets. Our results highlight that these factors have significant impact on performance and can even affect the ranking of models. Indeed these factors should be reported along with model architectures to ensure complete reproducibility and fair comparisons of future work, and we argue this is critical for the acceptance of use, and impact of KGEs in a biomedical setting. To aid reproducibility of our own work, we release all experimentation code.
翻訳日:2021-05-25 03:08:17 公開日:2021-05-17
# 文脈付埋め込みの選択的平均化による名詞の一般特性のモデル化

Modelling General Properties of Nouns by Selectively Averaging Contextualised Embeddings ( http://arxiv.org/abs/2012.07580v2 )

ライセンス: Link先を確認
Na Li, Zied Bouraoui, Jose Camacho Collados, Luis Espinosa-Anke, Qing Gu, Steven Schockaert(参考訳) 事前訓練された言語モデルの成功は、多くのNLPアプリケーションにおいて高品質な静的単語ベクトルの必要性を大きく排除してきたが、そのようなベクトルは、言語文脈がない場合に単語をモデル化する必要があるタスクにおいて、引き続き重要な役割を果たす。 本稿では,bert によって予測される文脈的埋め込みが,そのような領域,特に名詞の意味的性質を捉えることに焦点を当てた知識ベース補完に関して,高品質な単語ベクトルの生成にどのように役立つかを検討する。 マスキングされた単語言及の文脈的埋め込みを平均化する単純な戦略は、bertが学習した静的な単語ベクトルや標準的な単語埋め込みモデルのベクトルを、プロパティ誘導タスクで上回るベクトルへと導く。 特に,この強い性能を達成するにはマスキング対象語が不可欠であることに気付き,結果として得られるベクトルは慣用的性質よりも一般的な意味的性質に重点を置いている。 この考え方に触発されて、最も慣用的な参照ベクトルを取り除くことを目的としたフィルタリング戦略を提案し、プロパティ誘導におけるさらなるパフォーマンス向上を実現する。

While the success of pre-trained language models has largely eliminated the need for high-quality static word vectors in many NLP applications, such vectors continue to play an important role in tasks where words need to be modelled in the absence of linguistic context. In this paper, we explore how the contextualised embeddings predicted by BERT can be used to produce high-quality word vectors for such domains, in particular related to knowledge base completion, where our focus is on capturing the semantic properties of nouns. We find that a simple strategy of averaging the contextualised embeddings of masked word mentions leads to vectors that outperform the static word vectors learned by BERT, as well as those from standard word embedding models, in property induction tasks. We notice in particular that masking target words is critical to achieve this strong performance, as the resulting vectors focus less on idiosyncratic properties and more on general semantic properties. Inspired by this view, we propose a filtering strategy which is aimed at removing the most idiosyncratic mention vectors, allowing us to obtain further performance gains in property induction.
翻訳日:2021-05-22 20:53:24 公開日:2021-05-17
# スマートフォン上での高速かつ正確な量子カメラシーン検出, モバイルAI 2021 チャレンジ

Fast and Accurate Quantized Camera Scene Detection on Smartphones, Mobile AI 2021 Challenge: Report ( http://arxiv.org/abs/2105.08819v1 )

ライセンス: Link先を確認
Andrey Ignatov, Grigory Malivenko, Radu Timofte, Sheng Chen, Xin Xia, Zhaoyan Liu, Yuwei Zhang, Feng Zhu, Jiashi Li, Xuefeng Xiao, Yuan Tian, Xinglong Wu, Christos Kyrkou, Yixin Chen, Zexin Zhang, Yunbo Peng, Yue Lin, Saikat Dutta, Sourya Dipta Das, Nisarg A. Shah, Himanshu Kumar, Chao Ge, Pei-Lin Wu, Jin-Hua Du, Andrew Batutin, Juan Pablo Federico, Konrad Lyda, Levon Khojoyan, Abhishek Thanki, Sayak Paul, Shahid Siddiqui(参考訳) カメラのシーン検出は、スマートフォンで最も人気のあるコンピュータビジョン問題である。 このタスクのために電話メーカーによって多くのカスタムソリューションが開発されたが、これまではどのデザインモデルも公開されていなかった。 そこで本研究では,スマートフォンやiotプラットフォーム上でのリアルタイムパフォーマンスを実証することのできる,定量化されたディープラーニングベースのカメラシーン分類ソリューションの開発を目標とする,最初のモバイルaiチャレンジを紹介する。 このために参加者は、30の重要シーンカテゴリに属する11K以上の画像からなる大規模なCamSDDデータセットが提供された。 すべてのモデルのランタイムは、人気のあるApple Bionic A11プラットフォームで評価され、多くのiOSデバイスで見ることができる。 提案されたソリューションは、すべての主要なモバイルAIアクセラレータと完全に互換性があり、最近のスマートフォンプラットフォームの大部分で100-200 FPS以上を実証し、トップ3の精度を98%以上達成することができる。 本論文では,本課題で開発されたモデルについて詳述する。

Camera scene detection is among the most popular computer vision problem on smartphones. While many custom solutions were developed for this task by phone vendors, none of the designed models were available publicly up until now. To address this problem, we introduce the first Mobile AI challenge, where the target is to develop quantized deep learning-based camera scene classification solutions that can demonstrate a real-time performance on smartphones and IoT platforms. For this, the participants were provided with a large-scale CamSDD dataset consisting of more than 11K images belonging to the 30 most important scene categories. The runtime of all models was evaluated on the popular Apple Bionic A11 platform that can be found in many iOS devices. The proposed solutions are fully compatible with all major mobile AI accelerators and can demonstrate more than 100-200 FPS on the majority of recent smartphone platforms while achieving a top-3 accuracy of more than 98%. A detailed description of all models developed in the challenge is provided in this paper.
翻訳日:2021-05-20 13:56:16 公開日:2021-05-17
# ディープラーニングとモバイルAI 2021チャレンジによるスマートフォンのリアルタイムビデオ超解像

Real-Time Video Super-Resolution on Smartphones with Deep Learning, Mobile AI 2021 Challenge: Report ( http://arxiv.org/abs/2105.08826v1 )

ライセンス: Link先を確認
Andrey Ignatov, Andres Romero, Heewon Kim, Radu Timofte, Chiu Man Ho, Zibo Meng, Kyoung Mu Lee, Yuxiang Chen, Yutong Wang, Zeyu Long, Chenhao Wang, Yifei Chen, Boshen Xu, Shuhang Gu, Lixin Duan, Wen Li, Wang Bofei, Zhang Diankai, Zheng Chengjian, Liu Shaoli, Gao Si, Zhang Xiaofeng, Lu Kaidi, Xu Tianyu, Zheng Hui, Xinbo Gao, Xiumei Wang, Jiaming Guo, Xueyi Zhou, Hao Jia, Youliang Yan(参考訳) ビデオのスーパーレゾリューションは、最近ビデオ通信やストリーミングサービスの台頭により、モバイル関連の最も重要な問題の一つになっている。 このタスクには多くのソリューションが提案されているが、そのほとんどが計算コストがかかりすぎて、限られたハードウェアリソースを持つポータブルデバイス上で動作できない。 この問題に対処するために,我々は,モバイルgpu上でリアルタイムパフォーマンスを実現するための,エンドツーエンドのディープラーニングベースのビデオスーパーレゾリューションソリューションを開発することを目的とした,最初のモバイルaiチャレンジを紹介する。 参加者はREDSデータセットを提供し、効率的な4Xビデオアップスケーリングを行うためにモデルをトレーニングした。 全てのモデルのランタイムはOPPO Find X2スマートフォン上で評価され、Snapdragon 865 SoCはAdreno GPU上で浮動小数点ネットワークを高速化する。 提案されたソリューションは、どのモバイルgpuとも完全に互換性があり、80fpsのhd解像度までアップスケールでき、高い忠実度を発揮できる。 本論文では,本課題で開発されたモデルについて詳述する。

Video super-resolution has recently become one of the most important mobile-related problems due to the rise of video communication and streaming services. While many solutions have been proposed for this task, the majority of them are too computationally expensive to run on portable devices with limited hardware resources. To address this problem, we introduce the first Mobile AI challenge, where the target is to develop an end-to-end deep learning-based video super-resolution solutions that can achieve a real-time performance on mobile GPUs. The participants were provided with the REDS dataset and trained their models to do an efficient 4X video upscaling. The runtime of all models was evaluated on the OPPO Find X2 smartphone with the Snapdragon 865 SoC capable of accelerating floating-point networks on its Adreno GPU. The proposed solutions are fully compatible with any mobile GPU and can upscale videos to HD resolution at up to 80 FPS while demonstrating high fidelity results. A detailed description of all models developed in the challenge is provided in this paper.
翻訳日:2021-05-20 13:56:02 公開日:2021-05-17
# (参考訳) 希薄帯域フィードバックを用いたマルチクラス分類 [全文訳有]

Multiclass Classification using dilute bandit feedback ( http://arxiv.org/abs/2105.08093v1 )

ライセンス: CC BY 4.0
Gaurav Batra, Naresh Manwani(参考訳) 本稿では,バンディットフィードバックの希薄化を伴う学習という,マルチクラス分類のための新しいオンライン学習フレームワークを提案する。 時間ステップ毎に、アルゴリズムは観測された例の単一のラベルではなく、候補ラベルセットを予測する。 そして、実際のラベルがこの候補ラベルセットにあるかどうかに関わらず、環境からフィードバックを受け取る。 このフィードバックは "diluted bandit feedback" と呼ばれる。 この環境での学習は、監視に不確実性があるため、盗賊のフィードバック設定よりもさらに難しい。 本稿では, 探索探索探索戦略を用いて, 試行錯誤フィードバック(MC-DBF)を用いたマルチクラス分類法を提案する。 提案手法が(各ステップにおいて)候補ラベル集合のサイズが m であれば, o(t^{1-\frac{1}{m+2}}) の誤りバウンドを達成することを示す。

This paper introduces a new online learning framework for multiclass classification called learning with diluted bandit feedback. At every time step, the algorithm predicts a candidate label set instead of a single label for the observed example. It then receives feedback from the environment whether the actual label lies in this candidate label set or not. This feedback is called "diluted bandit feedback". Learning in this setting is even more challenging than the bandit feedback setting, as there is more uncertainty in the supervision. We propose an algorithm for multiclass classification using dilute bandit feedback (MC-DBF), which uses the exploration-exploita tion strategy to predict the candidate set in each trial. We show that the proposed algorithm achieves O(T^{1-\frac{1}{m+2}}) mistake bound if candidate label set size (in each step) is m. We demonstrate the effectiveness of the proposed approach with extensive simulations.
翻訳日:2021-05-20 04:10:38 公開日:2021-05-17
# (参考訳) 視覚障害者のためのマルチモーダル画像キャプション [全文訳有]

Multi-Modal Image Captioning for the Visually Impaired ( http://arxiv.org/abs/2105.08106v1 )

ライセンス: CC BY 4.0
Hiba Ahsan, Nikita Bhalla, Daivat Bhatt, Kaivankumar Shah(参考訳) 視覚障害者が自分の周囲を理解する方法の1つは、画像をクリックし、画像キャプションシステムによって生成された記述に依存することである。 視覚障害者向けキャプション画像に関する現在の作業では、キャプション生成時に画像に存在するテキストデータを使用しない。 多くの視覚シーンがテキストを含んでいるため、この問題は批判的です。 さらに、視覚障害者がクリックした画像に関する質問の最大21%は、その中のテキストに関するものである。 本研究では,現在最先端の画像キャプションモデルであるAoANetを変更し,画像から検出されたテキストを入力機能として活用することを提案する。 さらに,トークンを正確に再現する必要がある場合に,検出したテキストをキャプションにコピーするためにポインタジェネレータ機構を用いる。 我々のモデルはベンチマークデータセットのVizWizでAoANetより優れており、それぞれCIDErとSPICEのスコアで35%と16.2%のパフォーマンス改善を実現している。

One of the ways blind people understand their surroundings is by clicking images and relying on descriptions generated by image captioning systems. Current work on captioning images for the visually impaired do not use the textual data present in the image when generating captions. This problem is critical as many visual scenes contain text. Moreover, up to 21% of the questions asked by blind people about the images they click pertain to the text present in them. In this work, we propose altering AoANet, a state-of-the-art image captioning model, to leverage the text detected in the image as an input feature. In addition, we use a pointer-generator mechanism to copy the detected text to the caption when tokens need to be reproduced accurately. Our model outperforms AoANet on the benchmark dataset VizWiz, giving a 35% and 16.2% performance improvement on CIDEr and SPICE scores, respectively.
翻訳日:2021-05-20 03:50:24 公開日:2021-05-17
# (参考訳) livewiredニューラルネットワーク: 一緒に光るニューロンを作る

Livewired Neural Networks: Making Neurons That Fire Together Wire Together ( http://arxiv.org/abs/2105.08111v1 )

ライセンス: CC BY 4.0
Thomas Schumacher(参考訳) 最近まで、ニューラルネットワークは通常、固定されたネットワーク構造で設計されていた。 ここで、ネットワーク構造は機能に非常に関連しており、それゆえニューラルネットワークはlivewired(eagleman 2020): 個々のニューロンにおける偶然の活性化によって識別される外部環境の高次表現間の関係を反映して動的に再配線されるべきである。 このアプローチによって、このようなネットワークが、シンボル上で動作し、少数ショットの学習を実現する構成的世界モデルを構築することができるかについて議論します。 ここでは, 環境がモデルに与える情報をいかに最大化するか, 2) グリア細胞によって誘導される生体配線が脳に実装されていることを示す証拠を探索し, 3) 生体配線が脳の連想行動を引き起こす可能性について考察し, 4) 生体配線ネットワークを用いた将来の研究の道筋について提案する。

Until recently, artificial neural networks were typically designed with a fixed network structure. Here, I argue that network structure is highly relevant to function, and therefore neural networks should be livewired (Eagleman 2020): dynamically rewired to reflect relationships between higher order representations of the external environment identified by coincident activations in individual neurons. I discuss how this approach may enable such networks to build compositional world models that operate on symbols and that achieve few-shot learning, capabilities thought by many to be critical to human-level cognition. Here, I also 1) discuss how such livewired neural networks maximize the information the environment provides to a model, 2) explore evidence indicating that livewiring is implemented in the brain, guided by glial cells, 3) discuss how livewiring may give rise to the associative emergent behaviors of brains, and 4) suggest paths for future research using livewired networks to understand and create human-like reasoning.
翻訳日:2021-05-20 03:40:10 公開日:2021-05-17
# (参考訳) ity bitsy spidernet: 不正検出のための完全接続残差ネットワーク [全文訳有]

Itsy Bitsy SpiderNet: Fully Connected Residual Network for Fraud Detection ( http://arxiv.org/abs/2105.08120v1 )

ライセンス: CC BY 4.0
Sergey Afanasiev, Anastasiya Smirnova and Diana Kotereva(参考訳) ハイテクの発展に伴い、不正行為の範囲が拡大し、全世界で毎年数十億ドルの損失が発生している。 予防的保護策は時間とともに時代遅れになり、脆弱になるため、効果的な探偵ツールが必要となる。 本稿では,詐欺検出問題を解決するために設計された畳み込みニューラルネットワークアーキテクチャスパイダーネットを提案する。 ニューラルネットワークにおけるプール層と畳み込み層の原理は、調査を行う際の反詐欺アナリストの働きと非常によく似ていることに気づきました。 さらに、ニューラルネットワークで使用されるスキップ接続は、アンチフルートモデルにおける様々なパワーの特徴の使用を可能にする。 実験の結果,SpiderNetはランダムフォレストよりも高品質で,1D-CNN,1D-DenseNet, F-DenseNetニューラルネットワークといったアンチファンドモデリング問題に適用できることがわかった。 また,ベンフォードの不正検出法の概念を一般化した,BテストとWテストと呼ばれる不正機能工学の新しい手法を提案する。 その結果,b-tests と w-tests は反フルートモデルの品質を著しく向上させた。 SpiderNetコードはhttps://github.com/a asmirnova24/SpiderNe tで入手できる。

With the development of high technology, the scope of fraud is increasing, resulting in annual losses of billions of dollars worldwide. The preventive protection measures become obsolete and vulnerable over time, so effective detective tools are needed. In this paper, we propose a convolutional neural network architecture SpiderNet designed to solve fraud detection problems. We noticed that the principles of pooling and convolutional layers in neural networks are very similar to the way antifraud analysts work when conducting investigations. Moreover, the skip-connections used in neural networks make the usage of features of various power in antifraud models possible. Our experiments have shown that SpiderNet provides better quality compared to Random Forest and adapted for antifraud modeling problems 1D-CNN, 1D-DenseNet, F-DenseNet neural networks. We also propose new approaches for fraud feature engineering called B-tests and W-tests, which generalize the concepts of Benford's Law for fraud anomalies detection. Our results showed that B-tests and W-tests give a significant increase to the quality of our antifraud models. The SpiderNet code is available at https://github.com/a asmirnova24/SpiderNe t
翻訳日:2021-05-20 03:38:56 公開日:2021-05-17
# (参考訳) MUSER:感情認識を補助課題として用いたムチモダル応力検出 [全文訳有]

MUSER: MUltimodal Stress Detection using Emotion Recognition as an Auxiliary Task ( http://arxiv.org/abs/2105.08146v1 )

ライセンス: CC BY 4.0
Yiqun Yao, Michalis Papakostas, Mihai Burzo, Mohamed Abouelenien, Rada Mihalcea(参考訳) 人間のストレスを自動的に検出する能力は、感情的なコンピューティングと人間とコンピューターの相互作用に関わる人工知能エージェントに恩恵をもたらす。 ストレスと感情は人間の感情状態であり、ストレスは感情の制御と発現に重要な影響を与えることが証明されている。 マルチモーダルストレス検出のための一連の手法が確立されているが、ストレスと感情の相互依存性を調査するための限られた手順が採られている。 本研究では,ストレス検出を補助するタスクとして,感情認識の価値を検討する。 MUSER - トランスフォーマーに基づくモデルアーキテクチャと,高速な動的サンプリング戦略を備えた新しいマルチタスク学習アルゴリズムを提案する。 また,Multimodal Stressed Emotion (MuSE) データセットの評価結果から,本モデルが内部および外部の補助作業のストレス検出に有効であることを示す。

The capability to automatically detect human stress can benefit artificial intelligent agents involved in affective computing and human-computer interaction. Stress and emotion are both human affective states, and stress has proven to have important implications on the regulation and expression of emotion. Although a series of methods have been established for multimodal stress detection, limited steps have been taken to explore the underlying inter-dependence between stress and emotion. In this work, we investigate the value of emotion recognition as an auxiliary task to improve stress detection. We propose MUSER -- a transformer-based model architecture and a novel multi-task learning algorithm with speed-based dynamic sampling strategy. Evaluations on the Multimodal Stressed Emotion (MuSE) dataset show that our model is effective for stress detection with both internal and external auxiliary tasks, and achieves state-of-the-art results.
翻訳日:2021-05-20 03:18:03 公開日:2021-05-17
# (参考訳) Few-Shot画像分類のためのDeep Metric Learning: A selective Review [全文訳有]

Deep Metric Learning for Few-Shot Image Classification: A Selective Review ( http://arxiv.org/abs/2105.08149v1 )

ライセンス: CC BY 4.0
Xiaoxu Li, Xiaochen Yang, Zhanyu Ma, Jing-Hao Xue(参考訳) 少ないショット画像分類は、少数の画像のみに基づいて人間の認識レベルを達成することを目的とした課題である。 近年,メタラーニングやトランスファーラーニング,メトリックラーニングといったディープラーニングアルゴリズムが採用され,最先端のパフォーマンスを実現している。 本調査では,数発分類のための代表的な深度学習手法を概説し,それらに着目した問題点と新規性に基づいて3つのグループに分類する。 本稿では,画像分類における現状の課題と今後の課題について論じる。

Few-shot image classification is a challenging problem which aims to achieve the human level of recognition based only on a small number of images. Deep learning algorithms such as meta-learning, transfer learning, and metric learning have been employed recently and achieved the state-of-the-art performance. In this survey, we review representative deep metric learning methods for few-shot classification, and categorize them into three groups according to the major problems and novelties they focus on. We conclude this review with a discussion on current challenges and future trends in few-shot image classification.
翻訳日:2021-05-20 03:03:57 公開日:2021-05-17
# (参考訳) ロジスティック回帰によるEdNetデータセットのモデリング [全文訳有]

Modeling the EdNet Dataset with Logistic Regression ( http://arxiv.org/abs/2105.08150v1 )

ライセンス: CC BY 4.0
Philip I. Pavlik Jr, Luke G. Eglington(参考訳) これらの課題の多くは、フルタイムの人工知能科学者によって生成されたニューラルネットワークモデルによって勝ち取られる。 この起源のため、彼らはブラックボックスの性格を持ち、その使用と学習科学者への適用を減らしている。 我々は,心理学と統計学のルーツと結びついた教育データマイニングの分野である,教育データマイニングの観点からの競争経験について述べる。 我々は、科学者の学習と方法への挑戦、現実的、あるいは想像的な視点から、我々の努力を説明する。 また,kaggleシステムにおける基礎的な結果と,その改善の可能性について考察した。 最後に,学習者モデル予測を用いて学生の教育的意思決定を行う方法について述べる。 彼らの実践的利用には、a)モデル予測と(b)決定規則(予測に基づく)が含まれる。 特に単純な決定規則と組み合わせた場合には,モデル精度の向上が実用性に限界があることを指摘し,その代わりに最適な決定規則をさらに検討する必要があると論じる。

Many of these challenges are won by neural network models created by full-time artificial intelligence scientists. Due to this origin, they have a black-box character that makes their use and application less clear to learning scientists. We describe our experience with competition from the perspective of educational data mining, a field founded in the learning sciences and connected with roots in psychology and statistics. We describe our efforts from the perspectives of learning scientists and the challenges to our methods, some real and some imagined. We also discuss some basic results in the Kaggle system and our thoughts on how those results may have been improved. Finally, we describe how learner model predictions are used to make pedagogical decisions for students. Their practical use entails a) model predictions and b) a decision rule (based on the predictions). We point out how increased model accuracy can be of limited practical utility, especially when paired with simple decision rules and argue instead for the need to further investigate optimal decision rules.
翻訳日:2021-05-20 02:42:56 公開日:2021-05-17
# (参考訳) ネットワーク, ゲーム, 学習の関連性

The Confluence of Networks, Games and Learning ( http://arxiv.org/abs/2105.08158v1 )

ライセンス: CC BY 4.0
Tao Li, Guanze Peng, Quanyan Zhu and Tamer Basar(参考訳) 近年、スマートグリッド管理、無線通信、サイバーセキュリティ、マルチエージェント自律システムなど、現代的なネットワークアプリケーションにおける技術やサービスの大幅な進歩が見られる。 ネットワークエンティティの異質性を考慮すると、新たなネットワークアプリケーションは、動的あるいは敵対的な環境での不確実性と混乱に応答する分散ネットワークインテリジェンスを作成するために、ゲーム理論モデルと学習ベースのアプローチを要求する。 本稿では,ネットワーク上でのマルチエージェント意思決定を理解するための理論的基盤を確立するネットワーク,ゲーム,学習の融合について述べる。 本稿では,確率近似理論の枠組みにおけるゲーム理論学習アルゴリズムの選択的概要と,次世代無線通信ネットワーク,スマートグリッド,分散機械学習など,現代のネットワークシステムの代表的文脈における応用について述べる。 ネットワーク上でのゲーム理論学習に関する既存の研究に加えて、人工知能の最近の発展に関連するゲームにおける学習に関する新しい角度と研究の取り組みも強調する。 新しい角度のいくつかは、我々の研究の関心から外されている。 本論文の全体的な目的は,ネットワークシステムにおけるゲーム理論学習手法の導入の強みと課題を明確に把握し,さらに,理論的および応用研究における実りある将来研究の方向性を明らかにすることである。

Recent years have witnessed significant advances in technologies and services in modern network applications, including smart grid management, wireless communication, cybersecurity as well as multi-agent autonomous systems. Considering the heterogeneous nature of networked entities, emerging network applications call for game-theoretic models and learning-based approaches in order to create distributed network intelligence that responds to uncertainties and disruptions in a dynamic or an adversarial environment. This paper articulates the confluence of networks, games and learning, which establishes a theoretical underpinning for understanding multi-agent decision-making over networks. We provide an selective overview of game-theoretic learning algorithms within the framework of stochastic approximation theory, and associated applications in some representative contexts of modern network systems, such as the next generation wireless communication networks, the smart grid and distributed machine learning. In addition to existing research works on game-theoretic learning over networks, we highlight several new angles and research endeavors on learning in games that are related to recent developments in artificial intelligence. Some of the new angles extrapolate from our own research interests. The overall objective of the paper is to provide the reader a clear picture of the strengths and challenges of adopting game-theoretic learning methods within the context of network systems, and further to identify fruitful future research directions on both theoretical and applied studies.
翻訳日:2021-05-20 02:35:17 公開日:2021-05-17
# (参考訳) 多層歪みを用いた解釈可能な時系列表現学習 [全文訳有]

Interpretable Time-series Representation Learning With Multi-Level Disentanglement ( http://arxiv.org/abs/2105.08179v1 )

ライセンス: CC BY 4.0
Yuening Li, Zhengzhang Chen, Daochen Zha, Mengnan Du, Denghui Zhang, Haifeng Chen, Xia Hu(参考訳) 時系列表現学習は時系列分析の基本的なタスクである。 下流のアプリケーションの正確な表現を達成するためにかなりの進歩がなされているが、学習された表現はしばしば解釈可能性に欠け、意味的な意味を明らかにしていない。 エンタングル特徴空間に対するこれまでの取り組みとは違って,データの潜在解釈可能因子化表現における意味-リッチな時間相関を抽出することを目的としている。 Motivated by the success of disentangled representation learning in computer vision, we study the possibility of learning semantic-rich time-series representations, which remains unexplored due to three main challenges: 1) sequential data structure introduces complex temporal correlations and makes the latent representations hard to interpret, 2) sequential models suffer from KL vanishing problem, and 3) interpretable semantic concepts for time-series often rely on multiple factors instead of individuals. このギャップを埋めるために,シーケンシャルデータのための新しい異方性強化フレームワークであるdisentangle time series (dts)を提案する。 具体的には、時系列の解釈可能かつ不整合表現として階層的セマンティック概念を生成するために、DTSは個々の潜在因子とグループセマンティックセグメントの両方をカバーし、多段階のアンタングル化戦略を導入する。 さらに、DTSは相互情報最大化項を導入し、全相関と寸法ワイドKLに重大なペナルティを保ち、不整合性を維持する。 様々な実世界のベンチマークデータセットにおける実験の結果は、dtsが学習した表現が下流アプリケーションにおいて優れたパフォーマンスを達成し、セマンティック概念の解釈性が高いことを示している。

Time-series representation learning is a fundamental task for time-series analysis. While significant progress has been made to achieve accurate representations for downstream applications, the learned representations often lack interpretability and do not expose semantic meanings. Different from previous efforts on the entangled feature space, we aim to extract the semantic-rich temporal correlations in the latent interpretable factorized representation of the data. Motivated by the success of disentangled representation learning in computer vision, we study the possibility of learning semantic-rich time-series representations, which remains unexplored due to three main challenges: 1) sequential data structure introduces complex temporal correlations and makes the latent representations hard to interpret, 2) sequential models suffer from KL vanishing problem, and 3) interpretable semantic concepts for time-series often rely on multiple factors instead of individuals. To bridge the gap, we propose Disentangle Time Series (DTS), a novel disentanglement enhancement framework for sequential data. Specifically, to generate hierarchical semantic concepts as the interpretable and disentangled representation of time-series, DTS introduces multi-level disentanglement strategies by covering both individual latent factors and group semantic segments. We further theoretically show how to alleviate the KL vanishing problem: DTS introduces a mutual information maximization term, while preserving a heavier penalty on the total correlation and the dimension-wise KL to keep the disentanglement property. Experimental results on various real-world benchmark datasets demonstrate that the representations learned by DTS achieve superior performance in downstream applications, with high interpretability of semantic concepts.
翻訳日:2021-05-20 02:34:09 公開日:2021-05-17
# (参考訳) 多段階生産システムの品質予測のための深層多段階学習

Deep Multistage Multi-Task Learning for Quality Prediction of Multistage Manufacturing Systems ( http://arxiv.org/abs/2105.08180v1 )

ライセンス: CC BY 4.0
Hao Yan, Nurretin Dorukhan Sergin, William A. Brenneman, Stephen Joseph Lange, Shan Ba(参考訳) 多段階製造システムでは,プロセスセンシング変数に基づく複数の品質指標のモデル化が重要である。 しかし、古典的なモデリング手法は、各品質変数を1回ずつ予測するが、ステージ内またはステージ間の相関を考慮できない。 我々は,MMSにおける逐次システムアーキテクチャに従って,統合されたエンドツーエンド学習フレームワークにおいて,全ての出力検出変数を協調的に予測する,深層マルチタスク学習フレームワークを提案する。 本稿の数値研究と実事例研究では,新しいモデルが多くのベンチマーク手法よりも優れた性能を示すとともに,改良した可変選択手法による解釈性も高いことを示した。

In multistage manufacturing systems, modeling multiple quality indices based on the process sensing variables is important. However, the classic modeling technique predicts each quality variable one at a time, which fails to consider the correlation within or between stages. We propose a deep multistage multi-task learning framework to jointly predict all output sensing variables in a unified end-to-end learning framework according to the sequential system architecture in the MMS. Our numerical studies and real case study have shown that the new model has a superior performance compared to many benchmark methods as well as great interpretability through developed variable selection techniques.
翻訳日:2021-05-20 02:12:36 公開日:2021-05-17
# (参考訳) 絵画の視覚表現の知識向上のためのグラフニューラルネットワーク [全文訳有]

Graph Neural Networks for Knowledge Enhanced Visual Representation of Paintings ( http://arxiv.org/abs/2105.08190v1 )

ライセンス: CC BY 4.0
Athanasios Efthymiou, Stevan Rudinac, Monika Kackovic, Marcel Worring, Nachoem Wijnberg(参考訳) 本稿では,グラフニューラルネットワーク(gnns)と畳み込みニューラルネットワーク(cnns)を統合し,視覚と意味に基づく芸術表現を共同で学習する,新しいマルチモーダルアーキテクチャであるartsagenetを提案する。 まず, 美術品分析におけるマルチタスク学習の重要な利点を説明し, 概念的には, 単一タスクの代替品よりも, 美術品領域においてより適切な設定であると主張する。 さらに、いくつかのGNNアーキテクチャは、スタイル分類、アーティスト属性、作成期間推定、タグ予測など、さまざまな美術分析タスクにおいて強力なCNNベースラインを上回り、訓練には計算時間を大幅に削減し、少量のラベル付きデータしか必要としないことを示した。 最後に,提案したArtSAGENetはアーティストとアートワーク間の重要な関係関係関係をキャプチャし,エンコードし,ビジュアルコンテンツの分析にのみ依存する従来の手法の性能を上回ることを示す。 本研究は美術品の分析とキュレーションにビジュアルコンテンツとセマンティクスを統合する大きな可能性を秘めている。

We propose ArtSAGENet, a novel multimodal architecture that integrates Graph Neural Networks (GNNs) and Convolutional Neural Networks (CNNs), to jointly learn visual and semantic-based artistic representations. First, we illustrate the significant advantages of multi-task learning for fine art analysis and argue that it is conceptually a much more appropriate setting in the fine art domain than the single-task alternatives. We further demonstrate that several GNN architectures can outperform strong CNN baselines in a range of fine art analysis tasks, such as style classification, artist attribution, creation period estimation, and tag prediction, while training them requires an order of magnitude less computational time and only a small amount of labeled data. Finally, through extensive experimentation we show that our proposed ArtSAGENet captures and encodes valuable relational dependencies between the artists and the artworks, surpassing the performance of traditional methods that rely solely on the analysis of visual content. Our findings underline a great potential of integrating visual content and semantics for fine art analysis and curation.
翻訳日:2021-05-20 02:11:44 公開日:2021-05-17
# (参考訳) 完全微分力を用いた物理的にプラズブルなポースリファインメント [全文訳有]

Physically Plausible Pose Refinement using Fully Differentiable Forces ( http://arxiv.org/abs/2105.08196v1 )

ライセンス: CC BY 4.0
Akarsh Kumar (1), Aditya R. Vaidya (1), Alexander G. Huth (1) ((1) The University of Texas at Austin)(参考訳) すべての手動物体の相互作用は、2つの物体が互いに作用する力によって制御されるが、RGB/RGB-Dデータからのポーズや接触推定を行う際の基礎となる力をモデル化する作業はほとんど行われていない。 任意のポーズ推定システムから手と物体の姿勢を仮定し,メッシュ内の各頂点において物体が経験する力について学習することにより姿勢推定を洗練するエンドツーエンドの微分可能モデルを提案する。 学習したネット力と有限位置差に基づくネット力の推定値とをマッチングすることにより、メッシュの相互接続や接触の欠如といった問題を解きながら、物体の動きを正確に記述する力を見つけることができる。 このモデルでは,rgbや奥行き画像データを使用しないのに,接点を正しく修正し,基底の真理に合致するコンタクトマップを見出すことができる。

All hand-object interaction is controlled by forces that the two bodies exert on each other, but little work has been done in modeling these underlying forces when doing pose and contact estimation from RGB/RGB-D data. Given the pose of the hand and object from any pose estimation system, we propose an end-to-end differentiable model that refines pose estimates by learning the forces experienced by the object at each vertex in its mesh. By matching the learned net force to an estimate of net force based on finite differences of position, this model is able to find forces that accurately describe the movement of the object, while resolving issues like mesh interpenetration and lack of contact. Evaluating on the ContactPose dataset, we show this model successfully corrects poses and finds contact maps that better match the ground truth, despite not using any RGB or depth image data.
翻訳日:2021-05-20 01:48:53 公開日:2021-05-17
# (参考訳) X線画像を用いた新型コロナウイルス認識のためのランダム初期化畳み込みニューラルネットワーク [全文訳有]

Randomly Initialized Convolutional Neural Network for the Recognition of COVID-19 using X-ray Images ( http://arxiv.org/abs/2105.08199v1 )

ライセンス: CC BY 4.0
Safa Ben Atitallah, Maha Driss, Wadii Boulila, Henda Ben Gh\'ezala(参考訳) 2020年の初めには、新型コロナウイルス(COVID-19)が世界的なパンデミックと宣言された。 この感染症の深刻さのため、様々な研究が進行中の感染拡大に対処することに注力している。 新型コロナウイルスを検出するための潜在的な解決策の1つは、Deep Learning (DL)モデルを使用して胸部X線画像を分析することである。 この文脈では、畳み込みニューラルネットワーク(cnns)が早期診断の効率的な手法として提示される。 本研究では,新型コロナウイルスの認識のためのランダム初期化CNNアーキテクチャを提案する。 このネットワークは、スクラッチから生成されたさまざまなサイズの隠蔽層で構成されている。 このネットワークのパフォーマンスは、COVIDxと強化されたCOVID-19データセットである2つのパブリックデータセットを通じて評価される。 これらのデータセットはどちらも、COVID-19、肺炎、正常な胸部X線画像の3種類の画像で構成されている。 提案したCNNモデルでは、それぞれ94%と99%の精度で、COVID-19データセットが強化されている。

By the start of 2020, the novel coronavirus disease (COVID-19) has been declared a worldwide pandemic. Because of the severity of this infectious disease, several kinds of research have focused on combatting its ongoing spread. One potential solution to detect COVID-19 is by analyzing the chest X-ray images using Deep Learning (DL) models. In this context, Convolutional Neural Networks (CNNs) are presented as efficient techniques for early diagnosis. In this study, we propose a novel randomly initialized CNN architecture for the recognition of COVID-19. This network consists of a set of different-sized hidden layers created from scratch. The performance of this network is evaluated through two public datasets, which are the COVIDx and the enhanced COVID-19 datasets. Both of these datasets consist of 3 different classes of images: COVID19, pneumonia, and normal chest X-ray images. The proposed CNN model yields encouraging results with 94% and 99% of accuracy for COVIDx and enhanced COVID-19 dataset, respectively.
翻訳日:2021-05-20 01:41:48 公開日:2021-05-17
# (参考訳) タブラルデータのためのマルチモーダルマイノリティサンプルの合成 [全文訳有]

Synthesising Multi-Modal Minority Samples for Tabular Data ( http://arxiv.org/abs/2105.08204v1 )

ライセンス: CC BY 4.0
Sajad Darabi and Yotam Elor(参考訳) 実世界の二項分類タスクは多くの場合不均衡であり、マイノリティクラスは多数派よりもはるかに小さい。 この歪みは、機械学習アルゴリズムが多数派に集中し、少数派を非常に誤って分類する傾向があるため、難しい。 モデルをトレーニングする前にデータセットに合成マイノリティサンプルを追加することは、この困難に対処するための一般的な手法であり、マイノリティサンプルを補間することで一般的に達成される。 タブラルデータセットは、しばしばマルチモーダルであり、サンプルを非自明に補間する連続したデータセットに加えて、離散的な(カテゴリー的な)特徴を含む。 そこで本研究では,(1)マルチモーダルサンプルをオートエンコーダを用いて高密度連続的潜在空間にマッピングする潜在空間補間フレームワークを提案し,(2)潜在空間の補間によるオーバーサンプリングを適用し,(3)合成サンプルを元の特徴空間にマッピングする。 我々は,マイノリティデータの品質を直接評価するためのメトリクスを定義し,既存の手法よりも優れた合成データを生成することを示した。 さらに,27の公開実世界データセットを用いた大規模実験で実証されたように,優れた合成データにより下流二分分類タスクの予測品質が向上する。

Real-world binary classification tasks are in many cases imbalanced, where the minority class is much smaller than the majority class. This skewness is challenging for machine learning algorithms as they tend to focus on the majority and greatly misclassify the minority. Adding synthetic minority samples to the dataset before training the model is a popular technique to address this difficulty and is commonly achieved by interpolating minority samples. Tabular datasets are often multi-modal and contain discrete (categorical) features in addition to continuous ones which makes interpolation of samples non-trivial. To address this, we propose a latent space interpolation framework which (1) maps the multi-modal samples to a dense continuous latent space using an autoencoder; (2) applies oversampling by interpolation in the latent space; and (3) maps the synthetic samples back to the original feature space. We defined metrics to directly evaluate the quality of the minority data generated and showed that our framework generates better synthetic data than the existing methods. Furthermore, the superior synthetic data yields better prediction quality in downstream binary classification tasks, as was demonstrated in extensive experiments with 27 publicly available real-world datasets
翻訳日:2021-05-20 01:22:39 公開日:2021-05-17
# 超体積改善を期待する複数の雑音対象の並列ベイズ最適化

Parallel Bayesian Optimization of Multiple Noisy Objectives with Expected Hypervolume Improvement ( http://arxiv.org/abs/2105.08195v1 )

ライセンス: Link先を確認
Samuel Daulton, Maximilian Balandat, Eytan Bakshy(参考訳) 複数の競合するブラックボックスの目標を最適化することは、科学、工学、機械学習など、多くの分野で難しい問題である。 多目的ベイズ最適化は,機能評価の少ない目的間の最適トレードオフを特定するための強力な手法である。 しかし、既存の手法は、以前に評価された設計に対する真のパレートフロンティアの不確実性を考慮していないため、ノイズによって観測が損なわれると性能が低下する傾向にある。 本研究では,この不確実性をパレートフロンティアに組み込むために,ベイズ処理を期待されている超ボリューム改善基準に適用することにより,この重要な実用的限界を克服する新しい獲得関数NEHVIを提案する。 さらに,無ノイズ環境においても,複数の候補を並列に生成する問題は,パレートフロンティアにおける不確実性処理を減少させる。 このレンズを通して、我々は、大量の候補を効率的に生成できるNEHVIの自然な並列変種を導出する。 正確なサンプルパス勾配を用いたNEHVIのモンテカルロ推定器を最適化するための理論的収束保証を提供する。 実験により,NEHVIは雑音や大バッチ環境下での最先端性能を実現する。

Optimizing multiple competing black-box objectives is a challenging problem in many fields, including science, engineering, and machine learning. Multi-objective Bayesian optimization is a powerful approach for identifying the optimal trade-offs between the objectives with very few function evaluations. However, existing methods tend to perform poorly when observations are corrupted by noise, as they do not take into account uncertainty in the true Pareto frontier over the previously evaluated designs. We propose a novel acquisition function, NEHVI, that overcomes this important practical limitation by applying a Bayesian treatment to the popular expected hypervolume improvement criterion to integrate over this uncertainty in the Pareto frontier. We further argue that, even in the noiseless setting, the problem of generating multiple candidates in parallel reduces that of handling uncertainty in the Pareto frontier. Through this lens, we derive a natural parallel variant of NEHVI that can efficiently generate large batches of candidates. We provide a theoretical convergence guarantee for optimizing a Monte Carlo estimator of NEHVI using exact sample-path gradients. Empirically, we show that NEHVI achieves state-of-the-art performance in noisy and large-batch environments.
翻訳日:2021-05-19 14:17:54 公開日:2021-05-17
# 深層生成モデルにおける教師なし画像セグメンタの探索

Finding an Unsupervised Image Segmenter in Each of Your Deep Generative Models ( http://arxiv.org/abs/2105.08127v1 )

ライセンス: Link先を確認
Luke Melas-Kyriazi and Christian Rupprecht and Iro Laina and Andrea Vedaldi(参考訳) 近年の研究では、GANの潜在空間に多くの人間解釈可能な方向が存在することが示されている。 本稿では,前景画像の分離につながる方向を自動で検出する手法を開発し,これらの方向を用いて人間の監督なしに画像分割モデルを訓練する。 本手法はジェネレータ非依存であり,幅広いganアーキテクチャを用いて強いセグメンテーション結果を生成する。 さらに、imagenetなどの大規模データセットで事前トレーニングされたganを利用することで、さらなるトレーニングや微調整をすることなく、さまざまなドメインからイメージをセグメント化することができる。 本手法を画像分割ベンチマークで評価し,人間の監督やトレーニングデータへのアクセスを使わずに,事前作業に好適な比較を行った。 以上の結果から,事前訓練した深部生成モデルから地下構造を自動的に抽出することが,人的監督の代用として極めて有効であることが示唆された。

Recent research has shown that numerous human-interpretable directions exist in the latent space of GANs. In this paper, we develop an automatic procedure for finding directions that lead to foreground-backgroun d image separation, and we use these directions to train an image segmentation model without human supervision. Our method is generator-agnostic, producing strong segmentation results with a wide range of different GAN architectures. Furthermore, by leveraging GANs pretrained on large datasets such as ImageNet, we are able to segment images from a range of domains without further training or finetuning. Evaluating our method on image segmentation benchmarks, we compare favorably to prior work while using neither human supervision nor access to the training data. Broadly, our results demonstrate that automatically extracting foreground-backgroun d structure from pretrained deep generative models can serve as a remarkably effective substitute for human supervision.
翻訳日:2021-05-19 14:16:16 公開日:2021-05-17
# PixMatch: Pixelwise Consistency Trainingによる教師なしドメイン適応

PixMatch: Unsupervised Domain Adaptation via Pixelwise Consistency Training ( http://arxiv.org/abs/2105.08128v1 )

ライセンス: Link先を確認
Luke Melas-Kyriazi and Arjun K. Manrai(参考訳) 教師なしドメイン適応は、セマンティックセグメンテーションや他のコンピュータビジョンタスクにおいて、大規模データアノテーションがコストと時間を要する、有望なテクニックである。 セマンティックセグメンテーションでは、シミュレートされた(ソース)ドメインからアノテーション付きイメージのモデルをトレーニングし、実際の(ターゲット)ドメインにデプロイすることが魅力的である。 本稿では,対象領域間一貫性トレーニングの概念に基づく教師なしドメイン適応のための新しいフレームワークを提案する。 直観的には、対象領域でうまく機能するためには、対象領域の入力の小さな摂動に関してモデルの出力が一貫性を持つべきであるという考えに基づいている。 具体的には、対象画像上のモデルの予測と、同じ画像の摂動バージョンとの画素的整合性を強制する新たな損失項を導入する。 一般的な逆適応法と比較すると,本手法はよりシンプルで,実装が容易であり,学習時のメモリ効率が向上する。 実験および広範囲のアブレーション研究により,本手法は,gta5-to-cityscapes と synthia-to-cityscape s の2つの難解な合成-実数ベンチマークにおいて,極めて強力な結果が得られることが示された。 https://github.com/l ukemelas/pixmatch

Unsupervised domain adaptation is a promising technique for semantic segmentation and other computer vision tasks for which large-scale data annotation is costly and time-consuming. In semantic segmentation, it is attractive to train models on annotated images from a simulated (source) domain and deploy them on real (target) domains. In this work, we present a novel framework for unsupervised domain adaptation based on the notion of target-domain consistency training. Intuitively, our work is based on the idea that in order to perform well on the target domain, a model's output should be consistent with respect to small perturbations of inputs in the target domain. Specifically, we introduce a new loss term to enforce pixelwise consistency between the model's predictions on a target image and a perturbed version of the same image. In comparison to popular adversarial adaptation methods, our approach is simpler, easier to implement, and more memory-efficient during training. Experiments and extensive ablation studies demonstrate that our simple approach achieves remarkably strong results on two challenging synthetic-to-real benchmarks, GTA5-to-Cityscapes and SYNTHIA-to-Cityscape s. Code is available at: https://github.com/l ukemelas/pixmatch
翻訳日:2021-05-19 14:16:01 公開日:2021-05-17
# VPN++: 日常生活のアクティビティを理解するためのビデオパス埋め込みの再考

VPN++: Rethinking Video-Pose embeddings for understanding Activities of Daily Living ( http://arxiv.org/abs/2105.08141v1 )

ライセンス: Link先を確認
Srijan Das, Rui Dai, Di Yang, Francois Bremond(参考訳) 日常生活活動認識(adl)のためのrgbと3dのポーズを組み合わせる試みが数多く行われている。 ADLは非常によく似ており、識別するためには細かな詳細をモデル化する必要があることが多い。 最近の3D ConvNetは、アクション全体にわたる微妙な視覚パターンを捉えるには厳格すぎるため、この研究の方向性はRGBと3D Posesを組み合わせた手法に支配されている。 しかし、RGBストリームからの3Dポーズの計算コストは、適切なセンサーがなければ高い。 これにより、低レイテンシを必要とする現実世界のアプリケーションでの前述のアプローチの使用が制限される。 ADLの認識に3D Posesを最大限に活用するには? この目的のために、ポーズ駆動型アテンションメカニズムであるVPN(Video-Pose Network)の拡張を提案し、2つの異なる方向を探索する。 一つは、ポーズ知識を特徴量蒸留によってrgbに移し、もう一つは注意レベル蒸留を通じてポーズ駆動の注意を模倣する。 最後に、これら2つのアプローチは、vpn++と呼ばれる単一のモデルに統合されます。 VPN++は有効であるだけでなく、ノイズの多いPosesに対して高速なアップと高いレジリエンスを提供する。 3D Posesの有無にかかわらず、VPN++は4つの公開データセットで代表ベースラインを上回っている。 コードはhttps://github.com/s rijandas07/vpnpluspl usで入手できる。

Many attempts have been made towards combining RGB and 3D poses for the recognition of Activities of Daily Living (ADL). ADL may look very similar and often necessitate to model fine-grained details to distinguish them. Because the recent 3D ConvNets are too rigid to capture the subtle visual patterns across an action, this research direction is dominated by methods combining RGB and 3D Poses. But the cost of computing 3D poses from RGB stream is high in the absence of appropriate sensors. This limits the usage of aforementioned approaches in real-world applications requiring low latency. Then, how to best take advantage of 3D Poses for recognizing ADL? To this end, we propose an extension of a pose driven attention mechanism: Video-Pose Network (VPN), exploring two distinct directions. One is to transfer the Pose knowledge into RGB through a feature-level distillation and the other towards mimicking pose driven attention through an attention-level distillation. Finally, these two approaches are integrated into a single model, we call VPN++. We show that VPN++ is not only effective but also provides a high speed up and high resilience to noisy Poses. VPN++, with or without 3D Poses, outperforms the representative baselines on 4 public datasets. Code is available at https://github.com/s rijandas07/vpnpluspl us.
翻訳日:2021-05-19 14:15:39 公開日:2021-05-17
# 社会的行動とメンタルヘルス:新型コロナパンデミック下のスナップショット調査

Social Behavior and Mental Health: A Snapshot Survey under COVID-19 Pandemic ( http://arxiv.org/abs/2105.08165v1 )

ライセンス: Link先を確認
Sahraoui Dhelim, Liming Luke Chen, Huansheng Ning, Sajal K Das, Chris Nugent, Devin Burns, Gerard Leavey, Dirk Pesch and Eleanor Bantry-White(参考訳) オンラインソーシャルメディアは、人々の社会的行動と精神的な苦痛を監視するチャンネルを提供する。 新型コロナウイルス(COVID-19)の規制により、オンラインソーシャルネットワークを使って感情を表現している人が増えている。 結果として、多様なユーザー生成ソーシャルメディアコンテンツが存在する。 しかし、新型コロナウイルス(COVID-19)のパンデミックは、私たちの生活、研究、社会化、再生の方法を変えました。 オンラインソーシャルメディア分析を利用してユーザーの精神状態を検出し評価する研究が増えている。 本稿では,2020-2021年の間に行われた新型コロナウイルス研究を中心に,精神障害検出のためのソーシャルメディア分析の文献を調査する。 まず,調査対象を,言語の使用パターンから美的嗜好,オンライン行動に至るまで,特徴抽出型の観点から分類した。 第2に,機械学習や深層学習検出法を含む精神障害検出に用いられる検出法について検討する。 最後に,プライバシや倫理的な懸念を含むソーシャルメディアデータを用いた精神障害検出の課題と,大規模にシステムをスケールアップ・展開する技術的課題について論じ,過去数年間の教訓について論じる。

Online social media provides a channel for monitoring people's social behaviors and their mental distress. Due to the restrictions imposed by COVID-19 people are increasingly using online social networks to express their feelings. Consequently, there is a significant amount of diverse user-generated social media content. However, COVID-19 pandemic has changed the way we live, study, socialize and recreate and this has affected our well-being and mental health problems. There are growing researches that leverage online social media analysis to detect and assess user's mental status. In this paper, we survey the literature of social media analysis for mental disorders detection, with a special focus on the studies conducted in the context of COVID-19 during 2020-2021. Firstly, we classify the surveyed studies in terms of feature extraction types, varying from language usage patterns to aesthetic preferences and online behaviors. Secondly, we explore detection methods used for mental disorders detection including machine learning and deep learning detection methods. Finally, we discuss the challenges of mental disorder detection using social media data, including the privacy and ethical concerns, as well as the technical challenges of scaling and deploying such systems at large scales, and discuss the learnt lessons over the last few years.
翻訳日:2021-05-19 14:13:07 公開日:2021-05-17
# 近接量子シミュレーションのニューラルエラー軽減

Neural Error Mitigation of Near-Term Quantum Simulations ( http://arxiv.org/abs/2105.08086v1 )

ライセンス: Link先を確認
Elizabeth R. Bennewitz, Florian Hopfmueller, Bohdan Kulchytskyy, Juan Carrasquilla and Pooya Ronagh(参考訳) 初期の量子コンピュータの有望な応用の一つは、量子システムのシミュレーションである。 変分量子固有解法(VQE)のような短期量子コンピュータの変分法は、物理学、化学、材料科学に関連する量子系の基底状態を見つけるための有望なアプローチである。 しかし、これらのアプローチはノイズの影響と、短期的な量子ハードウェアの限られた量子資源によって制限されており、ノイズの影響を減らすために量子誤差緩和技術が必要である。 ここでは、ニューラルネットワークを用いて基底状態の推定と、VQEを用いて短期量子コンピュータ上で得られた基底状態観測値を改善する新しい手法である$\textit{neural error mitigation}$を紹介する。 本手法の汎用性を示すために, 格子シュウィンガーモデルと同様に, h$_2$およびlih分子ハミルトニアンの基底状態を求めるために, ニューラルエラー緩和を適用する。 この結果から, ニューラルネットワークの誤差緩和により, 量子資源を必要とせず, 低エネルギー誤差, 低不確かさ, および高次パラメータや絡み合いエントロピーなどの複雑な観測対象の正確な推定値が得られることが示唆された。 さらに、ニューラルエラー軽減は量子ハードウェアと特定のノイズチャネルの両方に依存せず、量子シミュレーションのための汎用的なツールである。 量子多体機械学習手法を誤差緩和に適用し,提案手法は,複雑な量子シミュレーション問題を解決するために,短期量子コンピュータの到達範囲を広げる有望な戦略である。

One of the promising applications of early quantum computers is the simulation of quantum systems. Variational methods for near-term quantum computers, such as the variational quantum eigensolver (VQE), are a promising approach to finding ground states of quantum systems relevant in physics, chemistry, and materials science. These approaches, however, are constrained by the effects of noise as well as the limited quantum resources of near-term quantum hardware, motivating the need for quantum error mitigation techniques to reduce the effects of noise. Here we introduce $\textit{neural error mitigation}$, a novel method that uses neural networks to improve estimates of ground states and ground-state observables obtained using VQE on near-term quantum computers. To demonstrate our method's versatility, we apply neural error mitigation to finding the ground states of H$_2$ and LiH molecular Hamiltonians, as well as the lattice Schwinger model. Our results show that neural error mitigation improves the numerical and experimental VQE computation to yield low-energy errors, low infidelities, and accurate estimations of more-complex observables like order parameters and entanglement entropy, without requiring additional quantum resources. Additionally, neural error mitigation is agnostic to both the quantum hardware and the particular noise channel, making it a versatile tool for quantum simulation. Applying quantum many-body machine learning techniques to error mitigation, our method is a promising strategy for extending the reach of near-term quantum computers to solve complex quantum simulation problems.
翻訳日:2021-05-19 14:12:47 公開日:2021-05-17
# Langevin Dynamicsによる自己回帰モデルからの並列およびフレキシブルサンプリング

Parallel and Flexible Sampling from Autoregressive Models via Langevin Dynamics ( http://arxiv.org/abs/2105.08164v1 )

ライセンス: Link先を確認
Vivek Jayaram, John Thickstun(参考訳) 本稿では,自己回帰モデルからのサンプリングの代替手法を提案する。 自己回帰モデルは通常、モデルによって定義される遷移ダイナミクスに従って順次サンプリングされる。 代わりに,白色雑音を持つ列を初期化するサンプリング手順を提案し,その列の大域的ログ様相のランジュバンダイナミクスによって定義されるマルコフ連鎖に従う。 このアプローチはサンプリングプロセスを並列化し、条件付きサンプリングに一般化する。 ベイズ事前として自己回帰モデルを用いることで、条件付き確率や制約を使って生成モデルの出力を制御できる。 これらの手法を視覚および聴覚領域の自己回帰モデルに適用し,オーディオソース分離,超解像,インペインティングの競争結果と比較した。

This paper introduces an alternative approach to sampling from autoregressive models. Autoregressive models are typically sampled sequentially, according to the transition dynamics defined by the model. Instead, we propose a sampling procedure that initializes a sequence with white noise and follows a Markov chain defined by Langevin dynamics on the global log-likelihood of the sequence. This approach parallelizes the sampling process and generalizes to conditional sampling. Using an autoregressive model as a Bayesian prior, we can steer the output of a generative model using a conditional likelihood or constraints. We apply these techniques to autoregressive models in the visual and audio domains, with competitive results for audio source separation, super-resolution, and inpainting.
翻訳日:2021-05-19 14:09:27 公開日:2021-05-17
# 胸部X線CTから自動計算した胸部X線上のマスクR-CNNによるCOVID-19肺病変の分画

COVID-19 Lung Lesion Segmentation Using a Sparsely Supervised Mask R-CNN on Chest X-rays Automatically Computed from Volumetric CTs ( http://arxiv.org/abs/2105.08147v1 )

ライセンス: Link先を確認
Vignav Ramesh, Blaine Rister, Daniel L. Rubin(参考訳) 2019年のcovid-19患者の胸部x線は肺疾患の程度を判定するために頻繁に入手され、人工知能モデルの作成に有用なデータ源である。 胸部画像における疾患重症度の評価はCT画像のセグメンテーションに焦点が当てられているが, 新型コロナウイルス患者の胸部X線検査よりもCTの頻度がはるかに低いことから, 胸部X線による肺病変の自動分離は臨床的に有用である可能性がある。 現在、胸部x線と肺病変の注釈が普遍的に不足しており、手作業で肺の不透明度を検査するのは退屈で労働集約的な作業です。 教師付き深層学習(DL)モデルにおける重症度の検出と胸部X線トレーニングデータの増大を図るため,既存のCT画像を利用して,新型コロナウイルスの胸部X線モデルをトレーニングするための前頭投射「ケストX線」画像を生成する。 本稿では,オープンソースの胸部X線と冠状X線プロジェクションの混合データセットを用いて訓練したMask R-CNNを用いた胸部X線上のCOVID-19肺病変の分画自動パイプラインを提案する。 検査では,60個の胸部X線と10個の胸部X線と50個の胸部CT線を混合したデータセットを用いてトレーニングし,IoUスコアが0.81$\pm$ 0.03,0.79$\pm$ 0.03を得た。 我々のモデルは、監督訓練を限定して現在のベースラインをはるかに上回り、胸部X線による新型コロナウイルスの重症度の自動定量化を支援することができる。

Chest X-rays of coronavirus disease 2019 (COVID-19) patients are frequently obtained to determine the extent of lung disease and are a valuable source of data for creating artificial intelligence models. Most work to date assessing disease severity on chest imaging has focused on segmenting computed tomography (CT) images; however, given that CTs are performed much less frequently than chest X-rays for COVID-19 patients, automated lung lesion segmentation on chest X-rays could be clinically valuable. There currently exists a universal shortage of chest X-rays with ground truth COVID-19 lung lesion annotations, and manually contouring lung opacities is a tedious, labor-intensive task. To accelerate severity detection and augment the amount of publicly available chest X-ray training data for supervised deep learning (DL) models, we leverage existing annotated CT images to generate frontal projection "chest X-ray" images for training COVID-19 chest X-ray models. In this paper, we propose an automated pipeline for segmentation of COVID-19 lung lesions on chest X-rays comprised of a Mask R-CNN trained on a mixed dataset of open-source chest X-rays and coronal X-ray projections computed from annotated volumetric CTs. On a test set containing 40 chest X-rays of COVID-19 positive patients, our model achieved IoU scores of 0.81 $\pm$ 0.03 and 0.79 $\pm$ 0.03 when trained on a dataset of 60 chest X-rays and on a mixed dataset of 10 chest X-rays and 50 projections from CTs, respectively. Our model far outperforms current baselines with limited supervised training and may assist in automated COVID-19 severity quantification on chest X-rays.
翻訳日:2021-05-19 14:07:46 公開日:2021-05-17
# 深部学習再建による心機能解析

Cardiac Functional Analysis with Cine MRI via Deep Learning Reconstruction ( http://arxiv.org/abs/2105.08157v1 )

ライセンス: Link先を確認
Eric Z. Chen, Xiao Chen, Jingyuan Lyu, Qi Liu, Zhongqi Zhang, Yu Ding, Shuheng Zhang, Terrence Chen, Jian Xu, and Shanhui Sun(参考訳) 心機能解析における臨床標準は,回顧的シネMRI(retro-cine)である。 深層学習法 (deep learning, dl) は, 高サンプリングmriデータの再構成法として提案されている。 しかし, 心機能解析にDL再建が適切かどうかは不明である。 そこで本研究では, DL-cine(DL-cine)を用いた高速度MRI取得から得られた心機能値(EDV, ESV, EF, LV, RV)をCS-cineおよび従来のレトロシンの値と比較した。 我々の知る限りでは、心機能解析のための深層学習再建法を用いてシネMRIを評価し、他の方法と比較するのはこれが初めてである。 深層学習再建術におけるcine MRIの心機能値は,臨床標準のretro-cine MRIの値と一致している。

Retrospectively gated cine (retro-cine) MRI is the clinical standard for cardiac functional analysis. Deep learning (DL) based methods have been proposed for the reconstruction of highly undersampled MRI data and show superior image quality and magnitude faster reconstruction time than CS-based methods. Nevertheless, it remains unclear whether DL reconstruction is suitable for cardiac function analysis. To address this question, in this study we evaluate and compare the cardiac functional values (EDV, ESV and EF for LV and RV, respectively) obtained from highly accelerated MRI acquisition using DL based reconstruction algorithm (DL-cine) with values from CS-cine and conventional retro-cine. To the best of our knowledge, this is the first work to evaluate the cine MRI with deep learning reconstruction for cardiac function analysis and compare it with other conventional methods. The cardiac functional values obtained from cine MRI with deep learning reconstruction are consistent with values from clinical standard retro-cine MRI.
翻訳日:2021-05-19 14:07:11 公開日:2021-05-17
# マルチチャネルMRI再構成のためのトランスファーラーニング強化生成対向ネットワーク

Transfer Learning Enhanced Generative Adversarial Networks for Multi-Channel MRI Reconstruction ( http://arxiv.org/abs/2105.08175v1 )

ライセンス: Link先を確認
Jun Lv, Guangyuan Li, Xiangrong Tong, Weibo Chen, Jiahao Huang, Chengyan Wang, Guang Yang(参考訳) 深層学習に基づく生成逆数ネットワーク(GAN)は、アンダーサンプルMRデータを用いて画像再構成を効果的に行うことができる。 一般に、あるモデルの再構築性能を改善するために多くのトレーニングサンプルが必要となる。 しかし,実際の臨床応用では,k空間データの保存が日常的な臨床フローにないため,数万件の生患者データを取得することは困難である。 そのため,小サンプルに基づくネットワークの一般化性の向上が急務である。 本研究では,GANモデル(PI-GAN)と移動学習を組み合わせた並列イメージングに基づく3つの新しい応用について検討した。 本モデルでは, 当院における腫瘍患者, (2) 膝, 肝臓を含む解剖学, (3) 加速度因子(AF)が2, 6の異なるk空間サンプリングマスクを用いて, パブリックカルガリー脳画像を用いて事前訓練を行った。 脳腫瘍のデータセットについて、転送学習の結果はPI-GANで見つかったアーティファクトを除去し、よりスムーズな脳の縁を生み出す可能性がある。 膝と肝臓のトランスファー学習の結果は,pi-ganモデルよりもトレーニングケースが少なく,独自のデータセットでトレーニングしたモデルよりも優れていた。 しかし, 膝関節データセットでは脳腫瘍データセットの学習に比べ, 学習手順は緩やかに収束した。 AF 2 と 6 のモデルを用いたトランスファー学習により再構成性能が向上した。 これら2モデルのうち, AF=2のモデルの方が良好な結果を示した。 また,事前学習モデルによる伝達学習は,トレーニングデータセットとテストデータセットの矛盾を解消し,未知のデータへの一般化を容易にすることを示した。

Deep learning based generative adversarial networks (GAN) can effectively perform image reconstruction with under-sampled MR data. In general, a large number of training samples are required to improve the reconstruction performance of a certain model. However, in real clinical applications, it is difficult to obtain tens of thousands of raw patient data to train the model since saving k-space data is not in the routine clinical flow. Therefore, enhancing the generalizability of a network based on small samples is urgently needed. In this study, three novel applications were explored based on parallel imaging combined with the GAN model (PI-GAN) and transfer learning. The model was pre-trained with public Calgary brain images and then fine-tuned for use in (1) patients with tumors in our center; (2) different anatomies, including knee and liver; (3) different k-space sampling masks with acceleration factors (AFs) of 2 and 6. As for the brain tumor dataset, the transfer learning results could remove the artifacts found in PI-GAN and yield smoother brain edges. The transfer learning results for the knee and liver were superior to those of the PI-GAN model trained with its own dataset using a smaller number of training cases. However, the learning procedure converged more slowly in the knee datasets compared to the learning in the brain tumor datasets. The reconstruction performance was improved by transfer learning both in the models with AFs of 2 and 6. Of these two models, the one with AF=2 showed better results. The results also showed that transfer learning with the pre-trained model could solve the problem of inconsistency between the training and test datasets and facilitate generalization to unseen data.
翻訳日:2021-05-19 14:06:56 公開日:2021-05-17
# ディープラーニングとモバイルAI 2021チャレンジを備えたモバイルGPU上の高速カメライメージ

Fast Camera Image Denoising on Mobile GPUs with Deep Learning, Mobile AI 2021 Challenge: Report ( http://arxiv.org/abs/2105.08629v1 )

ライセンス: Link先を確認
Andrey Ignatov, Kim Byeoung-su, Radu Timofte, Angeline Pouget, Fenglong Song, Cheng Li, Shuai Xiao, Zhongqian Fu, Matteo Maggioni, Yibin Huang, Shen Cheng, Xin Lu, Yifeng Zhou, Liangyu Chen, Donghao Liu, Xiangyu Zhang, Haoqiang Fan, Jian Sun, Shuaicheng Liu, Minsu Kwon, Myungje Lee, Jaeyoon Yoo, Changbeom Kang, Shinjo Wang, Bin Huang, Tianbao Zhou, Shuai Liu, Lei Lei, Chaoyu Feng, Liguang Huang, Zhikun Lei, Feifei Chen(参考訳) 画像の切り離しは、モバイル写真処理における最も重要な問題の1つだ。 このタスクには多くのソリューションが提案されているが、通常は合成データを扱うため、モバイルデバイス上での実行には計算コストがかかりすぎる。 そこで本研究では,スマートフォンのgpuで高効率を実現するための,エンド・ツー・エンドのディープラーニングに基づく画像デノイジングソリューションの開発を目標とする,最初のモバイルaiチャレンジを紹介する。 このために参加者は、野生で捕獲されたノイズクリーンな画像対からなる新しい大規模データセットを与えられた。 すべてのモデルのランタイムをSamsung Exynos 2100チップセットで評価し、浮動小数点および量子化されたニューラルネットワークを高速化する強力なマリGPUを使用した。 提案したソリューションは任意のモバイルGPUと完全に互換性があり、480pの解像度画像を40-80ms以下で処理でき、高い忠実度を達成できる。 本論文では,本課題で開発されたモデルについて詳述する。

Image denoising is one of the most critical problems in mobile photo processing. While many solutions have been proposed for this task, they are usually working with synthetic data and are too computationally expensive to run on mobile devices. To address this problem, we introduce the first Mobile AI challenge, where the target is to develop an end-to-end deep learning-based image denoising solution that can demonstrate high efficiency on smartphone GPUs. For this, the participants were provided with a novel large-scale dataset consisting of noisy-clean image pairs captured in the wild. The runtime of all models was evaluated on the Samsung Exynos 2100 chipset with a powerful Mali GPU capable of accelerating floating-point and quantized neural networks. The proposed solutions are fully compatible with any mobile GPU and are capable of processing 480p resolution images under 40-80 ms while achieving high fidelity results. A detailed description of all models developed in the challenge is provided in this paper.
翻訳日:2021-05-19 14:05:31 公開日:2021-05-17
# モバイルデバイスにおける高速かつ正確な単一画像深度推定,モバイルAI 2021 Challenge:レポート

Fast and Accurate Single-Image Depth Estimation on Mobile Devices, Mobile AI 2021 Challenge: Report ( http://arxiv.org/abs/2105.08630v1 )

ライセンス: Link先を確認
Andrey Ignatov, Grigory Malivenko, David Plowman, Samarth Shukla, Radu Timofte, Ziyu Zhang, Yicheng Wang, Zilong Huang, Guozhong Luo, Gang Yu, Bin Fu, Yiran Wang, Xingyi Li, Min Shi, Ke Xian, Zhiguo Cao, Jin-Hua Du, Pei-Lin Wu, Chao Ge, Jiaoyang Yao, Fangwen Tu, Bo Li, Jung Eun Yoo, Kwanggyoon Seo, Jialei Xu, Zhenyu Li, Xianming Liu, Junjun Jiang, Wei-Chi Chen, Shayan Joya, Huanhuan Fan, Zhaobing Kang, Ang Li, Tianpeng Feng, Yang Liu, Chuannan Sheng, Jian Yin, Fausto T. Benavide(参考訳) 深さ推定はモバイルデバイスに多くの実用的応用をもたらす重要なコンピュータビジョン問題である。 このタスクには多くの解決策が提案されているが、通常は計算コストが非常に高く、デバイス上での推論には適用できない。 この問題に対処するために、スマートフォンやIoTプラットフォーム上でほぼリアルタイムのパフォーマンスを実証可能な、エンドツーエンドのディープラーニングベースの深さ推定ソリューションの開発を目標とする、最初のMobile AIチャレンジを紹介します。 このために参加者は、最大50mの物体に対して高解像度の深度マップを作成する専用ステレオZEDカメラを用いて、RGB深度画像対を含む新しい大規模データセットを作成した。 すべてのモデルのランタイムは、モバイルarmベースのbroadcomチップセットを備えたraspberry pi 4プラットフォームで評価された。 提案したソリューションでは,Raspberry Pi 4上で最大10 FPSのVGA解像度深度マップを生成できると同時に,高い忠実度を達成でき,AndroidやLinuxベースのモバイルデバイスとも互換性がある。 本論文では,本課題で開発されたモデルについて詳述する。

Depth estimation is an important computer vision problem with many practical applications to mobile devices. While many solutions have been proposed for this task, they are usually very computationally expensive and thus are not applicable for on-device inference. To address this problem, we introduce the first Mobile AI challenge, where the target is to develop an end-to-end deep learning-based depth estimation solutions that can demonstrate a nearly real-time performance on smartphones and IoT platforms. For this, the participants were provided with a new large-scale dataset containing RGB-depth image pairs obtained with a dedicated stereo ZED camera producing high-resolution depth maps for objects located at up to 50 meters. The runtime of all models was evaluated on the popular Raspberry Pi 4 platform with a mobile ARM-based Broadcom chipset. The proposed solutions can generate VGA resolution depth maps at up to 10 FPS on the Raspberry Pi 4 while achieving high fidelity results, and are compatible with any Android or Linux-based mobile devices. A detailed description of all models developed in the challenge is provided in this paper.
翻訳日:2021-05-19 14:05:16 公開日:2021-05-17
# SHARE:階層型補助レシピ編集システム

SHARE: a System for Hierarchical Assistive Recipe Editing ( http://arxiv.org/abs/2105.08185v1 )

ライセンス: Link先を確認
Shuyang Li, Yufei Li, Jianmo Ni, Julian McAuley(参考訳) 食事制限のある家庭料理人を支援する階層的支援レシピ編集システム「share」について紹介する。 我々の階層的なレシピエディターは、レシピの材料リストに必要な置換を行い、新しい材料を利用するための方向を書き換える。 1つのレシピが7つの食事制約の1つを満たす84k組の類似レシピのレシピペアデータセットを導入し、このようなレシピ編集モデルの教師付きトレーニングを可能にした。 このデータセットを用いた実験により, 目的とする食事制限(禁止成分は含まない)に適した, 説得力のあるコヒーレントなレシピが得られた。 提案手法は, レシピ生成のために, 人文による成分置換規則や最先端モデルの直接的な適応では, 十分に解決できない課題であることを示す。 さらに,人間による評価と実世界の調理試験を通して,本システムで編集したレシピを家庭料理に追従し,美味しく満足な料理を作ることができることを示す。

We introduce SHARE: a System for Hierarchical Assistive Recipe Editing to assist home cooks with dietary restrictions -- a population under-served by existing cooking resources. Our hierarchical recipe editor makes necessary substitutions to a recipe's ingredients list and re-writes the directions to make use of the new ingredients. We introduce the novel RecipePairs dataset of 84K pairs of similar recipes in which one recipe satisfies one of seven dietary constraints, allowing for supervised training of such recipe editing models. Experiments on this dataset demonstrate that our system produces convincing, coherent recipes that are appropriate for a target dietary constraint (contain no prohibited ingredients). We show that this is a challenging task that cannot be adequately solved with human-written ingredient substitution rules or straightforward adaptation of state-of-the-art models for recipe generation. We further demonstrate through human evaluations and real-world cooking trials that recipes edited by our system can be easily followed by home cooks to create delicious and satisfactory dishes.
翻訳日:2021-05-19 14:04:00 公開日:2021-05-17
# Visual FUDGE:動的グラフ編集によるフォーム理解

Visual FUDGE: Form Understanding via Dynamic Graph Editing ( http://arxiv.org/abs/2105.08194v1 )

ライセンス: Link先を確認
Brian Davis, Bryan Morse, Brian Price, Chris Tensmeyer, Curtis Wiginton(参考訳) 形態理解の問題は、テキストエンティティの発見と、それらの間の関係やリンクを画像として表現することである。 提案したFUDGEモデルは、テキスト要素(頂点)のグラフ上でこの問題を定式化し、グラフ畳み込みネットワークを用いてグラフの変更を予測する。 初期頂点は検出されたテキスト行であり、複数の行にまたがる最終的なテキストエンティティに必ずしも対応しない。 また、初期辺は多くの偽陽性関係を含む。 FUDGEは、テキストセグメント(グラフ頂点)とプルーニングエッジを反復的に組み合わせてグラフ構造を編集し、最終的なテキストエンティティと関係を得る。 この分野における最近の研究は、大規模事前学習言語モデル(LM)の活用に重点を置いているが、FUDGEは(小さな)トレーニングセットからのみ視覚的特徴を学習することで、FUNSDデータセット上で同じレベルのエンティティリンク性能を達成する。 FUDGEは、テキスト認識が難しい形式(例)に適用できる。 このようなLMの事前訓練が困難である、リソース不足言語における形式に関するもの。 FUDGEは歴史的NAFデータセットの最先端である。

We address the problem of form understanding: finding text entities and the relationships/links between them in form images. The proposed FUDGE model formulates this problem on a graph of text elements (the vertices) and uses a Graph Convolutional Network to predict changes to the graph. The initial vertices are detected text lines and do not necessarily correspond to the final text entities, which can span multiple lines. Also, initial edges contain many false-positive relationships. FUDGE edits the graph structure by combining text segments (graph vertices) and pruning edges in an iterative fashion to obtain the final text entities and relationships. While recent work in this area has focused on leveraging large-scale pre-trained Language Models (LM), FUDGE achieves the same level of entity linking performance on the FUNSD dataset by learning only visual features from the (small) provided training set. FUDGE can be applied on forms where text recognition is difficult (e.g. degraded or historical forms) and on forms in resource-poor languages where pre-training such LMs is challenging. FUDGE is state-of-the-art on the historical NAF dataset.
翻訳日:2021-05-19 14:00:03 公開日:2021-05-17
# オフライン強化学習のための不確かさ重み付きアクタークリティカル

Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning ( http://arxiv.org/abs/2105.08140v1 )

ライセンス: Link先を確認
Yue Wu, Shuangfei Zhai, Nitish Srivastava, Joshua Susskind, Jian Zhang, Ruslan Salakhutdinov, Hanlin Goh(参考訳) オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。 しかし、既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からブートストラップすると失敗する。 既存の手法から欠落した重要な要素は,オフライン環境における不確実性の適切な処理であると仮定する。 我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。 実装面では,既存のRLアルゴリズムのオーバーヘッドが少なく,実用的で効果的なドロップアウトに基づく不確実性推定手法を採用する。 経験的に、UWACはトレーニング中のモデルの安定性を大幅に改善する。 加えて、UWACは、さまざまな競争上のタスクにおいて既存のオフラインRLメソッドよりも優れており、人間の専門家が収集したスパースなデモを伴うデータセットの最先端のベースラインよりも大きなパフォーマンス向上を実現している。

Offline Reinforcement Learning promises to learn effective policies from previously-collected , static datasets without the need for exploration. However, existing Q-learning and actor-critic based off-policy RL algorithms fail when bootstrapping from out-of-distribution (OOD) actions or states. We hypothesize that a key missing ingredient from the existing methods is a proper treatment of uncertainty in the offline setting. We propose Uncertainty Weighted Actor-Critic (UWAC), an algorithm that detects OOD state-action pairs and down-weights their contribution in the training objectives accordingly. Implementation-wise, we adopt a practical and effective dropout-based uncertainty estimation method that introduces very little overhead over existing RL algorithms. Empirically, we observe that UWAC substantially improves model stability during training. In addition, UWAC out-performs existing offline RL methods on a variety of competitive tasks, and achieves significant performance gains over the state-of-the-art baseline on datasets with sparse demonstrations collected from human experts.
翻訳日:2021-05-19 13:55:52 公開日:2021-05-17
# 研究の好みの尺度

A Measure of Research Taste ( http://arxiv.org/abs/2105.08089v1 )

ライセンス: Link先を確認
Vladlen Koltun and David Hafner(参考訳) 研究者はしばしば引用に基づくメトリクスによって評価される。 このような指標は雇用、昇進、資金調達の決定に役立ちます。 一般的な引用に基づくメトリクスは、研究者に出版物の生産を最大化させる動機を与えると懸念されている。 このようなインセンティブは科学的進歩に最適ではないかもしれない。 ここでは、生産性と味覚の両方に報いる引用ベースの尺度を示す: 研究者が影響力のある貢献に集中できる能力。 提示された指標であるCAPは、出版物の影響とその量とのバランスを保ち、出版物が文献に有用な追加物であるかどうかを考えるよう研究者に動機づける。 CAPは単純で、解釈可能で、パラメータフリーである。 生物学,計算機科学,経済学,物理学における高引用率研究者のcapの特徴を,年間に数億の出版物と数億の引用のコーパスを用いて分析した。 CAPは質的に妥当な結果をもたらし、以前のメトリクスよりも多くの利点がある。 結果はhttps://cap-measure. org/で調べることができる。

Researchers are often evaluated by citation-based metrics. Such metrics can inform hiring, promotion, and funding decisions. Concerns have been expressed that popular citation-based metrics incentivize researchers to maximize the production of publications. Such incentives may not be optimal for scientific progress. Here we present a citation-based measure that rewards both productivity and taste: the researcher's ability to focus on impactful contributions. The presented measure, CAP, balances the impact of publications and their quantity, thus incentivizing researchers to consider whether a publication is a useful addition to the literature. CAP is simple, interpretable, and parameter-free. We analyze the characteristics of CAP for highly-cited researchers in biology, computer science, economics, and physics, using a corpus of millions of publications and hundreds of millions of citations with yearly temporal granularity. CAP produces qualitatively plausible outcomes and has a number of advantages over prior metrics. Results can be explored at https://cap-measure. org/
翻訳日:2021-05-19 13:53:45 公開日:2021-05-17
# 深層学習による3次元多重MRI再構成の高速化

Accelerating 3D MULTIPLEX MRI Reconstruction with Deep Learning ( http://arxiv.org/abs/2105.08163v1 )

ライセンス: Link先を確認
Eric Z. Chen, Yongquan Ye, Xiao Chen, Jingyuan Lyu, Zhongqi Zhang, Yichen Hu, Terrence Chen, Jian Xu, and Shanhui Sun(参考訳) マルチコントラストmri画像は解剖学的構造の特徴に関する補完的コントラスト情報を提供し、臨床で一般的に用いられる。 近年,マルチフリップ角(FA)とマルチエコGRE法(MULTIPLEX MRI)が開発され,複数のパラメトリック画像の同時取得が可能となった。 しかし,MultipleXは比較的長いスキャン時間と膨大な量の3Dマルチコントラストデータという,高解像度の3次元環境での利用が課題となっている。 現在,3次元多重データ再構成のためのDLベースの手法は提案されていない。 3次元mriデータ再構成のための深層学習フレームワークを提案し,マルチプレックスmriに適用する。 提案する深層学習法は,画像品質と再構成時間において良好な性能を示す。

Multi-contrast MRI images provide complementary contrast information about the characteristics of anatomical structures and are commonly used in clinical practice. Recently, a multi-flip-angle (FA) and multi-echo GRE method (MULTIPLEX MRI) has been developed to simultaneously acquire multiple parametric images with just one single scan. However, it poses two challenges for MULTIPLEX to be used in the 3D high-resolution setting: a relatively long scan time and the huge amount of 3D multi-contrast data for reconstruction. Currently, no DL based method has been proposed for 3D MULTIPLEX data reconstruction. We propose a deep learning framework for undersampled 3D MRI data reconstruction and apply it to MULTIPLEX MRI. The proposed deep learning method shows good performance in image quality and reconstruction time.
翻訳日:2021-05-19 13:52:29 公開日:2021-05-17
# 家庭用電力需要プロファイルのクラスタリングフレームワーク

A Clustering Framework for Residential Electric Demand Profiles ( http://arxiv.org/abs/2105.08537v1 )

ライセンス: Link先を確認
Mayank Jain, Tarek AlSkaif, and Soumyabrata Dev(参考訳) スマートメータインフラストラクチャの大規模展開によって実現された住宅用電気需要プロファイルデータの可用性により、消費電力パターンをより正確に分析することが可能になった。 本稿では,オランダのアムステルダム市に居住する世帯の電気需要プロファイルを分析した。 総合的なクラスタリングフレームワークは、電力消費パターンに基づいて家庭を分類するために定義される。 このフレームワークは、入力電力消費データの次元削減ステップと、縮小部分空間の教師なしクラスタリングアルゴリズムの2つの主要なステップで構成されている。 上記のクラスタリングタスクの文献で使用されているアルゴリズムは、対応するステップで使用できるが、より重要な疑問は、アルゴリズムの特定の組み合わせが与えられたデータセットとクラスタリングタスクに最適なかを推定することである。 本論文では,新たな客観的検証戦略を提案し,その提案を主観的検証によって相互に検証する。

The availability of residential electric demand profiles data, enabled by the large-scale deployment of smart metering infrastructure, has made it possible to perform more accurate analysis of electricity consumption patterns. This paper analyses the electric demand profiles of individual households located in the city Amsterdam, the Netherlands. A comprehensive clustering framework is defined to classify households based on their electricity consumption pattern. This framework consists of two main steps, namely a dimensionality reduction step of input electricity consumption data, followed by an unsupervised clustering algorithm of the reduced subspace. While any algorithm, which has been used in the literature for the aforementioned clustering task, can be used for the corresponding step, the more important question is to deduce which particular combination of algorithms is the best for a given dataset and a clustering task. This question is addressed in this paper by proposing a novel objective validation strategy, whose recommendations are then cross-verified by performing subjective validation.
翻訳日:2021-05-19 13:51:05 公開日:2021-05-17
# PDB構造からの腫瘍抑制遺伝子・癌遺伝子・融合予測のための統合的深層学習と動的プログラミング法

An Integrated Deep Learning and Dynamic Programming Method for Predicting Tumor Suppressor Genes, Oncogenes, and Fusion from PDB Structures ( http://arxiv.org/abs/2105.08100v1 )

ライセンス: Link先を確認
Nishanth. Anandanadarajah, C.H. Chu, R. Loganantharaj(参考訳) プロトオンコジーン(ONGO)の変異と腫瘍抑制遺伝子(TSG)の制御機能の欠如は、腫瘍増殖を制御していない一般的なメカニズムである。 がんは異なる疾患の異種複合体であるが、計算学的研究を通じてONGOやTSGに関連する遺伝子機能の可能性を見つけることは、疾患を標的とする薬物の開発に役立つ。 本稿では,入力された3dタンパク質構造情報から特徴地図集合を抽出する前処理段階から開始する分類法を提案する。 次の段階は、遺伝子の機能的分類の確率を出力するディープ畳み込みニューラルネットワークステージ(DCNN)である。 アプローチ1では, 精製された3Dタンパク質構造体(PDB)をプールするが, アプローチ2では, 一次構造体と対応するPDBは, 遺伝子の一次構造情報に基づいて分離される。 dcnnの段階に続いて、動的プログラミングに基づく手法を用いて、プライマリ構造の機能の最終的な予測を行う。 提案手法をCOSMICオンラインデータベースを用いて検証した。 オンゴとtsgの分類問題では、アプローチ1のdcnnステージとアプローチ2dcnnのaurocはそれぞれ0.978と0.765である。 最終遺伝子の一次構造機能分類のAUROCは、それぞれ0.989と0.879である。 比較として現在報告されているAUROCは0.924である。

Mutations in proto-oncogenes (ONGO) and the loss of regulatory function of tumor suppression genes (TSG) are the common underlying mechanism for uncontrolled tumor growth. While cancer is a heterogeneous complex of distinct diseases, finding the potentiality of the genes related functionality to ONGO or TSG through computational studies can help develop drugs that target the disease. This paper proposes a classification method that starts with a preprocessing stage to extract the feature map sets from the input 3D protein structural information. The next stage is a deep convolutional neural network stage (DCNN) that outputs the probability of functional classification of genes. We explored and tested two approaches: in Approach 1, all filtered and cleaned 3D-protein-structure s (PDB) are pooled together, whereas in Approach 2, the primary structures and their corresponding PDBs are separated according to the genes' primary structural information. Following the DCNN stage, a dynamic programming-based method is used to determine the final prediction of the primary structures' functionality. We validated our proposed method using the COSMIC online database. For the ONGO vs TSG classification problem, the AUROC of the DCNN stage for Approach 1 and Approach 2 DCNN are 0.978 and 0.765, respectively. The AUROCs of the final genes' primary structure functionality classification for Approach 1 and Approach 2 are 0.989, and 0.879, respectively. For comparison, the current state-of-the-art reported AUROC is 0.924.
翻訳日:2021-05-19 13:49:50 公開日:2021-05-17
# (参考訳) 騒音はどのくらいか? 消費者信用のデータと格差

How Costly is Noise? Data and Disparities in Consumer Credit ( http://arxiv.org/abs/2105.07554v1 )

ライセンス: CC BY 4.0
Laura Blattner and Scott Nelson(参考訳) 我々は、米国の信用市場における歴史的に保存されていないグループのデフォルトリスクを評価するとき、銀行はより不確実性に直面しており、この情報格差は、非効率で不平等な信用市場結果の定量的に重要な要因であることを示している。 最初に、広く使われている信用スコアは、歴史的に過小評価されたグループに対するデフォルトリスクの統計的にノイズの多い指標であることを示す。 このノイズは、主に、モデル適合の問題(例えば、スコアリングモデルに保護クラスを含めることができないこと)からではなく、基礎となる信用レポートデータ(例えば、薄いクレジットファイル)の説明力によって生じる。 情報の不均質性を考慮した構造モデルの推定を行い,米国の住宅ローン市場における情報格差への対処から得た利益を定量化する。 信用スコアの精度を等しくすることで、不利なグループに対する承認率と信用不履行の格差を約半分減らすことができる。

We show that lenders face more uncertainty when assessing default risk of historically under-served groups in US credit markets and that this information disparity is a quantitatively important driver of inefficient and unequal credit market outcomes. We first document that widely used credit scores are statistically noisier indicators of default risk for historically under-served groups. This noise emerges primarily through the explanatory power of the underlying credit report data (e.g., thin credit files), not through issues with model fit (e.g., the inability to include protected class in the scoring model). Estimating a structural model of lending with heterogeneity in information, we quantify the gains from addressing these information disparities for the US mortgage market. We find that equalizing the precision of credit scores can reduce disparities in approval rates and in credit misallocation for disadvantaged groups by approximately half.
翻訳日:2021-05-19 02:55:54 公開日:2021-05-17
# (参考訳) トランスファーブル機械学習を用いた電力系統安定性予測 [全文訳有]

Power-grid stability prediction using transferable machine learnings ( http://arxiv.org/abs/2105.07562v1 )

ライセンス: CC BY 4.0
Seong-Gyu Yang and Beom Jun Kim and Seung-Woo Son and Heetae Kim(参考訳) 複雑なネットワーク解析は数値モデルを用いて電力グリッドの安定性を改善する手がかりとなった。 しかし、数値シミュレーションの高い計算コストは、特に周波数同期などの電力グリッドの動的特性を扱う場合にこのアプローチを阻害している。 本研究では,電力系統同期の安定性を推定する機械学習手法について検討する。 ランダムフォレスト(ランダムフォレスト)、サポートベクターマシン(サポートベクターマシン)、人工知能ニューラルネットワーク(人工知能)の3つの異なる機械学習アルゴリズムをテストする。 これら3つの機械学習モデルは、同種ノードよりも不均一な入力電力分布で訓練された場合、パワーグリッドノードの同期安定性をよりよく予測する。 また、イギリス、スペイン、フランス、ドイツの実世界の電力グリッドを用いて、合成電力グリッドで訓練された機械学習アルゴリズムが、実世界の電力グリッドの安定性予測に移行可能であることを実証した。

Complex network analyses have provided clues to improve power-grid stability with the help of numerical models. The high computational cost of numerical simulations, however, has inhibited the approach especially when it deals with the dynamic properties of power grids such as frequency synchronization. In this study, we investigate machine learning techniques to estimate the stability of power grid synchronization. We test three different machine learning algorithms -- random forest, support vector machine, and artificial neural network -- training them with two different types of synthetic power grids consisting of homogeneous and heterogeneous input-power distribution, respectively. We find that the three machine learning models better predict the synchronization stability of power-grid nodes when they are trained with the heterogeneous input-power distribution than the homogeneous one. With the real-world power grids of Great Britain, Spain, France, and Germany, we also demonstrate that the machine learning algorithms trained on synthetic power grids are transferable to the stability prediction of the real-world power grids, which implies the prospective applicability of machine learning techniques on power-grid studies.
翻訳日:2021-05-19 02:53:49 公開日:2021-05-17
# (参考訳) BatchNormにおける"バッチ"の再考 [全文訳有]

Rethinking "Batch" in BatchNorm ( http://arxiv.org/abs/2105.07576v1 )

ライセンス: CC BY 4.0
Yuxin Wu, Justin Johnson(参考訳) BatchNormは、現代の畳み込みニューラルネットワークにおいて重要なビルディングブロックである。 個々のサンプルではなく"バッチ"で操作するというユニークな特性は、ディープラーニングにおける他のほとんどの操作とは大きく異なる振る舞いをもたらす。 その結果、モデルのパフォーマンスに微妙に悪影響を及ぼす可能性のある多くの隠れた注意点につながります。 本稿では,視覚認知タスクにおけるこのような問題を徹底的にレビューし,BatchNormの「バッチ」概念における異なる選択を再考することの鍵となることを示す。 これらの注意点とその緩和点を提示することで、このレビューがBatchNormをより効果的に活用できることを期待している。

BatchNorm is a critical building block in modern convolutional neural networks. Its unique property of operating on "batches" instead of individual samples introduces significantly different behaviors from most other operations in deep learning. As a result, it leads to many hidden caveats that can negatively impact model's performance in subtle ways. This paper thoroughly reviews such problems in visual recognition tasks, and shows that a key to address them is to rethink different choices in the concept of "batch" in BatchNorm. By presenting these caveats and their mitigations, we hope this review can help researchers use BatchNorm more effectively.
翻訳日:2021-05-19 02:37:44 公開日:2021-05-17
# (参考訳) Fuzzy と Paraconsistent Annotated Logic を用いた電気システムデータネットワーク機器のモニタリング [全文訳有]

Monitoring electrical systems data-network equipment by means ofFuzzy and Paraconsistent Annotated Logic ( http://arxiv.org/abs/2105.07579v1 )

ライセンス: CC BY 4.0
Hyghor Miranda Cortes, Paulo Eduardo Santos, Joao Inacio da Silva Filho(参考訳) ITデータネットワーク要素から得られる情報の量と複雑さの継続的な増加は、その適切な監視と管理のために、現実です。 変電所や水力発電所の効果的な監視と制御を提供する電気システムにおけるデータネットワークも同様である。 この事実への貢献は、そのようなデータネットワークによって監視されるインストールや新しい環境の増加と、関連する技術の継続的な進化である。 このシチュエーションは、適切なレベルの監視と、結果としてこれらのシステムの管理を維持するために、順番に対処しなければならない問題である不完全および/または矛盾するデータをもたらす可能性がある。 本稿では, 電気システムにおけるデータネットワーク機器の状況を監視するための専門家システムのプロトタイプを開発し, 推定を自明にすることなく不整合を処理し, 遠隔制御の立場から, 地域運用センター(ROC)による水力発電所・変電所の遠隔制御を行う。 エキスパートシステムは、不確実な信号を解析し、水力発電所や変電所の遠隔制御に重要な機器の動作条件(フォーティ、異常、不安定、不整合/不確定)を生成するために、ファジィ論理とパラコンシスタントアノテーション論理と2値アノテーション(PAL2v)を組み合わせたアルゴリズムを用いて開発された。 このエキスパートシステムのプロトタイプはclp500ソフトウェア(efacecの製造元)を備えた仮想サーバにインストールされ、遠隔制御環境を表すアジェニック変電所とジェネリック水力発電所を備えた地域(ブラジル)の運用センターからなるシナリオを調査した。

The constant increase in the amount and complexity of information obtained from IT data networkelements, for its correct monitoring and management, is a reality. The same happens to data net-works in electrical systems that provide effective supervision and control of substations and hydro-electric plants. Contributing to this fact is the growing number of installations and new environmentsmonitore d by such data networks and the constant evolution of the technologies involved. This sit-uation potentially leads to incomplete and/or contradictory data, issues that must be addressed inorder to maintain a good level of monitoring and, consequently, management of these systems. Inthis paper, a prototype of an expert system is developed to monitor the status of equipment of datanetworks in electrical systems, which deals with inconsistencies without trivialising the inferences.This is accomplished in the context of the remote control of hydroelectric plants and substationsby a Regional Operation Centre (ROC). The expert system is developed with algorithms definedupon a combination of Fuzzy logic and Paraconsistent Annotated Logic with Annotation of TwoValues (PAL2v) in order to analyse uncertain signals and generate the operating conditions (faulty,normal, unstable or inconsistent / indeterminate) of the equipment that are identified as importantfor the remote control of hydroelectric plants and substations. A prototype of this expert systemwas installed on a virtualised server with CLP500 software (from the EFACEC manufacturer) thatwas applied to investigate scenarios consisting of a Regional (Brazilian) Operation Centre, with aGeneric Substation and a Generic Hydroelectric Plant, representing a remote control environment.
翻訳日:2021-05-19 02:11:16 公開日:2021-05-17
# (参考訳) ニューラルスタイル移動を用いた皮膚内視鏡画像分類

Dermoscopic Image Classification with Neural Style Transfer ( http://arxiv.org/abs/2105.07592v1 )

ライセンス: CC BY 4.0
Yutong Li, Ruoqing Zhu, Annie Qu and Mike Yeh(参考訳) 最も一般的なヒト悪性腫瘍である皮膚癌は、主に皮膚内視鏡検査、生検、病理組織検査によって視覚的に診断される。 しかし,他の種類の癌と異なり,皮膚病変の自動分類は,病変の外観の異常や変動が原因で困難であると考えられる。 本研究では,皮膚病変分類問題に対する新しい画像前処理ステップとしてニューラルスタイル転送(NST)の適応を提案する。 我々は各皮膚内視鏡像をスタイル画像として表現し、病変のスタイルを均一な内容画像に転送する。 これにより、各病変の主変数を同じ局所化領域に移行し、生成した画像を統合し、テンソル分解により潜在低ランクな特徴を抽出することができる。 我々は,ISIC(International Skin Imaging Collaboration)データベースから収集・前処理された皮膚内視鏡的データセットを用いて,モデルをトレーニングし,クロスバリデーションする。 スタイル転送画像を用いて抽出したテンソル特徴に基づく分類性能は,生画像よりも10%以上向上し,転送学習による事前学習されたcnnモデルとの競合性も高いことが示された。 さらに、テンソル分解は、臨床解釈と洞察を提供する潜在スタイルのクラスターをさらに特定する。

Skin cancer, the most commonly found human malignancy, is primarily diagnosed visually via dermoscopic analysis, biopsy, and histopathological examination. However, unlike other types of cancer, automated image classification of skin lesions is deemed more challenging due to the irregularity and variability in the lesions' appearances. In this work, we propose an adaptation of the Neural Style Transfer (NST) as a novel image pre-processing step for skin lesion classification problems. We represent each dermoscopic image as the style image and transfer the style of the lesion onto a homogeneous content image. This transfers the main variability of each lesion onto the same localized region, which allows us to integrate the generated images together and extract latent, low-rank style features via tensor decomposition. We train and cross-validate our model on a dermoscopic data set collected and preprocessed from the International Skin Imaging Collaboration (ISIC) database. We show that the classification performance based on the extracted tensor features using the style-transferred images significantly outperforms that of the raw images by more than 10%, and is also competitive with well-studied, pre-trained CNN models through transfer learning. Additionally, the tensor decomposition further identifies latent style clusters, which may provide clinical interpretation and insights.
翻訳日:2021-05-19 01:45:22 公開日:2021-05-17
# (参考訳) 微分可能SLAM-net:ビジュアルナビゲーションのための粒子SLAMの学習 [全文訳有]

Differentiable SLAM-net: Learning Particle SLAM for Visual Navigation ( http://arxiv.org/abs/2105.07593v1 )

ライセンス: CC BY 4.0
Peter Karkus, Shaojun Cai, David Hsu(参考訳) ローカライゼーションとマッピング(SLAM)は、高速な回転、特徴のない壁、カメラ品質の低下など、視覚ロボットナビゲーションなど、多くの下流アプリケーションにとって依然として困難である。 本稿では,これまで見つからなかった屋内環境における平面ロボットナビゲーションを実現するために,SLAMネットワークとナビゲーションアーキテクチャを導入する。 SLAM-netは、パーティクルフィルタに基づくSLAMアルゴリズムを微分可能な計算グラフにエンコードし、SLAMアルゴリズムを通じてバックプロパゲートすることでタスク指向のニューラルネットワークコンポーネントを学習する。 最終目的のためにすべてのモデルコンポーネントを一緒に最適化できるため、slam-netは困難な条件下で堅牢であることを学びます。 私たちは、実世界のRGBとRGB-Dデータセットの異なるHabitatプラットフォームで実験を行います。 SLAM-netは雑音条件下で広く適応したORB-SLAMよりも著しく優れていた。 当社のslam-netによるナビゲーションアーキテクチャは,habitat challenge 2020 pointnavタスクの最先端を,大きなマージン(37%から64%の成功)で改善しています。 プロジェクトウェブサイト: http://sites.google. com/view/slamnet

Simultaneous localization and mapping (SLAM) remains challenging for a number of downstream applications, such as visual robot navigation, because of rapid turns, featureless walls, and poor camera quality. We introduce the Differentiable SLAM Network (SLAM-net) along with a navigation architecture to enable planar robot navigation in previously unseen indoor environments. SLAM-net encodes a particle filter based SLAM algorithm in a differentiable computation graph, and learns task-oriented neural network components by backpropagating through the SLAM algorithm. Because it can optimize all model components jointly for the end-objective, SLAM-net learns to be robust in challenging conditions. We run experiments in the Habitat platform with different real-world RGB and RGB-D datasets. SLAM-net significantly outperforms the widely adapted ORB-SLAM in noisy conditions. Our navigation architecture with SLAM-net improves the state-of-the-art for the Habitat Challenge 2020 PointNav task by a large margin (37% to 64% success). Project website: http://sites.google. com/view/slamnet
翻訳日:2021-05-19 01:44:23 公開日:2021-05-17
# (参考訳) クロスクラスター重林 [全文訳有]

Cross-Cluster Weighted Forests ( http://arxiv.org/abs/2105.07610v1 )

ライセンス: CC BY 4.0
Maya Ramchandran, Rajarshi Mukherjee, and Giovanni Parmigiani(参考訳) トレーニングデータセット内の自然なクラスタリングやバッチエフェクトの存在をよりよく扱うために、機械学習アルゴリズムを適用することは、さまざまな生物学的応用において必須である。 本稿では,特徴分布に不均一性をもつ単一データセット内のクラスタ上で学習したランダムフォレスト学習者の影響について考察する。 従来のランダムフォレストアルゴリズムに比べて,k平均等のアルゴリズムによって決定されたクラスタ上で訓練された森林のアンサンブルの構築精度と一般化性が著しく向上することがわかった。 我々は,新しいアプローチをクロスクラスタ重み付き森林として表現し,データ生成シナリオと結果モデルに対するロバスト性を検討する。 さらに,本手法の既存パラダイムに対するメリットを提示する上で,データ分割およびアンサンブル重み付け戦略が与える影響について検討する。 最後に,本研究のアプローチを,自然にクラスタに分割可能ながん分子プロファイリングと遺伝子発現データセットに適用し,従来のランダムフォレストよりも優れていることを示す。 コードと補足資料はhttps://github.com/m -ramchandran/cross-c luster.comで入手できる。

Adapting machine learning algorithms to better handle the presence of natural clustering or batch effects within training datasets is imperative across a wide variety of biological applications. This article considers the effect of ensembling Random Forest learners trained on clusters within a single dataset with heterogeneity in the distribution of the features. We find that constructing ensembles of forests trained on clusters determined by algorithms such as k-means results in significant improvements in accuracy and generalizability over the traditional Random Forest algorithm. We denote our novel approach as the Cross-Cluster Weighted Forest, and examine its robustness to various data-generating scenarios and outcome models. Furthermore, we explore the influence of the data-partitioning and ensemble weighting strategies on conferring the benefits of our method over the existing paradigm. Finally, we apply our approach to cancer molecular profiling and gene expression datasets that are naturally divisible into clusters and illustrate that our approach outperforms classic Random Forest. Code and supplementary material are available at https://github.com/m -ramchandran/cross-c luster.
翻訳日:2021-05-19 01:25:03 公開日:2021-05-17
# (参考訳) スタイル制限付きGAN:生成逆ネットワークを用いたスタイル制限付きマルチモーダル翻訳 [全文訳有]

Style-Restricted GAN: Multi-Modal Translation with Style Restriction Using Generative Adversarial Networks ( http://arxiv.org/abs/2105.07621v1 )

ライセンス: CC0 1.0
Sho Inoue and Tad Gonsalves(参考訳) GAN(Generative Adversarial Networks)を用いた画像と画像の非ペア変換は,複数の領域間で画像の変換に成功している。 さらに、最近の研究では、ジェネレータの出力を多様化する方法が示されている。 しかしながら、ジェネレータが結果の多様化方法に制限がないため、予期せぬ特徴を翻訳する可能性が高い。 本稿では,入力画像を異なるスタイルで異なるドメインに転送する新しい手法であるSRGAN(Style-Restrict ed GAN)を提案する。 さらに,KL分散損失の代わりに,バッチKL分散損失,相関損失,ヒストグラム模倣損失という,符号化された特徴の分布を制限するために3つの新たな損失を採用した。 この研究は、精度、リコール、密度、カバーの質的な結果とともに定量的に報告している。 提案した3つの損失は、従来のKL損失と比較して多様性レベルの向上につながる。 特に、SRGANはCelebA顔データセットのクラス非関連の特徴を変化させることなく、より多様性の高い翻訳に成功した。 実装はhttps://github.com/s hinshoji01/Style-Res tricted_GANで公開しています。

Unpaired image-to-image translation using Generative Adversarial Networks (GAN) is successful in converting images among multiple domains. Moreover, recent studies have shown a way to diversify the outputs of the generator. However, since there are no restrictions on how the generator diversifies the results, it is likely to translate some unexpected features. In this paper, we propose Style-Restricted GAN (SRGAN), a novel approach to transfer input images into different domains' with different styles, changing the exclusively class-related features. Additionally, instead of KL divergence loss, we adopt 3 new losses to restrict the distribution of the encoded features: batch KL divergence loss, correlation loss, and histogram imitation loss. The study reports quantitative as well as qualitative results with Precision, Recall, Density, and Coverage. The proposed 3 losses lead to the enhancement of the level of diversity compared to the conventional KL loss. In particular, SRGAN is found to be successful in translating with higher diversity and without changing the class-unrelated features in the CelebA face dataset. Our implementation is available at https://github.com/s hinshoji01/Style-Res tricted_GAN.
翻訳日:2021-05-19 01:07:27 公開日:2021-05-17
# (参考訳) 低リソース機械翻訳品質推定のためのアンサンブルベース変換学習 [全文訳有]

Ensemble-based Transfer Learning for Low-resource Machine Translation Quality Estimation ( http://arxiv.org/abs/2105.07622v1 )

ライセンス: CC BY 4.0
Ting-Wei Wu, Yung-An Hsieh, Yi-Chieh Liu(参考訳) 機械翻訳の品質評価 (QE) は、未知のMTシステムから与えられた翻訳出力の品質スコアを推定するタスクである。 しかし、低リソース言語のQEスコアは通常、難解で収集が難しい。 本稿では,機械翻訳に関する第5回会議(WMT20)のSentence-Level QE Shared Taskに焦点を当てる。 本研究の目的は、学習中にペア言語のQEスコアがほとんど与えられていない場合に、与えられた翻訳出力のQEスコアを予測することである。 我々は,他の雑多言語からのQEスコアと対象言語の翻訳結果を活用することで,このようなQEデータの不足を克服するためのトランスファー学習を用いたアンサンブルベースの予測器推定QEモデルを提案する。 評価結果に基づいて,多言語タスクにおける伝達学習の信頼性と一般化能力について,各拡張がQEモデルに与える影響を詳細に分析する。 最後に、各言語が事前学習したモデルと異なるレベルの並列学習コーパスと、ベースラインの2.54倍高い0.298のピアソン相関を組み合わせることで、アンサンブルモデルで最高の性能を得る。

Quality Estimation (QE) of Machine Translation (MT) is a task to estimate the quality scores for given translation outputs from an unknown MT system. However, QE scores for low-resource languages are usually intractable and hard to collect. In this paper, we focus on the Sentence-Level QE Shared Task of the Fifth Conference on Machine Translation (WMT20), but in a more challenging setting. We aim to predict QE scores of given translation outputs when barely none of QE scores of that paired languages are given during training. We propose an ensemble-based predictor-estimator QE model with transfer learning to overcome such QE data scarcity challenge by leveraging QE scores from other miscellaneous languages and translation results of targeted languages. Based on the evaluation results, we provide a detailed analysis of how each of our extension affects QE models on the reliability and the generalization ability to perform transfer learning under multilingual tasks. Finally, we achieve the best performance on the ensemble model combining the models pretrained by individual languages as well as different levels of parallel trained corpus with a Pearson's correlation of 0.298, which is 2.54 times higher than baselines.
翻訳日:2021-05-19 00:52:51 公開日:2021-05-17
# (参考訳) 文脈に基づく文類似性 [全文訳有]

Sentence Similarity Based on Contexts ( http://arxiv.org/abs/2105.07623v1 )

ライセンス: CC BY 4.0
Xiaofei Sun, Yuxian Meng, Xiang Ao, Fei Wu, Tianwei Zhang, Jiwei Li and Chun Fan(参考訳) 既存の文の類似性を測定する方法は、(1)ラベル付きデータセットはサイズが制限され、教師付きニューラルネットワークのトレーニングが不十分である、(2)文間の意味スコアを計算するための教師なし言語モデリング(lm)モデルにはトレーニング-テストギャップがある、という2つの課題に直面している。 これにより、このタスクのパフォーマンスが低下する。 本稿では,この2つの課題に対処する新しい枠組みを提案する。 提案する枠組みは,文の意味を文脈によって定義し,同じ文脈で2つの文を生成する確率を比較することにより,文の類似性を計測できるという基本的な考え方に基づいている。 提案フレームワークは、2つの文間の意味的類似性スコアを教師なしで生成し、列車とテストのギャップを大きく埋めることのできる高品質で大規模なデータセットを生成する。 大規模な実験により、提案フレームワークは、さまざまなデータセットにまたがる教師なし設定と教師なし設定の両方の下で、既存のベースラインに対して大幅なパフォーマンス向上を実現することが示された。

Existing methods to measure sentence similarity are faced with two challenges: (1) labeled datasets are usually limited in size, making them insufficient to train supervised neural models; (2) there is a training-test gap for unsupervised language modeling (LM) based models to compute semantic scores between sentences, since sentence-level semantics are not explicitly modeled at training. This results in inferior performances in this task. In this work, we propose a new framework to address these two issues. The proposed framework is based on the core idea that the meaning of a sentence should be defined by its contexts, and that sentence similarity can be measured by comparing the probabilities of generating two sentences given the same context. The proposed framework is able to generate high-quality, large-scale dataset with semantic similarity scores between two sentences in an unsupervised manner, with which the train-test gap can be largely bridged. Extensive experiments show that the proposed framework achieves significant performance boosts over existing baselines under both the supervised and unsupervised settings across different datasets.
翻訳日:2021-05-19 00:40:04 公開日:2021-05-17
# (参考訳) TAT-QA:財務における語彙とテキストのハイブリッドに関するベンチマーク [全文訳有]

TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance ( http://arxiv.org/abs/2105.07624v1 )

ライセンス: CC BY 4.0
Fengbin Zhu, Wenqiang Lei, Youcheng Huang, Chao Wang, Shuo Zhang, Jiancheng Lv, Fuli Feng and Tat-Seng Chua(参考訳) 表とテキストの両方を組み合わせたハイブリッドデータ(例えば財務報告)は、現実世界でかなり普及している。 しかし、そのようなハイブリッドデータに対する質問応答(QA)は、既存の研究では無視されている。 本研究では、実際の財務報告からサンプルを抽出し、タブラルデータとテクスチャデータの両方を含む新しい大規模QAデータセット(TAT-QA)を構築する。 さらに,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。 シーケンシャルタグ付け(sequence tagging)を使用して、テーブルから関連する細胞を抽出し、テキストから関連するスパンを推論し、それらのセマンティクスを推論し、最終回答に到達する集約演算子のセットでそれらの上にシンボリック推論を適用する。 TAGOPachieves 58.0% inF1,これは以前の最良ベースラインモデルよりも11.1%絶対的な増加である。 しかし、この結果はF1の90.8%という専門家の業績にはまだ及ばない。 我々のTAT-QAは非常に困難であり、ハイブリッドフォームデータを扱う強力なQAモデルのトレーニングとテストのベンチマークとして機能することを示す。

Hybrid data combining both tabular and textual content (e.g., financial reports) are quite pervasive in the real world. However, Question Answering (QA) over such hybrid data is largely neglected in existing research. In this work, we extract samples from real financial reports to build a new large-scale QA dataset containing both Tabular And Textual data, named TAT-QA, where numerical reasoning is usually required to infer the answer, such as addition, subtraction, multiplication, division, counting, comparison/sorting, and the compositions. We further propose a novel QA model termed TAGOP, which is capable of reasoning over both tables and text. It adopts sequence tagging to extract relevant cells from the table along with relevant spans from the text to infer their semantics, and then applies symbolic reasoning over them with a set of aggregation operators to arrive at the final answer. TAGOPachieves 58.0% inF1, which is an 11.1% absolute increase over the previous best baseline model, according to our experiments on TAT-QA. But this result still lags far behind performance of expert human, i.e.90.8% in F1. It is demonstrated that our TAT-QA is very challenging and can serve as a benchmark for training and testing powerful QA models that address hybrid form data.
翻訳日:2021-05-19 00:25:50 公開日:2021-05-17
# (参考訳) MRCに基づくSpan-Span予測としての依存性解析 [全文訳有]

Dependency Parsing as MRC-based Span-Span Prediction ( http://arxiv.org/abs/2105.07654v1 )

ライセンス: CC BY 4.0
Leilei Gan, Yuxian Meng, Kun Kuang, Xiaofei Sun, Chun Fan, Fei Wu and Jiwei Li(参考訳) 依存関係解析のための高階メソッドは部分的には対処できるが、依存ツリーのエッジが単語レベルではなくテキストスパン/サブツリーレベルで構築されるべき問題に完全には対処できない。 % この欠点は、単語が頭と正しくリンクされているにもかかわらず、ある単語に根ざした対応する木を覆う誤ったスパンを引き起こす可能性がある。 本稿では,この問題に対処するための新しい依存関係解析手法を提案する。 提案手法は,スパンとサブツリーの関係を直接モデル化することによって依存性木を構築する。 候補テキストスパンを提案する "it text span proposal module} と,提案されているスパン間のリンクを構成する "it span linking module} の2つのモジュールで構成されている。 我々は,MRCセットアップでスパンリンクモジュールを形式化するために,マシン読み取り理解(MRC)フレームワークをバックボーンとして使用し,リンクすべきテキストスパン/サブツリーを抽出するクエリとしてスパンを使用する。 提案手法は,(1)依存関係ツリー内のエッジをサブツリー間で構築する,という基本的な問題に対処する,(2) MRCフレームワークは,提案段階において欠落したスパンを検索可能にすることにより,適用可能なスパンをリコールする。 PTB, CTBおよびUniversal Dependencies (UD) ベンチマークの大規模な実験により, 提案手法の有効性が示された。 PTBおよびUDベンチマークで新しいSOTA性能を達成することができ、CTBデータセットで以前のSOTAモデルと競合する性能が得られる。 コードはhttps://github.com/S hannonAI/mrc-for-dep endency-parsingで入手できる。

Higher-order methods for dependency parsing can partially but not fully addresses the issue that edges in dependency tree should be constructed at the text span/subtree level rather than word level. % This shortcoming can cause an incorrect span covered the corresponding tree rooted at a certain word though the word is correctly linked to its head. In this paper, we propose a new method for dependency parsing to address this issue. The proposed method constructs dependency trees by directly modeling span-span (in other words, subtree-subtree) relations. It consists of two modules: the {\it text span proposal module} which proposes candidate text spans, each of which represents a subtree in the dependency tree denoted by (root, start, end); and the {\it span linking module}, which constructs links between proposed spans. We use the machine reading comprehension (MRC) framework as the backbone to formalize the span linking module in an MRC setup, where one span is used as a query to extract the text span/subtree it should be linked to. The proposed method comes with the following merits: (1) it addresses the fundamental problem that edges in a dependency tree should be constructed between subtrees; (2) the MRC framework allows the method to retrieve missing spans in the span proposal stage, which leads to higher recall for eligible spans. Extensive experiments on the PTB, CTB and Universal Dependencies (UD) benchmarks demonstrate the effectiveness of the proposed method. We are able to achieve new SOTA performances on PTB and UD benchmarks, and competitive performances to previous SOTA models on the CTB dataset. Code is available at https://github.com/S hannonAI/mrc-for-dep endency-parsing.
翻訳日:2021-05-19 00:10:39 公開日:2021-05-17
# (参考訳) 多様な種間のプロモーター予測における機械学習とディープラーニング技術の比較 [全文訳有]

Comparison of machine learning and deep learning techniques in promoter prediction across diverse species ( http://arxiv.org/abs/2105.07659v1 )

ライセンス: CC BY 4.0
Nikita Bhandari, Satyajeet Khare, Rahee Walambe, Ketan Kotecha(参考訳) 遺伝子プロモーターは転写開始部位の周りに位置する重要なDNA調節因子であり、遺伝子転写の制御に責任がある。 プロモーターの予測には、アライメントに基づく、信号に基づく、およびコンテンツに基づく様々なアプローチが報告されている。 しかし、全てのプロモーターシーケンスは明示的な特徴を示さないため、これらの手法の予測性能は乏しい。 したがって、プロモーター予測のために多くの機械学習モデルやディープラーニングモデルが提案されている。 本研究では,3つの異なる真核生物のゲノム配列を用いたベクターエンコーディングとプロモーター分類の研究を行った。 酵母(Saccharomyces cerevisiae)、A. thaliana(植物)、ヒト(Homo sapiens)。 本研究では,1次元畳み込みニューラルネットワーク(CNN)モデルを用いた1ホットベクトル符号化法と周波数ベースのトークン化(FBT)を比較した。 その結果、FBTは、分類の感度や特異性に影響を与えることなく、トレーニング時間を短縮する入力次元が短いことがわかった。 長期記憶型ニューラルネットワーク(lstm)とランダムフォレスト分類器(rf)を用いて,k-merサイズ2,4,8のプロモーター分類を行った。 cnnは非プロモーター配列からのプロモーターの分類(バイナリ分類)やプロモーター配列の種別分類(マルチクラス分類)において優れていることがわかった。 要約すると、この研究の貢献は、合成シャッフル負のデータセットと周波数ベースのトークン化による前処理である。 本研究は、ゲノム応用における分類タスクの包括的かつ汎用的な枠組みを提供し、様々な分類問題に拡張することができる。

Gene promoters are the key DNA regulatory elements positioned around the transcription start sites and are responsible for regulating gene transcription process. Various alignment-based, signal-based and content-based approaches are reported for the prediction of promoters. However, since all promoter sequences do not show explicit features, the prediction performance of these techniques is poor. Therefore, many machine learning and deep learning models have been proposed for promoter prediction. In this work, we studied methods for vector encoding and promoter classification using genome sequences of three distinct higher eukaryotes viz. yeast (Saccharomyces cerevisiae), A. thaliana (plant) and human (Homo sapiens). We compared one-hot vector encoding method with frequency-based tokenization (FBT) for data pre-processing on 1-D Convolutional Neural Network (CNN) model. We found that FBT gives a shorter input dimension reducing the training time without affecting the sensitivity and specificity of classification. We employed the deep learning techniques, mainly CNN and recurrent neural network with Long Short Term Memory (LSTM) and random forest (RF) classifier for promoter classification at k-mer sizes of 2, 4 and 8. We found CNN to be superior in classification of promoters from non-promoter sequences (binary classification) as well as species-specific classification of promoter sequences (multiclass classification). In summary, the contribution of this work lies in the use of synthetic shuffled negative dataset and frequency-based tokenization for pre-processing. This study provides a comprehensive and generic framework for classification tasks in genomic applications and can be extended to various classification problems.
翻訳日:2021-05-18 23:54:42 公開日:2021-05-17
# (参考訳) global wheat head dataset 2021: より多様性のあるベンチマークコムギの頭部局在性を改善するためのアップデート [全文訳有]

Global Wheat Head Dataset 2021: an update to improve the benchmarking wheat head localization with more diversity ( http://arxiv.org/abs/2105.07660v1 )

ライセンス: CC BY 4.0
Etienne DAVID, Mario Serouart, Daniel Smith, Simon Madec, Kaaviya Velumani, Shouyang Liu, Xu Wang, Francisco Pinto Espinosa, Shahameh Shafiee, Izzat S. A. Tahir, Hisashi Tsujimoto, Shuhei Nasuda, Bangyou Zheng, Norbert Kichgessner, Helge Aasen, Andreas Hund, Pouria Sadhegi-Tehran, Koichi Nagasawa, Goro Ishikawa, S\'ebastien Dandrifosse, Alexis Carlier, Benoit Mercatoris, Ken Kuroki, Haozhou Wang, Masanori Ishii, Minhajul A. Badhon, Curtis Pozniak, David Shaner LeBauer, Morten Lilimo, Jesse Poland, Scott Chapman, Benoit de Solan, Fr\'ed\'eric Baret, Ian Stavness, Wei Guo(参考訳) global wheat head detection (gwhd)データセットは2020年に作成され、様々な買収プラットフォームから取得した4,700のrgb画像と7つの国/機関から193,634個のラベル付きコムギヘッドを収集した。 カグルで開催されたコンペティションで、GWHDはコンピュータビジョンと農業科学のコミュニティから注目を集めている。 2020年のこの最初の経験から、特にデータサイズ、頭部の多様性、ラベルの信頼性の観点から、改善のためのいくつかの道が特定されている。 これらの問題に対処するため、2020年のデータセットは5か国から1,722枚の画像を追加して再検査、緩和、拡張され、81,553個の小麦の頭を追加できるようになった。 したがって、2021年にGWHD(Global Wheat Head Detection)データセットの新バージョンをリリースしたいと考えています。 GWHD 2021は現在http://www.global-wh eat.com/で公開されており、この更新データセットを使用するためにAIcrowd上で新たなデータチャレンジが実施された。

The Global Wheat Head Detection (GWHD) dataset was created in 2020 and has assembled 193,634 labelled wheat heads from 4,700 RGB images acquired from various acquisition platforms and 7 countries/institutio ns. With an associated competition hosted in Kaggle, GWHD has successfully attracted attention from both the computer vision and agricultural science communities. From this first experience in 2020, a few avenues for improvements have been identified, especially from the perspective of data size, head diversity and label reliability. To address these issues, the 2020 dataset has been reexamined, relabeled, and augmented by adding 1,722 images from 5 additional countries, allowing for 81,553 additional wheat heads to be added. We would hence like to release a new version of the Global Wheat Head Detection (GWHD) dataset in 2021, which is bigger, more diverse, and less noisy than the 2020 version. The GWHD 2021 is now publicly available at http://www.global-wh eat.com/ and a new data challenge has been organized on AIcrowd to make use of this updated dataset.
翻訳日:2021-05-18 23:41:39 公開日:2021-05-17
# (参考訳) 近似ノベルティ探索 [全文訳有]

Approximate Novelty Search ( http://arxiv.org/abs/2105.07691v1 )

ライセンス: CC BY 4.0
Anubhav Singh, Nir Lipovetzky, Miquel Ramirez, Javier Segovia-Aguas(参考訳) 幅に基づく探索アルゴリズムは、状態が一組の新規性カテゴリにマップされる、適切に定義された新規性の尺度に従って状態を優先順位付けして計画を求める。 状態の新規性を評価する空間と時間複雑性は、集合の濃度に指数関数的であることが知られている。 本稿では,新奇性と幅に基づく探索の多項式近似を求める新しい手法を提案する。 まず、ランダムサンプリングとブルームフィルタによる新規性計算を近似し、実行時間とメモリフットプリントを削減する。 第2に、オープンリストのノード拡張を強制するかを決定する適応ポリシーを用いて、ベストファースト検索を近似する。 これら2つのテクニックは、既存の幅ベースのアルゴリズムに統合され、国際計画コンペティションのベンチマークよりも、最先端のプランナーよりも優れたパフォーマンスを持つ新しいプランナーが生まれる。

Width-based search algorithms seek plans by prioritizing states according to a suitably defined measure of novelty, that maps states into a set of novelty categories. Space and time complexity to evaluate state novelty is known to be exponential on the cardinality of the set. We present novel methods to obtain polynomial approximations of novelty and width-based search. First, we approximate novelty computation via random sampling and Bloom filters, reducing the runtime and memory footprint. Second, we approximate the best-first search using an adaptive policy that decides whether to forgo the expansion of nodes in the open list. These two techniques are integrated into existing width-based algorithms, resulting in new planners that perform significantly better than other state-of-the-art planners over benchmarks from the International Planning Competitions.
翻訳日:2021-05-18 23:31:31 公開日:2021-05-17
# (参考訳) Twitterのインフォデミックの現状 [全文訳有]

The State of Infodemic on Twitter ( http://arxiv.org/abs/2105.07730v1 )

ライセンス: CC BY 4.0
Drishti Jain (1), Tavpritesh Sethi (1) ((1) Indraprastha Institute of Information Technology)(参考訳) インターネット上での誤解釈、操作、悪意のある情報の拡散に伴い、新型コロナウイルスを取り巻く誤報が最重要課題となっている。 現在の新型コロナウイルス(COVID-19)パンデミックの状況では、ソーシャルメディアの投稿やプラットフォームは、ウイルス自体を取り巻く深刻な不確実性に直面して、噂や誤報のリスクにさらされている。 同時に、新型コロナウイルスの不確実性と新しい性質は、「噂」に見える他の未確認情報も、この新型ウイルスの行動と影響の重要な指標となる可能性があることを意味する。 特にTwitterは、Covid-19が話題になっているこの嵐の中心に立った。 我々は,誤情報の拡散に関与するツイートとユーザの探索的分析を行い,その上で機械学習モデルと自然言語処理技術を用いて,そのツイートが誤情報を含んでいるかどうかを判定した。

Following the wave of misinterpreted, manipulated and malicious information growing on the Internet, the misinformation surrounding COVID-19 has become a paramount issue. In the context of the current COVID-19 pandemic, social media posts and platforms are at risk of rumors and misinformation in the face of the serious uncertainty surrounding the virus itself. At the same time, the uncertainty and new nature of COVID-19 means that other unconfirmed information that may appear "rumored" may be an important indicator of the behavior and impact of this new virus. Twitter, in particular, has taken a center stage in this storm where Covid-19 has been a much talked about subject. We have presented an exploratory analysis of the tweets and the users who are involved in spreading misinformation and then delved into machine learning models and natural language processing techniques to identify if a tweet contains misinformation.
翻訳日:2021-05-18 22:59:00 公開日:2021-05-17
# (参考訳) 深層ネットワークの活性化関数設計:線形性と有効初期化

Activation function design for deep networks: linearity and effective initialisation ( http://arxiv.org/abs/2105.07741v1 )

ライセンス: CC BY 4.0
Michael Murray, Vinayak Abrol, Jared Tanner(参考訳) ディープニューラルネットワークにデプロイされるアクティベーション関数は、初期化時のネットワーク性能に大きな影響を与え、トレーニングに影響を及ぼす。 本稿では,先行研究で確認された初期化における2つの問題,すなわち,ペアの入力相関の急速な収束と,勾配の消滅と爆発の防止について検討する。 これらの問題は、ネットワークのランダム初期化のバイアス分散$\sigma_b^2$に対して、原点付近に十分に大きな線形領域を持つ活性化関数を選択することで回避できることを示す。 このようなアクティベーション関数の使用は、テストとトレーニングの正確さ、トレーニング時間の両方において、実際に有意義なメリットをもたらすことを実証的に実証する。 さらに, 線形領域外における非線形活性化の形状は, トレーニングに比較的限られた影響を及ぼすと考えられる。 最後に、我々の結果は、以前よりもはるかに大きなバイアス分散を持つ、新しいハイパーパラメータレジームでネットワークをトレーニングすることを可能にします。

The activation function deployed in a deep neural network has great influence on the performance of the network at initialisation, which in turn has implications for training. In this paper we study how to avoid two problems at initialisation identified in prior works: rapid convergence of pairwise input correlations, and vanishing and exploding gradients. We prove that both these problems can be avoided by choosing an activation function possessing a sufficiently large linear region around the origin, relative to the bias variance $\sigma_b^2$ of the network's random initialisation. We demonstrate empirically that using such activation functions leads to tangible benefits in practice, both in terms test and training accuracy as well as training time. Furthermore, we observe that the shape of the nonlinear activation outside the linear region appears to have a relatively limited impact on training. Finally, our results also allow us to train networks in a new hyperparameter regime, with a much larger bias variance than has previously been possible.
翻訳日:2021-05-18 22:51:17 公開日:2021-05-17
# (参考訳) ソフトウェア要件工学におけるディープラーニングモデル [全文訳有]

Deep Learning Models in Software Requirements Engineering ( http://arxiv.org/abs/2105.07771v1 )

ライセンス: CC BY-SA 4.0
Maria Naumcheva(参考訳) 要件適用は、ソフトウェアプロジェクトの重要なフェーズである。要件のエラーは、ソフトウェアライフサイクルの後期で導入されたエラーよりも、修正するコストが高い。 しかし、多くのプロジェクトは十分な時間を要求に費やしていない。 要件の自動生成は、ソフトウェアプロジェクトの品質を改善することができる。 本稿では,バニラ文自動エンコーダを文生成タスクに適用し,その性能評価を行った。 生成された文は、英語でしか使われず、有意義な単語しか含まない。 より大きなデータセットにモデルを適用すれば、はるかに優れた結果が得られると考えています。 生成データの質を向上させるためには、さらなる研究が必要である。

Requirements elicitation is an important phase of any software project: the errors in requirements are more expensive to fix than the errors introduced at later stages of software life cycle. Nevertheless, many projects do not devote sufficient time to requirements. Automated requirements generation can improve the quality of software projects. In this article we have accomplished the first step of the research on this topic: we have applied the vanilla sentence autoencoder to the sentence generation task and evaluated its performance. The generated sentences are not plausible English and contain only a few meaningful words. We believe that applying the model to a larger dataset may produce significantly better results. Further research is needed to improve the quality of generated data.
翻訳日:2021-05-18 22:49:45 公開日:2021-05-17
# (参考訳) Be Causal:リコメンデーションでソーシャルネットワークを混乱させる [全文訳有]

Be Causal: De-biasing Social Network Confounding in Recommendation ( http://arxiv.org/abs/2105.07775v1 )

ライセンス: CC BY 4.0
Qian Li, Xiangmeng Wang, Guandong Xu(参考訳) レコメンデーションシステムでは、非ランダム(MNAR)問題の存在が選択バイアス問題を引き起こし、最終的にレコメンデーション性能を低下させる。 mnarに対処する一般的な方法は、いわゆる ``exposure'' の視点から欠落したエントリ、すなわち、あるアイテムがユーザに対してどのように露出(提供)されるかのモデル化を扱うことである。 既存のアプローチのほとんどは、不足するランダムな設定を模倣するために、観測された評価に対するヒューリスティックモデルまたは再重み付け戦略を使用している。 しかし、評価が因果的観点からいかに欠落しているかを明らかにする研究はほとんど行われていない。 因果推論における共起解析に触発されたdenc(de-bias network confounding in recommendation)と呼ばれる非バイアスでロバストな手法を提案する。 一般に、DNCはMNARの因果解析を、固有の要因(潜在ユーザやアイテムファクタなど)と補助ネットワークの観点から提供する。 特に、提案したDECの露光モデルは、観測された露光情報を保存しながら、ソーシャルネットワークの共同創業者を制御できる。 また、バランスの取れた表現学習を通じて、主要なユーザとアイテムの特徴を保持するデコンウンディングモデルを構築し、評価予測に基づいてDENCの一般化を可能にする。 3つのデータセットに関する広範囲な実験により、提案モデルが最先端のベースラインを上回ることを検証した。

In recommendation systems, the existence of the missing-not-at-rando m (MNAR) problem results in the selection bias issue, degrading the recommendation performance ultimately. A common practice to address MNAR is to treat missing entries from the so-called ``exposure'' perspective, i.e., modeling how an item is exposed (provided) to a user. Most of the existing approaches use heuristic models or re-weighting strategy on observed ratings to mimic the missing-at-random setting. However, little research has been done to reveal how the ratings are missing from a causal perspective. To bridge the gap, we propose an unbiased and robust method called DENC (De-bias Network Confounding in Recommendation) inspired by confounder analysis in causal inference. In general, DENC provides a causal analysis on MNAR from both the inherent factors (e.g., latent user or item factors) and auxiliary network's perspective. Particularly, the proposed exposure model in DENC can control the social network confounder meanwhile preserves the observed exposure information. We also develop a deconfounding model through the balanced representation learning to retain the primary user and item features, which enables DENC generalize well on the rating prediction. Extensive experiments on three datasets validate that our proposed model outperforms the state-of-the-art baselines.
翻訳日:2021-05-18 22:42:48 公開日:2021-05-17
# (参考訳) 条件付き生成逆ネットワークを用いた地域のブラスカ成長の時間予測と評価

Temporal Prediction and Evaluation of Brassica Growth in the Field using Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2105.07789v1 )

ライセンス: CC BY 4.0
Lukas Drees, Laura Verena Junker-Frohn, Jana Kierdorf, Ribana Roscher(参考訳) 農家は、肥料の施肥、雑草管理、収穫などの分野での行動を決定するための基盤として、植物の成長と性能をしばしば評価する。 植物の成長予測は、多種多様な環境要因によって影響を受けるため、大きな課題である。 本稿では,高スループット撮像センサ計測と植物成長予測のための自動解析を組み合わせた新しいモニタリング手法を提案する。 本手法のコアとなるのは、条件付き生成逆数ネットワークに基づく機械学習に基づく新しい成長モデルであり、個々の植物の将来的な出現を予測することができる。 実験室栽培のシロイヌナズナと野栽培のカリフラワー植物のRGB時系列画像を用いた実験により,本手法が今後の成長段階の現実的,信頼性,合理的な画像を生成することを示した。 ニューラルネットワークに基づくインスタンスセグメンテーションによって生成された画像の自動解釈は、植物の成長を記述する様々な表現型形質の導出を可能にする。

Farmers frequently assess plant growth and performance as basis for making decisions when to take action in the field, such as fertilization, weed control, or harvesting. The prediction of plant growth is a major challenge, as it is affected by numerous and highly variable environmental factors. This paper proposes a novel monitoring approach that comprises high-throughput imaging sensor measurements and their automatic analysis to predict future plant growth. Our approach's core is a novel machine learning-based growth model based on conditional generative adversarial networks, which is able to predict the future appearance of individual plants. In experiments with RGB time-series images of laboratory-grown Arabidopsis thaliana and field-grown cauliflower plants, we show that our approach produces realistic, reliable, and reasonable images of future growth stages. The automatic interpretation of the generated images through neural network-based instance segmentation allows the derivation of various phenotypic traits that describe plant growth.
翻訳日:2021-05-18 22:24:31 公開日:2021-05-17
# (参考訳) 不確実性認識のための大規模MRIの深部回帰解析 [全文訳有]

Deep regression for uncertainty-aware and interpretable analysis of large-scale body MRI ( http://arxiv.org/abs/2105.07797v1 )

ライセンス: CC BY 4.0
Taro Langner, Robin Strand, H{\aa}kan Ahlstr\"om, Joel Kullberg(参考訳) 英国バイオバンクのような大規模医学研究は、医療画像技術を用いた数千人のボランティア参加者を調査した。 膨大な量のメタデータと組み合わせることで、これらの画像からの解剖学的情報は、前例のない規模の医学的分析の可能性を秘めている。 しかしながら、それらの評価は、しばしば手動入力と長い処理時間を必要とし、バイオマーカーやその他の研究に利用可能な測定値の量を制限する。 回帰のための畳み込みニューラルネットワークによる最近のアプローチは、これらの評価を自動的に行うことができる。 英国バイオバンクの4万人以上の被験者のMRIデータについて、これらのシステムは人間の年齢、体組成などを推定することができる。 この分析のスタイルは、ほぼ完全にデータ駆動であり、手動による手動による介入や指導は不要である。 ネットワークはしばしば、トレーニングデータを提供するリファレンスメソッドを密にエミュレートし、確立された医療用金標準技術間の変動に匹敵するレベルの合意に達することができる。 平均分散基準とアンサンブルから得られた予測不確実性により、サイレント障害のリスクを個別に定量することができる。 さらに、塩分分析は関連する画像の特徴の解釈を可能にし、ネットワークが興味のある特定の臓器、四肢、領域を正しくターゲットできることを示した。

Large-scale medical studies such as the UK Biobank examine thousands of volunteer participants with medical imaging techniques. Combined with the vast amount of collected metadata, anatomical information from these images has the potential for medical analyses at unprecedented scale. However, their evaluation often requires manual input and long processing times, limiting the amount of reference values for biomarkers and other measurements available for research. Recent approaches with convolutional neural networks for regression can perform these evaluations automatically. On magnetic resonance imaging (MRI) data of more than 40,000 UK Biobank subjects, these systems can estimate human age, body composition and more. This style of analysis is almost entirely data-driven and no manual intervention or guidance with manually segmented ground truth images is required. The networks often closely emulate the reference method that provided their training data and can reach levels of agreement comparable to the expected variability between established medical gold standard techniques. The risk of silent failure can be individually quantified by predictive uncertainty obtained from a mean-variance criterion and ensembling. Saliency analysis furthermore enables an interpretation of the underlying relevant image features and showed that the networks learned to correctly target specific organs, limbs, and regions of interest.
翻訳日:2021-05-18 22:23:29 公開日:2021-05-17
# (参考訳) ダイナミクス不変知覚空間におけるマルチモーダル視覚位置認識 [全文訳有]

Multi-modal Visual Place Recognition in Dynamics-Invariant Perception Space ( http://arxiv.org/abs/2105.07800v1 )

ライセンス: CC BY 4.0
Lin Wu, Teng Wang, Changyin Sun(参考訳) 視覚位置認識はロボティクスの分野において必要不可欠な課題の1つである。 本稿では,動的環境における位置認識を改善するために,動的空間における意味的・視覚的モダリティのマルチモーダル融合の利用を初めて検討する。 まず,静的セマンティックセグメンテーションを生成するための新しいディープラーニングアーキテクチャを設計し,対応する動的イメージから直接静的イメージを復元する。 次に,空間ピラミドマッチングモデルを用いて静的セマンティックセグメンテーションを特徴ベクトルに符号化する。 並行して、静的なイメージは人気のあるbag-of-wordsモデルを使ってエンコードされる。 上記のマルチモーダルな特徴に基づき、最終的にクエリ画像と目標ランドマークの類似度を、その意味的および視覚的コードの合同類似度によって測定する。 動的環境における位置認識のための提案手法の有効性とロバスト性を示す。

Visual place recognition is one of the essential and challenging problems in the fields of robotics. In this letter, we for the first time explore the use of multi-modal fusion of semantic and visual modalities in dynamics-invariant space to improve place recognition in dynamic environments. We achieve this by first designing a novel deep learning architecture to generate the static semantic segmentation and recover the static image directly from the corresponding dynamic image. We then innovatively leverage the spatial-pyramid-matc hing model to encode the static semantic segmentation into feature vectors. In parallel, the static image is encoded using the popular Bag-of-words model. On the basis of the above multi-modal features, we finally measure the similarity between the query image and target landmark by the joint similarity of their semantic and visual codes. Extensive experiments demonstrate the effectiveness and robustness of the proposed approach for place recognition in dynamic environments.
翻訳日:2021-05-18 22:10:58 公開日:2021-05-17
# (参考訳) XAIのためのデザイナー・ユーザ・コミュニケーション: XAI設計を議論するための認識論的アプローチ [全文訳有]

Designer-User Communication for XAI: An epistemological approach to discuss XAI design ( http://arxiv.org/abs/2105.07804v1 )

ライセンス: CC BY 4.0
Juliana Jansen Ferreira and Mateus Monteiro(参考訳) 人工知能は、現在私たちが使っているあらゆる技術の一部になっています。 AIが人々の判断を知らせるならば、AIの結果、結果、行動の説明が必要とされる能力となる。 しかし、様々な利害関係者とのXAI機能に関する議論は、ささいな作業ではない。 XAIの利用可能なフレームワークとメソッドのほとんどは、データサイエンティストとML開発者をユーザとして重視している。 我々の研究は、AIシステムのエンドユーザー向けのXAIに関するものです。 AIシステム設計プロセスの初期段階で、すべての利害関係者とXAIを議論する必要があります。 本研究では,AIのデザイナと開発者間のXAIシナリオと機会に関する議論の運用方法について検討した。 私たちは、XAIシナリオを構造化し、議論するための概念的なツールとしてSignify Messageを採用しました。 我々は医療AIシステムに関する議論にその利用を実験する。

Artificial Intelligence is becoming part of any technology we use nowadays. If the AI informs people's decisions, the explanation about AI's outcomes, results, and behavior becomes a necessary capability. However, the discussion of XAI features with various stakeholders is not a trivial task. Most of the available frameworks and methods for XAI focus on data scientists and ML developers as users. Our research is about XAI for end-users of AI systems. We argue that we need to discuss XAI early in the AI-system design process and with all stakeholders. In this work, we aimed at investigating how to operationalize the discussion about XAI scenarios and opportunities among designers and developers of AI and its end-users. We took the Signifying Message as our conceptual tool to structure and discuss XAI scenarios. We experiment with its use for the discussion of a healthcare AI-System.
翻訳日:2021-05-18 21:59:41 公開日:2021-05-17
# (参考訳) TopicsRanksDC:2クラスデータに適用される距離ベースのトピックランキング [全文訳有]

TopicsRanksDC: Distance-based Topic Ranking applied on Two-Class Data ( http://arxiv.org/abs/2105.07826v1 )

ライセンス: CC BY 4.0
Malik Yousef, Jamal Al Qundus, Silvio Peikert, and Adrian Paschke(参考訳) 本稿では,トピック毎に生成される2つのクラスタ間の距離に基づいて,トピックのランク付けを行うTopicsRanksDCという新しいアプローチを提案する。 我々のデータは2つのクラスに関連付けられた文書から成り立っていると仮定する。 本手法は,これらの文書に含まれる各トピックを2つのクラスを分離する意義から分類する。 まず,LDA(Latent Dirichlet Allocation)を用いてトピックを検出する。 各トピックを定義する単語は2つのクラスタとして表現され、それぞれがクラスの1つに関連付けられている。 4つの距離メトリクス、Single Linkage、Completle Linkage、Average Linkage、そしてCentroid間の距離を計算する。 LDAトピックとランダムトピックの結果を比較した。 その結果,LDAトピックのランクはランダムトピックよりもはるかに高いことがわかった。 topicsranksdcツールの結果は、検索エンジンが関連するトピックを提案できるように、将来の作業に有望である。

In this paper, we introduce a novel approach named TopicsRanksDC for topics ranking based on the distance between two clusters that are generated by each topic. We assume that our data consists of text documents that are associated with two-classes. Our approach ranks each topic contained in these text documents by its significance for separating the two-classes. Firstly, the algorithm detects topics using Latent Dirichlet Allocation (LDA). The words defining each topic are represented as two clusters, where each one is associated with one of the classes. We compute four distance metrics, Single Linkage, Complete Linkage, Average Linkage and distance between the centroid. We compare the results of LDA topics and random topics. The results show that the rank for LDA topics is much higher than random topics. The results of TopicsRanksDC tool are promising for future work to enable search engines to suggest related topics.
翻訳日:2021-05-18 21:55:16 公開日:2021-05-17
# (参考訳) 教師なしドメイン適応のための深度と意味論の学習 [全文訳有]

Learning to Relate Depth and Semantics for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2105.07830v1 )

ライセンス: CC BY-SA 4.0
Suman Saha, Anton Obukhov, Danda Pani Paudel, Menelaos Kanakis, Yuhua Chen, Stamatios Georgoulis, Luc Van Gool(参考訳) 教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。 セマンティックセグメンテーションと単眼深度推定は相補的なタスクであることが示され、マルチタスク学習環境では、それらの関係の適切なエンコーディングは、両方のタスクのパフォーマンスをさらに向上させることができる。 そこで本研究では,意味的および深度予測のタスク依存性を符号化するクロスタスク関係層(CTRL)を提案する。 クロスタスク関係を捉えるために,タスク固有およびクロスタスク改善ヘッドを含むニューラルネットワークアーキテクチャを提案する。 さらに,semantic pseudo-labelsを活用した反復的自己学習(isl)トレーニングスキームを提案する。 これらのタスクの補完的な情報がより捕えられるので、両タスクのパフォーマンス改善を実験的に観察する。 具体的には,(1)補完的かつ相互依存的なタスクの全てのタスクのパフォーマンスを改善すること,(2)CTRLは,挑戦的なUDA設定におけるセマンティックセマンティックセマンティクスと深さ推定タスクの両方のパフォーマンスを改善すること,(3)提案したISLトレーニング手法により,セマンティクスセマンティクス性能をさらに向上すること,を示す。 実装はhttps://github.com/s usaha/ctrl-udaで利用可能である。

We present an approach for encoding visual task relationships to improve model performance in an Unsupervised Domain Adaptation (UDA) setting. Semantic segmentation and monocular depth estimation are shown to be complementary tasks; in a multi-task learning setting, a proper encoding of their relationships can further improve performance on both tasks. Motivated by this observation, we propose a novel Cross-Task Relation Layer (CTRL), which encodes task dependencies between the semantic and depth predictions. To capture the cross-task relationships, we propose a neural network architecture that contains task-specific and cross-task refinement heads. Furthermore, we propose an Iterative Self-Learning (ISL) training scheme, which exploits semantic pseudo-labels to provide extra supervision on the target domain. We experimentally observe improvements in both tasks' performance because the complementary information present in these tasks is better captured. Specifically, we show that: (1) our approach improves performance on all tasks when they are complementary and mutually dependent; (2) the CTRL helps to improve both semantic segmentation and depth estimation tasks performance in the challenging UDA setting; (3) the proposed ISL training scheme further improves the semantic segmentation performance. The implementation is available at https://github.com/s usaha/ctrl-uda.
翻訳日:2021-05-18 21:46:22 公開日:2021-05-17
# (参考訳) ニューラルネットワークの解説方法:データ空間分割の観点から [全文訳有]

How to Explain Neural Networks: A perspective of data space division ( http://arxiv.org/abs/2105.07831v1 )

ライセンス: CC BY 4.0
Hangcheng Dong, Bingguo Liu, Fengdong Chen, Dong Ye and Guodong Liu(参考訳) ディープラーニングに代表されるインテリジェントアルゴリズムの解釈可能性はまだ未解決の問題である。 本稿では,説明の2つの属性に基づく既存の説明可能な手法の欠点について論じる。 さらに、フィードフォワードマッピングに完全に依存するモデルは、このマッピングと最終モデルの関係を定量化することが困難であるため、説明不能を引き起こすことは極めて容易であると指摘した。 本稿では,データ空間分割の観点から,完全局所解釈可能なモデル非依存説明法(CLIMEP)の原理を提案する。 分類問題を研究するために,CLIMEPと意思決定境界の等価性についても検討した。 実際、CLIMEPの実装も困難である。 この課題に対処するために、一方向線形活性化関数(PWL)を持つ完全連結ニューラルネットワーク(FCNN)が入力空間を複数の線形領域に分割できるという事実を動機として、活性化関数を線形化する戦略により任意のFCNNに拡張する。 この手法を分類問題に応用し、FCNNの完全な決定境界が得られるのは初めてである。 最後に、決定境界の超平面によって入力空間を分割する決定ネット(DNet)を提案する。 したがって、DNetの各線形区間は単に同じラベルのサンプルを含むだけである。 実験により、任意の制御精度でDNetの驚くべきモデル圧縮効率が示された。

Interpretability of intelligent algorithms represented by deep learning has been yet an open problem. We discuss the shortcomings of the existing explainable method based on the two attributes of explanation, which are called completeness and explicitness. Furthermore, we point out that a model that completely relies on feed-forward mapping is extremely easy to cause inexplicability because it is hard to quantify the relationship between this mapping and the final model. Based on the perspective of the data space division, the principle of complete local interpretable model-agnostic explanations (CLIMEP) is proposed in this paper. To study the classification problems, we further discussed the equivalence of the CLIMEP and the decision boundary. As a matter of fact, it is also difficult to implementation of CLIMEP. To tackle the challenge, motivated by the fact that a fully-connected neural network (FCNN) with piece-wise linear activation functions (PWLs) can partition the input space into several linear regions, we extend this result to arbitrary FCNNs by the strategy of linearizing the activation functions. Applying this technique to solving classification problems, it is the first time that the complete decision boundary of FCNNs has been able to be obtained. Finally, we propose the DecisionNet (DNet), which divides the input space by the hyper-planes of the decision boundary. Hence, each linear interval of the DNet merely contains samples of the same label. Experiments show that the surprising model compression efficiency of the DNet with an arbitrary controlled precision.
翻訳日:2021-05-18 21:26:23 公開日:2021-05-17
# (参考訳) マルチモーダル深層ニューラルネットワークにおける説明可能性の検討 [全文訳有]

A Review on Explainability in Multimodal Deep Neural Nets ( http://arxiv.org/abs/2105.07878v1 )

ライセンス: CC BY 4.0
Gargi Joshi, Rahee Walambe, Ketan Kotecha(参考訳) ディープニューラルネットワークを利用した人工知能技術は、コンピュータビジョンアプリケーションや自然言語処理タスクなど、いくつかのアプリケーション領域で大きな成功を収めています。 人間レベルのパフォーマンスを上回ることで、言語、視覚、感覚、テキストの異なるモダリティが正確な予測と識別において重要な役割を果たすアプリケーションの研究が促進された。 深層学習モデルを用いたマルチモーダル融合法が文献で提案されている。 その優れた性能にもかかわらず、深層ニューラルネットワークの複雑で不透明でブラックボックスな性質は、社会的受容と使用性を制限する。 これにより、モデル解釈可能性と説明可能性の探求が生まれ、さらにマルチモーダルAIメソッドを含む複雑なタスクにもたらされた。 本稿では,マルチモーダル深層ニューラルネットワーク,特に視覚と言語タスクにおける説明可能性に関する包括的な調査と解説を行うため,本論文を概説する。 本稿では,マルチモーダルaiとその汎用ドメインへの応用に関するいくつかの話題を取り上げ,その意義,データセット,手法と技法の基本構成要素,課題,応用,今後のトレンドについて述べる。

Artificial Intelligence techniques powered by deep neural nets have achieved much success in several application domains, most significantly and notably in the Computer Vision applications and Natural Language Processing tasks. Surpassing human-level performance propelled the research in the applications where different modalities amongst language, vision, sensory, text play an important role in accurate predictions and identification. Several multimodal fusion methods employing deep learning models are proposed in the literature. Despite their outstanding performance, the complex, opaque and black-box nature of the deep neural nets limits their social acceptance and usability. This has given rise to the quest for model interpretability and explainability, more so in the complex tasks involving multimodal AI methods. This paper extensively reviews the present literature to present a comprehensive survey and commentary on the explainability in multimodal deep neural nets, especially for the vision and language tasks. Several topics on multimodal AI and its applications for generic domains have been covered in this paper, including the significance, datasets, fundamental building blocks of the methods and techniques, challenges, applications, and future trends in this domain
翻訳日:2021-05-18 21:09:04 公開日:2021-05-17
# (参考訳) コントラスト学習による大規模教師なし人物再同定 [全文訳有]

Large-Scale Unsupervised Person Re-Identification with Contrastive Learning ( http://arxiv.org/abs/2105.07914v1 )

ライセンス: CC BY 4.0
Weiquan Huang, Yan Bai, Qiuyu Ren, Xinbo Zhao, Ming Feng and Yin Wang(参考訳) 既存のpublic person re-identification~(r eid)データセットはラベリングが難しいため、現代の用語では小さい。 ラベルのない監視ビデオは豊富で比較的入手が容易であるが、これらの映像を使って有意義なreid表現を学習する方法は明らかではない。 特に、既存の教師なしおよびドメイン適応のReIDメソッドは、実験において公開データセットのみを使用し、ラベルを削除している。 さらに、データサイズが小さいため、これらのメソッドは通常、優れたパフォーマンスを達成するためにテストドメイン内のラベルなしのトレーニングデータによる微調整に依存する。 コントラスト学習を用いた大規模自己監督画像分類の最近の進歩に触発されて,大規模無ラベル監視ビデオからReID表現を学習することを提案する。 既成の歩行者検出ツールを用いて,画像とトラックレットの両方のコントラスト損失を適用した。 カメララベルを自由に使用できる主成分分析ステップと合わせて,テスト領域でトレーニングデータを使用しない教師なし手法において,大規模非ラベルデータセットを用いた評価が極めて優れていることを示す。 さらに、データサイズによって精度が向上するので、我々の手法はより大きく、より多様化したデータセットで大きな可能性を秘めている。

Existing public person Re-Identification~(R eID) datasets are small in modern terms because of labeling difficulty. Although unlabeled surveillance video is abundant and relatively easy to obtain, it is unclear how to leverage these footage to learn meaningful ReID representations. In particular, most existing unsupervised and domain adaptation ReID methods utilize only the public datasets in their experiments, with labels removed. In addition, due to small data sizes, these methods usually rely on fine tuning by the unlabeled training data in the testing domain to achieve good performance. Inspired by the recent progress of large-scale self-supervised image classification using contrastive learning, we propose to learn ReID representation from large-scale unlabeled surveillance video alone. Assisted by off-the-shelf pedestrian detection tools, we apply the contrastive loss at both the image and the tracklet levels. Together with a principal component analysis step using camera labels freely available, our evaluation using a large-scale unlabeled dataset shows far superior performance among unsupervised methods that do not use any training data in the testing domain. Furthermore, the accuracy improves with the data size and therefore our method has great potential with even larger and more diversified datasets.
翻訳日:2021-05-18 20:23:36 公開日:2021-05-17
# (参考訳) BigEarthNet-MM:リモートセンシング画像分類と検索のための大規模マルチモーダルマルチラベルベンチマークアーカイブ [全文訳有]

BigEarthNet-MM: A Large Scale Multi-Modal Multi-Label Benchmark Archive for Remote Sensing Image Classification and Retrieval ( http://arxiv.org/abs/2105.07921v1 )

ライセンス: CC BY 4.0
Gencer Sumbul, Arne de Wall, Tristan Kreuziger, Filipe Marcelino, Hugo Costa, Pedro Benevides, M\'ario Caetano, Beg\"um Demir, Volker Markl(参考訳) 本稿では,590,326組のSentinel-1とSentinel-2の画像パッチからなるBigEarthNet(BigEarth Net-MM)ベンチマークアーカイブを,マルチモーダルマルチラベルリモートセンシング(RS)画像検索と分類における深層学習(DL)研究を支援するために提案する。 BigEarthNet-MMの各パッチには、2018年のCORINE Land Cover (CLC)マップによるマルチラベルが注釈付けされている。 我々の最初の研究は、CLCのクラスは、(単一の)BigEarthNet-MM画像のみを考慮し、正確に記述することが難しいことを実証した。 本稿では,この問題に対処するために,clcラベルの進化として代替のクラス命名法を提案する。 これは、19のクラスからなる新しい命名法でBigEarthNet-MM画像の特性に基づいて、CLC Level-3命名法を解釈してアレンジすることで達成される。 本研究では,複数の最先端dlモデルを考慮したマルチモーダル画像検索と分類問題に対するbigearthnet-mmの可能性を示す。 また,BigEarthNet-MMをスクラッチからトレーニングしたDLモデルは,特に農業などの植物や自然環境を含む複雑なクラスにおいて,ImageNetで事前学習したモデルよりも優れていることを示した。 我々は全てのデータとDLモデルをhttps://bigearth.net で公開し、マルチモーダル画像シーンの分類と検索問題の研究を支援する重要なリソースを提供する。

This paper presents the multi-modal BigEarthNet (BigEarthNet-MM) benchmark archive made up of 590,326 pairs of Sentinel-1 and Sentinel-2 image patches to support the deep learning (DL) studies in multi-modal multi-label remote sensing (RS) image retrieval and classification. Each pair of patches in BigEarthNet-MM is annotated with multi-labels provided by the CORINE Land Cover (CLC) map of 2018 based on its thematically most detailed Level-3 class nomenclature. Our initial research demonstrates that some CLC classes are challenging to be accurately described by only considering (single-date) BigEarthNet-MM images. In this paper, we also introduce an alternative class-nomenclature as an evolution of the original CLC labels to address this problem. This is achieved by interpreting and arranging the CLC Level-3 nomenclature based on the properties of BigEarthNet-MM images in a new nomenclature of 19 classes. In our experiments, we show the potential of BigEarthNet-MM for multi-modal multi-label image retrieval and classification problems by considering several state-of-the-art DL models. We also demonstrate that the DL models trained from scratch on BigEarthNet-MM outperform those pre-trained on ImageNet, especially in relation to some complex classes, including agriculture and other vegetated and natural environments. We make all the data and the DL models publicly available at https://bigearth.net , offering an important resource to support studies on multi-modal image scene classification and retrieval problems in RS.
翻訳日:2021-05-18 20:11:49 公開日:2021-05-17
# (参考訳) Mean Field Games Flock! 強化学習の方法 [全文訳有]

Mean Field Games Flock! The Reinforcement Learning Way ( http://arxiv.org/abs/2105.07933v1 )

ライセンス: CC BY-SA 4.0
Sarah Perrin, Mathieu Lauri\`ere, Julien P\'erolat, Matthieu Geist, Romuald \'Elie, Olivier Pietquin(参考訳) 本研究では,多数の個体群で観察される自然行動である群れの学習を,多数のエージェントが行う方法を提案する。 この問題は多くの関心を惹きつけたが、多くの構造的仮定が必要であり、小さな次元でのみ引き出すことができる。 我々はこの問題を平均場ゲーム (MFG) と表現し、各個人が人口行動に応じて加速度を選択する。 深層強化学習 (rl) と正規化流れ (nf) を組み合わせることで, 極めて弱い仮定のみを必要とする扱いやすい解を得る。 我々のアルゴリズムはナッシュ平衡を発見し、エージェントはその速度を近隣のフロックの平均値と一致させる。 我々は架空の遊びを用いて,(1)深層rlを用いた近似最良応答の計算,(2)nfを用いた次の人口分布の推定を行う。 アルゴリズムが障害物を伴う多元群や高次元群れを学習できることを数値的に示す。

We present a method enabling a large number of agents to learn how to flock, which is a natural behavior observed in large populations of animals. This problem has drawn a lot of interest but requires many structural assumptions and is tractable only in small dimensions. We phrase this problem as a Mean Field Game (MFG), where each individual chooses its acceleration depending on the population behavior. Combining Deep Reinforcement Learning (RL) and Normalizing Flows (NF), we obtain a tractable solution requiring only very weak assumptions. Our algorithm finds a Nash Equilibrium and the agents adapt their velocity to match the neighboring flock's average one. We use Fictitious Play and alternate: (1) computing an approximate best response with Deep RL, and (2) estimating the next population distribution with NF. We show numerically that our algorithm learn multi-group or high-dimensional flocking with obstacles.
翻訳日:2021-05-18 20:00:49 公開日:2021-05-17
# (参考訳) TCL:コントラスト学習によるトランスフォーマーに基づく動的グラフモデリング [全文訳有]

TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning ( http://arxiv.org/abs/2105.07944v1 )

ライセンス: CC BY 4.0
Lu Wang, Xiaofu Chang, Shuang Li, Yunfei Chu, Hui Li, Wei Zhang, Xiaofeng He, Le Song, Jingren Zhou, Hongxia Yang(参考訳) 動的グラフモデリングは、リコメンデーションシステム、金融取引、ソーシャルネットワークなど、多くの現実のシナリオで広く応用されているため、最近多くの注目を集めている。 近年、動的グラフモデリングのための多くの研究が提案されているが、効果的でスケーラブルなモデルはまだ開発されていない。 本稿では,動的に進化するグラフを連続的に処理し,時空間情報とトポロジ情報の両方をキャプチャする効果的な動的ノード表現学習を実現するtclと呼ばれる新しいグラフニューラルネットワーク手法を提案する。 技術的には、我々のモデルは3つの新しい側面を含む。 まず,バニラトランスを時相グラフ学習シナリオに一般化し,グラフ位相認識トランスを設計する。 次に,提案するグラフ変換器の上に,2つの相互作用ノードに関連する時間的近傍からの表現を分離して抽出し,協調変換器を用いて意味レベルで相互依存性をモデル化する2ストリームエンコーダを導入する。 最後に、最近開発されたコントラスト学習に着想を得て、2つの将来の相互作用ノードの予測表現間の相互情報(MI)を最大化し、モデル最適化を提案する。 これを利用して、動的表現は相互作用に関する高レベルな(あるいはグローバルな)意味を保存できるため、ノイズの多い相互作用に対して堅牢である。 我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。 インタラクション予測のための4つのベンチマークデータセットでモデルを評価し,実験結果からモデルの優越性を示す。

Dynamic graph modeling has recently attracted much attention due to its extensive applications in many real-world scenarios, such as recommendation systems, financial transactions, and social networks. Although many works have been proposed for dynamic graph modeling in recent years, effective and scalable models are yet to be developed. In this paper, we propose a novel graph neural network approach, called TCL, which deals with the dynamically-evolving graph in a continuous-time fashion and enables effective dynamic node representation learning that captures both the temporal and topology information. Technically, our model contains three novel aspects. First, we generalize the vanilla Transformer to temporal graph learning scenarios and design a graph-topology-aware transformer. Secondly, on top of the proposed graph transformer, we introduce a two-stream encoder that separately extracts representations from temporal neighborhoods associated with the two interaction nodes and then utilizes a co-attentional transformer to model inter-dependencies at a semantic level. Lastly, we are inspired by the recently developed contrastive learning and propose to optimize our model by maximizing mutual information (MI) between the predictive representations of two future interaction nodes. Benefiting from this, our dynamic representations can preserve high-level (or global) semantics about interactions and thus is robust to noisy interactions. To the best of our knowledge, this is the first attempt to apply contrastive learning to representation learning on dynamic graphs. We evaluate our model on four benchmark datasets for interaction prediction and experiment results demonstrate the superiority of our model.
翻訳日:2021-05-18 19:43:43 公開日:2021-05-17
# (参考訳) 圧縮センシング蛍光顕微鏡におけるハダマールセンシングと再構成の合同最適化 [全文訳有]

Joint Optimization of Hadamard Sensing and Reconstruction in Compressed Sensing Fluorescence Microscopy ( http://arxiv.org/abs/2105.07961v1 )

ライセンス: CC BY 4.0
Alan Q. Wang, Aaron K. LaViolette, Leo Moon, Chris Xu, and Mert R. Sabuncu(参考訳) 圧縮蛍光顕微鏡 (CS-FM) は, センシング中に測定値が小さくなり, 画像の復元を行う方式を提案する。 センシングとリコンストラクションの部分を別々に最適化する作業が数多く行われている。 本稿では,全計測制約下でのセンシングとリコンストラクションの両エンドツーエンドを協調的に最適化し,ニューラルネットワークを用いたリコンストラクションネットワークのパラメータと並行して最適なセンシングスキームの学習を可能にする手法を提案する。 共焦点・2光子・広視野顕微鏡画像の多種多様な生体試料からなるリッチデータセットでモデルを訓練した。 本手法は,複数のベースラインセンシングスキームと正規化回帰再構成アルゴリズムに勝ることを示す。

Compressed sensing fluorescence microscopy (CS-FM) proposes a scheme whereby less measurements are collected during sensing and reconstruction is performed to recover the image. Much work has gone into optimizing the sensing and reconstruction portions separately. We propose a method of jointly optimizing both sensing and reconstruction end-to-end under a total measurement constraint, enabling learning of the optimal sensing scheme concurrently with the parameters of a neural network-based reconstruction network. We train our model on a rich dataset of confocal, two-photon, and wide-field microscopy images comprising of a variety of biological samples. We show that our method outperforms several baseline sensing schemes and a regularized regression reconstruction algorithm.
翻訳日:2021-05-18 19:25:39 公開日:2021-05-17
# (参考訳) DFENet:脳MRI分割のための新しい次元融合エッジガイドネットワーク [全文訳有]

DFENet: A Novel Dimension Fusion Edge Guided Network for Brain MRI Segmentation ( http://arxiv.org/abs/2105.07962v1 )

ライセンス: CC BY 4.0
Hritam Basak, Rukhshanda Hussain, Ajay Rana(参考訳) 近年の脳梗塞の急速な増悪は、脳mri画像からの脳卒中病変の迅速かつ正確な分割に向けた原動力となっている。 近年, 深層学習, コンピュータ支援による虚血性脳梗塞の分節化法が, 早期診断・治療計画に有用である。 しかしながら、これらの手法の多くはmriボリュームから十分な文脈的特徴を捉えることができないため、不正確で信頼性の低いセグメンテーション結果に苦しむ。 これらの要件を満たすために、3次元畳み込みニューラルネットワークが提案されている。 これらの問題を緩和するために,2次元CNNと3次元CNNの特徴を融合させることで,これらの要件を満たす新しいDFENetを提案する。 提案手法と異なり,提案手法は並列部分デコーダ (PPD) モジュールを用いて,重要なコンテキスト情報に富んだ特徴の集約とアップサンプリングを行う。 さらに,ネットワークの学習過程を常に監視・改善するために,エッジガイダンスと混合損失の増大を利用する。 提案手法は,ATLAS(Anatomical Tracings of Lesions After Stroke)データセットを用いて評価され,それぞれ0.5457,0.4015,0.6371 ,0.4969のDSC,IoU,精度およびリコール値が得られた。 結果は、最先端の他の方法と比較すると、かなりのマージンでそれを上回る。 したがって,提案モデルは既存の手法よりも頑健で正確であり,生体医学的応用にも頼ることができる。

The rapid increment of morbidity of brain stroke in the last few years have been a driving force towards fast and accurate segmentation of stroke lesions from brain MRI images. With the recent development of deep-learning, computer-aided and segmentation methods of ischemic stroke lesions have been useful for clinicians in early diagnosis and treatment planning. However, most of these methods suffer from inaccurate and unreliable segmentation results because of their inability to capture sufficient contextual features from the MRI volumes. To meet these requirements, 3D convolutional neural networks have been proposed, which, however, suffer from huge computational requirements. To mitigate these problems, we propose a novel Dimension Fusion Edge-guided network (DFENet) that can meet both of these requirements by fusing the features of 2D and 3D CNNs. Unlike other methods, our proposed network uses a parallel partial decoder (PPD) module for aggregating and upsampling selected features, rich in important contextual information. Additionally, we use an edge-guidance and enhanced mixing loss for constantly supervising and improvising the learning process of the network. The proposed method is evaluated on publicly available Anatomical Tracings of Lesions After Stroke (ATLAS) dataset, resulting in mean DSC, IoU, Precision and Recall values of 0.5457, 0.4015, 0.6371, and 0.4969 respectively. The results, when compared to other state-of-the-art methods, outperforms them by a significant margin. Therefore, the proposed model is robust, accurate, superior to the existing methods, and can be relied upon for biomedical applications.
翻訳日:2021-05-18 19:17:38 公開日:2021-05-17
# (参考訳) 介入を学ぶ:予防医療への応用におけるレストバンドの適応的学習政策 [全文訳有]

Learn to Intervene: An Adaptive Learning Policy for Restless Bandits in Application to Preventive Healthcare ( http://arxiv.org/abs/2105.07965v1 )

ライセンス: CC BY 4.0
Arpita Biswas, Gaurav Aggarwal, Pradeep Varakantham, Milind Tambe(参考訳) 多くの公衆衛生設定において、患者は薬の服用や定期的な健康チェックなどの健康プログラムを遵守することが重要である。 残念ながら、受益者はそうしたプログラムから徐々に切り離される可能性がある。 妊婦に予防ケア情報を広める無料の自動コールベースプログラムを実施する組織によって、段階的な離脱の具体例が観察されている。 多くの女性は、数ヶ月登録した後、電話を取るのをやめます。 このような離脱を避けるためには、タイムリーな介入を行うことが重要である。 このような介入は、しばしば高価であり、受益者のごく一部にしか提供できない。 我々は、このシナリオを、各受益者が介入に応じてある状態から別の状態へ遷移する、レスレスマルチアーム・バンディット(RMAB)問題としてモデル化する。 さらに, 遷移確率は前もって未知であるため, ホイットル指数に基づくq学習機構を提案し, 最適解に収束することを示す。 本手法は,複数のベンチマークを用いたRMABの既存の学習方法と,母体保健データセットを改良する。

In many public health settings, it is important for patients to adhere to health programs, such as taking medications and periodic health checks. Unfortunately, beneficiaries may gradually disengage from such programs, which is detrimental to their health. A concrete example of gradual disengagement has been observed by an organization that carries out a free automated call-based program for spreading preventive care information among pregnant women. Many women stop picking up calls after being enrolled for a few months. To avoid such disengagements, it is important to provide timely interventions. Such interventions are often expensive and can be provided to only a small fraction of the beneficiaries. We model this scenario as a restless multi-armed bandit (RMAB) problem, where each beneficiary is assumed to transition from one state to another depending on the intervention. Moreover, since the transition probabilities are unknown a priori, we propose a Whittle index based Q-Learning mechanism and show that it converges to the optimal solution. Our method improves over existing learning-based methods for RMABs on multiple benchmarks from literature and also on the maternal healthcare dataset.
翻訳日:2021-05-18 19:03:44 公開日:2021-05-17
# (参考訳) 直感的マスキングと深層学習における差分プライバシーの過小評価ロバスト性 [全文訳有]

Gradient Masking and the Underestimated Robustness Threats of Differential Privacy in Deep Learning ( http://arxiv.org/abs/2105.07985v1 )

ライセンス: CC BY 4.0
Franziska Boenisch, Philip Sperl, Konstantin B\"ottinger(参考訳) ディープラーニングにおける重要な問題は、ニューラルネットワーク(NN)のプライバシとセキュリティである。 どちらの側面も長い間別々に検討されてきた。 現在まで、プライバシー強化トレーニングがNNの堅牢性にどのように影響するかは理解されていない。 本稿では,プライバシ保護の標準手法である差分プライバシー(DP)を用いたトレーニングが,幅広い敵攻撃に対するモデル脆弱性に与える影響を実験的に評価する。 その結果,プライベートモデルの方が非プライベートモデルに比べて頑健性が低く,非プライベートモデルとプライベートモデルよりもdpモデル間での敵例の方が良好であることが示唆された。 さらに, dpモデルと非dpモデルの詳細な解析結果から, 勾配の違いが示唆された。 さらに、この研究は、DPトレーニングにおけるパラメータの好ましくない選択が勾配マスキングにつながることを初めて観察し、結果としてセキュリティの誤った感覚をもたらす。

An important problem in deep learning is the privacy and security of neural networks (NNs). Both aspects have long been considered separately. To date, it is still poorly understood how privacy enhancing training affects the robustness of NNs. This paper experimentally evaluates the impact of training with Differential Privacy (DP), a standard method for privacy preservation, on model vulnerability against a broad range of adversarial attacks. The results suggest that private models are less robust than their non-private counterparts, and that adversarial examples transfer better among DP models than between non-private and private ones. Furthermore, detailed analyses of DP and non-DP models suggest significant differences between their gradients. Additionally, this work is the first to observe that an unfavorable choice of parameters in DP training can lead to gradient masking, and, thereby, results in a wrong sense of security.
翻訳日:2021-05-18 18:46:01 公開日:2021-05-17
# (参考訳) 政策勾配法による倒立振子の制御-チュートリアル [全文訳有]

Controlling an Inverted Pendulum with Policy Gradient Methods-A Tutorial ( http://arxiv.org/abs/2105.07998v1 )

ライセンス: CC BY 4.0
Swagat Kumar(参考訳) 本稿では,倒立振子問題を解くための2つの重要な政策勾配手法の実装について述べる。 すなわち、Deep Deterministic Policy Gradient (DDPG) と Proximal Policy Optimization (PPO) アルゴリズムである。 政策関数を学習するためにアクタ-ネットワークを使用するアクタ-批判モデルを用い、q関数を推定するために学習してアクタ-ネットワークを評価する。 これら2つのアルゴリズムの背後にある数学を簡潔に説明する以外に、pythonの実装の詳細が提供され、アルゴリズムの基盤となる複雑さを解明するのに役立つ。 その過程で、読者は、上記の概念を実装するために使われるOpenAI/Gym、Tensorflow 2.x、Kerasユーティリティに紹介される。

This paper provides the details of implementing two important policy gradient methods to solve the inverted pendulum problem. These are namely the Deep Deterministic Policy Gradient (DDPG) and the Proximal Policy Optimization (PPO) algorithm. The problem is solved by using an actor-critic model where an actor-network is used to learn the policy function and a critic network is to evaluate the actor-network by learning to estimate the Q function. Apart from briefly explaining the mathematics behind these two algorithms, the details of python implementation are provided which helps in demystifying the underlying complexity of the algorithm. In the process, the readers will be introduced to OpenAI/Gym, Tensorflow 2.x and Keras utilities used for implementing the above concepts.
翻訳日:2021-05-18 18:24:14 公開日:2021-05-17
# (参考訳) 入力分離時間における潜在単純性学習 [全文訳有]

Learning a Latent Simplex in Input-Sparsity Time ( http://arxiv.org/abs/2105.08005v1 )

ライセンス: CC BY 4.0
Ainesh Bakshi, Chiranjib Bhattacharyya, Ravi Kannan, David P. Woodruff and Samson Zhou(参考訳) k$-vertex simplex $K\subset\mathbb{R}^d$, given access to $A\in\mathbb{R}^{d\times n}$, which can seen as a data matrix with $n$ points that are obtained by randomly perturbing latent points in the simplex $K$ (potentially beyond $K$)。 逆クラスタリング、混合メンバシップ確率ブロックモデル、トピックモデルなど、潜在変数モデルの大きなクラスは、潜在単純性の学習としてキャストできる。 Bhattacharyya and Kannan (SODA, 2020) は、およそ$O(k\cdot\textrm{nnz}(A))$、$\textrm{nnz}(A)$は$A$の非ゼロの数である。 実行時間における$k$への依存は、これらの多くのアプリケーションで成り立つ$a$の最上位の$k$特異値の質量に関する自然な仮定を考えると不要であることを示している。 さらに, 潜在単純性を学ぶアルゴリズムは, スペクトル低ランク近似のアルゴリズム的ブレークスルーを意味するため, この仮定は必要であることを示す。 高いレベルでは、bhattacharyyaとkannanは、$k$ matrix-vector製品クエリを$a$とし、各クエリは、それ以前のすべてのクエリの関数である適応アルゴリズムを提供する。 各行列ベクトル積は $\textrm{nnz}(A)$ time を必要とするので、全体の実行時間は避けられない。 代わりに、入力スパース時間にa$に低いランクの近似を求め、それによって得られる列空間が、右トップ-k$特異空間にわずかに$\sin\theta$(三角形)距離を持つことを示す。 アルゴリズムは次に、最も大きい内部積を持つ低ランク部分空間の$k$ポイントを、慎重に選択されたランダムベクトルで選択する。 低ランクな部分空間で作業することで、各イテレーションで行列全体の読み込みを回避し、$\Theta(k\cdot\textr m{nnz}(A))$ run timeを回避します。

We consider the problem of learning a latent $k$-vertex simplex $K\subset\mathbb{R}^d$, given access to $A\in\mathbb{R}^{d\times n}$, which can be viewed as a data matrix with $n$ points that are obtained by randomly perturbing latent points in the simplex $K$ (potentially beyond $K$). A large class of latent variable models, such as adversarial clustering, mixed membership stochastic block models, and topic models can be cast as learning a latent simplex. Bhattacharyya and Kannan (SODA, 2020) give an algorithm for learning such a latent simplex in time roughly $O(k\cdot\textrm{nnz}(A))$, where $\textrm{nnz}(A)$ is the number of non-zeros in $A$. We show that the dependence on $k$ in the running time is unnecessary given a natural assumption about the mass of the top $k$ singular values of $A$, which holds in many of these applications. Further, we show this assumption is necessary, as otherwise an algorithm for learning a latent simplex would imply an algorithmic breakthrough for spectral low rank approximation. At a high level, Bhattacharyya and Kannan provide an adaptive algorithm that makes $k$ matrix-vector product queries to $A$ and each query is a function of all queries preceding it. Since each matrix-vector product requires $\textrm{nnz}(A)$ time, their overall running time appears unavoidable. Instead, we obtain a low-rank approximation to $A$ in input-sparsity time and show that the column space thus obtained has small $\sin\Theta$ (angular) distance to the right top-$k$ singular space of $A$. Our algorithm then selects $k$ points in the low-rank subspace with the largest inner product with $k$ carefully chosen random vectors. By working in the low-rank subspace, we avoid reading the entire matrix in each iteration and thus circumvent the $\Theta(k\cdot\textr m{nnz}(A))$ running time.
翻訳日:2021-05-18 18:07:40 公開日:2021-05-17
# (参考訳) なぜあなたは独特なの? [全文訳有]

What makes you unique? ( http://arxiv.org/abs/2105.08013v1 )

ライセンス: CC BY 4.0
Benjamin B. Seiler, Masayoshi Mase, Art B. Owen(参考訳) 本稿では,異なる変数が対象を識別できる範囲を比較するために,一意性シェープ測度を提案する。 subject $t$ の変数の値を取得することで、$t$ の可能な対象のセットを縮小する。 縮小の程度は、他の変数も明らかにされているかに依存する。 私たちはShapley値を使って、他の変数のサブセットが明らかにされた後、変数が明らかにされたため、ログの濃度の減少を全て組み合わせます。 この特異度Shapley測度は、条件エントロピーの重み付け和となる対象に集約することができる。 被験者のサブセットに対するアグリゲーションは、与えられたzipコードの人々の年齢の特定など、問題に対処できる。 このような集合は交叉エントロピーの観点から対応する表現を持つ。 ノースカロライナ州の投票者登録ロールから変数を明らかにすることによる異なる効果と異常な太陽フレアの同定に一意性シャプリーを用いる。 ムーアとリー(1998)のすべての次元木を用いて、必要な濃度を保存することにより、巨大なスピードアップ(一例に2000倍)が得られる。

This paper proposes a uniqueness Shapley measure to compare the extent to which different variables are able to identify a subject. Revealing the value of a variable on subject $t$ shrinks the set of possible subjects that $t$ could be. The extent of the shrinkage depends on which other variables have also been revealed. We use Shapley value to combine all of the reductions in log cardinality due to revealing a variable after some subset of the other variables has been revealed. This uniqueness Shapley measure can be aggregated over subjects where it becomes a weighted sum of conditional entropies. Aggregation over subsets of subjects can address questions like how identifying is age for people of a given zip code. Such aggregates have a corresponding expression in terms of cross entropies. We use uniqueness Shapley to investigate the differential effects of revealing variables from the North Carolina voter registration rolls and in identifying anomalous solar flares. An enormous speedup (approaching 2000 fold in one example) is obtained by using the all dimension trees of Moore and Lee (1998) to store the cardinalities we need.
翻訳日:2021-05-18 17:34:01 公開日:2021-05-17
# (参考訳) 限定再考を伴う線形実現可能なMDPのためのサンプル効率の良い強化学習 [全文訳有]

Sample-Efficient Reinforcement Learning Is Feasible for Linearly Realizable MDPs with Limited Revisiting ( http://arxiv.org/abs/2105.08024v1 )

ライセンス: CC BY 4.0
Gen Li, Yuxin Chen, Yuejie Chi, Yuantao Gu, Yuting Wei(参考訳) 線形関数表現などの低複雑さモデルは、サンプル効率強化学習(RL)の実現に重要な役割を果たしている。 現在の論文は、最適q関数の線形実現可能性("linear $q^{\star}$ problem")を仮定した値に基づく線形表現のシナリオに関するものである。 線形実現可能性だけではサンプリング効率のよい解は認められないが、大規模な準最適ギャップの存在は、使用中のサンプリング機構に依存する潜在的なゲームチェンジャーである。 形式的には、サンプル効率は、生成モデルが利用可能である場合、大きなサブ最適ギャップで達成できるが、標準のオンラインRL設定に切り替える場合、残念ながら実現不可能である。 本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することが可能な新しいサンプリングプロトコルを検討することにより,この線形な$q^{\star}$ 問題を理解するための進展について述べる。 このプロトコルは、標準のオンラインRL設定よりも柔軟であり、生成モデルよりも事実上関連性があり、はるかに制限的である。 この設定に合わせたアルゴリズムを開発し, 特徴次元, 地平線, 逆部分最適化ギャップと多項式的にスケールする, 状態/動作空間のサイズではなく, サンプル複雑性を達成する。 本研究は,RLにおけるサンプリングプロトコルと低複素構造表現の基本的な相互作用を裏付けるものである。

Low-complexity models such as linear function representation play a pivotal role in enabling sample-efficient reinforcement learning (RL). The current paper pertains to a scenario with value-based linear representation, which postulates the linear realizability of the optimal Q-function (also called the "linear $Q^{\star}$ problem"). While linear realizability alone does not allow for sample-efficient solutions in general, the presence of a large sub-optimality gap is a potential game changer, depending on the sampling mechanism in use. Informally, sample efficiency is achievable with a large sub-optimality gap when a generative model is available but is unfortunately infeasible when we turn to standard online RL settings. In this paper, we make progress towards understanding this linear $Q^{\star}$ problem by investigating a new sampling protocol, which draws samples in an online/exploratory fashion but allows one to backtrack and revisit previous states in a controlled and infrequent manner. This protocol is more flexible than the standard online RL setting, while being practically relevant and far more restrictive than the generative model. We develop an algorithm tailored to this setting, achieving a sample complexity that scales polynomially with the feature dimension, the horizon, and the inverse sub-optimality gap, but not the size of the state/action space. Our findings underscore the fundamental interplay between sampling protocols and low-complexity structural representation in RL.
翻訳日:2021-05-18 17:18:16 公開日:2021-05-17
# (参考訳) SGD-QA: 見えないサービスのための高速スキーマ誘導対話状態追跡 [全文訳有]

SGD-QA: Fast Schema-Guided Dialogue State Tracking for Unseen Services ( http://arxiv.org/abs/2105.08049v1 )

ライセンス: CC BY 4.0
Yang Zhang, Vahid Noroozi, Evelina Bakhturina, Boris Ginsburg(参考訳) 対話状態追跡は、目標指向の対話システムにおいて不可欠な部分であるが、ほとんどの状態追跡モデルは、目に見えないサービスを扱うのに失敗する。 本稿では,SGD-QAを提案する。SGD-QAは,質問応答アプローチに基づく,スキーマ誘導型対話状態追跡のためのシンプルで拡張可能なモデルである。 提案するマルチパスモデルは、ドメイン情報と対話発話の間で単一のエンコーダを共有する。 ドメインの記述はクエリを表し、対話の発話はコンテキストとして機能します。 このモデルは、SGDデータセット上のシングルパスベースラインモデルと比較して、目に見えないサービスのパフォーマンスを少なくとも1.6倍改善する。 sgd-qaは最先端のマルチパスモデルと比較して競合性能を示し、メモリ消費とトレーニング性能の点ではるかに効率的である。 本モデルについて,アブレーション研究と誤差解析を用いて徹底的な考察を行う。

Dialogue state tracking is an essential part of goal-oriented dialogue systems, while most of these state tracking models often fail to handle unseen services. In this paper, we propose SGD-QA, a simple and extensible model for schema-guided dialogue state tracking based on a question answering approach. The proposed multi-pass model shares a single encoder between the domain information and dialogue utterance. The domain's description represents the query and the dialogue utterance serves as the context. The model improves performance on unseen services by at least 1.6x compared to single-pass baseline models on the SGD dataset. SGD-QA shows competitive performance compared to state-of-the-art multi-pass models while being significantly more efficient in terms of memory consumption and training performance. We provide a thorough discussion on the model with ablation study and error analysis.
翻訳日:2021-05-18 16:44:53 公開日:2021-05-17
# (参考訳) すべての机の上の軽いステージ [全文訳有]

A Light Stage on Every Desk ( http://arxiv.org/abs/2105.08051v1 )

ライセンス: CC BY 4.0
Soumyadip Sengupta, Brian Curless, Ira Kemelmacher-Shlizerm an, Steve Seitz(参考訳) テレビやモニターの前に座るたびに、あなたの顔は時間のかかる光のパターンによって積極的に照らされます。 本稿では,この時間変化照明を新しい照明条件で顔の合成照明に用いることを提案する。 そこで我々は、Debevecらのライトステージ作品からインスピレーションを得て、制御された照明環境で捕獲された人々をリライトする能力を最初にデモした。 既存の光のステージでは、高価な、部屋サイズの球面キャプチャーガントリーが必要であり、世界中の数研究室にしか存在せず、通常のテレビやデスクトップモニターから有用なデータを取得する方法を実証する。 ユーザに不快な速さで点滅するライトパターンを与える代わりに、youtubeビデオや他の標準コンテンツを見ているユーザーの画像を操作します。 我々は、画像上に深いネットワークをトレーニングし、特定のユーザの監視パターンを学習し、そのユーザのイメージをターゲット照明(モニタパターン)下で予測することを学ぶ。 実験の結果,本手法は現実的な再現結果が得られることがわかった。 ビデオ結果はhttp://grail.cs.wash ington.edu/projects/ Light_Stage_on_Every _Desk/で公開されている。

Every time you sit in front of a TV or monitor, your face is actively illuminated by time-varying patterns of light. This paper proposes to use this time-varying illumination for synthetic relighting of your face with any new illumination condition. In doing so, we take inspiration from the light stage work of Debevec et al., who first demonstrated the ability to relight people captured in a controlled lighting environment. Whereas existing light stages require expensive, room-scale spherical capture gantries and exist in only a few labs in the world, we demonstrate how to acquire useful data from a normal TV or desktop monitor. Instead of subjecting the user to uncomfortable rapidly flashing light patterns, we operate on images of the user watching a YouTube video or other standard content. We train a deep network on images plus monitor patterns of a given user and learn to predict images of that user under any target illumination (monitor pattern). Experimental evaluation shows that our method produces realistic relighting results. Video results are available at http://grail.cs.wash ington.edu/projects/ Light_Stage_on_Every _Desk/.
翻訳日:2021-05-18 16:35:32 公開日:2021-05-17
# (参考訳) 分割とコントラスト:未集計データからの自己教師付き学習 [全文訳有]

Divide and Contrast: Self-supervised Learning from Uncurated Data ( http://arxiv.org/abs/2105.08054v1 )

ライセンス: CC BY 4.0
Yonglong Tian, Olivier J. Henaff, Aaron van den Oord(参考訳) 自己教師付き学習は、大量のラベルのないデータを活用することを約束するが、その進歩の大部分は、ImageNetのような高度にキュレートされた事前学習データに限られている。 我々は,yfccのような大規模で低キュレートな画像データセットからのコントラスト学習の効果を調査し,結果の表現品質に大きな差があることを見出した。 我々は、このキュレーションギャップは、より多様性があり重みのあるイメージクラスの分布の変化によるものであり、そこから学ぶべき関連性の低い負のサンプルに反する、と仮定する。 この仮説をdnc(division and contrast)という新しいアプローチで検証し,対照学習とクラスタリングに基づくハードネガティブマイニングを交互に行う。 低キュレートデータセットで事前トレーニングを行うと、DnCは下流タスクでの自己教師型学習のパフォーマンスを大幅に向上すると同時に、現在のキュレートデータセットの最先端と競争力を維持する。

Self-supervised learning holds promise in leveraging large amounts of unlabeled data, however much of its progress has thus far been limited to highly curated pre-training data such as ImageNet. We explore the effects of contrastive learning from larger, less-curated image datasets such as YFCC, and find there is indeed a large difference in the resulting representation quality. We hypothesize that this curation gap is due to a shift in the distribution of image classes -- which is more diverse and heavy-tailed -- resulting in less relevant negative samples to learn from. We test this hypothesis with a new approach, Divide and Contrast (DnC), which alternates between contrastive learning and clustering-based hard negative mining. When pretrained on less curated datasets, DnC greatly improves the performance of self-supervised learning on downstream tasks, while remaining competitive with the current state-of-the-art on curated datasets.
翻訳日:2021-05-18 16:20:05 公開日:2021-05-17
# (参考訳) OntoEA: 統合知識グラフ埋め込みによるオントロジー誘導エンティティアライメント [全文訳有]

OntoEA: Ontology-guided Entity Alignment via Joint Knowledge Graph Embedding ( http://arxiv.org/abs/2105.07688v1 )

ライセンス: CC BY 4.0
Yuejia Xiang, Ziheng Zhang, Jiaoyan Chen, Xi Chen, Zhenxi Lin, Yefeng Zheng(参考訳) セマンティック埋め込みは知識グラフ(KG)エンティティの整合性について広く研究されている。 現在の手法では、グラフ構造(エンティティ名と属性)を探索・活用しているが、クラスやエンティティとの関係性といった重要なメタ情報を含むオントロジ(あるいはオントロジスキーマ)は無視している。 本稿では, kgsとオントロジを併用したオントロジー型エンティティアライメント手法であるオンテアを提案し,クラス階層とクラス非結合性を利用して誤ったマッピングを回避する。 7つの公開および産業ベンチマークに関する大規模な実験は、オントEAの最先端性能とオントロジーの有効性を実証した。

Semantic embedding has been widely investigated for aligning knowledge graph (KG) entities. Current methods have explored and utilized the graph structure, the entity names and attributes, but ignore the ontology (or ontological schema) which contains critical meta information such as classes and their membership relationships with entities. In this paper, we propose an ontology-guided entity alignment method named OntoEA, where both KGs and their ontologies are jointly embedded, and the class hierarchy and the class disjointness are utilized to avoid false mappings. Extensive experiments on seven public and industrial benchmarks have demonstrated the state-of-the-art performance of OntoEA and the effectiveness of the ontologies.
翻訳日:2021-05-18 15:30:08 公開日:2021-05-17
# コントラクテーションを用いたDOC3-Deep 1クラス分類

DOC3-Deep One Class Classification using Contradictions ( http://arxiv.org/abs/2105.07636v1 )

ライセンス: Link先を確認
Sauptik Dhar, Bernardo Gonzalez Torres(参考訳) 本稿では,深部1クラス分類問題に対する矛盾から学習する概念(ユニバース学習)について述べる。 我々は,この概念を広く採用されている一類大マージン損失に対して定式化し,矛盾(doc3)アルゴリズムを用いた深部一類分類を提案する。 矛盾からの学習は, doc3の経験的ラダマッハ複雑性(erc)を従来の帰納的学習と比較することにより, より低い一般化誤差をもたらす。 実験結果は,cifar-10で30%以上,テストaucsでmv-tec adデータセットで50%以上を達成できるdoc3アルゴリズムの有効性を示す。

This paper introduces the notion of learning from contradictions (a.k.a Universum learning) for deep one class classification problems. We formalize this notion for the widely adopted one class large-margin loss, and propose the Deep One Class Classification using Contradictions (DOC3) algorithm. We show that learning from contradictions incurs lower generalization error by comparing the Empirical Radamacher Complexity (ERC) of DOC3 against its traditional inductive learning counterpart. Our empirical results demonstrate the efficacy of DOC3 algorithm achieving > 30% for CIFAR-10 and >50% for MV-Tec AD data sets in test AUCs compared to its inductive learning counterpart and in many cases improving the state-of-the-art in anomaly detection.
翻訳日:2021-05-18 15:12:06 公開日:2021-05-17
# MLPに対する支払い注意

Pay Attention to MLPs ( http://arxiv.org/abs/2105.08050v1 )

ライセンス: Link先を確認
Hanxiao Liu, Zihang Dai, David R. So, Quoc V. Le(参考訳) トランスフォーマーはディープラーニングにおける最も重要なアーキテクチャ上のイノベーションのひとつとなり、ここ数年で多くのブレークスルーを実現している。 本稿では,gatingを用いたmlpのみをベースとするシンプルな注意フリーネットワークアーキテクチャgmlpを提案し,キー言語や視覚アプリケーションにおいてトランスフォーマーと同様に動作することを示す。 我々の比較では、gMLPが同じ精度を達成できるため、ビジョントランスフォーマーにとって自己注意は重要ではない。 BERTの場合、このモデルはトランスフォーマーとパープレクサの事前訓練で同等であり、下流タスクではより優れている。 gMLPが悪化する微調整タスクでは、gMLPモデルを大幅に大きくすることで、Transformerとのギャップを埋めることができる。 一般的な実験では、gMLPはデータと計算量を増やして、Transformerと同様にスケール可能である。

Transformers have become one of the most important architectural innovations in deep learning and have enabled many breakthroughs over the past few years. Here we propose a simple attention-free network architecture, gMLP, based solely on MLPs with gating, and show that it can perform as well as Transformers in key language and vision applications. Our comparisons show that self-attention is not critical for Vision Transformers, as gMLP can achieve the same accuracy. For BERT, our model achieves parity with Transformers on pretraining perplexity and is better on some downstream tasks. On finetuning tasks where gMLP performs worse, making the gMLP model substantially larger can close the gap with Transformers. In general, our experiments show that gMLP can scale as well as Transformers over increased data and compute.
翻訳日:2021-05-18 15:11:18 公開日:2021-05-17
# 単純なアーキテクチャ設計によるグラフニューラルネットワークの改善

Improving Graph Neural Networks with Simple Architecture Design ( http://arxiv.org/abs/2105.07634v1 )

ライセンス: Link先を確認
Sunil Kumar Maurya, Xin Liu and Tsuyoshi Murata(参考訳) グラフニューラルネットワークは、グラフ構造に基づいた追加の制約を適用することによって、データを学ぶための有用なツールとして登場した。 これらのグラフは、しばしばエンティティ間の内在関係を仮定して作成される。 近年、アーキテクチャ設計が大幅に改善され、様々な予測タスクのパフォーマンスが向上している。 一般に、これらのニューラルアーキテクチャは層深度とノード特徴集約のステップを組み合わせる。 これにより、様々なホップにおける特徴の重要性とニューラルネットワーク層の表現力の分析が困難になる。 異なるグラフデータセットが特徴量やクラスラベル分布の相同性および異種性を示すため、事前情報を持たない予測タスクにおいてどの特徴が重要かを理解することが不可欠となる。 本研究では,グラフニューラルネットワークのノード特徴集約ステップと深さを分離し,グラフニューラルネットワークの重要な設計戦略を紹介する。 具体的には、隣接するホップ距離の異なる特徴の正則化と「ソフトセレクタ」としてソフトマックスを用い、GNN層上での「ホップノーマライゼーション」を提案する。 これらの手法を組み合わせることで、単純で浅いモデルである特徴選択グラフニューラルネットワーク(fsgnn)を示し、提案モデルがart gnnモデルの他の状態よりも優れており、ノード分類タスクの精度が最大64%向上していることを示す。 さらに、モデルの学習したソフト選択パラメータを分析することで、予測タスクにおける特徴の重要性を調べるための簡単な方法を提供する。 最後に,数百万のノードと数十億のエッジを持つ大規模グラフに対して,モデルがスケーラブルであることを示す実験を行った。

Graph Neural Networks have emerged as a useful tool to learn on the data by applying additional constraints based on the graph structure. These graphs are often created with assumed intrinsic relations between the entities. In recent years, there have been tremendous improvements in the architecture design, pushing the performance up in various prediction tasks. In general, these neural architectures combine layer depth and node feature aggregation steps. This makes it challenging to analyze the importance of features at various hops and the expressiveness of the neural network layers. As different graph datasets show varying levels of homophily and heterophily in features and class label distribution, it becomes essential to understand which features are important for the prediction tasks without any prior information. In this work, we decouple the node feature aggregation step and depth of graph neural network and introduce several key design strategies for graph neural networks. More specifically, we propose to use softmax as a regularizer and "Soft-Selector" of features aggregated from neighbors at different hop distances; and "Hop-Normalization&qu ot; over GNN layers. Combining these techniques, we present a simple and shallow model, Feature Selection Graph Neural Network (FSGNN), and show empirically that the proposed model outperforms other state of the art GNN models and achieves up to 64% improvements in accuracy on node classification tasks. Moreover, analyzing the learned soft-selection parameters of the model provides a simple way to study the importance of features in the prediction tasks. Finally, we demonstrate with experiments that the model is scalable for large graphs with millions of nodes and billions of edges.
翻訳日:2021-05-18 15:11:03 公開日:2021-05-17
# 進化的学習と抽象はニューラルコンピュータのアルゴリズム一般化をもたらす

Evolutionary Training and Abstraction Yields Algorithmic Generalization of Neural Computers ( http://arxiv.org/abs/2105.07957v1 )

ライセンス: Link先を確認
Daniel Tanneberg, Elmar Rueckert, Jan Peters(参考訳) 知的行動の重要な特徴は、未知の問題にスケールして移行する抽象的な戦略を学ぶ能力である。 抽象的な戦略は、コンピュータサイエンスのアルゴリズムのように、その表現や複雑さに関係なく、問題クラスのすべてのサンプルを解決します。 ニューラルネットワークは、知覚データを処理し、隠れたパターンを発見し、複雑な関数を学習するための強力なモデルであるが、そのような反復的、逐次的、階層的アルゴリズム戦略を学ぶのに苦労している。 外部記憶によるニューラルネットワークの拡張は、そのような戦略を学ぶ能力を高める一方で、データバリエーションの傾向があり、スケーラブルで転送可能なソリューションを学ぶのに苦労し、大量のトレーニングデータを必要とする。 情報フローと分離モジュールを分割して実現し,データ操作からアルゴリズム操作を分離することで抽象化を行う,メモリ型ネットワークベースアーキテクチャであるneural harvard computer (nhc)を提案する。 この抽象化メカニズムと進化的トレーニングにより、堅牢でスケーラブルなアルゴリズムソリューションの学習が可能になる。 様々な複雑さを持つ11のアルゴリズムの多種多様なセットにおいて、NHCは強力な一般化と抽象性を持つアルゴリズムの解を確実に学習し、任意のタスク構成や複雑さへの完全な一般化とスケーリングを行い、データ表現とタスク領域から独立していることが示される。

A key feature of intelligent behaviour is the ability to learn abstract strategies that scale and transfer to unfamiliar problems. An abstract strategy solves every sample from a problem class, no matter its representation or complexity -- like algorithms in computer science. Neural networks are powerful models for processing sensory data, discovering hidden patterns, and learning complex functions, but they struggle to learn such iterative, sequential or hierarchical algorithmic strategies. Extending neural networks with external memories has increased their capacities in learning such strategies, but they are still prone to data variations, struggle to learn scalable and transferable solutions, and require massive training data. We present the Neural Harvard Computer (NHC), a memory-augmented network based architecture, that employs abstraction by decoupling algorithmic operations from data manipulations, realized by splitting the information flow and separated modules. This abstraction mechanism and evolutionary training enable the learning of robust and scalable algorithmic solutions. On a diverse set of 11 algorithms with varying complexities, we show that the NHC reliably learns algorithmic solutions with strong generalization and abstraction: perfect generalization and scaling to arbitrary task configurations and complexities far beyond seen during training, and being independent of the data representation and the task domain.
翻訳日:2021-05-18 15:10:38 公開日:2021-05-17
# フェデレートラーニングによるプライバシー制約下での深層顔認識のための教師なしドメイン適応

Towards Unsupervised Domain Adaptation for Deep Face Recognition under Privacy Constraints via Federated Learning ( http://arxiv.org/abs/2105.07606v1 )

ライセンス: Link先を確認
Weiming Zhuang, Xin Gan, Yonggang Wen, Xuesen Zhang, Shuai Zhang, Shuai Yi(参考訳) 教師なし領域適応(unsupervised domain adaptation)は、対象領域と異なるデータ分布を持つソース領域のラベル付きデータに対して、対象領域内のラベルなしデータのモデルを一般化するために広く採用されている。 しかし、既存の作品は2つのドメイン間でセンシティブな顔画像を共有する必要があるため、プライバシー上の制約下での顔認識には不適格である。 この問題に対処するために,新しい非教師付きフェデレーション顔認識手法 (FedFR) を提案する。 fedfrは、フェデレーション学習を通じてソースドメインから知識を反復的に集約することで、ターゲットドメインのパフォーマンスを向上させる。 ドメイン間の生データではなく、モデルを転送することで、データのプライバシを保護する。 さらに、ソースドメイントレーニングを正規化するための新しいドメイン制約損失(DCL)を提案する。 DCLは、ソースドメインのデータボリューム支配を抑制する。 また,非ラベル対象領域の擬似ラベルを正確に予測するための階層的クラスタリングアルゴリズムも拡張した。 この目的のために、FedFRは、(1)ソースドメインでの事前トレーニング、(2)ターゲットドメインでのクラスタリングによる擬似ラベル予測、(3)ドメイン制約付きフェデレーション学習を2つのドメインで行う、エンドツーエンドのトレーニングパイプラインを形成する。 2つの新しく構築されたベンチマークに関する大規模な実験と分析は、FedFRの有効性を示している。 より現実的なベンチマークでは、ターゲットドメインのベースラインと古典的なメソッドを4%以上上回っている。 fedfrは、プライバシーの制約下で、より多くのコンピュータビジョンタスクにフェデレーション学習を適用することに光を当てると信じています。

Unsupervised domain adaptation has been widely adopted to generalize models for unlabeled data in a target domain, given labeled data in a source domain, whose data distributions differ from the target domain. However, existing works are inapplicable to face recognition under privacy constraints because they require sharing sensitive face images between two domains. To address this problem, we propose a novel unsupervised federated face recognition approach (FedFR). FedFR improves the performance in the target domain by iteratively aggregating knowledge from the source domain through federated learning. It protects data privacy by transferring models instead of raw data between domains. Besides, we propose a new domain constraint loss (DCL) to regularize source domain training. DCL suppresses the data volume dominance of the source domain. We also enhance a hierarchical clustering algorithm to predict pseudo labels for the unlabeled target domain accurately. To this end, FedFR forms an end-to-end training pipeline: (1) pre-train in the source domain; (2) predict pseudo labels by clustering in the target domain; (3) conduct domain-constrained federated learning across two domains. Extensive experiments and analysis on two newly constructed benchmarks demonstrate the effectiveness of FedFR. It outperforms the baseline and classic methods in the target domain by over 4% on the more realistic benchmark. We believe that FedFR will shed light on applying federated learning to more computer vision tasks under privacy constraints.
翻訳日:2021-05-18 15:09:54 公開日:2021-05-17
# グラフからテキストへの段階的微調整

Stage-wise Fine-tuning for Graph-to-Text Generation ( http://arxiv.org/abs/2105.08021v1 )

ライセンス: Link先を確認
Qingyun Wang, Semih Yavuz, Victoria Lin, Heng Ji, Nazneen Rajani(参考訳) グラフからテキストへの生成は、構造化グラフエンコーダよりも優れたパフォーマンスを達成するための事前学習言語モデル(plm)の恩恵を受けている。 しかし、入力グラフの構造情報を十分に活用することができない。 本稿では,2段階の微調整機構を備えた構造化グラフ・トゥ・テキストモデルを提案することにより,事前学習された言語モデルの性能をさらに向上することを目的とする。 従来のトークンと位置埋め込みを用いて知識グラフ(KG)を符号化することに加えて,入力グラフの依存性間構造をキャプチャする新しいツリーレベルの埋め込み手法を提案する。 この新しいアプローチは、英語WebNLG 2017データセットのすべてのテキスト生成メトリクスのパフォーマンスを大幅に改善した。

Graph-to-text generation has benefited from pre-trained language models (PLMs) in achieving better performance than structured graph encoders. However, they fail to fully utilize the structure information of the input graph. In this paper, we aim to further improve the performance of the pre-trained language model by proposing a structured graph-to-text model with a two-step fine-tuning mechanism which first fine-tunes model on Wikipedia before adapting to the graph-to-text generation. In addition to using the traditional token and position embeddings to encode the knowledge graph (KG), we propose a novel tree-level embedding method to capture the inter-dependency structures of the input graph. This new approach has significantly improved the performance of all text generation metrics for the English WebNLG 2017 dataset.
翻訳日:2021-05-18 15:09:17 公開日:2021-05-17
# SeaD: スキーマ認識によるエンドツーエンドのテキストからSQL生成

SeaD: End-to-end Text-to-SQL Generation with Schema-aware Denoising ( http://arxiv.org/abs/2105.07911v1 )

ライセンス: Link先を確認
Kuan Xuan, Yongbo Wang, Yongliang Wang, Zujie Wen, Yang Dong(参考訳) テキストからSQLへのタスクでは、Seq-to-seqモデルはアーキテクチャに制限があるため、しばしば準最適パフォーマンスをもたらす。 本稿では,トランスフォーマティブベースのseq-to-seqモデルを頑健なテキスト-sql生成に適用する,単純かつ効果的な手法を提案する。 そこで本研究では,デコーダをスロットフィリング(スロットフィリング)として,タスクの制約を誘導する代わりに,2つの新しいエロージョンとシャッフルノイズから出力を回復または予測する2つの聴覚的目標からなるセマアウェアメント・デノイング(SeaD)を用いてセック・ツー・セクックモデルを訓練することを提案する。 これらの認知目的は、S2S生成における構造データのモデリングを改善する補助的なタスクとして機能する。 さらに,生成モデルにおけるEG復号化の限界を克服するために,EG復号化手法の改良と提案を行う。 提案手法は,スキーマリンクと文法の正確性の両方においてseq-to-seqモデルの性能を向上し,wikisqlベンチマークで新たな最先端を確立できることを示す。 その結果,テキスト対sqlのvailla seq-to-seqアーキテクチャの容量は過小評価された可能性がある。

In text-to-SQL task, seq-to-seq models often lead to sub-optimal performance due to limitations in their architecture. In this paper, we present a simple yet effective approach that adapts transformer-based seq-to-seq model to robust text-to-SQL generation. Instead of inducing constraint to decoder or reformat the task as slot-filling, we propose to train seq-to-seq model with Schema aware Denoising (SeaD), which consists of two denoising objectives that train model to either recover input or predict output from two novel erosion and shuffle noises. These denoising objectives acts as the auxiliary tasks for better modeling the structural data in S2S generation. In addition, we improve and propose a clause-sensitive execution guided (EG) decoding strategy to overcome the limitation of EG decoding for generative model. The experiments show that the proposed method improves the performance of seq-to-seq model in both schema linking and grammar correctness and establishes new state-of-the-art on WikiSQL benchmark. The results indicate that the capacity of vanilla seq-to-seq architecture for text-to-SQL may have been under-estimated.
翻訳日:2021-05-18 15:09:04 公開日:2021-05-17
# ワールドワイドロードシーン画像におけるポットホールの自動捕捉学習

Learning to Automatically Catch Potholes in Worldwide Road Scene Images ( http://arxiv.org/abs/2105.07986v1 )

ライセンス: Link先を確認
J. Javier Yebes, David Montero, Ignacio Arriola(参考訳) 世界中の舗装道路に存在するいくつかの道路の危険の中で、ポットホールは最も厄介なものの1つであり、メンテナンスコストも高い。 技術や研究の進展により、これらの危険を自動的に検出することへの関心が高まっている。 我々の研究は、現実世界の道路シーンの画像から抜け穴を検出するという課題に取り組みました。 主な斬新さは、最新のAIの進歩を応用して、穴の視覚的外観を学ぶことにある。 私たちはpotholeアノテーションで画像の大規模なデータセットを構築しました。 彼らは、様々な環境条件下で異なるカメラ、車両、視点で撮影された世界中の異なる都市の道路シーンを含んでいた。 次に,高速なr-cnnとssd深層ニューラルネットワークに基づく4種類の物体検出モデルを微調整した。 車両に埋め込むことができるGPGPU機能を備えたNvidia DrivePX2プラットフォーム上で,高い平均精度を達成し,ポットホール検出器を試験した。 さらに、AUTOPILOT H2020プロジェクトの一環として、検出されたポットホールを所定のIoTプラットフォームに通知するために、実際の車両にデプロイされた。

Among several road hazards that are present in any paved way in the world, potholes are one of the most annoying and also involving higher maintenance costs. There exists an increasing interest on the automated detection of these hazards enabled by technological and research progress. Our research work tackled the challenge of pothole detection from images of real world road scenes. The main novelty resides on the application of the latest progress in AI to learn the visual appearance of potholes. We built a large dataset of images with pothole annotations. They contained road scenes from different cities in the world, taken with different cameras, vehicles and viewpoints under varied environmental conditions. Then, we fine-tuned four different object detection models based on Faster R-CNN and SSD deep neural networks. We achieved high average precision and the pothole detector was tested on the Nvidia DrivePX2 platform with GPGPU capability, which can be embedded on vehicles. Moreover, it was deployed on a real vehicle to notify the detected potholes to a given IoT platform as part of AUTOPILOT H2020 project.
翻訳日:2021-05-18 15:07:08 公開日:2021-05-17
# ニューラルnliモデルにおけるコンテキストモノトニック性抽象化のサポート

Supporting Context Monotonicity Abstractions in Neural NLI Models ( http://arxiv.org/abs/2105.08008v1 )

ライセンス: Link先を確認
Julia Rozanova, Deborah Ferreira, Mokanarangan Thayaparan, Marco Valentino, Andr\'e Freitas(参考訳) 自然言語文脈は関連する概念の置換に関して論理的に正則性を示す:それらは単調性と呼ばれる機能的順序論的性質で捉えられる。 これらの問題に対するNLIモデルの性能向上を目的とした従来の手法を基礎として,提案手法は,提案手法の文脈の単調性と代替概念の関係にのみ依存する,ある種のNLI問題に対して,上向きと下向きの単調な文脈における一貫した性能が,最先端のモデルにおいても達成し難いように思われる。 この目的のために、コンテクスト単調性分類の問題を再構成して、トランスフォーマーベースの事前学習NLIモデルと互換性を持たせ、このタスクをトレーニングパイプラインに追加する。 さらに,文脈の扱いを抽象単位として記述した,音質と完全簡素な単調性論理形式を提案する。 フォーマリズムにおける概念を用いて,中間文脈の単調性分類タスクが単調性推論を示す例におけるNLIモデルの性能向上に役立つかどうかを検討する。

Natural language contexts display logical regularities with respect to substitutions of related concepts: these are captured in a functional order-theoretic property called monotonicity. For a certain class of NLI problems where the resulting entailment label depends only on the context monotonicity and the relation between the substituted concepts, we build on previous techniques that aim to improve the performance of NLI models for these problems, as consistent performance across both upward and downward monotone contexts still seems difficult to attain even for state-of-the-art models. To this end, we reframe the problem of context monotonicity classification to make it compatible with transformer-based pre-trained NLI models and add this task to the training pipeline. Furthermore, we introduce a sound and complete simplified monotonicity logic formalism which describes our treatment of contexts as abstract units. Using the notions in our formalism, we adapt targeted challenge sets to investigate whether an intermediate context monotonicity classification task can aid NLI models' performance on examples exhibiting monotonicity reasoning.
翻訳日:2021-05-18 15:06:54 公開日:2021-05-17
# 作用可能な \ & plausible の反実的説明に対する凸最適化

Convex optimization for actionable \& plausible counterfactual explanations ( http://arxiv.org/abs/2105.07630v1 )

ライセンス: Link先を確認
Andr\'e Artelt and Barbara Hammer(参考訳) 透明性は、現実世界にデプロイされる機械学習ベースの意思決定システムにとって必須の要件である。 しばしば、あるシステムの透明性は、与えられたシステムの振る舞いと予測の説明を提供することによって達成される。 事実的説明は、意思決定システムの特に直感的な説明の顕著な例である。 反事実的説明を計算するための多くの異なる方法が存在するが、機能依存と、考えられる反事実的説明のセットを制限する可能性について考慮している作業はごくわずかである(因果性ドメインの仕事を除く)。 本研究は, 対物的説明に対する凸モデルに関する従来の研究を, 対物的説明の作用性と妥当性を保証するメカニズムにより強化する。

Transparency is an essential requirement of machine learning based decision making systems that are deployed in real world. Often, transparency of a given system is achieved by providing explanations of the behavior and predictions of the given system. Counterfactual explanations are a prominent instance of particular intuitive explanations of decision making systems. While a lot of different methods for computing counterfactual explanations exist, only very few work (apart from work from the causality domain) considers feature dependencies as well as plausibility which might limit the set of possible counterfactual explanations. In this work we enhance our previous work on convex modeling for computing counterfactual explanations by a mechanism for ensuring actionability and plausibility of the resulting counterfactual explanations.
翻訳日:2021-05-18 15:04:51 公開日:2021-05-17
# Echo状態ネットワークによる連続学習

Continual Learning with Echo State Networks ( http://arxiv.org/abs/2105.07674v1 )

ライセンス: Link先を確認
Andrea Cossu, Davide Bacciu, Antonio Carta, Claudio Gallicchio, Vincenzo Lomonaco(参考訳) 継続学習(CL)とは、データが定常ではなく、モデルは既存の知識を忘れずに学習しなければならない学習環境を指す。 逐次パターンのCLの研究は、トレーニングされたリカレントネットワークを中心に展開される。 そこで本研究では,リカレント成分を固定したエコー状態ネットワーク(esns)の文脈でclを導入する。 我々は,esnにおける壊滅的欠落に関する最初の評価を行い,訓練されたリカレントモデルには適用できないcl戦略の使用の利点を強調する。 その結果,ESNはCLの有望なモデルとして確認され,ストリーミングシナリオでの使用が可能となった。

Continual Learning (CL) refers to a learning setup where data is non stationary and the model has to learn without forgetting existing knowledge. The study of CL for sequential patterns revolves around trained recurrent networks. In this work, instead, we introduce CL in the context of Echo State Networks (ESNs), where the recurrent component is kept fixed. We provide the first evaluation of catastrophic forgetting in ESNs and we highlight the benefits in using CL strategies which are not applicable to trained recurrent models. Our results confirm the ESN as a promising model for CL and open to its use in streaming scenarios.
翻訳日:2021-05-18 15:04:39 公開日:2021-05-17
# 帰納的メタ解釈学習によるバイオデザインの自動化

Automated Biodesign Engineering by Abductive Meta-Interpretive Learning ( http://arxiv.org/abs/2105.07758v1 )

ライセンス: Link先を確認
Wang-Zhou Dai, Liam Hallett, Stephen H. Muggleton, Geoff S. Baldwin(参考訳) 人工知能(ai)を合成生物学に応用することで、遺伝子設計のための高スループットな自動化プラットフォームを構築するための基盤となり、学習機械を用いて設計-ビルド-テスト-リール(dbtl)サイクルを通じてシステムを反復的に最適化する。 しかし、ディープラーニングで表現される主流の機械学習技術は、関係知識を表現する能力がなく、大量の注釈付きトレーニングデータを必要とする。 これらの欠点は、実験が本質的に資源と時間集約である合成生物学におけるAIの役割を強く制限する。 In this work, we propose an automated biodesign engineering framework empowered by Abductive Meta-Interpretive Learning ($Meta_{Abd}$), a novel machine learning approach that combines symbolic and sub-symbolic machine learning, to further enhance the DBTL cycle by enabling the learning machine to 1) exploit domain knowledge and learn human-interpretable models that are expressed by formal languages such as first-order logic; 2) simultaneously optimise the structure and parameters of the models to make accurate numerical predictions; 3) reduce the cost of experiments and effort on data annotation by actively generating hypotheses and examples. Meta_{Abd}$の有効性を検証するため,微生物宿主の3つの遺伝子オペロンからタンパク質を生産するための合成データセットをモデル化した。

The application of Artificial Intelligence (AI) to synthetic biology will provide the foundation for the creation of a high throughput automated platform for genetic design, in which a learning machine is used to iteratively optimise the system through a design-build-test-le arn (DBTL) cycle. However, mainstream machine learning techniques represented by deep learning lacks the capability to represent relational knowledge and requires prodigious amounts of annotated training data. These drawbacks strongly restrict AI's role in synthetic biology in which experimentation is inherently resource and time intensive. In this work, we propose an automated biodesign engineering framework empowered by Abductive Meta-Interpretive Learning ($Meta_{Abd}$), a novel machine learning approach that combines symbolic and sub-symbolic machine learning, to further enhance the DBTL cycle by enabling the learning machine to 1) exploit domain knowledge and learn human-interpretable models that are expressed by formal languages such as first-order logic; 2) simultaneously optimise the structure and parameters of the models to make accurate numerical predictions; 3) reduce the cost of experiments and effort on data annotation by actively generating hypotheses and examples. To verify the effectiveness of $Meta_{Abd}$, we have modelled a synthetic dataset for the production of proteins from a three gene operon in a microbial host, which represents a common synthetic biology problem.
翻訳日:2021-05-18 15:04:29 公開日:2021-05-17
# 非線型偏微分方程式を解く物理インフォームドアテンションベースニューラルネットワーク

Physics-informed attention-based neural network for solving non-linear partial differential equations ( http://arxiv.org/abs/2105.07898v1 )

ライセンス: Link先を確認
Ruben Rodriguez-Torrado, Pablo Ruiz, Luis Cueto-Felgueroso, Michael Cerny Green, Tyler Friesen, Sebastien Matringe and Julian Togelius(参考訳) 物理学に変形したニューラルネットワーク(pinns)は、偏微分方程式 (pdes) によって記述される物理過程のモデリングにおいて大幅に改善した。 PINNは単純なアーキテクチャに基づいており、ネットワークパラメータを最適化することで複雑な物理システムの振る舞いを学習し、基礎となるPDEの残余を最小限に抑える。 現在のネットワークアーキテクチャは、連続力学における非線形微分方程式に適用する際の古典的な数値離散化スキームのいくつかの制限を共有している。 パラダイム的な例は、高度に局所化された非線形衝撃波を発生させる双曲保存則の解である。 支配的な双曲的特徴を持つPDEの学習ソリューションは、ほとんどのグリッドベースの数値スキームと同様に、人工散逸を追加することに依存する現在のPINNアプローチの課題である。 ここでは、非線形PDEの複雑な振る舞いを学ぶのに、ネットワークアーキテクチャが最適かという根本的な問題に対処する。 我々は残留正規化よりもネットワークアーキテクチャに注目する。 物理学を応用したアテンションベースニューラルネットワーク(pianns)と呼ばれる新しい手法は,リカレントニューラルネットワークとアテンション機構を組み合わせたものだ。 注意機構は、ディープニューラルネットワークの挙動をソリューションの非線形特徴に適応させ、PINNの現在の制限を破る。 PIANNは双曲モデル問題におけるショックフロントを効果的に捉え、トレーニングセット内外の高品質なソリューションを提供することができる。

Physics-Informed Neural Networks (PINNs) have enabled significant improvements in modelling physical processes described by partial differential equations (PDEs). PINNs are based on simple architectures, and learn the behavior of complex physical systems by optimizing the network parameters to minimize the residual of the underlying PDE. Current network architectures share some of the limitations of classical numerical discretization schemes when applied to non-linear differential equations in continuum mechanics. A paradigmatic example is the solution of hyperbolic conservation laws that develop highly localized nonlinear shock waves. Learning solutions of PDEs with dominant hyperbolic character is a challenge for current PINN approaches, which rely, like most grid-based numerical schemes, on adding artificial dissipation. Here, we address the fundamental question of which network architectures are best suited to learn the complex behavior of non-linear PDEs. We focus on network architecture rather than on residual regularization. Our new methodology, called Physics-Informed Attention-based Neural Networks, (PIANNs), is a combination of recurrent neural networks and attention mechanisms. The attention mechanism adapts the behavior of the deep neural network to the non-linear features of the solution, and break the current limitations of PINNs. We find that PIANNs effectively capture the shock front in a hyperbolic model problem, and are capable of providing high-quality solutions inside and beyond the training set.
翻訳日:2021-05-18 15:04:12 公開日:2021-05-17
# Data Assimilation Predictive GAN (DA-PredGAN) : 新型コロナウイルスの感染拡大判定に応用

Data Assimilation Predictive GAN (DA-PredGAN): applied to determine the spread of COVID-19 ( http://arxiv.org/abs/2105.07729v1 )

ライセンス: Link先を確認
Vinicius L S Silva, Claire E Heaney, Yaqi Li, Christopher C Pain(参考訳) 本稿では, 時間内予測 (predgan) と (ii) で測定値 (da-predgan) を同一化するために, 生成的逆ネットワーク (gan) を用いた新しい手法を提案する。 後者の場合、生成モデルの自然随伴的な性質と、時間内に前方および後方をシミュレートする能力を利用する。 GANは、現実的な画像の生成において優れた結果を得た後、最近多くの注目を集めている。 我々は、この性質が計算モデリングにおける新しい応用にどのように変換するかを探求し、効率的なデータ同化のために随伴的な性質を活用することを望む。 理想的な町でのCOVID-19の拡散を予測するため、空間と時間の変化をモデル化できる疫学のコンパートメンタルモデルにこれらの手法を適用した。 これを実現するために、GANは、シミュレーション状態の空間分布に低次元空間を使用する減階モデル(ROM)内に設定される。 そして、GANは時間とともに低次元状態の進化を学ぶ。 その結果,提案手法は高精度な数値シミュレーションの進化を精度良く予測でき,観測データを効率的に同一化し,対応するモデルパラメータを決定できることがわかった。

We propose the novel use of a generative adversarial network (GAN) (i) to make predictions in time (PredGAN) and (ii) to assimilate measurements (DA-PredGAN). In the latter case, we take advantage of the natural adjoint-like properties of generative models and the ability to simulate forwards and backwards in time. GANs have received much attention recently, after achieving excellent results for their generation of realistic-looking images. We wish to explore how this property translates to new applications in computational modelling and to exploit the adjoint-like properties for efficient data assimilation. To predict the spread of COVID-19 in an idealised town, we apply these methods to a compartmental model in epidemiology that is able to model space and time variations. To do this, the GAN is set within a reduced-order model (ROM), which uses a low-dimensional space for the spatial distribution of the simulation states. Then the GAN learns the evolution of the low-dimensional states over time. The results show that the proposed methods can accurately predict the evolution of the high-fidelity numerical simulation, and can efficiently assimilate observed data and determine the corresponding model parameters.
翻訳日:2021-05-18 15:03:15 公開日:2021-05-17
# 逐次学習のための勾配分解による階層最適化

Layerwise Optimization by Gradient Decomposition for Continual Learning ( http://arxiv.org/abs/2105.07561v1 )

ライセンス: Link先を確認
Shixiang Tang, Dapeng Chen, Jinguo Zhu, Shijie Yu and Wanli Ouyang(参考訳) ディープニューラルネットワークは、様々な領域にわたる最先端の超人的なパフォーマンスを実現する。 しかし、タスクを逐次学習する場合、ネットワークは「破滅的な忘れ」として知られる以前のタスクの知識を忘れやすい。 古いタスクと新しいタスクの相補性を達成するために、1つの効果的な解決策は、更新のための勾配を変更することである。 従来の手法では,これらの勾配には複雑な情報が含まれており,勾配分解によるタスク間情報の活用が提案されている。 特に、古いタスクの勾配は、すべての古いタスクで共有される部分と、そのタスクに特有の部分に分解される。 更新の勾配は、新しいタスクの勾配に近いものでなければならず、すべての古いタスクが共有する勾配と一致し、古いタスクに特有の勾配にまたがる空間に直交する。 このようにして,タスク固有の知識を損なうことなく,共通知識の統合を促す。 さらに、従来のように全ての勾配の連結ではなく、各層の勾配を別々に最適化する。 これにより、異なる層における勾配のマグニチュード変動の影響を効果的に回避できる。 広範な実験により、勾配分解最適化と層別更新の両方の有効性が検証された。 提案手法は,連続学習の様々なベンチマークで最新の結果を得る。

Deep neural networks achieve state-of-the-art and sometimes super-human performance across various domains. However, when learning tasks sequentially, the networks easily forget the knowledge of previous tasks, known as "catastrophic forgetting". To achieve the consistencies between the old tasks and the new task, one effective solution is to modify the gradient for update. Previous methods enforce independent gradient constraints for different tasks, while we consider these gradients contain complex information, and propose to leverage inter-task information by gradient decomposition. In particular, the gradient of an old task is decomposed into a part shared by all old tasks and a part specific to that task. The gradient for update should be close to the gradient of the new task, consistent with the gradients shared by all old tasks, and orthogonal to the space spanned by the gradients specific to the old tasks. In this way, our approach encourages common knowledge consolidation without impairing the task-specific knowledge. Furthermore, the optimization is performed for the gradients of each layer separately rather than the concatenation of all gradients as in previous works. This effectively avoids the influence of the magnitude variation of the gradients in different layers. Extensive experiments validate the effectiveness of both gradient-decomposed optimization and layer-wise updates. Our proposed method achieves state-of-the-art results on various benchmarks of continual learning.
翻訳日:2021-05-18 15:02:18 公開日:2021-05-17
# 視覚トランスフォーマーは堅牢な学習者です

Vision Transformers are Robust Learners ( http://arxiv.org/abs/2105.07581v1 )

ライセンス: Link先を確認
Sayak Paul and Pin-Yu Chen(参考訳) 複数の自己注意層で構成されたトランスフォーマーは、さまざまなデータモダリティに適用可能な汎用的な学習プリミティブに対して、パラメータ効率を向上して最先端のSOTA(State-of-the-ar t)標準精度を達成するコンピュータビジョンの最近のブレークスルーを含む、強い約束を持っている。 セルフアテンションは入力データ内に存在する異なるコンポーネントを体系的に整列させるのに役立つため、モデルロバスト性ベンチマークでその性能を調査する根拠を残している。 本研究では,視覚トランスフォーマ (vit) の共通の腐敗や摂動, 分布シフト, 自然逆流に対するロバスト性について検討する。 vitモデルとsoma畳み込みニューラルネットワーク(cnns)の総合的な性能比較を行うために,ロバスト分類に関する6種類の画像ネットデータセットを用いた。 6つの体系的に設計された実験を通して、ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標の両方を提供する分析を行う。 例えば、より少ないパラメータと類似したデータセットと事前トレーニングの組み合わせで、ViTはImageNet-Aで28.10%の精度を提供する。 画像マスキング,フーリエスペクトル感度および離散コサインエネルギースペクトルへの拡散に関する解析により,ViTの強靭性向上に寄与する興味深い性質が明らかになった。 実験を再現するためのコードは以下の通りである。

Transformers, composed of multiple self-attention layers, hold strong promises toward a generic learning primitive applicable to different data modalities, including the recent breakthroughs in computer vision achieving state-of-the-art (SOTA) standard accuracy with better parameter efficiency. Since self-attention helps a model systematically align different components present inside the input data, it leaves grounds to investigate its performance under model robustness benchmarks. In this work, we study the robustness of the Vision Transformer (ViT) against common corruptions and perturbations, distribution shifts, and natural adversarial examples. We use six different diverse ImageNet datasets concerning robust classification to conduct a comprehensive performance comparison of ViT models and SOTA convolutional neural networks (CNNs), Big-Transfer. Through a series of six systematically designed experiments, we then present analyses that provide both quantitative and qualitative indications to explain why ViTs are indeed more robust learners. For example, with fewer parameters and similar dataset and pre-training combinations, ViT gives a top-1 accuracy of 28.10% on ImageNet-A which is 4.3x higher than a comparable variant of BiT. Our analyses on image masking, Fourier spectrum sensitivity, and spread on discrete cosine energy spectrum reveal intriguing properties of ViT attributing to improved robustness. Code for reproducing our experiments is available here: https://git.io/J3VO0 .
翻訳日:2021-05-18 15:02:02 公開日:2021-05-17
# 連続学習のための生成リプレイ付き共有・プライベートVAE

Shared and Private VAEs with Generative Replay for Continual Learning ( http://arxiv.org/abs/2105.07627v1 )

ライセンス: Link先を確認
Subhankar Ghosh(参考訳) 継続的学習は、学習済みのタスクを忘れずに新しいタスクを学習しようとする。 実際、既存のニューラルネットワーク(ann)モデルのほとんどは失敗するが、人間は生涯にわたって過去の作品を思い出して同じことをする。 過去のデータを全て保存するだけで問題を軽減することができるが、最後のデータアクセスが制限された現実世界のアプリケーションでは、大きなメモリを必要とする。 各タスクを解決するために学習するモデルは、タスク固有の性質とタスク不変特性を持っていると仮定する。 本稿では,タスク不変な共変共変オートエンコーダとtタスク固有変分オートエンコーダを持つ問題に対処するために,実例シナリオでより適したハイブリッド連続学習モデルを提案する。 生成的リプレイとアーキテクチャ的成長を組み合わせることで,破滅的な忘れ込みを防ぐ。 我々は,MNIST,Permuted MNIST(QMNIST),CIFAR1 00,MiniImageNetデータセットなどの視覚的連続学習ベンチマークにおいて,このハイブリッドモデルの有効性を示す。 SVHN、Fashion-MNIST、EMNIST、CIFAR10など、いくつかのデータセットの結果について議論する。

Continual learning tries to learn new tasks without forgetting previously learned ones. In reality, most of the existing artificial neural network(ANN) models fail, while humans do the same by remembering previous works throughout their life. Although simply storing all past data can alleviate the problem, it needs large memory and often infeasible in real-world applications where last data access is limited. We hypothesize that the model that learns to solve each task continually has some task-specific properties and some task-invariant characteristics. We propose a hybrid continual learning model that is more suitable in real case scenarios to address the issues that has a task-invariant shared variational autoencoder and T task-specific variational autoencoders. Our model combines generative replay and architectural growth to prevent catastrophic forgetting. We show our hybrid model effectively avoids forgetting and achieves state-of-the-art results on visual continual learning benchmarks such as MNIST, Permuted MNIST(QMNIST), CIFAR100, and miniImageNet datasets. We discuss results on a few more datasets, such as SVHN, Fashion-MNIST, EMNIST, and CIFAR10.
翻訳日:2021-05-18 15:01:38 公開日:2021-05-17
# フェイクニュースの自動検出 - モデルが推論を学んでいるか?

Automatic Fake News Detection: Are Models Learning to Reason? ( http://arxiv.org/abs/2105.07698v1 )

ライセンス: Link先を確認
Casper Hansen and Christian Hansen and Lucas Chaves Lima(参考訳) 自動偽ニュース検出のためのほとんどの事実チェックモデルは推論に基づいており、関連する証拠のクレームが与えられた場合、モデルは証拠内のコンテンツのサポートや反証に基づいてクレームの正確性を推定することを目的としている。 これらのモデルがうまく機能すると、一般的には、主張に関して証拠を論じることを学んだモデルが原因であると仮定される。 本稿では,この推論の仮定を,主張と証拠の両方の関係と重要性を探求することによって検討する。 驚くべきことに、最も有効性が高いデータセットは、主張を含む影響が有効性に無視できるか有害であるので、証拠のみを利用することによって得られる。 これは、既存のフェイクニュース検出手法における証拠を構成する重要な問題である。

Most fact checking models for automatic fake news detection are based on reasoning: given a claim with associated evidence, the models aim to estimate the claim veracity based on the supporting or refuting content within the evidence. When these models perform well, it is generally assumed to be due to the models having learned to reason over the evidence with regards to the claim. In this paper, we investigate this assumption of reasoning, by exploring the relationship and importance of both claim and evidence. Surprisingly, we find on political fact checking datasets that most often the highest effectiveness is obtained by utilizing only the evidence, as the impact of including the claim is either negligible or harmful to the effectiveness. This highlights an important problem in what constitutes evidence in existing approaches for automatic fake news detection.
翻訳日:2021-05-18 15:00:15 公開日:2021-05-17
# EasyFL: ダミーのためのローコードフェデレーション学習プラットフォーム

EasyFL: A Low-code Federated Learning Platform For Dummies ( http://arxiv.org/abs/2105.07603v1 )

ライセンス: Link先を確認
Weiming Zhuang, Xin Gan, Yonggang Wen, Shuai Zhang(参考訳) 学界と業界は、一般的なプライバシー保護分散学習メソッドであるフェデレートラーニング(FL)をサポートするために、いくつかのプラットフォームを開発した。 しかし、これらのプラットフォームの使用は複雑で、FLの深い理解が必要であり、初心者の参入に高い障壁を課し、データサイエンティストの生産性を制限し、デプロイメント効率を損なう。 本稿では,様々なレベルの専門知識を持つユーザが,コーディングの少ないFLアプリケーションを実験・試作するための,最初のローコードFLプラットフォームであるEasyFLを提案する。 この目標を達成すると同時に、シンプルなAPI設計、モジュール設計、きめ細かいトレーニングフローの抽象化を統合することで、カスタマイズの柔軟性を確保します。 数行のコードだけで、EasyFLは実験とデプロイを加速するために、多くのアウトオブボックス機能で彼らに権限を与える。 これらの実用機能は異種性シミュレーション、分散トレーニング最適化、包括的なトラッキング、シームレスなデプロイメントである。 提案するflライフサイクルで特定された課題に基づいて提案する。 我々の実装は、バニラFLアプリケーションを構築するのに3行のコードしか必要とせず、少なくとも他のプラットフォームよりも10倍も少ないことを示しています。 評価の結果,EasyFLはトレーニングを1.5倍速くすることがわかった。 また、実験と展開の効率も向上する。 我々は、EasyFLがデータサイエンティストの生産性を高め、FLを幅広い聴衆に民主化すると考えている。

Academia and industry have developed several platforms to support the popular privacy-preserving distributed learning method -- Federated Learning (FL). However, these platforms are complex to use and require a deep understanding of FL, which imposes high barriers to entry for beginners, limits the productivity of data scientists, and compromises deployment efficiency. In this paper, we propose the first low-code FL platform, EasyFL, to enable users with various levels of expertise to experiment and prototype FL applications with little coding. We achieve this goal while ensuring great flexibility for customization by unifying simple API design, modular design, and granular training flow abstraction. With only a few lines of code, EasyFL empowers them with many out-of-the-box functionalities to accelerate experimentation and deployment. These practical functionalities are heterogeneity simulation, distributed training optimization, comprehensive tracking, and seamless deployment. They are proposed based on challenges identified in the proposed FL life cycle. Our implementations show that EasyFL requires only three lines of code to build a vanilla FL application, at least 10x lesser than other platforms. Besides, our evaluations demonstrate that EasyFL expedites training by 1.5x. It also improves the efficiency of experiments and deployment. We believe that EasyFL will increase the productivity of data scientists and democratize FL to wider audiences.
翻訳日:2021-05-18 14:58:38 公開日:2021-05-17
# CTR予測のための事前学習型グラフニューラルネットワークによる意味的クロス特徴学習

Explicit Semantic Cross Feature Learning via Pre-trained Graph Neural Networks for CTR Prediction ( http://arxiv.org/abs/2105.07752v1 )

ライセンス: Link先を確認
Feng Li, Bencheng Yan, Qingqing Long, Pengjie Wang, Wei Lin, Jian Xu and Bo Zheng(参考訳) クロス機能はクリックスルー率(CTR)予測において重要な役割を果たす。 既存のメソッドのほとんどは、暗黙の方法でクロスフィーチャをキャプチャするためにDNNベースのモデルを採用している。 これらの暗黙の手法は、明示的なセマンティックモデリングの制限により、サブ最適化のパフォーマンスをもたらす可能性がある。 従来の統計的明示的セマンティッククロス機能は、これらの暗黙の手法でこの問題に対処できるが、一般化の欠如や高価なメモリコストなど、いくつかの課題に悩まされている。 これらの課題に取り組むことに注力する作業はほとんどない。 本稿では,明示的なセマンティッククロス特徴を学習する第一歩として,GNNをベースとした事前学習モデルであるPCF-GNN(Pre-trained Cross Feature Learning Graph Neural Networks)を提案する。 PCF-GNNは様々なタスクにおける性能とメモリ効率の両方の能力を示す。

Cross features play an important role in click-through rate (CTR) prediction. Most of the existing methods adopt a DNN-based model to capture the cross features in an implicit manner. These implicit methods may lead to a sub-optimized performance due to the limitation in explicit semantic modeling. Although traditional statistical explicit semantic cross features can address the problem in these implicit methods, it still suffers from some challenges, including lack of generalization and expensive memory cost. Few works focus on tackling these challenges. In this paper, we take the first step in learning the explicit semantic cross features and propose Pre-trained Cross Feature learning Graph Neural Networks (PCF-GNN), a GNN based pre-trained model aiming at generating cross features in an explicit fashion. Extensive experiments are conducted on both public and industrial datasets, where PCF-GNN shows competence in both performance and memory-efficiency in various tasks.
翻訳日:2021-05-18 14:58:18 公開日:2021-05-17
# 混合ペナルティロジスティック回帰を用いたチャーン予測のための顧客オンラインエンゲージメントの分類

Classifying variety of customer's online engagement for churn prediction with mixed-penalty logistic regression ( http://arxiv.org/abs/2105.07671v1 )

ライセンス: Link先を確認
Petra Posedel \v{S}imovi\'c, Davor Horvatic, Edward W. Sun(参考訳) ビッグデータを使用して消費者行動を分析することで、顧客関係管理(crm)における顧客満足(churn)を防止するための効果的な意思決定ツールを提供できる。 顧客の不均一性に影響を与える要因(セルフケアサービスチャネルの使用、サービス継続時間、マーケティング行動への対応など)のいくつかの異なるカテゴリのcrmデータセットに注目し、混合ペナルティ項を付加してロジスティック回帰の分類を強化する機械学習法に基づいて、顧客チャーンレートの新たな予測分析を提供する。 提案するペナルティ付きロジスティック回帰は,ビッグデータを扱う場合の過剰フィットを防止し,中央値(絶対値)と平均値(二乗値)の正則化によるコストのバランスをとる場合の損失関数を最小限に抑えることができる。 本研究では,提案手法の解析的性質と計算上の優位性について述べる。 さらに,(1)最も重要でない特徴の乱れを効率よく除去し,(2)少数派クラスからの感度を低減し,CRMデータセット(多数の特徴を持つ)を用いて提案手法の性能について検討した。 実験の結果,機械学習手法の評価において,一般的な分類基準(精度,精度,リコール)を満たし,提案手法の期待性能を確認した。

Using big data to analyze consumer behavior can provide effective decision-making tools for preventing customer attrition (churn) in customer relationship management (CRM). Focusing on a CRM dataset with several different categories of factors that impact customer heterogeneity (i.e., usage of self-care service channels, duration of service, and responsiveness to marketing actions), we provide new predictive analytics of customer churn rate based on a machine learning method that enhances the classification of logistic regression by adding a mixed penalty term. The proposed penalized logistic regression can prevent overfitting when dealing with big data and minimize the loss function when balancing the cost from the median (absolute value) and mean (squared value) regularization. We show the analytical properties of the proposed method and its computational advantage in this research. In addition, we investigate the performance of the proposed method with a CRM data set (that has a large number of features) under different settings by efficiently eliminating the disturbance of (1) least important features and (2) sensitivity from the minority (churn) class. Our empirical results confirm the expected performance of the proposed method in full compliance with the common classification criteria (i.e., accuracy, precision, and recall) for evaluating machine learning methods.
翻訳日:2021-05-18 14:57:32 公開日:2021-05-17
# 多視点表現学習のための遠方変分情報スロットネック

Disentangled Variational Information Bottleneck for Multiview Representation Learning ( http://arxiv.org/abs/2105.07599v1 )

ライセンス: Link先を確認
Feng Bao(参考訳) マルチビューデータには、複数のモードの情報が含まれており、多様な機械学習タスクに対してより包括的な機能を提供する可能性がある。 マルチビュー分析における根本的な疑問は、追加ビューがもたらす追加情報は何であり、この追加情報を定量的に識別することができるかである。 本研究では,各ビューに特有のすべてのビューやプライベートな表現に共通する共有潜在表現に,絡み合ったマルチビュー機能を分解することで,この問題に対処する。 この特徴を情報ボトルネックの枠組みで定式化し,dvib(disentangled variational information bottleneck)を提案する。 DVIBは、相互情報からの制約を用いて共有およびプライベート表現の特性を明示的に定義する。 相互情報項の変動上界と下界を導出することにより、表現を効率的に最適化する。 DVIBが学習した共有表現とプライベート表現は、2つのビュー間で共有される共通ラベルと、それぞれのビューに対応するユニークなラベルを適切に保存する。 DVIBはまた、破損のある画像の分類タスクにおいて同等のパフォーマンスを示す。 DVIBの実装はhttps://github.com/f eng-bao-ucsf/DVIBで利用可能である。

Multiview data contain information from multiple modalities and have potentials to provide more comprehensive features for diverse machine learning tasks. A fundamental question in multiview analysis is what is the additional information brought by additional views and can quantitatively identify this additional information. In this work, we try to tackle this challenge by decomposing the entangled multiview features into shared latent representations that are common across all views and private representations that are specific to each single view. We formulate this feature disentanglement in the framework of information bottleneck and propose disentangled variational information bottleneck (DVIB). DVIB explicitly defines the properties of shared and private representations using constrains from mutual information. By deriving variational upper and lower bounds of mutual information terms, representations are efficiently optimized. We demonstrate the shared and private representations learned by DVIB well preserve the common labels shared between two views and unique labels corresponding to each single view, respectively. DVIB also shows comparable performance in classification task on images with corruptions. DVIB implementation is available at https://github.com/f eng-bao-ucsf/DVIB.
翻訳日:2021-05-18 14:56:16 公開日:2021-05-17
# 糖尿病性足部潰瘍の遠隔検出のためのクラウド型ディープラーニングフレームワーク

A Cloud-based Deep Learning Framework for Remote Detection of Diabetic Foot Ulcers ( http://arxiv.org/abs/2105.07763v1 )

ライセンス: Link先を確認
Bill Cassidy, Neil D. Reeves, Joseph M. Pappachan, Naseer Ahmad, Samantha Haycocks, David Gillespie, Moi Hoon Yap(参考訳) 本研究では,糖尿病性足潰瘍の自動検出のためのモバイルおよびクラウドベースのフレームワークを提案する。 このシステムはクロスプラットフォームのモバイルフレームワークを使用しており、単一のTypeScriptコードベースを使用してモバイルアプリを複数のプラットフォームにデプロイすることができる。 深層畳み込みニューラルネットワークがクラウドベースのプラットフォームに展開され、モバイルアプリは糖尿病性足の潰瘍の存在を検出するために患者の足の写真を送ることができた。 システムの機能とユーザビリティは、Salford Royal NHS Foundation TrustとLancashire Teaching Hospitals NHS Foundation Trustの2つの臨床環境でテストされた。 患者が自身の状態を特定し監視するためのアプリの利用の可能性など,システムのメリットについて論じる。

This research proposes a mobile and cloud-based framework for the automatic detection of diabetic foot ulcers and conducts an investigation of its performance. The system uses a cross-platform mobile framework which enables the deployment of mobile apps to multiple platforms using a single TypeScript code base. A deep convolutional neural network was deployed to a cloud-based platform where the mobile app could send photographs of patient's feet for inference to detect the presence of diabetic foot ulcers. The functionality and usability of the system were tested in two clinical settings: Salford Royal NHS Foundation Trust and Lancashire Teaching Hospitals NHS Foundation Trust. The benefits of the system, such as the potential use of the app by patients to identify and monitor their condition are discussed.
翻訳日:2021-05-18 14:55:58 公開日:2021-05-17
# ディープラーニングとモバイルAI 2021チャレンジによるモバイルNPU上のスマートフォンISPの学習:レポート

Learned Smartphone ISP on Mobile NPUs with Deep Learning, Mobile AI 2021 Challenge: Report ( http://arxiv.org/abs/2105.07809v1 )

ライセンス: Link先を確認
Andrey Ignatov, Cheng-Ming Chiang, Hsien-Kai Kuo, Anastasia Sycheva, Radu Timofte, Min-Hung Chen, Man-Yu Lee, Yu-Syuan Xu, Yu Tseng, Shusong Xu, Jin Guo, Chao-Hung Chen, Ming-Chun Hsyu, Wen-Chia Tsai, Chao-Wei Chen, Grigory Malivenko, Minsu Kwon, Myungje Lee, Jaeyoon Yoo, Changbeom Kang, Shinjo Wang, Zheng Shaolong, Hao Dejun, Xie Fen, Feng Zhuang, Yipeng Ma, Jingyang Peng, Tao Wang, Fenglong Song, Chih-Chung Hsu, Kwan-Lin Chen, Mei-Hsuang Wu, Vishal Chudasama, Kalpesh Prajapati, Heena Patel, Anjali Sarvaiya, Kishor Upla, Kiran Raja, Raghavendra Ramachandra, Christoph Busch, Etienne de Stoutz(参考訳) モバイルカメラの品質が現代のスマートフォンで重要な役割を果たすようになるにつれて、モバイル写真のさまざまな知覚的側面を改善するために使われるispアルゴリズムにますます注目が集まっている。 このMobile AIチャレンジでは、古典的な手作りISPを置き換えることができるエンドツーエンドのディープラーニングベースの画像信号処理(ISP)パイプラインを開発し、スマートフォンのNPU上でほぼリアルタイムのパフォーマンスを実現することが目標とされた。 このために参加者は、Sony IMX586 Quad Bayerモバイルセンサーとプロの102メガピクセルの中型カメラでキャプチャされたRAW-RGBイメージペアからなる、新しいISPデータセットが提供された。 全てのモデルのランタイムはMediaTek Dimensity 1000+プラットフォーム上で評価され、専用のAI処理ユニットで浮動小数点と量子化されたニューラルネットワークの両方を高速化する。 提案手法は上記のNPUと完全に互換性があり,60-100ミリ秒以下のフルHD写真を高忠実度で処理できる。 本論文では,本課題で開発された全モデルについて詳述する。

As the quality of mobile cameras starts to play a crucial role in modern smartphones, more and more attention is now being paid to ISP algorithms used to improve various perceptual aspects of mobile photos. In this Mobile AI challenge, the target was to develop an end-to-end deep learning-based image signal processing (ISP) pipeline that can replace classical hand-crafted ISPs and achieve nearly real-time performance on smartphone NPUs. For this, the participants were provided with a novel learned ISP dataset consisting of RAW-RGB image pairs captured with the Sony IMX586 Quad Bayer mobile sensor and a professional 102-megapixel medium format camera. The runtime of all models was evaluated on the MediaTek Dimensity 1000+ platform with a dedicated AI processing unit capable of accelerating both floating-point and quantized neural networks. The proposed solutions are fully compatible with the above NPU and are capable of processing Full HD photos under 60-100 milliseconds while achieving high fidelity results. A detailed description of all models developed in this challenge is provided in this paper.
翻訳日:2021-05-18 14:55:44 公開日:2021-05-17
# モバイルNPUにおけるリアルタイム量子化画像超解法 - Mobile AI 2021 Challenge

Real-Time Quantized Image Super-Resolution on Mobile NPUs, Mobile AI 2021 Challenge: Report ( http://arxiv.org/abs/2105.07825v1 )

ライセンス: Link先を確認
Andrey Ignatov, Radu Timofte, Maurizio Denna, Abdel Younes, Andrew Lek, Mustafa Ayazoglu, Jie Liu, Zongcai Du, Jiaming Guo, Xueyi Zhou, Hao Jia, Youliang Yan, Zexin Zhang, Yixin Chen, Yunbo Peng, Yue Lin, Xindong Zhang, Hui Zeng, Kun Zeng, Peirong Li, Zhihuang Liu, Shiqi Xue, Shengpeng Wang(参考訳) 画像超解像度は、モバイルデバイスに多くの重要な応用がある最も一般的なコンピュータビジョン問題の1つである。 このタスクには多くのソリューションが提案されているが、一般的には、INT8推論のみをサポートすることの多い、より制約のあるスマートTVプラットフォームに限らず、一般的なスマートフォンAIハードウェアにも最適化されていない。 この問題に対処するために、モバイルやエッジのNPU上でリアルタイムのパフォーマンスを実演できる、エンドツーエンドのディープラーニングベースの画像超解ソリューションを開発することを目標とする、最初のMobile AIチャレンジを紹介します。 このために、参加者にはDIV2Kデータセットと、効率的な3Xイメージアップスケーリングを行うためのトレーニングされた量子化モデルが提供された。 全てのモデルのランタイムをSynaptics VS680 Smart Homeボード上で評価し、量子化されたニューラルネットワークを高速化する専用のNPUを開発した。 提案したソリューションは,すべての主要なモバイルAIアクセラレータと完全に互換性があり,40~60ms以下でフルHDイメージの再構築が可能で,高い忠実性を実現している。 本論文では,本課題で開発されたモデルについて詳述する。

Image super-resolution is one of the most popular computer vision problems with many important applications to mobile devices. While many solutions have been proposed for this task, they are usually not optimized even for common smartphone AI hardware, not to mention more constrained smart TV platforms that are often supporting INT8 inference only. To address this problem, we introduce the first Mobile AI challenge, where the target is to develop an end-to-end deep learning-based image super-resolution solutions that can demonstrate a real-time performance on mobile or edge NPUs. For this, the participants were provided with the DIV2K dataset and trained quantized models to do an efficient 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated NPU capable of accelerating quantized neural networks. The proposed solutions are fully compatible with all major mobile AI accelerators and are capable of reconstructing Full HD images under 40-60 ms while achieving high fidelity results. A detailed description of all models developed in the challenge is provided in this paper.
翻訳日:2021-05-18 14:55:23 公開日:2021-05-17
# スマートフォンの高速かつ高精度カメラシーン検出

Fast and Accurate Camera Scene Detection on Smartphones ( http://arxiv.org/abs/2105.07869v1 )

ライセンス: Link先を確認
Angeline Pouget, Sidharth Ramesh, Maximilian Giang, Ramithan Chandrapalan, Toni Tanner, Moritz Prussing, Radu Timofte, Andrey Ignatov(参考訳) AIを利用した自動カメラシーン検出モードは、現在、ほぼすべての現代のスマートフォンで利用可能であるが、正確なシーン予測の問題はまだ研究コミュニティによって解決されていない。 本稿では,この問題を慎重に定義し,30の異なるシーンカテゴリに属する11K以上の手動クロール画像を含むカメラシーン検出データセット(CamSDD)を提案する。 本研究では,この課題に対する効率良くnpuフレンドリーなcnnモデルを提案し,99.5%のtop-3精度を示し,最近のモバイルsocで200fps以上を達成した。 実世界のシナリオにおけるその性能と限界を分析するために、得られたソリューションをさらに内部で評価する。 本論文で使用するデータセットと事前トレーニング済みモデルは,プロジェクトのwebサイトで公開されている。

AI-powered automatic camera scene detection mode is nowadays available in nearly any modern smartphone, though the problem of accurate scene prediction has not yet been addressed by the research community. This paper for the first time carefully defines this problem and proposes a novel Camera Scene Detection Dataset (CamSDD) containing more than 11K manually crawled images belonging to 30 different scene categories. We propose an efficient and NPU-friendly CNN model for this task that demonstrates a top-3 accuracy of 99.5% on this dataset and achieves more than 200 FPS on the recent mobile SoCs. An additional in-the-wild evaluation of the obtained solution is performed to analyze its performance and limitation in the real-world scenarios. The dataset and pre-trained models used in this paper are available on the project website.
翻訳日:2021-05-18 14:55:06 公開日:2021-05-17
# 確率測定値深部ニューラルモデルによる普遍正規条件分布

Universal Regular Conditional Distributions via Probability Measure-Valued Deep Neural Models ( http://arxiv.org/abs/2105.07743v1 )

ライセンス: Link先を確認
Anastasis Kratsios(参考訳) 本稿では,完全かつ分離可能な距離空間$\mathcal{X}$とWasserstein-1 $\mathcal{P}_1(\mathcal{Y})$空間における出力を,完全かつ分離可能な距離空間$\mathcal{Y}$から入力して,普遍的な深部ニューラルネットワークを明示的に構築するための一般的な枠組みを紹介する。 提案したフレームワークを用いて構築された任意のモデルは、コンパクト位相上の一様収束において、量的に、対応する一様収束において、$\mathcal{x}$ から$\mathcal{p}_1(\mathcal{y})$ までの連続関数の空間 $c(\mathcal{x},\mathcal{p}_1(\mathcal{y})$ において密である。 我々は次元の呪いを破る2つの方法を特定する。 最初のアプローチは、効率的に近似できる関数からなる$c(\mathcal{x},\mathcal{p}_1(\mathcal{y}))$の部分集合を構成する。 2つ目のアプローチでは、任意の固定された$f \in c(\mathcal{x},\mathcal{p}_1(\mathcal{y}))$ に対して、$f$ を効率的に近似できる$\mathcal{x}$ の非自明な部分集合を構築する。 この結果は、応用確率と計算学習理論の界面にある3つの開問題に適用される。 提案したモデルは、任意の条件分布を$\mathcal{Y}$-valued random element $Y$と、$\mathcal{X}$-valued random element $X$と、任意に高い確率で近似することができる。 提案モデルはまた、ほとんどのランダム化された機械学習モデルに存在するアレラトリック不確かさを汎用的に表現できることを示した。 提案された枠組みは、ビショップのオープン予想(1994年)に対する肯定的な答え、すなわち:混合密度ネットワークは一般的な正規条件分布である。 数値実験は、極端な学習機械、ランダム化されたDNN、異方性回帰の文脈で実施される。

This paper introduces a general framework for explicitly constructing universal deep neural models with inputs from a complete, separable, and locally-compact metric space $\mathcal{X}$ and outputs in the Wasserstein-1 $\mathcal{P}_1(\mathcal{Y})$ space over a complete and separable metric space $\mathcal{Y}$. We find that any model built using the proposed framework is dense in the space $C(\mathcal{X},\mathcal{P}_1(\mathcal{Y}))$ of continuous functions from $\mathcal{X}$ to $\mathcal{P}_1(\mathcal{Y})$ in the corresponding uniform convergence on compacts topology, quantitatively. We identify two methods in which the curse of dimensionality can be broken. The first approach constructs subsets of $C(\mathcal{X},\mathcal{P}_1(\mathcal{Y}))$ consisting of functions that can be efficiently approximated. In the second approach, given any fixed $f \in C(\mathcal{X},\mathcal{P}_1(\mathcal{Y}))$, we build non-trivial subsets of $\mathcal{X}$ on which $f$ can be efficiently approximated. The results are applied to three open problems lying at the interface of applied probability and computational learning theory. We find that the proposed models can approximate any regular conditional distribution of a $\mathcal{Y}$-valued random element $Y$ depending on an $\mathcal{X}$-valued random element $X$, with arbitrarily high probability. The proposed models are also shown to be capable of generically expressing the aleatoric uncertainty present in most randomized machine learning models. The proposed framework is used to derive an affirmative answer to the open conjecture of Bishop (1994); namely: mixture density networks are generic regular conditional distributions. Numerical experiments are performed in the contexts of extreme learning machines, randomized DNNs, and heteroscedastic regression.
翻訳日:2021-05-18 14:54:55 公開日:2021-05-17
# 運動画像におけるクロスサブジェクト分類のcnnに基づくアプローチ--最新技術からdynamicnetへ

CNN-based Approaches For Cross-Subject Classification in Motor Imagery: From The State-of-The-Art to DynamicNet ( http://arxiv.org/abs/2105.07917v1 )

ライセンス: Link先を確認
Alberto Zancanaro, Giulia Cisotto, Jo\~ao Ruivo Paulo, Gabriel Pires, and Urbano J. Nunes(参考訳) 運動画像(MI)ベースの脳コンピュータインタフェース(BCI)システムは、神経運動障害に悩む人々のためのコミュニケーションと制御の代替手段として、これらのシステムを制御されたラボ環境から外すための特別な取り組みとして、ますます採用されている。 したがって、脳波(EEG)などの脳信号からMIを正確に分類することは、信頼できるBCIシステムを得るためには不可欠である。 しかし、信号はSNRが乏しく、高いオブジェクト内およびクロスオブジェクトのばらつきが特徴であるため、MI分類は依然として難しい課題である。 深層学習アプローチは、例えばフィルタバンク共通空間パターン(FBCSP)のような標準機械学習技術の有効な代替手段として現れ始めており、被写体に依存しない特徴を抽出し、MI BCIシステムのクロスオブジェクト分類性能を高める。 本稿では,MI分類におけるディープラーニングを用いた最近の研究について,特にクロスオブジェクト性能に着目して概説する。 第2に,畳み込みニューラルネットワークに基づくディープラーニングモデルの実装を迅速かつ柔軟なPythonベースのツールであるDynamicNetを提案する。 我々は、効果的なEEG分類のための確立されたアーキテクチャであるEEGNetを実装することで、DynamicNetの可能性を示す。 最後に、その性能をFBCSPと比較し、公開データセット上の4クラスMI分類を行う。 そのクロスサブジェクト分類能力を調べるために、3つの異なるクロスバリデーションスキームを適用した。 この結果から,動的に実装されたEEGNetはFBCSPを約25%上回り,クロスオブジェクト検証方式を適用すると統計的に有意な差が生じることを示した。

Motor imagery (MI)-based brain-computer interface (BCI) systems are being increasingly employed to provide alternative means of communication and control for people suffering from neuro-motor impairments, with a special effort to bring these systems out of the controlled lab environments. Hence, accurately classifying MI from brain signals, e.g., from electroencephalograp hy (EEG), is essential to obtain reliable BCI systems. However, MI classification is still a challenging task, because the signals are characterized by poor SNR, high intra-subject and cross-subject variability. Deep learning approaches have started to emerge as valid alternatives to standard machine learning techniques, e.g., filter bank common spatial pattern (FBCSP), to extract subject-independent features and to increase the cross-subject classification performance of MI BCI systems. In this paper, we first present a review of the most recent studies using deep learning for MI classification, with particular attention to their cross-subject performance. Second, we propose DynamicNet, a Python-based tool for quick and flexible implementations of deep learning models based on convolutional neural networks. We show-case the potentiality of DynamicNet by implementing EEGNet, a well-established architecture for effective EEG classification. Finally, we compare its performance with FBCSP in a 4-class MI classification over public datasets. To explore its cross-subject classification ability, we applied three different cross-validation schemes. From our results, we demonstrate that DynamicNet-implement ed EEGNet outperforms FBCSP by about 25%, with a statistically significant difference when cross-subject validation schemes are applied.
翻訳日:2021-05-18 14:53:56 公開日:2021-05-17
# 生物画像再構成のための教師なし深層学習法

Unsupervised Deep Learning Methods for Biological Image Reconstruction ( http://arxiv.org/abs/2105.08040v1 )

ライセンス: Link先を確認
Mehmet Ak\c{c}akaya, Burhaneddin Yaman, Hyungjin Chung, Jong Chul Ye(参考訳) 近年,深層学習手法は,その高性能化と超高速復元時間により,生物画像再構成問題の主要な研究分野となっている。 しかし、教師付き学習のためのマッチング参照データを得ることが困難であるため、ペア型参照データを必要としない教師付き学習アプローチへの関心が高まっている。 特に、自己教師付き学習と生成モデルは様々な生物学的イメージング応用に成功している。 本稿では,古典的逆問題の文脈におけるコヒーレントな視点からこれらのアプローチを概観し,生物イメージングへの応用について考察する。

Recently, deep learning approaches have become the main research frontier for biological image reconstruction problems thanks to their high performance, along with their ultra-fast reconstruction times. However, due to the difficulty of obtaining matched reference data for supervised learning, there has been increasing interest in unsupervised learning approaches that do not need paired reference data. In particular, self-supervised learning and generative models have been successfully used for various biological imaging applications. In this paper, we overview these approaches from a coherent perspective in the context of classical inverse problems, and discuss their applications to biological imaging.
翻訳日:2021-05-18 14:53:28 公開日:2021-05-17
# 論理機構と議論スキームを用いた議論関係の分類

Classifying Argumentative Relations Using Logical Mechanisms and Argumentation Schemes ( http://arxiv.org/abs/2105.07571v1 )

ライセンス: Link先を確認
Yohan Jo, Seojin Bang, Chris Reed, Eduard Hovy(参考訳) 議論マイニングは文間の議論的関係(サポート、攻撃、中立)を分類することに成功したが、それらの関係を構成する論理的メカニズムの計算的理解は限られている。 最近の研究はブラックボックスモデルに依存しており、言語学的には望まれない。 一方、初期の研究では、文間の論理的関係を欠いた、比較的単純な語彙的特徴を用いていた。 これらの制約を克服するために、我々の研究は、(i)事実整合性、(ii)感情コヒーレンス、(iii)因果関係、および(iv)規範関係という2つの文の間の4つの論理的・理論的インフォームド機構に基づいて議論的関係を分類する。 我々は,これらの論理機構の運用により,関係にラベル付けされたデータを直接訓練することなく,議論的関係を分類できることを実証した。 さらに,これらのメカニズムは,表現学習による教師付き分類器も改善することを示す。

While argument mining has achieved significant success in classifying argumentative relations between statements (support, attack, and neutral), we have a limited computational understanding of logical mechanisms that constitute those relations. Most recent studies rely on black-box models, which are not as linguistically insightful as desired. On the other hand, earlier studies use rather simple lexical features, missing logical relations between statements. To overcome these limitations, our work classifies argumentative relations based on four logical and theory-informed mechanisms between two statements, namely (i) factual consistency, (ii) sentiment coherence, (iii) causal relation, and (iv) normative relation. We demonstrate that our operationalization of these logical mechanisms classifies argumentative relations without directly training on data labeled with the relations, significantly better than several unsupervised baselines. We further demonstrate that these mechanisms also improve supervised classifiers through representation learning.
翻訳日:2021-05-18 14:51:15 公開日:2021-05-17
# 言語理解の課題としてのファクタリング法則推論

Factoring Statutory Reasoning as Language Understanding Challenges ( http://arxiv.org/abs/2105.07903v1 )

ライセンス: Link先を確認
Nils Holzenberger and Benjamin Van Durme(参考訳) 法律推論は、自然言語で述べられている法律が事件のテキスト記述に適用されるかどうかを決定するタスクである。 以前の研究は、モノリシックなテキストエンテーメント問題として法定推論にアプローチするリソースを導入し、ニューラルベースラインはほぼその場で動作した。 この課題に対処するために、Prologプログラムで見られる概念や構造を導入して、法則推論を4種類の言語理解課題に分解する。 既存のベンチマークを増し、4つのタスクのアノテーションを提供し、3つのタスクのベースラインを提供します。 法定推論のモデルは、追加の構造の恩恵を受け、以前のベースラインを改善することが示されている。 さらに、サブタスクへの分解により、きめ細かいモデル診断が容易になり、段階的な進歩が明確になる。

Statutory reasoning is the task of determining whether a legal statute, stated in natural language, applies to the text description of a case. Prior work introduced a resource that approached statutory reasoning as a monolithic textual entailment problem, with neural baselines performing nearly at-chance. To address this challenge, we decompose statutory reasoning into four types of language-understandi ng challenge problems, through the introduction of concepts and structure found in Prolog programs. Augmenting an existing benchmark, we provide annotations for the four tasks, and baselines for three of them. Models for statutory reasoning are shown to benefit from the additional structure, improving on prior baselines. Further, the decomposition into subtasks facilitates finer-grained model diagnostics and clearer incremental progress.
翻訳日:2021-05-18 14:50:58 公開日:2021-05-17
# 成長する余地:ソーシャルメディアによる自己改善の背景にある個性を理解する

Room to Grow: Understanding Personal Characteristics Behind Self Improvement Using Social Media ( http://arxiv.org/abs/2105.08031v1 )

ライセンス: Link先を確認
MeiXing Dong, Xueming Xu, Yiwei Zhang, Ian Stewart, Rada Mihalcea(参考訳) 多くの人が変化を目指しているが、誰もが成功するわけではない。 変化とともに継続する人々の動機づけに関連した特徴を示唆する社会心理学の理論は数多く存在するが、個人変化の動機づけに関する研究は少ない。 本稿では,変化の意思を表わす人々の書き方からなる新たなデータセットについて検討する。 様々な言語分析手法を用いて,まず2つのグループを区別する文章パターンについて検討した。 永続的な人々は長期的な自己改善に関連するより多くのトピックを参照し、より複雑な文体を使う傾向がある。 これらの一貫した相違点に基づいて、言語に基づいて、持続する可能性がより高い人を確実に識別できる分類器を構築する。 我々の実験は、変化の意図に固執する人々のモチベーション関連行動に関する新たな洞察を提供する。

Many people aim for change, but not everyone succeeds. While there are a number of social psychology theories that propose motivation-related characteristics of those who persist with change, few computational studies have explored the motivational stage of personal change. In this paper, we investigate a new dataset consisting of the writings of people who manifest intention to change, some of whom persist while others do not. Using a variety of linguistic analysis techniques, we first examine the writing patterns that distinguish the two groups of people. Persistent people tend to reference more topics related to long-term self-improvement and use a more complicated writing style. Drawing on these consistent differences, we build a classifier that can reliably identify the people more likely to persist, based on their language. Our experiments provide new insights into the motivation-related behavior of people who persist with their intention to change.
翻訳日:2021-05-18 14:50:44 公開日:2021-05-17
# 深部NLPモデルにおける微粒化解釈と因果解析

Fine-grained Interpretation and Causation Analysis in Deep NLP Models ( http://arxiv.org/abs/2105.08039v1 )

ライセンス: Link先を確認
Hassan Sajjad, Narine Kokhlikyan, Fahim Dalvi, Nadir Durrani(参考訳) 本稿では,naacl 2021で提示する「深層nlpモデルにおけるきめ細かな解釈と因果解析」に関するチュートリアルの書き上げについて述べる。 本稿では,2つの視点からモデルの細粒度成分を解釈する研究成果,i)細粒度解釈,ii)因果分析について論じる。 前者は、言語特性またはタスクに関して、個々のニューロンとニューロンのグループを分析する方法を紹介している。 後者は、モデルによる決定を説明する際に、ニューロンと入力の特徴の役割を研究する。 また、ネットワーク操作やドメイン適応などのニューロン解析の応用についても論じる。 さらに,本チュートリアルで論じる機能をサポートする2つのツールキットであるNeuroXとCaptumを提案する。

This paper is a write-up for the tutorial on "Fine-grained Interpretation and Causation Analysis in Deep NLP Models" that we are presenting at NAACL 2021. We present and discuss the research work on interpreting fine-grained components of a model from two perspectives, i) fine-grained interpretation, ii) causation analysis. The former introduces methods to analyze individual neurons and a group of neurons with respect to a language property or a task. The latter studies the role of neurons and input features in explaining decisions made by the model. We also discuss application of neuron analysis such as network manipulation and domain adaptation. Moreover, we present two toolkits namely NeuroX and Captum, that support functionalities discussed in this tutorial.
翻訳日:2021-05-18 14:50:30 公開日:2021-05-17
# HetMAML: 課題不均一なモデルに依存しないメタラーニング

HetMAML: Task-Heterogeneous Model-Agnostic Meta-Learning for Few-Shot Learning Across Modalities ( http://arxiv.org/abs/2105.07889v1 )

ライセンス: Link先を確認
Jiayi Chen, Aidong Zhang(参考訳) 既存のグラデーションベースのメタ学習アプローチのほとんどは、すべてのタスクが同じ入力機能空間を持っていると仮定している。 しかし、現実のシナリオでは、タスクの入力構造が異なる可能性がある、すなわち、異なるタスクは、入力モダリティの数や各モダリティのデータ構造によって異なる可能性がある。 既存の勾配に基づくアプローチでは、タスクの種類によって部分的メタパラメータしか共有できないため、そのような異種タスク分散(HTD)は処理できない。 本稿では,多種多様なタスク間で共有される共通メタパラメータだけでなく,タイプ固有のメタパラメータも一般化可能なタスク異種メタ学習フレームワークであるHetMAMLを提案する。 具体的には、各タスクの入力をモダリティ固有の埋め込みの同じ長さシーケンスに符号化するマルチチャネルバックボーンモジュールを設計する。 そして,タスク固有の入力構造のコンテキストを自動的に考慮し,不均一な入力空間を同じ低次元の概念空間に適応的に投影するタスク対応マルチモーダルエンコーダを提案する。 5つのタスクヘテロジニアスデータセットに関する広範な実験により、HetMAMLは、あらゆる種類の新しいタスクに迅速に適応する異種タスクに対して、タイプ固有のメタパラメータと共有メタパラメータの両方をキャプチャすることに成功した。

Most of existing gradient-based meta-learning approaches to few-shot learning assume that all tasks have the same input feature space. However, in the real world scenarios, there are many cases that the input structures of tasks can be different, that is, different tasks may vary in the number of input modalities or the data structure of each modality. Existing gradient-based approaches cannot handle such heterogeneous task distribution (HTD) as different types of tasks only share partial meta-parameters. In this paper, we propose HetMAML, a task-heterogeneous meta-agnostic meta-learning framework that can generalize not only common meta-parameters shared across different types of tasks but also type-specific meta-parameters. Specifically, we design a multi-channel backbone module that encodes the input of each type of tasks into the same length sequence of modality-specific embeddings. Then, we propose a task-aware multimodal encoder which can automatically take into account the context of task-specific input structures and adaptively project the heterogeneous input spaces to the same lower-dimensional concept space. The extensive experiments on five task-heterogeneous datasets demonstrate that our HetMAML successfully captures both type-specific and shared meta-parameters across heterogeneous tasks which fast adapt to all types of new tasks.
翻訳日:2021-05-18 14:49:47 公開日:2021-05-17
# 時間的ソーシャルメディアデータからユーザ埋め込みを学習する:調査

Learning User Embeddings from Temporal Social Media Data: A Survey ( http://arxiv.org/abs/2105.07996v1 )

ライセンス: Link先を確認
Fatema Hasan, Kevin S. Xu, James R. Foulds, Shimei Pan(参考訳) ソーシャルメディア上のユーザー生成データには、私たちが誰であるか、何が好きか、どのように意思決定するかに関する豊富な情報が含まれている。 本稿では,簡潔な潜在ユーザ表現(a.k.a.)を学習する代表的作業について調査する。 ユーザー埋め込み)は、ソーシャルメディアユーザーの主な特徴を捉えることができる。 学習されたユーザ埋め込みは、後にパーソナリティモデリング、自殺リスク評価、購入決定予測など、下流のさまざまなユーザ分析タスクをサポートするために使用することができる。 ソーシャルメディア上のユーザ生成データの時間的特性は、既存のユーザ埋め込み文学の多くで見過ごされている。 本研究では,ユーザ表現学習における時間/シーケンス情報の導入によるギャップを埋める研究に焦点を当てた。 関連論文をいくつかのキーディメンションに沿って分類し,現在の作業の限界を特定し,今後の研究方向性を提案する。

User-generated data on social media contain rich information about who we are, what we like and how we make decisions. In this paper, we survey representative work on learning a concise latent user representation (a.k.a. user embedding) that can capture the main characteristics of a social media user. The learned user embeddings can later be used to support different downstream user analysis tasks such as personality modeling, suicidal risk assessment and purchase decision prediction. The temporal nature of user-generated data on social media has largely been overlooked in much of the existing user embedding literature. In this survey, we focus on research that bridges the gap by incorporating temporal/sequential information in user representation learning. We categorize relevant papers along several key dimensions, identify limitations in the current work and suggest future research directions.
翻訳日:2021-05-18 14:49:25 公開日:2021-05-17
# 野生における指先認識のための細粒度視覚注意アプローチ

A Fine-Grained Visual Attention Approach for Fingerspelling Recognition in the Wild ( http://arxiv.org/abs/2105.07625v1 )

ライセンス: Link先を確認
Kamala Gajurel, Cuncong Zhong and Guanghui Wang(参考訳) 手話の指書きは、専門用語や固有名詞が手話のジェスチャを持っていないときに、コミュニケーションする手段であった。 指音の自動認識は、聴覚障害者との対話におけるコミュニケーション障壁の解消に役立つ。 指先認識における主な課題は、ジェスチャーのあいまいさと手の強い明瞭さである。 自動認識モデルは、ジェスチャにおけるクラス間視覚類似度が高く、クラス内変動度が高い。 指先認識の既存の研究のほとんどは、制御された環境で収集されたデータセットに焦点を当てている。 最近、ソーシャルメディアやオンラインプラットフォームから、大規模な注釈付き指打ちデータセットのコレクションが、現実のシナリオにおける課題を捉えている。 本研究では,野生データセットにおけるシーケンス・ツー・シーケンス予測タスクにトランスフォーマモデルを用いた細粒度視覚注意機構を提案する。 トランスフォーマーエンコーダモデルとともに、逐次的コンテキストに基づく注意における映像フレーム(光の流れ)の動きの変化を利用して、きめ細かな注意を実現する。 アンセグメンテッドな連続ビデオデータセットは、Connectionist Temporal Classification (CTC)損失と最大エントロピー損失のバランスをとることで共同で訓練される。 提案手法は1回のイテレーションでより細かい注意を引くことができる。 実験評価では、最先端のアプローチよりも優れています。

Fingerspelling in sign language has been the means of communicating technical terms and proper nouns when they do not have dedicated sign language gestures. Automatic recognition of fingerspelling can help resolve communication barriers when interacting with deaf people. The main challenges prevalent in fingerspelling recognition are the ambiguity in the gestures and strong articulation of the hands. The automatic recognition model should address high inter-class visual similarity and high intra-class variation in the gestures. Most of the existing research in fingerspelling recognition has focused on the dataset collected in a controlled environment. The recent collection of a large-scale annotated fingerspelling dataset in the wild, from social media and online platforms, captures the challenges in a real-world scenario. In this work, we propose a fine-grained visual attention mechanism using the Transformer model for the sequence-to-sequence prediction task in the wild dataset. The fine-grained attention is achieved by utilizing the change in motion of the video frames (optical flow) in sequential context-based attention along with a Transformer encoder model. The unsegmented continuous video dataset is jointly trained by balancing the Connectionist Temporal Classification (CTC) loss and the maximum-entropy loss. The proposed approach can capture better fine-grained attention in a single iteration. Experiment evaluations show that it outperforms the state-of-the-art approaches.
翻訳日:2021-05-18 14:45:50 公開日:2021-05-17
# 未知の交通シナリオ検出のための深層学習とアンサンブル法の組み合わせによるオープンセット認識

Open-set Recognition based on the Combination of Deep Learning and Ensemble Method for Detecting Unknown Traffic Scenarios ( http://arxiv.org/abs/2105.07635v1 )

ライセンス: Link先を確認
Lakshman Balasubramanian, Friedrich Kruber, Michael Botsch and Ke Deng(参考訳) 自律運転機能のテストと開発には,運転シナリオの理解と分類が重要である。 機械学習モデルはシナリオ分類に有用であるが、ほとんどの場合、テスト中に受信したデータはトレーニングで使用されるクラスの1つであると仮定する。 この仮定は常に、車両が稼働するオープンな環境のためではない。 これはopen-set recognitionと呼ばれる新しい機械学習パラダイムによって対処される。 オープンセット認識は、トレーニングで使用されるクラスまたは未知のクラスにテストサンプルを割り当てる問題である。 本研究では、交通シナリオのオープンな認識のために、畳み込みニューラルネットワーク(CNN)とランダムフォレスト(RF)の組み合わせを提案する。 cnnは、既知のクラスや未知クラスを検出するための極値理論とともに、特徴生成とrfアルゴリズムに使用される。 提案されたソリューションは、多数決ではなくrfでツリーの投票パターンを調べることで特徴付けられる。 RFのアンサンブルの性質を継承することにより、極値理論と組み合わされた全ての木の投票パターンが未知のクラスを検出するのに適していることが示される。 提案手法はhighdおよびopentrafficデータセット上でテストされ、既存のソリューションと比較して様々な面で優れた性能を示している。

An understanding and classification of driving scenarios are important for testing and development of autonomous driving functionalities. Machine learning models are useful for scenario classification but most of them assume that data received during the testing are from one of the classes used in the training. This assumption is not true always because of the open environment where vehicles operate. This is addressed by a new machine learning paradigm called open-set recognition. Open-set recognition is the problem of assigning test samples to one of the classes used in training or to an unknown class. This work proposes a combination of Convolutional Neural Networks (CNN) and Random Forest (RF) for open set recognition of traffic scenarios. CNNs are used for the feature generation and the RF algorithm along with extreme value theory for the detection of known and unknown classes. The proposed solution is featured by exploring the vote patterns of trees in RF instead of just majority voting. By inheriting the ensemble nature of RF, the vote pattern of all trees combined with extreme value theory is shown to be well suited for detecting unknown classes. The proposed method has been tested on the highD and OpenTraffic datasets and has demonstrated superior performance in various aspects compared to existing solutions.
翻訳日:2021-05-18 14:45:32 公開日:2021-05-17
# クラスインクリメンタルFew-Shotオブジェクト検出

Class-Incremental Few-Shot Object Detection ( http://arxiv.org/abs/2105.07637v1 )

ライセンス: Link先を確認
Pengyang Li, Yanan Li and Donghui Wang(参考訳) 従来の検出ネットワークは通常、豊富なラベル付きトレーニングサンプルを必要とするが、人間はほんの数例で新しい概念をインクリメンタルに学習できる。 本稿では,より困難だが現実的なクラスインクリメンタルなオブジェクト検出問題(iFSD)に焦点を当てる。 それまで学んだことを壊滅的に忘れずに、少数の注釈付きサンプルから新しいオブジェクトのモデルを段階的に移行することを目的としている。 この問題に取り組むために, 学習資源の削減, 伝達能力の強化などにより, 少ない転送能力を実現する新しい手法を提案する。 具体的には、まず、不必要な重量適応を減らし、iFSDの転送能力を向上させるための転送戦略を示す。 そこで我々は, 資源消費の少ない手法を用いて知識蒸留技術を統合することにより, 忘れを軽減し, 以前に学習したより差別的な特徴を保ちつつ, クラスタリングに基づく優れた選択プロセスを提案する。 LEASTは汎用的で効果的な方法であるため、様々なベンチマークでのiFSD性能を大幅に改善することができる。

Conventional detection networks usually need abundant labeled training samples, while humans can learn new concepts incrementally with just a few examples. This paper focuses on a more challenging but realistic class-incremental few-shot object detection problem (iFSD). It aims to incrementally transfer the model for novel objects from only a few annotated samples without catastrophically forgetting the previously learned ones. To tackle this problem, we propose a novel method LEAST, which can transfer with Less forgetting, fEwer training resources, And Stronger Transfer capability. Specifically, we first present the transfer strategy to reduce unnecessary weight adaptation and improve the transfer capability for iFSD. On this basis, we then integrate the knowledge distillation technique using a less resource-consuming approach to alleviate forgetting and propose a novel clustering-based exemplar selection process to preserve more discriminative features previously learned. Being a generic and effective method, LEAST can largely improve the iFSD performance on various benchmarks.
翻訳日:2021-05-18 14:45:15 公開日:2021-05-17
# ランダムフォレスト活性化パターン類似性を用いた自己監視ネットワークの反復最適化による交通シナリオクラスタリング

Traffic Scenario Clustering by Iterative Optimisation of Self-Supervised Networks Using a Random Forest Activation Pattern Similarity ( http://arxiv.org/abs/2105.07639v1 )

ライセンス: Link先を確認
Lakshman Balasubramanian, Jonas Wurst, Michael Botsch and Ke Deng(参考訳) 交通シナリオの分類は、例えば、動き計画アルゴリズムとその検証において、自動運転の重要な構成要素である。 手作りのステップなしで新しい関連するシナリオを見つけることは、自動運転開発に必要なリソースを劇的に削減する。 本研究では,ランダムフォレスト・アクティベーション・パターン(rfap)類似性と呼ばれる新しいデータ適応的類似性尺度に基づくクラスタリング手法を導入することで,この問題に対処する手法を提案する。 RFAP類似性はランダムフォレストアルゴリズムのツリー符号化方式を用いて生成される。 この研究で提案されるクラスタリング手法は,ラベル付きシナリオが利用可能であること,ラベル付きシナリオからの情報は,非ラベル付きシナリオのクラスタリングをガイドする上で有効である。 3つのステップからなる。 まず、自己教師型畳み込みニューラルネットワーク~(CNN)が、定義された自己教師型目標を用いて、利用可能なすべてのトラフィックシナリオをトレーニングする。 第二に、CNNはラベル付きシナリオの分類のために微調整されている。 第3に、ラベル付きおよびラベルなしのシナリオを使用して、クラスタリングのために反復最適化手順を実行する。 反復最適化の各エポックにおける第3ステップでは、CNNは教師なしランダムフォレストの機能ジェネレータとして使用される。 訓練された森林は、CNNによって実装された特徴生成プロセスを反復的に適応するためにRFAP類似性を提供する。 広汎な実験とアブレーション研究が高次元データセット上で行われている。 提案手法は,ベースラインクラスタリング手法よりも優れた性能を示す。

Traffic scenario categorisation is an essential component of automated driving, for e.\,g., in motion planning algorithms and their validation. Finding new relevant scenarios without handcrafted steps reduce the required resources for the development of autonomous driving dramatically. In this work, a method is proposed to address this challenge by introducing a clustering technique based on a novel data-adaptive similarity measure, called Random Forest Activation Pattern (RFAP) similarity. The RFAP similarity is generated using a tree encoding scheme in a Random Forest algorithm. The clustering method proposed in this work takes into account that there are labelled scenarios available and the information from the labelled scenarios can help to guide the clustering of unlabelled scenarios. It consists of three steps. First, a self-supervised Convolutional Neural Network~(CNN) is trained on all available traffic scenarios using a defined self-supervised objective. Second, the CNN is fine-tuned for classification of the labelled scenarios. Third, using the labelled and unlabelled scenarios an iterative optimisation procedure is performed for clustering. In the third step at each epoch of the iterative optimisation, the CNN is used as a feature generator for an unsupervised Random Forest. The trained forest, in turn, provides the RFAP similarity to adapt iteratively the feature generation process implemented by the CNN. Extensive experiments and ablation studies have been done on the highD dataset. The proposed method shows superior performance compared to baseline clustering techniques.
翻訳日:2021-05-18 14:44:58 公開日:2021-05-17
# efficientnet と contrastive learning を用いた高精度地球規模位置推定

Leveraging EfficientNet and Contrastive Learning for Accurate Global-scale Location Estimation ( http://arxiv.org/abs/2105.07645v1 )

ライセンス: Link先を確認
Giorgos Kordopatis-Zilos, Panagiotis Galopoulos, Symeon Papadopoulos, Ioannis Kompatsiaris(参考訳) 本稿では,世界規模の画像位置情報問題に対処し,混合分類・再帰スキームを提案する。 分類や検索タスクとしてこの問題に厳密に取り組む他の手法とは異なり、それぞれのアプローチの利点を2つの異なるモジュールで活用した統一ソリューションで2つのプラクティスを組み合わせる。 ひとつは、EfficientNetアーキテクチャを利用して、イメージを特定の地理的セルにロバストな方法で割り当てる。 第二に、コントラスト学習で訓練された新しい残差アーキテクチャを導入し、入力画像を同じ位置画像の対方向測地距離を最小化する埋め込み空間にマッピングする。 最終的な位置推定のために、この2つのモジュールは、予測された地理的セルからの最も類似した画像の位置を、空間的クラスタリングスキームに基づいて集約するsearch-within-cellスキームと組み合わせられる。 提案手法は,Im2GPS3kの1km範囲において,4つの公開データセットに対して非常に競争力のある性能を示す。

In this paper, we address the problem of global-scale image geolocation, proposing a mixed classification-retri eval scheme. Unlike other methods that strictly tackle the problem as a classification or retrieval task, we combine the two practices in a unified solution leveraging the advantages of each approach with two different modules. The first leverages the EfficientNet architecture to assign images to a specific geographic cell in a robust way. The second introduces a new residual architecture that is trained with contrastive learning to map input images to an embedding space that minimizes the pairwise geodesic distance of same-location images. For the final location estimation, the two modules are combined with a search-within-cell scheme, where the locations of most similar images from the predicted geographic cell are aggregated based on a spatial clustering scheme. Our approach demonstrates very competitive performance on four public datasets, achieving new state-of-the-art performance in fine granularity scales, i.e., 15.0% at 1km range on Im2GPS3k.
翻訳日:2021-05-18 14:44:34 公開日:2021-05-17
# fgr:frustum-aware geometric reasoning for weakly supervised 3d vehicle detection

FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle Detection ( http://arxiv.org/abs/2105.07647v1 )

ライセンス: Link先を確認
Yi Wei, Shang Su, Jiwen Lu, Jie Zhou(参考訳) 本稿では,弱い教師付き3次元車両検出の問題について検討する。 従来の3Dオブジェクト検出手法では、大量の手動で3Dデータを監視信号としてラベル付けする必要がある。 しかし、大規模なデータセットをアノテートするには、特に3d領域において、膨大な人的努力が必要となる。 この問題に対処するために,3次元アノテーションを使わずに点雲内の車両を検出するフラストラム対応幾何推論(FGR)を提案する。 本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。 最初の段階では、2dバウンディングボックスに基づいてオブジェクトをセグメンテーションするようにコンテキスト認識適応領域成長アルゴリズムが設計されている。 予測セグメンテーションマスクを活用することで,第2段階で3次元境界ボックスを推定するアンチノイズ手法を開発した。 最後に,本手法により生成された3次元擬似ラベルを用いて3次元検出器を訓練する。 任意の3D基盤構造とは独立して、FGRはKITTIデータセット上で完全に教師付きメソッドで同等のパフォーマンスに達する。 その結果,2次元境界ボックスとスパース点雲だけで3次元空間内の物体を正確に検出できることが示唆された。

In this paper, we investigate the problem of weakly supervised 3D vehicle detection. Conventional methods for 3D object detection need vast amounts of manually labelled 3D data as supervision signals. However, annotating large datasets requires huge human efforts, especially for 3D area. To tackle this problem, we propose frustum-aware geometric reasoning (FGR) to detect vehicles in point clouds without any 3D annotations. Our method consists of two stages: coarse 3D segmentation and 3D bounding box estimation. For the first stage, a context-aware adaptive region growing algorithm is designed to segment objects based on 2D bounding boxes. Leveraging predicted segmentation masks, we develop an anti-noise approach to estimate 3D bounding boxes in the second stage. Finally 3D pseudo labels generated by our method are utilized to train a 3D detector. Independent of any 3D groundtruth, FGR reaches comparable performance with fully supervised methods on the KITTI dataset. The findings indicate that it is able to accurately detect objects in 3D space with only 2D bounding boxes and sparse point clouds.
翻訳日:2021-05-18 14:44:15 公開日:2021-05-17
# オーディオビジュアル映像要約

AudioVisual Video Summarization ( http://arxiv.org/abs/2105.07667v1 )

ライセンス: Link先を確認
Bin Zhao, Maoguo Gong, Xuelong Li(参考訳) オーディオと視覚はビデオデータの主要な2つのモードである。 近年,マルチモーダル学習,特にオーディオ視覚学習が注目されており,様々なコンピュータビジョンタスクの性能向上に寄与している。 しかし、ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけである。 本稿では,音声モダリティが視覚モダリティの助けとなり,映像の内容や構造をよりよく理解し,要約のプロセスにさらなる利益をもたらすことを論じる。 そこで我々は,映像要約タスクの音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。 具体的には、提案したAVRNは、1)2ストリームLSTMを使用して、その時間依存性をキャプチャすることで、音声と視覚の特徴を逐次符号化する。 2) 音像融合LSTMを用いて2つのモードを融合させ, それらの間の潜時的整合性を探究する。 3) 自己注意型ビデオエンコーダを用いて, 映像のグローバルな依存性を捉える。 最後に、融合音声視覚情報と統合時間的およびグローバルな依存関係を用いて、映像要約を予測する。 実際、2つのベンチマークの実験的結果である \emph{i,e} summe と tvsum は、映像要約に視覚情報を活用したアプローチと比較して、各部分の有効性と avrn の優位性を実証した。

Audio and vision are two main modalities in video data. Multimodal learning, especially for audiovisual learning, has drawn considerable attention recently, which can boost the performance of various computer vision tasks. However, in video summarization, existing approaches just exploit the visual information while neglect the audio information. In this paper, we argue that the audio modality can assist vision modality to better understand the video content and structure, and further benefit the summarization process. Motivated by this, we propose to jointly exploit the audio and visual information for the video summarization task, and develop an AudioVisual Recurrent Network (AVRN) to achieve this. Specifically, the proposed AVRN can be separated into three parts: 1) the two-stream LSTM is utilized to encode the audio and visual feature sequentially by capturing their temporal dependency. 2) the audiovisual fusion LSTM is employed to fuse the two modalities by exploring the latent consistency between them. 3) the self-attention video encoder is adopted to capture the global dependency in the video. Finally, the fused audiovisual information, and the integrated temporal and global dependencies are jointly used to predict the video summary. Practically, the experimental results on the two benchmarks, \emph{i.e.,} SumMe and TVsum, have demonstrated the effectiveness of each part, and the superiority of AVRN compared to those approaches just exploiting visual information for video summarization.
翻訳日:2021-05-18 14:43:58 公開日:2021-05-17
# 腹部多臓器分節に対するVoxel-level Siamese Representation Learning

Voxel-level Siamese Representation Learning for Abdominal Multi-Organ Segmentation ( http://arxiv.org/abs/2105.07672v1 )

ライセンス: Link先を確認
Chae Eun Lee, Minyoung Chung, Yeong-Gil Shin(参考訳) 医用画像セグメンテーションにおける最近の研究は、画像アノテーションの制限によるボリュームデータから高レベルの特徴をエンコードするために、様々なディープラーニングアーキテクチャや目的関数を積極的に探求している。 しかし、既存のほとんどのアプローチは、クロスボリュームなグローバルコンテキストを無視し、意思決定空間におけるコンテキスト関係を定義する傾向にある。 本研究では,腹部多臓器分割のための新しいボクセルレベルのシムセ表現学習法を提案し,表現空間を改良する。 提案手法は,限られたデータセットをより包括的に活用し,よりよい性能を実現するために,表現空間におけるvoxel-wise特徴関係を強制する。 近年のコントラスト学習の進展に触発されて,同じクラスからボクセル回りの関係を否定的なサンプルを用いずに同じ地点に投影することを抑制した。 さらに,複数の隠蔽層から特徴を集約するマルチレゾリューションコンテキストアグリゲーション手法を導入し,セグメント化のためのグローバルコンテキストとローカルコンテキストの両方を符号化する。 本実験はDiceスコア係数において既存手法よりも2%高い性能を示した。 表現空間の質的な視覚化は、主に不整形特徴空間によって改善が得られたことを示す。

Recent works in medical image segmentation have actively explored various deep learning architectures or objective functions to encode high-level features from volumetric data owing to limited image annotations. However, most existing approaches tend to ignore cross-volume global context and define context relations in the decision space. In this work, we propose a novel voxel-level Siamese representation learning method for abdominal multi-organ segmentation to improve representation space. The proposed method enforces voxel-wise feature relations in the representation space for leveraging limited datasets more comprehensively to achieve better performance. Inspired by recent progress in contrastive learning, we suppressed voxel-wise relations from the same class to be projected to the same point without using negative samples. Moreover, we introduce a multi-resolution context aggregation method that aggregates features from multiple hidden layers, which encodes both the global and local contexts for segmentation. Our experiments on the multi-organ dataset outperformed the existing approaches by 2% in Dice score coefficient. The qualitative visualizations of the representation spaces demonstrate that the improvements were gained primarily by a disentangled feature space.
翻訳日:2021-05-18 14:43:35 公開日:2021-05-17
# EA-Net:フローベースのビデオフレーム補間のためのエッジ対応ネットワーク

EA-Net: Edge-Aware Network for Flow-based Video Frame Interpolation ( http://arxiv.org/abs/2105.07673v1 )

ライセンス: Link先を確認
Bin Zhao and Xuelong Li(参考訳) フレーム補間はフレームレートをアップコンバートし、ビデオ品質を向上させる。 近年、補間性能は大きな成功を収めているが、画像のぼかしは通常、大きな動きのために物体の境界で発生する。 それは長年の問題であり、まだ解決されていない。 本稿では,補間フレームのエッジを保存し,画像のぼやけを低減し,オブジェクトの明瞭な形状を得ることを提案する。 この目的のために、提案するエッジアウェアネットワーク(ea-net)は、エッジ情報をフレーム補間タスクに統合する。 エンドツーエンドアーキテクチャに従い、2つのステージ、すなわち \emph{i.e. に分けられる。 エッジ誘導フロー推定とエッジ保護フレーム合成。 具体的には、フロー推定段階において、フローマップ推定においてフレームエッジを強調する3つのエッジアウェア機構を開発し、エッジマップを補助情報として、フロー精度を高めるためのガイダンスを提供する。 フレーム合成段階において、フローリファインメントモジュールはフローマップを洗練するように設計され、中間フレームを合成する際に、アテンションモジュールは双方向フローマップに適応的にフォーカスする。 さらに、フレームとエッジ判別器を用いて、合成フレームの現実性と明快性を高めるために、逆訓練戦略を実施する。 Vimeo90k、UCF101、Adobe240-fps、マルチフレーム補間という3つのベンチマーク実験は、ビデオフレーム補間タスクにおいて提案されたEA-Netの優位性を実証している。

Video frame interpolation can up-convert the frame rate and enhance the video quality. In recent years, although the interpolation performance has achieved great success, image blur usually occurs at the object boundaries owing to the large motion. It has been a long-standing problem, and has not been addressed yet. In this paper, we propose to reduce the image blur and get the clear shape of objects by preserving the edges in the interpolated frames. To this end, the proposed Edge-Aware Network (EA-Net) integrates the edge information into the frame interpolation task. It follows an end-to-end architecture and can be separated into two stages, \emph{i.e.}, edge-guided flow estimation and edge-protected frame synthesis. Specifically, in the flow estimation stage, three edge-aware mechanisms are developed to emphasize the frame edges in estimating flow maps, so that the edge-maps are taken as the auxiliary information to provide more guidance to boost the flow accuracy. In the frame synthesis stage, the flow refinement module is designed to refine the flow map, and the attention module is carried out to adaptively focus on the bidirectional flow maps when synthesizing the intermediate frames. Furthermore, the frame and edge discriminators are adopted to conduct the adversarial training strategy, so as to enhance the reality and clarity of synthesized frames. Experiments on three benchmarks, including Vimeo90k, UCF101 for single-frame interpolation and Adobe240-fps for multi-frame interpolation, have demonstrated the superiority of the proposed EA-Net for the video frame interpolation task.
翻訳日:2021-05-18 14:43:17 公開日:2021-05-17
# 双方向グローバル・ローカライズド・ドメイン・アダプテーションによる脳腫瘍切除

Cross-Modality Brain Tumor Segmentation via Bidirectional Global-to-Local Unsupervised Domain Adaptation ( http://arxiv.org/abs/2105.07715v1 )

ライセンス: Link先を確認
Kelei He, Wen Ji, Tao Zhou, Zhuoyuan Li, Jing Huo, Xin Zhang, Yang Gao, Dinggang Shen, Bing Zhang, and Junfeng Zhang(参考訳) 多モード磁気共鳴画像からの脳腫瘍の正確なセグメンテーションは、脳腫瘍の診断と治療に不可欠である。 しかし、異なるモダリティ間のドメインシフトが存在するため、1つのモダリティでトレーニングし、他のモダリティでT1イメージをトレーニングする際にネットワークの性能は劇的に低下する。 これはまた、ネットワークがラベル付きデータでトレーニングされることを禁止し、異なるドメインからラベルなしデータに転送する。 これを解決するために、unsupervised domain adapt(UDA)メソッドはラベル付きソースデータとラベルなしターゲットデータの間のドメインシフトを軽減する効果的なソリューションを提供する。 本稿では,uda方式に基づく双方向グローバル・ツー・ローカル(bigl)適応フレームワークを提案する。 具体的には,画像間トランスレータと共有重み付きセグメンテーションネットワークを含む2つの領域で生成された中間データ分布を用いて脳腫瘍をセグメンテーションするための双方向画像合成・セグメンテーションモジュールを提案する。 さらに,ロバスト表現アライメントを統合的に構築するために,グローバル・ローカル一貫性学習モジュールを提案する。 マルチモーダル脳MRベンチマークデータセットの大規模な実験により、提案手法は最先端の非教師なし領域適応法を大きなマージンで上回り、包括的アブレーション研究は各キーコンポーネントの有効性を検証した。 我々のメソッドの実装コードは \url{https://github.com/K eleiHe/BiGL} でリリースされる。

Accurate segmentation of brain tumors from multi-modal Magnetic Resonance (MR) images is essential in brain tumor diagnosis and treatment. However, due to the existence of domain shifts among different modalities, the performance of networks decreases dramatically when training on one modality and performing on another, e.g., train on T1 image while performing on T2 image, which is often required in clinical applications. This also prohibits a network from being trained on labeled data and then transferred to unlabeled data from a different domain. To overcome this, unsupervised domain adaptation (UDA) methods provide effective solutions to alleviate the domain shift between labeled source data and unlabeled target data. In this paper, we propose a novel Bidirectional Global-to-Local (BiGL) adaptation framework under a UDA scheme. Specifically, a bidirectional image synthesis and segmentation module is proposed to segment the brain tumor using the intermediate data distributions generated for the two domains, which includes an image-to-image translator and a shared-weighted segmentation network. Further, a global-to-local consistency learning module is proposed to build robust representation alignments in an integrated way. Extensive experiments on a multi-modal brain MR benchmark dataset demonstrate that the proposed method outperforms several state-of-the-art unsupervised domain adaptation methods by a large margin, while a comprehensive ablation study validates the effectiveness of each key component. The implementation code of our method will be released at \url{https://github.com/K eleiHe/BiGL}.
翻訳日:2021-05-18 14:42:54 公開日:2021-05-17
# HCRF流:連続高次CRFと位置認識フロー埋め込みを有する点雲からのシーンフロー

HCRF-Flow: Scene Flow from Point Clouds with Continuous High-order CRFs and Position-aware Flow Embedding ( http://arxiv.org/abs/2105.07751v1 )

ライセンス: Link先を確認
Ruibo Li, Guosheng Lin, Tong He, Fayao Liu, Chunhua Shen(参考訳) 3Dポイントクラウドにおけるシーンフローは、動的環境を理解する上で重要な役割を果たす。 深層ニューラルネットワークによる顕著な進歩はあったが、局所領域における剛性運動の制約を無視して、ポイント当たりの翻訳運動のみが考慮されるため、性能は十分ではない。 この問題に対処するために,隣接する点間の滑らかさを強制する動きの整合性を導入することを提案する。 さらに、局所変換の剛性に関する制約は、各局所領域内のすべての点に対して一意的な剛性パラメータを共有することで追加される。 この目的のために、高次CRFベースの関係モジュール(Con-HCRF)を配置し、点方向の滑らかさと領域方向の剛性の両方を探索する。 また,CRFに識別的一意項を持たせるために,Con-HCRFに組み込む位置認識フロー推定モジュールを導入する。 FlyingThings3D と KITTI に関する総合的な実験により,提案するフレームワーク (HCRF-Flow) が最先端の性能を達成し,従来のアプローチを大幅に上回ることを示す。

Scene flow in 3D point clouds plays an important role in understanding dynamic environments. Although significant advances have been made by deep neural networks, the performance is far from satisfactory as only per-point translational motion is considered, neglecting the constraints of the rigid motion in local regions. To address the issue, we propose to introduce the motion consistency to force the smoothness among neighboring points. In addition, constraints on the rigidity of the local transformation are also added by sharing unique rigid motion parameters for all points within each local region. To this end, a high-order CRFs based relation module (Con-HCRFs) is deployed to explore both point-wise smoothness and region-wise rigidity. To empower the CRFs to have a discriminative unary term, we also introduce a position-aware flow estimation module to be incorporated into the Con-HCRFs. Comprehensive experiments on FlyingThings3D and KITTI show that our proposed framework (HCRF-Flow) achieves state-of-the-art performance and significantly outperforms previous approaches substantially.
翻訳日:2021-05-18 14:42:19 公開日:2021-05-17
# STRIDE : デバイス内におけるシーンテキスト認識

STRIDE : Scene Text Recognition In-Device ( http://arxiv.org/abs/2105.07795v1 )

ライセンス: Link先を確認
Rachit S Munjal, Arun D Prabhu, Nikhil Arora, Sukumar Moharana, Gopi Ramena(参考訳) 光文字認識(OCR)システムは画像から意味情報を抽出する様々な用途で広く利用されている。 ユーザのプライバシをよりコントロールするためには、デバイス上のソリューションが必要です。 現在の最先端のモデルは重く、デバイス上にデプロイするには複雑すぎる。 我々は,0.88万のパラメータしか持たず,リアルタイムなテキスト認識を行う,効率的なシーンテキスト認識(STR)システムを開発した。 注意モジュールはSTRネットワークの精度を高める傾向にあるが、一般的には遅く、デバイス推論に最適化されていない。 そこで本研究では,LSTMモジュールへのチャネルおよび空間的注意情報の提供を目的とした,テキスト認識ネットワークへのコンボリューションアテンションモジュールの利用を提案する。 ICDAR 13データセットの単語精度を約2倍に向上します。 また,水平テキストと垂直テキストの同時認識を支援するために,新たな向き分類器モジュールを導入する。 提案モデルは,推定時間とメモリフットプリントのデバイス上の測定値を超え,主要な商用および他のオープンソースOCRエンジンと比較して,同等の精度を実現する。 Inference speed of 2.44 ms per word on the Exynos 990 chipset device, and achieve a accuracy of 88.4\% on ICDAR-13 data。

Optical Character Recognition (OCR) systems have been widely used in various applications for extracting semantic information from images. To give the user more control over their privacy, an on-device solution is needed. The current state-of-the-art models are too heavy and complex to be deployed on-device. We develop an efficient lightweight scene text recognition (STR) system, which has only 0.88M parameters and performs real-time text recognition. Attention modules tend to boost the accuracy of STR networks but are generally slow and not optimized for device inference. So, we propose the use of convolution attention modules to the text recognition networks, which aims to provide channel and spatial attention information to the LSTM module by adding very minimal computational cost. It boosts our word accuracy on ICDAR 13 dataset by almost 2\%. We also introduce a novel orientation classifier module, to support the simultaneous recognition of both horizontal and vertical text. The proposed model surpasses on-device metrics of inference time and memory footprint and achieves comparable accuracy when compared to the leading commercial and other open-source OCR engines. We deploy the system on-device with an inference speed of 2.44 ms per word on the Exynos 990 chipset device and achieve an accuracy of 88.4\% on ICDAR-13 dataset.
翻訳日:2021-05-18 14:41:57 公開日:2021-05-17
# tracked object bounding box associationを用いたマルチオブジェクトトラッキング

Multi-object Tracking with Tracked Object Bounding Box Association ( http://arxiv.org/abs/2105.07901v1 )

ライセンス: Link先を確認
Nanyang Yang, Yi Wang and Lap-Pui Chau(参考訳) CenterTrack トラッキングアルゴリズムは,単純な検出モデルと単一フレーム空間オフセットを用いて,オブジェクトのローカライズと関連性の予測を行う。 しかし, この共同検出・追跡方法は, 結合性が劣るため, 高い同一性スイッチに苦しむ。 本稿では,多数のIDスイッチを低減し,トラッキング精度を向上させるために,現在のフレームをベースとした単純な追跡対象境界ボックスと重なり合った予測をCenterTrackアルゴリズムに組み込むことを提案する。 具体的には,単純な点変位距離ではなく結合ステップにおける結合距離コスト行列(iou)の交点を提案する。 提案したトラッカーをMOT17テストデータセット上で評価した結果,提案手法は同一トラックレット寿命における元のCenterTrackと比較して,IDスイッチを22.6%削減し,IDF1が1.5%向上したことを示す。 ソースコードはhttps://github.com/N anyangny/CenterTrack -IOUで公開されている。

The CenterTrack tracking algorithm achieves state-of-the-art tracking performance using a simple detection model and single-frame spatial offsets to localize objects and predict their associations in a single network. However, this joint detection and tracking method still suffers from high identity switches due to the inferior association method. To reduce the high number of identity switches and improve the tracking accuracy, in this paper, we propose to incorporate a simple tracked object bounding box and overlapping prediction based on the current frame onto the CenterTrack algorithm. Specifically, we propose an Intersection over Union (IOU) distance cost matrix in the association step instead of simple point displacement distance. We evaluate our proposed tracker on the MOT17 test dataset, showing that our proposed method can reduce identity switches significantly by 22.6% and obtain a notable improvement of 1.5% in IDF1 compared to the original CenterTrack's under the same tracklet lifetime. The source code is released at https://github.com/N anyangny/CenterTrack -IOU.
翻訳日:2021-05-18 14:41:38 公開日:2021-05-17
# ロバストな視覚トランスフォーマの設計原理再考

Rethinking the Design Principles of Robust Vision Transformer ( http://arxiv.org/abs/2105.07926v1 )

ライセンス: Link先を確認
Xiaofeng Mao, Gege Qi, Yuefeng Chen, Xiaodan Li, Shaokai Ye, Yuan He, Hui Xue(参考訳) ビジョントランスフォーマー(ViT)の最近の進歩は、多くの視覚タスクにおいて、長距離依存モデリング能力を利用する自己注意型ネットワークが従来の畳み込みニューラルネットワーク(CNN)を上回っていることを示している。 コンピュータビジョンの適用性をさらに拡大するため、cnn、すなわち局所性、翻訳不変性(translation invariance)の優位性を考慮してトランスフォーマーアーキテクチャを再設計する多くの改良版が提案されている。 しかし、これらの手法はモデルの標準的な精度や計算コストのみを考慮する。 本稿では、ロバスト性に基づくViTの設計原則を再考する。 いくつかのデザインコンポーネントは、ViTの堅牢性と一般化能力を著しく損なうが、他のコンポーネントは有益である。 ロバストな設計要素を組み合わせることで、ロバストビジョントランスフォーマ(rvt)を提案する。 RVTは、優れた性能と強力な堅牢性を持つ新しいビジョントランスフォーマーである。 さらに、位置認識注意再スケーリングとパッチワイド拡張という2つの新しいプラグイン・アンド・プレイ手法を提案する。 ImageNetと6つのロバストネスベンチマークの実験結果は、従来のトランスフォーマーや最先端CNNと比較してRVTの高度なロバストネスと一般化能力を示している。 RVT-S* は ImageNet-C や ImageNet-Sketch など,複数のロバストなリーダボードでトップ1のランクを獲得しています。 コードはhttps://github.com/v tddggg/Robust-Vision -Transformerで入手できる。

Recent advances on Vision Transformers (ViT) have shown that self-attention-based networks, which take advantage of long-range dependencies modeling ability, surpassed traditional convolution neural networks (CNNs) in most vision tasks. To further expand the applicability for computer vision, many improved variants are proposed to re-design the Transformer architecture by considering the superiority of CNNs, i.e., locality, translation invariance, for better performance. However, these methods only consider the standard accuracy or computation cost of the model. In this paper, we rethink the design principles of ViTs based on the robustness. We found some design components greatly harm the robustness and generalization ability of ViTs while some others are beneficial. By combining the robust design components, we propose Robust Vision Transformer (RVT). RVT is a new vision transformer, which has superior performance and strong robustness. We further propose two new plug-and-play techniques called position-aware attention rescaling and patch-wise augmentation to train our RVT. The experimental results on ImageNet and six robustness benchmarks show the advanced robustness and generalization ability of RVT compared with previous Transformers and state-of-the-art CNNs. Our RVT-S* also achieves Top-1 rank on multiple robustness leaderboards including ImageNet-C and ImageNet-Sketch. The code will be available at https://github.com/v tddggg/Robust-Vision -Transformer.
翻訳日:2021-05-18 14:41:21 公開日:2021-05-17
# Pseudo-Label Ensemble-based Semi-supervised Learning for Handling Noisy Soiling Segmentation Annotation

Pseudo-Label Ensemble-based Semi-supervised Learning for Handling Noisy Soiling Segmentation Annotations ( http://arxiv.org/abs/2105.07930v1 )

ライセンス: Link先を確認
Michal Uricar, Ganesh Sistu, Lucie Yahiaoui and Senthil Yogamani(参考訳) サラウンドビューカメラでの汚れの手動アノテーションは、非常に困難で高価な作業です。 水滴や泥粒子のような様々な土のカテゴリーの境界が不明瞭であるため、通常はアノテーションの品質に大きなばらつきが生じる。 結果として、このような貧弱な注釈付きデータでトレーニングされたモデルは、最適とはほど遠い。 本稿では,疑似ラベル駆動型アンサンブルモデルによって,問題のあるアノテーションを素早く発見し,多くの場合に十分修正できるような,ノイズの多いアノテーションの扱いに注目する。 我々は, ノイズラベルと改良ラベルの両方に対して, 土壌セグメンテーションモデルを訓練し, 改良アノテーションによる大幅な改善を示す。 また、低コストの粗末なアノテーションを効果的に洗練することができることも示している。

Manual annotation of soiling on surround view cameras is a very challenging and expensive task. The unclear boundary for various soiling categories like water drops or mud particles usually results in a large variance in the annotation quality. As a result, the models trained on such poorly annotated data are far from being optimal. In this paper, we focus on handling such noisy annotations via pseudo-label driven ensemble model which allow us to quickly spot problematic annotations and in most cases also sufficiently fixing them. We train a soiling segmentation model on both noisy and refined labels and demonstrate significant improvements using the refined annotations. It also illustrates that it is possible to effectively refine lower cost coarse annotations.
翻訳日:2021-05-18 14:41:01 公開日:2021-05-17
# 未知ボックス近似による光文字認識性能の向上

Unknown-box Approximation to Improve Optical Character Recognition Performance ( http://arxiv.org/abs/2105.07983v1 )

ライセンス: Link先を確認
Ayantha Randika, Nilanjan Ray, Xiao Xiao, Allegra Latimer(参考訳) 光文字認識(OCR)は多くの領域で広く使われているパターン認識アプリケーションである。 コンシューマ向けの機能豊富な汎用OCRソリューションがいくつか用意されており、適度な精度と優れた精度を提供することができる。 しかし、困難で珍しい文書ドメインでは精度が低下する可能性がある。 文書画像の前処理はドメインシフトの影響を最小限に抑えるために使用できる。 本稿では,OCRエンジン用にカスタマイズされたプリプロセッサを作成するための新しい手法を提案する。 従来のOCR非依存前処理技術とは異なり、提案手法は特定のOCRエンジンの勾配を近似してプリプロセッサモジュールを訓練する。 2つのデータセットと2つのocrエンジンを用いた実験により、提示されたプリプロセッサは、文書画像にピクセルレベルの操作を適用することで、ベースラインから46%までocrの精度を向上させることができることを示した。 提案手法と拡張された公開データセットの実装はダウンロード可能である。

Optical character recognition (OCR) is a widely used pattern recognition application in numerous domains. There are several feature-rich, general-purpose OCR solutions available for consumers, which can provide moderate to excellent accuracy levels. However, accuracy can diminish with difficult and uncommon document domains. Preprocessing of document images can be used to minimize the effect of domain shift. In this paper, a novel approach is presented for creating a customized preprocessor for a given OCR engine. Unlike the previous OCR agnostic preprocessing techniques, the proposed approach approximates the gradient of a particular OCR engine to train a preprocessor module. Experiments with two datasets and two OCR engines show that the presented preprocessor is able to improve the accuracy of the OCR up to 46% from the baseline by applying pixel-level manipulations to the document image. The implementation of the proposed method and the enhanced public datasets are available for download.
翻訳日:2021-05-18 14:40:49 公開日:2021-05-17
# CCGベースのDisCoCatフレームワーク

A CCG-Based Version of the DisCoCat Framework ( http://arxiv.org/abs/2105.07720v1 )

ライセンス: Link先を確認
Richie Yeung, Dimitri Kartsaklis(参考訳) DisCoCatモデル(Coecke et al., 2010)は意味論のレベルで言語の構成的側面を研究する上で有用なツールであることが証明されているが、前グループ文法への強い依存は重要な制約を生じている。 本稿では,DisCoCat を Combinatory Categorial Grammar (CCG) から意味論のカテゴリへ変換することで,これらの問題を解決する。 まず、標準分類文法を二閉圏として表現し、すべての規則がカリーリング/アンカーリングとして出現し、その後、単語の意味をエンコードするコンパクト閉圏の対称性を利用して、置換誘導規則をモデル化する。 我々は,「不思議の国のアリス」を,コミュニティで利用できるコーパスであるDisCoCat形式に変換する手法の概念実証を行う。

While the DisCoCat model (Coecke et al., 2010) has been proved a valuable tool for studying compositional aspects of language at the level of semantics, its strong dependency on pregroup grammars poses important restrictions: first, it prevents large-scale experimentation due to the absence of a pregroup parser; and second, it limits the expressibility of the model to context-free grammars. In this paper we solve these problems by reformulating DisCoCat as a passage from Combinatory Categorial Grammar (CCG) to a category of semantics. We start by showing that standard categorial grammars can be expressed as a biclosed category, where all rules emerge as currying/uncurrying the identity; we then proceed to model permutation-inducing rules by exploiting the symmetry of the compact closed category encoding the word meaning. We provide a proof of concept for our method, converting "Alice in Wonderland" into DisCoCat form, a corpus that we make available to the community.
翻訳日:2021-05-18 14:40:34 公開日:2021-05-17
# Federated Knowledge Graphs Embedding

Federated Knowledge Graphs Embedding ( http://arxiv.org/abs/2105.07615v1 )

ライセンス: Link先を確認
Hao Peng, Haoran Li, Yangqiu Song, Vincent Zheng, Jianxin Li(参考訳) 本稿では,fkge(federated knowledge graphs embedded)という,異なる知識グラフからの埋め込みを,プライバシを保護しながら非同期かつピアツーピアの方法で学習可能な,新たな分散スケーラブルな学習フレームワークを提案する。 FKGEは知識グラフのペア間の逆生成を利用して、同一の実体と異なるドメインの関係を近接埋め込み空間に変換する。 トレーニングデータのプライバシを保護するため、fkgeはさらにプライバシ保存ニューラルネットワーク構造を実装して、生のデータ漏洩を保証している。 11のナレッジグラフ上でfkgeを評価するための広範囲な実験を行い,3つの分類とリンク予測タスクにおいて,最大17.85%と7.90%のパフォーマンス向上で,モデル品質の有意かつ一貫した改善を示した。

In this paper, we propose a novel decentralized scalable learning framework, Federated Knowledge Graphs Embedding (FKGE), where embeddings from different knowledge graphs can be learnt in an asynchronous and peer-to-peer manner while being privacy-preserving. FKGE exploits adversarial generation between pairs of knowledge graphs to translate identical entities and relations of different domains into near embedding spaces. In order to protect the privacy of the training data, FKGE further implements a privacy-preserving neural network structure to guarantee no raw data leakage. We conduct extensive experiments to evaluate FKGE on 11 knowledge graphs, demonstrating a significant and consistent improvement in model quality with at most 17.85% and 7.90% increases in performance on triple classification and link prediction tasks.
翻訳日:2021-05-18 14:38:48 公開日:2021-05-17
# 原子学習における効果的なスキル評価のための知識状態ネットワーク

Knowledge State Networks for Effective Skill Assessment in Atomic Learning ( http://arxiv.org/abs/2105.07733v1 )

ライセンス: Link先を確認
Julian Rasch and David Middelbeck(参考訳) 本稿では,パーソナライズされたスキルベースオンライン学習の文脈において,迅速かつ効果的な知識状態評価のための新しいフレームワークを提案する。 従来の学習者の評価データに基づいてトレーニングされた特定のニューラルネットワークである知識状態ネットワークを用いて,学習者のスキルに関する部分的情報のみから,他の学習者の知識状態の完全な状態を予測する。 差別的質問に対する評価戦略と組み合わせることで、標準的な評価設計と比較して、我々のアプローチが、必要な評価質問の数の観点から、評価プロセスの大幅なスピードアップにつながることを実証する。 提案手法では,細粒度のスキルオントロジーに対して,学習経験を長期的評価プロセスで損なうことなく,パーソナライズされたスキルベースのオンライン学習を可能にする。

The goal of this paper is to introduce a new framework for fast and effective knowledge state assessments in the context of personalized, skill-based online learning. We use knowledge state networks - specific neural networks trained on assessment data of previous learners - to predict the full knowledge state of other learners from only partial information about their skills. In combination with a matching assessment strategy for asking discriminative questions we demonstrate that our approach leads to a significant speed-up of the assessment process - in terms of the necessary number of assessment questions - in comparison to standard assessment designs. In practice, the presented methods enable personalized, skill-based online learning also for skill ontologies of very fine granularity without deteriorating the associated learning experience by a lengthy assessment process.
翻訳日:2021-05-18 14:38:33 公開日:2021-05-17
# ニューラルネットワークを用いた信号強度マップ再構成のための自己学習

Self-Learning for Received Signal Strength Map Reconstruction with Neural Architecture Search ( http://arxiv.org/abs/2105.07768v1 )

ライセンス: Link先を確認
Aleksandra Malkova, Loic Pauletto, Christophe Villien, Benoit Denis, Massih-Reza Amini(参考訳) 本稿では,ニューラルネットワークを用いたニューラルネットワーク(NN)モデルを提案する。一方,側決定論的シミュレーションによるデータ拡張を行なえない場合において,受信信号強度(RSS)マップ再構成のための自己学習を行う。 提案手法はまず、最適NNアーキテクチャを見つけ、与えられた(RSS)マップの基底構造測定に基づいて、推定されたモデルを同時に訓練する。 ランダムに選択された点の集合に対するモデルの予測と共に、これらの地表面の測定は、同じアーキテクチャを持つ第2のnnモデルを訓練するために使用される。 実験結果から,この第2モデルの信号予測は,RSS測定の大規模な5つのマップ上で,アーキテクチャ探索を行わない非学習ベース補間手法やNNモデルよりも優れていた。

In this paper, we present a Neural Network (NN) model based on Neural Architecture Search (NAS) and self-learning for received signal strength (RSS) map reconstruction out of sparse single-snapshot input measurements, in the case where data-augmentation by side deterministic simulations cannot be performed. The approach first finds an optimal NN architecture and simultaneously train the deduced model over some ground-truth measurements of a given (RSS) map. These ground-truth measurements along with the predictions of the model over a set of randomly chosen points are then used to train a second NN model having the same architecture. Experimental results show that signal predictions of this second model outperforms non-learning based interpolation state-of-the-art techniques and NN models with no architecture search on five large-scale maps of RSS measurements.
翻訳日:2021-05-18 14:38:22 公開日:2021-05-17
# 知識追跡における深層自己認識の応用

Application of Deep Self-Attention in Knowledge Tracing ( http://arxiv.org/abs/2105.07909v1 )

ライセンス: Link先を確認
Junhao Zeng, Qingchun Zhang, Ning Xie, Bochun Yang(参考訳) 知的学習システムの開発は、学生の学習と実践の仕方に大きな影響を与え、学習効率が向上した。 知的指導システムは,学習者にフィードバックやアドバイスを与える前に,学習者の知識の熟達をモデル化しなければならない。 本論文は,中国の多くの大学の学生によるオンラインアセスメントシステムであるPTAのデータをもとに,これらの学生がより効率的に学習できるように,Deep Self-Attentive Knowledge Tracing (DSAKT)を提案する。 PTAのデータを用いた実験では、DSAKTはAUCの改善を平均2.1%向上させる知識追跡のために他のモデルよりも優れており、このモデルはASSISTデータセットでも優れた性能を示している。

The development of intelligent tutoring system has greatly influenced the way students learn and practice, which increases their learning efficiency. The intelligent tutoring system must model learners' mastery of the knowledge before providing feedback and advices to learners, so one class of algorithm called "knowledge tracing" is surely important. This paper proposed Deep Self-Attentive Knowledge Tracing (DSAKT) based on the data of PTA, an online assessment system used by students in many universities in China, to help these students learn more efficiently. Experimentation on the data of PTA shows that DSAKT outperforms the other models for knowledge tracing an improvement of AUC by 2.1% on average, and this model also has a good performance on the ASSIST dataset.
翻訳日:2021-05-18 14:38:11 公開日:2021-05-17
# 最適化の観点からみたネットワーク組込みの敵意学習の理解と改善

Understanding and Improvement of Adversarial Training for Network Embedding from an Optimization Perspective ( http://arxiv.org/abs/2105.08007v1 )

ライセンス: Link先を確認
Lun Du, Xu Chen, Fei Gao, Kunqing Xie, Shi Han and Dongmei Zhang(参考訳) Network Embeddingは、ノードをユークリッド空間にマッピングする関数を学習することを目的としており、ネットワーク上の複数の学習分析タスクに寄与する。 しかし、実世界のネットワークの背後にあるノイズ情報と過適合問題はどちらも埋め込みベクトルの品質に悪影響を及ぼす。 これらの問題に対処するために、研究者はAdvTNE(Adversarial Training for Network Embedding)を用いて最先端のパフォーマンスを実現する。 ネットワーク構造やデータ機能に摂動を導入する主流のメソッドとは異なり、AdvTNEはモデルパラメータを直接摂動し、そのメカニズムを理解する新たな機会を提供する。 本稿では,AdvTNEを最適化の観点から理論的に説明する。 ネットワークのパワーロー特性と最適化目標を考慮して,その優れた結果の理由を分析する。 以上の分析により,advtneの性能を向上させるための新たなアクティベーションを提案する。 ノード分類とリンク予測において,提案手法の有効性を検証するために,4つの実ネットワークについて広範な実験を行った。 その結果,本手法は最先端のベースライン法よりも優れていることがわかった。

Network Embedding aims to learn a function mapping the nodes to Euclidean space contribute to multiple learning analysis tasks on networks. However, the noisy information behind the real-world networks and the overfitting problem both negatively impact the quality of embedding vectors. To tackle these problems, researchers utilize Adversarial Training for Network Embedding (AdvTNE) and achieve state-of-the-art performance. Unlike the mainstream methods introducing perturbations on the network structure or the data feature, AdvTNE directly perturbs the model parameters, which provides a new chance to understand the mechanism behind. In this paper, we explain AdvTNE theoretically from an optimization perspective. Considering the Power-law property of networks and the optimization objective, we analyze the reason for its excellent results. According to the above analysis, we propose a new activation to enhance the performance of AdvTNE. We conduct extensive experiments on four real networks to validate the effectiveness of our method in node classification and link prediction. The results demonstrate that our method is superior to the state-of-the-art baseline methods.
翻訳日:2021-05-18 14:37:56 公開日:2021-05-17
# 教師なしクラスタリングのためのアルゴリズム非依存な説明可能性

Algorithm-Agnostic Explainability for Unsupervised Clustering ( http://arxiv.org/abs/2105.08053v1 )

ライセンス: Link先を確認
Charles A. Ellis, Mohammad S.E. Sendi, Sergey M. Plis, Robyn L. Miller, and Vince D. Calhoun(参考訳) 近年、機械学習の説明可能性が大幅に拡大している。 しかしながら、教師なしクラスタリングの説明可能性の分野は遅れている。 ここでは、我々の知識を最大限に活用するために、機械学習の説明可能性を管理するモデル非依存の方法が、アルゴリズム非依存なクラスタリング説明可能性にどのように適応するかを初めて示す。 本稿では,クラスタリングアルゴリズムにおける特徴の相対的重要性を同定することにより,クラスタリングアルゴリズムにおける特徴の相対的重要性と局所的重要性を同定することにより,グローバルレベルでの多くのクラスタリング手法の洞察を得られる,G2PCの特徴的重要性と局所的摂動率変化(L2PC)の特徴的重要性を示す。 統合失調症患者151名(sz)と健常者160名(hc)からなる安静時機能的磁気共鳴画像(rs-fmri)データセットから抽出した低次元・地中合成データセットと高次元機能ネットワーク接続(fnc)データに対して,5つの一般的なクラスタリングアルゴリズムを説明する手法の有用性を示す。 提案手法は,複数のクラスタリング手法にまたがる特徴の相対的重要性をロバストに同定し,多くのアプリケーションに新たな洞察を与える。 本研究はクラスタリングの説明可能性の分野の発展を大いに加速させることを期待する。

Supervised machine learning explainability has greatly expanded in recent years. However, the field of unsupervised clustering explainability has lagged behind. Here, we, to the best of our knowledge, demonstrate for the first time how model-agnostic methods for supervised machine learning explainability can be adapted to provide algorithm-agnostic unsupervised clustering explainability. We present two novel algorithm-agnostic explainability methods, global permutation percent change (G2PC) feature importance and local perturbation percent change (L2PC) feature importance, that can provide insight into many clustering methods on a global level by identifying the relative importance of features to a clustering algorithm and on a local level by identifying the relative importance of features to the clustering of individual samples. We demonstrate the utility of the methods for explaining five popular clustering algorithms on low-dimensional, ground-truth synthetic datasets and on high-dimensional functional network connectivity (FNC) data extracted from a resting state functional magnetic resonance imaging (rs-fMRI) dataset of 151 subjects with schizophrenia (SZ) and 160 healthy controls (HC). Our proposed explainability methods robustly identify the relative importance of features across multiple clustering methods and could facilitate new insights into many applications. We hope that this study will greatly accelerate the development of the field of clustering explainability.
翻訳日:2021-05-18 14:37:42 公開日:2021-05-17
# クラウド指向弾性光ネットワークにおけるトラヒックアウェアサービス移転

Traffic-Aware Service Relocation in Cloud-Oriented Elastic Optical Networks ( http://arxiv.org/abs/2105.07653v1 )

ライセンス: Link先を確認
R\'o\.za Go\'scie\'n(参考訳) 本稿では,ネットワーク性能を向上させるために,エラスティック・オプティカル・ネットワーク(eons)における効率的なサービス移転(すなわち,選択したクライアントノードに割り当てられたデータセンタを変更する)の問題について検討する。 この目的のために,クラウド対応トランスポートネットワークのための新しいトラフィックモデルを提案する。 このモデルは4つのフロータイプ(都市間、都市間、都市間、データセンター間、データセンター間)を考慮しており、フロー特性はネットワークノードに関連する都市の実経済的および地理的パラメータに基づいている。 次に,サービス再配置プロセスでサポート可能な専用フロー割当アルゴリズムを提案する。 また,ネットワークトポロジ的特徴,拒否履歴,トラヒック予測という3種類のデータを用いて,21の異なる再配置ポリシを導入する。 i)提案する最適化アプローチをチューニングし、(ii)それらの効率を評価し比較し、最適なものを選択する。 調査の結果,提案した政策の高効率性が確認された。 プロポーアが設計した移動ポリシーにより、最大3%のトラフィックを割り当てることができた(このポリシーを使わずに割り当てる)。 また,最も効率的な再配置ポリシーは,拒否履歴とトラヒック予測の2種類のデータに基づいて決定されることを明らかにした。

In this paper, we study problem of efficient service relocation (i.e., changing assigned data center for a selected client node) in elastic optical networks (EONs) in order to increase network performance (measured by the volume of accepted traffic). To this end, we first propose novel traffic model for cloud ready transport networks. The model takes into account four flow types (i.e., city-to-city, city-to-data center, data center-to-data center and data center-to-data center) while the flow characteristics are based on real economical and geographical parameters of the cities related to network nodes. Then, we propose dedicated flow allocation algorithm that can be supported by the service relocation process. We also introduce 21 different relocation policies, which use three types of data for decision making - network topological characteristics, rejection history and traffic prediction. Eventually, we perform extensive numerical experiments in order to: (i) tune proposed optimization approaches and (ii) evaluate and compare their efficiency and select the best one. The results of the investigation prove high efficiency of the proposed policies. The propoerly designed relocation policy allowed to allocate up to 3% more traffic (compared to the allocation without that policy). The results also reveal that the most efficient relocation policy bases its decisions on two types of data simultaneously - the rejection history and traffic prediction.
翻訳日:2021-05-18 14:35:48 公開日:2021-05-17
# 事前学習における効果と効率のより良いトレードオフに向けて--学習可能な特徴選択に基づくアプローチ

Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach ( http://arxiv.org/abs/2105.07706v1 )

ライセンス: Link先を確認
Xu Ma, Pengjie Wang, Hui Zhao, Shaoguo Liu, Chuhan Zhao, Wei Lin, Kuang-Chih Lee, Jian Xu, Bo Zheng(参考訳) 現実世界の検索、レコメンデーション、広告システムでは、多段階ランキングアーキテクチャが一般的である。 このようなアーキテクチャは通常、マッチング、事前ランク付け、ランク付け、再ランク付けのステージで構成される。 プレグレード段階では、表現中心アーキテクチャを持つベクトル生成モデルがシステム効率を考慮するために一般的に採用される。 しかし、それはシステムの有効性に大きな損失をもたらします。 本稿では,対話型アーキテクチャを用いた複雑なモデルを支援する,新しい事前評価手法を提案する。 特徴複雑度と変動ドロップアウト(FSCD)に基づく学習可能な特徴選択法を用いて,有効性と効率のトレードオフを向上する。 検索エンジンのための実世界の電子商取引スポンサーサーチシステムの評価により,提案手法の有効性が大幅に向上した。 また,従来の先行モデルと比較すると,同じ量の計算資源が消費される。

In real-world search, recommendation, and advertising systems, the multi-stage ranking architecture is commonly adopted. Such architecture usually consists of matching, pre-ranking, ranking, and re-ranking stages. In the pre-ranking stage, vector-product based models with representation-focus ed architecture are commonly adopted to account for system efficiency. However, it brings a significant loss to the effectiveness of the system. In this paper, a novel pre-ranking approach is proposed which supports complicated models with interaction-focused architecture. It achieves a better tradeoff between effectiveness and efficiency by utilizing the proposed learnable Feature Selection method based on feature Complexity and variational Dropout (FSCD). Evaluations in a real-world e-commerce sponsored search system for a search engine demonstrate that utilizing the proposed pre-ranking, the effectiveness of the system is significantly improved. Moreover, compared to the systems with conventional pre-ranking models, an identical amount of computational resource is consumed.
翻訳日:2021-05-18 14:35:27 公開日:2021-05-17
# 強化学習における行動に基づく神経進化訓練

Behavior-based Neuroevolutionary Training in Reinforcement Learning ( http://arxiv.org/abs/2105.07960v1 )

ライセンス: Link先を確認
J\"org Stork, Martin Zaefferer, Nils Eisler, Patrick Tichelmann, Thomas Bartz-Beielstein, A. E. Eiben(参考訳) 古典的最適化問題の解決における未解決の成功に加え、神経進化的および人口ベースアルゴリズムは標準的な強化学習法に代わるものとなっている。 しかし、進化的手法はしばしば、収集された状態と価値経験を利用する標準値ベースの手法のサンプル効率を欠いている。 資源コストの大きい実世界の問題に対する強化学習を考慮すれば,サンプル効率は不可欠である。 進化的アルゴリズムと経験的手法の強化が望まれ、貴重な洞察を約束する。 本研究は,位相変化型神経進化最適化と値に基づく強化学習を組み合わせたハイブリッドアルゴリズムを提案する。 本稿では,ストアドエクスペリエンスと計算された状態値の恩恵を受ける距離関数と損失関数を作成するために,ポリシの振る舞いをどのように利用するかを説明する。 それらは、勾配のない進化的アルゴリズムと代理に基づく最適化により、振る舞いをモデル化し、行動空間の方向探索を行うことができる。 この目的のために,エージェントポリシーの生成と最適化のための異なる手法を統合し,多様な集団を創出する。 我々は,標準ベンチマークにおけるアルゴリズムの性能と,目的とする実世界の問題を実証する。 以上の結果から,結合手法は進化的アプローチのサンプル効率と学習速度を向上できることが示唆された。

In addition to their undisputed success in solving classical optimization problems, neuroevolutionary and population-based algorithms have become an alternative to standard reinforcement learning methods. However, evolutionary methods often lack the sample efficiency of standard value-based methods that leverage gathered state and value experience. If reinforcement learning for real-world problems with significant resource cost is considered, sample efficiency is essential. The enhancement of evolutionary algorithms with experience exploiting methods is thus desired and promises valuable insights. This work presents a hybrid algorithm that combines topology-changing neuroevolutionary optimization with value-based reinforcement learning. We illustrate how the behavior of policies can be used to create distance and loss functions, which benefit from stored experiences and calculated state values. They allow us to model behavior and perform a directed search in the behavior space by gradient-free evolutionary algorithms and surrogate-based optimization. For this purpose, we consolidate different methods to generate and optimize agent policies, creating a diverse population. We exemplify the performance of our algorithm on standard benchmarks and a purpose-built real-world problem. Our results indicate that combining methods can enhance the sample efficiency and learning speed for evolutionary approaches.
翻訳日:2021-05-18 14:35:15 公開日:2021-05-17
# ソーシャルネットワークと意味分析を用いたオンライン旅行フォーラムの分析と観光需要予測

Using social network and semantic analysis to analyze online travel forums and forecast tourism demand ( http://arxiv.org/abs/2105.07727v1 )

ライセンス: Link先を確認
A Fronzetti Colladon, B Guardabascio, R Innarella(参考訳) 観光需要の予測は、政策立案者や観光業を営む企業にとって重要な意味を持つ。 本研究では,ソーシャルネットワークと意味分析の手法とツールを用いて,tripadvisor travel forumで対話するオンラインコミュニティから検索されたユーザ生成コンテンツについて検討した。 欧州の主要7都市のフォーラムを10年間で分析し、約14万7000人のユーザーが書いた26万以上の投稿を集めた。 本稿では,観光関連ビッグデータの分析手法と,従来の予測モデルに統合可能な変数群について述べる。 ソーシャルネットワークとセマンティック変数を用いたFact Augmented Autoregressive and Bridgeモデルを実装した結果,Google Trendsデータに基づく単変量モデルやモデルよりも優れた予測性能が得られた。 フォーラム言語複雑性とコミュニケーションネットワークの中央集権化 著名な貢献者の存在は、国際空港の到着予測により多くの貢献をした変数であった。

Forecasting tourism demand has important implications for both policy makers and companies operating in the tourism industry. In this research, we applied methods and tools of social network and semantic analysis to study user-generated content retrieved from online communities which interacted on the TripAdvisor travel forum. We analyzed the forums of 7 major European capital cities, over a period of 10 years, collecting more than 2,660,000 posts, written by about 147,000 users. We present a new methodology of analysis of tourism-related big data and a set of variables which could be integrated into traditional forecasting models. We implemented Factor Augmented Autoregressive and Bridge models with social network and semantic variables which often led to a better forecasting performance than univariate models and models based on Google Trend data. Forum language complexity and the centralization of the communication network, i.e. the presence of eminent contributors, were the variables that contributed more to the forecasting of international airport arrivals.
翻訳日:2021-05-18 14:34:25 公開日:2021-05-17
# 自己組織型マルチエージェントシステムにおけるエージェントの独立性に関する形式的枠組み

A Formal Framework for Reasoning about Agents' Independence in Self-organizing Multi-agent Systems ( http://arxiv.org/abs/2105.07648v1 )

ライセンス: Link先を確認
Jieting Luo, Beishui Liao, John-Jules Meyer(参考訳) 自己組織化は、外部の制御や影響のない初期の混乱したシステムの一部間の協調行動によって安定したパターンが形成されるプロセスである。 難しい問題を自発的に解決するための内部制御プロセスやメカニズムとしてマルチエージェントシステムにも導入されている。 しかし, 自己組織型マルチエージェントシステムには自律エージェントと局所的な相互作用があるため, 設計する局所エージェントの行動からシステムの挙動を予測することは困難である。 本稿では,エージェントが所定のローカルルールに従うことによって相互に対話する,自己組織型マルチエージェントシステムの論理的枠組みを提案する。 システム全体の行動への貢献に関するエージェントの連立関係は、構造的および意味的観点から推論される。 このような自己組織型マルチエージェントシステムを検証する計算複雑性は、標準ATLの領域に近づいたままである。 次に、我々のフレームワークとグラフ理論を組み合わせることで、システムを異なるレイヤにある異なる連立に分解し、エージェントの完全な貢献をより効率的に検証できます。 その結果,エージェントのフルコントリビューションに関する情報は,エージェントのローカル動作とシステムレベルの挙動の複雑な関係を自己組織型マルチエージェントシステムで理解することができる。 最後に,制約満足度問題をモデル化するためのフレームワークについて述べる。

Self-organization is a process where a stable pattern is formed by the cooperative behavior between parts of an initially disordered system without external control or influence. It has been introduced to multi-agent systems as an internal control process or mechanism to solve difficult problems spontaneously. However, because a self-organizing multi-agent system has autonomous agents and local interactions between them, it is difficult to predict the behavior of the system from the behavior of the local agents we design. This paper proposes a logic-based framework of self-organizing multi-agent systems, where agents interact with each other by following their prescribed local rules. The dependence relation between coalitions of agents regarding their contributions to the global behavior of the system is reasoned about from the structural and semantic perspectives. We show that the computational complexity of verifying such a self-organizing multi-agent system remains close to the domain of standard ATL. We then combine our framework with graph theory to decompose a system into different coalitions located in different layers, which allows us to verify agents' full contributions more efficiently. The resulting information about agents' full contributions allows us to understand the complex link between local agent behavior and system level behavior in a self-organizing multi-agent system. Finally, we show how we can use our framework to model a constraint satisfaction problem.
翻訳日:2021-05-18 14:32:45 公開日:2021-05-17
# DISCO検証:ニューラルネットワーク検証のための入力空間のCOnvexポリトープへの分割

DISCO Verification: Division of Input Space into COnvex polytopes for neural network verification ( http://arxiv.org/abs/2105.07776v1 )

ライセンス: Link先を確認
Julien Girard-Satabin (LIST, TAU), Aymeric Varasse (LIST), Marc Schoenauer (TAU), Guillaume Charpiat (TAU), Zakaria Chihani (LIST)(参考訳) 現代のニューラルネットワークの印象的な結果の一部は、その非線形な振る舞いによるものだ。 残念なことに、この性質は、区分的な線形構造を持つネットワークに制限されたとしても、形式的な検証ツールを適用するのを非常に困難にしている。 しかし、そのようなネットワークは線型であり、従って独立に解析することがより簡単である。 本稿では,複数の線形部分問題に分割することで検証問題を単純化する手法を提案する。 このようなアプローチの実現可能性を評価するため,ニューラルネットワークの実験的解析を行い,線形領域の数を推定し,現在知られている境界と比較する。 また,訓練中の線形領域数を減らすことを目的とした手法の効果について述べる。

The impressive results of modern neural networks partly come from their non linear behaviour. Unfortunately, this property makes it very difficult to apply formal verification tools, even if we restrict ourselves to networks with a piecewise linear structure. However, such networks yields subregions that are linear and thus simpler to analyse independently. In this paper, we propose a method to simplify the verification problem by operating a partitionning into multiple linear subproblems. To evaluate the feasibility of such an approach, we perform an empirical analysis of neural networks to estimate the number of linear regions, and compare them to the bounds currently known. We also present the impact of a technique aiming at reducing the number of linear regions during training.
翻訳日:2021-05-18 14:32:27 公開日:2021-05-17
# ディープハッシュ攻撃を標的としたadversarial networkの試作

Prototype-supervised Adversarial Network for Targeted Attack of Deep Hashing ( http://arxiv.org/abs/2105.07553v1 )

ライセンス: Link先を確認
Xunguang Wang, Zheng Zhang, Baoyuan Wu, Fumin Shen, Guangming Lu(参考訳) 表現学習と高能率計算の強力な能力により、大規模画像検索において大きな進歩を遂げた。 しかし、深いハッシュネットワークは、現実的な安全な問題であるがハッシュベースの検索分野ではほとんど研究されない敵の例に弱い。 本稿では,効率的な標的ハッシュ攻撃のためのフレキシブルな生成アーキテクチャを定式化した,プロトタイプ型教師付き対向ネットワーク(ProS-GAN)を提案する。 我々の知る限りでは、これはディープハッシュネットワークを攻撃する最初の世代ベースの方法である。 提案するフレームワークは一般に,プロトタイプネット,ジェネレータ,識別器という3つの部分から構成される。 具体的には、設計したPrototypeNetがターゲットラベルをセマンティック表現に埋め込み、ターゲットラベルのカテゴリレベル代表としてプロトタイプコードを学ぶ。 さらに、フレキシブルな標的攻撃のために、意味表現と原画像とを共同でジェネレータに供給する。 特に、原型コードは、原型サンプルのハッシュコードと原型コードとのハミング距離を最小化して、原型サンプルを構築するためのジェネレータを監督するために採用される。 さらに、ジェネレータは、相手の例を視覚的にリアルに、意味表現を情報化するように同時に促す判別器に反する。 大規模実験により,提案フレームワークは,最先端の攻撃手法であるディープハッシュに対して,攻撃性能と伝達性を向上した敵例を効率よく生成できることを確認した。 関連コードはhttps://github.com/x unguangwang/ProS-GAN で入手できる。

Due to its powerful capability of representation learning and high-efficiency computation, deep hashing has made significant progress in large-scale image retrieval. However, deep hashing networks are vulnerable to adversarial examples, which is a practical secure problem but seldom studied in hashing-based retrieval field. In this paper, we propose a novel prototype-supervised adversarial network (ProS-GAN), which formulates a flexible generative architecture for efficient and effective targeted hashing attack. To the best of our knowledge, this is the first generation-based method to attack deep hashing networks. Generally, our proposed framework consists of three parts, i.e., a PrototypeNet, a generator, and a discriminator. Specifically, the designed PrototypeNet embeds the target label into the semantic representation and learns the prototype code as the category-level representative of the target label. Moreover, the semantic representation and the original image are jointly fed into the generator for a flexible targeted attack. Particularly, the prototype code is adopted to supervise the generator to construct the targeted adversarial example by minimizing the Hamming distance between the hash code of the adversarial example and the prototype code. Furthermore, the generator is against the discriminator to simultaneously encourage the adversarial examples visually realistic and the semantic representation informative. Extensive experiments verify that the proposed framework can efficiently produce adversarial examples with better targeted attack performance and transferability over state-of-the-art targeted attack methods of deep hashing. The related codes could be available at https://github.com/x unguangwang/ProS-GAN .
翻訳日:2021-05-18 14:29:34 公開日:2021-05-17
# StrobeNet: 人工物体のカテゴリーレベルマルチビュー再構成

StrobeNet: Category-Level Multiview Reconstruction of Articulated Objects ( http://arxiv.org/abs/2105.08016v1 )

ライセンス: Link先を確認
Ge Zhang, Or Litany, Srinath Sridhar, Leonidas Guibas(参考訳) 本研究では,1つ以上のRGB画像から合成対象をカテゴリーレベルの3次元再構成するStrobeNetを提案する。 一般の調音対象のカテゴリ % を再構成することは重要な応用であるが、物体の形状、調音、外観、トポロジーが幅広いため困難である。 ここでは, 対応のない多視点アグリゲーションが可能な標準調音に, 観測結果をマッピングする, カテゴリーレベルの調音正則化というアイデアに基づいて, この問題に対処する。 エンド・ツー・エンドのトレーニング可能なニューラルネットワークは、オブジェクトの1つ以上の未処理画像から特徴量豊富な正準3dポイント雲、調音関節、部分分割を推定する。 これらの中間推定値を用いて、最終的な暗黙的な3次元再構成を行い、大きなベースラインを持つ画像の異なる調音で観察された場合でもオブジェクトを再構成し、再構成された形状のアニメーションを作成する。 異なる対象カテゴリにおける定量的・定性評価は,特により多くのビューを付加すれば高い再構成精度が得られることを示す。

We present StrobeNet, a method for category-level 3D reconstruction of articulating objects from one or more unposed RGB images. Reconstructing general articulating object categories % has important applications, but is challenging since objects can have wide variation in shape, articulation, appearance and topology. We address this by building on the idea of category-level articulation canonicalization -- mapping observations to a canonical articulation which enables correspondence-free multiview aggregation. Our end-to-end trainable neural network estimates feature-enriched canonical 3D point clouds, articulation joints, and part segmentation from one or more unposed images of an object. These intermediate estimates are used to generate a final implicit 3D reconstruction.Our approach reconstructs objects even when they are observed in different articulations in images with large baselines, and animation of reconstructed shapes. Quantitative and qualitative evaluations on different object categories show that our method is able to achieve high reconstruction accuracy, especially as more views are added.
翻訳日:2021-05-18 14:29:10 公開日:2021-05-17
# 博物館来館者におけるオンラインブランドの重要性に関する研究 : 意味的ブランドスコアの応用

Studying the association of online brand importance with museum visitors: An application of the semantic brand score ( http://arxiv.org/abs/2105.07749v1 )

ライセンス: Link先を確認
A. Fronzetti Colladon, F. Grippa, R. Innarella(参考訳) 本稿では,博物館来館者におけるブランドの重要性と成長との関連について考察する。 我々は10年間のオンラインフォーラムの議論を分析し、セマンティックブランドスコア(SBS)を用いて5つの欧州博物館のブランドの重要性を評価した。 我々のナイーブベイズと回帰モデルは、SBSの複合次元のバリエーション(頻度、多様性、接続性)が博物館の訪問者の変化と一致していることを示している。 その結果, 来館者を増やすために, ミュージアムブランドの管理者は, 投稿全体の肯定性や否定性を制御せず, オンライン投稿の量の増加と, ブランドの利用者が生み出す情報の豊かさに着目すべきであることが示唆された。

This paper explores the association between brand importance and growth in museum visitors. We analyzed 10 years of online forum discussions and applied the Semantic Brand Score (SBS) to assess the brand importance of five European Museums. Our Naive Bayes and regression models indicate that variations in the combined dimensions of the SBS (prevalence, diversity and connectivity) are aligned with changes in museum visitors. Results suggest that, in order to attract more visitors, museum brand managers should focus on increasing the volume of online posting and the richness of information generated by users around the brand, rather than controlling for the posts' overall positivity or negativity.
翻訳日:2021-05-18 14:28:51 公開日:2021-05-17
# 改良勾配近似による核遺伝アルゴリズムの高速化

Acceleration of the kernel herding algorithm by improved gradient approximation ( http://arxiv.org/abs/2105.07900v1 )

ライセンス: Link先を確認
Kazuma Tsuji and Ken'ichiro Tanaka(参考訳) カーネル・ハーディング(kernel herding)は、再生核ヒルベルト空間において二次公式を構築するために用いられる方法である。 二次数の数値安定性やノードと重みの有効出力など、カーネル・ハーディングの利点はいくつかあるが、最悪の場合の積分誤差の収束速度は他の二次法と比べて遅い。 この問題に対処するため,カーネルハーディングアルゴリズムの2つの改良版を提案する。 両方のアルゴリズムの基本概念は、負の勾配を頂点方向の正の線形結合で近似することである。 両アルゴリズムの収束と妥当性を理論的に解析し,特に負勾配の近似が収束速度に直接影響を与えることを示した。 さらに,ノード数と計算時間に関して,最悪の積分誤差の加速収束を数値実験により確認した。

Kernel herding is a method used to construct quadrature formulas in a reproducing kernel Hilbert space. Although there are some advantages of kernel herding, such as numerical stability of quadrature and effective outputs of nodes and weights, the convergence speed of worst-case integration error is slow in comparison to other quadrature methods. To address this problem, we propose two improved versions of the kernel herding algorithm. The fundamental concept of both algorithms involves approximating negative gradients with a positive linear combination of vertex directions. We analyzed the convergence and validity of both algorithms theoretically; in particular, we showed that the approximation of negative gradients directly influences the convergence speed. In addition, we confirmed the accelerated convergence of the worst-case integration error with respect to the number of nodes and computational time through numerical experiments.
翻訳日:2021-05-18 14:27:54 公開日:2021-05-17
# RAIDER:強化支援スピアフィッシング検出器

RAIDER: Reinforcement-aided Spear Phishing Detector ( http://arxiv.org/abs/2105.07582v1 )

ライセンス: Link先を確認
Keelan Evans, Alsharif Abuadbba, Mohiuddin Ahmed, Tingmin Wu, Mike Johnstone, Surya Nepal(参考訳) Spear Phishingは、世界中の企業や個人が直面している有害なサイバー攻撃だ。 近年,スピアフィッシングメールの検出に機械学習(ML)技術を用いることが検討されている。 MLベースのソリューションはゼロデイ攻撃に悩まされる可能性がある。 新しい攻撃が出現すると、古いデータに基づいて訓練された分類器はこれらの新しい種類の攻撃を検出できず、その結果、不正確な予測が増加する。 ピアフィッシング検出はまた、受信メールボックス内の送信者数に比例する必要な機能の増加によるスケーラビリティの問題にも直面している。 これは、通常、フィッシングと良性メールのバイナリ分類のみを実行する従来のフィッシング攻撃とは異なる。 そこで我々は,RAIDER: Reinforcement AIded Spear Phishing DetectoRという,これらの問題の可能な解決策を考案した。 異なる種類の攻撃を検出するための最適な特徴を自動的に見つけることができる強化学習に基づく特徴評価システム。 RAIDERは報酬とペナルティシステムを活用することで、自律的な特徴選択を可能にする。 RAIDERはまた、フィッシングメールを表す重要な機能だけを選択し、スピアフィッシング攻撃を検出することで、機能の数を最小限に維持する。 1万1000通以上のeメールと3つの攻撃シナリオを広範囲に評価した結果,強化学習を用いて重要な機能を自動識別することで,既存のmlベースのシステムと比較して必要な機能の寸法を55%削減できることが示唆された。 また、スプーフ攻撃を検出する精度を90%から94%に向上させる。 さらに、RAIDERはKnown Senderという高度な攻撃に対しても、スピアフィッシングメールが偽造された送信者のそれと非常によく似ている、合理的な検出精度を示している。

Spear Phishing is a harmful cyber-attack facing business and individuals worldwide. Considerable research has been conducted recently into the use of Machine Learning (ML) techniques to detect spear-phishing emails. ML-based solutions may suffer from zero-day attacks; unseen attacks unaccounted for in the training data. As new attacks emerge, classifiers trained on older data are unable to detect these new varieties of attacks resulting in increasingly inaccurate predictions. Spear Phishing detection also faces scalability challenges due to the growth of the required features which is proportional to the number of the senders within a receiver mailbox. This differs from traditional phishing attacks which typically perform only a binary classification between phishing and benign emails. Therefore, we devise a possible solution to these problems, named RAIDER: Reinforcement AIded Spear Phishing DEtectoR. A reinforcement-learni ng based feature evaluation system that can automatically find the optimum features for detecting different types of attacks. By leveraging a reward and penalty system, RAIDER allows for autonomous features selection. RAIDER also keeps the number of features to a minimum by selecting only the significant features to represent phishing emails and detect spear-phishing attacks. After extensive evaluation of RAIDER over 11,000 emails and across 3 attack scenarios, our results suggest that using reinforcement learning to automatically identify the significant features could reduce the dimensions of the required features by 55% in comparison to existing ML-based systems. It also improves the accuracy of detecting spoofing attacks by 4% from 90% to 94%. In addition, RAIDER demonstrates reasonable detection accuracy even against a sophisticated attack named Known Sender in which spear-phishing emails greatly resemble those of the impersonated sender.
翻訳日:2021-05-18 14:25:10 公開日:2021-05-17
# 強化学習に基づく汎用アイテムセットマイニング

Generic Itemset Mining Based on Reinforcement Learning ( http://arxiv.org/abs/2105.07753v1 )

ライセンス: Link先を確認
Kazuma Fujioka and Kimiaki Shirahama(参考訳) アイテムセットマイニングの最大の問題は、ユーザが異なるタイプのアイテムセットを抽出するたびに、データ構造やアルゴリズムを開発する必要があることである。 これを解決するために,強化学習(GIM-RL)に基づくジェネリックアイテムセットマイニング(Generic Itemset Mining)と呼ばれる手法を提案する。 GIM-RLでは、データセットから対象のアイテムセットを抽出する反復的なステップを定式化する。 各ステップにおいて、エージェントは、現在のアイテムセットにアイテムを追加または削除するアクションを実行し、そのアクションから生じるアイテムセットがターゲットタイプにどの程度関連しているかを表す報酬を環境から取得する。 様々なアクションによって様々な報酬が得られている数多くの試行錯誤のステップを通じて、エージェントは累積報酬を最大化するように訓練され、できるだけ多くのターゲットタイプのアイテムセットを形成するための最適なアクションポリシーを取得する。 このフレームワークでは、任意の種類のアイテムセットを抽出するエージェントを、そのタイプに適した報酬を定義できる限りトレーニングすることができる。 高ユーティリティアイテムセットのマイニング、頻繁なアイテムセット、および関連ルールに関する広範な実験は、GIM-RLの一般的な効果と1つの顕著な可能性(エージェント転送)を示している。 gim-rlが学習に基づくアイテムセットマイニングへの新たな研究方向を開くことを願っている。

One of the biggest problems in itemset mining is the requirement of developing a data structure or algorithm, every time a user wants to extract a different type of itemsets. To overcome this, we propose a method, called Generic Itemset Mining based on Reinforcement Learning (GIM-RL), that offers a unified framework to train an agent for extracting any type of itemsets. In GIM-RL, the environment formulates iterative steps of extracting a target type of itemsets from a dataset. At each step, an agent performs an action to add or remove an item to or from the current itemset, and then obtains from the environment a reward that represents how relevant the itemset resulting from the action is to the target type. Through numerous trial-and-error steps where various rewards are obtained by diverse actions, the agent is trained to maximise cumulative rewards so that it acquires the optimal action policy for forming as many itemsets of the target type as possible. In this framework, an agent for extracting any type of itemsets can be trained as long as a reward suitable for the type can be defined. The extensive experiments on mining high utility itemsets, frequent itemsets and association rules show the general effectiveness and one remarkable potential (agent transfer) of GIM-RL. We hope that GIM-RL opens a new research direction towards learning-based itemset mining.
翻訳日:2021-05-18 14:24:43 公開日:2021-05-17
# データ拡張によるInstaHideの核融合攻撃

A Fusion-Denoising Attack on InstaHide with Data Augmentation ( http://arxiv.org/abs/2105.07754v1 )

ライセンス: Link先を確認
Xinjian Luo, Xiaokui Xiao, Yuncheng Wu, Juncheng Liu, Beng Chin Ooi(参考訳) InstaHideは、共同学習においてプライベートトレーニングイメージを保護する最先端のメカニズムである。 複数のプライベートイメージを混ぜ合わせて修正することで、トレーニングの正確さを著しく損なうことなく、彼らの視覚機能はもはや裸眼では区別できないようにします。 しかし、近年の研究ではCarliniらもそうである。 暗号化された画像間の相関を利用して、instahideが生成した暗号化データセットからプライベートイメージを再構築できることを示す。 それにもかかわらず、carliniらはal。 攻撃は、各プライベートイメージが他のプライベートイメージと混在する場合、変更することなく使用されるという仮定に依存する。 結果として、InstaHideにデータ拡張を組み込むことで、簡単に倒すことができる。 InstaHideはデータ拡張でセキュアか? 本稿では,InstaHideの出力からプライベートイメージを復元する攻撃を,データ拡張があっても行うことで,上記の問題に対する否定的な回答を提供する。 この攻撃の基本的な考え方は、同一のプライベート画像に対応する可能性のある暗号化画像の識別に比較ネットワークを使用し、暗号化画像からプライベート画像を復元するためのfusion-denoisingネットワークを使用することである。 大規模な実験では、カルリーニらと比較して提案された攻撃の有効性が示されている。 攻撃だ

InstaHide is a state-of-the-art mechanism for protecting private training images in collaborative learning. It works by mixing multiple private images and modifying them in such a way that their visual features are no longer distinguishable to the naked eye, without significantly degrading the accuracy of training. In recent work, however, Carlini et al. show that it is possible to reconstruct private images from the encrypted dataset generated by InstaHide, by exploiting the correlations among the encrypted images. Nevertheless, Carlini et al.'s attack relies on the assumption that each private image is used without modification when mixing up with other private images. As a consequence, it could be easily defeated by incorporating data augmentation into InstaHide. This leads to a natural question: is InstaHide with data augmentation secure? This paper provides a negative answer to the above question, by present an attack for recovering private images from the outputs of InstaHide even when data augmentation is present. The basic idea of our attack is to use a comparative network to identify encrypted images that are likely to correspond to the same private image, and then employ a fusion-denoising network for restoring the private image from the encrypted ones, taking into account the effects of data augmentation. Extensive experiments demonstrate the effectiveness of the proposed attack in comparison to Carlini et al.'s attack.
翻訳日:2021-05-18 14:24:19 公開日:2021-05-17
# サーバレス機械学習トレーニングのデミスティフィケーションに向けて

Towards Demystifying Serverless Machine Learning Training ( http://arxiv.org/abs/2105.07806v1 )

ライセンス: Link先を確認
Jiawei Jiang, Shaoduo Gan, Yue Liu, Fanlin Wang, Gustavo Alonso, Ana Klimovic, Ankit Singla, Wentao Wu, Ce Zhang(参考訳) サーバレス(FaaS)の魅力は、ETLやクエリ処理、マシンラーニング(ML)といったデータ集約型アプリケーションでそれを使用する方法への関心が高まっている。 サーバレスインフラストラクチャ(AWS Lambdaなど)上で大規模なMLモデルをトレーニングするためのシステムはいくつか存在するが、パフォーマンスと"サーバレス"インフラストラクチャ(IaaS)に対する相対的なアドバンテージの観点からは、決定的な結果が得られていない。 本稿では、FaaSとIaaSを用いた分散MLトレーニングの体系的比較研究について述べる。 本稿では、最適化アルゴリズムや同期プロトコルなどの設計選択をカバーし、FaaSとIaaSの公正な比較を可能にするプラットフォームであるLambdaMLを実装した設計空間を提案する。 LambdaMLを用いた実験結果と、サーバレスインフラストラクチャを選択する際に考慮すべきコスト/パフォーマンストレードオフをキャプチャする分析モデルをさらに発展させる。 結果は、効率的な(すなわち、削減された)通信モデルと素早く収束するモデルに対してのみ、mlトレーニングがサーバーレスで効果を発揮することを示している。 一般的には、FaaSはずっと高速ですが、IaaSよりもはるかに安くはありません。

The appeal of serverless (FaaS) has triggered a growing interest on how to use it in data-intensive applications such as ETL, query processing, or machine learning (ML). Several systems exist for training large-scale ML models on top of serverless infrastructures (e.g., AWS Lambda) but with inconclusive results in terms of their performance and relative advantage over "serverful" infrastructures (IaaS). In this paper we present a systematic, comparative study of distributed ML training over FaaS and IaaS. We present a design space covering design choices such as optimization algorithms and synchronization protocols, and implement a platform, LambdaML, that enables a fair comparison between FaaS and IaaS. We present experimental results using LambdaML, and further develop an analytic model to capture cost/performance tradeoffs that must be considered when opting for a serverless infrastructure. Our results indicate that ML training pays off in serverless only for models with efficient (i.e., reduced) communication and that quickly converge. In general, FaaS can be much faster but it is never significantly cheaper than IaaS.
翻訳日:2021-05-18 14:23:59 公開日:2021-05-17
# 分散訓練のための圧縮通信:適応的手法とシステム

Compressed Communication for Distributed Training: Adaptive Methods and System ( http://arxiv.org/abs/2105.07829v1 )

ライセンス: Link先を確認
Yuchen Zhong, Cong Xie, Shuai Zheng, Haibin Lin(参考訳) 通信オーバーヘッドは、分散機械学習システムのスケーラビリティを著しく妨げます。 近年,分散トレーニングの通信オーバーヘッドを軽減するため,勾配圧縮の利用に対する関心が高まっている。 しかし、適応勾配法に勾配圧縮を適用することについてはほとんど理解されていない。 さらに、パフォーマンス上の利点は、不要な圧縮オーバーヘッドによってしばしば制限される。 本稿ではまず,勾配圧縮を用いた適応勾配法を提案する。 提案手法は非凸問題に対して$\mathcal{O}(1/\sqrt{T})$の収束率を持つことを示す。 さらに,2方向圧縮のためのBytePS-Compressと呼ばれるスケーラブルなシステムを開発し,労働者とパラメータサーバの双方の方向に勾配を圧縮する。 BytePS-CompressはCPUの圧縮と圧縮をパイプライン化し、高い並列性を実現する。 ResNet50, VGG16, BERT-baseのトレーニング時間を5.0%, 58.1%, 23.3%改善した。 さらに、BERTモデルのトレーニングでは、混合精度トレーニングと比較して333倍の圧縮率が得られる。

Communication overhead severely hinders the scalability of distributed machine learning systems. Recently, there has been a growing interest in using gradient compression to reduce the communication overhead of the distributed training. However, there is little understanding of applying gradient compression to adaptive gradient methods. Moreover, its performance benefits are often limited by the non-negligible compression overhead. In this paper, we first introduce a novel adaptive gradient method with gradient compression. We show that the proposed method has a convergence rate of $\mathcal{O}(1/\sqrt{T})$ for non-convex problems. In addition, we develop a scalable system called BytePS-Compress for two-way compression, where the gradients are compressed in both directions between workers and parameter servers. BytePS-Compress pipelines the compression and decompression on CPUs and achieves a high degree of parallelism. Empirical evaluations show that we improve the training time of ResNet50, VGG16, and BERT-base by 5.0%, 58.1%, 23.3%, respectively, without any accuracy loss with 25 Gb/s networking. Furthermore, for training the BERT models, we achieve a compression rate of 333x compared to the mixed-precision training.
翻訳日:2021-05-18 14:23:40 公開日:2021-05-17
# boombox:音響振動からの視覚再構成

The Boombox: Visual Reconstruction from Acoustic Vibrations ( http://arxiv.org/abs/2105.08052v1 )

ライセンス: Link先を確認
Boyuan Chen, Mia Chiquier, Hod Lipson, Carl Vondrick(参考訳) 本稿では,音波振動を利用して内部の映像を再構成する容器「The Boombox」を紹介する。 物体が容器と相互作用すると、小さな音響振動が発生する。 正確な振動特性は、箱と物体の物理的特性に依存する。 視覚構造を予測するために,この偶発的信号の使い方を実証する。 学習後、カメラが箱の中を見ることができない場合でも、我々のアプローチは有効です。 低コストで低消費電力のコンタクトマイクを用いて振動を検知するが、マルチモーダルデータから学習することで、安価な音響センサをリッチな視覚センサに変換できることを示す。 コンテナのユビキタス性のため、認識機能をコンテナに統合することで、人間とコンピュータのインタラクションとロボット工学における新たな応用が可能になると考えています。 プロジェクトのwebサイトはboombox.cs.columbia. eduです。

We introduce The Boombox, a container that uses acoustic vibrations to reconstruct an image of its inside contents. When an object interacts with the container, they produce small acoustic vibrations. The exact vibration characteristics depend on the physical properties of the box and the object. We demonstrate how to use this incidental signal in order to predict visual structure. After learning, our approach remains effective even when a camera cannot view inside the box. Although we use low-cost and low-power contact microphones to detect the vibrations, our results show that learning from multi-modal data enables us to transform cheap acoustic sensors into rich visual sensors. Due to the ubiquity of containers, we believe integrating perception capabilities into them will enable new applications in human-computer interaction and robotics. Our project website is at: boombox.cs.columbia. edu
翻訳日:2021-05-18 14:21:58 公開日:2021-05-17
# 自己教師付き表現アンサンブルによるcovid-19うつ分類の検討

Exploring Self-Supervised Representation Ensembles for COVID-19 Cough Classification ( http://arxiv.org/abs/2105.07566v1 )

ライセンス: Link先を確認
Hao Xue and Flora D. Salim(参考訳) 新型コロナウイルス(covid-19)の検出と分類に深層学習モデルで訓練されたスマートフォン型呼吸音が最近普及している。 特に、関連する医療物資、熟練労働者、設備が限られている農村地域では、対人検査の必要がなくなる。 しかし、既存の音響に基づく診断手法は、十分に教師された方法で訓練されている。 より容易に取得できる非ラベルの呼吸データを活用する新しい方法を見つけることが重要である。 本稿では,新型コロナウイルスのコークス分類のための自己教師付き学習支援フレームワークを提案する。 非ラベルデータでトランスフォーマベースの特徴エンコーダを訓練するために、コントラストプレトレーニングフェーズを導入する。 具体的には,呼吸音のロバスト表現を学習するためのランダムマスキング機構を設計する。 事前訓練された特徴エンコーダは下流フェーズで微調整され、cough分類を行う。 また,下流部ではランダムマスキング率の異なる異なるアンサンブルが検討されている。 広汎な評価により,提案したコントラスト事前学習,ランダムマスキング機構,アンサンブルアーキテクチャが,コークス分類性能の向上に寄与することを示した。

The usage of smartphone-collected respiratory sound, trained with deep learning models, for detecting and classifying COVID-19 becomes popular recently. It removes the need for in-person testing procedures especially for rural regions where related medical supplies, experienced workers, and equipment are limited. However, existing sound-based diagnostic approaches are trained in a fully supervised manner, which requires large scale well-labelled data. It is critical to discover new methods to leverage unlabelled respiratory data, which can be obtained more easily. In this paper, we propose a novel self-supervised learning enabled framework for COVID-19 cough classification. A contrastive pre-training phase is introduced to train a Transformer-based feature encoder with unlabelled data. Specifically, we design a random masking mechanism to learn robust representations of respiratory sounds. The pre-trained feature encoder is then fine-tuned in the downstream phase to perform cough classification. In addition, different ensembles with varied random masking rates are also explored in the downstream phase. Through extensive evaluations, we demonstrate that the proposed contrastive pre-training, the random masking mechanism, and the ensemble architecture contribute to improving cough classification performance.
翻訳日:2021-05-18 14:20:06 公開日:2021-05-17
# ガウス過程をもつ確率的ロバストな線形二次レギュレータ

Probabilistic robust linear quadratic regulators with Gaussian processes ( http://arxiv.org/abs/2105.07668v1 )

ライセンス: Link先を確認
Alexander von Rohr, Matthias Neumann-Brosig, Sebastian Trimpe(参考訳) ガウス過程(GP)のような確率モデルは、未知の力学系をデータから学習する強力なツールであり、その後制御設計に使用される。 学習ベースの制御は要求されるアプリケーションにおいて優れたパフォーマンスをもたらす可能性があるが、不確実性に対する堅牢性は依然として重要な課題である。 ベイズ法は学習結果の不確実性を定量化するので、これらの不確実性を堅牢な設計に組み込むのは当然である。 最悪の場合の見積を考慮に入れるほとんどの最先端のアプローチとは対照的に,本手法の制御器合成における後方分布を利用する。 その結果は、よりインフォームドで、パフォーマンスと堅牢性の間のより効率的なトレードオフとなる。 本稿では,確率的安定性のマージンに対してロバストな制御を行う線形化gpダイナミクスのための新しい制御器合成法を提案する。 この定式化は,最近提案された線形二次制御合成アルゴリズムに基づいて,システムの安定性に対する信頼性境界の形で確率論的ロバスト性を保証する。

Probabilistic models such as Gaussian processes (GPs) are powerful tools to learn unknown dynamical systems from data for subsequent use in control design. While learning-based control has the potential to yield superior performance in demanding applications, robustness to uncertainty remains an important challenge. Since Bayesian methods quantify uncertainty of the learning results, it is natural to incorporate these uncertainties into a robust design. In contrast to most state-of-the-art approaches that consider worst-case estimates, we leverage the learning method's posterior distribution in the controller synthesis. The result is a more informed and, thus, more efficient trade-off between performance and robustness. We present a novel controller synthesis for linearized GP dynamics that yields robust controllers with respect to a probabilistic stability margin. The formulation is based on a recently proposed algorithm for linear quadratic control synthesis, which we extend by giving probabilistic robustness guarantees in the form of credibility bounds for the system's stability.Comparison s to existing methods based on worst-case and certainty-equivalenc e designs reveal superior performance and robustness properties of the proposed method.
翻訳日:2021-05-18 14:19:50 公開日:2021-05-17
# 近似ベイズ入力推論による確率制御

Stochastic Control through Approximate Bayesian Input Inference ( http://arxiv.org/abs/2105.07693v1 )

ライセンス: Link先を確認
Joe Watson, Hany Abdulsamad, Rolf Findeisen and Jan Peters(参考訳) 不確実性の下での最適制御は、確率的最適化問題に対するトラクタブルな解の生成が困難であるため、制御において一般的な課題である。 入力推定の1つとして制御問題を説明することにより、原理的かつ実用的な方法で統計近似を扱うために高度な近似推論技術が利用できる。 ガウス集合を解析した結果,数種類の確率的制御法が可能な解法を示し,非線形シミュレートタスクの一般的なベースラインよりも優れていることがわかった。 我々は、この推論定式化と確率的最適制御の以前のアプローチを関連づけた接続を描き、この推論が統計的性質からもたらすいくつかの利点を概説する。

Optimal control under uncertainty is a prevailing challenge in control, due to the difficulty in producing tractable solutions for the stochastic optimization problem. By framing the control problem as one of input estimation, advanced approximate inference techniques can be used to handle the statistical approximations in a principled and practical manner. Analyzing the Gaussian setting, we present a solver capable of several stochastic control methods, and was found to be superior to popular baselines on nonlinear simulated tasks. We draw connections that relate this inference formulation to previous approaches for stochastic optimal control, and outline several advantages that this inference view brings due to its statistical nature.
翻訳日:2021-05-18 14:19:29 公開日:2021-05-17
# 離散選択に結合する選択集合

Choice Set Confounding in Discrete Choice ( http://arxiv.org/abs/2105.07959v1 )

ライセンス: Link先を確認
Kiran Tomlinson, Johan Ugander, and Austin R. Benson(参考訳) 選好学習における標準的な方法は、個別選択モデルのパラメータを、個別選択モデル(選択集合)から個人が作成した選択(選択)のデータから推定することを含む。 個々の好みのモデルが多数存在するが、既存の学習方法は、選択セットの割り当てがデータに与える影響を無視する。 例えば、オンライン小売業者から製品を選択する消費者には、消費者の好みに関する情報に依存するレコメンデーションシステムからの選択肢がしばしば提示される。 これらの割当機構を無視して、選択モデルを誤解して、選択セットを同一視する現象である選好の偏りのある推定を行うことができる。 この問題に対処するために,因果推論から個別選択設定へ手法を適用する。 逆確率重み付けおよび/または回帰制御のために選択者の共変量を使い、特定の仮定の下で結合された選択集合の存在下で個々の選好を正確に回復する。 このような共変数が使用できない場合や不適切な場合、予測を改善するために構造化選択集合割当を利用する手法を開発する。 提案手法が実世界の選択データに与える影響を実証し,例えば,ホテルの予約や通勤における選択が,合理的なユーティリティ・最大化とより整合していることを示す。

Standard methods in preference learning involve estimating the parameters of discrete choice models from data of selections (choices) made by individuals from a discrete set of alternatives (the choice set). While there are many models for individual preferences, existing learning methods overlook how choice set assignment affects the data. Often, the choice set itself is influenced by an individual's preferences; for instance, a consumer choosing a product from an online retailer is often presented with options from a recommender system that depend on information about the consumer's preferences. Ignoring these assignment mechanisms can mislead choice models into making biased estimates of preferences, a phenomenon that we call choice set confounding; we demonstrate the presence of such confounding in widely-used choice datasets. To address this issue, we adapt methods from causal inference to the discrete choice setting. We use covariates of the chooser for inverse probability weighting and/or regression controls, accurately recovering individual preferences in the presence of choice set confounding under certain assumptions. When such covariates are unavailable or inadequate, we develop methods that take advantage of structured choice set assignment to improve prediction. We demonstrate the effectiveness of our methods on real-world choice data, showing, for example, that accounting for choice set confounding makes choices observed in hotel booking and commute transportation more consistent with rational utility-maximization .
翻訳日:2021-05-18 14:19:18 公開日:2021-05-17
# 分散SGDのネットワークトポロジ依存性を高めるデータ不均一性の影響の除去

Removing Data Heterogeneity Influence Enhances Network Topology Dependence of Decentralized SGD ( http://arxiv.org/abs/2105.08023v1 )

ライセンス: Link先を確認
Kun Yuan and Sulaiman A. Alghunaim(参考訳) 我々は,局所コスト関数を持つエージェントのネットワークが協調して,グローバル平均コストの最小化を求める分散確率最適化問題を考える。 この問題に対して広く研究されている分散化アルゴリズムはD-SGDであり、各ノードは確率勾配降下ステップを適用し、その推定値をその近傍で平均化する。 D-SGDは、効率的なシングルイテレーション通信により魅力的であり、(ネットワークサイズの観点から)収束の線形高速化を実現することができる。 しかし、D-SGDはネットワークトポロジーに非常に敏感である。 滑らかな目的関数に対しては、d-sgd の過渡ステージ(アルゴリズムが線形速度ステージに到達する速度を測定する)は、強凸および一般に凸コスト関数に対して $o(n/(1-\beta)^2)$ と $o(n^3/(1-\beta)^4)$ の順であり、それぞれ 1-\beta \in (0,1)$ は、大きなネットワークに対して$0$ に近づく位相依存量である。 したがって、D-SGDは、大小のネットワークの収束が遅い。 本研究では,D$^2$/Exact-diffusionアルゴリズムの非漸近収束特性について検討する。 ノード間のデータ不均一性の影響を排除することにより、D$^2$/Exact-diffusionは、それぞれ強い凸関数と一般に凸コスト関数に対して$O(n/(1-\beta))$と$O(n^3/(1-\beta)^2)$の順に拡張された過渡段階を持つことが示される。 さらに,D-SGDの過渡期を,D$^2$/Exact-diffusionの強凸条件における過渡期と一致する均一なデータ分布の下で下界を与える。 これらの結果は,D-SGDのネットワークトポロジ依存性を改善できることを示す。 既存の分散アルゴリズムと比べ、D$^2$/Exact-diffusionはネットワークトポロジーに最も敏感である。

We consider decentralized stochastic optimization problems where a network of agents each owns a local cost function cooperate to find a minimizer of the global-averaged cost. A widely studied decentralized algorithm for this problem is D-SGD in which each node applies a stochastic gradient descent step, then averages its estimate with its neighbors. D-SGD is attractive due to its efficient single-iteration communication and can achieve linear speedup in convergence (in terms of the network size). However, D-SGD is very sensitive to the network topology. For smooth objective functions, the transient stage (which measures how fast the algorithm can reach the linear speedup stage) of D-SGD is on the order of $O(n/(1-\beta)^2)$ and $O(n^3/(1-\beta)^4)$ for strongly convex and generally convex cost functions, respectively, where $1-\beta \in (0,1)$ is a topology-dependent quantity that approaches $0$ for a large and sparse network. Hence, D-SGD suffers from slow convergence for large and sparse networks. In this work, we study the non-asymptotic convergence property of the D$^2$/Exact-diffusion algorithm. By eliminating the influence of data heterogeneity between nodes, D$^2$/Exact-diffusion is shown to have an enhanced transient stage that are on the order of $O(n/(1-\beta))$ and $O(n^3/(1-\beta)^2)$ for strongly convex and generally convex cost functions, respectively. Moreover, we provide a lower bound of the transient stage of D-SGD under homogeneous data distributions, which coincides with the transient stage of D$^2$/Exact-diffusion in the strongly-convex setting. These results show that removing the influence of data heterogeneity can ameliorate the network topology dependence of D-SGD. Compared with existing decentralized algorithms bounds, D$^2$/Exact-diffusion is least sensitive to network topology.
翻訳日:2021-05-18 14:18:55 公開日:2021-05-17
# 収束性とロバスト性を考慮した逆学習のためのSDEフレームワーク

An SDE Framework for Adversarial Training, with Convergence and Robustness Analysis ( http://arxiv.org/abs/2105.08037v1 )

ライセンス: Link先を確認
Haotian Gu, Xin Guo(参考訳) adversarial trainingは、データポイントでのadversarial perturbationに対するディープニューラルネットワークの最も効果的な防御の1つとして、大きな人気を集めている。 その結果、敵の訓練の収束と堅牢性を理解する研究の関心が高まった。 本稿では,確率的勾配降下を交互に行う対向訓練のmin-maxゲームについて考察する。 学習過程を連続時間確率微分方程式(SDE)で近似する。 特に、誤差境界および収束解析が確立される。 このSDEフレームワークは、対向学習と確率勾配降下の直接比較を可能にし、(新しい)勾配-フローの観点から、対向訓練の頑健さを解析的に確認する。 この解析は数値研究によって裏付けられる。 アルゴリズム設計およびパラメータチューニングのためのSDEフレームワークの汎用性を実証するため、学習率調整のための確率的制御問題を定式化し、訓練損失の点から一定の学習率に対する適応学習率の利点を数値実験により示す。

Adversarial training has gained great popularity as one of the most effective defenses for deep neural networks against adversarial perturbations on data points. Consequently, research interests have grown in understanding the convergence and robustness of adversarial training. This paper considers the min-max game of adversarial training by alternating stochastic gradient descent. It approximates the training process with a continuous-time stochastic-different ial-equation (SDE). In particular, the error bound and convergence analysis is established. This SDE framework allows direct comparison between adversarial training and stochastic gradient descent; and confirms analytically the robustness of adversarial training from a (new) gradient-flow viewpoint. This analysis is then corroborated via numerical studies. To demonstrate the versatility of this SDE framework for algorithm design and parameter tuning, a stochastic control problem is formulated for learning rate adjustment, where the advantage of adaptive learning rate over fixed learning rate in terms of training loss is demonstrated through numerical experiments.
翻訳日:2021-05-18 14:18:14 公開日:2021-05-17
# (参考訳) 物理人工知能:次世代人工知能の概念拡張 [全文訳有]

Physical Artificial Intelligence: The Concept Expansion of Next-Generation Artificial Intelligence ( http://arxiv.org/abs/2105.06564v2 )

ライセンス: CC BY 4.0
Yingbo Li, Yucong Duan, Anamaria-Beatrice Spulber, Haoyang Che, Zakaria Maamar, Zhao Li, Chen Yang, Yu lei(参考訳) 人工知能は我々の社会にとって成長の触媒であり、すべての産業を基本技術とみなしている。 しかし、その開発は、他のセンサーから生成された、収集されたデータに依存する信号処理領域に限られている。 近年、デジタル人工知能と物理人工知能の概念が登場しており、これは人工知能の理論的発展における大きなステップであると考えられる。 本稿では,身体的人工的知性の概念を探求し,統合的身体的人工的知性と分散的身体的人工的知性という2つのサブドメインを提案する。 この論文は、物理学的芸術的知性の動向とガバナンスについても検討する。

Artificial Intelligence has been a growth catalyst to our society and is cosidered across all idustries as a fundamental technology. However, its development has been limited to the signal processing domain that relies on the generated and collected data from other sensors. In recent research, concepts of Digital Artificial Intelligence and Physicial Artifical Intelligence have emerged and this can be considered a big step in the theoretical development of Artifical Intelligence. In this paper we explore the concept of Physicial Artifical Intelligence and propose two subdomains: Integrated Physicial Artifical Intelligence and Distributed Physicial Artifical Intelligence. The paper will also examine the trend and governance of Physicial Artifical Intelligence.
翻訳日:2021-05-18 12:17:21 公開日:2021-05-17
# (参考訳) ベイジアン階層的混合クラスタリングの後方規則化 [全文訳有]

Posterior Regularisation on Bayesian Hierarchical Mixture Clustering ( http://arxiv.org/abs/2105.06903v2 )

ライセンス: CC BY 4.0
Weipeng Huang, Tin Lok James Ng, Nishma Laitonjam, Neil J. Hurley(参考訳) ベイジアン階層混合クラスタリング(BHMC)モデルを用いた最近の推論フレームワークについて検討した。 このフレームワークは、元のモデルの弱点を克服するためにベイズモデルに余分な制約を加える簡単な方法を促進する。 ベイズモデルのパラメータの探索空間を、発見された解の特徴に一定の制約を課す形式主義によって狭める。 本稿では,クラスタの分離を強化するために,階層のすべてのレベルにおいてノードに最大値制約を課すために,後続正規化を適用した。 本稿では,このフレームワークがBHMCとどのように統合されているかを示す。

We study a recent inferential framework, named posterior regularisation, on the Bayesian hierarchical mixture clustering (BHMC) model. This framework facilitates a simple way to impose extra constraints on a Bayesian model to overcome some weakness of the original model. It narrows the search space of the parameters of the Bayesian model through a formalism that imposes certain constraints on the features of the found solutions. In this paper, in order to enhance the separation of clusters, we apply posterior regularisation to impose max-margin constraints on the nodes at every level of the hierarchy. This paper shows how the framework integrates with BHMC and achieves the expected improvements over the original Bayesian model.
翻訳日:2021-05-18 12:08:53 公開日:2021-05-17
# 最適ブートストラップと後方誘導による原理探索

Principled Exploration via Optimistic Bootstrapping and Backward Induction ( http://arxiv.org/abs/2105.06022v2 )

ライセンス: Link先を確認
Chenjia Bai, Lingxiao Wang, Lei Han, Jianye Hao, Animesh Garg, Peng Liu, Zhaoran Wang(参考訳) 高い信頼度境界(UCB)をボーナスとして値関数に組み込むことが、有効に探索するための原則的なアプローチである。 しかし、UTBは線形および表の設定を扱うよう指定されており、Deep Reinforcement Learning (DRL)と互換性がない。 本稿では,楽観的ブートストラップと逆誘導(ob2i)によるdrlの原理的探索法を提案する。 OB2IはDRLの非パラメトリックブートストラップを通じて汎用的なUCB結合を構築する。 UCB結合は、楽観的な探索のための状態-作用対の疫学的な不確実性を推定する。 提案する UCB-bonus と LSVI-UCB の理論的接続を線形に構築する。 我々は,理論上の利点を生かしてサンプル効率を実証的に向上させるエピソジックな後方更新を通じて,将来的な不確実性を時間的一貫性を持って伝播する。 MNIST迷路とアタリスイートの実験では、OB2Iがいくつかの最先端探査手法より優れていることが示唆された。

One principled approach for provably efficient exploration is incorporating the upper confidence bound (UCB) into the value function as a bonus. However, UCB is specified to deal with linear and tabular settings and is incompatible with Deep Reinforcement Learning (DRL). In this paper, we propose a principled exploration method for DRL through Optimistic Bootstrapping and Backward Induction (OB2I). OB2I constructs a general-purpose UCB-bonus through non-parametric bootstrap in DRL. The UCB-bonus estimates the epistemic uncertainty of state-action pairs for optimistic exploration. We build theoretical connections between the proposed UCB-bonus and the LSVI-UCB in a linear setting. We propagate future uncertainty in a time-consistent manner through episodic backward update, which exploits the theoretical advantage and empirically improves the sample-efficiency. Our experiments in the MNIST maze and Atari suite suggest that OB2I outperforms several state-of-the-art exploration approaches.
翻訳日:2021-05-18 11:50:22 公開日:2021-05-17
# 強化学習による順序付けに基づく因果発見

Ordering-Based Causal Discovery with Reinforcement Learning ( http://arxiv.org/abs/2105.06631v2 )

ライセンス: Link先を確認
Xiaoqiang Wang, Yali Du, Shengyu Zhu, Liangjun Ke, Zhitang Chen, Jianye Hao and Jun Wang(参考訳) 多くの経験的科学において、変数の集合間の因果関係を発見することは長年の疑問である。 近年,強化学習 (rl) は観測データから因果発見に有望な結果を得ている。 しかし、有向グラフの空間を探索し、暗黙の罰則によって非巡回性を強制することは非効率であり、既存のRL法を小さな問題に制限する傾向がある。 本研究では、RLを順序付けに基づくパラダイムに組み込むことにより、因果発見のための新しいRLベースのアプローチを提案する。 具体的には、注文探索問題を多段階マルコフ決定プロセスとして定式化し、エンコーダデコーダアーキテクチャを用いて注文生成プロセスを実装し、最後にRLを用いて提案したモデルの最適化を行う。 生成された順序は変数選択を使用して処理され、最終的な因果グラフを得る。 提案手法の一貫性と計算複雑性を分析し,事前学習モデルを用いて学習を高速化できることを実証的に示す。 合成データと実データの両方を用いた実験結果から,提案手法は既存のRL法よりも性能が向上していることがわかった。

It is a long-standing question to discover causal relations among a set of variables in many empirical sciences. Recently, Reinforcement Learning (RL) has achieved promising results in causal discovery from observational data. However, searching the space of directed graphs and enforcing acyclicity by implicit penalties tend to be inefficient and restrict the existing RL-based method to small scale problems. In this work, we propose a novel RL-based approach for causal discovery, by incorporating RL into the ordering-based paradigm. Specifically, we formulate the ordering search problem as a multi-step Markov decision process, implement the ordering generating process with an encoder-decoder architecture, and finally use RL to optimize the proposed model based on the reward mechanisms designed for~each ordering. A generated ordering would then be processed using variable selection to obtain the final causal graph. We analyze the consistency and computational complexity of the proposed method, and empirically show that a pretrained model can be exploited to accelerate training. Experimental results on both synthetic and real data sets shows that the proposed method achieves a much improved performance over existing RL-based method.
翻訳日:2021-05-18 11:50:07 公開日:2021-05-17