このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210207となっている論文です。

PDF登録状況(公開日: 20210207)

TitleAuthorsAbstract論文公表日・翻訳日
# 3次元物体点雲の相補的理解のための幾何差分表現の学習

Learning Geometry-Disentangle d Representation for Complementary Understanding of 3D Object Point Cloud ( http://arxiv.org/abs/2012.10921v3 )

ライセンス: Link先を確認
Mutian Xu, Junhao Zhang, Zhipeng Zhou, Mingye Xu, Xiaojuan Qi, Yu Qiao(参考訳) 2次元画像処理では、エッジとスムーズな部分をそれぞれ記述するために、高周波数成分と低周波成分に分解する試みがある。 同様に、3dオブジェクトの輪郭と平坦な面積、例えば椅子の境界や座席面積は異なるが相補的なジオメトリも記述している。 しかし、すべての点や局所パッチを等しく扱うことで点雲を理解する、以前のディープネットワークではそのような調査は失われる。 そこで本研究では,GDANet(Geometry-Dis entangled Attention Network)を提案する。 GDANetはGeometry-Disentangle Moduleを導入し、点雲を3Dオブジェクトの輪郭と平らな部分に動的に分散させる。 そしてGDANetはSharp-Gentle Complementary Attention Moduleを利用して、シャープなコンポーネントと穏やかなコンポーネントの機能を2つの全体的な表現として扱い、それぞれが元のポイントクラウド機能と融合しながら異なる注意を払っている。 このようにして, 局所情報を補うために, 2つの異なる不連続成分から全体的かつ相補的な3次元幾何学的意味論を捉え, 洗練する。 3Dオブジェクトの分類とセグメンテーションのベンチマークに関する大規模な実験は、GDANetがより少ないパラメータで最先端の状態を達成することを示した。 コードはhttps://github.com/m utianxu/gdanet。

In 2D image processing, some attempts decompose images into high and low frequency components for describing edge and smooth parts respectively. Similarly, the contour and flat area of 3D objects, such as the boundary and seat area of a chair, describe different but also complementary geometries. However, such investigation is lost in previous deep networks that understand point clouds by directly treating all points or local patches equally. To solve this problem, we propose Geometry-Disentangle d Attention Network (GDANet). GDANet introduces Geometry-Disentangle Module to dynamically disentangle point clouds into the contour and flat part of 3D objects, respectively denoted by sharp and gentle variation components. Then GDANet exploits Sharp-Gentle Complementary Attention Module that regards the features from sharp and gentle variation components as two holistic representations, and pays different attentions to them while fusing them respectively with original point cloud features. In this way, our method captures and refines the holistic and complementary 3D geometric semantics from two distinct disentangled components to supplement the local information. Extensive experiments on 3D object classification and segmentation benchmarks demonstrate that GDANet achieves the state-of-the-arts with fewer parameters. Code is released on https://github.com/m utianxu/GDANet.
翻訳日:2021-05-01 04:41:44 公開日:2021-02-07
# (参考訳) Deep Stock Trading: ポートフォリオ最適化と注文実行のための階層的強化学習フレームワーク [全文訳有]

Deep Stock Trading: A Hierarchical Reinforcement Learning Framework for Portfolio Optimization and Order Execution ( http://arxiv.org/abs/2012.12620v2 )

ライセンス: CC BY 4.0
Rundong Wang, Hongxin Wei, Bo An, Zhouyan Feng, Jun Yao(参考訳) 強化学習によるポートフォリオ管理はfintech researchの最前線にあり、試行錯誤によって長期にわたってファンドを異なる金融資産に最適に再配置する方法を探求している。 既存の方法は、通常、各再配置が直ちに完了すると仮定し、取引コストの一部として価格下落を無視しているため、現実的ではない。 そこで本稿では,ポートフォリオ管理のための階層的強化株取引システム(hrpm)を提案する。 具体的には、取引プロセスを取引実行よりもポートフォリオ管理の階層に分解し、対応する政策を訓練する。 高水準政策は、長期利益を最大化するためにポートフォリオ重量を低い周波数で与え、トレーディングコストを最小限に抑えるために、短時間の窓口で対応する株を高頻度で売り買いする低水準政策を呼び起こす。 データ効率のための事前学習スキームと反復訓練スキームを用いて2段階の政策を訓練する。 米国市場と中国市場における大規模な実験結果から、HRPMは多くの最先端のアプローチに対して大幅な改善を達成していることがわかる。

Portfolio management via reinforcement learning is at the forefront of fintech research, which explores how to optimally reallocate a fund into different financial assets over the long term by trial-and-error. Existing methods are impractical since they usually assume each reallocation can be finished immediately and thus ignoring the price slippage as part of the trading cost. To address these issues, we propose a hierarchical reinforced stock trading system for portfolio management (HRPM). Concretely, we decompose the trading process into a hierarchy of portfolio management over trade execution and train the corresponding policies. The high-level policy gives portfolio weights at a lower frequency to maximize the long term profit and invokes the low-level policy to sell or buy the corresponding shares within a short time window at a higher frequency to minimize the trading cost. We train two levels of policies via pre-training scheme and iterative training scheme for data efficiency. Extensive experimental results in the U.S. market and the China market demonstrate that HRPM achieves significant improvement against many state-of-the-art approaches.
翻訳日:2021-04-26 01:35:01 公開日:2021-02-07
# 医療検出におけるインスタンスレベルの不確実性の検討

Exploring Instance-Level Uncertainty for Medical Detection ( http://arxiv.org/abs/2012.12880v3 )

ライセンス: Link先を確認
Jiawei Yang, Yuan Liang, Yao Zhang, Weinan Song, Kun Wang, Lei He(参考訳) 不確実性を予測できる深層学習の能力は、臨床ルーチンにおける導入の鍵として認識されている。 さらに、実証的な証拠に従って不確実性をモデル化することで、性能向上を実現している。 セグメンテーションと分類タスクにおける不確実性の推定については,これまで広く議論されてきたが,境界ボックスの整合性の問題から,境界ボックスに基づく検出への応用は限られている。 本研究では,2つの異なる境界ボックスレベル(またはインスタンスレベル)の不確実性推定,すなわち予測分散とモンテカルロサンプル分散を用いた2.5D検出CNNの拡張について検討する。 肺結節検出実験はLUNA16データセット上で行われ、結節と非結節の間に重要な意味的曖昧性が存在する。 その結果,両種類の分散の組み合わせを用いて評価スコアを84.57%から88.86%に改善した。 さらに,生成した不確実性は,確率しきい値のみを使用するのに比べ,操作点が優れていることを示し,さらに89.52%まで性能を向上できることを示した。 本手法の利点をさらに説明するために,実例の結節検出を可視化する。

The ability of deep learning to predict with uncertainty is recognized as key for its adoption in clinical routines. Moreover, performance gain has been enabled by modelling uncertainty according to empirical evidence. While previous work has widely discussed the uncertainty estimation in segmentation and classification tasks, its application on bounding-box-based detection has been limited, mainly due to the challenge of bounding box aligning. In this work, we explore to augment a 2.5D detection CNN with two different bounding-box-level (or instance-level) uncertainty estimates, i.e., predictive variance and Monte Carlo (MC) sample variance. Experiments are conducted for lung nodule detection on LUNA16 dataset, a task where significant semantic ambiguities can exist between nodules and non-nodules. Results show that our method improves the evaluating score from 84.57% to 88.86% by utilizing a combination of both types of variances. Moreover, we show the generated uncertainty enables superior operating points compared to using the probability threshold only, and can further boost the performance to 89.52%. Example nodule detections are visualized to further illustrate the advantages of our method.
翻訳日:2021-04-25 18:06:45 公開日:2021-02-07
# (参考訳) ガウス畳み込みモデルに基づく層分解学習と逆ハーフトニングのための残留分解 [全文訳有]

Layer Decomposition Learning Based on Gaussian Convolution Model and Residual Deblurring for Inverse Halftoning ( http://arxiv.org/abs/2012.13894v2 )

ライセンス: CC BY 4.0
Chang-Hwan Son(参考訳) 入力画像をベース層とディテール層に分離するための層分解は、画像復元に着実に使われている。 付加モデルに基づく既存の残差ネットワークは、高速収束と視覚的品質改善のために出力範囲が小さい残差層を必要とする。 しかし、逆ハーフトーンでは、均質なドットパターンは残留層から小さな出力範囲を妨げている。 そこで,ガウス畳み込みモデル(GCM)に基づく新しい層分解ネットワークと構造認識型デブロアリング戦略を提案し,基礎層と詳細層の両方の残差学習を実現する。 ベース層には,新しいGCMベースの残留サブネットワークが提供される。 gcmは、ガウスフィルタによるぼやけた連続音画像とぼやけた半音画像との画像差を狭い出力範囲にすることができる統計分布を用いる。 その後、GCMベースの残差サブネットはガウスフィルタ半音像を入力とし、画像差分を残差として出力し、ガウスブル連続音像という基底層を生成する。 詳細層については、新しい構造対応残留劣化サブネットワーク(SARDS)を示す。 ベース層のガウス的ぼかしを取り除くため、SARDSは予測ベース層を入力として使用し、遅延バージョンを出力する。 線やテキストなどの画像構造をより効果的に復元するために、デブロアリングネットワークに新しい画像構造マップ予測器を組み込んで構造適応学習を誘導する。 本稿では,GCMとSARDSに基づいて,ベース層とディテール層の両方の残差学習を実現する手法を提案する。 さらに,提案手法は,U-Net,ダイレクトデブロアリングネットワーク,そして漸進的残留ネットワークに基づく最先端手法を超越していることを確認した。

Layer decomposition to separate an input image into base and detail layers has been steadily used for image restoration. Existing residual networks based on an additive model require residual layers with a small output range for fast convergence and visual quality improvement. However, in inverse halftoning, homogenous dot patterns hinder a small output range from the residual layers. Therefore, a new layer decomposition network based on the Gaussian convolution model (GCM) and structure-aware deblurring strategy is presented to achieve residual learning for both the base and detail layers. For the base layer, a new GCM-based residual subnetwork is presented. The GCM utilizes a statistical distribution, in which the image difference between a blurred continuous-tone image and a blurred halftoned image with a Gaussian filter can result in a narrow output range. Subsequently, the GCM-based residual subnetwork uses a Gaussian-filtered halftoned image as input and outputs the image difference as residual, thereby generating the base layer, i.e., the Gaussian-blurred continuous-tone image. For the detail layer, a new structure-aware residual deblurring subnetwork (SARDS) is presented. To remove the Gaussian blurring of the base layer, the SARDS uses the predicted base layer as input and outputs the deblurred version. To more effectively restore image structures such as lines and texts, a new image structure map predictor is incorporated into the deblurring network to induce structure-adaptive learning. This paper provides a method to realize the residual learning of both the base and detail layers based on the GCM and SARDS. In addition, it is verified that the proposed method surpasses state-of-the-art methods based on U-Net, direct deblurring networks, and progressively residual networks.
翻訳日:2021-04-24 23:13:20 公開日:2021-02-07
# 不均一レンダリングマシンを用いたタスク指向対話システムのための解釈可能なNLG

Interpretable NLG for Task-oriented Dialogue Systems with Heterogeneous Rendering Machines ( http://arxiv.org/abs/2012.14645v2 )

ライセンス: Link先を確認
Yangming Li, Kaisheng Yao(参考訳) エンドツーエンドのニューラルネットワークは、自然言語生成(NLG)において有望なパフォーマンスを達成した。 しかし、ブラックボックスとして扱われ、解釈性に欠ける。 この問題に対処するために,ニューラルジェネレータが入力対話行為(da)を発話に変換する方法を解釈する,新しいフレームワークであるヘテロジニアスレンダリングマシン(hrm)を提案する。 HRMは、レンダラーセットとモードスイッチャーで構成される。 レンダラーセットには、構造と機能の両方が異なる複数のデコーダが含まれている。 生成ステップ毎に、モード切替器は、レンダラセットから適切なデコーダを選択してアイテム(単語または句)を生成する。 提案手法の有効性を検証するため,5つのベンチマークデータセットについて広範な実験を行った。 自動メトリクス(例えばBLEU)に関しては、我々のモデルは現在の最先端手法と競合する。 定性解析により,我々はニューラルネットワークの描画過程をよく解釈できることを示した。 また,人間評価により,提案手法の解釈可能性も確認できた。

End-to-end neural networks have achieved promising performances in natural language generation (NLG). However, they are treated as black boxes and lack interpretability. To address this problem, we propose a novel framework, heterogeneous rendering machines (HRM), that interprets how neural generators render an input dialogue act (DA) into an utterance. HRM consists of a renderer set and a mode switcher. The renderer set contains multiple decoders that vary in both structure and functionality. For every generation step, the mode switcher selects an appropriate decoder from the renderer set to generate an item (a word or a phrase). To verify the effectiveness of our method, we have conducted extensive experiments on 5 benchmark datasets. In terms of automatic metrics (e.g., BLEU), our model is competitive with the current state-of-the-art method. The qualitative analysis shows that our model can interpret the rendering process of neural generators well. Human evaluation also confirms the interpretability of our proposed approach.
翻訳日:2021-04-18 20:39:52 公開日:2021-02-07
# 電子顕微鏡による3次元画像再構成のための曲面エワルド球面問題の解法

A new solution to the curved Ewald sphere problem for 3D image reconstruction in electron microscopy ( http://arxiv.org/abs/2101.11709v2 )

ライセンス: Link先を確認
J. P. J. Chen, K. E. Schmidt, J. C. H. Spence, R. A. Kirian(参考訳) 本研究では,エヴァルト球面の曲率に大きく影響される物体の二次元画像の集合を3次元物体で撮像するアルゴリズムを開発した。 これらの二次元画像は物体の投影として近似することはできない。 このようなアルゴリズムは、より大きなサンプル、高分解能または低エネルギーの電子ビームが要求されるクライオ電子顕微鏡において有用であり、これらすべてがエヴァルト曲率の意義に寄与する。

We develop an algorithm capable of imaging a three-dimensional object given a collection of two-dimensional images of that object that are significantly influenced by the curvature of the Ewald sphere. These two-dimensional images cannot be approximated as projections of the object. Such an algorithm is useful in cryo-electron microscopy where larger samples, higher resolution, or lower energy electron beams are desired, all of which contribute to the significance of Ewald curvature.
翻訳日:2021-04-11 22:50:21 公開日:2021-02-07
# (参考訳) 独立試験による多機能・アンサンブル学習に基づく高精度医薬の視覚オンライン検査システムと分類 [全文訳有]

High Precision Medicine Bottles Vision Online Inspection System and Classification Based on Multi-Features and Ensemble Learning via Independence Test ( http://arxiv.org/abs/2101.01362v2 )

ライセンス: CC BY 4.0
Le Ma, Xiaoyue Wu, Zhiwei Li(参考訳) 製造ラインにおける薬液ボトルのオンライン自動検査の問題に対処するため, 組込み型視覚検査システムを設計し, 多機能融合に基づく検出のためのアンサンブル学習アルゴリズムを提案する。 トンネル構造は視覚検査システムのために設計されており、ボトル検査を原点を変えることなく自動化することができる。

To address the problem of online automatic inspection of drug liquid bottles in production line, an implantable visual inspection system is designed and the ensemble learning algorithm for detection is proposed based on multi-features fusion. A tunnel structure is designed for visual inspection system, which allows bottles inspection to be automated without changing original
翻訳日:2021-04-11 20:52:20 公開日:2021-02-07
# (参考訳) ディープニューラルネットワークに基づく関係抽出:概観

Deep Neural Network Based Relation Extraction: An Overview ( http://arxiv.org/abs/2101.01907v2 )

ライセンス: CC0 1.0
Hailin Wang, Ke Qin, Rufai Yusuf Zakari, Guoming Lu, Jin Yin(参考訳) 知識は世界を理解するための正式な方法であり、次世代人工知能(AI)のための人間レベルの認知と知性を提供する。 知識の表現の1つは、エンティティ間の意味関係である。 情報抽出のサブタスクである関係抽出(RE)と呼ばれるこの重要な知識を自動的に取得する効果的な方法は、自然言語処理(NLP)において重要な役割を果たす。 その目的は自然言語テキストからエンティティ間の意味関係を特定することである。 これまでの研究では、ディープニューラルネットワーク(dnn)に基づくこれらのテクニックを文書化したreについて、いくつかの研究がなされている。 特に、DNNに基づく監視・遠隔監視手法は、REにとって最も人気があり信頼性の高いソリューションである。 1) 一般的な概念をいくつか紹介するとともに, 2) 標準reシステムの改善を目指す教師付きreと,文エンコーダの設計にdnnを採用する遠方監視reという2つの視点から,reにおけるdnnの包括的概要を述べる。 さらに,新しい手法や最近の動向を取り上げ,今後の研究の方向性について論じる。

Knowledge is a formal way of understanding the world, providing a human-level cognition and intelligence for the next-generation artificial intelligence (AI). One of the representations of knowledge is semantic relations between entities. An effective way to automatically acquire this important knowledge, called Relation Extraction (RE), a sub-task of information extraction, plays a vital role in Natural Language Processing (NLP). Its purpose is to identify semantic relations between entities from natural language text. To date, there are several studies for RE in previous works, which have documented these techniques based on Deep Neural Networks (DNNs) become a prevailing technique in this research. Especially, the supervised and distant supervision methods based on DNNs are the most popular and reliable solutions for RE. This article 1) introduces some general concepts, and further 2) gives a comprehensive overview of DNNs in RE from two points of view: supervised RE, which attempts to improve the standard RE systems, and distant supervision RE, which adopts DNNs to design sentence encoder and de-noise method. We further 3) cover some novel methods and recent trends as well as discuss possible future research directions for this task.
翻訳日:2021-04-11 05:59:00 公開日:2021-02-07
# (参考訳) アラビア方言のためのオープンアクセスNLPデータセット : データ収集,ラベル付け,モデル構築 [全文訳有]

An open access NLP dataset for Arabic dialects : Data collection, labeling, and model construction ( http://arxiv.org/abs/2102.11000v1 )

ライセンス: CC BY 4.0
ElMehdi Boujou, Hamza Chataoui, Abdellah El Mekki, Saad Benjelloun, Ikram Chairi, and Ismail Berrada(参考訳) 自然言語処理(NLP)は現在、研究とイノベーションの非常に活発な分野である。 しかし、多くのアプリケーションは教師あり学習のために大量のデータを必要とする。 これにはアラビア語とその方言の応用が含まれる。 しかし、このようなアラビア語とその方言のオープンアクセスラベル付きデータセットは、データサイエンスのエコシステムにおいて不足しており、この分野におけるイノベーションと研究の負担となっている。 本研究では,いくつかのアラビア方言におけるソーシャルデータコンテンツのオープンデータセットについて述べる。 このデータはtwitterのソーシャルネットワークから収集され、5つの5つの国語で+50kのtwitsで構成されている。 さらに、このデータは方言検出、話題検出、感情分析などいくつかの応用でラベル付けされた。 このデータをオープンアクセスデータとして公開し,イノベーションを奨励し,アラビア語方言やソーシャルメディアのnlp分野の著作を奨励する。 このデータセットを用いてモデルの選択を行い、その性能とともに本論文で提示する。

Natural Language Processing (NLP) is today a very active field of research and innovation. Many applications need however big sets of data for supervised learning, suitably labelled for the training purpose. This includes applications for the Arabic language and its national dialects. However, such open access labeled data sets in Arabic and its dialects are lacking in the Data Science ecosystem and this lack can be a burden to innovation and research in this field. In this work, we present an open data set of social data content in several Arabic dialects. This data was collected from the Twitter social network and consists on +50K twits in five (5) national dialects. Furthermore, this data was labeled for several applications, namely dialect detection, topic detection and sentiment analysis. We publish this data as an open access data to encourage innovation and encourage other works in the field of NLP for Arabic dialects and social media. A selection of models were built using this data set and are presented in this paper along with their performances.
翻訳日:2021-04-06 06:29:54 公開日:2021-02-07
# タグ付きテキストにおける単語頻度-ランク関係

Word frequency-rank relationship in tagged texts ( http://arxiv.org/abs/2102.10992v1 )

ライセンス: Link先を確認
A. Chacoma, D. H. Zanette(参考訳) 本研究では,3つの異なる文法クラス({\em nouns}, {\em verbs}, {\em other})に対応する下位語彙の頻度ランク関係を,文法的役割に応じて単語が自動的にタグ付けされた英語の文学作品群で解析した。 各クラスに属する単語が全作業の頻度ランク付き語彙に一様分布していると仮定したヌル仮説と比較し、3つのクラス間の統計的に有意な差異を明らかにした。 この結果は、周波数-ランク関係が文法関数に関連する言語的特徴を反映していることを示している。

We analyze the frequency-rank relationship in sub-vocabularies corresponding to three different grammatical classes ({\em nouns}, {\em verbs}, and {\em others}) in a collection of literary works in English, whose words have been automatically tagged according to their grammatical role. Comparing with a null hypothesis which assumes that words belonging to each class are uniformly distributed across the frequency-ranked vocabulary of the whole work, we disclose statistically significant differences between the three classes. This results point to the fact that frequency-rank relationships may reflect linguistic features associated with grammatical function.
翻訳日:2021-04-05 00:34:44 公開日:2021-02-07
# (参考訳) E Pluribus Unum Ex Machina: 一度に多くの衝突イベントから学ぶ [全文訳有]

E Pluribus Unum Ex Machina: Learning from Many Collider Events at Once ( http://arxiv.org/abs/2101.07263v2 )

ライセンス: CC BY 4.0
Benjamin Nachman and Jesse Thaler(参考訳) 多くの異なる事象を1つのアンサンブル特徴に組み合わせることで、衝突型物理学の機械学習戦略の性能を高めるための最近の提案が数多くある。 これらの提案の有効性を評価するために,コライダーイベントが独立かつ同一分布(IID)であることを前提として,単一イベント分類器と複数イベント分類器の関連性を検討する。 単一イベント分類器から最適なマルチイベント分類器を構築する方法を示し、また最適な単一イベント分類器を生成するためのマルチイベント分類器を構築する方法を示す。 これはガウスの例や、大型ハドロン衝突型加速器の探索と測定に関連する分類タスクのために説明される。 パラメトリズド分類器(parametrized classifiers)という用語で表現する方法を示し,回帰タスクへの議論を拡張した。 実験により, 単一インスタンス(インスタンス毎)の分類器の訓練は, 少なくとも研究例では, 複数インスタンス(アンサンブル毎)の分類器の訓練よりも効果的であることが判明し, この事実を2症例における損失関数勾配の特性と関連づける。 衝突型加速器の文脈で多重事象分類器を使用することによる明確な利点は特定できなかったが、ジェットサブストラクチャ研究に関連する近似独立性のみに関わる場合におけるこれらの手法の潜在的価値について考察した。

There have been a number of recent proposals to enhance the performance of machine learning strategies for collider physics by combining many distinct events into a single ensemble feature. To evaluate the efficacy of these proposals, we study the connection between single-event classifiers and multi-event classifiers under the assumption that collider events are independent and identically distributed (IID). We show how one can build optimal multi-event classifiers from single-event classifiers, and we also show how to construct multi-event classifiers such that they produce optimal single-event classifiers. This is illustrated for a Gaussian example as well as for classification tasks relevant for searches and measurements at the Large Hadron Collider. We extend our discussion to regression tasks by showing how they can be phrased in terms of parametrized classifiers. Empirically, we find that training a single-event (per-instance) classifier is more effective than training a multi-event (per-ensemble) classifier, as least for the cases we studied, and we relate this fact to properties of the loss function gradient in the two cases. While we did not identify a clear benefit from using multi-event classifiers in the collider context, we speculate on the potential value of these methods in cases involving only approximate independence, as relevant for jet substructure studies.
翻訳日:2021-03-27 08:11:06 公開日:2021-02-07
# UPDeT: トランスフォーマーとのポリシーデカップリングによるユニバーサルマルチエージェント強化学習

UPDeT: Universal Multi-agent Reinforcement Learning via Policy Decoupling with Transformers ( http://arxiv.org/abs/2101.08001v3 )

ライセンス: Link先を確認
Siyi Hu, Fengda Zhu, Xiaojun Chang, Xiaodan Liang(参考訳) マルチエージェント強化学習の最近の進歩は、新しいタスクごとに1つのモデルをスクラッチからトレーニングすることに大きく制限されている。 この制限は、固定された入力と出力の次元に関連する制限されたモデルアーキテクチャに起因する。 これにより、さまざまなレベルの難易度を持つタスク(例えば、学習エージェントの蓄積と転送を妨げます。 3対3または5対6のマルチエージェントゲーム)。 本稿では,マルチエージェント強化学習パイプラインの汎用化に向けた最初の試みとして,異なる観測・動作構成の要求に適合する1つの単一アーキテクチャを設計する。 従来のRNNモデルとは違って,自己注意機構の利点によって測定された重み付き入力観測からポリシー分布を分離することにより,トランスフォーマモデルを用いてフレキシブルなポリシーを生成する。 標準変圧器ブロックと比較すると,UPDeT(Universal Policy Decoupling Transformer)と呼ばれるモデルが動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにしている。 UPDeTは、任意のマルチエージェント強化学習パイプラインにプラグインして、複数のタスクを同時に処理できる強力な一般化能力を備えるのに十分な一般性を持っている。 大規模SMACマルチエージェント競争ゲームにおける大規模な実験により、UPDeTベースのマルチエージェント強化学習は、最先端のアプローチと比較して有意な結果が得られ、性能とトレーニング速度の両面で有利な転送能力を示す。

Recent advances in multi-agent reinforcement learning have been largely limited in training one model from scratch for every new task. The limitation is due to the restricted model architecture related to fixed input and output dimensions. This hinders the experience accumulation and transfer of the learned agent over tasks with diverse levels of difficulty (e.g. 3 vs 3 or 5 vs 6 multi-agent games). In this paper, we make the first attempt to explore a universal multi-agent reinforcement learning pipeline, designing one single architecture to fit tasks with the requirement of different observation and action configurations. Unlike previous RNN-based models, we utilize a transformer-based model to generate a flexible policy by decoupling the policy distribution from the intertwined input observation with an importance weight measured by the merits of the self-attention mechanism. Compared to a standard transformer block, the proposed model, named as Universal Policy Decoupling Transformer (UPDeT), further relaxes the action restriction and makes the multi-agent task's decision process more explainable. UPDeT is general enough to be plugged into any multi-agent reinforcement learning pipeline and equip them with strong generalization abilities that enables the handling of multiple tasks at a time. Extensive experiments on large-scale SMAC multi-agent competitive games demonstrate that the proposed UPDeT-based multi-agent reinforcement learning achieves significant results relative to state-of-the-art approaches, demonstrating advantageous transfer capability in terms of both performance and training speed (10 times faster).
翻訳日:2021-03-22 01:35:56 公開日:2021-02-07
# 会話型推薦システムの進歩と課題:調査

Advances and Challenges in Conversational Recommender Systems: A Survey ( http://arxiv.org/abs/2101.09459v5 )

ライセンス: Link先を確認
Chongming Gao, Wenqiang Lei, Xiangnan He, Maarten de Rijke, Tat-Seng Chua(参考訳) レコメンダシステムは、幅広い業界アプリケーションで多用されたユーザー好みを推定するためにインタラクション履歴を利用する。 しかし,静的レコメンデーションモデルは,本質的な欠点から,2つの重要な質問に答えることが困難である。 (b)なぜユーザがアイテムを好むのか? 欠点は、静的モデルがユーザの好み、すなわち明示的な指示やユーザからのアクティブなフィードバックなしで学習する方法にある。 近年の会話レコメンデーションシステム(CRS)の台頭は、この状況を根本的に変える。 CRSでは、ユーザとシステムは自然言語による対話を通じて動的に通信することができ、ユーザの正確な嗜好を明確化するための前例のない機会を提供する。 異なる設定やアプリケーションにまたがる考慮すべき取り組みは、CRSの開発に費やされている。 既存のCRSのモデル、技術、評価方法はまだ成熟していない。 本稿では,現在のCRSで使用されている技術について,体系的なレビューを行う。 我々は,crssを開発する上での課題を,(1)質問に基づくユーザ嗜好の誘発という5つの方向にまとめる。 (2)多方向対話型推薦戦略。 3)対話の理解と生成。 (4)爆発探索トレードオフ (5)評価とユーザシミュレーション。 これらの研究の方向性には、情報検索(ir)、自然言語処理(nlp)、人間とコンピュータの相互作用(hci)など複数の研究分野が含まれる。 これらの研究の方向性に基づき、今後の課題と機会について論じる。 複数のコミュニティの研究者がこの分野に参入するためのロードマップを提供する。 この調査がCRSの課題を特定し、対処し、将来の研究を促すのに役立つことを願っています。

Recommender systems exploit interaction history to estimate user preference, having been heavily used in a wide range of industry applications. However, static recommendation models are difficult to answer two important questions well due to inherent shortcomings: (a) What exactly does a user like? (b) Why does a user like an item? The shortcomings are due to the way that static models learn user preference, i.e., without explicit instructions and active feedback from users. The recent rise of conversational recommender systems (CRSs) changes this situation fundamentally. In a CRS, users and the system can dynamically communicate through natural language interactions, which provide unprecedented opportunities to explicitly obtain the exact preference of users. Considerable efforts, spread across disparate settings and applications, have been put into developing CRSs. Existing models, technologies, and evaluation methods for CRSs are far from mature. In this paper, we provide a systematic review of the techniques used in current CRSs. We summarize the key challenges of developing CRSs into five directions: (1) Question-based user preference elicitation. (2) Multi-turn conversational recommendation strategies. (3) Dialogue understanding and generation. (4) Exploitation-explora tion trade-offs. (5) Evaluation and user simulation. These research directions involve multiple research fields like information retrieval (IR), natural language processing (NLP), and human-computer interaction (HCI). Based on these research directions, we discuss some future challenges and opportunities. We provide a road map for researchers from multiple communities to get started in this area. We hope this survey helps to identify and address challenges in CRSs and inspire future research.
翻訳日:2021-03-19 10:43:29 公開日:2021-02-07
# (参考訳) 議論トポロジーに関する一考察:未解決問題としての円性とシルロジズム [全文訳有]

A Note on Argumentative Topology: Circularity and Syllogisms as Unsolved Problems ( http://arxiv.org/abs/2102.03874v1 )

ライセンス: CC BY 4.0
Wlodek W. Zadrozny(参考訳) ここ数年、トポロジカルなデータ分析をテキスト、特に自然言語の推論に適用しようとする試みがいくつかあった。 Tymochko et al.による最近の作品。 動的システムから派生した手法である「トポロジカル遅延埋め込み」を単語埋め込みに適用し、「テキストにおける論理形状の概念」を捕捉する可能性を示唆する。 本稿では,それらの議論を再構築し,古い例と新しい例を用いて,論理,トポロジー,テキストをつなぐ問題はいまだに未解決であることを示す。 私たちは、この質問に明確な答えがないと結論付けます:「円は円形の引数で見つけることができますか? 我々は探査のいくつかの可能な手段を指摘します。 実験で使われたコードも示しています。

In the last couple of years there were a few attempts to apply topological data analysis to text, and in particular to natural language inference. A recent work by Tymochko et al. suggests the possibility of capturing `the notion of logical shape in text,' using `topological delay embeddings,' a technique derived from dynamical systems, applied to word embeddings. In this note we reconstruct their argument and show, using several old and new examples, that the problem of connecting logic, topology and text is still very much unsolved. We conclude that there is no clear answer to the question: ``Can we find a circle in a circular argument?'' We point out some possible avenues of exploration. The code used in our experiment is also shown.
翻訳日:2021-02-11 10:52:02 公開日:2021-02-07
# (参考訳) 熱拡散と最大旋回角による自己適応的かつ堅牢な核分裂クラスタリングアルゴリズム [全文訳有]

A self-adaptive and robust fission clustering algorithm via heat diffusion and maximal turning angle ( http://arxiv.org/abs/2102.03794v1 )

ライセンス: CC BY 4.0
Yu Han, Shizhan Lu, Haiyan Xu(参考訳) 類似要素の分類とグループ化に焦点を当てたクラスタ分析は、様々な研究分野で広く利用されている。 近年、新規かつ高速なクラスタリングアルゴリズムである分裂クラスタリングアルゴリズムが提案されている。 本稿では,ロバストなfission clustering (rfc)アルゴリズムと自己適応型雑音同定手法を提案する。 RFCと自己適応型雑音識別法を組み合わせて自己適応型堅牢核分裂クラスタリング(SARFC)アルゴリズムを提案する。 提案したクラスタリング手法の性能を検証し,結果を他のアルゴリズムと比較するために,頻繁なデータセットを適用した。 包括的比較は,提案手法が他の一般的な手法よりも優れていることを示している。

Cluster analysis, which focuses on the grouping and categorization of similar elements, is widely used in various fields of research. A novel and fast clustering algorithm, fission clustering algorithm, is proposed in recent year. In this article, we propose a robust fission clustering (RFC) algorithm and a self-adaptive noise identification method. The RFC and the self-adaptive noise identification method are combine to propose a self-adaptive robust fission clustering (SARFC) algorithm. Several frequently-used datasets were applied to test the performance of the proposed clustering approach and to compare the results with those of other algorithms. The comprehensive comparisons indicate that the proposed method has advantages over other common methods.
翻訳日:2021-02-11 10:06:09 公開日:2021-02-07
# (参考訳) attributenet:属性強化車の再識別 [全文訳有]

AttributeNet: Attribute Enhanced Vehicle Re-Identification ( http://arxiv.org/abs/2102.03898v1 )

ライセンス: CC BY 4.0
Rodolfo Quispe and Cuiling Lan and Wenjun Zeng and Helio Pedrini(参考訳) 車両再識別(V-ReID)は、異なるカメラ視点からの画像間で同じ車両を関連付ける重要なタスクである。 多くの作品はV-ReIDを強化するための属性の手がかりを探りますが、属性関連モジュールと最終的なV-ReID目標の間には効果的な相互作用が欠如しています。 本研究では,車両属性(色やタイプなど)からの識別情報を効率的に探索する新しい手法を提案する。 アイデンティティ関連機能や属性機能を共同で抽出するAttributeNet(ANet)を紹介します。 ReID-helpful属性特徴を蒸留し、一般的なReID特徴に加えることで、識別能力を高めることができる。 さらに,一般のreid特徴に属性的特徴を加えた後,元の一般のreid特徴よりも識別的になるように特徴を奨励する制約 amelioration constraints (ac) を提案する。 3つの挑戦的なデータセットで、フレームワークの有効性を検証する。 実験結果から,本手法は最先端性能を実現することが示された。

Vehicle Re-Identification (V-ReID) is a critical task that associates the same vehicle across images from different camera viewpoints. Many works explore attribute clues to enhance V-ReID; however, there is usually a lack of effective interaction between the attribute-related modules and final V-ReID objective. In this work, we propose a new method to efficiently explore discriminative information from vehicle attributes (e.g., color and type). We introduce AttributeNet (ANet) that jointly extracts identity-relevant features and attribute features. We enable the interaction by distilling the ReID-helpful attribute feature and adding it into the general ReID feature to increase the discrimination power. Moreover, we propose a constraint, named Amelioration Constraint (AC), which encourages the feature after adding attribute features onto the general ReID feature to be more discriminative than the original general ReID feature. We validate the effectiveness of our framework on three challenging datasets. Experimental results show that our method achieves state-of-the-art performance.
翻訳日:2021-02-11 08:53:38 公開日:2021-02-07
# (参考訳) 病理画像解析のための機械学習手法:概観

Machine Learning Methods for Histopathological Image Analysis: A Review ( http://arxiv.org/abs/2102.03889v1 )

ライセンス: CC BY 4.0
Jonathan de Matos and Steve Tsham Mpinda Ataky and Alceu de Souza Britto Jr. and Luiz Eduardo Soares de Oliveira and Alessandro Lameiras Koerich(参考訳) 病理組織像 (HIs) は癌診断における腫瘍の種類を評価するための金の基準である。 このような画像の解析は時間と資源を消費するだけでなく、経験豊富な病理学者にとっても非常に困難である。 このような分析を高速化する方法の1つは、コンピュータ支援診断(CAD)システムを使用することである。 本稿では,浅層・深層学習を含む組織病理学的画像解析のための機械学習手法について検討する。 また、セグメント化や特徴抽出など、HI分析における最も一般的なタスクについても取り上げる。 さらに、HI研究で使用されている公開およびプライベートデータセットのリストを紹介します。

Histopathological images (HIs) are the gold standard for evaluating some types of tumors for cancer diagnosis. The analysis of such images is not only time and resource consuming, but also very challenging even for experienced pathologists, resulting in inter- and intra-observer disagreements. One of the ways of accelerating such an analysis is to use computer-aided diagnosis (CAD) systems. In this paper, we present a review on machine learning methods for histopathological image analysis, including shallow and deep learning methods. We also cover the most common tasks in HI analysis, such as segmentation and feature extraction. In addition, we present a list of publicly available and private datasets that have been used in HI research.
翻訳日:2021-02-11 08:38:22 公開日:2021-02-07
# (参考訳) ベイズ教示による説明可能な人工知能における信念投影の緩和

Mitigating belief projection in explainable artificial intelligence via Bayesian Teaching ( http://arxiv.org/abs/2102.03919v1 )

ライセンス: CC BY 4.0
Scott Cheng-Hsin Yang, Wai Keen Vong, Ravi B. Sojitra, Tomas Folke, Patrick Shafto(参考訳) 最先端のディープラーニングシステムは、人間がモデル化することが難しい決定ルールを使用する。 説明可能なAI(XAI)は人間の理解を改善しようとするが、人々がよく知らないエージェントをどう考えるかを説明することは滅多にない。 そこで本研究では,説明者の推論を希望する目標にどの程度移行させるかによって説明を評価するベイズ的指導を通して,説明者を明示的にモデル化することを提案する。 様々な文脈にまたがる二元画像分類課題におけるベイズ教育の評価を行う。 絶え間ない介入により、参加者はAIの分類が彼ら自身のものと一致すると予測するが、ベイズ教養が生み出した説明は、AIの判断をこの以前の信念から遠ざけることで予測する能力を向上させる。 ベイズ教育はさらに、各ケースを副例に分解することができる(ここではサラジェンシーマップ)。 これらのサブサンプルは、見慣れたカテゴリのエラー検出を改善することによって、すべての例を補完する。

State-of-the-art deep-learning systems use decision rules that are challenging for humans to model. Explainable AI (XAI) attempts to improve human understanding but rarely accounts for how people typically reason about unfamiliar agents. We propose explicitly modeling the human explainee via Bayesian Teaching, which evaluates explanations by how much they shift explainees' inferences toward a desired goal. We assess Bayesian Teaching in a binary image classification task across a variety of contexts. Absent intervention, participants predict that the AI's classifications will match their own, but explanations generated by Bayesian Teaching improve their ability to predict the AI's judgements by moving them away from this prior belief. Bayesian Teaching further allows each case to be broken down into sub-examples (here saliency maps). These sub-examples complement whole examples by improving error detection for familiar categories, whereas whole examples help predict correct AI judgements of unfamiliar cases.
翻訳日:2021-02-11 07:45:21 公開日:2021-02-07
# (参考訳) AIのミスアライメント [全文訳有]

Consequences of Misaligned AI ( http://arxiv.org/abs/2102.03896v1 )

ライセンス: CC BY 4.0
Simon Zhuang, Dylan Hadfield-Menell(参考訳) AIシステムは、指定されたゴールまたは報酬関数と、そのゴールに対する最適な振る舞いを計算する最適化アルゴリズムの2つの重要なコンポーネントに依存していることが多い。 このアプローチは、プリンシパル — エージェントの動作を代行するユーザ — に価値を提供することを目的としている。 これらのエージェントに与えられた目的は、しばしばプリンシパルの目標の部分的な仕様を参照する。 この不完全性のコストは、状態の$L$属性がプリンシパルのためのユーティリティの異なるソースに対応するリソース制約された世界のプリンシパルとエージェントのモデルを分析することによって考慮します。 エージェントに与えられた報酬関数は$J < L$属性でのみサポートされていると仮定します。 The contributions of our paper are as follows: 1) we propose a novel model of an incomplete principal-agent problem from artificial intelligence; 2) we provide necessary and sufficient conditions under which indefinitely optimizing for any incomplete proxy objective leads to arbitrarily low overall utility; and 3) we show how modifying the setup to allow reward functions that reference the full state or allowing the principal to update the proxy objective over time can lead to higher utility solutions. この論文の結果は、報酬関数の設計をインタラクティブでダイナミックなプロセスと見なし、ある程度の相互作用が望ましい理論的シナリオを特定するべきであると論じています。

AI systems often rely on two key components: a specified goal or reward function and an optimization algorithm to compute the optimal behavior for that goal. This approach is intended to provide value for a principal: the user on whose behalf the agent acts. The objectives given to these agents often refer to a partial specification of the principal's goals. We consider the cost of this incompleteness by analyzing a model of a principal and an agent in a resource constrained world where the $L$ attributes of the state correspond to different sources of utility for the principal. We assume that the reward function given to the agent only has support on $J < L$ attributes. The contributions of our paper are as follows: 1) we propose a novel model of an incomplete principal-agent problem from artificial intelligence; 2) we provide necessary and sufficient conditions under which indefinitely optimizing for any incomplete proxy objective leads to arbitrarily low overall utility; and 3) we show how modifying the setup to allow reward functions that reference the full state or allowing the principal to update the proxy objective over time can lead to higher utility solutions. The results in this paper argue that we should view the design of reward functions as an interactive and dynamic process and identifies a theoretical scenario where some degree of interactivity is desirable.
翻訳日:2021-02-11 07:44:20 公開日:2021-02-07
# (参考訳) spoiler alert: 自然言語処理を使って書籍レビューのスポイラーを検出する [全文訳有]

Spoiler Alert: Using Natural Language Processing to Detect Spoilers in Book Reviews ( http://arxiv.org/abs/2102.03882v1 )

ライセンス: CC BY 4.0
Allen Bao, Marshall Ho, Saarthak Sangamnerkar(参考訳) 本稿では,カリフォルニア大学サンディエゴ校(UCSD)のGoodreads Spoilerデータセットを用いて,書籍レビューにおけるスポイラー検出のためのNLP(Natural Language Processing)アプローチを提案する。 文レベルでスポイラー検出を行うために,LSTM,BERT,RoBERTa言語モデルを用いて検討した。 これは、UCSDの論文が同じ作業を行ったのとは対照的に、データ準備に手作りの機能を使用した。 また,手工芸品を用いたにもかかわらず,LSTMモデルの結果はスポイラー検出においてUCSDチームの性能をわずかに上回ることができた。

This paper presents an NLP (Natural Language Processing) approach to detecting spoilers in book reviews, using the University of California San Diego (UCSD) Goodreads Spoiler dataset. We explored the use of LSTM, BERT, and RoBERTa language models to perform spoiler detection at the sentence-level. This was contrasted with a UCSD paper which performed the same task, but using handcrafted features in its data preparation. Despite eschewing the use of handcrafted features, our results from the LSTM model were able to slightly exceed the UCSD team's performance in spoiler detection.
翻訳日:2021-02-11 06:19:57 公開日:2021-02-07
# (参考訳) マニホールド近似と投影による教師なし文埋め込み [全文訳有]

Unsupervised Sentence-embeddings by Manifold Approximation and Projection ( http://arxiv.org/abs/2102.03795v1 )

ライセンス: CC BY 4.0
Subhradeep Kayal(参考訳) 教師なし普遍文エンコーダの概念は近年注目を集めており、事前訓練されたモデルでは、フレーズ、文、段落に対する効果的なタスク非依存の定次元表現が生成される。 このような方法は、単語ベクトルの単純な重み付け平均から双方向変換器に基づく複雑な言語モデルまで、複雑性が異なる。 本研究では, 局所的な空間保存を目的として, 文章を定次元多様体に投影することにより, 文章埋め込みを無監督的に生成する新しい手法を提案する。 そこで我々は,最近提案されたWord Mover距離を含む集合距離測定値について実験を行った。一方,この固定次元投影は,トポロジカルデータ解析に根ざしたスケーラブルで効率的な多様体近似法を用いて実現されている。 我々は,EMAP(Embedddings by Manifold Approximation and Projection)と呼ばれるアプローチを,サイズと複雑さの異なる6つの公開テキスト分類データセット上で検証する。 実験結果から,本手法は従来手法と同等か,あるいはそれ以上の性能を示すことがわかった。

The concept of unsupervised universal sentence encoders has gained traction recently, wherein pre-trained models generate effective task-agnostic fixed-dimensional representations for phrases, sentences and paragraphs. Such methods are of varying complexity, from simple weighted-averages of word vectors to complex language-models based on bidirectional transformers. In this work we propose a novel technique to generate sentence-embeddings in an unsupervised fashion by projecting the sentences onto a fixed-dimensional manifold with the objective of preserving local neighbourhoods in the original space. To delineate such neighbourhoods we experiment with several set-distance metrics, including the recently proposed Word Mover's distance, while the fixed-dimensional projection is achieved by employing a scalable and efficient manifold approximation method rooted in topological data analysis. We test our approach, which we term EMAP or Embeddings by Manifold Approximation and Projection, on six publicly available text-classification datasets of varying size and complexity. Empirical results show that our method consistently performs similar to or better than several alternative state-of-the-art approaches.
翻訳日:2021-02-11 06:15:30 公開日:2021-02-07
# (参考訳) 自然言語処理のための表現学習

Representation Learning for Natural Language Processing ( http://arxiv.org/abs/2102.03732v1 )

ライセンス: CC BY 4.0
Zhiyuan Liu, Yankai Lin, Maosong Sun(参考訳) 本書は,NLPにおける分散表現学習の最近の進歩について,表現学習がNLPを改善できる理由,表現学習がNLPの様々な重要なトピックにどのように関与するか,分散表現によってまだ解決されていない課題について,レビューし,提示することを目的としている。

This book aims to review and present the recent advances of distributed representation learning for NLP, including why representation learning can improve NLP, how representation learning takes part in various important topics of NLP, and what challenges are still not well addressed by distributed representation.
翻訳日:2021-02-11 06:02:10 公開日:2021-02-07
# (参考訳) ディープラーニングを用いた超高速DCE-MRIにおける乳房病変の自動検出 [全文訳有]

Automatic Breast Lesion Detection in Ultrafast DCE-MRI Using Deep Learning ( http://arxiv.org/abs/2102.03932v1 )

ライセンス: CC BY 4.0
Fazael Ayatollahi (1 and 2), Shahriar B. Shokouhi (1), Ritse M. Mann (2), Jonas Teuwen (2 and 3) ((1) Electrical Engineering Department, Iran University of Science and Technology (IUST), Tehran, Iran, (2) Department of Radiology and Nuclear Medicine, Radboud University Medical Center, Nijmegen, the Netherlands, (3) Department of Radiation Oncology, Netherlands Cancer Institute, Amsterdam, the Netherlands)(参考訳) 目的:超高速DCE-MRIにおける乳房病変検出のための深層学習型コンピュータ支援検出法(CADe)を提案する。 本手法は,動的獲得の初期段階から得られた3次元空間情報と時間情報の両方を用いており,提案手法は3次元RetinaNetモデルに基づいて,動作補償,時間正規化,およびモデルに渡す前に収穫される超高速なT1重み付きシーケンスを演算する。 The model is optimized to enable the detection of relatively small breast lesions in a screening setting, focusing on detection of lesions that are harder to differentiate from confounding structures inside the breast.Results: The method was developed based on a dataset consisting of 489 ultrafast MRI studies obtained from 462 patients containing a total of 572 lesions (365 malignant, 207 benign) and achieved a detection rate, sensitivity, and detection rate of benign lesions of 0.90, 0.95, and 0.86 at 4 false positives per normal breast with a 10-fold cross-validation, respectively.Conclus ions: The deep learning architecture used for the proposed CADe application can efficiently detect benign and malignant lesions on ultrafast DCE-MRI. さらに, 訓練中の難読度が低くなることで, 学習過程が改善し, 乳腺悪性病変も検出される。

Purpose: We propose a deep learning-based computer-aided detection (CADe) method to detect breast lesions in ultrafast DCE-MRI sequences. This method uses both the three-dimensional spatial information and temporal information obtained from the early-phase of the dynamic acquisition.Methods: The proposed CADe method, based on a modified 3D RetinaNet model, operates on ultrafast T1 weighted sequences, which are preprocessed for motion compensation, temporal normalization, and are cropped before passing into the model. The model is optimized to enable the detection of relatively small breast lesions in a screening setting, focusing on detection of lesions that are harder to differentiate from confounding structures inside the breast.Results: The method was developed based on a dataset consisting of 489 ultrafast MRI studies obtained from 462 patients containing a total of 572 lesions (365 malignant, 207 benign) and achieved a detection rate, sensitivity, and detection rate of benign lesions of 0.90, 0.95, and 0.86 at 4 false positives per normal breast with a 10-fold cross-validation, respectively.Conclus ions: The deep learning architecture used for the proposed CADe application can efficiently detect benign and malignant lesions on ultrafast DCE-MRI. Furthermore, utilizing the less visible hard-to detect-lesions in training improves the learning process and, subsequently, detection of malignant breast lesions.
翻訳日:2021-02-11 04:30:02 公開日:2021-02-07
# (参考訳) 機能的最適輸送:機能的データに対するマッピング推定とドメイン適応 [全文訳有]

Functional Optimal Transport: Mapping Estimation and Domain Adaptation for Functional data ( http://arxiv.org/abs/2102.03895v1 )

ライセンス: CC BY 4.0
Jiacheng Zhu, Aritra Guha, Mengdi Xu, Yingchen Ma, Rayleigh Lei, Vincenzo Loffredo, XuanLong Nguyen, Ding Zhao(参考訳) 最適輸送(OT)は、ある分布から別の分布へ質量を輸送するマッピングを見つける能力によって、近年の関心を集めており、教師なし学習、ドメイン適応、移動学習といった機械学習タスクにおいて有用な役割を見出した。 一方、多くの応用において、データは高次元の関数、曲線、曲面の畳み込み空間を含む複雑なメカニズムによって生成される。 機能データ分析は、そのような領域に対する治療の有用なフレームワークを提供する。 本稿では,関数空間における最適輸送問題の新たな定式化と,関数領域間の確率写像を求める効率的な学習アルゴリズムを提案する。 本手法を合成データセットに適用し,輸送地図の幾何学的性質を検討する。 実世界におけるロボットアーム軌跡と数字のデータセット実験により,ドメイン適応と生成モデルの適用性について,本手法の有効性が示された。

Optimal transport (OT) has generated much recent interest by its capability of finding mappings that transport mass from one distribution to another, and found useful roles in machine learning tasks such as unsupervised learning, domain adaptation and transfer learning. On the other hand, in many applications data are generated by complex mechanisms involving convoluted spaces of functions, curves and surfaces in high dimensions. Functional data analysis provides a useful framework of treatment for such domains. In this paper we introduce a novel formulation of optimal transport problem in functional spaces and develop an efficient learning algorithm for finding the stochastic map between functional domains. We apply our method to synthetic datasets and study the geometric properties of the transport map. Experiments on real-world datasets of robot arm trajectories and digit numbers further demonstrate the effectiveness of our method on applications of domain adaptation and generative modeling.
翻訳日:2021-02-11 02:04:53 公開日:2021-02-07
# (参考訳) 非線形メトリック学習のための次元自由一般化境界 [全文訳有]

Dimension Free Generalization Bounds for Non Linear Metric Learning ( http://arxiv.org/abs/2102.03802v1 )

ライセンス: CC BY 4.0
Mark Kozdoba and Shie Mannor(参考訳) 本研究では,データのニューラルネットワーク型埋め込みによってメトリックが誘導される計量学習問題に対する一般化保証について検討する。 具体的には、2つのレジーム - スパースレジーム、および \emph{bounded amplification} と呼ばれる非スパースレジームに対して一様一般化境界を与える。 スパース規則境界は、パラメータの$\ell_1$-typeノルムが小さい状況に対応する。 分類の状況と同様に、そのような境界を満たす解は問題の適切な正則化によって得られる。 一方、メトリック学習損失の非正規化SGD最適化は、典型的にはスパースソリューションを生成しません。 このような疎性の欠如にもかかわらず、解の異なる新しい性質を頼りにすることで、次元自由一般化保証を提供することが可能であることを示す。 したがって、これらの境界は非スパース実実験的状況における一般化を説明することができる。 mnistおよび20newsgroupsデータセット上での研究現象について述べる。

In this work we study generalization guarantees for the metric learning problem, where the metric is induced by a neural network type embedding of the data. Specifically, we provide uniform generalization bounds for two regimes -- the sparse regime, and a non-sparse regime which we term \emph{bounded amplification}. The sparse regime bounds correspond to situations where $\ell_1$-type norms of the parameters are small. Similarly to the situation in classification, solutions satisfying such bounds can be obtained by an appropriate regularization of the problem. On the other hand, unregularized SGD optimization of a metric learning loss typically does not produce sparse solutions. We show that despite this lack of sparsity, by relying on a different, new property of the solutions, it is still possible to provide dimension free generalization guarantees. Consequently, these bounds can explain generalization in non sparse real experimental situations. We illustrate the studied phenomena on the MNIST and 20newsgroups datasets.
翻訳日:2021-02-11 01:48:44 公開日:2021-02-07
# フォトニックナノ構造の知識発見と知能逆設計のためのマニフォールド学習:幾何学的複雑さを破る

Manifold Learning for Knowledge Discovery and Intelligent Inverse Design of Photonic Nanostructures: Breaking the Geometric Complexity ( http://arxiv.org/abs/2102.04454v1 )

ライセンス: Link先を確認
Mohammadreza Zandehshahvar, Yashar Kiarashi, Muliang Zhu, Hossein Maleki, Tyler Brown, and Ali Adibi(参考訳) 本稿では,フォトニックナノ構造における知識発見と逆設計のための多様体学習に基づく新しいアプローチを提案する。 提案手法は,よりインテリジェントな設計を導くためのデバイス操作の物理に関する貴重な知見を得るために,潜在空間における設計複雑さが異なるナノ構造のサブマニフォールドの応答を研究することに基づく。 本手法は, フォトニックナノ構造の逆設計法とは対照的に, 初期設計から最も単純な構造への進化を可能とし, 逆問題も解決できることが示唆された。

Here, we present a new approach based on manifold learning for knowledge discovery and inverse design with minimal complexity in photonic nanostructures. Our approach builds on studying sub-manifolds of responses of a class of nanostructures with different design complexities in the latent space to obtain valuable insight about the physics of device operation to guide a more intelligent design. In contrast to the current methods for inverse design of photonic nanostructures, which are limited to pre-selected and usually over-complex structures, we show that our method allows evolution from an initial design towards the simplest structure while solving the inverse problem.
翻訳日:2021-02-10 14:52:34 公開日:2021-02-07
# (参考訳) プレイフィールドのティルティング:機械学習のための動的損失関数 [全文訳有]

Tilting the playing field: Dynamical loss functions for machine learning ( http://arxiv.org/abs/2102.03793v1 )

ライセンス: CC BY-SA 4.0
Miguel Ruiz-Garcia, Ge Zhang, Samuel S. Schoenholz, Andrea J. Liu(参考訳) 学習中に周期的に進化する損失関数を用いて1つのクラスを同時に強調することにより、学習を改善することができることを示す。 低パラメータネットワークでは、そのような動的損失関数は、標準のクロスエントロピー損失の深いミニマムを見つけることができないネットワークのトレーニングに成功する可能性がある。 過パラメータネットワークでは、動的損失関数はより良い一般化につながる可能性がある。 改善は、損失を最小限に抑えるために進化するシステムのダイナミクスと、変化する損失景観の相互作用から生じる。 特に、損失関数が振動するにつれて、不安定性は分岐カスケードの形で発達し、ヘッセンおよびニューラルタンジェントカーネルを用いて研究する。 風景の谷は拡大し、深くなり、サイクル中に失われた風景が変わるにつれて狭くなります。 風景が狭まるにつれて、学習率が大きくなり、ネットワークが不安定になり、谷の周りに跳ね返る。 この過程は最終的に系を損失ランドスケープのより深くより広い領域に押し込み、ヘッセンの固有値の減少を特徴とする。 これにより、正規化モデルが向上し、一般化性能が向上します。

We show that learning can be improved by using loss functions that evolve cyclically during training to emphasize one class at a time. In underparameterized networks, such dynamical loss functions can lead to successful training for networks that fail to find a deep minima of the standard cross-entropy loss. In overparameterized networks, dynamical loss functions can lead to better generalization. Improvement arises from the interplay of the changing loss landscape with the dynamics of the system as it evolves to minimize the loss. In particular, as the loss function oscillates, instabilities develop in the form of bifurcation cascades, which we study using the Hessian and Neural Tangent Kernel. Valleys in the landscape widen and deepen, and then narrow and rise as the loss landscape changes during a cycle. As the landscape narrows, the learning rate becomes too large and the network becomes unstable and bounces around the valley. This process ultimately pushes the system into deeper and wider regions of the loss landscape and is characterized by decreasing eigenvalues of the Hessian. This results in better regularized models with improved generalization performance.
翻訳日:2021-02-10 14:34:03 公開日:2021-02-07
# (参考訳) モノリスアプリケーションをリファクタリングするためのグラフニューラルネットワーク [全文訳有]

Graph Neural Network to Dilute Outliers for Refactoring Monolith Application ( http://arxiv.org/abs/2102.03827v1 )

ライセンス: CC BY 4.0
Utkarsh Desai, Sambaran Bandyopadhyay, Srikanth Tamilselvam(参考訳) マイクロサービスはソフトウェアアーキテクチャのデファクトな設計選択になりつつある。 開発が独立して行えるように、ソフトウェアコンポーネントをより細かいモジュールに分割すること。 また、要求に応じてリソースを動的に必要なコンポーネントに割り当てることができるので、クラウドにデプロイする際の自然なメリットも提供する。 したがって、企業はクラウドへの移行の一環として、モノリスアプリケーションを1つまたは複数の候補マイクロサービスにリファクタリングしようとしています。各サービスには共通の機能を担うソフトウェアエンティティ(クラスなど)のグループが含まれています。 グラフはソフトウェアシステムを表現するための自然な選択です。 各ソフトウェアエンティティはノードとして表現でき、他のエンティティとの依存関係はリンクとして表現できる。 したがって、このリファクタリングの問題はグラフベースのクラスタリングタスクと見なすことができる。 本研究では,ソフトウェアをよりよく理解し,クラスタリングタスクに適用するために,コードコンテキストにおけるグラフニューラルネットワークの最近の進歩を適応するための新しい手法を提案する。 このプロセスでは、ソフトウェア内の最上位のリファクタリング候補に直接マッピング可能なグラフの外れ値も特定します。 我々のソリューションは、ソフトウェア工学と既存のグラフ表現に基づく技術の両方の成果と比較して、最先端のパフォーマンスを向上させることができる。

Microservices are becoming the defacto design choice for software architecture. It involves partitioning the software components into finer modules such that the development can happen independently. It also provides natural benefits when deployed on the cloud since resources can be allocated dynamically to necessary components based on demand. Therefore, enterprises as part of their journey to cloud, are increasingly looking to refactor their monolith application into one or more candidate microservices; wherein each service contains a group of software entities (e.g., classes) that are responsible for a common functionality. Graphs are a natural choice to represent a software system. Each software entity can be represented as nodes and its dependencies with other entities as links. Therefore, this problem of refactoring can be viewed as a graph based clustering task. In this work, we propose a novel method to adapt the recent advancements in graph neural networks in the context of code to better understand the software and apply them in the clustering task. In that process, we also identify the outliers in the graph which can be directly mapped to top refactor candidates in the software. Our solution is able to improve state-of-the-art performance compared to works from both software engineering and existing graph representation based techniques.
翻訳日:2021-02-10 11:23:50 公開日:2021-02-07
# (参考訳) 単発cuboids:球面パノラマを用いた測地線に基づくエンドツーエンドマンハッタンアラインレイアウト推定 [全文訳有]

Single-Shot Cuboids: Geodesics-based End-to-end Manhattan Aligned Layout Estimation from Spherical Panoramas ( http://arxiv.org/abs/2102.03939v1 )

ライセンス: CC BY 4.0
Nikolaos Zioulis, Federico Alvarez, Dimitrios Zarpalas, Petros Daras(参考訳) レイアウト推定などのグローバルなシーン理解タスクは、広い視野、特に球面パノラマの恩恵を受けることができることが示されています。 近年、多くの進展が見られたが、以前のアプローチはすべて中間表現と後処理に依存してマンハッタンに整合した見積もりを生成する。 本稿では,全室レイアウトを単一ショットで推定する方法を示し,後処理の必要性を解消する。 私たちの仕事はマンハッタン整列アウトプットを直接推論する最初のものです。 これを達成するために、データ駆動モデルは直接座標回帰を利用して、エンドツーエンドで監視されます。 その結果、ホモグラフィに基づくマンハッタンアライメントモジュールに必要な条件を設定する擬似マンタン制約を明示的に追加することができる。 最後に,測地線ヒートマップと損失,球面領域における高品質キーポイント推定を容易にする質量計算の境界認識中心について紹介する。 私たちのモデルとコードはhttps://vcl3d.github .io/SingleShotCuboid s/で公開されています。

It has been shown that global scene understanding tasks like layout estimation can benefit from wider field of views, and specifically spherical panoramas. While much progress has been made recently, all previous approaches rely on intermediate representations and postprocessing to produce Manhattan-aligned estimates. In this work we show how to estimate full room layouts in a single-shot, eliminating the need for postprocessing. Our work is the first to directly infer Manhattan-aligned outputs. To achieve this, our data-driven model exploits direct coordinate regression and is supervised end-to-end. As a result, we can explicitly add quasi-Manhattan constraints, which set the necessary conditions for a homography-based Manhattan alignment module. Finally, we introduce the geodesic heatmaps and loss and a boundary-aware center of mass calculation that facilitate higher quality keypoint estimation in the spherical domain. Our models and code are publicly available at https://vcl3d.github .io/SingleShotCuboid s/.
翻訳日:2021-02-10 10:41:33 公開日:2021-02-07
# (参考訳) ドメイン一般化のためのドメイン逆ニューラルネットワーク:それが機能する時と改善方法 [全文訳有]

Domain Adversarial Neural Networks for Domain Generalization: When It Works and How to Improve ( http://arxiv.org/abs/2102.03924v1 )

ライセンス: CC BY 4.0
Anthony Sicilia, Xingchen Zhao, Seong Jae Hwang(参考訳) 理論的には、ドメイン適応はよく研究された問題である。 さらに、この理論は実際よく使われている。 特に、Ben-Davidらによるターゲット誤差の上限について言及する。 (2010)と、Ganin and Lempitsky (2015) が提示したDomain Adversarial Neural Networks (DANN) を用いたこの研究に基づく有名なドメイン適応アルゴリズム。 近年,ドメイン一般化の問題に対して,DANNの複数の変種が提案されているが,本来のモチベーション境界についてはあまり議論されていない。 本稿では,ドメイン一般化におけるDANNの有効性について検討する。 DANNの応用が理にかなっている条件について検討し、DANNをトレーニング中の動的プロセスとみなす。 本研究は,ドメイン一般化へのDANNの適用が,見かけほど単純ではないことを示唆している。 そこで本研究では,ドメイン一般化におけるDANNのアルゴリズム拡張を設計する。 我々の実験は理論とアルゴリズムの両方を検証する。

Theoretically, domain adaptation is a well-researched problem. Further, this theory has been well-used in practice. In particular, we note the bound on target error given by Ben-David et al. (2010) and the well-known domain-aligning algorithm based on this work using Domain Adversarial Neural Networks (DANN) presented by Ganin and Lempitsky (2015). Recently, multiple variants of DANN have been proposed for the related problem of domain generalization, but without much discussion of the original motivating bound. In this paper, we investigate the validity of DANN in domain generalization from this perspective. We investigate conditions under which application of DANN makes sense and further consider DANN as a dynamic process during training. Our investigation suggests that the application of DANN to domain generalization may not be as straightforward as it seems. To address this, we design an algorithmic extension to DANN in the domain generalization case. Our experimentation validates both theory and algorithm.
翻訳日:2021-02-10 10:21:48 公開日:2021-02-07
# (参考訳) 不十分な推論とMaxEntの原理の因果バージョン [全文訳有]

Causal version of Principle of Insufficient Reason and MaxEnt ( http://arxiv.org/abs/2102.03906v1 )

ライセンス: CC BY 4.0
Dominik Janzing(参考訳) 不十分な推論の原理(PIR)は、一方が他方よりも優先する理由がない場合に、ランダムな実験の選択肢ごとに等しい確率を割り当てる。 MaxEnt(Maximum Entropy)は、期待などの統計情報が与えられる場合にPIRを一般化します。 両方の原理が原因と効果の共同分布のパラドックス確率更新をもたらすことが知られている。 これは条件付き p( effect | cause) の制約によって p( because) が変化し、その効果により多くの選択肢を提供する原因の値に高い確率を割り当てるようになり、「意図的行動」が示唆されるからである。 初期の研究は、因果順に従って(条件付き)エントロピーを逐次最大化することを示唆していたが、おもちゃの具体例の妥当性とは別に、さらなる正当化は行わなかった。 私たちは、PIRとMaxEntの因果的な修正を、原因から効果を生み出すメカニズムの制約と制限に制約を分けることによって正当化します。 Causal PIRが「情報幾何因果推論」を含む理由をさらにスケッチします。 MaxEnt の因果バージョンを任意の因果 DAG に一般化する問題について簡単に説明します。

The Principle of insufficient Reason (PIR) assigns equal probabilities to each alternative of a random experiment whenever there is no reason to prefer one over the other. Maximum Entropy (MaxEnt) generalizes PIR to the case where statistical information like expectations are given. It is known that both principles result in paradox probability updates for joint distributions of cause and effect. This is because constraints on the conditional P(effect | cause) result in changes of P(cause) that assign higher probability to those values of the cause that offer more options for the effect, suggesting 'intentional behaviour'. Earlier work therefore suggested sequentially maximizing (conditional) entropy according to the causal order, but without further justification apart from plausibility for toy examples. We justify causal modifications of PIR and MaxEnt by separating constraints into restrictions for the cause and restrictions for the mechanism that generates the effect from the cause. We further sketch why Causal PIR also entails 'Information Geometric Causal Inference'. We briefly discuss problems of generalizing the causal version of MaxEnt to arbitrary causal DAGs.
翻訳日:2021-02-10 08:30:58 公開日:2021-02-07
# (参考訳) PAC-Bayes Bounds for Meta- Learning with Data-Dependent Prior [全文訳有]

PAC-Bayes Bounds for Meta-learning with Data-Dependent Prior ( http://arxiv.org/abs/2102.03748v1 )

ライセンス: CC0 1.0
Tianyu Liu, Jie Lu, Zheng Yan, Guangquan Zhang(参考訳) 過去のタスクからの経験を活用することで、メタラーニングアルゴリズムは新しいタスクに遭遇したときに効果的な迅速な適応能力を達成できます。 しかし、一般化プロパティが新しいタスクにどのように適用されるかは不明である。 おそらくほぼ正しい(PAC)ベイズ境界理論はメタラーニングの一般化性能を分析する理論的枠組みを提供する。 PAC-Bayes相対エントロピー境界に基づくメタラーニングのための3つの新しい一般化誤差境界を導出する。 さらに,経験的リスク最小化(ERM)手法を用いて,データ依存型メタラーニングのためのPAC-Bayesバウンドを開発した。 実験では、メタラーニングのための3つのPAC-Bayes境界が競合的な一般化性能保証を保証し、データ依存の事前結合された拡張PAC-Bayesが迅速な収束能力を達成できることが示されている。

By leveraging experience from previous tasks, meta-learning algorithms can achieve effective fast adaptation ability when encountering new tasks. However it is unclear how the generalization property applies to new tasks. Probably approximately correct (PAC) Bayes bound theory provides a theoretical framework to analyze the generalization performance for meta-learning. We derive three novel generalisation error bounds for meta-learning based on PAC-Bayes relative entropy bound. Furthermore, using the empirical risk minimization (ERM) method, a PAC-Bayes bound for meta-learning with data-dependent prior is developed. Experiments illustrate that the proposed three PAC-Bayes bounds for meta-learning guarantee a competitive generalization performance guarantee, and the extended PAC-Bayes bound with data-dependent prior can achieve rapid convergence ability.
翻訳日:2021-02-10 08:12:19 公開日:2021-02-07
# (参考訳) ディープqネットワークのための状態対応変分トンプソンサンプリング [全文訳有]

State-Aware Variational Thompson Sampling for Deep Q-Networks ( http://arxiv.org/abs/2102.03719v1 )

ライセンス: CC BY 4.0
Siddharth Aravindan, Wee Sun Lee(参考訳) thompson samplingは強化学習における探索と搾取のバランスをとるためのよく知られたアプローチである。 価値アクション関数の後方分布を維持する必要があるが、高次元のステートアクション空間を持つタスクでは一般的には役に立たない。 学習した変動雑音分布によってパラメータが摂動するディープネットワークを用いたDQNに対する変分トンプソンサンプリング近似を導出する。 提案手法は,本手法が導出する変分トンプソンサンプリング法の近似として,成功したNoisyNets法を解釈する。 さらに、パラメータの摂動の量がエージェントの状態によって調整されるような不均一な摂動を可能にすることにより、NoisyNetsの改善を目指すState Aware Noisy Exploration(SANE)を提案します。 これは、出力が状態に依存し、勾配降下で終わりから終わりまで学習される補助摂動モジュールの助けを借りて行われる。 このような状態認識型のノイズ探索は、特定の \textit{high risk}状態における探索がエージェントの失敗に繋がる可能性のある問題において特に有用であると仮定する。 補助摂動モジュールを用いたDQNの増強により、オフポリシ設定における状態認識探索法の有効性を実証する。

Thompson sampling is a well-known approach for balancing exploration and exploitation in reinforcement learning. It requires the posterior distribution of value-action functions to be maintained; this is generally intractable for tasks that have a high dimensional state-action space. We derive a variational Thompson sampling approximation for DQNs which uses a deep network whose parameters are perturbed by a learned variational noise distribution. We interpret the successful NoisyNets method \cite{fortunato2018noisy} as an approximation to the variational Thompson sampling method that we derive. Further, we propose State Aware Noisy Exploration (SANE) which seeks to improve on NoisyNets by allowing a non-uniform perturbation, where the amount of parameter perturbation is conditioned on the state of the agent. This is done with the help of an auxiliary perturbation module, whose output is state dependent and is learnt end to end with gradient descent. We hypothesize that such state-aware noisy exploration is particularly useful in problems where exploration in certain \textit{high risk} states may result in the agent failing badly. We demonstrate the effectiveness of the state-aware exploration method in the off-policy setting by augmenting DQNs with the auxiliary perturbation module.
翻訳日:2021-02-10 06:16:02 公開日:2021-02-07
# (参考訳) 神経終末解析 [全文訳有]

Neural Termination Analysis ( http://arxiv.org/abs/2102.03824v1 )

ライセンス: CC BY 4.0
Mirco Giacobbe, Daniel Kroening, Julian Parsert(参考訳) 我々はニューラルネットワークをトレーニングしてランキング関数として機能させるという,コンピュータプログラムの自動終端解析に新たなアプローチを導入する。 ランク付け関数は、プログラムが実行するときに下からバウンドされ減少する値にプログラムをマップする。 有効なランキング関数の存在は、プログラムが終了することを証明する。 過去のランキング関数は通常静的解析を用いて構築されているが,本手法はサンプル実行から学習する。 ニューラルネットワークをトレーニングして、ランキング機能として実行トレースに沿って出力が減少するようにします。次に、すべての実行に一般化するかどうかを形式的な推論で検証します。 辞書ランキング関数を学習し、満足度変調理論を用いて検証するカスタム損失関数を提案する。 ニューラルネットワークをうまく一般化する能力のおかげで、我々の手法は様々なプログラムで成功している。 これには標準ライブラリのデータ構造を使用するプログラムが含まれる。 Javaバイトコード用のプロトタイプアナライザを構築し、ベンチマークの標準データセットに対するメソッドの有効性を示した。

We introduce a novel approach to the automated termination analysis of computer programs: we train neural networks to act as ranking functions. Ranking functions map program states to values that are bounded from below and decrease as the program runs. The existence of a valid ranking function proves that the program terminates. While in the past ranking functions were usually constructed using static analysis, our method learns them from sampled executions. We train a neural network so that its output decreases along execution traces as a ranking function would; then, we use formal reasoning to verify whether it generalises to all possible executions. We present a custom loss function for learning lexicographic ranking functions and use satisfiability modulo theories for verification. Thanks to the ability of neural networks to generalise well, our method succeeds over a wide variety of programs. This includes programs that use data structures from standard libraries. We built a prototype analyser for Java bytecode and show the efficacy of our method over a standard dataset of benchmarks.
翻訳日:2021-02-10 03:07:55 公開日:2021-02-07
# (参考訳) プライベートサポートベクトルマシンのロバスト説明 [全文訳有]

Robust Explanations for Private Support Vector Machines ( http://arxiv.org/abs/2102.03785v1 )

ライセンス: CC BY 4.0
Rami Mochaourab and Sugandh Sinha and Stanley Greenstein and Panagiotis Papapetrou(参考訳) 我々は、分類器を公開するプライバシ機構が差分プライバシーを保証するプライベートサポートベクターマシン(svm)の反事実説明を検討する。 機密データを扱う場合、プライバシー保護は不可欠であるが、分類器重みに導入された摂動によって分類精度が低下する。 このような分類器では、説明すべきデータインスタンスの分類が、その説明と異なることを確実にするために、SVM重みの不確実性に対して反実的説明が堅牢である必要がある。 確率ベクトルによるSVM重みの不確実性をモデル化し、確率的制約による最適化問題として説明問題を定式化する。 続いて,問題の決定論的等価性を特徴付け,その解を考察する。 線形SVMの場合、問題は凸2次コーンプログラムである。 非線形SVMの場合、問題は非凸である。 そこで本研究ではbisection法に基づくサブ最適解を提案する。 以上の結果から,ロバストでない説明とは対照的に,ロバストなソリューションによる説明の質は,適切な分類の信頼度を保証するために,プライバシーの増大とともに低下することがわかった。

We consider counterfactual explanations for private support vector machines (SVM), where the privacy mechanism that publicly releases the classifier guarantees differential privacy. While privacy preservation is essential when dealing with sensitive data, there is a consequent degradation in the classification accuracy due to the introduced perturbations in the classifier weights. For such classifiers, counterfactual explanations need to be robust against the uncertainties in the SVM weights in order to ensure, with high confidence, that the classification of the data instance to be explained is different than its explanation. We model the uncertainties in the SVM weights through a random vector, and formulate the explanation problem as an optimization problem with probabilistic constraint. Subsequently, we characterize the problem's deterministic equivalent and study its solution. For linear SVMs, the problem is a convex second-order cone program. For non-linear SVMs, the problem is non-convex. Thus, we propose a sub-optimal solution that is based on the bisection method. The results show that, contrary to non-robust explanations, the quality of explanations from the robust solution degrades with increasing privacy in order to guarantee a prespecified confidence level for correct classifications.
翻訳日:2021-02-10 02:54:58 公開日:2021-02-07
# (参考訳) 生成型adversarial netsによるブラックボックス最適化 [全文訳有]

Black-Box Optimization via Generative Adversarial Nets ( http://arxiv.org/abs/2102.03888v1 )

ライセンス: CC BY 4.0
Minfang Lu, Fengyang Sun, Lin Wang, Bo Yang, Shuangrong Liu(参考訳) ブラックボックス最適化(BBO)アルゴリズムは、解析的詳細を欠く問題に対する最良の解を見つけることを目的としている。 そのような問題のほとんどの古典的方法は、ガウス分布のような強かつ固定な \emph{a priori} 仮定に基づいている。 しかし、多くの複雑な実世界の問題は \emph{a priori} 分布から遠く離れており、これらの方法に予期せぬ障害をもたらす。 本稿では,オプティマ分布を推定することで,ブラックボックス問題の探索を導くために,生成逆ネット(opt-gan)を用いた最適化手法を提案する。 この方法は選択候補が支配する最適領域の広範な分布を学習する。 実験により、OPT-GANは他の古典的BBOアルゴリズム、特にガウス的仮定のアルゴリズムよりも優れていることが示された。

Black-box optimization (BBO) algorithms are concerned with finding the best solutions for the problems with missing analytical details. Most classical methods for such problems are based on strong and fixed \emph{a priori} assumptions such as Gaussian distribution. However, lots of complex real-world problems are far from the \emph{a priori} distribution, bringing some unexpected obstacles to these methods. In this paper, we present an optimizer using generative adversarial nets (OPT-GAN) to guide search on black-box problems via estimating the distribution of optima. The method learns the extensive distribution of the optimal region dominated by selective candidates. Experiments demonstrate that OPT-GAN outperforms other classical BBO algorithms, in particular the ones with Gaussian assumptions.
翻訳日:2021-02-09 23:14:05 公開日:2021-02-07
# (参考訳) 畳み込みニューラルネットワークエンコーダデコーダモデルを用いたX線光子相関分光法のノイズ低減 [全文訳有]

Noise Reduction in X-ray Photon Correlation Spectroscopy with Convolutional Neural Networks Encoder-Decoder Models ( http://arxiv.org/abs/2102.03877v1 )

ライセンス: CC BY 4.0
Tatiana Konstantinova, Lutz Wiegart, Maksim Rakitin, Anthony M. DeGennaro, Andi M. Barbour(参考訳) 他の実験手法と同様に、x線光子相関分光法は様々なノイズの対象となる。 ランダムおよび相関ゆらぎと不均一性は2時間相関関数に存在し、サンプルの固有力学に関する情報を曖昧にすることができる。 実験データのノイズの異なる起源を同時に解決することは困難です。 畳み込みニューラルネットワークエンコーダデコーダ(CNN-ED)モデルに基づく2時間相関関数の信号対雑音比向上のための計算手法を提案する。 このようなモデルは畳み込み層を介して画像から特徴を抽出し、低次元空間に投影し、変換された畳み込み層を介してこの縮小表現からクリーンイメージを再構築する。 EDモデルがランダムノイズ除去の一般的なツールであるだけでなく、低信号対雑音データへの適用は、信号の機能形態を学ぶことができるため、データの定量的使用率を高めることができる。 実世界の実験データに基づいて訓練されたcnn-edモデルは,統計ノイズと動的不均一性を含む2時間相関関数から平衡ダイナミクスパラメータを効果的に抽出するのに役立つ。 モデルのパフォーマンスと適用可能性の限界を最適化するための戦略を議論する。

Like other experimental techniques, X-ray Photon Correlation Spectroscopy is a subject to various kinds of noise. Random and correlated fluctuations and heterogeneities can be present in a two-time correlation function and obscure the information about the intrinsic dynamics of a sample. Simultaneously addressing the disparate origins of noise in the experimental data is challenging. We propose a computational approach for improving the signal-to-noise ratio in two-time correlation functions that is based on Convolutional Neural Network Encoder-Decoder (CNN-ED) models. Such models extract features from an image via convolutional layers, project them to a low dimensional space and then reconstruct a clean image from this reduced representation via transposed convolutional layers. Not only are ED models a general tool for random noise removal, but their application to low signal-to-noise data can enhance the data quantitative usage since they are able to learn the functional form of the signal. We demonstrate that the CNN-ED models trained on real-world experimental data help to effectively extract equilibrium dynamics parameters from two-time correlation functions, containing statistical noise and dynamic heterogeneities. Strategies for optimizing the models performance and their applicability limits are discussed.
翻訳日:2021-02-09 23:02:09 公開日:2021-02-07
# (参考訳) 深層学習のための適応最適化器を誘起する構造化スパーシティ [全文訳有]

Structured Sparsity Inducing Adaptive Optimizers for Deep Learning ( http://arxiv.org/abs/2102.03869v1 )

ライセンス: CC BY 4.0
Tristan Deleu, Yoshua Bengio(参考訳) ニューラルネットワークのパラメータは自然にグループ化され、その一部は全体的なパフォーマンスに寄与しないかもしれない。 パラメータの重要でないグループを排除するために、目的関数に非微分性のペナルティを含み、近位勾配法を用いて最小化することができる。 本稿では,これら近位法の必要成分である重み付き近位演算子を2つの構造的間隔で導出し,罰則を導出する。 さらに, 数値解法を用いて効率よく近似することが可能であり, この近似にも拘わらず, これらの演算子を一般適応近似法の一部として統合した場合, 既存の収束保証が保存されることを示す。 最後に, この適応法は, 重み付き近位作用素とともに, コンピュータビジョンや自然言語処理の代表的な例として, スパーシティパターンの構造を持つ解を見つけることができることを示す。

The parameters of a neural network are naturally organized in groups, some of which might not contribute to its overall performance. To prune out unimportant groups of parameters, we can include some non-differentiable penalty to the objective function, and minimize it using proximal gradient methods. In this paper, we derive the weighted proximal operator, which is a necessary component of these proximal methods, of two structured sparsity inducing penalties. Moreover, they can be approximated efficiently with a numerical solver, and despite this approximation, we prove that existing convergence guarantees are preserved when these operators are integrated as part of a generic adaptive proximal method. Finally, we show that this adaptive method, together with the weighted proximal operators derived here, is indeed capable of finding solutions with structure in their sparsity patterns, on representative examples from computer vision and natural language processing.
翻訳日:2021-02-09 22:51:54 公開日:2021-02-07
# (参考訳) トポロジカルデータ分析に基づく分類

Classification based on Topological Data Analysis ( http://arxiv.org/abs/2102.03709v1 )

ライセンス: CC BY 4.0
Rolando Kindelan and Jos\'e Fr\'ias and Mauricio Cerda and Nancy Hitschfeld(参考訳) トポロジカルデータ分析(TDA)は、データセットに隠されたトポロジカル情報を発見することを目的とした緊急フィールドです。 TDAツールは、機械学習(ML)メソッドを改善するためのフィルタとトポロジカルディスクリプタを作成するために一般的に使用されています。 本論文では,マルチクラス分類問題や不均衡データセットに直接TDAを適用するアルゴリズムを提案する。 提案するアルゴリズムは、データセット上にフィルタされた単純化複合体を構築した。 永続ホモロジーは、ラベルのない点がラベル付き隣接点から最も票の多いラベルを得る部分複合体を選択するガイドに適用される。 提案手法を評価するために, クラス絡み合いの度合い, クラス毎のサンプルの変動性, 次元の8つのデータセットを選定した。 提案手法は平均して,各計算値,特に絡み合ったクラスとマイノリティクラスにおいて,ベースライン分類器(wk-NNとk-NN)を克服する。

Topological Data Analysis (TDA) is an emergent field that aims to discover topological information hidden in a dataset. TDA tools have been commonly used to create filters and topological descriptors to improve Machine Learning (ML) methods. This paper proposes an algorithm that applies TDA directly to multi-class classification problems, even imbalanced datasets, without any further ML stage. The proposed algorithm built a filtered simplicial complex on the dataset. Persistent homology is then applied to guide choosing a sub-complex where unlabeled points obtain the label with most votes from labeled neighboring points. To assess the proposed method, 8 datasets were selected with several degrees of class entanglement, variability on the samples per class, and dimensionality. On average, the proposed TDABC method was capable of overcoming baseline classifiers (wk-NN and k-NN) in each of the computed metrics, especially on classifying entangled and minority classes.
翻訳日:2021-02-09 22:10:25 公開日:2021-02-07
# (参考訳) 対比イメージングパイプライン [全文訳有]

Adversarial Imaging Pipelines ( http://arxiv.org/abs/2102.03728v1 )

ライセンス: CC BY 4.0
Buu Phan, Fahim Mannan, Felix Heide(参考訳) 敵対的攻撃は、ディープニューラルネットワークの予測を理解し、その堅牢性を改善する上で重要な役割を果たす。 既存の攻撃方法は、分類器に直接供給されるRGB画像を操作することによって、畳み込みニューラルネットワーク(CNN)ベースの分類器を欺くことを目指している。 しかし、これらのアプローチは通常、ネットワーク入力を生成するカメラ光学および画像処理パイプライン(ISP)の影響を無視します。 ISPはRAW測定をRGB画像に変換し、伝統的に敵のパターンを保存することが想定されている。 しかし、これらの低レベルのパイプラインは、実際に下流の検出器を欺きかねない敵のパターンを破壊、導入、または増幅することができる。 その結果、特定のカメラISPや光学装置に変換された後に、最適化されたパターンが分類器の敵になる可能性があるが、他ではそうではない。 本研究では、同一のダウンストリーム分類器を用いて、特定のカメラISPを欺くような攻撃を他人を無傷にしながら検討・開発する。 カメラ固有の攻撃を、isp自体の微分可能な近似に依存するマルチタスク最適化問題として捉える。 提案手法を最近の自動車用ハードウェアISPを用いて検証し,特定のISPを攻撃した場合に,92%の騙し率を達成した。 我々は、特定のカメラレンズに対して90%の騙し率で物理的光学攻撃を示す。

Adversarial attacks play an essential role in understanding deep neural network predictions and improving their robustness. Existing attack methods aim to deceive convolutional neural network (CNN)-based classifiers by manipulating RGB images that are fed directly to the classifiers. However, these approaches typically neglect the influence of the camera optics and image processing pipeline (ISP) that produce the network inputs. ISPs transform RAW measurements to RGB images and traditionally are assumed to preserve adversarial patterns. However, these low-level pipelines can, in fact, destroy, introduce or amplify adversarial patterns that can deceive a downstream detector. As a result, optimized patterns can become adversarial for the classifier after being transformed by a certain camera ISP and optic but not for others. In this work, we examine and develop such an attack that deceives a specific camera ISP while leaving others intact, using the same down-stream classifier. We frame camera-specific attacks as a multi-task optimization problem, relying on a differentiable approximation for the ISP itself. We validate the proposed method using recent state-of-the-art automotive hardware ISPs, achieving 92% fooling rate when attacking a specific ISP. We demonstrate physical optics attacks with 90% fooling rate for a specific camera lenses.
翻訳日:2021-02-09 20:19:47 公開日:2021-02-07
# (参考訳) モデル強化Q-ラーニング [全文訳有]

Model-Augmented Q-learning ( http://arxiv.org/abs/2102.03866v1 )

ライセンス: CC BY 4.0
Youngmin Oh, Jinwoo Shin, Eunho Yang, Sung Ju Hwang(参考訳) 近年,モデルフリー強化学習(MFRL)にはQ$-learningが不可欠である。 しかし、それは、政策学習に悪影響を及ぼす可能性のある値の過小評価バイアスなどのよく知られた問題に苦しんでいます。 そこで本研究では,モデルベースRLのコンポーネントを付加したMFRLフレームワークを提案する。 具体的には、$Q$値だけでなく、共有ネットワークでのトランジションと報酬の両方を推定することを提案する。 さらに,モデル推定者からの推定報酬を$q$学習に活用し,推定者間のインタラクションを促進する。 提案されたスキームはモデル拡張$Q$-ラーニング(MQL)と呼ばれ、真の報酬で学習することによって得られるソリューションと同一のポリシー不変のソリューションを得る。 最後に,モデル推定誤差を利用して,リプレイバッファにおける過去の経験を優先するトリックも提供する。 我々は、最先端のオフポリティクスMFRL法に基づいて構築されたMQLを実験的に検証し、MQLが性能と収束性を大幅に改善することを示す。 提案方式は実装が簡単で,追加のトレーニングコストを必要としない。

In recent years, $Q$-learning has become indispensable for model-free reinforcement learning (MFRL). However, it suffers from well-known problems such as under- and overestimation bias of the value, which may adversely affect the policy learning. To resolve this issue, we propose a MFRL framework that is augmented with the components of model-based RL. Specifically, we propose to estimate not only the $Q$-values but also both the transition and the reward with a shared network. We further utilize the estimated reward from the model estimators for $Q$-learning, which promotes interaction between the estimators. We show that the proposed scheme, called Model-augmented $Q$-learning (MQL), obtains a policy-invariant solution which is identical to the solution obtained by learning with true reward. Finally, we also provide a trick to prioritize past experiences in the replay buffer by utilizing model-estimation errors. We experimentally validate MQL built upon state-of-the-art off-policy MFRL methods, and show that MQL largely improves their performance and convergence. The proposed scheme is simple to implement and does not require additional training cost.
翻訳日:2021-02-09 18:29:54 公開日:2021-02-07
# (参考訳) 動的オプティミズムを用いた深層強化学習 [全文訳有]

Deep Reinforcement Learning with Dynamic Optimism ( http://arxiv.org/abs/2102.03765v1 )

ライセンス: CC BY 4.0
Ted Moskovitz, Jack Parker-Holder, Aldo Pacchiano, Michael Arbel(参考訳) 近年,連続制御のための強化学習において,深部オフポリシーのアクタ-クリティックアルゴリズムが主流となっている。 これは、関数近似エラーに対処するための一連のブレークスルーの後に発生し、以前はパフォーマンスが悪くなりました。 これらの洞察は悲観的な価値更新の使用を促進する。 しかし、これは探検を妨げ、不確実性に直面した楽観主義の有効性に対する理論的支持に逆らう。 どのアプローチが最善か? 本研究では,最適な楽観性の度合いが,課題や学習過程によって異なることを示す。 この洞察に触発され、我々は、マルチアームバンディット問題として選択を定式化することによって、オンライン楽観的および悲観的価値学習を切り替える新しいディープアクタークリティカルアルゴリズム、ダイナミックオプティミティと悲観的推定(DOPE)を導入しました。 DOPEは、一定の楽観性に依存する既存の最先端の方法よりも優れている一連の挑戦的な連続制御タスクを示します。 私たちの変更は実装が簡単なため、これらの洞察は多くのオフポリシーアルゴリズムに拡張できると考えています。

In recent years, deep off-policy actor-critic algorithms have become a dominant approach to reinforcement learning for continuous control. This comes after a series of breakthroughs to address function approximation errors, which previously led to poor performance. These insights encourage the use of pessimistic value updates. However, this discourages exploration and runs counter to theoretical support for the efficacy of optimism in the face of uncertainty. So which approach is best? In this work, we show that the optimal degree of optimism can vary both across tasks and over the course of learning. Inspired by this insight, we introduce a novel deep actor-critic algorithm, Dynamic Optimistic and Pessimistic Estimation (DOPE) to switch between optimistic and pessimistic value learning online by formulating the selection as a multi-arm bandit problem. We show in a series of challenging continuous control tasks that DOPE outperforms existing state-of-the-art methods, which rely on a fixed degree of optimism. Since our changes are simple to implement, we believe these insights can be extended to a number of off-policy algorithms.
翻訳日:2021-02-09 18:08:23 公開日:2021-02-07
# (参考訳) 強化学習におけるフレームスキップの解析 [全文訳有]

An Analysis of Frame-skipping in Reinforcement Learning ( http://arxiv.org/abs/2102.03718v1 )

ライセンス: CC BY 4.0
Shivaram Kalyanakrishnan, Siddharth Aravindan, Vishwajeet Bagdawat, Varun Bhatt, Harshith Goka, Archit Gupta, Kalpesh Krishna, Vihari Piratla(参考訳) 連続的な意思決定の実践では、エージェントはしばしば$d$時間ステップ、$d > 1$の定期的な間隔で状態を感知するように設計され、感知ステップの間の状態情報を無視します。 このプラクティスがセンシングと計算コストを削減できることは明らかですが、最近の結果はさらなるメリットを示しています。 多くのatariコンソールゲームでは、強化学習(rl)アルゴリズムは、$d > 1$で実行した場合、大幅に優れたポリシーを提供する。 本稿では,rlにおけるパラメータ $d$ の役割について検討する。$d$ は atari ドメインの状態がイメージであるため,"frame-skip" パラメータと呼ばれる。 固定ポリシーの評価には,標準条件下ではフレームスキッピングは漸近的一貫性に影響を与えない。 他のパラメータによっては、学習の恩恵を受けることさえできます。 制御設定で$d > 1$を使用するには、最初に、どの$d$-step open-loopアクションシーケンスをセンシングステップ間で実行できるかを指定する必要がある。 我々は、この選択を同じアクションの$d$-lengthシーケンスに共通の制限である"action-repetition&qu ot;に焦点を当てている。 我々は「慣性値」と呼ばれるタスク依存量を定義し、行動反復によって生じる損失を上向きに定義する。 この損失は、より小さなタスクの地平線によって学習にもたらされる利得によって相殺される可能性がある。 我々の分析は、様々なタスクや学習アルゴリズムの実験によって支えられている。

In the practice of sequential decision making, agents are often designed to sense state at regular intervals of $d$ time steps, $d > 1$, ignoring state information in between sensing steps. While it is clear that this practice can reduce sensing and compute costs, recent results indicate a further benefit. On many Atari console games, reinforcement learning (RL) algorithms deliver substantially better policies when run with $d > 1$ -- in fact with $d$ even as high as $180$. In this paper, we investigate the role of the parameter $d$ in RL; $d$ is called the "frame-skip" parameter, since states in the Atari domain are images. For evaluating a fixed policy, we observe that under standard conditions, frame-skipping does not affect asymptotic consistency. Depending on other parameters, it can possibly even benefit learning. To use $d > 1$ in the control setting, one must first specify which $d$-step open-loop action sequences can be executed in between sensing steps. We focus on "action-repetition&qu ot;, the common restriction of this choice to $d$-length sequences of the same action. We define a task-dependent quantity called the "price of inertia", in terms of which we upper-bound the loss incurred by action-repetition. We show that this loss may be offset by the gain brought to learning by a smaller task horizon. Our analysis is supported by experiments on different tasks and learning algorithms.
翻訳日:2021-02-09 17:46:23 公開日:2021-02-07
# SeReNe: ニューラルネットワークにおける構造空間に対するニューロンの正則化

SeReNe: Sensitivity based Regularization of Neurons for Structured Sparsity in Neural Networks ( http://arxiv.org/abs/2102.03773v1 )

ライセンス: Link先を確認
Enzo Tartaglione, Andrea Bragagnolo, Francesco Odierna, Attilio Fiandrotti, Marco Grangetto(参考訳) 深層ニューラルネットワークには数百万の学習可能なパラメータが含まれているため、リソースに制約のあるデバイスへのデプロイが問題になる。 SeReNe(Sensitivity-b ased regularization of Neurons)は、神経の感度を正規化として利用し、構造を持つスパーストポロジを学習する手法である。 我々はニューロンの感度をニューロンの活動の変動に関するネットワーク出力の変動として定義する。 ニューロンの感度が低いほど、ニューロンの出力が変化すると、ネットワーク出力が摂動される。 ニューロンの感度を正規化項としてコスト関数に含めることで、感度の低いニューロンをプルートすることができる。 ニューロン全体が刈り取られるので、単一のパラメータでネットワークのフットプリントを削減できる。 複数のネットワークアーキテクチャとデータセットに対する実験結果から,最先端参照に対する競合圧縮比が得られた。

Deep neural networks include millions of learnable parameters, making their deployment over resource-constrained devices problematic. SeReNe (Sensitivity-based Regularization of Neurons) is a method for learning sparse topologies with a structure, exploiting neural sensitivity as a regularizer. We define the sensitivity of a neuron as the variation of the network output with respect to the variation of the activity of the neuron. The lower the sensitivity of a neuron, the less the network output is perturbed if the neuron output changes. By including the neuron sensitivity in the cost function as a regularization term, we areable to prune neurons with low sensitivity. As entire neurons are pruned rather then single parameters, practical network footprint reduction becomes possible. Our experimental results on multiple network architectures and datasets yield competitive compression ratios with respect to state-of-the-art references.
翻訳日:2021-02-09 16:13:25 公開日:2021-02-07
# SPADE : Black-Box Adversarial Robustness 評価のためのスペクトル法

SPADE: A Spectral Method for Black-Box Adversarial Robustness Evaluation ( http://arxiv.org/abs/2102.03716v1 )

ライセンス: Link先を確認
Wuxinlin Cheng, Chenhui Deng, Zhiqiang Zhao, Yaohui Cai, Zhiru Zhang, Zhuo Feng(参考訳) 所定の機械学習(ML)モデルの逆ロバスト性を評価するためのブラックボックススペクトル法を提案する。 提案手法は,入出力データに対応する多様体を近似するために構築した入出力グラフ間の単射距離マッピングを利用する。 一般化 Courant-Fischer の定理を利用して、与えられたモデルの逆ロバスト性を評価するためのSPADEスコアを提案し、これは多様体設定の下での最良のリプシッツ定数の上界であることが証明される。 逆行攻撃に非常に弱い最も非ロバストなデータサンプルを明らかにするために,支配的一般化固有ベクトルを用いたスペクトルグラフ埋め込み手法を開発した。 この埋め込みステップにより、各データサンプルに堅牢性スコアを割り当てることができ、より効果的な敵対的トレーニングにさらに活用できます。 提案手法は,mnistとcifar-10のデータセットを相反的に学習したニューラルネットワークモデルに対して有望な実験結果をもたらすことを示す。

A black-box spectral method is introduced for evaluating the adversarial robustness of a given machine learning (ML) model. Our approach, named SPADE, exploits bijective distance mapping between the input/output graphs constructed for approximating the manifolds corresponding to the input/output data. By leveraging the generalized Courant-Fischer theorem, we propose a SPADE score for evaluating the adversarial robustness of a given model, which is proved to be an upper bound of the best Lipschitz constant under the manifold setting. To reveal the most non-robust data samples highly vulnerable to adversarial attacks, we develop a spectral graph embedding procedure leveraging dominant generalized eigenvectors. This embedding step allows assigning each data sample a robustness score that can be further harnessed for more effective adversarial training. Our experiments show the proposed SPADE method leads to promising empirical results for neural network models adversarially trained with the MNIST and CIFAR-10 data sets.
翻訳日:2021-02-09 16:11:48 公開日:2021-02-07
# MIN2Net: 主観非依存運動画像脳波分類のためのエンドツーエンドマルチタスク学習

MIN2Net: End-to-End Multi-Task Learning for Subject-Independent Motor Imagery EEG Classification ( http://arxiv.org/abs/2102.03814v1 )

ライセンス: Link先を確認
Phairot Autthasan, Rattanaphon Chaisaen, Thapanun Sudhawiyangkul, Phurin Rangpong, Suktipol Kiatthaveephong, Nat Dilokthanakul, Gun Bhakdisongkhram, Huy Phan, Cuntai Guan and Theerawit Wilaiprasitporn(参考訳) 運動画像(MI)ベースの脳-コンピュータインタフェース(BCI)の進歩は、神経生理学的現象をデコードすることでいくつかの応用を制御し、通常は非侵襲的手法を用いて脳波(EEG)によって記録される。 MIベースのBCIの大幅な進歩にもかかわらず、脳波のリズムは主題に特有であり、時間とともに様々な変化が生じる。 これらの問題は、特に主題に依存しない方法で分類性能を向上させるための重要な課題を示している。 これらの課題を克服するために,この課題に対処するための新しいエンドツーエンドマルチタスク学習であるMIN2Netを提案する。 ディープメトリック学習をマルチタスクオートエンコーダに統合し,脳波からコンパクトかつ識別可能な潜在表現を学習し,同時に分類を行う。 このアプローチにより、前処理の複雑さが減少し、EEG分類のパフォーマンスが大幅に向上します。 被験者に依存しない方法での実験結果は、MIN2Netが最新技術を上回ることを示し、それぞれBCIコンペティションIV 2a、SMR-BCI、OpenBMIデータセットで11.65%、1.03%、および10.53%の精度向上を達成した。 MIN2Netが潜在表現における識別情報を改善することを実証する。 本研究は, キャリブレーションを必要とせず, 新規ユーザ向けにMIベースのBCIアプリケーションを開発できる可能性と実用性を示す。

Advances in the motor imagery (MI)-based brain-computer interfaces (BCIs) allow control of several applications by decoding neurophysiological phenomena, which are usually recorded by electroencephalograp hy (EEG) using a non-invasive technique. Despite great advances in MI-based BCI, EEG rhythms are specific to a subject and various changes over time. These issues point to significant challenges to enhance the classification performance, especially in a subject-independent manner. To overcome these challenges, we propose MIN2Net, a novel end-to-end multi-task learning to tackle this task. We integrate deep metric learning into a multi-task autoencoder to learn a compact and discriminative latent representation from EEG and perform classification simultaneously. This approach reduces the complexity in pre-processing, results in significant performance improvement on EEG classification. Experimental results in a subject-independent manner show that MIN2Net outperforms the state-of-the-art techniques, achieving an accuracy improvement of 11.65%, 1.03%, and 10.53% on the BCI competition IV 2a, SMR-BCI, and OpenBMI datasets, respectively. We demonstrate that MIN2Net improves discriminative information in the latent representation. This study indicates the possibility and practicality of using this model to develop MI-based BCI applications for new users without the need for calibration.
翻訳日:2021-02-09 16:11:31 公開日:2021-02-07
# 強化学習による分離結合畳み込みニューラルネットワーク分類器

Sparsely ensembled convolutional neural network classifiers via reinforcement learning ( http://arxiv.org/abs/2102.03921v1 )

ライセンス: Link先を確認
Roman Malashin ((1) Pavlov institute of Physiology RAS, (2) State University of Aerospace Instrumentation, Saint-Petersburg, Russia)(参考訳) 本稿では,最小行動原理に触発された目的関数を用いた畳み込みニューラルネットワーク(cnn)アンサンブル学習について検討する。 エージェントに事前学習された分類器のセットを通してイメージを知覚させ、得られた動的に構成されたシステムが計算グラフを最小の演算数と最大期待精度を示す軌道で展開するように指示する。 提案するエージェントのアーキテクチャは強化学習の助けを借りて,必要な分類器選択関数を暗黙的に近似する。 実験の結果,エージェントが動的(かつ文脈に依存した)計算構造を利用する場合,従来のアンサンブル学習よりも優れることがわかった。

We consider convolutional neural network (CNN) ensemble learning with the objective function inspired by least action principle; it includes resource consumption component. We teach an agent to perceive images through the set of pre-trained classifiers and want the resulting dynamically configured system to unfold the computational graph with the trajectory that refers to the minimal number of operations and maximal expected accuracy. The proposed agent's architecture implicitly approximates the required classifier selection function with the help of reinforcement learning. Our experimental results prove, that if the agent exploits the dynamic (and context-dependent) structure of computations, it outperforms conventional ensemble learning.
翻訳日:2021-02-09 16:11:06 公開日:2021-02-07
# CSS-LM:事前訓練言語モデルの半教師付き微調整のためのコントラストフレームワーク

CSS-LM: A Contrastive Framework for Semi-supervised Fine-tuning of Pre-trained Language Models ( http://arxiv.org/abs/2102.03752v1 )

ライセンス: Link先を確認
Yusheng Su, Xu Han, Yankai Lin, Zhengyan Zhang, Zhiyuan Liu, Peng Li, Maosong Sun(参考訳) 微調整プリトレーニング言語モデル(PLM)は、最近、さまざまな下流のNLPタスクでその効果を実証しています。 しかし、多くの低リソースシナリオでは、従来の微調整戦略は下流タスクの重要な意味的特徴を十分に捉えられない。 そこで本研究では, 対照的半教師学習によるPLMの微調整を改善すべく, 新たなフレームワーク (CSS-LM) を提案する。 具体的には、特定のタスクが与えられた場合、そのタスクに対するドメインレベルおよびクラスレベルの意味的関連性に応じて、大規模未ラベルコーパスから正および負のインスタンスを検索する。 次に、検索したラベル付きおよびオリジナルラベル付きの両方のインスタンスに対して、対照的な半教師付き学習を行い、PLMが重要なタスク関連セマンティックな特徴をキャプチャするのを助ける。 実験結果から,CSS-LMは一連の下流タスクにおいて,従来の微調整戦略よりも優れた結果が得られ,最新の教師付きコントラスト微調整戦略よりも優れていた。 データセットとソースコードは、詳細を提供するために公開されます。

Fine-tuning pre-trained language models (PLMs) has demonstrated its effectiveness on various downstream NLP tasks recently. However, in many low-resource scenarios, the conventional fine-tuning strategies cannot sufficiently capture the important semantic features for downstream tasks. To address this issue, we introduce a novel framework (named "CSS-LM") to improve the fine-tuning phase of PLMs via contrastive semi-supervised learning. Specifically, given a specific task, we retrieve positive and negative instances from large-scale unlabeled corpora according to their domain-level and class-level semantic relatedness to the task. We then perform contrastive semi-supervised learning on both the retrieved unlabeled and original labeled instances to help PLMs capture crucial task-related semantic features. The experimental results show that CSS-LM achieves better results than the conventional fine-tuning strategy on a series of downstream tasks with few-shot settings, and outperforms the latest supervised contrastive fine-tuning strategies. Our datasets and source code will be available to provide more details.
翻訳日:2021-02-09 16:09:24 公開日:2021-02-07
# Nystr\"omformer: Nystr\"om-based Algorithm for Approximating Self-Attention

Nystr\"omformer: A Nystr\"om-Based Algorithm for Approximating Self-Attention ( http://arxiv.org/abs/2102.03902v1 )

ライセンス: Link先を確認
Yunyang Xiong, Zhanpeng Zeng, Rudrasis Chakraborty, Mingxing Tan, Glenn Fung, Yin Li, Vikas Singh(参考訳) トランスフォーマーは、幅広い自然言語処理タスクのための強力なツールとして登場した。 トランスフォーマーの印象的なパフォーマンスを駆動するキーコンポーネントは、特定のトークンに対する他のトークンの影響や依存をエンコードするセルフアテンションメカニズムである。 有益ではあるが、入力シーケンスの長さに対する自己注意の二次的な複雑さは、その応用を長いシーケンスに限定している。 この制限に対処するため、シーケンス長の関数として良好なスケーラビリティを示すモデルである Nystr\"omformer を提案する。 我々のアイデアは、nystr\"om 法を $o(n)$ の複雑さで標準自己着脱近似に適応させることに基づいている。 Nystr\"omformerのスケーラビリティにより、アプリケーションは何千ものトークンで長いシーケンスを実行できる。 我々はGLUEベンチマークとIMDBレビューで複数のダウンストリームタスクの評価を行い、我々のNystr\"omformerが標準のTransformerよりも相補的、あるいはいくつかのケースで若干良い結果が得られることを確認した。 私たちのコードはhttps://github.com/m lpen/Nystromformerにあります。

Transformers have emerged as a powerful tool for a broad range of natural language processing tasks. A key component that drives the impressive performance of Transformers is the self-attention mechanism that encodes the influence or dependence of other tokens on each specific token. While beneficial, the quadratic complexity of self-attention on the input sequence length has limited its application to longer sequences -- a topic being actively studied in the community. To address this limitation, we propose Nystr\"omformer -- a model that exhibits favorable scalability as a function of sequence length. Our idea is based on adapting the Nystr\"om method to approximate standard self-attention with $O(n)$ complexity. The scalability of Nystr\"omformer enables application to longer sequences with thousands of tokens. We perform evaluations on multiple downstream tasks on the GLUE benchmark and IMDB reviews with standard sequence length, and find that our Nystr\"omformer performs comparably, or in a few cases, even slightly better, than standard Transformer. Our code is at https://github.com/m lpen/Nystromformer.
翻訳日:2021-02-09 16:09:08 公開日:2021-02-07
# online limited memory neural-linear bandits with likelihood matching

Online Limited Memory Neural-Linear Bandits with Likelihood Matching ( http://arxiv.org/abs/2102.03799v1 )

ライセンス: Link先を確認
Ofir Nabati, Tom Zahavy and Shie Mannor(参考訳) 本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,神経線形バンディットについて検討する。 ニューラルネットワークの帯域幅は、Deep Neural Networks(DNN)の表現力を生かし、最後の隠蔽層の上に線形コンテキスト帯域幅を設計するための効率的な探索メカニズムと組み合わせる。 近年の「無限幅」システムにおけるDNNの解析では、これらのモデルが勾配降下で訓練された場合、最適解は初期化点に近づき、DNNはカーネルマシンと見なせることが示唆されている。 その結果、カーネル構築を通じてDNN上の線形探索アルゴリズムを利用することができる。 問題は、実際にはカーネルが学習プロセス中に変化し、エージェントのパフォーマンスが低下することです。 これは、新しい不確実性推定をストアドデータで再計算することで解決できる。 それでもバッファのサイズが限られると、破滅的忘れという現象が現れる。 代わりに,大惨事に耐性を持ち,完全にオンラインである確率マッチングアルゴリズムを提案する。 様々なデータセット上でシミュレーションを行い、我々のアルゴリズムが無数のメモリアプローチに匹敵する性能を達成し、破滅的な記憶に対するレジリエンスを示すことを観察する。

We study neural-linear bandits for solving problems where both exploration and representation learning play an important role. Neural-linear bandits leverage the representation power of Deep Neural Networks (DNNs) and combine it with efficient exploration mechanisms designed for linear contextual bandits on top of the last hidden layer. A recent analysis of DNNs in the "infinite-width" regime suggests that when these models are trained with gradient descent the optimal solution is close to the initialization point and the DNN can be viewed as a kernel machine. As a result, it is possible to exploit linear exploration algorithms on top of a DNN via the kernel construction. The problem is that in practice the kernel changes during the learning process and the agent's performance degrades. This can be resolved by recomputing new uncertainty estimations with stored data. Nevertheless, when the buffer's size is limited, a phenomenon called catastrophic forgetting emerges. Instead, we propose a likelihood matching algorithm that is resilient to catastrophic forgetting and is completely online. We perform simulations on a variety of datasets and observe that our algorithm achieves comparable performance to the unlimited memory approach while exhibits resilience to catastrophic forgetting.
翻訳日:2021-02-09 16:08:48 公開日:2021-02-07
# ニューラルタンジェントカーネルを用いたメタラーニング

Meta-Learning with Neural Tangent Kernels ( http://arxiv.org/abs/2102.03909v1 )

ライセンス: Link先を確認
Yufan Zhou, Zhenyi Wang, Jiayi Xian, Changyou Chen, Jinhui Xu(参考訳) Model Agnostic Meta-Learning(MAML)はメタ学習の標準フレームワークとして登場し、メタモデルは新しいタスクに迅速に適応する能力によって学習される。 しかし、二重ループ最適化問題として、MMLは、外部ループのトレーニングステップごとに内部ループ全体の最適化パスを区別する必要があります。 本稿では,メタラーニングを関数空間で定義するための MAML を一般化し,メタモデルのニューラルタンジェントカーネル (NTK) によって誘導される再生成カーネルヒルベルト空間 (RKHS) における最初のメタラーニングパラダイムを提案する。 このパラダイムでは、RKHSに2つのメタラーニングアルゴリズムを導入し、MDLフレームワークのようにサブオプティマティックな反復インナーループ適応を必要としない。 本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。 広範な実験により, 関連するメタ学習アルゴリズムと比較して, ソリューションの効率と品質の両方において, このパラダイムの利点が示された。 提案手法のもう1つの興味深い特徴は,我々の実験で示されたように,敵の攻撃や分散適応に対して,一般的なベースラインよりも頑健であることが示されていることである。

Model Agnostic Meta-Learning (MAML) has emerged as a standard framework for meta-learning, where a meta-model is learned with the ability of fast adapting to new tasks. However, as a double-looped optimization problem, MAML needs to differentiate through the whole inner-loop optimization path for every outer-loop training step, which may lead to both computational inefficiency and sub-optimal solutions. In this paper, we generalize MAML to allow meta-learning to be defined in function spaces, and propose the first meta-learning paradigm in the Reproducing Kernel Hilbert Space (RKHS) induced by the meta-model's Neural Tangent Kernel (NTK). Within this paradigm, we introduce two meta-learning algorithms in the RKHS, which no longer need a sub-optimal iterative inner-loop adaptation as in the MAML framework. We achieve this goal by 1) replacing the adaptation with a fast-adaptive regularizer in the RKHS; and 2) solving the adaptation analytically based on the NTK theory. Extensive experimental studies demonstrate advantages of our paradigm in both efficiency and quality of solutions compared to related meta-learning algorithms. Another interesting feature of our proposed methods is that they are demonstrated to be more robust to adversarial attacks and out-of-distribution adaptation than popular baselines, as demonstrated in our experiments.
翻訳日:2021-02-09 16:08:28 公開日:2021-02-07
# 「ショートは恐怖から憎しみへと導く道」:インドのWhatsAppグループにおける恐怖のスピーチ

"Short is the Road that Leads from Fear to Hate": Fear Speech in Indian WhatsApp Groups ( http://arxiv.org/abs/2102.03870v1 )

ライセンス: Link先を確認
Punyajoy Saha, Binny Mathew, Kiran Garimella, Animesh Mukherjee(参考訳) WhatsAppは世界でもっとも人気のあるメッセージングアプリだ。 その人気により、WhatsAppは、2019年のインド総選挙で広く使われている政治キャンペーンのための強力で安価なツールとなり、大規模な投票者への接続に使用された。 このキャンペーンに加えて、WhatsAppは様々な保護団体や宗教的少数派に対する有害なスピーチの場にもなっているという報道もある。 このようなメッセージの多くは、特定の(少数派)コミュニティに対する恐怖を鎮めようとしている。 グループ間紛争の研究によれば、このような「恐ろしい言動」メッセージは永続的な影響をもたらし、真のオフライン暴力につながる可能性がある。 本稿では,インドの政治を議論する数千の公開WhatsAppグループを対象に,恐怖のスピーチに関する大規模な研究を行った。 新しいデータセットをキュレートし、このデータセットから恐怖のスピーチを特徴付けるようにします。 恐怖のメッセージを書くユーザは、さまざまなイベントやシンボルを使って、対象とするコミュニティに対する読者の恐怖の錯覚を創り出す。 我々は,恐怖音声を分類するモデルを構築し,現状のnlpモデルでは,このタスクではうまく機能しないことを示す。 恐怖的な音声メッセージは急速に広まり、従来の有害な音声を検出するために構築された分類器によって検出されない可能性がある。 最後に、Facebookの広告でユーザーをターゲットとする新しい手法を用いて、これらのWhatsAppグループのユーザーの間で調査を行い、恐怖の言葉を消費し共有するユーザーのタイプを理解する。 この研究は、研究コミュニティが伝統的に関わってきたヘイトスピーチに取り組むのとは大きく異なる新しい研究問題を開くと信じています。

WhatsApp is the most popular messaging app in the world. Due to its popularity, WhatsApp has become a powerful and cheap tool for political campaigning being widely used during the 2019 Indian general election, where it was used to connect to the voters on a large scale. Along with the campaigning, there have been reports that WhatsApp has also become a breeding ground for harmful speech against various protected groups and religious minorities. Many such messages attempt to instil fear among the population about a specific (minority) community. According to research on inter-group conflict, such `fear speech' messages could have a lasting impact and might lead to real offline violence. In this paper, we perform the first large scale study on fear speech across thousands of public WhatsApp groups discussing politics in India. We curate a new dataset and try to characterize fear speech from this dataset. We observe that users writing fear speech messages use various events and symbols to create the illusion of fear among the reader about a target community. We build models to classify fear speech and observe that current state-of-the-art NLP models do not perform well at this task. Fear speech messages tend to spread faster and could potentially go undetected by classifiers built to detect traditional toxic speech due to their low toxic nature. Finally, using a novel methodology to target users with Facebook ads, we conduct a survey among the users of these WhatsApp groups to understand the types of users who consume and share fear speech. We believe that this work opens up new research questions that are very different from tackling hate speech which the research community has been traditionally involved in.
翻訳日:2021-02-09 16:06:14 公開日:2021-02-07
# 重り付きバンドのレグレット最小化

Regret Minimization in Heavy-Tailed Bandits ( http://arxiv.org/abs/2102.03734v1 )

ライセンス: Link先を確認
Shubhada Agrawal, Sandeep Juneja, Wouter M. Koolen(参考訳) 腕の分布に重み付けが許される確率的マルチアームバンディット設定における古典的後悔最小化問題を再考する。 レグレト最小化は、単一のパラメータ指数族に属する有界支持報酬分布または分布の単純な設定でよく研究されている。 順序 $(1+\epsilon)$ のモーメントは、与えられた $\epsilon > 0$ に対して既知の定数 B によって一様に有界であるというより弱い仮定の下で働く。 1次項において下限に正確に一致する最適アルゴリズムを提案する。 我々はまた、その後悔に有限時間縛りを与える。 重み付き分布の平均値に対して,我々の指数はよく知られた切り裂かれたあるいはトリミングされた経験的平均推定値よりも早く集中することを示した。 インデックスの計算は計算的に要求される。 そこで本研究では,バッチサイズに依存する乗算定数に最適化されたバッチベースのアルゴリズムを提案する。 したがって,統計的最適性と計算コストのトレードオフを制御できる。

We revisit the classic regret-minimization problem in the stochastic multi-armed bandit setting when the arm-distributions are allowed to be heavy-tailed. Regret minimization has been well studied in simpler settings of either bounded support reward distributions or distributions that belong to a single parameter exponential family. We work under the much weaker assumption that the moments of order $(1+\epsilon)$ are uniformly bounded by a known constant B, for some given $\epsilon > 0$. We propose an optimal algorithm that matches the lower bound exactly in the first-order term. We also give a finite-time bound on its regret. We show that our index concentrates faster than the well known truncated or trimmed empirical mean estimators for the mean of heavy-tailed distributions. Computing our index can be computationally demanding. To address this, we develop a batch-based algorithm that is optimal up to a multiplicative constant depending on the batch size. We hence provide a controlled trade-off between statistical optimality and computational cost.
翻訳日:2021-02-09 16:03:56 公開日:2021-02-07
# 無限チャネル深層安定畳み込みニューラルネットワーク

Infinite-channel deep stable convolutional neural networks ( http://arxiv.org/abs/2102.03739v1 )

ライセンス: Link先を確認
Daniele Bracale, Stefano Favaro, Sandra Fortini, Stefano Peluchetti(参考訳) 無限幅ニューラルネットワーク (NN) とガウス過程 (GP) のクラスとの相互作用は、Neal (1996) のセミナルな研究から知られている。 近年、多くの理論的改良が提案されているが、NNとGP間の相互作用は、NNのパラメータに関する2つの重要な分布仮定に依存している:A1)有限分散;A2)独立分布と同一分布(iid)。 本稿では,深層フィードフォワード畳み込みnnの一般的な文脈において,a1を除去する問題を考える。 特に,安定分布に従って分布するiidパラメータを仮定し,適切なスケーリング下での深いフィードフォワード畳み込みnnの無限チャネル極限は,多変量安定な有限次元分布を持つ確率過程であることを示す。 このような制限分布は、層上のパラメータの明示的な後方再帰によって特徴づけられる。 私たちの貢献はFavaro et alの結果を拡張します。 2020年)は畳み込みアーキテクチャに転換し、GPの限界のクラスに依存するエキサイティングな最近の研究ラインを拡大する方法を切り拓きます。

The interplay between infinite-width neural networks (NNs) and classes of Gaussian processes (GPs) is well known since the seminal work of Neal (1996). While numerous theoretical refinements have been proposed in the recent years, the interplay between NNs and GPs relies on two critical distributional assumptions on the NN's parameters: A1) finite variance; A2) independent and identical distribution (iid). In this paper, we consider the problem of removing A1 in the general context of deep feed-forward convolutional NNs. In particular, we assume iid parameters distributed according to a stable distribution and we show that the infinite-channel limit of a deep feed-forward convolutional NNs, under suitable scaling, is a stochastic process with multivariate stable finite-dimensional distributions. Such a limiting distribution is then characterized through an explicit backward recursion for its parameters over the layers. Our contribution extends results of Favaro et al. (2020) to convolutional architectures, and it paves the way to expand exciting recent lines of research that rely on classes of GP limits.
翻訳日:2021-02-09 16:03:33 公開日:2021-02-07
# パワーローデータストリーム下のカウントミンスケッチに対するベイズ非パラメトリックアプローチ

A Bayesian nonparametric approach to count-min sketch under power-law data streams ( http://arxiv.org/abs/2102.03743v1 )

ライセンス: Link先を確認
Emanuele Dolera, Stefano Favaro, Stefano Peluchetti(参考訳) カウントミンスケッチ(CMS)は、ランダムハッシュによるデータの圧縮表現を使用して、大規模なデータストリーム内のトークンの周波数の推定を提供するランダム化されたデータ構造です。 本論文では、最近のベイズ非パラメトリック(BNP)ビューをCMSに頼って、パワーローデータストリームの下で新しい学習強化CMSを開発する。 ストリーム内のトークンは未知の離散分布から引き出されると仮定し、それ以前に正規化された逆ガウス過程(NIGP)が与えられる。 そして、NIGPの分布特性を用いて、ハッシュデータに基づき、ストリーム内のトークンの周波数の後方分布を計算し、対応するBNP推定を行う。 合成および実データへの応用は,低周波トークンの推定において顕著な性能を達成していることを示す。 これは自然言語処理の文脈において望ましい特徴として知られており、データの力則の振る舞いの文脈では確かに一般的である。

The count-min sketch (CMS) is a randomized data structure that provides with estimates of tokens' frequencies in a large data stream using a compressed representation of the data by random hashing. In this paper, we rely on a recent Bayesian nonparametric (BNP) view on the CMS to develop a novel learning-augmented CMS under power-law data streams. We assume that tokens in the stream are drawn from an unknown discrete distribution, which is endowed with a normalized inverse Gaussian process (NIGP) prior. Then, using distributional properties of the NIGP, we compute the posterior distribution of a token's frequency in the stream, given the hashed data, and in turn corresponding BNP estimates. Applications to synthetic and real data show that our approach achieves a remarkable performance in the estimation of low-frequency tokens. This is known to be a desirable feature in the context of natural language processing, where it is indeed common in the context of the power-law behaviour of the data.
翻訳日:2021-02-09 16:03:12 公開日:2021-02-07
# 記憶と非確率制御による非定常オンライン学習

Non-stationary Online Learning with Memory and Non-stochastic Control ( http://arxiv.org/abs/2102.03758v1 )

ライセンス: Link先を確認
Peng Zhao and Yu-Xiang Wang and Zhi-Hua Zhou(参考訳) 我々は,過去の決定に依拠した損失関数を記憶機能に組み込んだオンライン凸最適化(OCO)の問題について検討し,学習課題の時間的影響を捉えた。 本稿では,ノンステーショナリーな環境に堅牢なアルゴリズムを設計するためのパフォーマンス尺度として動的ポリシーの後悔について紹介する。 我々は,最適な動的ポリシーの後悔を確実に享受するメモリを持つOCOの新しいアルゴリズムを提案する。 重要な技術的課題は、スイッチングコスト、プレイヤーの決定の累積的な動きを制御する方法であり、動的ポリシーの後悔の新しい分解と適切なメタエキスパート構造によってうまく対処されます。 さらに, オンライン非確率制御, すなわち, 対向障害や凸損失関数を伴う線形力学系を制御する問題に対して, 結果を一般化する。 我々は,方針変更の順序に匹敵する最初のコントローラである動的ポリシー後悔保証を備えた,新しい勾配ベースのコントローラを導出する。

We study the problem of Online Convex Optimization (OCO) with memory, which allows loss functions to depend on past decisions and thus captures temporal effects of learning problems. In this paper, we introduce dynamic policy regret as the performance measure to design algorithms robust to non-stationary environments, which competes algorithms' decisions with a sequence of changing comparators. We propose a novel algorithm for OCO with memory that provably enjoys an optimal dynamic policy regret. The key technical challenge is how to control the switching cost, the cumulative movements of player's decisions, which is neatly addressed by a novel decomposition of dynamic policy regret and an appropriate meta-expert structure. Furthermore, we generalize the results to the problem of online non-stochastic control, i.e., controlling a linear dynamical system with adversarial disturbance and convex loss functions. We derive a novel gradient-based controller with dynamic policy regret guarantees, which is the first controller competitive to a sequence of changing policies.
翻訳日:2021-02-09 16:02:56 公開日:2021-02-07
# 説明から説明するためのバンディット

Bandits for Learning to Explain from Explanations ( http://arxiv.org/abs/2102.03815v1 )

ライセンス: Link先を確認
Freya Behrens, Stefano Teso, Davide Mottin(参考訳) 予測と説明を共同で出力することを学ぶオンラインアルゴリズム「Explearn」を紹介します。 Explearn は Gaussian Processes (GP)-based contextual bandits を活用している。 これは2つの大きな利点をもたらす。 まず、GPは自然にさまざまな種類の説明をキャプチャし、システムデザイナが適切なカーネルを選択することによって、空間全体の説明の一般化を制御できるようにします。 第二に、Explearnは、高確率で収束を保証するコンテキストバンディットの最近の結果に基づいています。 私達の最初の実験はアプローチの約束を暗示します。

We introduce Explearn, an online algorithm that learns to jointly output predictions and explanations for those predictions. Explearn leverages Gaussian Processes (GP)-based contextual bandits. This brings two key benefits. First, GPs naturally capture different kinds of explanations and enable the system designer to control how explanations generalize across the space by virtue of choosing a suitable kernel. Second, Explearn builds on recent results in contextual bandits which guarantee convergence with high probability. Our initial experiments hint at the promise of the approach.
翻訳日:2021-02-09 16:02:40 公開日:2021-02-07
# 多項式回帰によるニューラルネットワークモデリングの数学的枠組みの実現に向けて

Towards a mathematical framework to inform Neural Network modelling via Polynomial Regression ( http://arxiv.org/abs/2102.03865v1 )

ライセンス: Link先を確認
Pablo Morala (1), Jenny Alexandra Cifuentes (1), Rosa E. Lillo (1 and 2), I\~naki Ucar (1) ((1) uc3m-Santander Big Data Institute, Universidad Carlos III de Madrid., (2) Department of Statistics, Universidad Carlos III de Madrid.)(参考訳) ニューラルネットワークが多くのアプリケーションで広く使われているとしても、ブラックボックスとして見なされ、予測エラーを測ったり評価したりすることは困難である。 これにより、ニューラルネットワークと従来の統計手法の重複領域への関心が高まり、これらの問題を克服するのに役立ちます。 本稿では,与えられたニューラルネットワークの重みから多項式回帰係数の明示的な表現をテイラー展開法を用いて構築することにより,ニューラルネットワークと多項式回帰に関する数学的枠組みを考察する。 これは回帰問題において単一の隠れ層ニューラルネットワークで実現される。 提案手法の妥当性は, シナプス電位の分布や選択された活性化関数など, 異なる要因に依存する。 本手法の性能は, 多項式から生成された合成データのシミュレーションにより, 異なる構造とハイパーパラメータを持つニューラルネットワークを訓練することにより, 一定の条件が満たされた場合, ほぼ同一の予測が得られることを示す。 最後に、多項式生成データから学習する場合、提案手法はデータを局所的に近似する多項式を生成する。

Even when neural networks are widely used in a large number of applications, they are still considered as black boxes and present some difficulties for dimensioning or evaluating their prediction error. This has led to an increasing interest in the overlapping area between neural networks and more traditional statistical methods, which can help overcome those problems. In this article, a mathematical framework relating neural networks and polynomial regression is explored by building an explicit expression for the coefficients of a polynomial regression from the weights of a given neural network, using a Taylor expansion approach. This is achieved for single hidden layer neural networks in regression problems. The validity of the proposed method depends on different factors like the distribution of the synaptic potentials or the chosen activation function. The performance of this method is empirically tested via simulation of synthetic data generated from polynomials to train neural networks with different structures and hyperparameters, showing that almost identical predictions can be obtained when certain conditions are met. Lastly, when learning from polynomial generated data, the proposed method produces polynomials that approximate correctly the data locally.
翻訳日:2021-02-09 16:02:31 公開日:2021-02-07
# 決定的コンセンサスクラスタリング

Determinantal consensus clustering ( http://arxiv.org/abs/2102.03948v1 )

ライセンス: Link先を確認
Serge Vicente, Alejandro Murua(参考訳) 与えられたアルゴリズムのランダム再起動は多くのパーティションを生成し、コンセンサスクラスタリングを生成する。 コンセンサスクラスタリングのようなエンサンブルメソッドは、単一のクラスタリングアルゴリズムよりもデータクラスタリングの堅牢なアプローチとして認識されている。 本稿では,k-medoids や k-means などの中心点の初期集合に基づくクラスタリングアルゴリズムのランダム再起動に行列点過程や dpp を用いることを提案する。 DPPとカーネルベースのメソッドの関係により、DPPはオブジェクト間の類似性を記述および定量化するのに適している。 DPPはサブセット内の中心点の多様性を好む。 したがって、類似点を持つ部分集合は、非常に異なる点を持つ部分集合よりも生成する確率が低い。 現在最も普及しているサンプリング技術は、ランダムにセンターポイントを均一にサンプリングすることです。 DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェーットの良好なカバレッジを得るのに失敗する、という広範なシミュレーションを通して示している。 これらのDPPの2つの特性は、DPPが小さなアンサンブルで優れたパフォーマンスを達成する鍵です。 人工データセットによるシミュレーションと実際のデータセットへの応用により、決定的コンセンサスクラスタリングは、中心点の均一なランダムサンプリングに基づくk-メノイドやk-平均コンセンサスクラスタリングのような古典的アルゴリズムよりも優れた結果を示す。

Random restart of a given algorithm produces many partitions to yield a consensus clustering. Ensemble methods such as consensus clustering have been recognized as more robust approaches for data clustering than single clustering algorithms. We propose the use of determinantal point processes or DPP for the random restart of clustering algorithms based on initial sets of center points, such as k-medoids or k-means. The relation between DPP and kernel-based methods makes DPPs suitable to describe and quantify similarity between objects. DPPs favor diversity of the center points within subsets. So, subsets with more similar points have less chances of being generated than subsets with very distinct points. The current and most popular sampling technique is sampling center points uniformly at random. We show through extensive simulations that, contrary to DPP, this technique fails both to ensure diversity, and to obtain a good coverage of all data facets. These two properties of DPP are key to make DPPs achieve good performance with small ensembles. Simulations with artificial datasets and applications to real datasets show that determinantal consensus clustering outperform classical algorithms such as k-medoids and k-means consensus clusterings which are based on uniform random sampling of center points.
翻訳日:2021-02-09 16:02:14 公開日:2021-02-07
# hgan: ハイブリッド生成型adversarial network

HGAN: Hybrid Generative Adversarial Network ( http://arxiv.org/abs/2102.03710v1 )

ライセンス: Link先を確認
Seyed Mehdi Iranmanesh and Nasser M. Nasrabadi(参考訳) 本稿では,GAN(Generative Adversarial Networks)を訓練する簡単な手法を提案する。 GANのような暗黙のモデルは、抽出可能なデータ可能性に基づいて訓練された明示的なモデルと比較して、より良いサンプルを生成する傾向がある。 しかしgansは明示的なデータ密度特性を見落とし、望ましくない定量的評価とモード崩壊をもたらす。 このギャップを埋めるために,HGAN(Hybrid generation adversarial Network)を提案し,自己回帰モデルを介してデータ密度推定を強制し,異なるモードをカバーするために推定密度を多様化する共同トレーニング方法で,対人フレームワークと可能性フレームワークの両方をサポートする。 本論文では,自己回帰モデル(ティーチャー)からGANモデルのジェネレータ(学生)へ,その逆ネットワークを \textit {transfer knowledge} に用いることを提案する。 GAN定式化における新しい深層構造は、単純なGANトレーニング手法に加えて、自己回帰モデル情報を逆向きに蒸留するために開発されている。 実世界のデータセット(MNIST, CIFAR-10, STL-10)について, 定性的, 定量的な評価を行い, 提案したHGANの有効性を実証する。 実験の結果,本手法のベースラインに対する優位性と競合性が示された。

In this paper, we present a simple approach to train Generative Adversarial Networks (GANs) in order to avoid a \textit {mode collapse} issue. Implicit models such as GANs tend to generate better samples compared to explicit models that are trained on tractable data likelihood. However, GANs overlook the explicit data density characteristics which leads to undesirable quantitative evaluations and mode collapse. To bridge this gap, we propose a hybrid generative adversarial network (HGAN) for which we can enforce data density estimation via an autoregressive model and support both adversarial and likelihood framework in a joint training manner which diversify the estimated density in order to cover different modes. We propose to use an adversarial network to \textit {transfer knowledge} from an autoregressive model (teacher) to the generator (student) of a GAN model. A novel deep architecture within the GAN formulation is developed to adversarially distill the autoregressive model information in addition to simple GAN training approach. We conduct extensive experiments on real-world datasets (i.e., MNIST, CIFAR-10, STL-10) to demonstrate the effectiveness of the proposed HGAN under qualitative and quantitative evaluations. The experimental results show the superiority and competitiveness of our method compared to the baselines.
翻訳日:2021-02-09 16:00:10 公開日:2021-02-07
# 連続ゼロショット学習のための可変オートエンコーダの対比訓練

Adversarial Training of Variational Auto-encoders for Continual Zero-shot Learning ( http://arxiv.org/abs/2102.03778v1 )

ライセンス: Link先を確認
Subhankar Ghosh(参考訳) 既存のニューラルネットワーク(ann)のほとんどは、破滅的な忘れによって継続的に学習できないが、人間は以前のタスクのパフォーマンスを維持することで同じことをできる。 以前のデータを全て保存することは問題を緩和するが、実際の利用では不可能な大きなメモリを必要とする。 そこで本研究では,実例のシナリオに適合するゼロショット学習モデルを提案し,逐次学習が可能な問題に対処し,学習中にモデルを目にしなかったクラスを識別する。 本稿では,全タスクの情報を保持する共有VAEモジュールとタスク固有のプライベートVAEモジュールで構成されるハイブリッドネットワークを提案する。 モデルのサイズはタスクごとに大きくなり、タスク固有のスキルの破滅的な忘れを防ぎ、共有スキルを維持するためのリプレイアプローチを含む。 我々は、CUB、AWA1、AWA2、aPYといった複数のデータセットに対して、ハイブリッドモデルの有効性を実証する。 本手法は,ZSL(Zero-Shot Learning)とGZSL(Generalized Zero-Shot Learning)を用いたクラスシーケンシャル学習に優れていることを示す。

Most of the existing artificial neural networks(ANNs) fail to learn continually due to catastrophic forgetting, while humans can do the same by maintaining previous tasks' performances. Although storing all the previous data can alleviate the problem, it takes a large memory, infeasible in real-world utilization. We propose a continual zero-shot learning model that is more suitable in real-case scenarios to address the issue that can learn sequentially and distinguish classes the model has not seen during training. We present a hybrid network that consists of a shared VAE module to hold information of all tasks and task-specific private VAE modules for each task. The model's size grows with each task to prevent catastrophic forgetting of task-specific skills, and it includes a replay approach to preserve shared skills. We demonstrate our hybrid model is effective on several datasets, i.e., CUB, AWA1, AWA2, and aPY. We show our method is superior on class sequentially learning with ZSL(Zero-Shot Learning) and GZSL(Generalized Zero-Shot Learning).
翻訳日:2021-02-09 15:59:48 公開日:2021-02-07
# in-domain と cross-domain transfer learning を用いた損傷検出

Damage detection using in-domain and cross-domain transfer learning ( http://arxiv.org/abs/2102.03858v1 )

ライセンス: Link先を確認
Zaharah A. Bukhsh, Nils Jansen, Aaqib Saeed(参考訳) 構造ヘルスモニタリング分野における転校学習の能力について検討する。 特に,コンクリート構造物の損傷検出に関心がある。 このような問題の典型的な画像データセットは比較的小さく、関連する大規模データセットからの学習表現の転送を要求する。 過去、画像を用いた損傷検出は、主に対象タスク用に微調整された事前学習されたimagenetモデルを用いたクロスドメイン転送学習のアプローチとして検討されてきた。 しかし、視覚検査や医用画像撮影など、特定の対象領域に対するImageNet表現の一般化性に対する懸念が高まっている。 そこで本研究では,橋梁の損傷検出のためのドメイン内およびドメイン間移動学習戦略の組み合わせを提案する。 6つのパブリックな視覚検査データセットを用いて、クロスドメインとインドメイン転送の影響を様々な初期化戦略と総合的に比較した。 事前訓練されたモデルは、非常に低データ体制に対処する能力も評価されている。 クロスドメインとインドメイントランスファーの組み合わせは、小さなデータセットでも永続的に優れたパフォーマンスを示す。 同様に、予測モデルの視覚的説明も提供し、アルゴリズムの透明性を実現し、黒箱深層モデルの本質的な決定論理に関する専門家に洞察を提供する。

We investigate the capabilities of transfer learning in the area of structural health monitoring. In particular, we are interested in damage detection for concrete structures. Typical image datasets for such problems are relatively small, calling for the transfer of learned representation from a related large-scale dataset. Past efforts of damage detection using images have mainly considered cross-domain transfer learning approaches using pre-trained ImageNet models that are subsequently fine-tuned for the target task. However, there are rising concerns about the generalizability of ImageNet representations for specific target domains, such as for visual inspection and medical imaging. We, therefore, propose a combination of in-domain and cross-domain transfer learning strategies for damage detection in bridges. We perform comprehensive comparisons to study the impact of cross-domain and in-domain transfer, with various initialization strategies, using six publicly available visual inspection datasets. The pre-trained models are also evaluated for their ability to cope with the extremely low-data regime. We show that the combination of cross-domain and in-domain transfer persistently shows superior performance even with tiny datasets. Likewise, we also provide visual explanations of predictive models to enable algorithmic transparency and provide insights to experts about the intrinsic decision-logic of typically black-box deep models.
翻訳日:2021-02-09 15:59:29 公開日:2021-02-07
# U-vectors: ラベルのないデータからクラスタ可能なスピーカーを埋め込む

U-vectors: Generating clusterable speaker embedding from unlabeled data ( http://arxiv.org/abs/2102.03868v1 )

ライセンス: Link先を確認
M. F. Mridha, Abu Quwsar Ohi, M. Ameer Ali, Muhammad Mostafa Monowar, Md. Abdul Hamid(参考訳) 発話者認識は、発話者を認識します。 話者認識に関する戦略は、音声の音色特性、アクセント、音声パターンなどを調べることができる。 教師付き話者認識は劇的に研究されている。 しかし,厳密な発掘調査により,教師なし話者認識システムは主にドメイン適応政策に依存していることが判明した。 本稿では,小さな固定サイズの音声フレームからクラスタ可能な埋め込みベクトルを生成する,ラベルなしデータを扱う話者認識戦略を提案する。 教師なしのトレーニング戦略は、小さなスピーチセグメントが単一のスピーカーを含むべきであるという仮定を含む。 このような信念に依拠して,2つのディープラーニングアーキテクチャを学習するために,話者埋め込みを生成するノイズ強化ポリシをペアワイズ制約として構築する。 ドメイン適応ポリシーを頼らずに、このプロセスはクラスター可能な話者埋め込みを生成し、それを教師なしベクトル (u-vectors) と呼ぶ。 評価は、TIMITとLibriSpeechの2つの人気のある英語話者認識データセットにまとめられる。 また、話者認識システムにおけるドメインシフトの多様性を説明するため、BengaliデータセットであるBengali ASRも含んでいる。 最後に,提案手法はペアワイズアーキテクチャによる優れた性能を実現する。

Speaker recognition deals with recognizing speakers by their speech. Strategies related to speaker recognition may explore speech timbre properties, accent, speech patterns and so on. Supervised speaker recognition has been dramatically investigated. However, through rigorous excavation, we have found that unsupervised speaker recognition systems mostly depend on domain adaptation policy. This paper introduces a speaker recognition strategy dealing with unlabeled data, which generates clusterable embedding vectors from small fixed-size speech frames. The unsupervised training strategy involves an assumption that a small speech segment should include a single speaker. Depending on such a belief, we construct pairwise constraints to train twin deep learning architectures with noise augmentation policies, that generate speaker embeddings. Without relying on domain adaption policy, the process unsupervisely produces clusterable speaker embeddings, and we name it unsupervised vectors (u-vectors). The evaluation is concluded in two popular speaker recognition datasets for English language, TIMIT, and LibriSpeech. Also, we include a Bengali dataset, Bengali ASR, to illustrate the diversity of the domain shifts for speaker recognition systems. Finally, we conclude that the proposed approach achieves remarkable performance using pairwise architectures.
翻訳日:2021-02-09 15:55:33 公開日:2021-02-07
# Lazy OCO: 切り替え予算によるオンライン凸最適化

Lazy OCO: Online Convex Optimization on a Switching Budget ( http://arxiv.org/abs/2102.03803v1 )

ライセンス: Link先を確認
Uri Sherman, Tomer Koren(参考訳) 我々は、プレイヤーが$ T$ラウンドを通じて予想で最大$ S$で決定を切り替えることができるオンライン凸最適化の変形を研究します。 同様の問題は、離散的な決定セットの設定の事前作業や、より最近の連続的な設定では、適応的な敵のみに対処されている。 本研究では,このギャップを埋めて計算効率の高いアルゴリズムを,より広く普及し,一般凸損失に対してo(t/s)$,強凸損失に対してo(t/s^2)$という後悔の限度を確立することを目的とする。 さらに,確率的 i.i.d.~losses に対して,一般的な凸設定と強い凸設定の両方において,乗算的$\log t$ factor のオーバーヘッドのみで $\log t$ スイッチを実行する単純なアルゴリズムを提案する。 最後に、我々はアルゴリズムを、考慮すべきいくつかのケースにおいて上界に一致する下界で補完する。

We study a variant of online convex optimization where the player is permitted to switch decisions at most $S$ times in expectation throughout $T$ rounds. Similar problems have been addressed in prior work for the discrete decision set setting, and more recently in the continuous setting but only with an adaptive adversary. In this work, we aim to fill the gap and present computationally efficient algorithms in the more prevalent oblivious setting, establishing a regret bound of $O(T/S)$ for general convex losses and $\widetilde O(T/S^2)$ for strongly convex losses. In addition, for stochastic i.i.d.~losses, we present a simple algorithm that performs $\log T$ switches with only a multiplicative $\log T$ factor overhead in its regret in both the general and strongly convex settings. Finally, we complement our algorithms with lower bounds that match our upper bounds in some of the cases we consider.
翻訳日:2021-02-09 15:51:17 公開日:2021-02-07
# モデル診断メタラーニングアルゴリズムの一般化:繰り返しおよび見えないタスク

Generalization of Model-Agnostic Meta-Learning Algorithms: Recurring and Unseen Tasks ( http://arxiv.org/abs/2102.03832v1 )

ライセンス: Link先を確認
Alireza Fallah, Aryan Mokhtari, Asuman Ozdaglar(参考訳) 本稿では,教師付き学習問題に対するモデル診断メタラーニング(MAML)アルゴリズムの一般化特性について検討する。 まず、テスト時の新しいタスクはトレーニングタスクの1つであると仮定し、強く凸対的関数の場合、予想される過剰な人口減少は$\mathcal{O}(1/mn)$によってバインドされることを示します。 第2に,mamlアルゴリズムの一般化を未知のタスクに適用し,結果として生じる一般化誤差が,新しいタスクの基本分布とトレーニングプロセス中に観測されたタスクとの変動距離に依存することを示した。 我々の証明手法は,アルゴリズムの安定性と一般化境界の関係に依存する。 特に,メタ学習アルゴリズムの安定性の新たな定義を提案し,MAMLの一般化誤差におけるタスク数$m$とタスク毎のサンプル数$n$の両方の役割を捉える。

In this paper, we study the generalization properties of Model-Agnostic Meta-Learning (MAML) algorithms for supervised learning problems. We focus on the setting in which we train the MAML model over $m$ tasks, each with $n$ data points, and characterize its generalization error from two points of view: First, we assume the new task at test time is one of the training tasks, and we show that, for strongly convex objective functions, the expected excess population loss is bounded by $\mathcal{O}(1/mn)$. Second, we consider the MAML algorithm's generalization to an unseen task and show that the resulting generalization error depends on the total variation distance between the underlying distributions of the new task and the tasks observed during the training process. Our proof techniques rely on the connections between algorithmic stability and generalization bounds of algorithms. In particular, we propose a new definition of stability for meta-learning algorithms, which allows us to capture the role of both the number of tasks $m$ and number of samples per task $n$ on the generalization error of MAML.
翻訳日:2021-02-09 15:50:58 公開日:2021-02-07
# 2レベル最適化のための下界と加速アルゴリズム

Lower Bounds and Accelerated Algorithms for Bilevel Optimization ( http://arxiv.org/abs/2102.03926v1 )

ライセンス: Link先を確認
Kaiyi Ji and Yingbin Liang(参考訳) 最近の機械学習問題に広く適用されているため、最近バイレベル最適化が関心を集めています。 近年の研究では、そのような一般的なアルゴリズムの収束率を特徴付けているが、この収束率がどの程度改善できるかは未だ分かっていない。 本稿では,この基本的問題を2つの観点から論じる。 まず, 第一に, $\widetilde{\omega}(\frac{1}{\sqrt{\mu_x}\mu_y})$ および $\widetilde \omega\big(\frac{1}{\sqrt{\epsilon}}\min\{\frac{1}{\mu_y},\frac{1}{\sqrt{\epsilon^{3}}}\}\big)$ という,強凸強凸および凸強凸二レベル最適化の初見の低複雑性境界を与える。 第2に,強凸強凸,凸強凸,非凸強凸強凸ジオメトリにおいて,既存の上界を秩序的に改善するaccbioという,高速化された2レベル最適化器を提案する。 さらに, accbio は, 対数因子による条件下での最適結果(すなわち, 上界と下界の一致)を達成することを示した。 興味深いことに、両方のジオメトリの下限は、対応するミニマックス最適化の最適な複雑性よりも大きく、バイレベル最適化は、ミニマックス最適化よりも明らかに困難です。 最後に、minimax最適化など他の問題に対する結果の拡張と応用について論じる。

Bilevel optimization has recently attracted growing interests due to its wide applications in modern machine learning problems. Although recent studies have characterized the convergence rate for several such popular algorithms, it is still unclear how much further these convergence rates can be improved. In this paper, we address this fundamental question from two perspectives. First, we provide the first-known lower complexity bounds of $\widetilde{\Omega}(\frac{1}{\sqrt{\mu_x}\mu_y})$ and $\widetilde \Omega\big(\frac{1}{\sqrt{\epsilon}}\min\{\frac{1}{\mu_y},\frac{1}{\sqrt{\epsilon^{3}}}\}\big)$ respectively for strongly-convex-stro ngly-convex and convex-strongly-conv ex bilevel optimizations. Second, we propose an accelerated bilevel optimizer named AccBiO, whose complexity improves the existing upper bounds orderwisely under strongly-convex-stro ngly-convex, convex-strongly-conv ex and nonconvex-strongly-c onvex geometries. We further show that AccBiO achieves the optimal results (i.e., the upper and lower bounds match) under certain conditions up to logarithmic factors. Interestingly, our lower bounds under both geometries are larger than the corresponding optimal complexities of minimax optimization, establishing that bilevel optimization is provably more challenging than minimax optimization. We finally discuss the extensions and applications of our results to other problems such as minimax optimization.
翻訳日:2021-02-09 15:50:40 公開日:2021-02-07
# LiDARを用いた3次元物体検出器上の物体除去攻撃

Object Removal Attacks on LiDAR-based 3D Object Detectors ( http://arxiv.org/abs/2102.03722v1 )

ライセンス: Link先を確認
Zhongyuan Hau, Kenneth T. Co, Soteris Demetriou, Emil C. Lupu(参考訳) LiDARは、自律走行車(AV)の認識と安全運用において重要な役割を担っている。 近年の研究では、LiDARリターンシグナルをスプープして偽のオブジェクトを抽出できることが示されている。 この作業では、同じ物理的機能を使って、新たな、さらに危険なタイプの攻撃、すなわちオブジェクト除去攻撃(ORAs)をマウントする方法を実証します。 orasは3dオブジェクト検出器の故障を強制する。 我々は、3Dオブジェクトの関心領域(RoI)の点群に方向ごとの単一の戻り信号を記録するLiDARのデフォルトの設定を利用します。 ターゲットオブジェクトの後方に不正なポイントを注入することで、ターゲットオブジェクトのroisからポイントを効果的に移動させる。 簡単なランダム点選択戦略を用いた初期結果から、この攻撃は一般的な3次元物体検出モデルの性能を劣化させるのに有効であることが示された。

LiDARs play a critical role in Autonomous Vehicles' (AVs) perception and their safe operations. Recent works have demonstrated that it is possible to spoof LiDAR return signals to elicit fake objects. In this work we demonstrate how the same physical capabilities can be used to mount a new, even more dangerous class of attacks, namely Object Removal Attacks (ORAs). ORAs aim to force 3D object detectors to fail. We leverage the default setting of LiDARs that record a single return signal per direction to perturb point clouds in the region of interest (RoI) of 3D objects. By injecting illegitimate points behind the target object, we effectively shift points away from the target objects' RoIs. Our initial results using a simple random point selection strategy show that the attack is effective in degrading the performance of commonly used 3D object detection models.
翻訳日:2021-02-09 15:48:32 公開日:2021-02-07
# Mimetic Neural Networks: タンパク質設計と折り畳みのための統合フレームワーク

Mimetic Neural Networks: A unified framework for Protein Design and Folding ( http://arxiv.org/abs/2102.03881v1 )

ライセンス: Link先を確認
Moshe Eliasof, Tue Boesen, Eldad Haber, Chen Keasar, Eran Treister(参考訳) タンパク質フォールディングのための機械学習技術の最近の進歩は、その逆問題であるタンパク質設計のより良い結果をもたらす。 本稿では,新しいグラフマイメティックニューラルネットワークであるmimnetを導入し,構造と設計問題をタンデムで解決する可逆的なアーキテクチャを構築することが可能であることを示し,構造がより良く見積もられた場合のタンパク質設計の改善を可能にする。 タンパク質の折りたたみ構造を考えると,我々はproteinnetデータセットを用いて,タンパク質設計における技術結果が改善可能であることを示す。

Recent advancements in machine learning techniques for protein folding motivate better results in its inverse problem -- protein design. In this work we introduce a new graph mimetic neural network, MimNet, and show that it is possible to build a reversible architecture that solves the structure and design problems in tandem, allowing to improve protein design when the structure is better estimated. We use the ProteinNet data set and show that the state of the art results in protein design can be improved, given recent architectures for protein folding.
翻訳日:2021-02-09 15:48:19 公開日:2021-02-07
# マルチホップ質問応答のためのメモリ拡張逐次パラグラフ検索

Memory Augmented Sequential Paragraph Retrieval for Multi-hop Question Answering ( http://arxiv.org/abs/2102.03741v1 )

ライセンス: Link先を確認
Nan Shao, Yiming Cui, Ting Liu, Shijin Wang, Guoping Hu(参考訳) オープンドメインのマルチホップの質問に答えるために相関パラグラフやドキュメントから情報を取得することは非常に困難です。 この課題に対処するために、既存の作品の多くはグラフのノードとして段落を検討し、グラフベースの方法を提案する。 しかし,本稿では,そのような手法の本質的な欠陥を指摘する。 代わりに、段落を逐次データとしてモデル化し、マルチホップ情報検索を一種のシーケンスラベリングタスクとみなす新しいアーキテクチャを提案する。 具体的には、パラグラフ間の依存性をモデル化する書き込み可能な外部メモリを設計する。 さらに,ノイズ段落の乱れを解消するためのしきい値ゲート機構を提案する。 提案手法は,マルチホップ情報検索を必要とする公開テキストマルチホップQAデータセットHotpotQAのフルwikiとイントラクタサブタスクの両方で評価する。 実験により,本手法は,検索および下流QAタスクパフォーマンスにおける最新手法よりも有意な改善を達成できることが示された。

Retrieving information from correlative paragraphs or documents to answer open-domain multi-hop questions is very challenging. To deal with this challenge, most of the existing works consider paragraphs as nodes in a graph and propose graph-based methods to retrieve them. However, in this paper, we point out the intrinsic defect of such methods. Instead, we propose a new architecture that models paragraphs as sequential data and considers multi-hop information retrieval as a kind of sequence labeling task. Specifically, we design a rewritable external memory to model the dependency among paragraphs. Moreover, a threshold gate mechanism is proposed to eliminate the distraction of noise paragraphs. We evaluate our method on both full wiki and distractor subtask of HotpotQA, a public textual multi-hop QA dataset requiring multi-hop information retrieval. Experiments show that our method achieves significant improvement over the published state-of-the-art method in retrieval and downstream QA task performance.
翻訳日:2021-02-09 15:45:59 公開日:2021-02-07
# SR-Affine:UVマップによる高品質な3Dハンドモデル再構築

SR-Affine: High-quality 3D hand model reconstruction from UV Maps ( http://arxiv.org/abs/2102.03725v1 )

ライセンス: Link先を確認
Ping Chen, Dong Yang, Fangyin Wu, Qin Li, Qingpei Xia and Yong Tan(参考訳) 様々なポーズと重い閉塞の下で、単一の単眼RGB画像に基づく3Dハンドモデルの再構築は、長年にわたってコンピュータビジョン分野で困難な問題でした。 本稿では,SR-Affineによる高品質3Dハンドモデル再構築手法を提案する。 まず,manoハンドリコンストラクションのためのエンコーダデコーダネットワークアーキテクチャ(affinenet)を提案する。 MANOハンドは詳細ではないため、UVマップ上での画像超解像によるアップサンプリングポイントクラウドへのSRNetの提案も進めています。 多くの実験では、私たちのアプローチが堅牢であり、FreiHANDおよびHO3Dデータセットを含む標準ベンチマークの最先端の方法を上回ることを実証しています。

Under various poses and heavy occlusions,3D hand model reconstruction based on a single monocular RGB image has been a challenging problem in computer vision field for many years. In this paper, we propose a SR-Affine approach for high-quality 3D hand model reconstruction. First, we propose an encoder-decoder network architecture (AffineNet) for MANO hand reconstruction. Since MANO hand is not detailed, we further propose SRNet to up-sampling point-clouds by image super-resolution on the UV map. Many experiments demonstrate that our approach is robust and outperforms the state-of-the-art methods on standard benchmarks, including the FreiHAND and HO3D datasets.
翻訳日:2021-02-09 15:42:23 公開日:2021-02-07
# AdaBelief Optimizer と Crop Invariance を用いた逆例生成

Adversarial example generation with AdaBelief Optimizer and Crop Invariance ( http://arxiv.org/abs/2102.03726v1 )

ライセンス: Link先を確認
Bo Yang, Hengwei Zhang, Yuchen Zhang, Kaiyong Xu, Jindong Wang(参考訳) ディープニューラルネットワークは、オリジナルの画像に小さな人間の知覚できない摂動を適用し、深層ニューラルネットワークを誤誘導して不正確な予測を出力することで、敵の例に弱い。 したがって、敵の攻撃は、安全クリティカルなアプリケーションで堅牢なモデルを評価し、選択する重要な方法です。 しかし、挑戦的なブラックボックス設定の下で、ほとんどの既存の敵対攻撃は、しばしば敵対訓練されたネットワークと高度な防衛モデルで比較的低い成功率を達成します。 本稿では,AdaBelief Iterative Fast Gradient Method (ABI-FGM)とCrop-Invariant attack Method (CIM)を提案する。 ABI-FGMとCIMは、ブラックボックス攻撃の敵例の成功率をさらに高めるために、強力な勾配ベースの攻撃を構築するために容易に統合できる。 さらに、私たちの方法は、自然に他のグラデーションベースの攻撃方法と組み合わせて、より堅牢な攻撃を構築し、防御モデルに対するより転送可能な敵対的な例を生成することもできます。 ImageNetデータセットの広範な実験は、メソッドの有効性を示しています。 敵対的に訓練されたネットワークや高度な防御モデルにおいて,本手法は最先端の勾配に基づく攻撃手法よりも高い成功率を示す。

Deep neural networks are vulnerable to adversarial examples, which are crafted by applying small, human-imperceptible perturbations on the original images, so as to mislead deep neural networks to output inaccurate predictions. Adversarial attacks can thus be an important method to evaluate and select robust models in safety-critical applications. However, under the challenging black-box setting, most existing adversarial attacks often achieve relatively low success rates on adversarially trained networks and advanced defense models. In this paper, we propose AdaBelief Iterative Fast Gradient Method (ABI-FGM) and Crop-Invariant attack Method (CIM) to improves the transferability of adversarial examples. ABI-FGM and CIM can be readily integrated to build a strong gradient-based attack to further boost the success rates of adversarial examples for black-box attacks. Moreover, our method can also be naturally combined with other gradient-based attack methods to build a more robust attack to generate more transferable adversarial examples against the defense models. Extensive experiments on the ImageNet dataset demonstrate the method's effectiveness. Whether on adversarially trained networks or advanced defense models, our method has higher success rates than state-of-the-art gradient-based attack methods.
翻訳日:2021-02-09 15:42:15 公開日:2021-02-07
# DPointNet:ポイントクラウドにおける3Dオブジェクト検出のための密度指向ポイントネット

DPointNet: A Density-Oriented PointNet for 3D Object Detection in Point Clouds ( http://arxiv.org/abs/2102.03747v1 )

ライセンス: Link先を確認
Jie Li, Yu Hu(参考訳) 現在の物体検出器では、特徴抽出演算子の受容領域のスケールは通常層単位で増大する。 これらの演算子はCNNの畳み込み層やPointNet++のセット抽象化層といったスケール指向演算子と呼ばれる。 スケール指向演算子は、マルチスケールオブジェクトを持つ2Dイメージに適しているが、マルチ密度だがスケール不変なオブジェクトを持つ3Dポイントクラウドでは自然ではない。 本稿では,点群における3次元物体検出のための新しい密度指向ポイントネット(dpointnet)について述べる。 物体検出実験では、DPointNet が PointRCNN に適用され、提案された DPointNet の有効性を検証するベースライン PointRCNN よりも、新しい演算子を搭載したモデルがより良い性能と高速を達成できることが示された。

For current object detectors, the scale of the receptive field of feature extraction operators usually increases layer by layer. Those operators are called scale-oriented operators in this paper, such as the convolution layer in CNN, and the set abstraction layer in PointNet++. The scale-oriented operators are appropriate for 2D images with multi-scale objects, but not natural for 3D point clouds with multi-density but scale-invariant objects. In this paper, we put forward a novel density-oriented PointNet (DPointNet) for 3D object detection in point clouds, in which the density of points increases layer by layer. In experiments for object detection, the DPointNet is applied to PointRCNN, and the results show that the model with the new operator can achieve better performance and higher speed than the baseline PointRCNN, which verify the effectiveness of the proposed DPointNet.
翻訳日:2021-02-09 15:41:55 公開日:2021-02-07
# アノテーション効率の高い組織病理画像解析のための自己監督駆動整合性訓練

Self-supervised driven consistency training for annotation efficient histopathology image analysis ( http://arxiv.org/abs/2102.03897v1 )

ライセンス: Link先を確認
Chetan L. Srinidhi, Seung Wook Kim, Fu-Der Chen, Anne L. Martel(参考訳) 大きなラベル付きデータセットでニューラルネットワークをトレーニングすることは、計算病理学において依然として支配的なパラダイムである。 しかし、このような徹底的な手動アノテーションの取得は、しばしば高価で手間がかかり、サーバ間およびオブジェクト間の変動が起こりやすい。 最近の自己監視および半監視メソッドは、教師なしの機能表現を学習することによってこのニーズを軽減することができますが、ラベル付きインスタンスの数が少ない場合、ダウンストリームタスクにうまく一般化することは依然として困難です。 In this work, we overcome this challenge by leveraging both task-agnostic and task-specific unlabeled data based on two novel strategies: i) a self-supervised pretext task that harnesses the underlying multi-resolution contextual cues in histology whole-slide images to learn a powerful supervisory signal for unsupervised representation learning; ii) a new teacher-student semi-supervised consistency paradigm that learns to effectively transfer the pretrained representations to downstream tasks based on prediction consistency with the task-specific un-labeled data. 2つの分類と1つの回帰ベースのタスク、すなわち腫瘍転移検出、組織型分類、および腫瘍細胞性定量に関する3つの組織病理学的ベンチマークデータセットに関する広範な検証実験を実施します。 限られたラベルデータに基づいて、提案手法は、他の最先端の自己監督および監督ベースラインに近づいたり、さらに性能を上回ったりする有形改善をもたらす。 さらに、自己教師付き事前学習機能のブートストラップは、標準ベンチマークにおけるタスク固有の半教師付き学習を改善する効果的な方法であることを示す。

Training a neural network with a large labeled dataset is still a dominant paradigm in computational histopathology. However, obtaining such exhaustive manual annotations is often expensive, laborious, and prone to inter and Intra-observer variability. While recent self-supervised and semi-supervised methods can alleviate this need by learn-ing unsupervised feature representations, they still struggle to generalize well to downstream tasks when the number of labeled instances is small. In this work, we overcome this challenge by leveraging both task-agnostic and task-specific unlabeled data based on two novel strategies: i) a self-supervised pretext task that harnesses the underlying multi-resolution contextual cues in histology whole-slide images to learn a powerful supervisory signal for unsupervised representation learning; ii) a new teacher-student semi-supervised consistency paradigm that learns to effectively transfer the pretrained representations to downstream tasks based on prediction consistency with the task-specific un-labeled data. We carry out extensive validation experiments on three histopathology benchmark datasets across two classification and one regression-based tasks, i.e., tumor metastasis detection, tissue type classification, and tumor cellularity quantification. Under limited-label data, the proposed method yields tangible improvements, which is close or even outperforming other state-of-the-art self-supervised and supervised baselines. Furthermore, we empirically show that the idea of bootstrapping the self-supervised pretrained features is an effective way to improve the task-specific semi-supervised learning on standard benchmarks.
翻訳日:2021-02-09 15:41:39 公開日:2021-02-07
# アートワークのための図像キャプション

Iconographic Image Captioning for Artworks ( http://arxiv.org/abs/2102.03942v1 )

ライセンス: Link先を確認
Eva Cetinic(参考訳) 画像キャプションは、視覚入力のみに基づいて自動的に画像のテキスト記述を生成することを意味する。 これは近年、広く取り上げられている研究テーマですが、美術史データの分野ではあまり貢献されていません。 この文脈では、画像キャプションのタスクは、画像テキストペアの大規模なデータセットの欠如、アートワークの記述に関連する意味の複雑さ、専門家レベルのアノテーションの必要性など、様々な課題に直面している。 本研究は,Iconclass分類システムの概念を付加したアート画像の大規模データセットを活用することで,これらの課題に対処することを目的とする。 アノテーションはクリーンなテキスト記述に処理され、画像キャプションタスク上でディープニューラルネットワークモデルのトレーニングに適したデータセットを生成する。 自然画像のキャプションを生成するという最先端の成果に動機づけられ、トランスフォーマーベースの視覚言語事前学習モデルがアートワーク画像データセットを用いて微調整される。 結果の定量的評価は,標準画像キャプション指標を用いて行う。 生成したキャプションの品質と新たなデータに一般化するモデルの能力について,新たな絵画コレクションにモデルを適用し,一般的なキャプションと芸術ジャンルの関係を解析することにより検討する。 その結果,自然画像データセットでのみトレーニングされたモデルから得られたキャプションと比較して,美術史の文脈に強い関連性を示す有意義なキャプションを生成できることが示唆された。

Image captioning implies automatically generating textual descriptions of images based only on the visual input. Although this has been an extensively addressed research topic in recent years, not many contributions have been made in the domain of art historical data. In this particular context, the task of image captioning is confronted with various challenges such as the lack of large-scale datasets of image-text pairs, the complexity of meaning associated with describing artworks and the need for expert-level annotations. This work aims to address some of those challenges by utilizing a novel large-scale dataset of artwork images annotated with concepts from the Iconclass classification system designed for art and iconography. The annotations are processed into clean textual description to create a dataset suitable for training a deep neural network model on the image captioning task. Motivated by the state-of-the-art results achieved in generating captions for natural images, a transformer-based vision-language pre-trained model is fine-tuned using the artwork image dataset. Quantitative evaluation of the results is performed using standard image captioning metrics. The quality of the generated captions and the model's capacity to generalize to new data is explored by employing the model on a new collection of paintings and performing an analysis of the relation between commonly generated captions and the artistic genre. The overall results suggest that the model can generate meaningful captions that exhibit a stronger relevance to the art historical context, particularly in comparison to captions obtained from models trained only on natural image datasets.
翻訳日:2021-02-09 15:41:15 公開日:2021-02-07
# 微分メタ機能を用いたハイパーパラメータ最適化

Hyperparameter Optimization with Differentiable Metafeatures ( http://arxiv.org/abs/2102.03776v1 )

ライセンス: Link先を確認
Hadi S. Jomaa, Lars Schmidt-Thieme, Josif Grabocka(参考訳) ハイパーパラメータ最適化(HPO)の性能向上のために,メタ機能,すなわちデータセット特性が示されている。 従来、メタデータは事前計算され、データセット間の類似度を測定するために使用され、HPOモデルのより優れた初期化につながる。 本稿では,DMFBS(diffariable Metafeature-based Surrogate)と呼ばれる,ハイパーパラメータ応答を予測するクロスデータセットサロゲートモデルを提案する。 検証損失 – 手元のデータセットでトレーニングされたモデルの検証損失。 既存のモデルとは対照的に、dmfbs i) は微分可能なメタ特徴抽出器を統合し、ii) 新しいマルチタスク損失を用いて最適化され、多様体正規化と補助データセット識別メタタスクで学習されたデータセット類似度測度をリンクし、類似したデータセットに対する応答近似を効果的に強制する。 DMFBSをHPOの3つの大規模メタデータセットの最近のモデルと比較し、平均10%の改善でその性能を一貫して上回っていることを示す。 最後に、我々のアプローチの異なるコンポーネントを調べるための広範囲なアブレーション研究を提供する。

Metafeatures, or dataset characteristics, have been shown to improve the performance of hyperparameter optimization (HPO). Conventionally, metafeatures are precomputed and used to measure the similarity between datasets, leading to a better initialization of HPO models. In this paper, we propose a cross dataset surrogate model called Differentiable Metafeature-based Surrogate (DMFBS), that predicts the hyperparameter response, i.e. validation loss, of a model trained on the dataset at hand. In contrast to existing models, DMFBS i) integrates a differentiable metafeature extractor and ii) is optimized using a novel multi-task loss, linking manifold regularization with a dataset similarity measure learned via an auxiliary dataset identification meta-task, effectively enforcing the response approximation for similar datasets to be similar. We compare DMFBS against several recent models for HPO on three large meta-datasets and show that it consistently outperforms all of them with an average 10% improvement. Finally, we provide an extensive ablation study that examines the different components of our approach.
翻訳日:2021-02-09 15:36:26 公開日:2021-02-07
# 付加的特徴ハッシング

Additive Feature Hashing ( http://arxiv.org/abs/2102.03943v1 )

ライセンス: Link先を確認
M. Andrecut(参考訳) ハッシュトリックは、分類的特徴を予め定義された固定長の数値ベクトル表現に符号化する機械学習技術である。 これは、カテゴリハッシュ値をベクトルインデックスとして使用し、それらのインデックスでベクトル値を更新することで機能する。 本稿では,高次元ランダムベクトルの加法ハッシングと「ほぼ直交」特性に基づく異なるアプローチについて考察する。 すなわち,ハッシュ値を加えて高次元の数値ベクトルに変換することで,付加的特徴ハッシュを直接行うことができることを示す。 また,合成,言語認識,smsスパム検出データを用いて,加算特徴ハッシュの性能がハッシュ手法に類似していることを示し,その結果を数値的に示す。

The hashing trick is a machine learning technique used to encode categorical features into a numerical vector representation of pre-defined fixed length. It works by using the categorical hash values as vector indices, and updating the vector values at those indices. Here we discuss a different approach based on additive-hashing and the "almost orthogonal" property of high-dimensional random vectors. That is, we show that additive feature hashing can be performed directly by adding the hash values and converting them into high-dimensional numerical vectors. We show that the performance of additive feature hashing is similar to the hashing trick, and we illustrate the results numerically using synthetic, language recognition, and SMS spam detection data.
翻訳日:2021-02-09 15:36:07 公開日:2021-02-07
# 空間情報とマルチスピーカコンディショニング機構を用いた時間領域音声抽出

Time-Domain Speech Extraction with Spatial Information and Multi Speaker Conditioning Mechanism ( http://arxiv.org/abs/2102.03762v1 )

ライセンス: Link先を確認
Jisi Zhang, Catalin Zorila, Rama Doddipatla, Jon Barker(参考訳) 本稿では,雑音環境と残響環境の混合から複数のクリーンな個人源を同時に抽出する,新しいマルチチャネル音声抽出システムを提案する。 提案手法は, 複数チャンネル時間領域音声分離ネットワークを改良し, 話者埋め込みを用いて, ラベル置換のあいまいさを伴わない複数のターゲットを同定・抽出する。 抽出モデルに話者情報を効率的に通知するために,外部話者埋め込みを受信するための追加話者分岐を設計し,新しい話者条件付け機構を提案する。 2チャンネルwhamrの実験! 提案手法は,複数チャネルのベースラインに対して,9%の精度で音源分離性能が向上し,同一ベースラインに対して音声認識精度が16%以上向上することを示す。

In this paper, we present a novel multi-channel speech extraction system to simultaneously extract multiple clean individual sources from a mixture in noisy and reverberant environments. The proposed method is built on an improved multi-channel time-domain speech separation network which employs speaker embeddings to identify and extract multiple targets without label permutation ambiguity. To efficiently inform the speaker information to the extraction model, we propose a new speaker conditioning mechanism by designing an additional speaker branch for receiving external speaker embeddings. Experiments on 2-channel WHAMR! data show that the proposed system improves by 9% relative the source separation performance over a strong multi-channel baseline, and it increases the speech recognition accuracy by more than 16% relative over the same baseline.
翻訳日:2021-02-09 15:30:01 公開日:2021-02-07
# RaSE:ランダムサブスペースアンサンブルによる可変スクリーニングフレームワーク

RaSE: A Variable Screening Framework via Random Subspace Ensembles ( http://arxiv.org/abs/2102.03892v1 )

ライセンス: Link先を確認
Ye Tian, Yang Feng(参考訳) 可変スクリーニング法は超高次元設定下での次元減少に有効であることが示されている。 ほとんどの既存のスクリーニング方法は、応答に対する個々の貢献に応じて予測子をランク付けするように設計されている。 結果として、わずかな独立性を持つが、応答に共同で依存する変数を見逃すことができた。 本研究では,変数探索のための新しいフレームワークであるランダム部分空間アンサンブル(RaSE)を提案し,複数の予測器をカバーするランダム部分空間の品質を評価する。 この新しいスクリーニングフレームワークは、任意のサブスペース評価基準と自然に組み合わせることができ、スクリーニング方法の配列につながります。 このフレームワークは、マージン効果や高次相互作用効果のない信号を識別することができる。 確実なスクリーニング特性とランク一貫性を享受できることが示されている。 また,理論的支援を伴うRaSEスクリーニングの反復版も開発している。 詳細なシミュレーション研究と実データ解析により,新しいスクリーニングフレームワークの有効性が示された。

Variable screening methods have been shown to be effective in dimension reduction under the ultra-high dimensional setting. Most existing screening methods are designed to rank the predictors according to their individual contributions to the response. As a result, variables that are marginally independent but jointly dependent with the response could be missed. In this work, we propose a new framework for variable screening, Random Subspace Ensemble (RaSE), which works by evaluating the quality of random subspaces that may cover multiple predictors. This new screening framework can be naturally combined with any subspace evaluation criterion, which leads to an array of screening methods. The framework is capable to identify signals with no marginal effect or with high-order interaction effects. It is shown to enjoy the sure screening property and rank consistency. We also develop an iterative version of RaSE screening with theoretical support. Extensive simulation studies and real-data analysis show the effectiveness of the new screening framework.
翻訳日:2021-02-09 15:29:30 公開日:2021-02-07
# 果樹のLiDARスキャンを用いた自動樹刈りの提案法

A procedure for automated tree pruning suggestion using LiDAR scans of fruit trees ( http://arxiv.org/abs/2102.03700v1 )

ライセンス: Link先を確認
Fredrik Westling and James Underwood and Mitch Bryson(参考訳) 果樹栽培において、刈り込みは過密化を防ぎ、光への天蓋のアクセスを改善し、再成長を促進するための重要な管理手法である。 農業が遅いため、刈り取りの意思決定は通常、データ駆動分析ではなく、伝統や親指の規則を用いて行われる。 既存のアルゴリズムによるシミュレーションベースのアプローチの多くは、高忠実なデジタルキャプチャや純粋にコンピュータ生成のフルーツツリーに依存しており、果樹園のスケールで具体的な結果を提供することができない。 本論文では,キャノピー全体における光分布の改善に焦点をあてたスコアリング機能を用いて,LiDARをスキャンした市販果樹のプランニング戦略を提案する。 樹木の収量特性を比較分析するために, 樹木の光量と大きさに基づいて樹形を評価できる得点関数を開発し, 収量特性に対する妥当性を検証し, アボカドでは$r^2$スコア0.615, マンゴーでは0.506で果樹数と適度な相関を示した。 木の構造解析を用いて,木点雲のどの部分を特定の切断点から除去するかをアルゴリズムで推定し,144実験で平均0.78のF1スコアで実験的に検証した。 最後に,新しい刈り取り場所を提案し,これらの提案を考慮し,これまでの2つの段階を用いて木の改良を推定した。 光分布は25.15\%まで改善され、実樹の商業的刈り取りよりも16\%向上し、木量に対する負の影響を小さくして光分布を改善できるいくつかの切断点が発見された。 最終結果は、商業栽培者のための意思決定ツールとしてのフレームワークの価値や、プロセス全体を人間の介入で行うことができることから、自動刈り出しの出発点としての価値を示唆している。

In fruit tree growth, pruning is an important management practice for preventing overcrowding, improving canopy access to light and promoting regrowth. Due to the slow nature of agriculture, decisions in pruning are typically made using tradition or rules of thumb rather than data-driven analysis. Many existing algorithmic, simulation-based approaches rely on high-fidelity digital captures or purely computer-generated fruit trees, and are unable to provide specific results on an orchard scale. We present a framework for suggesting pruning strategies on LiDAR-scanned commercial fruit trees using a scoring function with a focus on improving light distribution throughout the canopy. A scoring function to assess the quality of the tree shape based on its light availability and size was developed for comparative analysis between trees, and was validated against yield characteristics, demonstrating a reasonable correlation against fruit count with an $R^2$ score of 0.615 for avocado and 0.506 for mango. A tool was implemented for simulating pruning by algorithmically estimating which parts of a tree point cloud would be removed given specific cut points using structural analysis of the tree, validated experimentally with an average F1 score of 0.78 across 144 experiments. Finally, new pruning locations were suggested and we used the previous two stages to estimate the improvement of the tree given these suggestions. The light distribution was improved by up to 25.15\%, demonstrating a 16\% improvement over commercial pruning on a real tree, and certain cut points were discovered which improved light distribution with a smaller negative impact on tree volume. The final results suggest value in the framework as a decision making tool for commercial growers, or as a starting point for automated pruning since the entire process can be performed with little human intervention.
翻訳日:2021-02-09 15:27:23 公開日:2021-02-07
# MULLS:多次元線形最小方形による垂直LiDARSLAM

MULLS: Versatile LiDAR SLAM via Multi-metric Linear Least Square ( http://arxiv.org/abs/2102.03771v1 )

ライセンス: Link先を確認
Yue Pan, Pengchuan Xiao, Yujie He, Zhenlei Shao, Zesong Li(参考訳) 自動運転とモバイルマッピングの急速な開発は、さまざまな複雑なシナリオで異なる仕様のLiDARに適応する既製のLiDAR SLAMソリューションを必要とします。 そこで本研究では,効率よく,低ドリフト,多用途3D LiDAR SLAMシステムであるMULLSを提案する。 フロントエンドについては、大まかに分類された特徴点(地面、ファサード、柱、梁など) 各フレームからdual-threshold ground filteringと主成分分析を用いて抽出する。 次に、提案するマルチメトリック線形最小二乗反復最短点アルゴリズムにより、現在のフレームとローカルサブマップの登録を効率的に行う。 各点クラス内の点対点(平面、直線)誤差メトリクスは、エゴ運動を推定するために線形近似と共同で最適化される。 登録されたフレームの静的な特徴点がローカルマップに追加され、更新される。 バックエンドでは、定期的に保存された履歴サブマップ間で階層的なポーズグラフ最適化を行い、デッドリコーミングによるドリフトを低減する。 さまざまな屋外および屋内シナリオで6種類のLiDARによって収集された100,000以上のフレームを持つ3つのデータセットで広範な実験が行われます。 KITTIベンチマークでは、MULLSはリアルタイムパフォーマンスでLiDARのみのSLAMシステムにランクインしている。

The rapid development of autonomous driving and mobile mapping calls for off-the-shelf LiDAR SLAM solutions that are adaptive to LiDARs of different specifications on various complex scenarios. To this end, we propose MULLS, an efficient, low-drift, and versatile 3D LiDAR SLAM system. For the front-end, roughly classified feature points (ground, facade, pillar, beam, etc.) are extracted from each frame using dual-threshold ground filtering and principal components analysis. Then the registration between the current frame and the local submap is accomplished efficiently by the proposed multi-metric linear least square iterative closest point algorithm. Point-to-point (plane, line) error metrics within each point class are jointly optimized with a linear approximation to estimate the ego-motion. Static feature points of the registered frame are appended into the local map to keep it updated. For the back-end, hierarchical pose graph optimization is conducted among regularly stored history submaps to reduce the drift resulting from dead reckoning. Extensive experiments are carried out on three datasets with more than 100,000 frames collected by six types of LiDAR on various outdoor and indoor scenarios. On the KITTI benchmark, MULLS ranks among the top LiDAR-only SLAM systems with real-time performance.
翻訳日:2021-02-09 15:26:48 公開日:2021-02-07
# データ増強と自己監督学習による新型コロナ重症度評価のための新しい複数インスタンス学習フレームワーク

A novel multiple instance learning framework for COVID-19 severity assessment via data augmentation and self-supervised learning ( http://arxiv.org/abs/2102.03837v1 )

ライセンス: Link先を確認
Zekun Li, Wei Zhao, Feng Shi, Lei Qi, Xingzhi Xie, Ying Wei, Zhongxiang Ding, Yang Gao, Shangjie Wu, Jun Liu, Yinghuan Shi, Dinggang Shen(参考訳) 新型コロナウイルスの重症度を迅速かつ正確に評価する方法は、世界中の何百万人もの人々がパンデミックに苦しんでいるとき、不可欠な問題です。 現在、胸部CTは新型コロナウイルスの診断に人気があり、有益な画像診断ツールとされている。 しかし、ct画像によるcovid-19自動重症度評価を阻害する弱いアノテーションと不十分なデータという2つの問題がある。 そこで本研究では,この3つの課題を解決するために,(1)バッグを共同分類し,また,インスタンスを計量するインスタンスレベルの深いインスタンス学習コンポーネント,2)高機密インスタンスを再構成して仮想バッグを生成するバッグレベルのデータ拡張コンポーネント,3)学習プロセスを支援する自己監視型プリテキストコンポーネントという,新しい3つのコンポーネントの手法を提案する。 重症例50例,非重症例179例を含む229例のCT画像について体系的に検討した。 平均精度は95.8%,感度93.6%,特異度96.4%であり,従来よりも優れていた。

How to fast and accurately assess the severity level of COVID-19 is an essential problem, when millions of people are suffering from the pandemic around the world. Currently, the chest CT is regarded as a popular and informative imaging tool for COVID-19 diagnosis. However, we observe that there are two issues -- weak annotation and insufficient data that may obstruct automatic COVID-19 severity assessment with CT images. To address these challenges, we propose a novel three-component method, i.e., 1) a deep multiple instance learning component with instance-level attention to jointly classify the bag and also weigh the instances, 2) a bag-level data augmentation component to generate virtual bags by reorganizing high confidential instances, and 3) a self-supervised pretext component to aid the learning process. We have systematically evaluated our method on the CT images of 229 COVID-19 cases, including 50 severe and 179 non-severe cases. Our method could obtain an average accuracy of 95.8%, with 93.6% sensitivity and 96.4% specificity, which outperformed previous works.
翻訳日:2021-02-09 15:26:32 公開日:2021-02-07
# WiSleep:パッシブWiFiセンシングによるスケーラブルな睡眠モニタリングと分析

WiSleep: Scalable Sleep Monitoring and Analytics Using Passive WiFi Sensing ( http://arxiv.org/abs/2102.03690v1 )

ライセンス: Link先を確認
Priyanka Mary Mammen, Camellia Zakaria, Tergel Molom-Ochir, Amee Trivedi, Prashant Shenoy, Rajesh Balan(参考訳) 睡眠不足は公衆衛生上の懸念であり、健康とパフォーマンスに大きく影響します。 睡眠は親密な経験であり、最先端の睡眠モニタリングソリューションは個々のユーザーに高度にパーソナライズされている。 睡眠モニタリングを大規模に拡張し、睡眠データを公衆衛生の理解に貢献する動機として、WiFiインフラから受動的に感知されるスマートフォンネットワーク接続を使用した睡眠監視および分析プラットフォームであるWiSleepを紹介します。 本稿では,ベイズ変換点検出の非監視アンサンブルモデルを提案し,睡眠時間や目覚め時間を予測する。 そこで,キャンパスドミトリーと民家におけるユーザスタディから,地道な真理を用いたアプローチを検証した。 その結果、WiSleepは、不規則な睡眠パターンを持つユーザーに対して確立された手法を上回り、平均79.5\%の精度で通常の睡眠者に対して匹敵する精度が得られることがわかった。 これはクライアントサイドのメソッドに匹敵するが、粗い情報のみを利用する。 最後に、WiSleepは単一のコモディティサーバー上で20,000人のユーザーからのデータを処理することができ、サーバー要件の低い大規模なキャンパス人口にスケールすることができます。

Sleep deprivation is a public health concern that significantly impacts one's well-being and performance. Sleep is an intimate experience, and state-of-the-art sleep monitoring solutions are highly-personalized to individual users. With a motivation to expand sleep monitoring at a large-scale and contribute sleep data to public health understanding, we present WiSleep, a sleep monitoring and analytics platform using smartphone network connections that are passively sensed from WiFi infrastructure. We propose an unsupervised ensemble model of Bayesian change point detection to predict sleep and wake-up times. Then, we validate our approach using ground truth from a user study in campus dormitories and a private home. Our results find WiSleep outperforming established methods for users with irregular sleep patterns while yielding comparable accuracy for regular sleepers with an average 79.5\% accuracy. This is comparable to client-side based methods, albeit utilizing only coarse-grained information. Finally, we show that WiSleep can process data from 20,000 users on a single commodity server, allowing it to scale to large campus populations with low server requirements.
翻訳日:2021-02-09 15:22:13 公開日:2021-02-07
# 名前には何がありますか? --文字ベース機械学習モデルを用いた名前のジェンダー分類

What's in a Name? -- Gender Classification of Names with Character Based Machine Learning Models ( http://arxiv.org/abs/2102.03692v1 )

ライセンス: Link先を確認
Yifan Hu, Changwei Hu, Thanh Tran, Tejaswi Kasturi, Elizabeth Joseph, Matt Gillingham(参考訳) 多くの大手インターネット企業でアカウントを登録する場合、性別情報はもはや必須入力ではありません。 しかし、特にレコメンダシステムにおける意図しない性別/年齢バイアスの介入において、性別や年齢などの人口統計情報の予測は重要な課題である。 したがって、登録中にこの情報を提供しなかったユーザーの性別を推測する必要があります。 本稿では,登録ユーザの性別を宣言された名前に基づいて予測する問題を考察する。 1億人以上のユーザーのファーストネームを分析した結果、性別は名前文字列の合成を使って非常に効果的に分類できることがわかった。 我々は,多数の文字ベース機械学習モデルを提案し,我々のモデルがベースラインモデルよりもはるかに高い精度でユーザの性別を推測できることを実証した。 さらに,初期名に加えて最終名を用いることで,分類性能が向上することを示す。

Gender information is no longer a mandatory input when registering for an account at many leading Internet companies. However, prediction of demographic information such as gender and age remains an important task, especially in intervention of unintentional gender/age bias in recommender systems. Therefore it is necessary to infer the gender of those users who did not to provide this information during registration. We consider the problem of predicting the gender of registered users based on their declared name. By analyzing the first names of 100M+ users, we found that genders can be very effectively classified using the composition of the name strings. We propose a number of character based machine learning models, and demonstrate that our models are able to infer the gender of users with much higher accuracy than baseline models. Moreover, we show that using the last names in addition to the first names improves classification performance further.
翻訳日:2021-02-09 15:21:52 公開日:2021-02-07
# 航空破壊管理のための探索データ解析

Exploratory Data Analysis for Airline Disruption Management ( http://arxiv.org/abs/2102.03711v1 )

ライセンス: Link先を確認
Kolawole Ogunsina, Ilias Bilionis, Daniel DeLaurentis(参考訳) 航空会社のスケジュール運用中にデータ照合を行うための信頼できるプラットフォームは、航空会社のスケジュール破壊を効果的に管理するための利用可能な情報の品質と量を大幅に増加させた。 そこで,本稿では,米国の主要航空会社の履歴スケジューリングと運用データを解析するために,基本統計と機械学習を用いてマクロな手法と顕微鏡的手法を適用した。 巨視的結果は、1年間のフライト遅延による混乱に起因する航空会社のスケジュールの不規則な操作の大部分が、ガウスプロセスのような航空会社の混乱管理のための重要なドライバーに関するさまざまなモデリングの仮定を検証する。

Reliable platforms for data collation during airline schedule operations have significantly increased the quality and quantity of available information for effectively managing airline schedule disruptions. To that effect, this paper applies macroscopic and microscopic techniques by way of basic statistics and machine learning, respectively, to analyze historical scheduling and operations data from a major airline in the United States. Macroscopic results reveal that majority of irregular operations in airline schedule that occurred over a one-year period stemmed from disruptions due to flight delays, while microscopic results validate different modeling assumptions about key drivers for airline disruption management like turnaround as a Gaussian process.
翻訳日:2021-02-09 15:21:38 公開日:2021-02-07
# ヘルスケアにおける機械学習モデルの分類パリティの公平性評価

Assessing Fairness in Classification Parity of Machine Learning Models in Healthcare ( http://arxiv.org/abs/2102.03717v1 )

ライセンス: Link先を確認
Ming Yuan, Vikas Kumar, Muhammad Aurangzeb Ahmad, Ankur Teredesai(参考訳) AIシステムと機械学習システムの公正性は、AIシステムの説明責任における根本的な問題となっている。 AIモデルのアカウンタビリティの必要性は至るところにあるが、特に医療は、このようなシステムのカウンタビリティが、医療における決定が人生を変える結果をもたらすため、さらなる重要性を負う難しい分野である。 本稿では,医療における分類パリティの文脈における公平性に関する予備的結果を示す。 また,公平性を改善し,適切な分類アルゴリズムを選択するための探索的手法を提案する。

Fairness in AI and machine learning systems has become a fundamental problem in the accountability of AI systems. While the need for accountability of AI models is near ubiquitous, healthcare in particular is a challenging field where accountability of such systems takes upon additional importance, as decisions in healthcare can have life altering consequences. In this paper we present preliminary results on fairness in the context of classification parity in healthcare. We also present some exploratory methods to improve fairness and choosing appropriate classification algorithms in the context of healthcare.
翻訳日:2021-02-09 15:21:26 公開日:2021-02-07
# グラフ畳み込みネットワークを用いた集合格子のバクテリオファージ分類

Bacteriophage classification for assembled contigs using Graph Convolutional Network ( http://arxiv.org/abs/2102.03746v1 )

ライセンス: Link先を確認
Jiayu Shang and Jingzhe Jiang and Yanni Sun(参考訳) モチベーション:バクテリオファージ(別名ファージ)は主に細菌に感染し、微生物の生物学において重要な役割を果たす。 地球上で最も豊富な生物として、発見されているファージの数は氷山の一角に過ぎない。 近年,高スループットシークエンシング,特にメッサージノミクスシークエンシングによって新しいファージが多数明らかにされている。 ファージ様配列の高速な蓄積と比較すると、ファージの分類学的分類には深刻な遅れがある。 高い多様性、豊富さ、限られた既知のファージは分類学解析に大きな課題をもたらす。 特にアライメントベースのツールは、メタゲノミクスデータから組み立てられた高速に蓄積されたコンティグの分類が困難である。 結果:本研究では,ファージの分類分類を行うため,PhaGCNという新たな半教師付き学習モデルを提案する。 この学習モデルでは、畳み込みニューラルネットワーク(CNN)で得られたDNA配列の特徴と遺伝子共有ネットワークから得られたタンパク質配列類似性を組み合わせて知識グラフを構築する。 次に、グラフ畳み込みネットワーク(GCN)を用いて、ラベル付きサンプルとラベルなしサンプルの両方をトレーニングで活用し、学習能力を向上する。 シミュレーションおよび実シークエンシングデータを用いてPhaGCNを試験した。 その結果,本手法は利用可能なファージ分類ツールと良好に競合することが明らかとなった。

Motivation: Bacteriophages (aka phages), which mainly infect bacteria, play key roles in the biology of microbes. As the most abundant biological entities on the planet, the number of discovered phages is only the tip of the iceberg. Recently, many new phages have been revealed using high throughput sequencing, particularly metagenomic sequencing. Compared to the fast accumulation of phage-like sequences, there is a serious lag in taxonomic classification of phages. High diversity, abundance, and limited known phages pose great challenges for taxonomic analysis. In particular, alignment-based tools have difficulty in classifying fast accumulating contigs assembled from metagenomic data. Results: In this work, we present a novel semi-supervised learning model, named PhaGCN, to conduct taxonomic classification for phage contigs. In this learning model, we construct a knowledge graph by combining the DNA sequence features learned by convolutional neural network (CNN) and protein sequence similarity gained from gene-sharing network. Then we apply graph convolutional network (GCN) to utilize both the labeled and unlabeled samples in training to enhance the learning ability. We tested PhaGCN on both simulated and real sequencing data. The results clearly show that our method competes favorably against available phage classification tools.
翻訳日:2021-02-09 15:21:17 公開日:2021-02-07
# ブラックボックスモデル判別のための動的実験の設計

Design of Dynamic Experiments for Black-Box Model Discrimination ( http://arxiv.org/abs/2102.03782v1 )

ライセンス: Link先を確認
Simon Olofsson and Eduardo S. Schultz and Adel Mhamdi and Alexander Mitsos and Marc Peter Deisenroth and Ruth Misener(参考訳) 科学と工学の様々な領域は、例えば力学の数学的モデルを必要とする。 微分代数方程式のシステム。 このようなモデルは、しばしばデータから推定される不確実なパラメータを含む。 選択したいような動的モデル判別の設定を考えてみましょう。 (i) 最高のメカニスティックな時間変化モデルと (ii) 最高のモデルパラメータ推定値です。 これらのタスクはしばしばモデル識別/選択/検証/検証と呼ばれます。 典型的には、複数の競合する力学モデルがデータを説明できるため、利用可能なデータを取り入れ、より多くのデータを集めるための新しい実験も実行します。 モデル判別のための動的実験の設計は、データを最適に収集するのに役立つ。 勾配情報にアクセスできる競合する力学モデルでは、既存の手法を拡張して幅広い問題不確実性を取り入れ、提案手法が不確実性を考慮した場合の歴史的アプローチと等価であることを示す。 また、競合する力学モデルについても、評価可能な動的ブラックボックスとみなす。 レガシコードを実行することで、グラデーションや他の高度な情報は利用できない。 これらのブラックボックスモデルをガウス過程サロゲートモデルに置き換え、モデル識別設定を拡張して、ライバルブラックボックスモデルも組み込む。 また、ガウス過程を近似勾配法に用いた結果についても検討する。

Diverse domains of science and engineering require and use mechanistic mathematical models, e.g. systems of differential algebraic equations. Such models often contain uncertain parameters to be estimated from data. Consider a dynamic model discrimination setting where we wish to chose: (i) what is the best mechanistic, time-varying model and (ii) what are the best model parameter estimates. These tasks are often termed model discrimination/selec tion/validation/veri fication. Typically, several rival mechanistic models can explain data, so we incorporate available data and also run new experiments to gather more data. Design of dynamic experiments for model discrimination helps optimally collect data. For rival mechanistic models where we have access to gradient information, we extend existing methods to incorporate a wider range of problem uncertainty and show that our proposed approach is equivalent to historical approaches when limiting the types of considered uncertainty. We also consider rival mechanistic models as dynamic black boxes that we can evaluate, e.g. by running legacy code, but where gradient or other advanced information is unavailable. We replace these black-box models with Gaussian process surrogate models and thereby extend the model discrimination setting to additionally incorporate rival black-box model. We also explore the consequences of using Gaussian process surrogates to approximate gradient-based methods.
翻訳日:2021-02-09 15:20:59 公開日:2021-02-07
# 大規模グラフ上の効率的かつスケーラブルなクラスタリング

Effective and Scalable Clustering on Massive Attributed Graphs ( http://arxiv.org/abs/2102.03826v1 )

ライセンス: Link先を確認
Renchi Yang, Jieming Shi, Yin Yang, Keke Huang, Shiqi Zhang and Xiaokui Xiao(参考訳) 各ノードが属性の集合に関連付けられているグラフGと、出力クラスタの数を指定するパラメータkと、Gのk属性グラフクラスタリング(k-AGC)は、同じクラスタ内のノードが同じ位相特性と属性特性を共有しているように、G内のノードをk非結合クラスタにグループ化する。 この問題は、例えば数百万のノードと数十億のエッジを持つ巨大なグラフでは難しい。 このようなグラフの場合、既存のソリューションは、非常に高いコストを負うか、あるいは妥協された品質でクラスタリング結果を生成する。 In this paper, we propose ACMin, an effective approach to k-AGC that yields high-quality clusters with cost linear to the size of the input graph G. The main contributions of ACMin are twofold: (i) a novel formulation of the k-AGC problem based on an attributed multi-hop conductance quality measure custom-made for this problem setting, which effectively captures cluster coherence in terms of both topological proximities and attribute similarities, and (ii) a linear-time optimization solver that obtains high-quality clusters iteratively, based on efficient matrix operations such as orthogonal iterations, an alternative optimization approach, as well as an initialization technique that significantly speeds up the convergence of ACMin in practice. 6つの実際のデータセット上の11の競合他社を比較した広範な実験は、ACMinが地上トラスラベルに対して測定された結果品質の点ですべての競合他社を一貫して上回ることを示しています。 特に、265.2百万のエッジと11億の属性値を持つMicrosoft Academic Knowledge Graphデータセットでは、ACMinは1つのCPUコアを使用して1.68時間以内に5-AGCの高品質な結果を出力する。

Given a graph G where each node is associated with a set of attributes, and a parameter k specifying the number of output clusters, k-attributed graph clustering (k-AGC) groups nodes in G into k disjoint clusters, such that nodes within the same cluster share similar topological and attribute characteristics, while those in different clusters are dissimilar. This problem is challenging on massive graphs, e.g., with millions of nodes and billions of edges. For such graphs, existing solutions either incur prohibitively high costs, or produce clustering results with compromised quality. In this paper, we propose ACMin, an effective approach to k-AGC that yields high-quality clusters with cost linear to the size of the input graph G. The main contributions of ACMin are twofold: (i) a novel formulation of the k-AGC problem based on an attributed multi-hop conductance quality measure custom-made for this problem setting, which effectively captures cluster coherence in terms of both topological proximities and attribute similarities, and (ii) a linear-time optimization solver that obtains high-quality clusters iteratively, based on efficient matrix operations such as orthogonal iterations, an alternative optimization approach, as well as an initialization technique that significantly speeds up the convergence of ACMin in practice. Extensive experiments, comparing 11 competitors on 6 real datasets, demonstrate that ACMin consistently outperforms all competitors in terms of result quality measured against ground-truth labels, while being up to orders of magnitude faster. In particular, on the Microsoft Academic Knowledge Graph dataset with 265.2 million edges and 1.1 billion attribute values, ACMin outputs high-quality results for 5-AGC within 1.68 hours using a single CPU core, while none of the 11 competitors finish within 3 days.
翻訳日:2021-02-09 15:20:41 公開日:2021-02-07
# 時間的信用割当理解のためのアンサンブル視点

Ensemble perspective for understanding temporal credit assignment ( http://arxiv.org/abs/2102.03740v1 )

ライセンス: Link先を確認
Wenxuan Zou, Chan Li, and Haiping Huang(参考訳) 繰り返しニューラルネットワークは、自然言語処理とニューラル人口ダイナミクスの両方で時空間配列のモデリングに広く使用されている。 しかし、時間的クレジットの割り当てを理解することは難しい。 本稿では,再帰計算における個々の接続は,正確な重み値ではなく,スパイクとスラブ分布によってモデル化されることを示す。 次に,ネットワークをアンサンブルレベルで学習するための平均場アルゴリズムを導出する。 次に, 動物の基本認知機能である多感覚統合タスクに, 連続して画素を読み取る際に手書き桁を分類する手法を適用した。 本モデルでは,ネットワーク全体の性能を決定する重要な接続を明らかにする。 モデルはまた、時空間情報が分布のハイパーパラメータを通してどのように処理されるかを示し、さらに、創発性神経選択性の異なるタイプを明らかにする。 したがって、リカレントニューラルネットワークにおける時間的クレジット割り当てをアンサンブルの観点から研究することが期待できる。

Recurrent neural networks are widely used for modeling spatio-temporal sequences in both nature language processing and neural population dynamics. However, understanding the temporal credit assignment is hard. Here, we propose that each individual connection in the recurrent computation is modeled by a spike and slab distribution, rather than a precise weight value. We then derive the mean-field algorithm to train the network at the ensemble level. The method is then applied to classify handwritten digits when pixels are read in sequence, and to the multisensory integration task that is a fundamental cognitive function of animals. Our model reveals important connections that determine the overall performance of the network. The model also shows how spatio-temporal information is processed through the hyperparameters of the distribution, and moreover reveals distinct types of emergent neural selectivity. It is thus promising to study the temporal credit assignment in recurrent neural networks from the ensemble perspective.
翻訳日:2021-02-09 15:16:41 公開日:2021-02-07
# EEGFuseNet:高次元脳波のハイブリッド非教師付き深部特徴評価と融合と感情認識への応用

EEGFuseNet: Hybrid Unsupervised Deep Feature Characterization and Fusion for High-Dimensional EEG with An Application to Emotion Recognition ( http://arxiv.org/abs/2102.03777v1 )

ライセンス: Link先を確認
Zhen Liang, Rushuang Zhou, Li Zhang, Linling Li, Gan Huang, Zhiguo Zhang and Shin Ishii(参考訳) 高次元脳波(EEG)から有効で信頼性の高い特徴を効果的に抽出する方法、特に空間的および時間的動的脳情報をより良い特徴表現に融合する方法は、脳データ分析において重要な課題です。 ほとんどのEEG研究は、経験と人間のフィードバックによって非常に制限される監督されたモデリングを備えた手作りの機能に取り組んでいます。 本稿では,EEGFuseNetと呼ばれる,非教師付きディープCNN-RNN-GANに基づくEEG特徴量と融合モデルを提案する。 EEGFuseNetは教師なしの方法で訓練され、空間的および時間的ダイナミクスをカバーする深部脳波特徴が自動的に特徴づけられる。 ハンドクラフト機能と比較すると、ディープEEG機能はより汎用的で、特定のEEGタスクとは独立していると見なすことができる。 eegfusenetによって抽出された深層および低次元特徴の性能は、有名な公開感情データベースに基づく教師なし感情認識アプリケーションにおいて慎重に評価される。 その結果、提案されたEEGFuseNetは堅牢で信頼性の高いモデルであり、動的EEG機能の表現と融合において効率的にトレーニング、管理、実行が容易である。 特に、EEGFuseNetは、EEGベースのクロスサブジェクト感情認識を純粋な非監視方法で実現する可能性を実証する4つの感情次元(有価、興奮、支配、および嗜好)の認識において有望な主観ベースの離職結果と最適な非監視融合モデルとして確立されています。

How to effectively and efficiently extract valid and reliable features from high-dimensional electroencephalograp hy (EEG), particularly how to fuse the spatial and temporal dynamic brain information into a better feature representation, is a critical issue in brain data analysis. Most current EEG studies are working on handcrafted features with a supervised modeling, which would be limited by experience and human feedbacks to a great extent. In this paper, we propose a practical hybrid unsupervised deep CNN-RNN-GAN based EEG feature characterization and fusion model, which is termed as EEGFuseNet. EEGFuseNet is trained in an unsupervised manner, and deep EEG features covering spatial and temporal dynamics are automatically characterized. Comparing to the handcrafted features, the deep EEG features could be considered to be more generic and independent of any specific EEG task. The performance of the extracted deep and low-dimensional features by EEGFuseNet is carefully evaluated in an unsupervised emotion recognition application based on a famous public emotion database. The results demonstrate the proposed EEGFuseNet is a robust and reliable model, which is easy to train and manage and perform efficiently in the representation and fusion of dynamic EEG features. In particular, EEGFuseNet is established as an optimal unsupervised fusion model with promising subject-based leave-one-out results in the recognition of four emotion dimensions (valence, arousal, dominance and liking), which demonstrates the possibility of realizing EEG based cross-subject emotion recognition in a pure unsupervised manner.
翻訳日:2021-02-09 15:16:27 公開日:2021-02-07
# EMA2S:マルチモーダル音声合成システム

EMA2S: An End-to-End Multimodal Articulatory-to-Spee ch System ( http://arxiv.org/abs/2102.03786v1 )

ライセンス: Link先を確認
Yu-Wen Chen, Kuo-Hsuan Hung, Shang-Yi Chuang, Jonathan Sherman, Wen-Chin Huang, Xugang Lu, Yu Tsao(参考訳) 調音運動から合成された音声は、声帯障害、サイレントスピーチを必要とする状況、あるいはハイノイズ環境での実際の使用が可能である。 本研究では,音声信号に調音運動を直接変換するマルチモーダル音声合成システムであるema2sを提案する。 ニューラルネットワークベースのボコーダとマルチモーダルなジョイントトレーニングを併用し,スペクトログラム,メル-スペクトログラム,深部特徴を取り入れた。 The experimental results confirmed that the multimodal approach of EMA2S is outperforming the baseline system with both objective evaluation and subjective evaluation metrics。 さらに,関節メルスペクトログラムと深い特徴損失トレーニングにより,システム性能が効果的に向上することを示す。

Synthesized speech from articulatory movements can have real-world use for patients with vocal cord disorders, situations requiring silent speech, or in high-noise environments. In this work, we present EMA2S, an end-to-end multimodal articulatory-to-spee ch system that directly converts articulatory movements to speech signals. We use a neural-network-based vocoder combined with multimodal joint-training, incorporating spectrogram, mel-spectrogram, and deep features. The experimental results confirm that the multimodal approach of EMA2S outperforms the baseline system in terms of both objective evaluation and subjective evaluation metrics. Moreover, results demonstrate that joint mel-spectrogram and deep feature loss training can effectively improve system performance.
翻訳日:2021-02-09 15:15:59 公開日:2021-02-07
# プロトタイプ定義無限隠れマルコフモデルを用いた数ショット時系列分割

Few-shot time series segmentation using prototype-defined infinite hidden Markov models ( http://arxiv.org/abs/2102.03885v1 )

ライセンス: Link先を確認
Yazan Qarout and Yordan P. Raykov and Max A. Little(参考訳) 本稿では,非定常逐次データの解析をフレキシブルなグラフィカルモデルを用いて,プロトタイプのラジアル基底関数(RBF)ニューラルネットワークエミッションを用いて,逐次イベントの構造分布を表現するための頑健なフレームワークを提案する。 少数ショット学習のためのプロトタイプニューラルネットワークアーキテクチャと提案されたRBFネットワーク無限隠れマルコフモデル(RBF-iHMM)との間に動機付けリンクが示される。 RBFネットワークをプロトタイプを用いて効率的に特定し,複雑な非定常パターンを表現できることを示し,隠れマルコフモデルを用いて高次マルコフ力学を推定する。 RBFネットワークが長期間のメモリ変動オートエンコーダのトレーニングに必要なデータの一部を使用して最先端の性能を達成するEEGデータからの自動発作検出などのバイオメディカル信号処理アプリケーションで、このフレームワークの有用性を実証する。

We propose a robust framework for interpretable, few-shot analysis of non-stationary sequential data based on flexible graphical models to express the structured distribution of sequential events, using prototype radial basis function (RBF) neural network emissions. A motivational link is demonstrated between prototypical neural network architectures for few-shot learning and the proposed RBF network infinite hidden Markov model (RBF-iHMM). We show that RBF networks can be efficiently specified via prototypes allowing us to express complex nonstationary patterns, while hidden Markov models are used to infer principled high-level Markov dynamics. The utility of the framework is demonstrated on biomedical signal processing applications such as automated seizure detection from EEG data where RBF networks achieve state-of-the-art performance using a fraction of the data needed to train long-short-term memory variational autoencoders.
翻訳日:2021-02-09 15:15:44 公開日:2021-02-07
# (参考訳) 混合可変メタモデリングのための潜在マップガウス過程

Latent Map Gaussian Processes for Mixed Variable Metamodeling ( http://arxiv.org/abs/2102.03935v1 )

ライセンス: CC BY 4.0
Nicholas Oune, Ramin Bostanabad(参考訳) ガウス過程(GP)は、科学や工学においてメタモデルとして広く使われている。 しかし、標準的なgpsは数値変数や量変数しか扱えない。 本稿では,GPの魅力的特性を継承する潜在写像ガウス過程(LMGP)を紹介するが,定量値と定性値の両方を持つ混合データにも適用可能である。 LMGPの背後にある基本的な考え方は、すべての定性的な入力がいくつかの定量的な特徴で表される低次元多様体を学ぶことである。 この多様体を学ぶために、まず定性入力の各組み合わせに一意な先行ベクトル表現を割り当てる。 次に、線型写像を用いてこれらの先行を後述表現を特徴づける多様体上に射影する。 後者は定量的であるため、ガウスのような任意の標準相関関数で簡単に使用できる。 したがって、最適写像と対応する多様体はガウス確率関数を最大化することで効率的に学習することができる。 解析的および実世界の幅広い例を通して、精度と汎用性の観点から、最先端の手法よりもLMGPの利点を実証する。 特に,lmgpsは可変長入力を処理し,質的入力が応答にどのように影響するか,あるいは相互に作用するかについての洞察を与える。 また, LMGPのニューラルネットワーク解釈を行い, 先行潜時表現が性能に与える影響について検討する。

Gaussian processes (GPs) are ubiquitously used in sciences and engineering as metamodels. Standard GPs, however, can only handle numerical or quantitative variables. In this paper, we introduce latent map Gaussian processes (LMGPs) that inherit the attractive properties of GPs but are also applicable to mixed data that have both quantitative and qualitative inputs. The core idea behind LMGPs is to learn a low-dimensional manifold where all qualitative inputs are represented by some quantitative features. To learn this manifold, we first assign a unique prior vector representation to each combination of qualitative inputs. We then use a linear map to project these priors on a manifold that characterizes the posterior representations. As the posteriors are quantitative, they can be straightforwardly used in any standard correlation function such as the Gaussian. Hence, the optimal map and the corresponding manifold can be efficiently learned by maximizing the Gaussian likelihood function. Through a wide range of analytical and real-world examples, we demonstrate the advantages of LMGPs over state-of-the-art methods in terms of accuracy and versatility. In particular, we show that LMGPs can handle variable-length inputs and provide insights into how qualitative inputs affect the response or interact with each other. We also provide a neural network interpretation of LMGPs and study the effect of prior latent representations on their performance.
翻訳日:2021-02-09 14:31:06 公開日:2021-02-07
# meingame: 一つのポートレートからゲームキャラクターの顔を作る

MeInGame: Create a Game Character Face from a Single Portrait ( http://arxiv.org/abs/2102.02371v2 )

ライセンス: Link先を確認
Jiangke Lin, Yi Yuan, Zhengxia Zou(参考訳) 近年,深層学習に基づく3次元顔再構成法が提案されているが,ゲームに応用例は少ない。 現在のゲームキャラクターのカスタマイズシステムでは、プレイヤーは顔の特徴を手動で調整する必要があるか、顔の形やテクスチャの制限がある。 本論文では,顔の形状と質感を1つのポートレートから予測し,既存のほとんどの3Dゲームに組み込むことができる自動文字顔作成手法を提案する。 3D Morphable Face Model(3DMM)ベースの手法は、単一の画像から正確な3D顔を復元することができるが、3DMMメッシュのトポロジは、ほとんどのゲームで使用されるメッシュとは異なる。 忠実なテクスチャを得るためには、既存の手法ではトレーニングに大量の顔テクスチャデータを必要とするが、そのようなデータセットの構築には時間がかかり、手間がかかる。 さらに、実験室で収集されたそのようなデータセットは、現場の状況によく当てはまらない。 これらの課題に対処するために,1)低コストの顔テクスチャ取得手法,2)3DMMメッシュの形状をゲームに変換する形状変換アルゴリズム,3)3Dゲームフェイス再構築ネットワークをトレーニングするための新しいパイプラインを提案する。 提案手法は,入力されたポートレートに類似した詳細かつ鮮明なゲームキャラクタを生成できるだけでなく,照明や咬合の影響も排除できる。 実験の結果,本手法はゲームにおける最先端手法よりも優れていた。

Many deep learning based 3D face reconstruction methods have been proposed recently, however, few of them have applications in games. Current game character customization systems either require players to manually adjust considerable face attributes to obtain the desired face, or have limited freedom of facial shape and texture. In this paper, we propose an automatic character face creation method that predicts both facial shape and texture from a single portrait, and it can be integrated into most existing 3D games. Although 3D Morphable Face Model (3DMM) based methods can restore accurate 3D faces from single images, the topology of 3DMM mesh is different from the meshes used in most games. To acquire fidelity texture, existing methods require a large amount of face texture data for training, while building such datasets is time-consuming and laborious. Besides, such a dataset collected under laboratory conditions may not generalized well to in-the-wild situations. To tackle these problems, we propose 1) a low-cost facial texture acquisition method, 2) a shape transfer algorithm that can transform the shape of a 3DMM mesh to games, and 3) a new pipeline for training 3D game face reconstruction networks. The proposed method not only can produce detailed and vivid game characters similar to the input portrait, but can also eliminate the influence of lighting and occlusions. Experiments show that our method outperforms state-of-the-art methods used in games.
翻訳日:2021-02-09 11:46:35 公開日:2021-02-07
# 物理計算における敵対的攻撃と防御:システム的レビュー

Adversarial Attacks and Defenses in Physiological Computing: A Systematic Review ( http://arxiv.org/abs/2102.02729v2 )

ライセンス: Link先を確認
Dongrui Wu, Weili Fang, Yi Zhang, Liuqing Yang, Hanbin Luo, Lieyun Ding, Xiaodong Xu and Xiang Yu(参考訳) 生理学的コンピューティングは、人間の生理データをリアルタイムでシステム入力として利用する。 脳とコンピュータのインターフェース、感情コンピューティング、適応的自動化、健康情報学、生理的信号に基づく生体計測などと大きく重なり合っている。 生理学的コンピューティングは、ユーザからコンピュータへの通信帯域幅を増加させるが、攻撃者が故意にトレーニングおよび/またはテスト例を操作して機械学習アルゴリズム出力をハイジャックすることで、ユーザの混乱、フラストレーション、負傷、さらには死に至る可能性のある、さまざまなタイプの敵対攻撃の対象となる。 しかし、生理学的コンピューティングシステムの脆弱性は十分に注目されておらず、それに対する敵意攻撃に関する包括的なレビューは存在していない。 このギャップを埋めるために、生理学コンピューティングの主要な研究分野、様々なタイプの敵攻撃とその生理学コンピューティングへの応用、およびそれに対応する防衛戦略を体系的に検討する。 このレビューは、生理学的コンピューティングシステムの脆弱性、およびより重要な、それらをより安全にするための防衛戦略に関するより多くの研究の関心を引き付けることを願っています。

Physiological computing uses human physiological data as system inputs in real time. It includes, or significantly overlaps with, brain-computer interfaces, affective computing, adaptive automation, health informatics, and physiological signal based biometrics. Physiological computing increases the communication bandwidth from the user to the computer, but is also subject to various types of adversarial attacks, in which the attacker deliberately manipulates the training and/or test examples to hijack the machine learning algorithm output, leading to possibly user confusion, frustration, injury, or even death. However, the vulnerability of physiological computing systems has not been paid enough attention to, and there does not exist a comprehensive review on adversarial attacks to it. This paper fills this gap, by providing a systematic review on the main research areas of physiological computing, different types of adversarial attacks and their applications to physiological computing, and the corresponding defense strategies. We hope this review will attract more research interests on the vulnerability of physiological computing systems, and more importantly, defense strategies to make them more secure.
翻訳日:2021-02-09 11:44:36 公開日:2021-02-07