このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210316となっている論文です。

PDF登録状況(公開日: 20210316)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) PDEによる高次元パラメトリックマップのための微分インフォームド・ニューラルネット [全文訳有]

Derivative-Informed Projected Neural Networks for High-Dimensional Parametric Maps Governed by PDEs ( http://arxiv.org/abs/2011.15110v2 )

ライセンス: CC BY 4.0
Thomas O'Leary-Roseberry, Umberto Villa, Peng Chen, and Omar Ghattas(参考訳) 不確かさの定量化、ベイジアン逆変換、ベイジアン最適実験設計、不確実性下での最適化から生じる多くの問合せ問題。 これらの評価は、このパラメトリック写像が高次元であり、偏微分方程式(pdes)の高価な解を含む場合、禁止される。 この課題に取り組むために,高次元 pde-governed parametric map のためのサロゲートを投影ニューラルネットワークとして構築し,これらの写像の幾何学的および固有低次元性を同時に捉えることを提案する。 具体的には、これらの PDE ベースの写像のヤコビアンを計算し、高次元パラメータを低次元微分インフォームドな活性部分空間に投影する。 このことは、多くの高次元 PDE-governed parametric map が低次元パラメータと出力部分空間で十分に近似できるという事実を利用する。 我々は、ニューラルネットワークの第1層と最後の層の重み付けを構成するために、アクティブ部分空間における投影基底ベクトルと主出力部分空間を使用する。 これにより、ニューラルネットワークの低次元層のみに重みをトレーニングすることができます。 結果のニューラルネットワークのアーキテクチャは、パラメトリックマップの低次元構造と幾何学を1階にキャプチャする。 提案したニューラルネットワークは,特に高価なPDEベースのパラメトリックマップによって提供される限られたトレーニングデータ構造において,完全なニューラルネットワークよりも高い一般化精度を実現することを示す。 さらに、投影されたネットワークの内部層の自由度数はパラメータと出力次元とは無関係であり、離散化次元とは独立な重み次元で高精度に達成できることを示す。

Many-query problems, arising from uncertainty quantification, Bayesian inversion, Bayesian optimal experimental design, and optimization under uncertainty-require numerous evaluations of a parameter-to-output map. These evaluations become prohibitive if this parametric map is high-dimensional and involves expensive solution of partial differential equations (PDEs). To tackle this challenge, we propose to construct surrogates for high-dimensional PDE-governed parametric maps in the form of projected neural networks that parsimoniously capture the geometry and intrinsic low-dimensionality of these maps. Specifically, we compute Jacobians of these PDE-based maps, and project the high-dimensional parameters onto a low-dimensional derivative-informed active subspace; we also project the possibly high-dimensional outputs onto their principal subspace. This exploits the fact that many high-dimensional PDE-governed parametric maps can be well-approximated in low-dimensional parameter and output subspace. We use the projection basis vectors in the active subspace as well as the principal output subspace to construct the weights for the first and last layers of the neural network, respectively. This frees us to train the weights in only the low-dimensional layers of the neural network. The architecture of the resulting neural network captures to first order, the low-dimensional structure and geometry of the parametric map. We demonstrate that the proposed projected neural network achieves greater generalization accuracy than a full neural network, especially in the limited training data regime afforded by expensive PDE-based parametric maps. Moreover, we show that the number of degrees of freedom of the inner layers of the projected network is independent of the parameter and output dimensions, and high accuracy can be achieved with weight dimension independent of the discretization dimension.
翻訳日:2021-06-06 22:28:37 公開日:2021-03-16
# 複数音源2次元定位における領域適応のための判別器のアンサンブル

Ensemble of Discriminators for Domain Adaptation in Multiple Sound Source 2D Localization ( http://arxiv.org/abs/2012.05908v2 )

ライセンス: Link先を確認
Guillaume Le Moing, Don Joven Agravante, Tadanobu Inoue, Jayakorn Vongkulbhisal, Asim Munawar, Ryuki Tachibana, Phongtharin Vinayavekhin(参考訳) 本稿では,複数音源の局所化のための領域適応手法の精度を向上させる識別器のアンサンブルを提案する。 近年、ディープニューラルネットワークがこのタスクに有望な結果をもたらしたが、トレーニングには大量のラベル付きデータが必要である。 このようなデータセットの記録とラベリングは、特にさまざまな音響条件をカバーするために十分な多様性を必要とするため、非常にコストがかかる。 本稿では,音響シミュレータを利用してラベル付きトレーニングサンプルを安価に生成する。 しかし、合成データに基づいて訓練されたモデルは、ドメインミスマッチのため、現実世界の録音では性能が良くない傾向にある。 そこで本研究では,ラベル付き合成データとラベルなし実データを用いた音源定位のための逆学習を用いた2つの領域適応手法について検討する。 局所化モデルの異なる特徴レベルに適用された識別器を組み合わせた新しいアンサンブル手法を提案する。 実験により,本手法は実データからのラベルを必要とせず,ローカライズ性能を大幅に向上させることがわかった。

This paper introduces an ensemble of discriminators that improves the accuracy of a domain adaptation technique for the localization of multiple sound sources. Recently, deep neural networks have led to promising results for this task, yet they require a large amount of labeled data for training. Recording and labeling such datasets is very costly, especially because data needs to be diverse enough to cover different acoustic conditions. In this paper, we leverage acoustic simulators to inexpensively generate labeled training samples. However, models trained on synthetic data tend to perform poorly with real-world recordings due to the domain mismatch. For this, we explore two domain adaptation methods using adversarial learning for sound source localization which use labeled synthetic data and unlabeled real data. We propose a novel ensemble approach that combines discriminators applied at different feature levels of the localization model. Experiments show that our ensemble discrimination method significantly improves the localization performance without requiring any label from the real data.
翻訳日:2021-05-15 06:04:48 公開日:2021-03-16
# 具体的動機づけ型ゴール・コンディション強化学習:短期調査

Intrinsically Motivated Goal-Conditioned Reinforcement Learning: a Short Survey ( http://arxiv.org/abs/2012.09830v2 )

ライセンス: Link先を確認
C\'edric Colas, Tristan Karch, Olivier Sigaud, Pierre-Yves Oudeyer(参考訳) オープンエンド環境を探索し、対話の可能性を発見し、スキルのレパートリーを自律的に構築できる自律マシンの構築は、人工知能の一般的な目的である。 開発アプローチでは、これは自律的かつ本質的な動機づけのある学習エージェントによってのみ達成できる、と論じている。 近年,発達的アプローチ,特に発達的ロボット工学が融合し,深層強化学習(rl)法が開発的機械学習の新しい領域を形成している。 この新たな領域内では、オープンエンドのレパートリーを自律的に獲得する開発ロボティクス問題に取り組むために、ディープRLアルゴリズムを訓練する一連の手法をレビューする。 本質的に目標条件付きRLアルゴリズムは、エージェントに自身の目標を表現、生成、追跡することを学ぶように訓練する。 目標の自己生成には、コンパクトなゴールエンコーディングの学習と、関連するゴールアゲメント関数が必要であり、これは、外部の報酬信号を使用して、事前定義された目標セットに取り組むように設計された従来のrlアルゴリズムと比較して、新たな課題をもたらす。 本稿では,深層rlと発達的アプローチの交点におけるこれらの手法の類型論,最近のアプローチのサーベイ,今後の展望について述べる。

Building autonomous machines that can explore open-ended environments, discover possible interactions and autonomously build repertoires of skills is a general objective of artificial intelligence. Developmental approaches argue that this can only be achieved by autonomous and intrinsically motivated learning agents that can generate, select and learn to solve their own problems. In recent years, we have seen a convergence of developmental approaches, and developmental robotics in particular, with deep reinforcement learning (RL) methods, forming the new domain of developmental machine learning. Within this new domain, we review here a set of methods where deep RL algorithms are trained to tackle the developmental robotics problem of the autonomous acquisition of open-ended repertoires of skills. Intrinsically motivated goal-conditioned RL algorithms train agents to learn to represent, generate and pursue their own goals. The self-generation of goals requires the learning of compact goal encodings as well as their associated goal-achievement functions, which results in new challenges compared to traditional RL algorithms designed to tackle pre-defined sets of goals using external reward signals. This paper proposes a typology of these methods at the intersection of deep RL and developmental approaches, surveys recent approaches and discusses future avenues.
翻訳日:2021-05-02 07:39:35 公開日:2021-03-16
# 確率系に対するチャンス制約付きモデルベースアクタ臨界

Model-Based Actor-Critic with Chance Constraint for Stochastic System ( http://arxiv.org/abs/2012.10716v2 )

ライセンス: Link先を確認
Baiyu Peng, Yao Mu, Yang Guan, Shengbo Eben Li, Yuming Yin, Jianyu Chen(参考訳) 実環境に適用される強化学習(RL)には安全性が不可欠である。 条件制約は確率システムの安全性要件を表現するのに適している。 従来の確率制約付きRL法は、通常は収束率が低いか、保守的な政策しか学ばない。 本稿では,安全かつ非保守的なポリシーを効率的に学習できるモデルベースのアクター制約付きアクタークリティカル(CCAC)アルゴリズムを提案する。 保守的な下界を最適化する既存の方法とは異なり、CCACは、目的関数と安全な確率を適応重みで同時に最適化する元の確率制約問題を直接解決する。 収束率を改善するため、CCACは動的モデルの勾配を利用して政策最適化を加速する。 CCACの有効性は確率的な車追従作業によって示される。 実験の結果, CCACは従来のRL法と比較して, 5倍の収束率で安全性を確保しながら性能を向上することがわかった。 また、確率モデル予測制御のような従来の安全技術よりも100倍高いオンライン計算効率を持つ。

Safety is essential for reinforcement learning (RL) applied in real-world situations. Chance constraints are suitable to represent the safety requirements in stochastic systems. Previous chance-constrained RL methods usually have a low convergence rate, or only learn a conservative policy. In this paper, we propose a model-based chance constrained actor-critic (CCAC) algorithm which can efficiently learn a safe and non-conservative policy. Different from existing methods that optimize a conservative lower bound, CCAC directly solves the original chance constrained problems, where the objective function and safe probability is simultaneously optimized with adaptive weights. In order to improve the convergence rate, CCAC utilizes the gradient of dynamic model to accelerate policy optimization. The effectiveness of CCAC is demonstrated by a stochastic car-following task. Experiments indicate that compared with previous RL methods, CCAC improves the performance while guaranteeing safety, with a five times faster convergence rate. It also has 100 times higher online computation efficiency than traditional safety techniques such as stochastic model predictive control.
翻訳日:2021-05-01 11:14:59 公開日:2021-03-16
# 進歩的ワンショットヒューマンパーシング

Progressive One-shot Human Parsing ( http://arxiv.org/abs/2012.11810v2 )

ライセンス: Link先を確認
Haoyu He, Jing Zhang, Bhavani Thuraisingham, Dacheng Tao(参考訳) 事前のヒューマンパースモデルは、トレーニングデータで予め定義されたクラスに人間をパースすることに限定されており、ファッション分析の新しい服など、目に見えないクラスに一般化することは柔軟ではない。 本稿では,人間を1つの参照例で定義されたオープンリファレンスクラスにパースする必要がある,one-shot human parse(oshp)という新しい問題を提案する。 トレーニング中、トレーニングセットで定義されたベースクラスのみが公開され、参照クラスの一部と重複する可能性がある。 本稿では,新しいプログレッシブ・ワンショット・パーシング・ネットワーク(POPNet)を考案し,テストバイアスと小型化という2つの重要な課題に対処する。 POPNetは,Attention Guidance ModuleとNearest Centroid Moduleという2つの共同メトリック学習モジュールで構成されている。 さらに、POPNetは、親クラスの学習知識を粗粒度に組み込むプログレッシブなヒューマンパーシングフレームワークを採用し、子孫クラスを粒度の細かい粒度で認識し、小さなサイズの問題に対処する。 OSHP用に調整されたATR-OSベンチマークの実験では、POPNetは他の代表的なワンショットセグメンテーションモデルよりも大きなマージンで優れ、強力なベースラインを確立している。 ソースコードはhttps://github.com/C harleshhy/One-shot-H uman-Parsingにある。

Prior human parsing models are limited to parsing humans into classes pre-defined in the training data, which is not flexible to generalize to unseen classes, e.g., new clothing in fashion analysis. In this paper, we propose a new problem named one-shot human parsing (OSHP) that requires to parse human into an open set of reference classes defined by any single reference example. During training, only base classes defined in the training set are exposed, which can overlap with part of reference classes. In this paper, we devise a novel Progressive One-shot Parsing network (POPNet) to address two critical challenges , i.e., testing bias and small sizes. POPNet consists of two collaborative metric learning modules named Attention Guidance Module and Nearest Centroid Module, which can learn representative prototypes for base classes and quickly transfer the ability to unseen classes during testing, thereby reducing testing bias. Moreover, POPNet adopts a progressive human parsing framework that can incorporate the learned knowledge of parent classes at the coarse granularity to help recognize the descendant classes at the fine granularity, thereby handling the small sizes issue. Experiments on the ATR-OS benchmark tailored for OSHP demonstrate POPNet outperforms other representative one-shot segmentation models by large margins and establishes a strong baseline. Source code can be found at https://github.com/C harleshhy/One-shot-H uman-Parsing.
翻訳日:2021-04-26 07:47:42 公開日:2021-03-16
# (参考訳) ダイバージェンス制御エンコーダネットワークによる関節次元の低減と分類 [全文訳有]

Divergence Regulated Encoder Network for Joint Dimensionality Reduction and Classification ( http://arxiv.org/abs/2012.15764v3 )

ライセンス: CC BY 4.0
Joshua Peeples, Sarah Walker, Connor McCurley, Alina Zare, James Keller(参考訳) 本稿では,新しいヒストグラムニューラルネットワークを用いて,関節次元の低減と分類を行う。 一般的な次元削減手法である t-Distributed Stochastic Neighbor Embedding (t-SNE) によって動機付けられた本手法は, 低次元埋め込み空間における試料に計算された分類損失を組み込む。 t-SNEが検出した座標に対するサンプル埋め込みを,分類精度と定性評価の観点から比較した。 また, t-SNEの目的において, 様々なばらつき対策の活用についても検討する。 提案手法は, クラス識別性を維持しつつ, サンプル外点の埋め込みを容易にし, 特徴次元を小さくするなどの利点がある。 以上の結果から,提案手法は分類性能を維持・/または向上させ,他のアプリケーションに役立つかもしれないニューラルネットワークの特徴を明らかにする。

In this paper, we investigate performing joint dimensionality reduction and classification using a novel histogram neural network. Motivated by a popular dimensionality reduction approach, t-Distributed Stochastic Neighbor Embedding (t-SNE), our proposed method incorporates a classification loss computed on samples in a low-dimensional embedding space. We compare the learned sample embeddings against coordinates found by t-SNE in terms of classification accuracy and qualitative assessment. We also explore use of various divergence measures in the t-SNE objective. The proposed method has several advantages such as readily embedding out-of-sample points and reducing feature dimensionality while retaining class discriminability. Our results show that the proposed approach maintains and/or improves classification performance and reveals characteristics of features produced by neural networks that may be helpful for other applications.
翻訳日:2021-04-17 21:38:53 公開日:2021-03-16
# 合成開口ソナー画像のための説明可能なシステム解析

Explainable Systematic Analysis for Synthetic Aperture Sonar Imagery ( http://arxiv.org/abs/2101.03134v3 )

ライセンス: Link先を確認
Sarah Walker, Joshua Peeples, Jeff Dale, James Keller, Alina Zare(参考訳) 本稿では,合成開口ソナー(sas)データのための微調整モデルにおいて,局所的解釈可能なモデル非依存説明(lime) (arxiv:1602.04938) などのツールと,どのような変化が性能向上に繋がるかを分析するためのダイバージェンス尺度を用いて,詳細な体系的分析を行う。 クラス不均衡などの微調整過程における要因に対する感度について検討する。 その結果,海底テクスチャ分類の改善だけでなく,性能向上に重要な役割を担っている特徴や,海底画像における海底テクスチャ分類のための深層学習モデルの微調整におけるバランスデータの重要性について深い知見が得られた。

In this work, we present an in-depth and systematic analysis using tools such as local interpretable model-agnostic explanations (LIME) (arXiv:1602.04938) and divergence measures to analyze what changes lead to improvement in performance in fine tuned models for synthetic aperture sonar (SAS) data. We examine the sensitivity to factors in the fine tuning process such as class imbalance. Our findings show not only an improvement in seafloor texture classification, but also provide greater insight into what features play critical roles in improving performance as well as a knowledge of the importance of balanced data for fine tuning deep learning models for seafloor classification in SAS imagery.
翻訳日:2021-04-11 00:02:52 公開日:2021-03-16
# ニュースメディアの事実性とバイアスの予測に関する調査研究

A Survey on Predicting the Factuality and the Bias of News Media ( http://arxiv.org/abs/2103.12506v1 )

ライセンス: Link先を確認
Preslav Nakov, Husrev Taha Sencar, Jisun An, Haewoon Kwak(参考訳) 偽物、偏り、広汎性のあるオンラインコンテンツの現在のレベルは、疑わしいクレームや記事のすべてについて、手動または自動で事実チェックが不可能になっている。 したがって、多くの研究者は、ニュースメディア全体のプロファイル化を目標として、その情報源の信頼性を単に確認することで、その発表の瞬間に「フェイクニュース」を検出することができるように、より高い粒度に注意を向けている。 ソースの事実性は、オンラインで取得した証拠の信頼性を評価する必要があるため、自動ファクトチェックや"フェイクニュース"検出のためのシステムの重要な要素でもある。 政治的バイアス検出は、西側の政治状況において左中心右バイアスを予測することを目的としているが、同様に重要な話題であり、ニュースメディア全体のプロファイリングにも同様の変化を経験している。 さらに、偏見の高いメディアが事実である可能性が低いため、両者の間には明確なつながりがあるが、この2つの問題は別々に解決されている。 本稿では,メディアプロファイリングにおける事実と偏見の実態を概観し,それらを共同でモデル化する必要性について論じる。 我々はさらに、ターゲットニュースサイトが公開した記事のテキストを超えた、異なる情報ソースとモダリティの利用に関する最近の興味深い進歩について論じる。 最後に,現在の課題を議論し,今後の研究の方向性について概説する。

The present level of proliferation of fake, biased, and propagandistic content online has made it impossible to fact-check every single suspicious claim or article, either manually or automatically. Thus, many researchers are shifting their attention to higher granularity, aiming to profile entire news outlets, which makes it possible to detect likely "fake news" the moment it is published, by simply checking the reliability of its source. Source factuality is also an important element of systems for automatic fact-checking and "fake news" detection, as they need to assess the reliability of the evidence they retrieve online. Political bias detection, which in the Western political landscape is about predicting left-center-right bias, is an equally important topic, which has experienced a similar shift towards profiling entire news outlets. Moreover, there is a clear connection between the two, as highly biased media are less likely to be factual; yet, the two problems have been addressed separately. In this survey, we review the state of the art on media profiling for factuality and bias, arguing for the need to model them jointly. We further discuss interesting recent advances in using different information sources and modalities, which go beyond the text of the articles the target news outlet has published. Finally, we discuss current challenges and outline future research directions.
翻訳日:2021-04-05 01:06:53 公開日:2021-03-16
# Selective Survey: 統合型マルチモーダルトランスポートのための最も効率的なモデルと解法

Selective Survey: Most Efficient Models and Solvers for Integrative Multimodal Transport ( http://arxiv.org/abs/2103.15555v1 )

ライセンス: Link先を確認
Oliviu Matei, Erdei Rudolf, Camelia-M. Pintea(参考訳) インテリジェントトランスポーテーションシステム(ITS)のファミリーでは、MMTS(マルチモーダルトランスポーテーションシステム)が、実現可能な統合トランスポーテーションプロセスとして、当時の主流のトランスポーテーション手段として位置づけられている。 世界経済は輸送の助けを借りて進んだ。 対象とする商品の量と距離は過去10年間で倍増しているため、最適化された輸送の需要が高く、高速だが低コストで資源を節約できるだけでなく、低またはゼロの排出で安全でもある。 したがって、この分野の既存の研究の概要を把握し、何が既になされたのか、次に何を研究すべきかを知ることが重要である。 主な目的は、マルチモーダル輸送研究分野における既存の研究、方法、情報の受益選択を探求し、研究における産業ニーズとギャップを特定し、今後の研究の文脈を提供することである。 選択的な調査は、コスト、時間、ネットワークトポロジーの観点から、マルチモーダルトランスポート設計と最適化をカバーしている。 マルチモーダル輸送の理論的側面、文脈、資源もまた様々な側面をカバーしている。 この調査では、インテリジェントトランスポーテーションシステム(ITS)の最良の方法と解決方法が選択されている。 理論と実世界の応用のギャップは、グローバルマルチモーダル輸送システムの最適化のためにさらに解決すべきである。

In the family of Intelligent Transportation Systems (ITS), Multimodal Transport Systems (MMTS) have placed themselves as a mainstream transportation mean of our time as a feasible integrative transportation process. The Global Economy progressed with the help of transportation. The volume of goods and distances covered have doubled in the last ten years, so there is a high demand of an optimized transportation, fast but with low costs, saving resources but also safe, with low or zero emissions. Thus, it is important to have an overview of existing research in this field, to know what was already done and what is to be studied next. The main objective is to explore a beneficent selection of the existing research, methods and information in the field of multimodal transportation research, to identify industry needs and gaps in research and provide context for future research. The selective survey covers multimodal transport design and optimization in terms of: cost, time, and network topology. The multimodal transport theoretical aspects, context and resources are also covering various aspects. The survey's selection includes nowadays best methods and solvers for Intelligent Transportation Systems (ITS). The gap between theory and real-world applications should be further solved in order to optimize the global multimodal transportation system.
翻訳日:2021-04-05 01:06:03 公開日:2021-03-16
# kanerva++: ローカルに割り当てられた潜在メモリをブロックする、差別化可能なkanervaマシンの拡張

Kanerva++: extending The Kanerva Machine with differentiable, locally block allocated latent memory ( http://arxiv.org/abs/2103.03905v2 )

ライセンス: Link先を確認
Jason Ramapuram, Yan Wu, Alexandros Kalousis(参考訳) エピソードとセマンティックメモリは人間の記憶モデルの重要な構成要素である。 補足学習システムの理論 (mcclelland et al., 1995) は、直列イベントによって生成される圧縮表現 (episodic memory) が後に再構成され、より一般化された再利用可能な知識 (semantic memory) が構築されることを示唆している。 本研究では,階層的潜在変数モデルを用いて,エピソジックメモリと意味記憶のギャップを橋渡しする新しい原理ベイズメモリ割当スキームを開発した。 従来のヒープ割り当てからインスピレーションを得て、ローカルに連続したメモリをkanervaマシンに拡張し、新しい微分可能なブロック割り当て潜在メモリを可能にする。 カネルバマシンとは対照的に、リードキー分布の確率性に頼り、完全にフィードフォワード決定論的プロセスとして扱うことで、メモリ書き込みのプロセスを単純化し、メモリ内に情報を分散させる。 このアロケーション方式によりメモリ条件画像生成の性能が向上し、二項化MNIST (<=41.58 nats/image)、二項化Omniglot (<=66.24 nats/image)、CIFAR10, DMLab Mazes, Celeb-A, ImageNet32x32の競合性能を示す。

Episodic and semantic memory are critical components of the human memory model. The theory of complementary learning systems (McClelland et al., 1995) suggests that the compressed representation produced by a serial event (episodic memory) is later restructured to build a more generalized form of reusable knowledge (semantic memory). In this work we develop a new principled Bayesian memory allocation scheme that bridges the gap between episodic and semantic memory via a hierarchical latent variable model. We take inspiration from traditional heap allocation and extend the idea of locally contiguous memory to the Kanerva Machine, enabling a novel differentiable block allocated latent memory. In contrast to the Kanerva Machine, we simplify the process of memory writing by treating it as a fully feed forward deterministic process, relying on the stochasticity of the read key distribution to disperse information within the memory. We demonstrate that this allocation scheme improves performance in memory conditional image generation, resulting in new state-of-the-art conditional likelihood values on binarized MNIST (<=41.58 nats/image) , binarized Omniglot (<=66.24 nats/image), as well as presenting competitive performance on CIFAR10, DMLab Mazes, Celeb-A and ImageNet32x32.
翻訳日:2021-04-05 00:45:39 公開日:2021-03-16
# (参考訳) 英国バイオバンクMRIにおける深部回帰アンサンブルを用いた不確実性認識体組成解析 [全文訳有]

Uncertainty-Aware Body Composition Analysis with Deep Regression Ensembles on UK Biobank MRI ( http://arxiv.org/abs/2101.06963v2 )

ライセンス: CC BY 4.0
Taro Langner, Fredrik K. Gustafsson, Benny Avelin, Robin Strand, H\r{a}kan Ahlstr\"om, and Joel Kullberg(参考訳) 豊かな健康関連メタデータとともに、2014年から44~82歳の英国バイオバンクの男性4万人以上のMRIも取得している。 これらの画像から得られたフェノタイプ、例えば体組成の測定は、遺伝学、心血管疾患、代謝状態の新たな関連を明らかにすることができる。 本研究では,6つの体組成測定をResNet50ニューラルネットワークを用いて自動推定し,頸部から膝へのMRI画像の回帰解析を行った。 高速かつ精度の可能性があるにもかかわらず、これらのネットワークは個々の測定の信頼性を示す出力セグメンテーションを作らない。 そこで, 予測不確かさ推定のための平均分散回帰とアンサンブルについて検討し, 個々の測定誤差を定量化し, 潜在的な異常値, 異常値, その他の故障事例を自動的に同定する。 約8,500人の被験者のデータに対する10倍のクロスバリデーションでは、平均分散回帰とアンサンブルは相補的な利点を示し、全ての予測における平均絶対誤差を12%削減した。 不確実性の校正と高い予測誤差を識別する能力を改善した。 クラス内相関係数 (ICC) を0.97以上とすると, 肝脂肪含量を除くすべてのターゲットが5%未満の相対測定誤差を示した。 さらに1000人の被験者を対象としたテストでは、一貫したパフォーマンスを示し、最終的に3万人の被験者に参照値の欠如を推測するためにメソッドが展開された。 その結果、ディープレグレッションアンサンブルは最終的に、今後数年以内に取得される予定の12万本以上の英国バイオバンクのネック・トゥ・クニー・ボディMRIに対して、身体組成の自動的不確実性測定を提供する可能性があることが示唆された。

Along with rich health-related metadata, an ongoing imaging study has acquired MRI of over 40,000 male and female UK Biobank participants aged 44-82 since 2014. Phenotypes derived from these images, such as measurements of body composition, can reveal new links between genetics, cardiovascular disease, and metabolic conditions. In this retrospective study, six measurements of body composition were automatically estimated by ResNet50 neural networks for image-based regression from neck-to-knee body MRI. Despite the potential for high speed and accuracy, these networks produce no output segmentations that could indicate the reliability of individual measurements. The presented experiments therefore examine mean-variance regression and ensembling for predictive uncertainty estimation, which can quantify individual measurement errors and thereby help to identify potential outliers, anomalies, and other failure cases automatically. In 10-fold cross-validation on data of about 8,500 subjects, mean-variance regression and ensembling showed complementary benefits, reducing the mean absolute error across all predictions by 12%. Both improved the calibration of uncertainties and their ability to identify high prediction errors. With intra-class correlation coefficients (ICC) above 0.97, all targets except the liver fat content yielded relative measurement errors below 5%. Testing on another 1,000 subjects showed consistent performance, and the method was finally deployed for inference to 30,000 subjects with missing reference values. The results indicate that deep regression ensembles could ultimately provide automated, uncertainty-aware measurements of body composition for more than 120,000 UK Biobank neck-to-knee body MRI that are to be acquired within the coming years.
翻訳日:2021-03-27 14:49:21 公開日:2021-03-16
# (参考訳) リスク駆動行動の知識を活用する自律エージェントの構築 [全文訳有]

Building Safer Autonomous Agents by Leveraging Risky Driving Behavior Knowledge ( http://arxiv.org/abs/2103.10245v1 )

ライセンス: CC BY 4.0
Ashish Rana, Avleen Malhi(参考訳) シミュレーション環境は、車線変更や駐車、交差点の処理など、さまざまな運転タスクを学ぶのに適しています。 抽象的な方法で しかし、これらのシミュレーション環境は、しばしば異なる車両間の保守的な相互作用行動下での操作に制限される。 しかし、私たちが知っているように、実際の運転タスクには、期待される意味で他のドライバーが振る舞わない非常に高いリスクシナリオが伴うことが多い。 疲れたり経験不足だったりするなど、この行動には多くの理由がある。 シミュレーション環境は、ナビゲーションエージェントのトレーニング中にこの情報を考慮していません。 そこで本研究では,モデルフリーな学習エージェントを作成するために,トラフィックの多さと予期せぬランダムな行動を伴うリスクシナリオを体系的に作成することに注力する。 highway-envシミュレーションパッケージに、新たなカスタムマルコフ決定プロセス(mdp)環境イテレーションを作成して、複数の自動運転シナリオを生成します。 行動方針は、深層強化学習モデルの助けを借りて訓練されたエージェントによって学習される。 私たちの行動方針は、衝突や危険なランダム化ドライバーの行動を扱うことを意図しています。 リスクの高い運転シナリオを補足したモデル自由学習エージェントを訓練し,その性能をベースラインエージェントと比較する。 最後に,これらの学習結果の活用によって得られた性能向上を正確に考慮し,学習プロセスにこれらの摂動を加えることが与える影響をカジュアルに測定する。

Simulation environments are good for learning different driving tasks like lane changing, parking or handling intersections etc. in an abstract manner. However, these simulation environments often restrict themselves to operate under conservative interactions behavior amongst different vehicles. But, as we know that the real driving tasks often involves very high risk scenarios where other drivers often don't behave in the expected sense. There can be many reasons for this behavior like being tired or inexperienced. The simulation environments doesn't take this information into account while training the navigation agent. Therefore, in this study we especially focus on systematically creating these risk prone scenarios with heavy traffic and unexpected random behavior for creating better model-free learning agents. We generate multiple autonomous driving scenarios by creating new custom Markov Decision Process (MDP) environment iterations in highway-env simulation package. The behavior policy is learnt by agents trained with the help from deep reinforcement learning models. Our behavior policy is deliberated to handle collisions and risky randomized driver behavior. We train model free learning agents with supplement information of risk prone driving scenarios and compare their performance with baseline agents. Finally, we casually measure the impact of adding these perturbations in the training process to precisely account for the performance improvement attained from utilizing the learnings from these scenarios.
翻訳日:2021-03-20 09:54:45 公開日:2021-03-16
# オンライン広告におけるマルチプラットフォーム予算最適化のための確率帯域

Stochastic Bandits for Multi-platform Budget Optimization in Online Advertising ( http://arxiv.org/abs/2103.10246v1 )

ライセンス: Link先を確認
Vashist Avadhanula, Riccardo Colini-Baldeschi, Stefano Leonardi, Karthik Abinav Sankararaman, Okke Schrijvers(参考訳) 我々は,複数のプラットフォームにまたがる広告キャンペーンにおいて,広告主の予算を最適に利用しようとするオンライン広告システムの問題について,それらのプラットフォーム上でユーザに対して広告を表示する価値を知らずに検討する。 この挑戦的な実践的応用を、knapsacks問題のある確率的バンディットとしてモデル化し、$m$-tuplesという異なる入札のセットによって与えられたアームセットを$t$の入札問題に当てはめ、$m$をプラットフォーム数とする。 我々は、badanidiyuru \emph{et al.,} で提案するアルゴリズムを複数のプラットフォームに拡張し、離散入札空間と連続入札空間の両方のアルゴリズムを得る。 すなわち、離散入札空間に対して、後悔するアルゴリズムに$o\left(opt \sqrt {\frac{mn}{b} }+ \sqrt{mn opt}\right)$を与え、ここで$opt$は分布を知る最適なアルゴリズムの性能である。 連続入札空間に対しては、我々のアルゴリズムの後悔は$\tilde{O}\left(m^{1/3} \cdot \min\left\{ B^{2/3}, (m T)^{2/3} \right\right)$である。 この特別なケースに制限された場合、このバウンダリは、手元にある特定のアプリケーションの場合と同様に、体制$OPT \ll T$のサンカラマンとスリブキンスよりも改善される。 第二に、離散ケースに対する$ \Omega\left (\sqrt {m OPT} \right)$下界と連続設定に対する$ \Omega\left(m^{1/3} B^{2/3}\right)$下界を示し、上界とほぼ一致する。 最後に、複数の広告プラットフォームを持つ巨大インターネットオンライン広告会社の実世界のデータセットを使用し、我々のアルゴリズムが一般的なベンチマークを上回り、現実世界のアプリケーションで保証される要求された特性を満たすことを示す。

We study the problem of an online advertising system that wants to optimally spend an advertiser's given budget for a campaign across multiple platforms, without knowing the value for showing an ad to the users on those platforms. We model this challenging practical application as a Stochastic Bandits with Knapsacks problem over $T$ rounds of bidding with the set of arms given by the set of distinct bidding $m$-tuples, where $m$ is the number of platforms. We modify the algorithm proposed in Badanidiyuru \emph{et al.,} to extend it to the case of multiple platforms to obtain an algorithm for both the discrete and continuous bid-spaces. Namely, for discrete bid spaces we give an algorithm with regret $O\left(OPT \sqrt {\frac{mn}{B} }+ \sqrt{mn OPT}\right)$, where $OPT$ is the performance of the optimal algorithm that knows the distributions. For continuous bid spaces the regret of our algorithm is $\tilde{O}\left(m^{1/3} \cdot \min\left\{ B^{2/3}, (m T)^{2/3} \right\} \right)$. When restricted to this special-case, this bound improves over Sankararaman and Slivkins in the regime $OPT \ll T$, as is the case in the particular application at hand. Second, we show an $ \Omega\left (\sqrt {m OPT} \right)$ lower bound for the discrete case and an $\Omega\left( m^{1/3} B^{2/3}\right)$ lower bound for the continuous setting, almost matching the upper bounds. Finally, we use a real-world data set from a large internet online advertising company with multiple ad platforms and show that our algorithms outperform common benchmarks and satisfy the required properties warranted in the real-world application.
翻訳日:2021-03-19 13:52:01 公開日:2021-03-16
# (参考訳) FES: 高速でスケーラブルなQoS予測フレームワーク [全文訳有]

FES: A Fast Efficient Scalable QoS Prediction Framework ( http://arxiv.org/abs/2103.07494v2 )

ライセンス: CC BY 4.0
Soumi Chattopadhyay, Chandranath Adak, Ranjana Roy Chowdhury(参考訳) Webサービスのクオリティ・オブ・サービス予測は、サービス構成、サービス選択、サービスレコメンデーションなど、サービスライフサイクルのさまざまな側面における多様なアプリケーションのために、サービスコンピューティングの不可欠な部分です。 QoS予測アルゴリズムを設計する主な目的の1つは、良好な予測精度を達成することである。 しかし、QoS予測アルゴリズムを開発する際に満たすべき基準は精度だけではない。 アルゴリズムは、リアルタイムのレコメンデーションやコンポジションシステムに統合できるように、予測時間の観点からより高速でなければならない。 予測アルゴリズムを設計する際に考慮すべきもう1つの重要な要素は、予測アルゴリズムが大規模データセットに対処できるように拡張性である。 QoS予測の既存のアルゴリズムは、他のアルゴリズムを確実にしながら、ある目標に対して妥協することが多い。 本稿では,高い精度,高速な予測時間,スケーラビリティの3つの重要な目標を同時に達成する半オフラインQoS予測モデルを提案する。 ここでは,ユーザ間で異なるサービスのqos価値を予測することを目的とする。 本フレームワークは,前処理フェーズ予測,オンライン予測,事前学習モデルを用いた予測といった多相予測アルゴリズムからなる。 プリプロセッシングフェーズでは、まずデータセットにマルチレベルクラスタリングを適用し、相関のあるユーザとサービスを得る。 次に、協調フィルタリングを用いてクラスタを前処理し、与えられたQoS呼び出しログ行列の間隔を除去する。 最後に,ニューラルネットワークを用いた2段階の半オフライン回帰モデルを作成し,ユーザがリアルタイムに呼び出すサービスのqos値を予測する。 公開された4つのWS-DREAMデータセットの実験結果は、最先端の手法と比較して、フレームワークの正確性、スケーラビリティ、迅速な応答性の観点から効率性を示している。

Quality-of-Service prediction of web service is an integral part of services computing due to its diverse applications in the various facets of a service life cycle, such as service composition, service selection, service recommendation. One of the primary objectives of designing a QoS prediction algorithm is to achieve satisfactory prediction accuracy. However, accuracy is not the only criteria to meet while developing a QoS prediction algorithm. The algorithm has to be faster in terms of prediction time so that it can be integrated into a real-time recommendation or composition system. The other important factor to consider while designing the prediction algorithm is scalability to ensure that the prediction algorithm can tackle large-scale datasets. The existing algorithms on QoS prediction often compromise on one goal while ensuring the others. In this paper, we propose a semi-offline QoS prediction model to achieve three important goals simultaneously: higher accuracy, faster prediction time, scalability. Here, we aim to predict the QoS value of service that varies across users. Our framework consists of multi-phase prediction algorithms: preprocessing-phase prediction, online prediction, and prediction using the pre-trained model. In the preprocessing phase, we first apply multi-level clustering on the dataset to obtain correlated users and services. We then preprocess the clusters using collaborative filtering to remove the sparsity of the given QoS invocation log matrix. Finally, we create a two-staged, semi-offline regression model using neural networks to predict the QoS value of service to be invoked by a user in real-time. Our experimental results on four publicly available WS-DREAM datasets show the efficiency in terms of accuracy, scalability, fast responsiveness of our framework as compared to the state-of-the-art methods.
翻訳日:2021-03-19 02:11:56 公開日:2021-03-16
# (参考訳) stokes profile inversionsを高速化する機械学習初期化 [全文訳有]

Machine learning initialization to accelerate Stokes profile inversions ( http://arxiv.org/abs/2103.09651v1 )

ライセンス: CC BY 4.0
R. Gafeira, D. Orozco Su\'arez, I. Milic, C. Quintero Noda, B. Ruiz Cobo, H. Uitenbroek(参考訳) 本研究では、Stokesプロファイルの逆変換を有利に初期化するツールとして、畳み込みニューラルネットワーク(CNN)の適用について論じる。 CNNの有用性を示すために,本稿ではLTE Stokesプロファイルの逆転に着目した。 ヒノード探査機で観測された分光偏光度計をテストベンチマークとして使用した。 まず、所定の初期大気モデルを用いて、SIRインバージョンコードを用いてデータを慎重に解析する。 コードは、観測を再現する大気モデルセットを提供する。 これらのモデルはCNNのトレーニングに使用される。 その後、同じデータは再びSIRで逆転されるが、訓練されたCNNを使用して、SIRの大気モデルの初期推定を提供する。 CNNでは,初期推定モデル大気の計算に使用するインバージョンサイクルの数を著しく削減し,LTEインバージョンにおける計算時間を2~4倍に削減できる。 CNN単独では、補助インバージョンよりもはるかに高速だが、後者はより堅牢で正確である。 スペクトル線反転の最適初期大気モデル推定のための機械学習手法の利点と限界について考察した。 最後に、並列インバージョンを簡単に設定できるSIRおよびDeSIRe符号用のピソンラッパーについて述べる。 補助インバージョンはインバージョン処理を高速化するが、インバージョン結果の効率と正確性は、太陽シーンとCNNトレーニングに使用されるデータに強く依存する。 この方法(補助反転)は、個々の事象を最善の注意で分析する必要性をなくすものではなく、太陽科学者に大量の反転データをサンプリングするより優れた機会を与える。

In this work, we discuss the application of convolutional neural networks (CNNs) as a tool to advantageously initialize Stokes profile inversions. To demonstrate the usefulness of CNNs, we concentrate in this paper on the inversion of LTE Stokes profiles. We use observations taken with the spectropolarimeter onboard the Hinode spacecraft as a test benchmark. First, we carefully analyze the data with the SIR inversion code using a given initial atmospheric model. The code provides a set of atmospheric models that reproduce the observations. These models are then used to train a CNN. Afterwards, the same data are again inverted with SIR but using the trained CNN to provide the initial guess atmospheric models for SIR. The CNNs allow us to significantly reduce the number of inversion cycles when used to compute initial guess model atmospheres, decreasing the computational time for LTE inversions by a factor of two to four. CNN's alone are much faster than assisted inversions, but the latter are more robust and accurate. The advantages and limitations of machine learning techniques for estimating optimum initial atmospheric models for spectral line inversions are discussed. Finally, we describe a python wrapper for the SIR and DeSIRe codes that allows for the easy setup of parallel inversions. The assisted inversions can speed up the inversion process, but the efficiency and accuracy of the inversion results depend strongly on the solar scene and the data used for the CNN training. This method (assisted inversions) will not obviate the need for analyzing individual events with the utmost care but will provide solar scientists with a much better opportunity to sample large amounts of inverted data, which will undoubtedly broaden the physical discovery space.
翻訳日:2021-03-19 00:59:13 公開日:2021-03-16
# (参考訳) no intruder, no valid: evaluation criteria for privacy-preserving text anonymization [全文訳有]

No Intruder, no Validity: Evaluation Criteria for Privacy-Preserving Text Anonymization ( http://arxiv.org/abs/2103.09263v1 )

ライセンス: CC BY 4.0
Maximilian Mozes, Bennett Kleinberg(参考訳) 機密テキストデータをNLP研究者と実践者の間で共有するには、共有ドキュメントはデータ保護とプライバシー法に従う必要がある。 そのため、テキスト匿名化の自動化アプローチへの関心が高まっている。 しかし、そのようなメソッドのパフォーマンスを測定することは難しい。単一の識別属性が欠落すると、個人のアイデンティティが明らかになる。 本稿では,この問題に注意を向け,自動テキスト匿名化システムを開発する研究者や実践者が,その評価手法が,個人の再同定を防げるシステムの能力を本当に反映しているかを慎重に評価すべきであると主張する。 次に、匿名化手法の技術的性能、匿名化による情報損失、再現された文書の非匿名化能力を含む評価基準のセットであるTILDを提案する。 これらの基準は、匿名化性能を測定する標準的な方法への進歩を促進する可能性がある。

For sensitive text data to be shared among NLP researchers and practitioners, shared documents need to comply with data protection and privacy laws. There is hence a growing interest in automated approaches for text anonymization. However, measuring such methods' performance is challenging: missing a single identifying attribute can reveal an individual's identity. In this paper, we draw attention to this problem and argue that researchers and practitioners developing automated text anonymization systems should carefully assess whether their evaluation methods truly reflect the system's ability to protect individuals from being re-identified. We then propose TILD, a set of evaluation criteria that comprises an anonymization method's technical performance, the information loss resulting from its anonymization, and the human ability to de-anonymize redacted documents. These criteria may facilitate progress towards a standardized way for measuring anonymization performance.
翻訳日:2021-03-19 00:36:47 公開日:2021-03-16
# (参考訳) トポロジカル特徴の双曲表現の学習 [全文訳有]

Learning Hyperbolic Representations of Topological Features ( http://arxiv.org/abs/2103.09273v1 )

ライセンス: CC BY 4.0
Panagiotis Kyriakis, Iordanis Fostiropoulos, Paul Bogdan(参考訳) 永続図のタスク固有の表現の学習は、トポロジカルなデータ分析と機械学習において重要な問題である。 しかし、現在の芸術的手法は、ユークリッド表現に焦点を当てているため、表現性が制限されている。 永続図は無限の永続性(すなわち本質的特徴)の特徴を含み、ユークリッド空間は無限遠を有限点に割り当てることができないため、非本質的特徴に比べてその重要性が小さくなる。 この問題に対処するため,我々は双曲空間,特にpoincareボールについて,永続図の表現を学ぶ手法を提案する。 無限の永続性の特徴をボールの境界に近い無限に表現することで、その距離と非必要特徴は無限に近づいたため、相対的な重要性が保たれる。 これは学習可能なパラメータに非常に高い値を用いることなく達成されるため、表現は下流最適化法に供給され、エンドツーエンドの方法で効率的に訓練することができる。 本研究は,グラフおよび画像分類タスクに関する実験結果から,本手法の性能が他の手法と同等かそれ以上であることを示す。

Learning task-specific representations of persistence diagrams is an important problem in topological data analysis and machine learning. However, current state of the art methods are restricted in terms of their expressivity as they are focused on Euclidean representations. Persistence diagrams often contain features of infinite persistence (i.e., essential features) and Euclidean spaces shrink their importance relative to non-essential features because they cannot assign infinite distance to finite points. To deal with this issue, we propose a method to learn representations of persistence diagrams on hyperbolic spaces, more specifically on the Poincare ball. By representing features of infinite persistence infinitesimally close to the boundary of the ball, their distance to non-essential features approaches infinity, thereby their relative importance is preserved. This is achieved without utilizing extremely high values for the learnable parameters, thus the representation can be fed into downstream optimization methods and trained efficiently in an end-to-end fashion. We present experimental results on graph and image classification tasks and show that the performance of our method is on par with or exceeds the performance of other state of the art methods.
翻訳日:2021-03-19 00:30:13 公開日:2021-03-16
# (参考訳) 高齢者における糖尿病の自己管理のためのパーソナルヘルスライブラリー対応mhealth recommenderシステム--ナレッジグラフとlinked dataを事例として [全文訳有]

Using a Personal Health Library-Enabled mHealth Recommender System for Self-Management of Diabetes Among Underserved Populations: Use Case for Knowledge Graphs and Linked Data ( http://arxiv.org/abs/2103.09311v1 )

ライセンス: CC BY 4.0
Nariman Ammar, James E Bailey, Robert L Davis, Arash Shaban-Nejad(参考訳) パーソナルヘルスライブラリ(PHL)は、患者のデジタルヘルスデータへの安全なアクセスを提供し、デジタルヘルスプロファイルに格納された知識と、他のグローバルな知識ソースとの統合を可能にする。 PHLは、介護者や医療提供者に対して、彼らの生活の文脈で医療イベントを理解することによって、患者の健康に関する情報的な決定を下すのに役立つ。 本稿では,糖尿病成人のセルフケア行動を改善するためのリコメンデーションを提供するために,phlに記憶されたデジタルヘルスデータと,他のコンテキスト知識のソースの両方を組み込んだモバイルヘルスデジタル介入の実装について報告する。 文献的証拠をもとに,現在EHRから欠落している患者機能要件と非機能要件を理論的に評価した。 結果を使って、これらの要件に対応するために必要なテクノロジを特定しました。 PHLに格納されている知識の種類の構築、管理、統合に使用される技術基盤について述べる。 私たちはsocial linked data(solid)プラットフォームを活用して、相互運用性とケア統合をサポートする、完全に分散したプライバシー対応のプラットフォームを設計しています。 我々は,PHLの初期プロトタイプ設計を行い,提案したプロトタイプをユーザ要求にどう対応できるかを示すために,4人のアクタによるユースケースシナリオを作成した。PHLの構築と管理と,PHLに格納・統合された知識をプライベートかつ完全に分散的にクエリして,より優れたレコメンデーションを提供するモバイルアプリ開発への利用などだ。 提案するphlは、患者とその介護者が健康に関する意思決定において中心的な役割を担い、医療提供者に収集した知識の収集と解釈を支援するインフォマティクスツールを提供する。

Personal health libraries (PHLs) provide a single point of secure access to patients digital health data and enable the integration of knowledge stored in their digital health profiles with other sources of global knowledge. PHLs can help empower caregivers and health care providers to make informed decisions about patients health by understanding medical events in the context of their lives. This paper reports the implementation of a mobile health digital intervention that incorporates both digital health data stored in patients PHLs and other sources of contextual knowledge to deliver tailored recommendations for improving self-care behaviors in diabetic adults. We conducted a thematic assessment of patient functional and nonfunctional requirements that are missing from current EHRs based on evidence from the literature. We used the results to identify the technologies needed to address those requirements. We describe the technological infrastructures used to construct, manage, and integrate the types of knowledge stored in the PHL. We leverage the Social Linked Data (Solid) platform to design a fully decentralized and privacy-aware platform that supports interoperability and care integration. We provided an initial prototype design of a PHL and drafted a use case scenario that involves four actors to demonstrate how the proposed prototype can be used to address user requirements, including the construction and management of the PHL and its utilization for developing a mobile app that queries the knowledge stored and integrated into the PHL in a private and fully decentralized manner to provide better recommendations. The proposed PHL helps patients and their caregivers take a central role in making decisions regarding their health and equips their health care providers with informatics tools that support the collection and interpretation of the collected knowledge.
翻訳日:2021-03-18 23:55:30 公開日:2021-03-16
# (参考訳) グラフ畳み込みネットワークを用いた共同情報抽出のためのクロスタスクインスタンス表現相互作用とラベル依存性 [全文訳有]

Cross-Task Instance Representation Interactions and Label Dependencies for Joint Information Extraction with Graph Convolutional Networks ( http://arxiv.org/abs/2103.09330v1 )

ライセンス: CC BY-SA 4.0
Minh Van Nguyen, Viet Dac Lai and Thien Huu Nguyen(参考訳) 情報抽出(ie)に関する既存の研究は、主に4つの主要なタスク(エンティティ参照認識、関係抽出、イベントトリガー検出、引数抽出)を個別に解決しており、タスク間の相互依存性の恩恵を受けていない。 本稿では,1つのモデル(FourIE)でIEの4つのタスクを同時に解くための新しいディープラーニングモデルを提案する。 4つのIEタスクを共同実行する以前の作業と比べて、FourIEはタスク間の依存関係をキャプチャする2つの新しいコントリビューションを備えている。 まず、表現レベルでは、4つのタスクのインスタンス間の相互作用グラフを導入し、1つのタスクの予測表現と、他のタスクの関連インスタンスとの相互作用グラフを導入する。 第2に、ラベルレベルにおいて、入力文で表現された型間の接続をキャプチャする4つのIEタスクにおける情報型に対する依存性グラフを提案する。 黄金型依存グラフと予測型依存グラフの一貫性を強制し、表現学習を改善するために、新しい正規化機構が導入された。 提案モデルは,3つの異なる言語を用いた単言語学習と多言語学習の両方において,ieの最先端性能を実現する。

Existing works on information extraction (IE) have mainly solved the four main tasks separately (entity mention recognition, relation extraction, event trigger detection, and argument extraction), thus failing to benefit from inter-dependencies between tasks. This paper presents a novel deep learning model to simultaneously solve the four tasks of IE in a single model (called FourIE). Compared to few prior work on jointly performing four IE tasks, FourIE features two novel contributions to capture inter-dependencies between tasks. First, at the representation level, we introduce an interaction graph between instances of the four tasks that is used to enrich the prediction representation for one instance with those from related instances of other tasks. Second, at the label level, we propose a dependency graph for the information types in the four IE tasks that captures the connections between the types expressed in an input sentence. A new regularization mechanism is introduced to enforce the consistency between the golden and predicted type dependency graphs to improve representation learning. We show that the proposed model achieves the state-of-the-art performance for joint IE on both monolingual and multilingual learning settings with three different languages.
翻訳日:2021-03-18 23:30:42 公開日:2021-03-16
# (参考訳) Digital Peter: データセット,コンペティション,手書き認識方法 [全文訳有]

Digital Peter: Dataset, Competition and Handwriting Recognition Methods ( http://arxiv.org/abs/2103.09354v1 )

ライセンス: CC BY 4.0
Mark Potanin, Denis Dimitrov, Alex Shonenkov, Vladimir Bataev, Denis Karachev and Maxim Novopoltsev(参考訳) 本稿では,peter the great's manuscriptsの新しいデータセットを提示し,文書の初期画像を行に変換するセグメンテーション手順について述べる。 新しいデータセットは、異なるモデルを比較するベンチマークとして手書き文字認識モデルを訓練する研究者にとって有用かもしれない。 歴史文書の行に対応する9つの694の画像とテキストファイルで構成されている。 オープン機械学習コンペティションDigital Peterは、検討されたデータセットに基づいて開催された。 このコンペのベースライン・ソリューションや、手書きのテキスト認識に関するより高度な方法がこの記事に記載されている。 完全なデータセットとすべてのコードが公開されている。

This paper presents a new dataset of Peter the Great's manuscripts and describes a segmentation procedure that converts initial images of documents into the lines. The new dataset may be useful for researchers to train handwriting text recognition models as a benchmark for comparing different models. It consists of 9 694 images and text files corresponding to lines in historical documents. The open machine learning competition Digital Peter was held based on the considered dataset. The baseline solution for this competition as well as more advanced methods on handwritten text recognition are described in the article. Full dataset and all code are publicly available.
翻訳日:2021-03-18 23:06:23 公開日:2021-03-16
# (参考訳) 物理的に一貫したデータ駆動天気予報に向けて--等分散保存深部変圧器によるデータ同化の統合 [全文訳有]

Towards physically consistent data-driven weather forecasting: Integrating data assimilation with equivariance-preserv ing deep spatial transformers ( http://arxiv.org/abs/2103.09360v1 )

ライセンス: CC BY 4.0
Ashesh Chattopadhyay, Mustafa Mustafa, Pedram Hassanzadeh, Eviatar Bach, Karthik Kashinath(参考訳) 例えば、モデルからのデータや再分析に基づいてトレーニングされたU-NETのような畳み込みニューラルネットワークを使用することで、データ駆動型天気予報(DDWP)への関心が高まっている。 本稿では,その物理的一貫性と予測精度を向上させるために,一般的なddwpモデルと統合するための3つのコンポーネントを提案する。 These components are 1) a deep spatial transformer added to the latent space of the U-NETs to preserve a property called equivariance, which is related to correctly capturing rotations and scalings of features in spatio-temporal data, 2) a data-assimilation (DA) algorithm to ingest noisy observations and improve the initial conditions for next forecasts, and 3) a multi-time-step algorithm, which combines forecasts from DDWP models with different time steps through DA, improving the accuracy of forecasts at short intervals. ERA5の再解析から500~hPa (Z500) の測地的高さを用いて, DDWPフレームワークの特定の設定の短期的予測精度を検証した。 その結果, 等価保存ネットワーク(U-STN)はU-NETより明らかに優れており, 例えば予測能力が45.5%向上した。 DAとU-STNのSigma-point ensemble Kalman (SPEnKF) アルゴリズムをフォワードモデルとして用いて, 高い観測ノイズを伴っても, 安定かつ正確なDAサイクルが得られることを示す。 DDWP+DAフレームワークは、DAサイクル毎にデータ駆動のフォワードモデルで安価に生成される大規模な(O(1000)$)アンサンブルから実質的に恩恵を受ける。 DDWP+DAフレームワークは、例えば平均エラーを2~3の係数で削減するという約束も示している。

There is growing interest in data-driven weather prediction (DDWP), for example using convolutional neural networks such as U-NETs that are trained on data from models or reanalysis. Here, we propose 3 components to integrate with commonly used DDWP models in order to improve their physical consistency and forecast accuracy. These components are 1) a deep spatial transformer added to the latent space of the U-NETs to preserve a property called equivariance, which is related to correctly capturing rotations and scalings of features in spatio-temporal data, 2) a data-assimilation (DA) algorithm to ingest noisy observations and improve the initial conditions for next forecasts, and 3) a multi-time-step algorithm, which combines forecasts from DDWP models with different time steps through DA, improving the accuracy of forecasts at short intervals. To show the benefit/feasibility of each component, we use geopotential height at 500~hPa (Z500) from ERA5 reanalysis and examine the short-term forecast accuracy of specific setups of the DDWP framework. Results show that the equivariance-preserv ing networks (U-STNs) clearly outperform the U-NETs, for example improving the forecast skill by $45\%$. Using a sigma-point ensemble Kalman (SPEnKF) algorithm for DA and U-STN as the forward model, we show that stable, accurate DA cycles are achieved even with high observation noise. The DDWP+DA framework substantially benefits from large ($O(1000)$) ensembles that are inexpensively generated with the data-driven forward model in each DA cycle. The multi-time-step DDWP+DA framework also shows promises, e.g., it reduces the average error by factors of 2-3.
翻訳日:2021-03-18 22:51:28 公開日:2021-03-16
# バイオインスパイアされたロバストネス

Bio-inspired Robustness: A Review ( http://arxiv.org/abs/2103.09265v1 )

ライセンス: Link先を確認
Harshitha Machiraju, Oh-Hyeon Choung, Pascal Frossard, Michael. H Herzog(参考訳) 深層畳み込みニューラルネットワーク(dcnn)はコンピュータビジョンに革命をもたらし、しばしば人間の視覚システムの良いモデルとして主張されている。 しかし、現在DCNNには多くの欠点があり、人間の視覚のモデルとして利用できない。 例えば、敵対的な攻撃の場合、オブジェクトを含む画像に少量のノイズを加えると、そのオブジェクトの強い誤分類につながる可能性がある。 しかし、人間にとってノイズはしばしば目に見えない。 敵対的ノイズに対する脆弱性が修正できない場合、DCNNは人間の視覚の真剣なモデルとみなすことはできない。 多くの研究が、ヒトの視覚系の特徴をDCNNに追加し、敵の攻撃に対して堅牢にしようと試みている。 しかし、DCNNにおけるこれらの新しいコンポーネントの性能評価がしばしば不確定であるため、人間の視覚にインスパイアされたコンポーネントがロバスト性を高めるか否かは明らかになっていない。 これらの基準に基づいて, 適切な評価と分析のための一連の基準を提案する。 我々はついに、DCCNを人間の視覚モデルに一歩近付けるための将来の取り組みをスケッチした。

Deep convolutional neural networks (DCNNs) have revolutionized computer vision and are often advocated as good models of the human visual system. However, there are currently many shortcomings of DCNNs, which preclude them as a model of human vision. For example, in the case of adversarial attacks, where adding small amounts of noise to an image, including an object, can lead to strong misclassification of that object. But for humans, the noise is often invisible. If vulnerability to adversarial noise cannot be fixed, DCNNs cannot be taken as serious models of human vision. Many studies have tried to add features of the human visual system to DCNNs to make them robust against adversarial attacks. However, it is not fully clear whether human vision inspired components increase robustness because performance evaluations of these novel components in DCNNs are often inconclusive. We propose a set of criteria for proper evaluation and analyze different models according to these criteria. We finally sketch future efforts to make DCCNs one step closer to the model of human vision.
翻訳日:2021-03-18 13:12:06 公開日:2021-03-16
# スワヒリニュース分類のためのグラフ畳み込みネットワーク

Graph Convolutional Network for Swahili News Classification ( http://arxiv.org/abs/2103.09325v1 )

ライセンス: Link先を確認
Alexandros Kastanos and Tyler Martin(参考訳) この研究は、半教師付きスワヒリニュース分類のタスクにおいて、テキストグラフ畳み込みネットワーク(Text GCN)が従来の自然言語処理ベンチマークより優れていることを実証的に示す。 特に,低資源のアフリカ語に直面する実用的な制約を代表して,疎結合な半教師付き文脈に着目した実験を行った。 そこで本研究では,テキストGCNのメモリフットプリントを減少させるため,テキストGCNモデルの変種を導入し,テキストGCNのメモリフットプリントを減少させる手法を提案する。

This work empirically demonstrates the ability of Text Graph Convolutional Network (Text GCN) to outperform traditional natural language processing benchmarks for the task of semi-supervised Swahili news classification. In particular, we focus our experimentation on the sparsely-labelled semi-supervised context which is representative of the practical constraints facing low-resourced African languages. We follow up on this result by introducing a variant of the Text GCN model which utilises a bag of words embedding rather than a naive one-hot encoding to reduce the memory footprint of Text GCN whilst demonstrating similar predictive performance.
翻訳日:2021-03-18 13:09:28 公開日:2021-03-16
# 乱暴な価格変動: バンディットフィードバックによる単調確率凸最適化

Taming Wild Price Fluctuations: Monotone Stochastic Convex Optimization with Bandit Feedback ( http://arxiv.org/abs/2103.09287v1 )

ライセンス: Link先を確認
Jad Salem, Swati Gupta, Vijay Kamble(参考訳) 自動価格実験アルゴリズムによって生成される価格は、しばしば急激な変動を示し、好ましくない顧客の認識や個人の公正さの侵害につながる。 この問題に対処するため,帯域幅フィードバックを用いた確率凸最適化の枠組みにおいて,価格列の単調性制約の下で需要学習を提案する。 我々の主な貢献は、ノイズと無ノイズのバンディットフィードバックの下での滑らかで強い凹凸収益関数に対する単調価格実験のための最初のサブリニア・レグレットアルゴリズムの設計である。 決定レベルのいかなる増加(または減少)も最終的なものであるので、アルゴリズムは最適のオーバーシュートを避けるために、その探索において慎重でなければならない。 同時に、後悔を最小限に抑えるには、十分なペースで最適な方向に進む必要がある。 この2つの目標のバランスをとることは、ノイズの多いフィードバックの下では特に難しい。 我々の重要な革新は、保守的な勾配推定を利用して、局所的な勾配情報への注意度を適応的に調整し、最適から遠く離れ、価格が最適に近づくにつれて、より慎重になることです。 重要な点として,我々のアルゴリズムは,単調性の要件を伴わずに,最高の後悔率(対数的要因による)を保証できることを示した。

Prices generated by automated price experimentation algorithms often display wild fluctuations, leading to unfavorable customer perceptions and violations of individual fairness: e.g., the price seen by a customer can be significantly higher than what was seen by her predecessors, only to fall once again later. To address this concern, we propose demand learning under a monotonicity constraint on the sequence of prices, within the framework of stochastic convex optimization with bandit feedback. Our main contribution is the design of the first sublinear-regret algorithms for monotonic price experimentation for smooth and strongly concave revenue functions under noisy as well as noiseless bandit feedback. The monotonicity constraint presents a unique challenge: since any increase (or decrease) in the decision-levels is final, an algorithm needs to be cautious in its exploration to avoid over-shooting the optimum. At the same time, minimizing regret requires that progress be made towards the optimum at a sufficient pace. Balancing these two goals is particularly challenging under noisy feedback, where obtaining sufficiently accurate gradient estimates is expensive. Our key innovation is to utilize conservative gradient estimates to adaptively tailor the degree of caution to local gradient information, being aggressive far from the optimum and being increasingly cautious as the prices approach the optimum. Importantly, we show that our algorithms guarantee the same regret rates (up to logarithmic factors) as the best achievable rates of regret without the monotonicity requirement.
翻訳日:2021-03-18 13:06:03 公開日:2021-03-16
# 非ラベルデータを用いた一般化手術器具分割のためのコージェネレーションとセグメンテーション

Co-Generation and Segmentation for Generalized Surgical Instrument Segmentation on Unlabelled Data ( http://arxiv.org/abs/2103.09276v1 )

ライセンス: Link先を確認
Megha Kalia, Tajwar Abrar Aleef, Nassir Navab, and Septimiu E. Salcudean(参考訳) ロボット支援手術のための手術器具セグメンテーションは、正確な計器追跡と拡張現実オーバーレイのために必要である。 そのため、この話題はCAIコミュニティにおける最近の多くの論文の主題となっている。 深層学習法では手術器具のセグメンテーションに最先端のパフォーマンスが示されたが,結果はラベル付きデータに依存する。 しかし,ラベル付き手術データは有用性が低く,術中翻訳のボトルネックとなっている。 本稿では,ロボットによる手術を含むさまざまなデータセット上で,これらの手法の限定的な一般化性を実証する。 次に,ラベル付きデータを持たない領域に対して,よりよい一般化能力を持つセグメンテーションモデルを学ぶための新しいジョイント生成とセグメンテーション戦略を提案する。 この方法は異なるドメインにおけるラベル付きデータの可用性を活用する。 ジェネレータはラベル付きドメインからラベルなしドメインへのドメイン変換を行い、同時にセグメンテーションモデルが生成したデータを使用して生成モデルを正規化しながら学習する。 本手法を最先端手法と比較し,公開データセットと,ロボット支援プロスタクトミーによる自記録ビデオフレームの汎用性を示した。 提案手法では,ラベル付きドメインとラベル付きドメインの両方において,一方のドメインでのみデータを利用できる場合,平均diceスコアが一貫して高い値を示す。 ※カリアとアレフは写本に等しく貢献した。

Surgical instrument segmentation for robot-assisted surgery is needed for accurate instrument tracking and augmented reality overlays. Therefore, the topic has been the subject of a number of recent papers in the CAI community. Deep learning-based methods have shown state-of-the-art performance for surgical instrument segmentation, but their results depend on labelled data. However, labelled surgical data is of limited availability and is a bottleneck in surgical translation of these methods. In this paper, we demonstrate the limited generalizability of these methods on different datasets, including human robot-assisted surgeries. We then propose a novel joint generation and segmentation strategy to learn a segmentation model with better generalization capability to domains that have no labelled data. The method leverages the availability of labelled data in a different domain. The generator does the domain translation from the labelled domain to the unlabelled domain and simultaneously, the segmentation model learns using the generated data while regularizing the generative model. We compared our method with state-of-the-art methods and showed its generalizability on publicly available datasets and on our own recorded video frames from robot-assisted prostatectomies. Our method shows consistently high mean Dice scores on both labelled and unlabelled domains when data is available only for one of the domains. *M. Kalia and T. Aleef contributed equally to the manuscript
翻訳日:2021-03-18 13:02:34 公開日:2021-03-16
# atrous convolution とextrest enhanced unet を用いた大腸癌の分節化

Colorectal Cancer Segmentation using Atrous Convolution and Residual Enhanced UNet ( http://arxiv.org/abs/2103.09289v1 )

ライセンス: Link先を確認
Nisarg A. Shah, Divij Gupta, Romil Lodaya, Ujjwal Baid, and Sanjay Talbar(参考訳) 大腸癌は世界中で主要な死因である。 しかし、早期診断は生存率を劇的に増加させ、体内の腫瘍を同定することが重要である。 画像は高解像度技術を使っているため、腫瘍に注釈をつけるのに時間がかかり、特別な専門知識を必要とする。 近年、畳み込みニューラルネットワーク(CNN)に基づく手法は、多くのバイオメディカルセグメンテーションタスクでは良くないが、同等であることが証明されている。 そこで本研究では,従来のフィルタの他に有意な畳み込みと残差接続を用いたcnnベースの手法を提案する。 トレーニングと推論は効率的なパッチベースのアプローチで行われ、不要な計算を大幅に削減した。 提案するatresunetはdice係数0.748の大腸癌分画のための digestpath 2019 challengeデータセットでトレーニングされた。

Colorectal cancer is a leading cause of death worldwide. However, early diagnosis dramatically increases the chances of survival, for which it is crucial to identify the tumor in the body. Since its imaging uses high-resolution techniques, annotating the tumor is time-consuming and requires particular expertise. Lately, methods built upon Convolutional Neural Networks(CNNs) have proven to be at par, if not better in many biomedical segmentation tasks. For the task at hand, we propose another CNN-based approach, which uses atrous convolutions and residual connections besides the conventional filters. The training and inference were made using an efficient patch-based approach, which significantly reduced unnecessary computations. The proposed AtResUNet was trained on the DigestPath 2019 Challenge dataset for colorectal cancer segmentation with results having a Dice Coefficient of 0.748.
翻訳日:2021-03-18 13:02:13 公開日:2021-03-16
# 希少データのための深部時系列モデル

Deep Time Series Models for Scarce Data ( http://arxiv.org/abs/2103.09348v1 )

ライセンス: Link先を確認
Qiyao Wang, Ahmed Farahat, Chetan Gupta, Shuai Zheng(参考訳) 時系列データは多くの領域で爆発的な速度で成長し、時系列モデリングの研究が急増している。 データ分析タスクとして、さまざまな時系列モデルの包括的な比較は、データ分析実践者のためのモデル選択に関する有用なガイダンスを提供する。 データ不足は、データの収集、生成、ラベリングに関連する高いコストと、データ欠落などのデータ品質の問題によって、幅広いデータ分析問題で発生する普遍的な問題である。 本稿では,多変量時系列入力から離散クラスラベルや実数値応答変数への数学的マッピングを構築するための時間的分類/回帰問題に焦点を当てる。 そこで本研究では,小サンプルの不足データと,わずかかつ不規則に観測された時系列共変量の不足データという,2種類の不足データを特定する。 そこで本研究では,すべての既存作業がスパース時系列入力を適切にモデル化するために利用できないことを確認し,時系列共変器の疎度を扱うために,スパース関数型多層パーセプトロン(SFMLP)と呼ばれるモデルを提案する。 従来の深層逐次学習モデル(recurrent neural network, long short-term memoryなど)と比較し,この2種類のデータ不足に対するsfmlpの有効性を数学的考察と数値実験により検討した。

Time series data have grown at an explosive rate in numerous domains and have stimulated a surge of time series modeling research. A comprehensive comparison of different time series models, for a considered data analytics task, provides useful guidance on model selection for data analytics practitioners. Data scarcity is a universal issue that occurs in a vast range of data analytics problems, due to the high costs associated with collecting, generating, and labeling data as well as some data quality issues such as missing data. In this paper, we focus on the temporal classification/regre ssion problem that attempts to build a mathematical mapping from multivariate time series inputs to a discrete class label or a real-valued response variable. For this specific problem, we identify two types of scarce data: scarce data with small samples and scarce data with sparsely and irregularly observed time series covariates. Observing that all existing works are incapable of utilizing the sparse time series inputs for proper modeling building, we propose a model called sparse functional multilayer perceptron (SFMLP) for handling the sparsity in the time series covariates. The effectiveness of the proposed SFMLP under each of the two types of data scarcity, in comparison with the conventional deep sequential learning models (e.g., Recurrent Neural Network, and Long Short-Term Memory), is investigated through mathematical arguments and numerical experiments.
翻訳日:2021-03-18 12:56:59 公開日:2021-03-16
# K-expectiles クラスタリング

K-expectiles clustering ( http://arxiv.org/abs/2103.09329v1 )

ライセンス: Link先を確認
Bingling Wang, Yinxing Li, Wolfgang Karl H\"ardle(参考訳) K$-meansクラスタリングは、クラスタ分析において、その単純さと計算効率から最も広く使われているパーティショニングアルゴリズムの1つである。 しかし、k$-meansは非球型クラスタのデータに適用する場合、適切なクラスタリング結果を提供しない。 本稿では,期待値に基づく分割クラスタリングアルゴリズムを提案する。 クラスター中心は多変量期待値として定義され、クラスタは内クラスタ '$\tau$ -variance' を最小化することで欲張りなアルゴリズムで探索される。 固定$\tau$クラスタリングと適応$\tau$クラスタリングの2つのスキームを提案する。 シミュレーションの結果により検証され、非対称なクラスタを持つデータ上での$K$平均とスペクトルクラスタリング、あるいは非対称正規、ベータ、スキュード$t$および$F$分散クラスタを含む複雑な構造を持つクラスタを破る。 暗号通貨(CC)市場データに対するアダプティブ$\tau$クラスタリングの応用が提供される。 CC市場の期待するクラスターが、機関投資家が市場を支配している現象を示していることが分かる。 第2のアプリケーションはイメージセグメンテーションです。 他のセンターベースのクラスタリング手法と比較して、ピクセルデータのアダプティブ$\tau$クラスタセンターは、画像の特徴をよりよくキャプチャして記述することができる。 固定された$\tau$クラスタリングは、適切な精度でセグメンテーションの柔軟性を高める。

$K$-means clustering is one of the most widely-used partitioning algorithm in cluster analysis due to its simplicity and computational efficiency. However, $K$-means does not provide an appropriate clustering result when applying to data with non-spherically shaped clusters. We propose a novel partitioning clustering algorithm based on expectiles. The cluster centers are defined as multivariate expectiles and clusters are searched via a greedy algorithm by minimizing the within cluster '$\tau$ -variance'. We suggest two schemes: fixed $\tau$ clustering, and adaptive $\tau$ clustering. Validated by simulation results, this method beats both $K$-means and spectral clustering on data with asymmetric shaped clusters, or clusters with a complicated structure, including asymmetric normal, beta, skewed $t$ and $F$ distributed clusters. Applications of adaptive $\tau$ clustering on crypto-currency (CC) market data are provided. One finds that the expectiles clusters of CC markets show the phenomena of an institutional investors dominated market. The second application is on image segmentation. compared to other center based clustering methods, the adaptive $\tau$ cluster centers of pixel data can better capture and describe the features of an image. The fixed $\tau$ clustering brings more flexibility on segmentation with a decent accuracy.
翻訳日:2021-03-18 12:55:12 公開日:2021-03-16
# 高分解能空中画像を用いた建物足跡検出のための深層学習法の比較検討

A comparative study of deep learning methods for building footprints detection using high spatial resolution aerial images ( http://arxiv.org/abs/2103.09300v1 )

ライセンス: Link先を確認
Hongjie He, Ke Yang, Yuwei Cai, Zijian Jiang, Qiutong Yu, Kun Zhao, Junbo Wang, Sarah Narges Fatholahi, Yan Liu, Hasti Andon Petrosians, Bingxu Hu, Liyuan Qing, Zhehan Zhang, Hongzhang Xu, Siyu Li, Linlin Xu, Jonathan Li(参考訳) 足跡データの構築は、いくつかの都市応用と自然災害管理において重要である。 従来の測量やマッピングとは対照的に、高空間分解能空中画像を用いて、ディープラーニングベースの建物足跡抽出手法は、建物の足跡を正確かつ効率的に抽出することができる。 ディープラーニング手法の急速な発展により、初心者は足跡抽出に強力なツールを活用することが困難になる。 本研究の目的は,深層学習を用いた高解像度画像からフットプリントを抽出するプロセス全体を提供することである。 さらに,Fully Convolutional Networks (FCN)-8s,U-Net,DeepL abv3+といった一般的な手法との比較を行った。 研究の最後には、モデルトレーニングで使用されるデータサイズを変更して、データサイズがアルゴリズムのパフォーマンスに与える影響を調べる。 実験によると、異なるデータサイズにおいて、DeepLabv3+は最も精度が高く、適度な効率のアルゴリズムであり、FCN-8sは最悪の精度と最高効率を示し、U-Netは適度な精度と最低効率を示している。 さらに、より多くのトレーニングデータにより、アルゴリズムは抽出結果の精度を高めてより高速に収束した。

Building footprints data is of importance in several urban applications and natural disaster management. In contrast to traditional surveying and mapping, using high spatial resolution aerial images, deep learning-based building footprints extraction methods can extract building footprints accurately and efficiently. With rapidly development of deep learning methods, it is hard for novice to harness the powerful tools in building footprints extraction. The paper aims at providing the whole process of building footprints extraction from high spatial resolution images using deep learning-based methods. In addition, we also compare the commonly used methods, including Fully Convolutional Networks (FCN)-8s, U-Net and DeepLabv3+. At the end of the work, we change the data size used in models training to explore the influence of data size to the performance of the algorithms. The experiments show that, in different data size, DeepLabv3+ is the best algorithm among them with the highest accuracy and moderate efficiency; FCN-8s has the worst accuracy and highest efficiency; U-Net shows the moderate accuracy and lowest efficiency. In addition, with more training data, algorithms converged faster with higher accuracy in extraction results.
翻訳日:2021-03-18 12:54:33 公開日:2021-03-16
# SoWaF: ウェイトとフィーチャーマップのシャッフル: 畳み込みニューラルネットワーク(CNN)に対するハードウェア固有の新たな攻撃(HIA)

SoWaF: Shuffling of Weights and Feature Maps: A Novel Hardware Intrinsic Attack (HIA) on Convolutional Neural Network (CNN) ( http://arxiv.org/abs/2103.09327v1 )

ライセンス: Link先を確認
Tolulope A. Odetola and Syed Rafay Hasan(参考訳) Convolutional Neural Network(CNN)のリソース制約組み込みシステム(例)への推論フェーズ展開のセキュリティ ローエンドFPGAは 研究領域として成長しています セキュアなプラクティスを使用することで、サードパーティのFPGAデザイナは、初期層と最終層の知識を得られない。 本研究では、ハードウェア固有の攻撃(HIA)が依然として「安全な」設計で可能であることを示す。 提案されたhiaは、cnnの個々の層の数学的操作の中に挿入され、その後の全てのcnn層の誤分類につながる誤操作を伝播する。 攻撃は非周期的で完全にランダムであるため、検出が困難になる。 各cnn層に対する5つの異なる攻撃シナリオを、オーバーヘッドリソースと元の実装と比較してトリガ率に基づいて設計し、評価する。 2つのCNNアーキテクチャの結果、全ての攻撃シナリオにおいて、追加のレイテンシは無視可能である(<0.61%)、DSP、LUT、FFは2.36%未満である。 3つの攻撃シナリオは追加のBRAMリソースを必要としないが、2つのシナリオではBRAMが増加し、FFとLUTの減少に対応する。 著者の知る限りでは、この研究はハードウェア固有のCNN攻撃に最初に対処するものであり、攻撃者は完全なCNNの知識を持っていない。

Security of inference phase deployment of Convolutional neural network (CNN) into resource constrained embedded systems (e.g. low end FPGAs) is a growing research area. Using secure practices, third party FPGA designers can be provided with no knowledge of initial and final classification layers. In this work, we demonstrate that hardware intrinsic attack (HIA) in such a "secure" design is still possible. Proposed HIA is inserted inside mathematical operations of individual layers of CNN, which propagates erroneous operations in all the subsequent CNN layers that lead to misclassification. The attack is non-periodic and completely random, hence it becomes difficult to detect. Five different attack scenarios with respect to each CNN layer are designed and evaluated based on the overhead resources and the rate of triggering in comparison to the original implementation. Our results for two CNN architectures show that in all the attack scenarios, additional latency is negligible (<0.61%), increment in DSP, LUT, FF is also less than 2.36%. Three attack scenarios do not require any additional BRAM resources, while in two scenarios BRAM increases, which compensates with the corresponding decrease in FF and LUTs. To the authors' best knowledge this work is the first to address the hardware intrinsic CNN attack with the attacker does not have knowledge of the full CNN.
翻訳日:2021-03-18 12:52:57 公開日:2021-03-16
# フェイクニュースサイトの増加と衰退:トラフィック分析

The Rise and Fall of Fake News sites: A Traffic Analysis ( http://arxiv.org/abs/2103.09258v1 )

ライセンス: Link先を確認
Manolis Chalkiadakis, Alexandros Kornilakis, Panagiotis Papadopoulos, Evangelos P. Markatos, Nicolas Kourtellis(参考訳) 過去10年間で、インターネット上での誤情報の台頭を目撃し、オンラインユーザーは偽ニュースの犠牲者を常に抱えている。 多くの過去の研究が偽ニュース拡散機構と検出と緩和技術を分析している。 偽ニュースサイトはいくつあるのか? それらは通常、長い時間オンラインにとどまりますか? このようなwebサイトは、お互いのアップダウンタイムを同期しているか? 同様のコンテンツを時間をかけて共有するのか? どのサードパーティが自分たちのオペレーションをサポートするのか? メインストリームや本物のニュースサイトと比べて、どのくらいのユーザートラフィックを惹きつけるのか? 本稿では,フェイクニュースサイトの存在に関する質問に回答し,実際のニュースサイトと比較してその行動を特徴付けるため,この種の調査を初めて実施する。 この結果に基づき、偽ニュースサイトを自動的に検出するコンテンツ非依存のML分類器を構築した。 手作業によるブラックリストには含まれていない。

Over the past decade, we have witnessed the rise of misinformation on the Internet, with online users constantly falling victims of fake news. A multitude of past studies have analyzed fake news diffusion mechanics and detection and mitigation techniques. However, there are still open questions about their operational behavior such as: How old are fake news websites? Do they typically stay online for long periods of time? Do such websites synchronize with each other their up and down time? Do they share similar content through time? Which third-parties support their operations? How much user traffic do they attract, in comparison to mainstream or real news websites? In this paper, we perform a first of its kind investigation to answer such questions regarding the online presence of fake news websites and characterize their behavior in comparison to real news websites. Based on our findings, we build a content-agnostic ML classifier for automatic detection of fake news websites (i.e. accuracy) that are not yet included in manually curated blacklists.
翻訳日:2021-03-18 12:52:00 公開日:2021-03-16
# 移行学習を用いたモバイルアプリケーションテストのための実時間クラウドアクセス時間の生成

Generation of Realistic Cloud Access Times for Mobile Application Testing using Transfer Learning ( http://arxiv.org/abs/2103.09355v1 )

ライセンス: Link先を確認
Manoj R. Rege, Vlado Handziski, Adam Wolisz(参考訳) アクセス時間、帯域幅、パケットロスといったqos(network quality of service)メトリクスは、モバイルアプリケーションのqoe(quality of experience)を決定する上で重要な役割を果たす。 Radio Resource Control (RRC) 状態、Mobile Network Operator (MNO) 固有の再送信構成、ユーザモビリティによって引き起こされるハンドオーバ、ネットワーク負荷など、さまざまな要因があります。 4G/LTE上のこれらのQoSメトリクスや、アプリケーションQoEに有害なWiFiネットワークに高いばらつきを引き起こす可能性がある。 したがって、モバイルアプリケーションを現実的なネットワークQoSメトリクスに公開することは、QoEを予測しようとするテスタにとって非常に重要です。 有効なアプローチは、合成トレースを使用したテストである。 realisitc合成トレースの生成における大きな課題は、環境の多様性と、ジェネレータを校正するための実トレースの広い範囲の欠如である。 本稿では,Long Short Term Memory(LSTM)ニューラルネットを用いた転送学習に基づく計測駆動手法について述べる。 この手法では、提示された基本モデルを新しい環境に適用するために、ターゲット環境の比較的短いサンプルが必要である。 この機能は,数千分で測定された6000サンプルのトレースサイズを持つ,多様なターゲット環境に適用可能な,現実的なWiFiおよびLTEクラウドアクセス時間モデルに対して提案する。 これらのモデルから生成された合成トレースは、その外れ値を含むアプリケーションqoeメトリック分布を正確に再現できることを実証する。

The network Quality of Service (QoS) metrics such as the access time, the bandwidth, and the packet loss play an important role in determining the Quality of Experience (QoE) of mobile applications. Various factors like the Radio Resource Control (RRC) states, the Mobile Network Operator (MNO) specific retransmission configurations, handovers triggered by the user mobility, the network load etc. can cause high variability in these QoS metrics on 4G/LTE, and WiFi networks, which can be detrimental to the application QoE. Therefore, exposing mobile application to realistic network QoS metrics is critical for testers attempting to predict its QoE. A viable approach is testing using synthetic traces. The main challenge in generation of realisitc synthetic traces is the diversity of environments and lack of wide scope of real traces to calibrate the generators. In this paper, we describe a measurement-driven methodology based on transfer learning with Long Short Term Memory (LSTM) neural nets to solve this problem. The methodology requires a relatively short sample of the targeted environment to adapt the presented basic model to new environments, thus simplifying synthetic traces generation. We present this feature for realistic WiFi and LTE cloud access time models adapted for diverse target environments with a trace size of just 6000 samples measured over a few tens of minutes. We demonstrate that synthetic traces generated from these models are capable of accurately reproducing application QoE metric distributions including their outlier values.
翻訳日:2021-03-18 12:51:49 公開日:2021-03-16
# 逆サブマーチンガルと交換性濾過を用いた凸発散の逐次推定

Sequential Estimation of Convex Divergences using Reverse Submartingales and Exchangeable Filtrations ( http://arxiv.org/abs/2103.09267v1 )

ライセンス: Link先を確認
Tudor Manole, Aaditya Ramdas(参考訳) 本稿では,分布間の凸発散を逐次推定するための統一的な手法として,カーネルの最大平均偏差のような積分確率メトリクス,kullback-leibler発散のような$\varphi$-divergence s,wasserstein距離のパワーなどの最適輸送コストなどを提案する。 我々のアプローチの技術的基盤は、経験的凸発散は交換可能な濾過に関して(部分的に順序づけられた)逆置換であり、そのような過程の最大不等式と結びついている。 これらの技法は、信頼シーケンスと凸発散の両方の既存の文献に強力な付加物であるように見える。 我々は,既存のオフライン濃度の不等式を連続的に監視可能な時間一様信頼シーケンスに変換し,任意の停止時間に有効な推論を提供するオフライン・ツー・シークエンシャルデバイスを構築した。 得られた逐次境界は、対応する固定時間境界に対して反復対数価格のみを支払い、問題パラメータ(適用可能な場合の寸法やアルファベットサイズなど)に同じ依存を保持する。

We present a unified technique for sequential estimation of convex divergences between distributions, including integral probability metrics like the kernel maximum mean discrepancy, $\varphi$-divergence s like the Kullback-Leibler divergence, and optimal transport costs, such as powers of Wasserstein distances. The technical underpinnings of our approach lie in the observation that empirical convex divergences are (partially ordered) reverse submartingales with respect to the exchangeable filtration, coupled with maximal inequalities for such processes. These techniques appear to be powerful additions to the existing literature on both confidence sequences and convex divergences. We construct an offline-to-sequentia l device that converts a wide array of existing offline concentration inequalities into time-uniform confidence sequences that can be continuously monitored, providing valid inference at arbitrary stopping times. The resulting sequential bounds pay only an iterated logarithmic price over the corresponding fixed-time bounds, retaining the same dependence on problem parameters (like dimension or alphabet size if applicable).
翻訳日:2021-03-18 12:49:57 公開日:2021-03-16
# (参考訳) diaret:統合勾配を有する糖尿病網膜症の評価のためのブラウザベースのアプリケーション [全文訳有]

DiaRet: A browser-based application for the grading of Diabetic Retinopathy with Integrated Gradients ( http://arxiv.org/abs/2103.08501v2 )

ライセンス: CC BY 4.0
Shaswat Patel, Maithili Lohakare, Samyak Prajapati, Shaanya Singh, Nancy Patel(参考訳) 糖尿病は代謝障害であり、タイプ1の自己免疫性β細胞破壊の欠陥、またはタイプ2のインスリン作用に対する末梢性抵抗性、またはその両方によって引き起こされる。 長期糖尿病患者はしばしば糖尿病網膜症(dr)にかかり、人間の目の網膜が変化し、極端な症例では視力が失われる可能性がある。 本研究の目的は2つある: (a) 劣化した網膜眼底画像のグレードに訓練されたディープラーニングモデルを作成し、 (b) 眼底画像の重要な特徴を強調して診断手順を支援するブラウザベースのアプリケーションを作成することである。 深層学習はコンピュータ支援型DR診断で成功し、早期発見と盲目の予防に繋がった。 本研究は,光透過外乱,画像ブラリング,網膜アーティファクト挿入の複数の組み合わせに基づいて,歪みによる画像の劣化をエミュレートした。 これらの劣化画像は、複数のディープラーニングに基づく畳み込みニューラルネットワークのトレーニングに使用された。 InceptionV3、ResNet-50、InceptionResNetV2を複数のデータセットでトレーニングしました。 これらのモデルは、重症度レベルに基づいて網膜基底画像の分類に使用され、さらにブラウザベースのアプリケーションの作成に利用され、各クラスに関連するモデルの予測と確率が示される。 また、入力画像に重畳された統合勾配(ig)アトリビューションマスクも表示される。 ブラウザベースのアプリケーションの作成は、モデルによる教育を受けた予測に基づいて、眼科医による眼底画像の重要な特徴を強調することで、診断手順を支援するだろう。

Diabetes is a metabolic disorder that results from defects in autoimmune beta-cell destruction in Type 1, peripheral resistance to insulin action in Type 2 or, most commonly, both. Patients with long-standing diabetes often fall prey to Diabetic Retinopathy (DR) resulting in changes in the retina of the human eye, which may lead to loss of vision in extreme cases. The aim of this study is two-fold: (a) create deep learning models that were trained to grade degraded retinal fundus images and (b) to create a browser-based application that will aid in diagnostic procedures by highlighting the key features of the fundus image. Deep learning has proven to be a success for computer-aided DR diagnosis resulting in early-detection and prevention of blindness. In this research work, we have emulated the images plagued by distortions by degrading the images based on multiple different combinations of Light Transmission Disturbance, Image Blurring and insertion of Retinal Artifacts. These degraded images were used for the training of multiple Deep Learning based Convolutional Neural Networks. We have trained InceptionV3, ResNet-50 and InceptionResNetV2 on multiple datasets. The models were used to classify retinal fundus images based on their severity level and then further used in the creation of a browser-based application, which demonstrates the models prediction and the probability associated with each class. It will also show the Integration Gradient (IG) Attribution Mask superimposed onto the input image. The creation of the browser-based application would aid in the diagnostic procedures performed by ophthalmologists by highlighting the key features of the fundus image based on an educated prediction made by the model.
翻訳日:2021-03-18 09:34:21 公開日:2021-03-16
# IMUを信頼する: IMUドリフトを無視する理由

Trust Your IMU: Consequences of Ignoring the IMU Drift ( http://arxiv.org/abs/2103.08286v2 )

ライセンス: Link先を確認
Marcus Valtonen \"Ornhag and Patrik Persson and M{\aa}rten Wadenb\"ack and Kalle {\AA}str\"om and Anders Heyden(参考訳) 本稿では,慣性測定単位(imus)の現代的な事前積分法は,短時間のドリフトを無視できるほど正確であると主張する。 これにより、単純化されたカメラモデルを考えることができ、それによってさらに固有のキャリブレーションが可能となる。 我々は、IMUデータを利用して、未知かつ等距離の焦点長と半径歪みプロファイルの相対ポーズ問題を共同で解くための最初の解法を開発した。 さらに, 一部校正装置の精度を低下させることなく, 最先端のアルゴリズムと比較して, 大幅な高速化を示す。 提案するアルゴリズムは合成データと実データの両方でテストされ、後者は無人航空機(uavs)によるナビゲーションに焦点を当てている。 そこで本研究では, 市販の低コストuavを用いて提案する解法を評価し, imuドリフトの新たな仮定が実生活で実現可能であることを示す。 拡張された内在的自己校正により、歪んだ入力画像の使用が可能となり、現在の最先端の方法に比べて退屈な校正プロセスが時代遅れになる。

In this paper, we argue that modern pre-integration methods for inertial measurement units (IMUs) are accurate enough to ignore the drift for short time intervals. This allows us to consider a simplified camera model, which in turn admits further intrinsic calibration. We develop the first-ever solver to jointly solve the relative pose problem with unknown and equal focal length and radial distortion profile while utilizing the IMU data. Furthermore, we show significant speed-up compared to state-of-the-art algorithms, with small or negligible loss in accuracy for partially calibrated setups. The proposed algorithms are tested on both synthetic and real data, where the latter is focused on navigation using unmanned aerial vehicles (UAVs). We evaluate the proposed solvers on different commercially available low-cost UAVs, and demonstrate that the novel assumption on IMU drift is feasible in real-life applications. The extended intrinsic auto-calibration enables us to use distorted input images, making tedious calibration processes obsolete, compared to current state-of-the-art methods.
翻訳日:2021-03-18 09:24:08 公開日:2021-03-16
# (参考訳) dictNN:Twitterでヘイトスピーチを分類するための辞書強化CNNアプローチ [全文訳有]

dictNN: A Dictionary-Enhanced CNN Approach for Classifying Hate Speech on Twitter ( http://arxiv.org/abs/2103.08780v1 )

ライセンス: CC BY-SA 4.0
Maximilian Kupi, Michael Bodnar, Nikolas Schmidt, and Carlos Eduardo Posada(参考訳) ソーシャルメディア上でのヘイトスピーチはますます懸念が高まっている。 大きな課題は、自然言語の曖昧さと急速な進化によるヘイトスピーチの潜在的回避性にある。 そこで我々は,クラウドソース型かつ継続的に更新されたヘイトワード辞書をベースとしたベクトル化を導入し,CNNモデルの分類性能を向上させるために,標準的な単語埋め込みと融合する手法を提案する。 モデルのトレーニングとテストには、2つの確立されたデータセット(合計110,748ツイート)のマージを使用します。 辞書付き入力を追加することで、CNNモデルの予測能力を高め、F1マクロスコアを7ポイント増やすことができる。

Hate speech on social media is a growing concern, and automated methods have so far been sub-par at reliably detecting it. A major challenge lies in the potentially evasive nature of hate speech due to the ambiguity and fast evolution of natural language. To tackle this, we introduce a vectorisation based on a crowd-sourced and continuously updated dictionary of hate words and propose fusing this approach with standard word embedding in order to improve the classification performance of a CNN model. To train and test our model we use a merge of two established datasets (110,748 tweets in total). By adding the dictionary-enhanced input, we are able to increase the CNN model's predictive power and increase the F1 macro score by seven percentage points.
翻訳日:2021-03-17 22:26:41 公開日:2021-03-16
# (参考訳) 勧告の公正性と透明性--利用者の視点から [全文訳有]

Fairness and Transparency in Recommendation: The Users' Perspective ( http://arxiv.org/abs/2103.08786v1 )

ライセンス: CC BY 4.0
Nasim Sonboli and Jessie J. Smith, Florencia Cabral Berenfus, Robin Burke, Casey Fiesler(参考訳) 推薦システムはパーソナライズによって定義されるが、最近の研究は、公平性のような追加の精度以上の目的の重要性を示している。 ユーザーは自分のレコメンデーションが純粋にパーソナライズされることを期待しているので、これらの新しいアルゴリズムの目的を公正なレコメンデーションシステムで透過的に伝達する必要がある。 解説はレコメンダシステムの研究において長い歴史を持つが、公平な目的を持つシステムを説明する試みはほとんど行われていない。 AIの他の分野における以前の研究は、公正性を高めるツールとしての説明の使用を探求してきたが、この研究は推奨に重点を置いていない。 本稿では,公正を意識したレコメンデータシステムのユーザ視点と,透明性向上のための技術について考察する。 本稿では,フェアネス,レコメンデーションシステム,フェアネス認識目標に関する探索的インタビュー調査の結果について述べる。 私たちは,フェアネスを意識したレコメンダシステムに対するユーザの理解と信頼を改善する3つの機能を提案しました。

Though recommender systems are defined by personalization, recent work has shown the importance of additional, beyond-accuracy objectives, such as fairness. Because users often expect their recommendations to be purely personalized, these new algorithmic objectives must be communicated transparently in a fairness-aware recommender system. While explanation has a long history in recommender systems research, there has been little work that attempts to explain systems that use a fairness objective. Even though the previous work in other branches of AI has explored the use of explanations as a tool to increase fairness, this work has not been focused on recommendation. Here, we consider user perspectives of fairness-aware recommender systems and techniques for enhancing their transparency. We describe the results of an exploratory interview study that investigates user perceptions of fairness, recommender systems, and fairness-aware objectives. We propose three features -- informed by the needs of our participants -- that could improve user understanding of and trust in fairness-aware recommender systems.
翻訳日:2021-03-17 22:15:25 公開日:2021-03-16
# (参考訳) 教師なし形状クラスタリングを用いたバッテリのデータ駆動熱異常検出 [全文訳有]

Data-driven Thermal Anomaly Detection for Batteries using Unsupervised Shape Clustering ( http://arxiv.org/abs/2103.08796v1 )

ライセンス: CC BY 4.0
Xiaojun Li, Jianwei Li, Ali Abdollahi, Trevor Jones and Asif Habeebullah(参考訳) 電気自動車(EV)とエネルギー貯蔵(ES)バッテリーでは、制御不能な火災や爆発につながる可能性があるため、熱流出は重大な問題である。 熱異常検出は、最終的に熱流出を起こす可能性のあるバッテリーパックを特定できる。 しかし、データの利用不可能、環境の変化、電池の老化など、一般的な課題がある。 本研究では, 温度測定の形状相似性を比較することで, 電池の熱異常を検出するデータ駆動方式を提案する。 その形状に基づいて、測定値は連続して異なるクラスターにグループ化されている。 異常はクラスタ内の偏差を監視して検出される。 モデルベースや他のデータ駆動方式とは異なり、提案手法はデータ損失に対して頑健であり、異なるパック構成に対して最小限の参照データを必要とする。 最初の実験結果が示すように、この手法は搭載されているBMSよりも正確であるだけでなく、早期に予期せぬ異常を検出することもできる。

For electric vehicles (EV) and energy storage (ES) batteries, thermal runaway is a critical issue as it can lead to uncontrollable fires or even explosions. Thermal anomaly detection can identify problematic battery packs that may eventually undergo thermal runaway. However, there are common challenges like data unavailability, environment variations, and battery aging. We propose a data-driven method to detect battery thermal anomaly based on comparing shape-similarity between thermal measurements. Based on their shapes, the measurements are continuously being grouped into different clusters. Anomaly is detected by monitoring deviations within the clusters. Unlike model-based or other data-driven methods, the proposed method is robust to data loss and requires minimal reference data for different pack configurations. As the initial experimental results show, the method not only can be more accurate than the onboard BMS, but also can detect unforeseen anomalies at the early stage.
翻訳日:2021-03-17 22:01:03 公開日:2021-03-16
# (参考訳) エントロピー正規化最適輸送に基づくソフトおよびサブスペースロバスト多変量ランク試験 [全文訳有]

Soft and subspace robust multivariate rank tests based on entropy regularized optimal transport ( http://arxiv.org/abs/2103.08811v1 )

ライセンス: CC BY-SA 4.0
Shoaib Bin Masud, Boyang Lyu, Shuchin Aeron(参考訳) 本稿では,最近提案された多変量階のエネルギー距離を,分布の類似性の統計的検証のための最適輸送理論に基づいて,ソフトランクのエネルギー距離に拡張する。 これは微分可能であるので、階数エネルギーをストーフェル多様体上の最適化によって計算できる「射影ソフトランクエネルギー距離」と呼ばれる部分空間の頑健な階数エネルギー距離に拡張することができる。 実験により, ソフトランクエネルギーを用いて, 適切に選択された低次元部分空間に投影することで, 検出パワーと誤警報をトレードオフできることを示した。 また,多変量時系列データにおける教師なし変化点検出における提案手法の有用性を示す。 すべてのコードは実験セクションで提供されているリンクで公開されている。

In this paper, we extend the recently proposed multivariate rank energy distance, based on the theory of optimal transport, for statistical testing of distributional similarity, to soft rank energy distance. Being differentiable, this in turn allows us to extend the rank energy to a subspace robust rank energy distance, dubbed Projected soft-Rank Energy distance, which can be computed via optimization over the Stiefel manifold. We show via experiments that using projected soft rank energy one can trade-off the detection power vs the false alarm via projections onto an appropriately selected low dimensional subspace. We also show the utility of the proposed tests on unsupervised change point detection in multivariate time series data. All codes are publicly available at the link provided in the experiment section.
翻訳日:2021-03-17 21:52:16 公開日:2021-03-16
# (参考訳) ex-ray:差動特徴対称性によるニューラルネットワークの自然特徴とインジェクションバックドアの区別 [全文訳有]

EX-RAY: Distinguishing Injected Backdoor from Natural Features in Neural Networks by Examining Differential Feature Symmetry ( http://arxiv.org/abs/2103.08820v1 )

ライセンス: CC BY 4.0
Yingqi Liu, Guangyu Shen, Guanhong Tao, Zhenting Wang, Shiqing Ma, Xiangyu Zhang(参考訳) バックドア攻撃は、トリガーに埋め込まれた入力が攻撃者が望むターゲットラベルに誤分類されるようなモデルに悪意のある振る舞いを注入する。 しかし、自然機能はトリガーのように振る舞う可能性があり、一度埋め込まれると誤分類を引き起こす。 それらは避けられないが、注入されたトリガーとして誤認識することは、バックドアスキャンにおいて誤った警告を引き起こす。 したがって、重要な課題は自然の特徴を区別し、バックドアを注入することである。 2つのクラスを分離する最小の機能集合を識別する新しい対称特徴差分法を開発した。 対応するトリガーが被害者クラスとターゲットクラスを区別する特徴セットとは異なる特徴からなる場合、バックドアは注入されると考えられる。 我々は,TrojAIラウンドの2-4ラウンドとImageNet上の多数のモデルから,クリーンモデルとトロイの木馬モデルの両方を含む数千のモデルでこの技術を評価する。 既存のバックドアスキャン技術は、数百の偽陽性(つまり、トロイの木馬として認識されるきれいなモデル)を引き起こす可能性がある。 本手法は, 偽陽性の78-100%(最先端スキャナABS)を除去し, 偽陰性が0-30%増加し, 全体的な精度が17-41%向上し, リーダボード上での最高性能の達成を容易にする。 他のスキャナのパフォーマンスも向上する。 L2距離と帰属技術を用いて偽陽性除去法より優れる。 我々はまた、多くのセマンティクスバックドア攻撃を検出する可能性も示している。

Backdoor attack injects malicious behavior to models such that inputs embedded with triggers are misclassified to a target label desired by the attacker. However, natural features may behave like triggers, causing misclassification once embedded. While they are inevitable, mis-recognizing them as injected triggers causes false warnings in backdoor scanning. A prominent challenge is hence to distinguish natural features and injected backdoors. We develop a novel symmetric feature differencing method that identifies a smallest set of features separating two classes. A backdoor is considered injected if the corresponding trigger consists of features different from the set of features distinguishing the victim and target classes. We evaluate the technique on thousands of models, including both clean and trojaned models, from the TrojAI rounds 2-4 competitions and a number of models on ImageNet. Existing backdoor scanning techniques may produce hundreds of false positives (i.e., clean models recognized as trojaned). Our technique removes 78-100% of the false positives (by a state-of-the-art scanner ABS) with a small increase of false negatives by 0-30%, achieving 17-41% overall accuracy improvement, and facilitates achieving top performance on the leaderboard. It also boosts performance of other scanners. It outperforms false positive removal methods using L2 distance and attribution techniques. We also demonstrate its potential in detecting a number of semantic backdoor attacks.
翻訳日:2021-03-17 21:34:45 公開日:2021-03-16
# (参考訳) 全身キーポイントを用いたスケルトンに基づく手話認識 [全文訳有]

Skeleton Based Sign Language Recognition Using Whole-body Keypoints ( http://arxiv.org/abs/2103.08833v1 )

ライセンス: CC BY 4.0
Songyao Jiang, Bin Sun, Lichen Wang, Yue Bai, Kunpeng Li, Yun Fu(参考訳) 手話は視覚言語であり、聴覚障害や発話障害のある人々が互いにコミュニケーションするために使用される。 手話は常に手の動きや姿勢の素早い移行によって行われ、理解するために大量の知識と訓練を必要とする。 手話認識はコンピュータビジョンにおいて有用だが挑戦的なタスクとなる。 スケルトンベースのアクション認識が普及し、rgb-dベースの手法で最先端のパフォーマンスを実現することができる。 しかし、スケルトンに基づく認識は手の動きや表情の表示がないため、手話認識にはほとんど適用できない。 近年の全身的ポーズ推定法の開発に触発されて,全身的キーポイントと特徴に基づく手話認識を提案する。 認識結果は、RGBおよび光流の他のモードとさらにアンサンブルされ、精度がさらに向上する。 ChaLearnがホストする独立した手話認識の課題では、新しい大規模マルチモーダルトルコ手話データセット(AUTSL)が使用されている。 本手法は, 開発段階と試験段階の両方において, 先行精度を達成した。 この原稿は事実書版です。 ワークショップ用ペーパー版は間もなくリリースします。 私たちのコードはhttps://github.com/j ackyjsy/CVPR21Chal-S LRで公開されています。

Sign language is a visual language that is used by deaf or speech impaired people to communicate with each other. Sign language is always performed by fast transitions of hand gestures and body postures, requiring a great amount of knowledge and training to understand it. Sign language recognition becomes a useful yet challenging task in computer vision. Skeleton-based action recognition is becoming popular that it can be further ensembled with RGB-D based method to achieve state-of-the-art performance. However, skeleton-based recognition can hardly be applied to sign language recognition tasks, majorly because skeleton data contains no indication of hand gestures or facial expressions. Inspired by the recent development of whole-body pose estimation \cite{jin2020whole}, we propose recognizing sign language based on the whole-body key points and features. The recognition results are further ensembled with other modalities of RGB and optical flows to improve the accuracy further. In the challenge about isolated sign language recognition hosted by ChaLearn using a new large-scale multi-modal Turkish Sign Language dataset (AUTSL). Our method achieved leading accuracy in both the development phase and test phase. This manuscript is a fact sheet version. Our workshop paper version will be released soon. Our code has been made available at https://github.com/j ackyjsy/CVPR21Chal-S LR
翻訳日:2021-03-17 21:02:59 公開日:2021-03-16
# (参考訳) GSVNet: ビデオ上の高速セマンティックセグメンテーションのための空間変化型畳み込み [全文訳有]

GSVNet: Guided Spatially-Varying Convolution for Fast Semantic Segmentation on Video ( http://arxiv.org/abs/2103.08834v1 )

ライセンス: CC BY 4.0
Shih-Po Lee, Si-Cun Chen, Wen-Hsiao Peng(参考訳) ビデオセグメンテーションはリアルタイム処理やリアルタイム処理よりも高速であることが多い。 特徴抽出から生じる計算を保存する一般的なレシピは、選択された数個のキーフレームの特徴を伝播させることである。 しかし、最近の高速画像分割の進歩により、これらのソリューションはより魅力的になる。 高速画像セグメンテーションをビデオセグメンテーションに活用するために,簡易かつ効率的な伝播フレームワークを提案する。 具体的には,セグメンテーション外空間における時間ゆがみのための1/8スケール画像空間における軽量な流れ推定を行う。 さらに,従来のフレームと現在のフレームから派生したセグメンテーションを融合させ,伝播誤差を軽減し,非キーフレーム上での軽量な特徴抽出を可能にする。 cityscapes と camvid を用いた実験の結果,ビデオセグメンテーションにおける最先端の精度向上を実現することができた。

This paper addresses fast semantic segmentation on video.Video segmentation often calls for real-time, or even fasterthan real-time, processing. One common recipe for conserving computation arising from feature extraction is to propagate features of few selected keyframes. However, recent advances in fast image segmentation make these solutions less attractive. To leverage fast image segmentation for furthering video segmentation, we propose a simple yet efficient propagation framework. Specifically, we perform lightweight flow estimation in 1/8-downscaled image space for temporal warping in segmentation outpace space. Moreover, we introduce a guided spatially-varying convolution for fusing segmentations derived from the previous and current frames, to mitigate propagation error and enable lightweight feature extraction on non-keyframes. Experimental results on Cityscapes and CamVid show that our scheme achieves the state-of-the-art accuracy-throughput trade-off on video segmentation.
翻訳日:2021-03-17 20:54:35 公開日:2021-03-16
# (参考訳) Lite-HDSeg: Lite Harmonic Dense Convolutionsを用いたLiDARセマンティックセマンティックセグメンテーション [全文訳有]

Lite-HDSeg: LiDAR Semantic Segmentation Using Lite Harmonic Dense Convolutions ( http://arxiv.org/abs/2103.08852v1 )

ライセンス: CC BY 4.0
Ryan Razani, Ran Cheng, Ehsan Taghavi, and Liu Bingbing(参考訳) 自動運転車とロボットシステムは、周囲を正確に認識する。 シーン理解は知覚モジュールの重要な構成要素の1つである。 すべてのセンサのうち、LiDARは、センサー読み取りの高解像度でアクティブなセンシング特性を持つため、自律運転システムにとって重要なセンシングモダリティの1つである。 シーン理解にLiDARセンサをフル活用するには,高精度かつ高速なセマンティックセグメンテーション手法が必要である。 本稿では,3ドルのLiDAR点雲のセマンティックセグメンテーションのための,新しいリアルタイム畳み込みニューラルネットワークLite-HDSegを提案する。 Lite-HDSegはSemanticKittiベンチマークで最高の精度と計算複雑性のトレードオフを達成でき、軽量な高調波密度畳み込みをコアとする新しいエンコーダデコーダアーキテクチャに基づいて設計されている。 さらに、マルチスケールなコンテキスト特徴をキャプチャする改良されたグローバルコンテキストモジュールであるIMMと、セマンティック境界をさらに洗練するためのマルチクラス空間伝搬ネットワークであるMCSPNを紹介する。 実験の結果,提案手法は,ロボットや自律走行に最適なリアルタイム動作が可能な,最先端のセマンティクスセグメンテーション手法よりも優れていることがわかった。

Autonomous driving vehicles and robotic systems rely on accurate perception of their surroundings. Scene understanding is one of the crucial components of perception modules. Among all available sensors, LiDARs are one of the essential sensing modalities of autonomous driving systems due to their active sensing nature with high resolution of sensor readings. Accurate and fast semantic segmentation methods are needed to fully utilize LiDAR sensors for scene understanding. In this paper, we present Lite-HDSeg, a novel real-time convolutional neural network for semantic segmentation of full $3$D LiDAR point clouds. Lite-HDSeg can achieve the best accuracy vs. computational complexity trade-off in SemanticKitti benchmark and is designed on the basis of a new encoder-decoder architecture with light-weight harmonic dense convolutions as its core. Moreover, we introduce ICM, an improved global contextual module to capture multi-scale contextual features, and MCSPN, a multi-class Spatial Propagation Network to further refine the semantic boundaries. Our experimental results show that the proposed method outperforms state-of-the-art semantic segmentation approaches which can run real-time, thus is suitable for robotic and autonomous driving applications.
翻訳日:2021-03-17 20:39:34 公開日:2021-03-16
# (参考訳) 神経生物学モデルのダイナミックスによって符号化された勾配降下のない学習 [全文訳有]

Learning without gradient descent encoded by the dynamics of a neurobiological model ( http://arxiv.org/abs/2103.08878v1 )

ライセンス: CC BY 4.0
Vivek Kurien George, Vikash Morar, Weiwei Yang, Jonathan Larson, Bryan Tower, Shweti Mahajan, Arkin Gupta, Christopher White, Gabriel A. Silva(参考訳) 最先端の機械学習の成功は、基本的に、コストや損失関数のいくつかのバージョンを最小限に抑える勾配降下アルゴリズムの様々なバリエーションに基づいている。 しかし、基本的な制限は、これらのシステムを通常多くのトレーニング例に公開することにより、教師なしまたは教師なしの方法でトレーニングする必要があることである。 本稿では,ネットワークの幾何学的構造によって制約される動的シグナル伝達の神経生物学的モデルを利用した機械学習の基本的な概念的アプローチを提案する。 mnist画像は,教師なしの方法で,何の訓練も必要とせず,ほぼ最先端の精度を持つ幾何学的ネットワークのダイナミクスによって一意に符号化され,分類できることを示す。

The success of state-of-the-art machine learning is essentially all based on different variations of gradient descent algorithms that minimize some version of a cost or loss function. A fundamental limitation, however, is the need to train these systems in either supervised or unsupervised ways by exposing them to typically large numbers of training examples. Here, we introduce a fundamentally novel conceptual approach to machine learning that takes advantage of a neurobiologically derived model of dynamic signaling, constrained by the geometric structure of a network. We show that MNIST images can be uniquely encoded and classified by the dynamics of geometric networks with nearly state-of-the-art accuracy in an unsupervised way, and without the need for any training.
翻訳日:2021-03-17 20:05:16 公開日:2021-03-16
# (参考訳) 知的障害診断のためのクロスドメイン適応型クイックラーニング機構 [全文訳有]

Quick Learning Mechanism with Cross-Domain Adaptation for Intelligent Fault Diagnosis ( http://arxiv.org/abs/2103.08889v1 )

ライセンス: CC BY 4.0
Arun K. Sharma, Nishchal K. Verma(参考訳) 本稿では, 可変作業条件下で動作する回転機械の知的故障診断のための高速学習機構を提案する。 産業における実ケースマシンは異なる運転条件下で動作するため、実験室のケースマシンで訓練されたディープラーニングモデルは、実ケースマシンから記録されたデータを用いて、故障診断のためにうまく動作しない。 これは、新しい作業条件のすべての下で、実ケースマシンの故障診断のための新しい診断モデルをトレーニングする必要がある。 したがって、異なる条件下で動作しているマシンの既存の診断モデルを迅速に変換できるメカニズムが必要である。 本稿では,net2netトランスフォーメーションを用いたクイックラーニング手法と,前者に対する新しいデータの最大平均誤差を最小化するための微調整手法を提案する。 この変換により、新しいデータセットにほぼ使えるアーキテクチャで、新しいネットワークを作ることができます。 提案手法の有効性は,CWRUデータセット,IMSベアリングデータセット,Paderborn大学データセットで実証されている。 我々は,cwruデータをゼロロードでトレーニングした診断モデルを用いて,異なる負荷のcwruデータとimsデータセットの他の診断モデルを迅速にトレーニングできることを実証した。 Paderborn大学が提供するデータセットを用いて、人工的な損傷を受けた障害データセットに基づいてトレーニングされた診断モデルは、実際の損傷データセットのための他のモデルの迅速なトレーニングに使用できることが検証された。

This paper presents a quick learning mechanism for intelligent fault diagnosis of rotating machines operating under changeable working conditions. Since real case machines in industries run under different operating conditions, the deep learning model trained for a laboratory case machine fails to perform well for the fault diagnosis using recorded data from real case machines. It poses the need of training a new diagnostic model for the fault diagnosis of the real case machine under every new working condition. Therefore, there is a need for a mechanism that can quickly transform the existing diagnostic model for machines operating under different conditions. we propose a quick learning method with Net2Net transformation followed by a fine-tuning method to cancel/minimize the maximum mean discrepancy of the new data to the previous one. This transformation enables us to create a new network with any architecture almost ready to be used for the new dataset. The effectiveness of the proposed fault diagnosis method has been demonstrated on the CWRU dataset, IMS bearing dataset, and Paderborn university dataset. We have shown that the diagnostic model trained for CWRU data at zero load can be used to quickly train another diagnostic model for the CWRU data at different loads and also for the IMS dataset. Using the dataset provided by Paderborn university, it has been validated that the diagnostic model trained on artificially damaged fault dataset can be used for quickly training another model for real damage dataset.
翻訳日:2021-03-17 19:58:46 公開日:2021-03-16
# (参考訳) labelgit: 帰属依存グラフを用いたソフトウェアリポジトリ分類のためのデータセット [全文訳有]

LabelGit: A Dataset for Software Repositories Classification using Attributed Dependency Graphs ( http://arxiv.org/abs/2103.08890v1 )

ライセンス: CC BY 4.0
Cezar Sas, Andrea Capiluppi(参考訳) ソフトウェアリポジトリホスティングサービスには大量のオープンソースソフトウェアが含まれており、GitHubは1億以上のリポジトリをホストしている。 この膨大な数のプロジェクトを考えると、ソフトウェアの内容と機能に基づいた検索の必要性が高まっている。 しかし、GitHubはソフトウェアの発見を支援する様々なソリューションを提供しているが、ほとんどのリポジトリはラベルを持っておらず、検索とトピックベースの分析の有用性を減らしている。 さらに、コンポーネントベースのソフトウェア開発の増加に伴い、ソフトウェアモジュールの分類も重要になっている。 しかし、以前の研究はキーワードベースのアプローチやプロジェクトのプロキシ(READMEなど)を使ったソフトウェア分類に重点を置いていた。 この作業では、LabelGitと呼ばれるGitHub Javaプロジェクトの注釈付きデータセットを作成します。 私たちのデータセットは、依存関係グラフや識別子からのソースコードニューラル表現など、ソースコードからの直接的な情報を使用します。 このデータセットを使うことで、プロキシに頼るのではなく、ソースコード全体を使用して分類を行うソリューションの開発を支援したいと考えています。

Software repository hosting services contain large amounts of open-source software, with GitHub hosting more than 100 million repositories, from new to established ones. Given this vast amount of projects, there is a pressing need for a search based on the software's content and features. However, even though GitHub offers various solutions to aid software discovery, most repositories do not have any labels, reducing the utility of search and topic-based analysis. Moreover, classifying software modules is also getting more importance given the increase in Component-Based Software Development. However, previous work focused on software classification using keyword-based approaches or proxies for the project (e.g., README), which is not always available. In this work, we create a new annotated dataset of GitHub Java projects called LabelGit. Our dataset uses direct information from the source code, like the dependency graph and source code neural representations from the identifiers. Using this dataset, we hope to aid the development of solutions that do not rely on proxies but use the entire source code to perform classification.
翻訳日:2021-03-17 19:38:05 公開日:2021-03-16
# (参考訳) EADNet: セマンティックセグメンテーションのための効率的な非対称拡張ネットワーク [全文訳有]

EADNet: Efficient Asymmetric Dilated Network for Semantic Segmentation ( http://arxiv.org/abs/2103.08914v1 )

ライセンス: CC BY 4.0
Qihang Yang and Tao Chen and Jiayuan Fan and Ye Lu and Chongyan Zuo and Qinghua Chi(参考訳) 電力制約エッジデバイスでのリアルタイム画像意味セマンティクスセグメンテーションの必要性から、軽量な意味セマンティクスセグメンテーションニューラルネットワークを設計して、計算コストの削減と推論速度の向上を同時に実現したいという願望が高まっている。 本稿では,可変形状をキャプチャし,画像の情報をスケールするための拡張率が異なる複数の非対称畳み込み枝からなる,eadnetと呼ばれる効率的な非対称拡張意味セグメンテーションネットワークを提案する。 特に、少数のパラメータしか持たないMMRFC(multi-scale multi-shape receptive field convolution)ブロックは、そのような情報をキャプチャするために設計されている。 cityscapesデータセットにおける実験結果から,本提案手法は,軽量セマンティクスセグメンテーションネットワークにおいて,最小パラメータ数(わずか 0.35m)で67.1のセグメンテーションmiouを実現する。

Due to real-time image semantic segmentation needs on power constrained edge devices, there has been an increasing desire to design lightweight semantic segmentation neural network, to simultaneously reduce computational cost and increase inference speed. In this paper, we propose an efficient asymmetric dilated semantic segmentation network, named EADNet, which consists of multiple developed asymmetric convolution branches with different dilation rates to capture the variable shapes and scales information of an image. Specially, a multi-scale multi-shape receptive field convolution (MMRFC) block with only a few parameters is designed to capture such information. Experimental results on the Cityscapes dataset demonstrate that our proposed EADNet achieves segmentation mIoU of 67.1 with smallest number of parameters (only 0.35M) among mainstream lightweight semantic segmentation networks.
翻訳日:2021-03-17 19:27:57 公開日:2021-03-16
# (参考訳) OCR文脈における形態とヒストグラムに基づくテキスト行分割の組合せ [全文訳有]

Combining Morphological and Histogram based Text Line Segmentation in the OCR Context ( http://arxiv.org/abs/2103.08922v1 )

ライセンス: CC BY 4.0
Pit Schneider(参考訳) テキストラインセグメンテーションは、現代の光学的文字認識システムの初期段階の1つである。 本論文で提案するアルゴリズムアプローチは,この目的のために設計されている。 主な特徴は2つの異なる技法、形態的画像操作と水平ヒストグラム投影の組み合わせである。 本手法は, 劣化紙, ぼやけたテキスト, 湾曲したテキストラインなどの品質問題を特徴とする歴史的データ収集に適用するために開発された。 そのため、問題のセグメンテーターは、ある歴史文書の堅牢な行境界ボックスへのアクセスを望む図書館、アーカイブ、博物館、...のような文化機関にとって特に関心があるかもしれない。 計算コストの低い結果と結びつく有望なセグメンテーションの結果から、このアルゴリズムは歴史的新聞コレクションの再処理の取り組みにおいて、ルクセンブルク国立図書館のOCRパイプラインに組み込まれた。 本論文の一般的な貢献は, 提案手法の概要と, 使用済みオープンソースOCRソフトウェアにバンドルしたセグメンテーションアルゴリズムと比較して, 精度と速度の面での利得を評価することである。

Text line segmentation is one of the pre-stages of modern optical character recognition systems. The algorithmic approach proposed by this paper has been designed for this exact purpose. Its main characteristic is the combination of two different techniques, morphological image operations and horizontal histogram projections. The method was developed to be applied on a historic data collection that commonly features quality issues, such as degraded paper, blurred text, or curved text lines. For that reason, the segmenter in question could be of particular interest for cultural institutions, such as libraries, archives, museums, ..., that want access to robust line bounding boxes for a given historic document. Because of the promising segmentation results that are joined by low computational cost, the algorithm was incorporated into the OCR pipeline of the National Library of Luxembourg, in the context of the initiative of reprocessing their historic newspaper collection. The general contribution of this paper is to outline the approach and to evaluate the gains in terms of accuracy and speed, comparing it to the segmentation algorithm bundled with the used open source OCR software.
翻訳日:2021-03-17 19:18:19 公開日:2021-03-16
# (参考訳) Twitter上でのCovid-19の談話:話題、感性、主観性、具体的フレームの時間的変化 [全文訳有]

Covid-19 Discourse on Twitter: How the Topics, Sentiments, Subjectivity, and Figurative Frames Changed Over Time ( http://arxiv.org/abs/2103.08952v1 )

ライセンス: CC BY 4.0
Philipp Wicke and Marianna M. Bolognesi(参考訳) ソーシャルメディアにおける現在の疫学的危機について語る言葉は、パンデミックをいかに概念化し、どのようにその発展に反応しているかを教えてくれる。 本稿は、このパンデミックの第1波に焦点を当て、Twitter上でのCovid-19に関する談話の時間的変化について、広範な爆発的分析を行う。 まず,2020年3月20日から7月1日までの広範なツイートのコーパスに基づいて,パンデミック発生に伴う話題が,トピックモデリングを用いて時間とともにどのように変化したかを示す。 第2に、ツイートで使用される言語の感情の極性が、最初のロックダウン中に比較的正の原子価から、再開に伴うより負の原子価へと変化したことを示す。 第3に、ツイートの平均主観性が線形に上昇し、第4に、実際の暴動や戦闘が会話に入ると、人気で頻繁に使われる戦争枠がどう変化したかを示す。

The words we use to talk about the current epidemiological crisis on social media can inform us on how we are conceptualizing the pandemic and how we are reacting to its development. This paper provides an extensive explorative analysis of how the discourse about Covid-19 reported on Twitter changes through time, focusing on the first wave of this pandemic. Based on an extensive corpus of tweets (produced between 20th March and 1st July 2020) first we show how the topics associated with the development of the pandemic changed through time, using topic modeling. Second, we show how the sentiment polarity of the language used in the tweets changed from a relatively positive valence during the first lockdown, toward a more negative valence in correspondence with the reopening. Third we show how the average subjectivity of the tweets increased linearly and fourth, how the popular and frequently used figurative frame of WAR changed when real riots and fights entered the discourse.
翻訳日:2021-03-17 19:06:25 公開日:2021-03-16
# (参考訳) 自己教師あり音声表現学習によるアフリカ語asrの高速開発 [全文訳有]

Fast Development of ASR in African Languages using Self Supervised Speech Representation Learning ( http://arxiv.org/abs/2103.08993v1 )

ライセンス: CC BY 4.0
Jama Hussein Mohamud, Lloyd Acquaye Thompson, Aissatou Ndoye, and Laurent Besacier(参考訳) 本稿では,2020年6月のAfrican Master of Machine Intelligence (AMMI)における非公式なコラボレーションの結果について述べる。 モバイルアプリケーションを用いた音声データ収集と音声からの自己教師型表現学習に関する一連の講義と研究室の後、学生と講師は、Wolof、Ga、Somaliの3つの言語を対象とした自動音声認識(ASR)プロジェクトに取り組んだ。 本稿では,データ収集方法と,少量 (1h) の書き起こし音声を訓練データとして開発したASRシステムについて述べる。 これらの低資源環境下では,asrシステムの効率向上のために,大量の生音声によるモデル事前学習が基本であった。

This paper describes the results of an informal collaboration launched during the African Master of Machine Intelligence (AMMI) in June 2020. After a series of lectures and labs on speech data collection using mobile applications and on self-supervised representation learning from speech, a small group of students and the lecturer continued working on automatic speech recognition (ASR) project for three languages: Wolof, Ga, and Somali. This paper describes how data was collected and ASR systems developed with a small amount (1h) of transcribed speech as training data. In these low resource conditions, pre-training a model on large amounts of raw speech was fundamental for the efficiency of ASR systems developed.
翻訳日:2021-03-17 18:38:35 公開日:2021-03-16
# (参考訳) 微分プライベートモデルのメンバシップ推論におけるドロップアウトの影響 [全文訳有]

The Influence of Dropout on Membership Inference in Differentially Private Models ( http://arxiv.org/abs/2103.09008v1 )

ライセンス: CC BY-SA 4.0
Erick Galinkin(参考訳) プライベートモデルは、モデルがトレーニングしたデータのプライバシを保護するため、モデルのセキュリティとプライバシの重要なコンポーネントになります。 同時に、データサイエンティストと機械学習エンジニアは、不確実性定量化手法を使用して、モデルが可能な限り有用かつ実行可能なものであることを保証する。 差分プライバシーを有するモデルに対する会員推測攻撃を行うことにより、ドロップアウトによる不確実性定量化とプライバシの間の緊張関係を検討する。 差分的プライベートモデルを含む全てのケースにおいて、大きなドロップアウトを持つモデルは、メンバーシップ推論攻撃に陥るリスクをわずかに増大させる。

Differentially private models seek to protect the privacy of data the model is trained on, making it an important component of model security and privacy. At the same time, data scientists and machine learning engineers seek to use uncertainty quantification methods to ensure models are as useful and actionable as possible. We explore the tension between uncertainty quantification via dropout and privacy by conducting membership inference attacks against models with and without differential privacy. We find that models with large dropout slightly increases a model's risk to succumbing to membership inference attacks in all cases including in differentially private models.
翻訳日:2021-03-17 18:30:22 公開日:2021-03-16
# (参考訳) 光回折トモグラフィーにおける教師なしコーン深層学習 [全文訳有]

Unsupervised Missing Cone Deep Learning in Optical Diffraction Tomography ( http://arxiv.org/abs/2103.09022v1 )

ライセンス: CC BY 4.0
Hyungjin Chung, Jaeyoung Huh, Geon Kim, Yong Keun Park, Jong Chul Ye(参考訳) 光回折トモグラフィ(ODT)は、様々な角度で散乱場を測定することにより、屈折率(RI)の3次元分布を生成する。 RI指数の分布は高情報であるが,ホログラムの限られた角度取得から生じるコーン問題により,水平撮像面よりも軸方向の分解能が極めて低い。 そこで,本稿では,最適なトランスポート駆動サイクルGANを用いて,不足投影ビューの確率分布を学習する非教師付きディープラーニングフレームワークを提案する。 実験結果から, ODTにおけるコーンアーチファクトの欠落は, 提案手法により著しく解決できることが示唆された。

Optical diffraction tomography (ODT) produces three dimensional distribution of refractive index (RI) by measuring scattering fields at various angles. Although the distribution of RI index is highly informative, due to the missing cone problem stemming from the limited-angle acquisition of holograms, reconstructions have very poor resolution along axial direction compared to the horizontal imaging plane. To solve this issue, here we present a novel unsupervised deep learning framework, which learns the probability distribution of missing projection views through optimal transport driven cycleGAN. Experimental results show that missing cone artifact in ODT can be significantly resolved by the proposed method.
翻訳日:2021-03-17 18:22:43 公開日:2021-03-16
# (参考訳) 深部強化学習を用いた傾斜クアドロレータランディング [全文訳有]

Inclined Quadrotor Landing using Deep Reinforcement Learning ( http://arxiv.org/abs/2103.09043v1 )

ライセンス: CC BY 4.0
Jacob E. Kooi and Robert Babu\v{s}ka(参考訳) クワッドローターを傾斜面に着陸させるのは難しい作業だ。 傾斜した着陸軌道の最終状態は平衡状態ではなく、従来の制御方法の使用を妨げている。 傾斜面に対する自律着陸制御装置の設計のための深層強化学習手法を提案する。 ppo(proximal policy optimization)アルゴリズムを使って、スリムな報酬とカリキュラム学習のアプローチを用いて、標準ラップトップ上で90分以内のシミュレーションで堅牢なポリシーを訓練することができる。 このポリシーは、本物のcrazyflie 2.1クワッドローター上で直接動作し、フライングアリーナで実際の傾斜着陸に成功した。 1つのポリシー評価は約2.5msであり、将来のクオータへの組込み実装に適している。

Landing a quadrotor on an inclined surface is a challenging manoeuvre. The final state of any inclined landing trajectory is not an equilibrium, which precludes the use of most conventional control methods. We propose a deep reinforcement learning approach to design an autonomous landing controller for inclined surfaces. Using the proximal policy optimization (PPO) algorithm with sparse rewards and a tailored curriculum learning approach, a robust policy can be trained in simulation in less than 90 minutes on a standard laptop. The policy then directly runs on a real Crazyflie 2.1 quadrotor and successfully performs real inclined landings in a flying arena. A single policy evaluation takes approximately 2.5 ms, which makes it suitable for a future embedded implementation on the quadrotor.
翻訳日:2021-03-17 18:03:39 公開日:2021-03-16
# (参考訳) 早期ドロップアウト予測:キャリブレーションとアルゴリズム的公平性の検討 [全文訳有]

Predicting Early Dropout: Calibration and Algorithmic Fairness Considerations ( http://arxiv.org/abs/2103.09068v1 )

ライセンス: CC BY 4.0
Marzieh Karimi-Haghighi, Carlos Castillo, Davinia Hernandez-Leo, Veronica Moreno Oliver(参考訳) 本研究は, アルゴリズム的公平性の観点から, 学部におけるドロップアウトリスクの予測の問題に対処している。 本研究では,大学中退のリスクを予測できる機械学習手法を開発した。 本研究の目的は,リスクのある生徒を識別し,潜在的な差別バイアスを回避することにある。 両リスクをモデル化する際には,初年度より前の入試時間に利用可能なデータに基づいて,ROC曲線(AUC)0.77-0.78のエリアで予測モデルを得る。 このデータには、生徒の人口統計、出席した高校、入試(平均)の成績が含まれている。 私たちのモデルは、単なるスコアではなく、リスクごとに推定確率を生成します。 予測精度 (auc) と誤差率 (一般化偽陽性率, gfpr, または一般化偽陰性率, gfnr) の観点で, この手法が感度の高いグループに対して判別結果をもたらすかどうかを解析した。 これらのモデルは、AUCとGFNRの点でいくつかの株式をグループに沿って示している。 同様のGFNRは、退学した学生のリスクを検出するのに失敗する可能性を示している。 GFPRの格差はモデルの校正に影響を与えない緩和プロセスを通じて対処される。

In this work, the problem of predicting dropout risk in undergraduate studies is addressed from a perspective of algorithmic fairness. We develop a machine learning method to predict the risks of university dropout and underperformance. The objective is to understand if such a system can identify students at risk while avoiding potential discriminatory biases. When modeling both risks, we obtain prediction models with an Area Under the ROC Curve (AUC) of 0.77-0.78 based on the data available at the enrollment time, before the first year of studies starts. This data includes the students' demographics, the high school they attended, and their admission (average) grade. Our models are calibrated: they produce estimated probabilities for each risk, not mere scores. We analyze if this method leads to discriminatory outcomes for some sensitive groups in terms of prediction accuracy (AUC) and error rates (Generalized False Positive Rate, GFPR, or Generalized False Negative Rate, GFNR). The models exhibit some equity in terms of AUC and GFNR along groups. The similar GFNR means a similar probability of failing to detect risk for students who drop out. The disparities in GFPR are addressed through a mitigation process that does not affect the calibration of the model.
翻訳日:2021-03-17 17:48:16 公開日:2021-03-16
# (参考訳) 画像合成サイクル変換を用いた教師なし異常分割 [全文訳有]

Unsupervised Anomaly Segmentation using Image-Semantic Cycle Translation ( http://arxiv.org/abs/2103.09094v1 )

ライセンス: CC BY 4.0
Chenxin Li, Yunlong Zhang, Jiongcheng Li, Yue Huang, Xinghao Ding(参考訳) unsupervised anomaly segmentation(uas)の目的は、訓練中に認識されないピクセルレベルの異常を検出することである。 これは医療画像コミュニティにおいて有望な分野であり、例えば、健康なデータだけで訓練されたモデルを使用して、まれな疾患の病変を区分することができる。 既存の手法は主にインフォメーション・ボトルネック(Information Bottleneck)に基づいており、その基本的な原理は、学習を通して正常な解剖の分布をモデル化し、低次元の多様体で健康なデータを圧縮して復元し、この分布から外れ値として病変を検出することである。 しかし,この次元減少は,特に画素レベルの異常検出に欠かせない局所化情報を必然的に損なう。 本稿では,健康なデータ分布をモデル化する過程における健全な解剖学の意味空間について述べる。 より正確には、セグメンテーションと合成の2つを特別なオートエンコーダとして捉え、'image->semantic->image'の旅路を持つ新しいサイクル変換フレームワークを提案する。 BraTS および ISLES データベースにおける実験結果から,提案手法は従来のいくつかの手法やセグメントに比べて精度良く性能が向上することが示された。

The goal of unsupervised anomaly segmentation (UAS) is to detect the pixel-level anomalies unseen during training. It is a promising field in the medical imaging community, e.g, we can use the model trained with only healthy data to segment the lesions of rare diseases. Existing methods are mainly based on Information Bottleneck, whose underlying principle is modeling the distribution of normal anatomy via learning to compress and recover the healthy data with a low-dimensional manifold, and then detecting lesions as the outlier from this learned distribution. However, this dimensionality reduction inevitably damages the localization information, which is especially essential for pixel-level anomaly detection. In this paper, to alleviate this issue, we introduce the semantic space of healthy anatomy in the process of modeling healthy-data distribution. More precisely, we view the couple of segmentation and synthesis as a special Autoencoder, and propose a novel cycle translation framework with a journey of 'image->semantic->image'. Experimental results on the BraTS and ISLES databases show that the proposed approach achieves significantly superior performance compared to several prior methods and segments the anomalies more accurately.
翻訳日:2021-03-17 17:39:16 公開日:2021-03-16
# (参考訳) 顔偽造検出のための単一中心損失教師付き周波数認識特徴学習 [全文訳有]

Frequency-aware Discriminative Feature Learning Supervised by Single-Center Loss for Face Forgery Detection ( http://arxiv.org/abs/2103.09096v1 )

ライセンス: CC BY 4.0
Jiaming Li, Hongtao Xie, Jiahong Li, Zhongyuan Wang, Yongdong Zhang(参考訳) face forgery detectionは、顔操作技術が深刻な不安を引き起こすため、コンピュータビジョンへの関心がますます高まっている。 ソフトマックスの損失がクラス内コンパクト性とクラス間分離性を明示的に促進しないため, (a) ソフトマックスの損失によって監督される学習特徴は分離可能であるが, 識別が不十分である (b) 固定フィルタバンクと手作り特徴は多様な入力から周波数の偽造パターンを捉えるのに不十分である) 。 このような制約を補うために,新しい周波数認識型特徴学習フレームワークが提案されている。 具体的には, 組込み空間におけるクラス間差異を増大させながら, 自然顔のクラス内変動のみを圧縮する新しい単一中心損失(scl)を設計した。 このような場合、ネットワークは最適化の困難さを減らしてより差別的な特徴を学習することができる。 また、完全データ駆動方式の周波数手がかりをマイニングするために適応周波数特徴生成モジュールを開発した。 上記の2つのモジュールにより、フレームワーク全体がエンドツーエンドでより識別的な機能を学ぶことができる。 大規模な実験は、FF++データセットの3つのバージョンにおけるフレームワークの有効性と優位性を示している。

Face forgery detection is raising ever-increasing interest in computer vision since facial manipulation technologies cause serious worries. Though recent works have reached sound achievements, there are still unignorable problems: a) learned features supervised by softmax loss are separable but not discriminative enough, since softmax loss does not explicitly encourage intra-class compactness and interclass separability; and b) fixed filter banks and hand-crafted features are insufficient to capture forgery patterns of frequency from diverse inputs. To compensate for such limitations, a novel frequency-aware discriminative feature learning framework is proposed in this paper. Specifically, we design a novel single-center loss (SCL) that only compresses intra-class variations of natural faces while boosting inter-class differences in the embedding space. In such a case, the network can learn more discriminative features with less optimization difficulty. Besides, an adaptive frequency feature generation module is developed to mine frequency clues in a completely data-driven fashion. With the above two modules, the whole framework can learn more discriminative features in an end-to-end manner. Extensive experiments demonstrate the effectiveness and superiority of our framework on three versions of the FF++ dataset.
翻訳日:2021-03-17 17:30:36 公開日:2021-03-16
# (参考訳) 血管ミキシングにおける連続した後部分布:クロスドメイン網膜/静脈分類の規則化 [全文訳有]

Consistent Posterior Distributions under Vessel-Mixing: A Regularization for Cross-Domain Retinal Artery/Vein Classification ( http://arxiv.org/abs/2103.09097v1 )

ライセンス: CC BY 4.0
Chenxin Li, Yunlong Zhang, Zhehan Liang, Wenao Ma, Yue Huang, Xinghao Ding(参考訳) 網膜動脈/vein (a/v) 分類は糖尿病と心血管疾患の診断に重要な技術である。 ディープラーニングベースの手法はa/v分類において印象的な結果が得られたが、その性能は通常、画像プロトコルのバリエーションなどによるドメインシフトによって、他のデータベースに直接適用した場合に著しく低下する。 本稿では,網膜a/v分類におけるクロスドメイン学習のための新しい容器混合型一貫性正規化フレームワークを提案する。 特に、ラベルのスムーズな事前に基づくソースドメインへの深刻なバイアスを軽減するため、このモデルは、摂動状態にある未ラベルのターゲットドメイン入力に対して一貫した予測を与えるように正規化されている。 この一貫性の規則化は暗黙的に、モデルと摂動が互いに対向するメカニズムを導入する。 そこで本研究では,血管混合摂動と呼ばれる網膜a/vのシナリオにおいて,モデルのロバスト性をさらに高めるためのより難しい相手について検討する。 特に,2つの画像を局所的に混合することにより,底部画像,特に血管構造を効果的に妨害する。 様々な機関や撮像装置から収集した4つの公開データセットを用いて,クロスドメインa/v分類に関する広範な実験を行う。 その結果,本手法は,対象ドメインに対する教師付き学習によって得られる上限に近い,最先端のクロスドメイン性能を実現することを示す。

Retinal artery/vein (A/V) classification is a critical technique for diagnosing diabetes and cardiovascular diseases. Although deep learning based methods achieve impressive results in A/V classification, their performances usually degrade severely when being directly applied to another database, due to the domain shift, e.g., caused by the variations in imaging protocols. In this paper, we propose a novel vessel-mixing based consistency regularization framework, for cross-domain learning in retinal A/V classification. Specially, to alleviate the severe bias to source domain, based on the label smooth prior, the model is regularized to give consistent predictions for unlabeled target-domain inputs that are under perturbation. This consistency regularization implicitly introduces a mechanism where the model and the perturbation is opponent to each other, where the model is pushed to be robust enough to cope with the perturbation. Thus, we investigate a more difficult opponent to further inspire the robustness of model, in the scenario of retinal A/V, called vessel-mixing perturbation. Specially, it effectively disturbs the fundus images especially the vessel structures by mixing two images regionally. We conduct extensive experiments on cross-domain A/V classification using four public datasets, which are collected by diverse institutions and imaging devices. The results demonstrate that our method achieves the state-of-the-art cross-domain performance, which is also close to the upper bound obtained by fully supervised learning on target domain.
翻訳日:2021-03-17 17:09:11 公開日:2021-03-16
# (参考訳) ImageNet上でCNNアーキテクチャを最適化するには十分か?

Is it Enough to Optimize CNN Architectures on ImageNet? ( http://arxiv.org/abs/2103.09108v1 )

ライセンス: CC BY 4.0
Lukas Tuggener, J\"urgen Schmidhuber, Thilo Stadelmann(参考訳) 現代のコンピュータビジョン研究の暗黙的だが広く普及している仮説は、ImageNetでより良い性能を発揮する畳み込みニューラルネットワーク(CNN)アーキテクチャは、他のビジョンデータセットでもより良い性能を発揮するというものである。 我々は、この仮説に、幅広いアプリケーションドメインから500のサンプルCNNアーキテクチャと8つの他の画像分類データセットをトレーニングする広範な実証的研究を通して挑戦する。 アーキテクチャとパフォーマンスの関係はデータセットによって大きく異なる。 一部では、ImageNetとパフォーマンスの相関性はさらに否定的だ。 明らかに、すべてのアプリケーションに関係のある進歩を目指して、ImageNet専用のアーキテクチャを最適化するには不十分です。 そこで,データ集合特有の性能指標として,層間の累積幅とネットワークの深さの2つを同定した。 最後に、imagenetによってカバーされるデータセットの変動範囲は、imagenetサブセットを少数のクラスに制限することで大幅に拡張できることを示す。

An implicit but pervasive hypothesis of modern computer vision research is that convolutional neural network (CNN) architectures that perform better on ImageNet will also perform better on other vision datasets. We challenge this hypothesis through an extensive empirical study for which we train 500 sampled CNN architectures on ImageNet as well as 8 other image classification datasets from a wide array of application domains. The relationship between architecture and performance varies wildly, depending on the datasets. For some of them, the performance correlation with ImageNet is even negative. Clearly, it is not enough to optimize architectures solely for ImageNet when aiming for progress that is relevant for all applications. Therefore, we identify two dataset-specific performance indicators: the cumulative width across layers as well as the total depth of the network. Lastly, we show that the range of dataset variability covered by ImageNet can be significantly extended by adding ImageNet subsets restricted to few classes.
翻訳日:2021-03-17 16:43:26 公開日:2021-03-16
# (参考訳) $\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$ processにおけるb-jetsの追加を識別する際のマッチング効率向上の学習 [全文訳有]

Learning to increase matching efficiency in identifying additional b-jets in the $\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$ process ( http://arxiv.org/abs/2103.09129v1 )

ライセンス: CC BY 4.0
Cheongjae Jang (1), Sang-Kyun Ko (2), Yung-Kyun Noh (1 and 2), Jieun Choi (3), Jongwon Lim (3) and Tae Jeong Kim (3) ((1) A.I. Institute, Hanyang University, (2) Department of Computer Science, Hanyang University, (3) Department of Physics, Hanyang University)(参考訳) この$\text{t}\bar{\text{t}}\text{h}(\text{b}\bar{\text{b}})$プロセスはhiggsプロパティを明らかにするために必須のチャネルであるが、$\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$プロセスから既約な背景を持ち、bクォーク対と関連するトップクォーク対を生成する。 したがって、$\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$プロセスを理解することは、$\text{t}\bar{\text{t}}\text{h}(\text{b}\bar{\text{b}})$プロセスに対する検索の感度を向上させるために不可欠である。 この目的のために、$\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$プロセスの微分断面積を測定する際には、トップクォーク崩壊に由来するb-jetsと、グルーオン分裂に由来するb-jetsを区別する必要がある。 単純な識別ルールがないため、データから学習するためにディープラーニング手法を採用し、$\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$ eventsから追加のb-jetを識別する。 具体的には、$\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$イベントデータの特別な構造を利用することで、マッチング効率を直接向上するために最小化できるいくつかの損失関数、追加のb-jetを識別する精度を提案する。 合成データを用いた2進分類arXiv:1910.14535に基づいて,本手法と他の深層学習手法の違いを考察する。 次に、$\sqrt{s}$ = 13 TeV での pp 衝突による lepton+jets チャネルのイベントデータをシミュレートして、バイナリ分類精度よりもマッチング効率を直接向上させることにより、b-jets の追加がより正確に識別可能であることを検証した。

The $\text{t}\bar{\text{t}}\text{H}(\text{b}\bar{\text{b}})$ process is an essential channel to reveal the Higgs properties but has an irreducible background from the $\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$ process, which produces a top quark pair in association with a b quark pair. Therefore, understanding the $\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$ process is crucial for improving the sensitivity of a search for the $\text{t}\bar{\text{t}}\text{H}(\text{b}\bar{\text{b}})$ process. To this end, when measuring the differential cross-section of the $\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$ process, we need to distinguish the b-jets originated from top quark decays, and additional b-jets originated from gluon splitting. Since there are no simple identification rules, we adopt deep learning methods to learn from data to identify the additional b-jets from the $\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$ events. Specifically, by exploiting the special structure of the $\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$ event data, we propose several loss functions that can be minimized to directly increase the matching efficiency, the accuracy of identifying additional b-jets. We discuss the difference between our method and another deep learning-based approach based on binary classification arXiv:1910.14535 using synthetic data. We then verify that additional b-jets can be identified more accurately by increasing matching efficiency directly rather than the binary classification accuracy, using simulated $\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$ event data in the lepton+jets channel from pp collision at $\sqrt{s}$ = 13 TeV.
翻訳日:2021-03-17 16:40:09 公開日:2021-03-16
# (参考訳) 深層学習の進歩と音声・視覚的感情認識 [全文訳有]

Leveraging Recent Advances in Deep Learning for Audio-Visual Emotion Recognition ( http://arxiv.org/abs/2103.09154v1 )

ライセンス: CC BY 4.0
Liam Schoneveld and Alice Othmani and Hazem Abdelkawy(参考訳) 感情表現とは、感情の状態や態度を他人に伝える行動である。 言語的・非言語的コミュニケーションによって表現される。 複雑な人間の行動は、複数の様相(主に顔、声、身体のジェスチャー)から物理的特徴を研究することで理解できる。 近年,人間の行動分析において,自発性マルチモーダル感情認識が広く研究されている。 本稿では,音声・視覚感情認識のための深層学習に基づく新しいアプローチを提案する。 我々のアプローチは、知識蒸留や高い性能の深層建築のような、近年のディープラーニングの進歩を活用している。 オーディオと視覚的モダリティの深い特徴表現は、モデルレベルの融合戦略に基づいて融合される。 次に、繰り返しニューラルネットワークを使用して、時間的ダイナミクスをキャプチャする。 提案手法は,recolaデータセットのヴァレンス予測における最先端手法を実質的に上回っている。 さらに,提案する視覚表情特徴抽出ネットワークは,AffectNetとGoogle Facial Expression Comparisonデータセットの最先端結果よりも優れていた。

Emotional expressions are the behaviors that communicate our emotional state or attitude to others. They are expressed through verbal and non-verbal communication. Complex human behavior can be understood by studying physical features from multiple modalities; mainly facial, vocal and physical gestures. Recently, spontaneous multi-modal emotion recognition has been extensively studied for human behavior analysis. In this paper, we propose a new deep learning-based approach for audio-visual emotion recognition. Our approach leverages recent advances in deep learning like knowledge distillation and high-performing deep architectures. The deep feature representations of the audio and visual modalities are fused based on a model-level fusion strategy. A recurrent neural network is then used to capture the temporal dynamics. Our proposed approach substantially outperforms state-of-the-art approaches in predicting valence on the RECOLA dataset. Moreover, our proposed visual facial expression feature extraction network outperforms state-of-the-art results on the AffectNet and Google Facial Expression Comparison datasets.
翻訳日:2021-03-17 16:21:00 公開日:2021-03-16
# (参考訳) LRGNet: クラス非依存のクラウドセグメンテーションのために成長する学習可能な領域 [全文訳有]

LRGNet: Learnable Region Growing for Class-Agnostic Point Cloud Segmentation ( http://arxiv.org/abs/2103.09160v1 )

ライセンス: CC BY 4.0
Jingdao Chen, Zsolt Kira, and Yong K. Cho(参考訳) 3Dポイントクラウドセグメンテーションは、ロボットが周囲の環境のレイアウトを理解し、物体の把握、障害物の回避、ランドマークの発見などのタスクを実行するのを助ける重要な機能である。 現在のセグメンテーション法は主にクラス固有であり、その多くは特定のオブジェクトカテゴリで動作するように調整されており、異なるタイプのシーンには一般化できない。 本研究では,クラス非依存なポイントクラウドセグメンテーションのための学習可能な領域拡大手法を提案する。 提案手法では, 形状や大きさを仮定することなく, 単一のディープニューラルネットワークを用いて任意の種類のオブジェクトを分割することができる。 ディープニューラルネットワークは、ポイントクラウド領域からポイントを追加または削除して、オブジェクトインスタンスの漸進的に完全なリージョンに変形する方法を予測するためにトレーニングされる。 S3DISデータセットとScanNetデータセットのセグメンテーション結果から,提案手法は6つの評価指標に対して競合手法を1%-9%上回る性能を示した。

3D point cloud segmentation is an important function that helps robots understand the layout of their surrounding environment and perform tasks such as grasping objects, avoiding obstacles, and finding landmarks. Current segmentation methods are mostly class-specific, many of which are tuned to work with specific object categories and may not be generalizable to different types of scenes. This research proposes a learnable region growing method for class-agnostic point cloud segmentation, specifically for the task of instance label prediction. The proposed method is able to segment any class of objects using a single deep neural network without any assumptions about their shapes and sizes. The deep neural network is trained to predict how to add or remove points from a point cloud region to morph it into incrementally more complete regions of an object instance. Segmentation results on the S3DIS and ScanNet datasets show that the proposed method outperforms competing methods by 1%-9% on 6 different evaluation metrics.
翻訳日:2021-03-17 16:04:29 公開日:2021-03-16
# (参考訳) スマートフォンを用いた多発性硬化症の遠隔診断のための解釈型深層学習 [全文訳有]

Interpretable Deep Learning for the Remote Characterisation of Ambulation in Multiple Sclerosis using Smartphones ( http://arxiv.org/abs/2103.09171v1 )

ライセンス: CC BY 4.0
Andrew P. Creagh, Florian Lipsmeier, Michael Lindemann and Maarten De Vos(参考訳) 医療アプリケーションにおけるスマートフォンなどのデジタル技術の出現は、遠隔および非気候で管理可能な多発性硬化症(ms)障害の豊かで連続的で客観的な対策を開発する可能性を実証した。 本研究では,スマートフォンの慣性センサデータに適用したディープ畳み込みニューラルネットワーク(DCNN)を,標準のSVM(Support Vector Machine)機能ベース手法と比較して,MS参加者のアンブレーションと健全性をよく区別することを示した。 低被験者数、スパーシティ、異種データなど、リモートで生成された健康データに関連する典型的な制限を克服するために、同様の大規模オープンソースデータセットからの転送学習(tl)モデルを提案した。 我々のTLフレームワークは、類似のスマートフォンセンサデータから収集したHAR(Human Activity Recognition)タスクの照準情報を利用した。 ブラックボックス」深層ネットワークの透明性の欠如は、臨床応用における深層学習の広く受け入れられる最大の障害の1つである。 その後の研究は、Layer-Wise Relevance Propagation (LRP)を用いて、関連ヒートマップに起因するDCNNの決定を可視化することを目的としている。 LRPフレームワークを通じて、健康な人とMS(PwMS)の人との相互関係を反映したスマートフォンベースの慣性センサーデータから取得したパターンが確立され、理解されるようになった。 また, 健常者からMS障害を区別する特徴として, リズムに基づく測定, 歩行速度, 振動関連信号摂動が示唆された。 高頻度の気候外評価から生じるロバストで解釈可能な結果は、pwmの現在の気候内評価図を大幅に強化し、より良い疾患管理技術を提供し、より良い治療介入の開発を可能にする。

The emergence of digital technologies such as smartphones in healthcare applications have demonstrated the possibility of developing rich, continuous, and objective measures of multiple sclerosis (MS) disability that can be administered remotely and out-of-clinic. In this work, deep convolutional neural networks (DCNN) applied to smartphone inertial sensor data were shown to better distinguish healthy from MS participant ambulation, compared to standard Support Vector Machine (SVM) feature-based methodologies. To overcome the typical limitations associated with remotely generated health data, such as low subject numbers, sparsity, and heterogeneous data, a transfer learning (TL) model from similar large open-source datasets was proposed. Our TL framework utilised the ambulatory information learned on Human Activity Recognition (HAR) tasks collected from similar smartphone-based sensor data. A lack of transparency of "black-box" deep networks remains one of the largest stumbling blocks to the wider acceptance of deep learning for clinical applications. Ensuing work therefore aimed to visualise DCNN decisions attributed by relevance heatmaps using Layer-Wise Relevance Propagation (LRP). Through the LRP framework, the patterns captured from smartphone-based inertial sensor data that were reflective of those who are healthy versus persons with MS (PwMS) could begin to be established and understood. Interpretations suggested that cadence-based measures, gait speed, and ambulation-related signal perturbations were distinct characteristics that distinguished MS disability from healthy participants. Robust and interpretable outcomes, generated from high-frequency out-of-clinic assessments, could greatly augment the current in-clinic assessment picture for PwMS, to inform better disease management techniques, and enable the development of better therapeutic interventions.
翻訳日:2021-03-17 15:46:25 公開日:2021-03-16
# (参考訳) RackLay: 倉庫ラックのマルチレイヤレイアウト推定 [全文訳有]

RackLay: Multi-Layer Layout Estimation for Warehouse Racks ( http://arxiv.org/abs/2103.09174v1 )

ライセンス: CC BY 4.0
Meher Shashwat Nigam, Avinash Prabhu, Anurag Sahu, Puru Gupta, Tanvi Karandikar, N. Sai Shankar, Ravi Kiran Sarvadevabhatla, K. Madhava Krishna(参考訳) 倉庫ラックの単眼カラー画像が与えられた場合,多層レイアウト予測と呼ぶラック内の各棚の鳥眼配置を予測することを目的としている。 そこで本研究では,単一の画像からリアルタイム棚配置推定を行うディープニューラルネットワークracklayを提案する。 支配的な接地平面のみに単一のレイアウトを提供する従来のレイアウト推定方法とは異なり、 \textit{RackLay} は、オブジェクトが集中していると考えられるラック内の各棚の上位ビューのフロントビューレイアウトを推定する。 RackLayのアーキテクチャとその変種は、画像中のさまざまな可視棚の数、棚の占有率の大きな範囲、様々な背景の乱れを特徴とする多様なシーンの、汎用的で正確なレイアウトを推定する。 この領域におけるデータセットの極端なポーシティと、倉庫からの実データを取得することの難しさを考えると、私たちはさらにフレキシブルな合成データセット生成パイプライン \textit{waresynth}をリリースします。 アーキテクチャの変種間のアブレーションと強力な事前ベースラインとの比較は、多層レイアウト推定の新たな問題に対するaptアーキテクチャとしての \textit{racklay}の有効性を実証する。 また、トップビューとフロントビューを融合させることで、検討したラックに対する計量自由空間推定などの3次元推論が可能であることを示す。

Given a monocular colour image of a warehouse rack, we aim to predict the bird's-eye view layout for each shelf in the rack, which we term as multi-layer layout prediction. To this end, we present RackLay, a deep neural network for real-time shelf layout estimation from a single image. Unlike previous layout estimation methods, which provide a single layout for the dominant ground plane alone, \textit{RackLay} estimates the top-view \underline{and} front-view layout for each shelf in the considered rack populated with objects. RackLay's architecture and its variants are versatile and estimate accurate layouts for diverse scenes characterized by varying number of visible shelves in an image, large range in shelf occupancy factor and varied background clutter. Given the extreme paucity of datasets in this space and the difficulty involved in acquiring real data from warehouses, we additionally release a flexible synthetic dataset generation pipeline \textit{WareSynth} which allows users to control the generation process and tailor the dataset according to contingent application. The ablations across architectural variants and comparison with strong prior baselines vindicate the efficacy of \textit{RackLay} as an apt architecture for the novel problem of multi-layered layout estimation. We also show that fusing the top-view and front-view enables 3D reasoning applications such as metric free space estimation for the considered rack.
翻訳日:2021-03-17 15:17:09 公開日:2021-03-16
# (参考訳) 深層学習 : 統計的視点

Deep learning: a statistical viewpoint ( http://arxiv.org/abs/2103.09177v1 )

ライセンス: CC BY 4.0
Peter L. Bartlett and Andrea Montanari and Alexander Rakhlin(参考訳) ディープラーニングの驚くべき実践的な成功は、理論的な観点からいくつかの大きな驚きを明らかにしている。 特に、単純な勾配法は、非凸最適化問題に対する近似解を容易に見つけることができ、モデルの複雑さを明示的に制御することなく、トレーニングデータにほぼ完全に適合するが、予測精度は優れた。 オーバーパラメトリゼーションによって勾配法が補間解を見つけることができ、これらの方法が暗黙的に正規化を課し、オーバーパラメトリゼーションが良性オーバーフィッティングにつながると推測する。 我々は,これらの原理を簡素な設定で例示する最近の理論的進展を調査した。 まず、古典的一様収束結果と、なぜそれらが深層学習手法の振る舞いの側面を説明できないのかを概観する。 簡単な設定で暗黙的な正規化の例を示し、グラデーションメソッドはトレーニングデータに完全に適合する最小限のノルム関数をもたらす。 次に,二次損失を伴う回帰問題に着目し,良性オーバーフィッティングを示す予測手法について検討する。 これらの手法では,予測ルールを,過度に適合するが良好な設定で予測精度を損なうことなく,予測に有用な単純な成分とスパイクな成分に分解することができる。 本稿では,線形モデルによりネットワークを近似できるニューラルネットワークの線形構造に着目した。 この方法では,勾配流の成功を実証し,二層ネットワークによる良性オーバーフィットを考慮し,過パラメータの影響を正確に示す漸近解析を行う。 最後に、これらの洞察を現実的なディープラーニング設定に拡張する上で生じる重要な課題を強調する。

The remarkable practical success of deep learning has revealed some major surprises from a theoretical perspective. In particular, simple gradient methods easily find near-optimal solutions to non-convex optimization problems, and despite giving a near-perfect fit to training data without any explicit effort to control model complexity, these methods exhibit excellent predictive accuracy. We conjecture that specific principles underlie these phenomena: that overparametrization allows gradient methods to find interpolating solutions, that these methods implicitly impose regularization, and that overparametrization leads to benign overfitting. We survey recent theoretical progress that provides examples illustrating these principles in simpler settings. We first review classical uniform convergence results and why they fall short of explaining aspects of the behavior of deep learning methods. We give examples of implicit regularization in simple settings, where gradient methods lead to minimal norm functions that perfectly fit the training data. Then we review prediction methods that exhibit benign overfitting, focusing on regression problems with quadratic loss. For these methods, we can decompose the prediction rule into a simple component that is useful for prediction and a spiky component that is useful for overfitting but, in a favorable setting, does not harm prediction accuracy. We focus specifically on the linear regime for neural networks, where the network can be approximated by a linear model. In this regime, we demonstrate the success of gradient flow, and we consider benign overfitting with two-layer networks, giving an exact asymptotic analysis that precisely demonstrates the impact of overparametrization. We conclude by highlighting the key challenges that arise in extending these insights to realistic deep learning settings.
翻訳日:2021-03-17 15:00:08 公開日:2021-03-16
# (参考訳) FAQチャットボットのための多言語アフリカ埋め込み [全文訳有]

A Multilingual African Embedding for FAQ Chatbots ( http://arxiv.org/abs/2103.09185v1 )

ライセンス: CC0 1.0
Aymen Ben Elhaj Mabrouk, Moez Ben Haj Hmida, Chayma Fourati, Hatem Haddad, Abir Messaoudi(参考訳) インターネット上に散在する情報や、アフリカの方言や言語と通信する政府通信チャネルの欠如により、利用可能な、信頼性があり、公式で、理解可能な情報を検索することは、簡単な作業ではない。 本稿では,危機コミュニケーションのための人工知能を利用したチャットボットについて紹介する。 本稿では,提案するチャットボットシステムのアーキテクチャと異なる階層の記述とともに,アフリカ方言の質問応答タスク用にカスタマイズされた修正されたstarspace埋め込みについて述べる。 英語、フランス語、アラビア語、チュニジア語、igbo、yor\`ub\'a、hausaは言語や方言として使われている。 実運用型Covid-19チャットボットの定量的,定性的な評価結果を得た。 その結果、ユーザーは満足し、チャットボットとの会話は顧客のニーズに合っていることがわかった。

Searching for an available, reliable, official, and understandable information is not a trivial task due to scattered information across the internet, and the availability lack of governmental communication channels communicating with African dialects and languages. In this paper, we introduce an Artificial Intelligence Powered chatbot for crisis communication that would be omnichannel, multilingual and multi dialectal. We present our work on modified StarSpace embedding tailored for African dialects for the question-answering task along with the architecture of the proposed chatbot system and a description of the different layers. English, French, Arabic, Tunisian, Igbo,Yor\`ub\'a, and Hausa are used as languages and dialects. Quantitative and qualitative evaluation results are obtained for our real deployed Covid-19 chatbot. Results show that users are satisfied and the conversation with the chatbot is meeting customer needs.
翻訳日:2021-03-17 14:58:01 公開日:2021-03-16
# (参考訳) エンドツーエンド運転のためのスパースカリキュラム強化学習 [全文訳有]

Sparse Curriculum Reinforcement Learning for End-to-End Driving ( http://arxiv.org/abs/2103.09189v1 )

ライセンス: CC BY 4.0
Pranav Agarwal, Pierre de Beaucorps and Raoul de Charette(参考訳) エンドツーエンド運転のための深い強化学習は、複雑な報酬工学の必要性によって制限される。 スパース報酬はこの課題を回避できるが、長い訓練時間に悩まされ、準最適政策につながる。 本研究では,目標条件付きスパース報酬のみを用いた運転について検討し,ナビゲーションビューマップのみを用いたエンドツーエンド運転のためのカリキュラム学習手法を提案する。 複数の運転ポリシーの複雑さに対処するために,ナビゲーションシステムによって選択された同時個別ポリシーを学習する。 提案手法は,未確認の道路レイアウトを一般化し,トレーニングよりも長い運転が可能であることを示す。

Deep reinforcement Learning for end-to-end driving is limited by the need of complex reward engineering. Sparse rewards can circumvent this challenge but suffers from long training time and leads to sub-optimal policy. In this work, we explore driving using only goal conditioned sparse rewards and propose a curriculum learning approach for end to end driving using only navigation view maps that benefit from small virtual-to-real domain gap. To address the complexity of multiple driving policies, we learn concurrent individual policies which are selected at inference by a navigation system. We demonstrate the ability of our proposal to generalize on unseen road layout, and to drive longer than in the training.
翻訳日:2021-03-17 14:47:09 公開日:2021-03-16
# (参考訳) 自律配送ロボットの設計と開発

Design and Development of Autonomous Delivery Robot ( http://arxiv.org/abs/2103.09229v1 )

ライセンス: CC BY 4.0
Aniket Gujarathi, Akshay Kulkarni, Unmesh Patil, Yogesh Phalak, Rajeshree Deotalu, Aman Jain, Navid Panchi, Ashwin Dhabale, Shital Chiddarwar(参考訳) 自律ロボット工学の分野は急速に成長している。 ますます多くのセンサーを車両に使用する傾向は、より安全で信頼性の高いサービスに対する法律と消費者の要求の両方によって引き起こされている。 現在、ロボットは家、病院、産業、軍事活動など、あらゆる場所で発見されている。 自律ロボットは人間のそばで働き、効率的に仕事を遂行できるほど頑丈に開発されている。 人間は、重力や運動感覚など、周りで作用する物理的な力を理解する自然な感覚を持っている。 明示的に教えられるのではなく 自然に発達します しかし、これはロボットには当てはまらない。 ロボットが人間と完全に自律的に作業できるようにするためには、ロボットは状況を認識し、タスクの実行中に発生する可能性のあるすべての逆を考慮し、スムーズな操作の計画を立てなければならない。 本論文では,VNITキャンパス内のパッケージを人間間通信なしで提供する,自律型移動ロボットプラットフォームを提案する。 ユーザーが提供する最初の地理的ターゲット位置から、システムは最適化された経路を計画し、それを自律的にナビゲートする。 この論文では、屋外環境で働く自律ロボットのパイプライン全体を詳細に説明している。

The field of autonomous robotics is growing at a rapid rate. The trend to use increasingly more sensors in vehicles is driven both by legislation and consumer demands for higher safety and reliable service. Nowadays, robots are found everywhere, ranging from homes, hospitals to industries, and military operations. Autonomous robots are developed to be robust enough to work beside humans and to carry out jobs efficiently. Humans have a natural sense of understanding of the physical forces acting around them like gravity, sense of motion, etc. which are not taught explicitly but are developed naturally. However, this is not the case with robots. To make the robot fully autonomous and competent to work with humans, the robot must be able to perceive the situation and devise a plan for smooth operation, considering all the adversities that may occur while carrying out the tasks. In this thesis, we present an autonomous mobile robot platform that delivers the package within the VNIT campus without any human intercommunication. From an initial user-supplied geographic target location, the system plans an optimized path and autonomously navigates through it. The entire pipeline of an autonomous robot working in outdoor environments is explained in detail in this thesis.
翻訳日:2021-03-17 14:34:38 公開日:2021-03-16
# (参考訳) リャプノフ障壁政策最適化 [全文訳有]

Lyapunov Barrier Policy Optimization ( http://arxiv.org/abs/2103.09230v1 )

ライセンス: CC BY 4.0
Harshit Sikchi, Wenxuan Zhou, David Held(参考訳) 現実世界にRLエージェントを配置するには、エージェントが安全上の制約を満たす必要がある。 現在のRLエージェントは、これらの制約を考慮せずに環境を探索し、環境内のハードウェアや他のエージェントにダメージを与える可能性がある。 本稿では,lyapunovベースのバリア関数を用いて,トレーニングイテレーション毎にポリシ更新をセーフセットに制限する手法であるlbpoを提案する。 また,本手法により,環境の制約に対して,エージェントの保守性を制御できる。 LBPOは、パフォーマンスの点で競争力がありながら、トレーニング中の制約違反の数で最先端のベースラインを著しく上回る。 さらに,本分析の結果から,CPOやSDDPGなどのベースラインは,安全投射ではなくバックトラックに大きく依存していることが明らかとなった。

Deploying Reinforcement Learning (RL) agents in the real-world require that the agents satisfy safety constraints. Current RL agents explore the environment without considering these constraints, which can lead to damage to the hardware or even other agents in the environment. We propose a new method, LBPO, that uses a Lyapunov-based barrier function to restrict the policy update to a safe set for each training iteration. Our method also allows the user to control the conservativeness of the agent with respect to the constraints in the environment. LBPO significantly outperforms state-of-the-art baselines in terms of the number of constraint violations during training while being competitive in terms of performance. Further, our analysis reveals that baselines like CPO and SDDPG rely mostly on backtracking to ensure safety rather than safe projection, which provides insight into why previous methods might not have effectively limit the number of constraint violations.
翻訳日:2021-03-17 14:21:50 公開日:2021-03-16
# 道路交通の間接的評価に向けて

Towards Indirect Top-Down Road Transport Emissions Estimation ( http://arxiv.org/abs/2103.08829v1 )

ライセンス: Link先を確認
Ryan Mukherjee, Derek Rollend, Gordon Christie, Armin Hadzic, Sally Matson, Anshu Saksena, Marisa Hughes(参考訳) 道路交通は気候変動に影響を及ぼす温室効果ガス(GHG)排出量の最大セクターの1つである。 気候変動を世界的なコミュニティとして取り組むためには、道路交通の排出を計測し在庫する新しい能力が必要です。 しかし、自動車排出の大規模かつ分散的な性質は、既存の在庫手法において特にこの分野を困難にしている。 本研究では,衛星画像を用いた道路交通エミッションの間接的トップダウン推定を行う機械学習モデルを開発する。 最初の実験は、私たちのモデルをトレーニングするためのボトムアップインベントリが利用できる米国に焦点を当てました。 平均絶対誤差 (MAE) を39.5kg CO$_{2}$で達成し, センチネル2画像の画素単位100m$^{2}$で算出した。 また、グローバルな地理に一般化可能なモデルを開発する上で、対処すべき重要なモデル仮定と課題についても論じる。 本研究は,視覚画像を用いた道路交通セクター排出の間接的トップダウン自動推定のための最初のアプローチであり,独立的にかつ客観的に測定された,スケーラブルでグローバルで,ほぼリアルタイムな道路交通エミッション在庫に対する重要なステップであると考えている。

Road transportation is one of the largest sectors of greenhouse gas (GHG) emissions affecting climate change. Tackling climate change as a global community will require new capabilities to measure and inventory road transport emissions. However, the large scale and distributed nature of vehicle emissions make this sector especially challenging for existing inventory methods. In this work, we develop machine learning models that use satellite imagery to perform indirect top-down estimation of road transport emissions. Our initial experiments focus on the United States, where a bottom-up inventory was available for training our models. We achieved a mean absolute error (MAE) of 39.5 kg CO$_{2}$ of annual road transport emissions, calculated on a pixel-by-pixel (100 m$^{2}$) basis in Sentinel-2 imagery. We also discuss key model assumptions and challenges that need to be addressed to develop models capable of generalizing to global geography. We believe this work is the first published approach for automated indirect top-down estimation of road transport sector emissions using visual imagery and represents a critical step towards scalable, global, near-real-time road transportation emissions inventories that are measured both independently and objectively.
翻訳日:2021-03-17 13:39:28 公開日:2021-03-16
# 空間依存ネットワーク:生成画像モデリングを改善するニューラルネットワーク層

Spatial Dependency Networks: Neural Layers for Improved Generative Image Modeling ( http://arxiv.org/abs/2103.08877v1 )

ライセンス: Link先を確認
{\DJ}or{\dj}e Miladinovi\'c, Aleksandar Stani\'c, Stefan Bauer, J\"urgen Schmidhuber, Joachim M. Buhmann(参考訳) 画像の空間的規則性とコヒーレンスをうまく活用して生成モデルを改善するには? 本稿では,イメージジェネレータ(デコーダ)を構築するニューラルネットワークを導入し,それを可変オートエンコーダ(VAE)に適用する。 空間依存ネットワーク(sdns)では、2次元空間に文脈情報を分散する逐次ゲーティングに基づくメカニズムを用いて、深層ニューラルネットワークの各レベルの特徴マップを空間的にコヒーレントな方法で計算する。 また,空間依存層による階層型vaeのデコーダの強化は,ベースライン畳み込み型アーキテクチャの密度推定と,同一クラス内のモデル間の状態推定を大幅に改善することを示した。 さらに,高品質かつコヒーレンスなサンプルを合成することにより,sdnを大規模画像に適用できることを実証する。 バニラVAE設定では、強力なSDNデコーダが、アンタングル表現の学習を改善し、このタスクにおいてニューラルネットワークが重要な役割を果たすことを示す。 以上より,様々なvae設定において畳み込み層に対する空間依存が好まれることが示唆された。 付随するソースコードはhttps://github.com/d jordjemila/sdnで提供される。

How to improve generative modeling by better exploiting spatial regularities and coherence in images? We introduce a novel neural network for building image generators (decoders) and apply it to variational autoencoders (VAEs). In our spatial dependency networks (SDNs), feature maps at each level of a deep neural net are computed in a spatially coherent way, using a sequential gating-based mechanism that distributes contextual information across 2-D space. We show that augmenting the decoder of a hierarchical VAE by spatial dependency layers considerably improves density estimation over baseline convolutional architectures and the state-of-the-art among the models within the same class. Furthermore, we demonstrate that SDN can be applied to large images by synthesizing samples of high quality and coherence. In a vanilla VAE setting, we find that a powerful SDN decoder also improves learning disentangled representations, indicating that neural architectures play an important role in this task. Our results suggest favoring spatial dependency over convolutional layers in various VAE settings. The accompanying source code is given at https://github.com/d jordjemila/sdn.
翻訳日:2021-03-17 13:39:08 公開日:2021-03-16
# 対話システムのためのインテントスロット自動誘導

Automatic Intent-Slot Induction for Dialogue Systems ( http://arxiv.org/abs/2103.08886v1 )

ライセンス: Link先を確認
Zengfeng Zeng, Dan Ma, Haiqin Yang, Zhen Gou and Jianping Shen(参考訳) 対話システムの成功には,ユーザの意図を自動的かつ正確に識別し,発話言語からのスロットを埋めることが不可欠である。 従来の手法では、DOMAIN-INTENT-SLOTスキーマを手動で定義し、多くのドメインエキスパートに対応する発話に注釈を付ける必要がある。 この手順は、オープンドメインの対話システムにおいて、情報共有の障害、スキーマ外、あるいはデータの分散という課題をもたらす。 これらの課題に対処するため,本研究では,自動インテントスロット誘導という新たな課題を探求し,ドメインに依存しない新しいツールを提案する。 That is, we design a coarse-to-fine three-step procedure including Role-labeling, Concept-mining, And Pattern-mining (RCAP): (1) role-labeling: extracting keyphrases from users' utterances and classifying them into a quadruple of coarsely-defined intent-roles via sequence labeling; (2) concept-mining: clustering the extracted intent-role mentions and naming them into abstract fine-grained concepts; (3) pattern-mining: applying the Apriori algorithm to mine intent-role patterns and automatically inferring the intent-slot using these coarse-grained intent-role labels and fine-grained concepts. Empirical evaluations on both real-world in-domain and out-of-domain datasets show that: (1) our RCAP can generate satisfactory SLU schema and outperforms the state-of-the-art supervised learning method; (2) our RCAP can be directly applied to out-of-domain datasets and gain at least 76\% improvement of F1-score on intent detection and 41\% improvement of F1-score on slot filling; (3) our RCAP exhibits its power in generic intent-slot extractions with less manual effort, which opens pathways for schema induction on new domains and unseen intent-slot discovery for generalizable dialogue systems.

Automatically and accurately identifying user intents and filling the associated slots from their spoken language are critical to the success of dialogue systems. Traditional methods require manually defining the DOMAIN-INTENT-SLOT schema and asking many domain experts to annotate the corresponding utterances, upon which neural models are trained. This procedure brings the challenges of information sharing hindering, out-of-schema, or data sparsity in open-domain dialogue systems. To tackle these challenges, we explore a new task of {\em automatic intent-slot induction} and propose a novel domain-independent tool. That is, we design a coarse-to-fine three-step procedure including Role-labeling, Concept-mining, And Pattern-mining (RCAP): (1) role-labeling: extracting keyphrases from users' utterances and classifying them into a quadruple of coarsely-defined intent-roles via sequence labeling; (2) concept-mining: clustering the extracted intent-role mentions and naming them into abstract fine-grained concepts; (3) pattern-mining: applying the Apriori algorithm to mine intent-role patterns and automatically inferring the intent-slot using these coarse-grained intent-role labels and fine-grained concepts. Empirical evaluations on both real-world in-domain and out-of-domain datasets show that: (1) our RCAP can generate satisfactory SLU schema and outperforms the state-of-the-art supervised learning method; (2) our RCAP can be directly applied to out-of-domain datasets and gain at least 76\% improvement of F1-score on intent detection and 41\% improvement of F1-score on slot filling; (3) our RCAP exhibits its power in generic intent-slot extractions with less manual effort, which opens pathways for schema induction on new domains and unseen intent-slot discovery for generalizable dialogue systems.
翻訳日:2021-03-17 13:38:49 公開日:2021-03-16
# kgsynnet:知識グラフを用いた新しいエンティティシノニム発見フレームワーク

KGSynNet: A Novel Entity Synonyms Discovery Framework with Knowledge Graph ( http://arxiv.org/abs/2103.08893v1 )

ライセンス: Link先を確認
Yiying Yang, Xi Yin, Haiqin Yang, Xingjian Fei, Hao Peng, Kaijie Zhou, Kunfeng Lai, and Jianping Shen(参考訳) エンティティ同義語の発見は、エンティティ平均アプリケーションにとって不可欠である。 しかし、既存の研究はいくつかの重大な問題に悩まされている:(1) 入力参照は語彙外(OOV)であり、エンティティの異なる意味空間から来ているかもしれない; (2) 参照とエンティティ間の接続は、表面マッチングによって隠蔽され、確立できない; (3) 長い尾効果のため、一部のエンティティはほとんど現れない。 これらの課題に取り組むため,我々は知識グラフを容易化し,新しい概念同義語発見フレームワークである \emph{kgsynnet} を提案する。 具体的には,大規模なドメイン固有コーパスを用いた参照やエンティティのサブワード埋め込みを事前訓練し,共同TransC-TransEモデルを用いてエンティティの知識埋め込みを学習する。 より重要なことは、エンティティの包括的な表現を得るために、特定の設計の 'emph{fusion gate} を用いて、エンティティの知識情報をそれらの意味的特徴に適応的に吸収する。 我々は知識グラフの活用におけるemph{kgsynnet}の有効性を実証するために広範な実験を行う。 実験の結果,emph{kgsynnet}は,オフライン評価におけるhis@3の観点で14.7\%,質問応答システムのエンティティリンクモジュール上でのオンラインa/bテストの正のフィードバック率で8.3\%,芸術的手法を14.7\%改善した。

Entity synonyms discovery is crucial for entity-leveraging applications. However, existing studies suffer from several critical issues: (1) the input mentions may be out-of-vocabulary (OOV) and may come from a different semantic space of the entities; (2) the connection between mentions and entities may be hidden and cannot be established by surface matching; and (3) some entities rarely appear due to the long-tail effect. To tackle these challenges, we facilitate knowledge graphs and propose a novel entity synonyms discovery framework, named \emph{KGSynNet}. Specifically, we pre-train subword embeddings for mentions and entities using a large-scale domain-specific corpus while learning the knowledge embeddings of entities via a joint TransC-TransE model. More importantly, to obtain a comprehensive representation of entities, we employ a specifically designed \emph{fusion gate} to adaptively absorb the entities' knowledge information into their semantic features. We conduct extensive experiments to demonstrate the effectiveness of our \emph{KGSynNet} in leveraging the knowledge graph. The experimental results show that the \emph{KGSynNet} improves the state-of-the-art methods by 14.7\% in terms of hits@3 in the offline evaluation and outperforms the BERT model by 8.3\% in the positive feedback rate of an online A/B test on the entity linking module of a question answering system.
翻訳日:2021-03-17 13:38:19 公開日:2021-03-16
# 視覚言語モデルのゼロショット言語間伝達のための多言語マルチモーダル事前学習

Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Models ( http://arxiv.org/abs/2103.08849v1 )

ライセンス: Link先を確認
Po-Yao Huang, Mandela Patrick, Junjie Hu, Graham Neubig, Florian Metze and Alexander Hauptmann(参考訳) 本稿では,視覚言語モデルのゼロショット言語間伝達について検討する。 具体的には,多言語間テキスト対ビデオ検索に着目し,文脈化多言語マルチモーダル埋め込みを学習するトランスフォーマティブモデルを提案する。 ゼロショット設定では,非英語文で多言語テキストビデオモデルに問い合わせると,性能が著しく低下することを示す。 この問題に対処するために,多言語マルチモーダル事前学習戦略を導入し,事前学習のための新しい多言語指導ビデオデータセット(multihowto100m)を収集する。 VTT実験により,アノテーションを付加せずに非英語での動画検索が大幅に改善された。 さらに,多言語アノテーションが利用可能であれば,vtt と vatex の多言語テキスト対ビデオ検索や multi30k の多言語テキスト対画像検索において,最近のベースラインを大きく上回っている。 私たちのモデルとMulti-HowTo100Mはhttp://github.com/be rniebear/Mutli-HT100 Mで利用可能です。

This paper studies zero-shot cross-lingual transfer of vision-language models. Specifically, we focus on multilingual text-to-video search and propose a Transformer-based model that learns contextualized multilingual multimodal embeddings. Under a zero-shot setting, we empirically demonstrate that performance degrades significantly when we query the multilingual text-video model with non-English sentences. To address this problem, we introduce a multilingual multimodal pre-training strategy, and collect a new multilingual instructional video dataset (MultiHowTo100M) for pre-training. Experiments on VTT show that our method significantly improves video search in non-English languages without additional annotations. Furthermore, when multilingual annotations are available, our method outperforms recent baselines by a large margin in multilingual text-to-video search on VTT and VATEX; as well as in multilingual text-to-image search on Multi30K. Our model and Multi-HowTo100M is available at http://github.com/be rniebear/Mutli-HT100 M.
翻訳日:2021-03-17 13:37:51 公開日:2021-03-16
# ワンショットで見る超高分解能クロスドメイン顔ミニチュア

Super-Resolving Cross-Domain Face Miniatures by Peeking at One-Shot Exemplar ( http://arxiv.org/abs/2103.08863v1 )

ライセンス: Link先を確認
Peike Li, Xin Yu, Yi Yang(参考訳) 従来の顔超解像法では、通常、低解像度(LR)画像のテストはトレーニング画像と同じ領域にあると仮定する。 異なる照明条件と撮像ハードウェアのため、トレーニングとテストの間のドメインギャップは多くの現実世界のシナリオで必然的に発生する。 これらの領域ギャップを無視すると、下面超解像(FSR)の性能が低下する。 しかし、訓練されたFSRモデルをターゲット領域に効率的に効率的に転送する方法は研究されていない。 この問題に対処するため,ドメイン対応ピラミッド型顔超解像ネットワークDAP-FSRを開発した。 DAP-FSRは、ターゲット領域における高分解能(HR)と高分解能(LR)のみを活用することにより、ターゲット領域からLR面を超解する最初の試みである。 具体的には、DAP-FSRはまずエンコーダを用いて、入力LR面のマルチスケール潜在表現を抽出する。 対象ドメインの例が1つしかないことを考慮し、対象ドメインの顔とソースドメインの潜在表現を混合して対象ドメインデータを拡張し、その混合表現をDAP-FSRのデコーダに供給することを提案する。 デコーダは、ターゲットドメインイメージスタイルに似た新しい顔画像を生成する。 生成されたHRフェイスは、ドメインギャップを減らすためにデコーダの最適化に使用される。 遅延表現とデコーダを反復的に更新することにより、DAP-FSRはターゲット領域に適応し、真正かつ高品質なHR面を実現する。 新たに構築した3つのベンチマークに関する広範囲な実験により,dap-fsrの有効性と優れた性能が得られた。

Conventional face super-resolution methods usually assume testing low-resolution (LR) images lie in the same domain as the training ones. Due to different lighting conditions and imaging hardware, domain gaps between training and testing images inevitably occur in many real-world scenarios. Neglecting those domain gaps would lead to inferior face super-resolution (FSR) performance. However, how to transfer a trained FSR model to a target domain efficiently and effectively has not been investigated. To tackle this problem, we develop a Domain-Aware Pyramid-based Face Super-Resolution network, named DAP-FSR network. Our DAP-FSR is the first attempt to super-resolve LR faces from a target domain by exploiting only a pair of high-resolution (HR) and LR exemplar in the target domain. To be specific, our DAP-FSR firstly employs its encoder to extract the multi-scale latent representations of the input LR face. Considering only one target domain example is available, we propose to augment the target domain data by mixing the latent representations of the target domain face and source domain ones, and then feed the mixed representations to the decoder of our DAP-FSR. The decoder will generate new face images resembling the target domain image style. The generated HR faces in turn are used to optimize our decoder to reduce the domain gap. By iteratively updating the latent representations and our decoder, our DAP-FSR will be adapted to the target domain, thus achieving authentic and high-quality upsampled HR faces. Extensive experiments on three newly constructed benchmarks validate the effectiveness and superior performance of our DAP-FSR compared to the state-of-the-art.
翻訳日:2021-03-17 13:37:33 公開日:2021-03-16
# 野生のバランス顔におけるバイアスのバランスとプライバシーの保護

Balancing Biases and Preserving Privacy on Balanced Faces in the Wild ( http://arxiv.org/abs/2103.09118v1 )

ライセンス: Link先を確認
Joseph P Robinson and Can Qin and Yann Henon and Samson Timoner and Yun Fu(参考訳) FRに使用されるSOTA CNNには人口統計バイアスがある。 我々のBFWデータセットは、民族と性別のサブグループ間のバイアスを測定するプロキシとして機能し、サブグループごとのFRパフォーマンスを特徴付けることができます。 サンプルペアが真か偽かを決定するために1つのスコアしきい値を使用する場合、性能が最適でないことを示す。 さらに、実際のパフォーマンス評価は、報告されたサブグループ間で大きく異なる。 したがって、特定のエラー率の主張は、検証データと一致する集団に対してのみ当てはまる。 我々は,SOTAディープネットを用いて抽出した顔符号化の領域適応学習方式を用いて,不均衡な性能を緩和する。 このテクニックはパフォーマンスのバランスを取るだけでなく、全体的なパフォーマンスも向上します。 提案手法の利点は, 顔特徴におけるアイデンティティ情報を保存しつつ, 下位次元特徴における人口統計学的知識を除去できることである。 人口統計知識の除去は、将来の潜在的なバイアスが意思決定に注入されるのを防ぐ。 さらに、この削除によってプライバシーの懸念が満たされる。 硬いサンプルで定性的に機能する理由を探る。 また,サブグループ分類器は,提案するエンコーディングから学習できないことを定量的に示す。

There are demographic biases in the SOTA CNN used for FR. Our BFW dataset serves as a proxy to measure bias across ethnicity and gender subgroups, allowing us to characterize FR performances per subgroup. We show performances are non-optimal when a single score threshold is used to determine whether sample pairs are genuine or imposter. Furthermore, actual performance ratings vary greatly from the reported across subgroups. Thus, claims of specific error rates only hold true for populations matching that of the validation data. We mitigate the imbalanced performances using a novel domain adaptation learning scheme on the facial encodings extracted using SOTA deep nets. Not only does this technique balance performance, but it also boosts the overall performance. A benefit of the proposed is to preserve identity information in facial features while removing demographic knowledge in the lower dimensional features. The removal of demographic knowledge prevents future potential biases from being injected into decision-making. Additionally, privacy concerns are satisfied by this removal. We explore why this works qualitatively with hard samples. We also show quantitatively that subgroup classifiers can no longer learn from the encodings mapped by the proposed.
翻訳日:2021-03-17 13:37:04 公開日:2021-03-16
# マルチストリームトランスを用いた縦断医療データからのオピオイド使用障害予測

Predicting Opioid Use Disorder from Longitudinal Healthcare Data using Multi-stream Transformer ( http://arxiv.org/abs/2103.08800v1 )

ライセンス: Link先を確認
Sajjad Fouladvand, Jeffery Talbert, Linda P. Dwoskin, Heather Bush, Amy Lynn Meadows, Lars E. Peterson, Ramakanth Kavuluru, Jin Chen(参考訳) オピオイド使用障害(opioid use disorder、oud)は、医療、職場の生産性、犯罪において年間数十億ドルの費用がかかる公衆衛生危機である。 医療における多くの現実の問題に対処するために、縦断的な医療データを分析することが重要である。 そこで本研究では,実世界の縦断医療データを活用したマルチストリームトランスフォーマーモデルであるmupodを提案する。 MUPODは、医薬品や診断など、複数のタイプの医療データストリームを同時に分析するように設計されている。 長期の腰痛に悩まされた392,492例のデータから,従来のモデルよりも有意に優れた成績を示し,近年のディープラーニングモデルを開発した。

Opioid Use Disorder (OUD) is a public health crisis costing the US billions of dollars annually in healthcare, lost workplace productivity, and crime. Analyzing longitudinal healthcare data is critical in addressing many real-world problems in healthcare. Leveraging the real-world longitudinal healthcare data, we propose a novel multi-stream transformer model called MUPOD for OUD prediction. MUPOD is designed to simultaneously analyze multiple types of healthcare data streams, such as medications and diagnoses, by finding the attentions within and across these data streams. Our model tested on the data from 392,492 patients with long-term back pain problems showed significantly better performance than the traditional models and recently developed deep learning models.
翻訳日:2021-03-17 13:36:37 公開日:2021-03-16
# トライアージによる差別的学習

Differentiable Learning Under Triage ( http://arxiv.org/abs/2103.08902v1 )

ライセンス: Link先を確認
Nastaran Okati, Abir De, Manuel Gomez-Rodriguez(参考訳) 複数の証拠が、予測モデルがアルゴリズム的トリアージの恩恵を受ける可能性を示唆している。 アルゴリズム的トリアージでは、予測モデルはすべてのインスタンスを予測せず、その一部を人間の専門家に否定する。 しかし,アルゴリズムトリアージによる予測精度と人間専門家との相互作用はよく理解されていない。 本研究では,予測モデルがアルゴリズム的トリアージの恩恵を受ける状況下での形式的特徴付けから始める。 そうすることで、完全自動化のためにトレーニングされたモデルが、トリアージ下では最適でないことも示します。 そして、任意のモデルと所望のトリアージレベルが与えられた場合、最適なトリアージポリシーは、モデルと人間のエラーとの差をインスタンス単位のレベルで閾値にすることで、トリアージ決定を決定論的に導出する決定論的しきい値ルールであることを示す。 これらの結果をもとに,トリアージポリシのシーケンスと性能向上の予測モデルを見出すことを保証した,実用的な勾配に基づくアルゴリズムを提案する。 コンテントモデレーションと科学的発見という2つの重要な応用から得られた合成および実データを用いて、様々な教師付き学習タスクを実験した結果、我々の理論的結果が示され、勾配に基づくアルゴリズムによって提供されるモデルとトリアージポリシーが、いくつかの競合ベースラインによって提供されるものよりも優れていることが示されている。

Multiple lines of evidence suggest that predictive models may benefit from algorithmic triage. Under algorithmic triage, a predictive model does not predict all instances but instead defers some of them to human experts. However, the interplay between the prediction accuracy of the model and the human experts under algorithmic triage is not well understood. In this work, we start by formally characterizing under which circumstances a predictive model may benefit from algorithmic triage. In doing so, we also demonstrate that models trained for full automation may be suboptimal under triage. Then, given any model and desired level of triage, we show that the optimal triage policy is a deterministic threshold rule in which triage decisions are derived deterministically by thresholding the difference between the model and human errors on a per-instance level. Building upon these results, we introduce a practical gradient-based algorithm that is guaranteed to find a sequence of triage policies and predictive models of increasing performance. Experiments on a wide variety of supervised learning tasks using synthetic and real data from two important applications -- content moderation and scientific discovery -- illustrate our theoretical results and show that the models and triage policies provided by our gradient-based algorithm outperform those provided by several competitive baselines.
翻訳日:2021-03-17 13:36:25 公開日:2021-03-16
# ドメイン外Few-Shot学習における事前学習モデルの再検討

Repurposing Pretrained Models for Robust Out-of-domain Few-Shot Learning ( http://arxiv.org/abs/2103.09027v1 )

ライセンス: Link先を確認
Namyeong Kwon, Hwidong Na, Gabriel Huang, Simon Lacoste-Julien(参考訳) モデル非依存型メタラーニング(MAML)は、数ショット学習の一般的な方法であるが、メタトレーニングセットにアクセス可能であると仮定する。 実際には、データプライバシの懸念、知的財産の問題、あるいは単にコンピューティングリソースの欠如のため、メタトレーニングセットのトレーニングは必ずしも選択肢ではないかもしれない。 本稿では,事前学習されたmamlチェックポイントを再利用して,新たな少数ショット分類課題を解決するという新しい課題について考察する。 潜在的分布ミスマッチのため、元のMAMLステップはもはや最適ではないかもしれない。 そこで我々は,メタテストの代替手法を提案し,MAMLグラデーションステップと逆行訓練と不確実性に基づくステップサイズ適応を組み合わせた。 提案手法は,SGDとAdamオプティマイザの両方を用いて,同一ドメインとクロスドメインのベンチマーク上での"バニラ"MAMLの性能を向上し,ベースステップサイズの選択に対するロバスト性の向上を示す。

Model-agnostic meta-learning (MAML) is a popular method for few-shot learning but assumes that we have access to the meta-training set. In practice, training on the meta-training set may not always be an option due to data privacy concerns, intellectual property issues, or merely lack of computing resources. In this paper, we consider the novel problem of repurposing pretrained MAML checkpoints to solve new few-shot classification tasks. Because of the potential distribution mismatch, the original MAML steps may no longer be optimal. Therefore we propose an alternative meta-testing procedure and combine MAML gradient steps with adversarial training and uncertainty-based stepsize adaptation. Our method outperforms "vanilla" MAML on same-domain and cross-domains benchmarks using both SGD and Adam optimizers and shows improved robustness to the choice of base stepsize.
翻訳日:2021-03-17 13:35:33 公開日:2021-03-16
# 分散ディープラーニングのための学習勾配圧縮

Learned Gradient Compression for Distributed Deep Learning ( http://arxiv.org/abs/2103.08870v1 )

ライセンス: Link先を確認
Lusine Abrahamyan, Yiming Chen, Giannis Bekoulis and Nikos Deligiannis(参考訳) 高次元データを含む大規模データセット上でディープニューラルネットワークをトレーニングするには、大量の計算が必要である。 この問題の解決策はデータ並列分散トレーニング(Data-parallel Distributed Training)であり、モデルが複数の計算ノードに複製され、データの異なるチャンクにアクセスする。 しかしこのアプローチは、各イテレーションでノード間で共有する必要がある計算された勾配のため、高い通信速度とレイテンシを必要とする。 この問題は、ノード間の無線通信がある場合(すなわち)、より顕著になる。 ネットワーク帯域幅が限られているため) この問題に対処するために、勾配のスパース化、量子化、エントロピー符号化など様々な圧縮法が提案されている。 既存の方法はノード内の情報冗長性、すなわち各ノードの勾配を独立に圧縮する。 対照的に,ノード間の勾配は相関しており,このノード間冗長性を利用して圧縮効率を向上させる手法を提案する。 ノード通信プロトコル(パラメータサーバまたはring-allreduce)により、我々は学習勾配圧縮(lgc)を考案したlgcアプローチの2つのインスタンスを提案する。 我々のメソッドはオートエンコーダ(つまり)を利用する。 分散トレーニングの最初の段階でトレーニングされた)分散ノードの勾配に存在する共通情報をキャプチャする。 我々は,様々な畳み込みニューラルネットワーク(resnet50,resnet101, pspnet)と複数のデータセット(imagenet,cifar10,ca mvid)を用いて,画像分類と意味セグメンテーションタスクに関するlgc手法をテストした。 cifar10の画像分類のためにトレーニングされたresnet101モデルは、精度93.57%に達し、非圧縮勾配のベースライン分散トレーニングよりも0.18%低い。

Training deep neural networks on large datasets containing high-dimensional data requires a large amount of computation. A solution to this problem is data-parallel distributed training, where a model is replicated into several computational nodes that have access to different chunks of the data. This approach, however, entails high communication rates and latency because of the computed gradients that need to be shared among nodes at every iteration. The problem becomes more pronounced in the case that there is wireless communication between the nodes (i.e. due to the limited network bandwidth). To address this problem, various compression methods have been proposed including sparsification, quantization, and entropy encoding of the gradients. Existing methods leverage the intra-node information redundancy, that is, they compress gradients at each node independently. In contrast, we advocate that the gradients across the nodes are correlated and propose methods to leverage this inter-node redundancy to improve compression efficiency. Depending on the node communication protocol (parameter server or ring-allreduce), we propose two instances of the LGC approach that we coin Learned Gradient Compression (LGC). Our methods exploit an autoencoder (i.e. trained during the first stages of the distributed training) to capture the common information that exists in the gradients of the distributed nodes. We have tested our LGC methods on the image classification and semantic segmentation tasks using different convolutional neural networks (ResNet50, ResNet101, PSPNet) and multiple datasets (ImageNet, Cifar10, CamVid). The ResNet101 model trained for image classification on Cifar10 achieved an accuracy of 93.57%, which is lower than the baseline distributed training with uncompressed gradients only by 0.18%.
翻訳日:2021-03-17 13:35:17 公開日:2021-03-16
# ボランティア型パラダイムを用いた分散ディープラーニング

Distributed Deep Learning Using Volunteer Computing-Like Paradigm ( http://arxiv.org/abs/2103.08894v1 )

ライセンス: Link先を確認
Medha Atre and Birendra Jha and Ashwini Rao(参考訳) 画像分類,感情分析,音声認識などの商用応用におけるディープラーニング(DL)の利用が増加している。 多数のパラメータと/または大きなデータセットでDLモデルをトレーニングする場合、トレーニングのコストとスピードは禁じられる可能性がある。 トレーニングジョブをサブタスクに分割して複数のノード上で実行する分散DLトレーニングソリューションは、トレーニング時間を短縮することができる。 しかし、クラスタコンピューティングシステム向けに主に構築された現在のソリューションのコストは依然として問題となる可能性がある。 クラスタコンピューティングシステムとは対照的に、Volunteer Computing(VC)システムはコンピューティングのコストを下げることができるが、VCシステム上で動作するアプリケーションは、フォールトトレランス、可変ネットワークレイテンシ、計算ノードの不均一性を扱う必要があり、現在のソリューションはそうするように設計されていない。 我々は、データ並列アプローチを用いて、VCシステム上でDLトレーニングを実行できる分散ソリューションを設計する。 本稿では,VCシステムに適した非同期SGD方式VC-ASGDを提案する。 信頼できないボランティアデバイスを使用することでコストを下げる従来のVCシステムとは対照的に、商用クラウドプラットフォーム上でプリエンプティブルコンピューティングインスタンスを活用することでコストを下げる。 アプリケーションにフォールトトレラントを要求するプリエンプティブルなインスタンスを使用することで、コストを70~90%削減し、データセキュリティを改善します。

Use of Deep Learning (DL) in commercial applications such as image classification, sentiment analysis and speech recognition is increasing. When training DL models with large number of parameters and/or large datasets, cost and speed of training can become prohibitive. Distributed DL training solutions that split a training job into subtasks and execute them over multiple nodes can decrease training time. However, the cost of current solutions, built predominantly for cluster computing systems, can still be an issue. In contrast to cluster computing systems, Volunteer Computing (VC) systems can lower the cost of computing, but applications running on VC systems have to handle fault tolerance, variable network latency and heterogeneity of compute nodes, and the current solutions are not designed to do so. We design a distributed solution that can run DL training on a VC system by using a data parallel approach. We implement a novel asynchronous SGD scheme called VC-ASGD suited for VC systems. In contrast to traditional VC systems that lower cost by using untrustworthy volunteer devices, we lower cost by leveraging preemptible computing instances on commercial cloud platforms. By using preemptible instances that require applications to be fault tolerant, we lower cost by 70-90% and improve data security.
翻訳日:2021-03-17 13:34:45 公開日:2021-03-16
# 作業記憶を用いたマルチモーダル認知のための認知アーキテクチャ

Cognitive architecture aided by working-memory for self-supervised multi-modal humans recognition ( http://arxiv.org/abs/2103.09072v1 )

ライセンス: Link先を確認
Jonas Gonzalez-Billandon, Giulia Belgiovine, Alessandra Sciutti, Giulio Sandini, Francesco Rea(参考訳) 人間のパートナーを認識する能力は、パーソナライズされた長期的な人間とロボットのインタラクションを構築するための重要な社会的スキルである。 顔と声は、人工知能が個人を確実に認識できるように、2つの重要な情報源を構成する。 ディープラーニングネットワークは最先端の結果を達成し,そのような課題に対処するための適切なツールであることが実証された。 しかし、これらのネットワークがトレーニングセットに含まれない異なる、前例のないシナリオに適用されると、パフォーマンスが低下する可能性がある。 例えば、常に変化する現実的な環境におけるロボットプラットフォームでは、常に新しい感覚的証拠が取得されるため、それらのモデルの性能は低下する。 1つの解決策は、ロボットに自己スーパービジョンで直接の感覚データから学習させることである。 これにより、現実的でインタラクティブなコンテキストで収集されたデータの固有の可変性に対処することができる。 本研究では,空間的作業記憶機構と低レベルの知覚プロセスを統合する認知的アーキテクチャを提案する。 このアーキテクチャは、ロボットの感覚体験を、人間の認識に適した構造化データセットに自律的に整理する。 本研究は,本アーキテクチャの有効性を実証し,ロボットを学習プロセスにおいてより自律的にすることを目的とした,有望なソリューションであることを示す。

The ability to recognize human partners is an important social skill to build personalized and long-term human-robot interactions, especially in scenarios like education, care-giving, and rehabilitation. Faces and voices constitute two important sources of information to enable artificial systems to reliably recognize individuals. Deep learning networks have achieved state-of-the-art results and demonstrated to be suitable tools to address such a task. However, when those networks are applied to different and unprecedented scenarios not included in the training set, they can suffer a drop in performance. For example, with robotic platforms in ever-changing and realistic environments, where always new sensory evidence is acquired, the performance of those models degrades. One solution is to make robots learn from their first-hand sensory data with self-supervision. This allows coping with the inherent variability of the data gathered in realistic and interactive contexts. To this aim, we propose a cognitive architecture integrating low-level perceptual processes with a spatial working memory mechanism. The architecture autonomously organizes the robot's sensory experience into a structured dataset suitable for human recognition. Our results demonstrate the effectiveness of our architecture and show that it is a promising solution in the quest of making robots more autonomous in their learning process.
翻訳日:2021-03-17 13:34:24 公開日:2021-03-16
# スイッチング制御ゲームを用いたリワードの形状学習

Learning to Shape Rewards using a Game of Switching Controls ( http://arxiv.org/abs/2103.09159v1 )

ライセンス: Link先を確認
David Mguni, Jianhong Wang, Taher Jafferjee, Nicolas Perez-Nieves, Wenbin Song, Yaodong Yang, Feifei Tong, Hui Chen, Jiangcheng Zhu, Yali Du, Jun Wang(参考訳) リワードシェーピング(Reward shaping, RL)は、スパースと非形式的報酬の問題を克服する強力な手法である。 しかし、RSは手動で設計したシェーピング・リワード関数に頼っている。 また、自律学習の目標とは逆のドメイン知識を必要とする。 本稿では,2つのエージェント間の新しい確率ゲームにおいて,シェーピング・リワード機能を構築する自動RSフレームワークを提案する。 あるエージェントは、どの状態に成形報酬と最適な大きさを加えるかを学習し、もう一方のエージェントは、形状の報酬を使用してタスクの最適ポリシーを学ぶ。 我々は,既存のRLアルゴリズムを簡単に適用可能なフレームワークが,タスクに適合した整形・逆戻り関数の構築を学習し,与えられたタスクに対するより高い実行ポリシーへの収束を保証することを理論的に証明した。 本稿では,Cartpoleの最先端RSアルゴリズムと,Gravitar,Solaris,Su per Marioの挑戦型コンソールゲームに対して,提案手法の優れた性能を示す。

Reward shaping (RS) is a powerful method in reinforcement learning (RL) for overcoming the problem of sparse and uninformative rewards. However, RS relies on manually engineered shaping-reward functions whose construction is typically time-consuming and error-prone. It also requires domain knowledge which runs contrary to the goal of autonomous learning. In this paper, we introduce an automated RS framework in which the shaping-reward function is constructed in a novel stochastic game between two agents. One agent learns both which states to add shaping rewards and their optimal magnitudes and the other agent learns the optimal policy for the task using the shaped rewards. We prove theoretically that our framework, which easily adopts existing RL algorithms, learns to construct a shaping-reward function that is tailored to the task and ensures convergence to higher performing policies for the given task. We demonstrate the superior performance of our method against state-of-the-art RS algorithms in Cartpole and the challenging console games Gravitar, Solaris and Super Mario.
翻訳日:2021-03-17 13:34:06 公開日:2021-03-16
# 流れに基づく異常音検出のための自己教師付き密度推定

Flow-based Self-supervised Density Estimation for Anomalous Sound Detection ( http://arxiv.org/abs/2103.08801v1 )

ライセンス: Link先を確認
Kota Dohi, Takashi Endo, Harsh Purohit, Ryo Tanabe, Yohei Kawaguchi(参考訳) 機械音監視システムを開発するために,異常音を検出する手法を提案する。 正規化フローを用いた高精度推定は教師なし異常検出に有望な手法であるが,データの平滑性に影響されるため,分散検出に失敗する可能性がある。 検出性能を向上させるために,対象機音に対して高い確率を割り当て,同一機の他の機音に対して低い確率を割り当てるようにモデルを訓練する。 これにより,モデルが自己教師付き分類に基づくアプローチを取り入れられることを実証する。 DCASE 2020 Challenge Task2データセットを用いて行った実験によると、提案手法はマズード自己回帰流(MAF)を用いて平均4.6%改善し、Glowを用いた場合の5.8%改善した。

To develop a machine sound monitoring system, a method for detecting anomalous sound is proposed. Exact likelihood estimation using Normalizing Flows is a promising technique for unsupervised anomaly detection, but it can fail at out-of-distribution detection since the likelihood is affected by the smoothness of the data. To improve the detection performance, we train the model to assign higher likelihood to target machine sounds and lower likelihood to sounds from other machines of the same machine type. We demonstrate that this enables the model to incorporate a self-supervised classification-based approach. Experiments conducted using the DCASE 2020 Challenge Task2 dataset showed that the proposed method improves the AUC by 4.6% on average when using Masked Autoregressive Flow (MAF) and by 5.8% when using Glow, which is a significant improvement over the previous method.
翻訳日:2021-03-17 13:33:48 公開日:2021-03-16
# GANを用いたデジタル病理における教師なし異常検出

Unsupervised anomaly detection in digital pathology using GANs ( http://arxiv.org/abs/2103.08945v1 )

ライセンス: Link先を確認
Milda Pocevi\v{c}i\=ut\.e, Gabriel Eilertsen, Claes Lundstr\"om(参考訳) 機械学習(ML)アルゴリズムは、トレーニングデータで表される分布に最適化される。 外れたデータに対しては、信頼すべきでないものの、同じ信頼性で予測を提供することが多い。 臨床実践においてMLベースのデジタル病理ソリューションを展開するためには,異常データを検出する効果的な方法が不可欠である。 本稿では,GAN(Generative Adversarial Network)に基づく病理組織データにおける異常検出のための新しい教師なし学習手法を提案する。 医用画像に用いられている既存のGAN法と比較して,本手法は病理データの性能を大幅に改善する。 以上の結果より, 病理組織像は従来手法よりかなり複雑であったことが示唆された。 この複雑さは、より高度なGANアーキテクチャだけでなく、再構成された画像の品質を捉えるための適切な異常メトリックも必要である。

Machine learning (ML) algorithms are optimized for the distribution represented by the training data. For outlier data, they often deliver predictions with equal confidence, even though these should not be trusted. In order to deploy ML-based digital pathology solutions in clinical practice, effective methods for detecting anomalous data are crucial to avoid incorrect decisions in the outlier scenario. We propose a new unsupervised learning approach for anomaly detection in histopathology data based on generative adversarial networks (GANs). Compared to the existing GAN-based methods that have been used in medical imaging, the proposed approach improves significantly on performance for pathology data. Our results indicate that histopathology imagery is substantially more complex than the data targeted by the previous methods. This complexity requires not only a more advanced GAN architecture but also an appropriate anomaly metric to capture the quality of the reconstructed images.
翻訳日:2021-03-17 13:33:08 公開日:2021-03-16
# LightningDOT: リアルタイム画像テキスト検索のための事前トレーニング型ビジュアルセマンティック埋め込み

LightningDOT: Pre-training Visual-Semantic Embeddings for Real-Time Image-Text Retrieval ( http://arxiv.org/abs/2103.08784v1 )

ライセンス: Link先を確認
Siqi Sun, Yen-Chun Chen, Linjie Li, Shuohang Wang, Yuwei Fang, Jingjing Liu(参考訳) マルチモーダル・プレトレーニングは視覚・言語研究に大きな進歩をもたらした。 これらの大規模事前訓練モデルは成功したが、トランスフォーマーアーキテクチャにおけるクロスモーダルな注意による計算コストの増大により、予測速度の低下に悩まされた。 現実のアプリケーションに適用すると、そのようなレイテンシと計算は、事前学習されたモデルの実用性を著しく阻害する。 本稿では,V+Lアプリケーションの最も成熟したシナリオである画像テキスト検索(ITR)について検討する。 精度を犠牲にすることなく、IMRの推論時間を何千回も高速化する簡易かつ高効率なLightningDOTを提案する。 lightningdotは、3つの新しい学習目標を事前学習し、特徴インデックスをオフラインで抽出し、検索プロセスを大幅に高速化するインスタントドット製品マッチングを採用することで、時間を要するクロスモーダルな注意を取り除きます。 実際、LightningDOTはFlickr30k、COCO、Multi30Kといった複数のIRRベンチマークにまたがって、1000倍の計算時間を消費する既存のトレーニング済みモデルを上回っている。 コードと事前トレーニングのチェックポイントはhttps://github.com/i ntersun/LightningDOT .comで公開されている。

Multimodal pre-training has propelled great advancement in vision-and-language research. These large-scale pre-trained models, although successful, fatefully suffer from slow inference speed due to enormous computation cost mainly from cross-modal attention in Transformer architecture. When applied to real-life applications, such latency and computation demand severely deter the practical use of pre-trained models. In this paper, we study Image-text retrieval (ITR), the most mature scenario of V+L application, which has been widely studied even prior to the emergence of recent pre-trained models. We propose a simple yet highly effective approach, LightningDOT that accelerates the inference time of ITR by thousands of times, without sacrificing accuracy. LightningDOT removes the time-consuming cross-modal attention by pre-training on three novel learning objectives, extracting feature indexes offline, and employing instant dot-product matching with further re-ranking, which significantly speeds up retrieval process. In fact, LightningDOT achieves new state of the art across multiple ITR benchmarks such as Flickr30k, COCO and Multi30K, outperforming existing pre-trained models that consume 1000x magnitude of computational hours. Code and pre-training checkpoints are available at https://github.com/i ntersun/LightningDOT .
翻訳日:2021-03-17 13:32:37 公開日:2021-03-16
# 自然言語理解のためのロバストな最適化と蒸留訓練

Robustly Optimized and Distilled Training for Natural Language Understanding ( http://arxiv.org/abs/2103.08809v1 )

ライセンス: Link先を確認
Haytham ElFadeel and Stan Peshterliev(参考訳) 本稿では,トランスフォーマー言語モデルのための拡張ユニバーサル言語表現を学ぶための第2の事前学習ステップとして,マルチタスク学習(mtl)について検討する。 我々は、MTL拡張表現をいくつかの自然言語理解タスクで使用し、性能と一般化を改善した。 さらに、知識蒸留(KD)をMTLに組み込んで、パフォーマンスをさらに向上させ、複数の教師から効果的に学習するKD変異を考案する。 MTLとKDを組み合わせることで、ロバスト最適化・蒸留(ROaD)モデリングフレームワークを提案する。 我々はELECTRAモデルとともにROaDを用いて,機械読解と自然言語推論の最先端結果を得る。

In this paper, we explore multi-task learning (MTL) as a second pretraining step to learn enhanced universal language representation for transformer language models. We use the MTL enhanced representation across several natural language understanding tasks to improve performance and generalization. Moreover, we incorporate knowledge distillation (KD) in MTL to further boost performance and devise a KD variant that learns effectively from multiple teachers. By combining MTL and KD, we propose Robustly Optimized and Distilled (ROaD) modeling framework. We use ROaD together with the ELECTRA model to obtain state-of-the-art results for machine reading comprehension and natural language inference.
翻訳日:2021-03-17 13:32:14 公開日:2021-03-16
# マルチモーダル機械翻訳におけるGumbel-Attention

Gumbel-Attention for Multi-modal Machine Translation ( http://arxiv.org/abs/2103.08862v1 )

ライセンス: Link先を確認
Pengbo Liu, Hailong Cao, Tiejun Zhao(参考訳) マルチモーダル機械翻訳(MMT)は視覚情報を導入して翻訳品質を向上させる。 しかし、既存のMTモデルは、画像がテキストに関係のない情報をもたらし、モデルに大きなノイズを与え、翻訳品質に影響を与えるという問題を無視する。 本稿では,画像特徴のテキスト関連部分を選択するマルチモーダル機械翻訳のためのGumbel-Attentionを提案する。 具体的には, 先行手法と異なり, まず, 画像情報の選択と, 画像特徴の無駄な部分を自動削除に微分可能な手法を用いる。 Gumbel-Attentionと画像特徴のスコア行列を介して、画像認識テキスト表現を生成する。 そして,マルチモーダルエンコーダを用いて,テキスト表現と画像認識テキスト表現を独立に符号化する。 最後に、エンコーダの最終出力はマルチモーダルゲート融合によって得られる。 実験とケース分析により,本手法はテキストに関連する画像の特徴を保ち,残りの部分はMTモデルがより良い翻訳を生成するのに役立つことが示された。

Multi-modal machine translation (MMT) improves translation quality by introducing visual information. However, the existing MMT model ignores the problem that the image will bring information irrelevant to the text, causing much noise to the model and affecting the translation quality. In this paper, we propose a novel Gumbel-Attention for multi-modal machine translation, which selects the text-related parts of the image features. Specifically, different from the previous attention-based method, we first use a differentiable method to select the image information and automatically remove the useless parts of the image features. Through the score matrix of Gumbel-Attention and image features, the image-aware text representation is generated. And then, we independently encode the text representation and the image-aware text representation with the multi-modal encoder. Finally, the final output of the encoder is obtained through multi-modal gated fusion. Experiments and case analysis proves that our method retains the image features related to the text, and the remaining parts help the MMT model generates better translations.
翻訳日:2021-03-17 13:32:02 公開日:2021-03-16
# 英語拡張ユニバーサル依存におけるコーディネート構成:分析と計算モデル

Coordinate Constructions in English Enhanced Universal Dependencies: Analysis and Computational Modeling ( http://arxiv.org/abs/2103.08955v1 )

ライセンス: Link先を確認
Stefan Gr\"unewald, Prisca Piccirilli, Annemarie Friedrich(参考訳) 本稿では,接続ヘッドから他の接続部への依存リンクが伝播する拡張ユニバーサル依存(UD)における座標構成の表現について述べる。 拡張UDのための英語ツリーバンクは、コア引数のみを伝播するヒューリスティックなルールベースのコンバータを使用して、金の基本依存関係から作成されている。 セマンティックの観点からどのリンクを伝播すべきかを決定することを目的として,手作業で編集した構文グラフの大規模データセットを作成する。 そこで本研究では,元のデータから系統的誤りを同定し,随伴関係を広めることを提案する。 我々は,この意味的アノテーションタスクに対して,高いアノテータ間合意を観察する。 新たに手作業で検証したデータセットを用いて、ルールベースと(部分的には新規な)機械学習による英語の共用伝搬の第一原理的比較を行う。 学習伝播ルールは,ハンドデザインのヒューリスティックルールよりも効果的であることを示す。 自動解析を使用する場合、ニューラルネットワークパーザベースのエッジ予測器は、基本層ツリーパーサプラスコンバータを使用して、現在主流となっているパイプラインを上回っています。

In this paper, we address the representation of coordinate constructions in Enhanced Universal Dependencies (UD), where relevant dependency links are propagated from conjunction heads to other conjuncts. English treebanks for enhanced UD have been created from gold basic dependencies using a heuristic rule-based converter, which propagates only core arguments. With the aim of determining which set of links should be propagated from a semantic perspective, we create a large-scale dataset of manually edited syntax graphs. We identify several systematic errors in the original data, and propose to also propagate adjuncts. We observe high inter-annotator agreement for this semantic annotation task. Using our new manually verified dataset, we perform the first principled comparison of rule-based and (partially novel) machine-learning based methods for conjunction propagation for English. We show that learning propagation rules is more effective than hand-designing heuristic rules. When using automatic parses, our neural graph-parser based edge predictor outperforms the currently predominant pipelinesusing a basic-layer tree parser plus converters.
翻訳日:2021-03-17 13:31:47 公開日:2021-03-16
# AMR-to-text生成のための事前学習言語モデルにおける構造適応器

Structural Adapters in Pretrained Language Models for AMR-to-text Generation ( http://arxiv.org/abs/2103.09120v1 )

ライセンス: Link先を確認
Leonardo F. R. Ribeiro, Yue Zhang, Iryna Gurevych(参考訳) グラフ構造データからのテキスト生成に関する以前の研究は、事前学習された言語モデル(plm)に依存しており、グラフ構造を明示的に考慮するのではなく、グラフ線形化ヒューリスティックスを利用している。 PLMのグラフ構造を効率的に符号化することは、自然言語で事前訓練されたため困難であり、構造化されたデータをモデル化することは、分布的知識を破滅的に忘れてしまう可能性がある。 本稿では,グラフ構造をPLMにエンコードするアダプタであるStructAdaptを提案する。 以前の作業とは対照的に、StructAdaptはグラフ接続性に基づいてノード間の相互作用を効果的にモデル化する。 このようにして、グラフの位相構造を維持しながら破滅的な忘れを避ける。 本研究では,2つのAMR-to-textデータセットに対して,PLMパラメータの5.1%のトレーニングを行い,グラフ構造をアダプタを用いてPLMに明示的に符号化する利点を実証的に示す。

Previous work on text generation from graph-structured data relies on pretrained language models (PLMs) and utilizes graph linearization heuristics rather than explicitly considering the graph structure. Efficiently encoding the graph structure in PLMs is challenging because they were pretrained on natural language, and modeling structured data may lead to catastrophic forgetting of distributional knowledge. In this paper, we propose StructAdapt, an adapter method to encode graph structure into PLMs. Contrary to prior work, StructAdapt effectively models interactions among the nodes based on the graph connectivity, only training graph structure-aware adapter parameters. In this way, we avoid catastrophic forgetting while maintaining the topological structure of the graph. We empirically show the benefits of explicitly encoding graph structure into PLMs using adapters and achieve state-of-the-art results on two AMR-to-text datasets, training only 5.1% of the PLM parameters.
翻訳日:2021-03-17 13:31:30 公開日:2021-03-16
# 2型糖尿病管理領域における臨床ガイドラインの継続的適用に対するコンプライアンス自動評価のための双方向手法の評価

Evaluation of a Bi-Directional Methodology for Automated Assessment of Compliance to Continuous Application of Clinical Guidelines, in the Type 2 Diabetes-Management Domain ( http://arxiv.org/abs/2103.09031v1 )

ライセンス: Link先を確認
Avner Hatsek, Irit Hochberg, Deeb Daoud Naccache, Aya Biderman, and Yuval Shahar(参考訳) ガイドラインから患者の縦断的データへの双方向検索に基づいて,エビデンスに基づく臨床ガイドラインの継続的適用に対するコンプライアンスを評価する新たな方法論を以前に導入したDiscovErrシステムについて検討した。 2型糖尿病患者10人のうち5.23年を平均して1584件の取引に関するシステムコメントを2人の糖尿病専門家と1人の高齢者の患者と比較した。 専門家は自身のコメントを提供した後、それぞれのDis DiscovErrシステムコメントの正確さ(精度)と重要性を評価した。 システムの完全性(リコールまたはカバレッジ)は、専門家によるコメントと比較することで計算された。 このシステムは279のコメントを出した。 専門家は181件のコメントを出した。 システムの完全性は、少なくとも2人の専門家によるコメントと比較して91%、そして3人によるコメントに比べて98%であった。 172のコメントが専門家によって正確性と重要性について評価され、114の薬物関連コメントと165の監視関連コメントのランダムな35%が評価された。 このシステムの正当性は、双方の糖尿病専門家が正当と判断したコメントと比較して81%、糖尿病専門家が正当と判断したコメントは91%であった。 89%が糖尿病の専門家で、8%が1人の専門家で、3%が2人の専門家で重要でないと判断された。 3人の専門家(すべての専門家のコメントと検証されたシステムコメント)の完全性スコアは75%、60%、そして55%であり、専門家の正確性スコア(大多数に比較)はそれぞれ99%、91%、そして88%であった。 結論: DiscovErr のようなシステムは,継続的ガイドラインベースのケアの品質を評価することができる。

We evaluated the DiscovErr system, in which we had previously implemented a new methodology for assessment of compliance to continuous application of evidence-based clinical guidelines, based on a bidirectional search from the guideline objectives to the patient's longitudinal data, and vice versa. We compared the system comments on 1584 transactions regarding the management, over a mean of 5.23 years, of 10 randomly selected Type 2 diabetes patients, to those of two diabetes experts and a senior family practitioner. After providing their own comments, the experts assessed both the correctness (precision) and the importance of each of the DiscovErr system comments. The completeness (recall or coverage) of the system was computed by comparing its comments to those made by the experts. The system made 279 comments. The experts made 181 unique comments. The completeness of the system was 91% compared to comments made by at least two experts, and 98% when compared to comments made by all three. 172 comments were evaluated by the experts for correctness and importance: All 114 medication-related comments, and a random 35% of the 165 monitoring-related comments. The system's correctness was 81% compared to comments judged as correct by both diabetes experts, and 91% compared to comments judged as correct by a diabetes expert and at least as partially correct by the other. 89% of the comments were judged as important by both diabetes experts, 8% were judged as important by one expert, 3% were judged as less important by both experts. The completeness scores of the three experts (compared to the comments of all experts plus the validated system comments) were 75%, 60%, and 55%; the experts' correctness scores (compared to their majority) were respectively 99%, 91%, and 88%. Conclusion: Systems such as DiscovErr can assess the quality of continuous guideline-based care.
翻訳日:2021-03-17 13:30:57 公開日:2021-03-16
# 三元ハッシュ

Ternary Hashing ( http://arxiv.org/abs/2103.09173v1 )

ライセンス: Link先を確認
Kam Woh Ng, Chang Liu, Lixin Fan, Yilun Jin, Ce Ju, Tianyu Zhang, Chee Seng Chan, Qiang Yang(参考訳) 本稿では,ハッシュ法を学習するための新しい3次ハッシュ符号化を提案する。 学習/エンコーディングとテスト/検索の両方の3次ハミング距離(thd)を計算するために、2種類の公理的3次論理、kleene logic と {\l}ukasiewicz logicが採用されている。 提案手法は,cifar10,nus-wide,im agenet100のデータセットで示されるように,検索平均精度 (map) を1\%から5.9\%に一貫性を持たせたバイナリハッシュ手法と比較した。

This paper proposes a novel ternary hash encoding for learning to hash methods, which provides a principled more efficient coding scheme with performances better than those of the state-of-the-art binary hashing counterparts. Two kinds of axiomatic ternary logic, Kleene logic and {\L}ukasiewicz logic are adopted to calculate the Ternary Hamming Distance (THD) for both the learning/encoding and testing/querying phases. Our work demonstrates that, with an efficient implementation of ternary logic on standard binary machines, the proposed ternary hashing is compared favorably to the binary hashing methods with consistent improvements of retrieval mean average precision (mAP) ranging from 1\% to 5.9\% as shown in CIFAR10, NUS-WIDE and ImageNet100 datasets.
翻訳日:2021-03-17 13:30:21 公開日:2021-03-16
# track to detection and segment: a online multi-object tracker

Track to Detect and Segment: An Online Multi-Object Tracker ( http://arxiv.org/abs/2103.08808v1 )

ライセンス: Link先を確認
Jialian Wu, Jiale Cao, Liangchen Song, Yu Wang, Ming Yang, Junsong Yuan(参考訳) ほとんどのオンラインマルチオブジェクトトラッカーは、トラッキングからの入力なしで、ニューラルネットでオブジェクト検出スタンドアロンを実行する。 本稿では,新しいオンライン共同検出・追跡モデルであるtrades(track to detection and segment)を提案する。 TraDeSは、現在のオブジェクトの検出とセグメンテーションを改善するために、以前のオブジェクト機能を伝播するために使用されるコストボリュームによってオブジェクト追跡オフセットを推論する。 TraDeSの有効性と優位性は、MOT(2Dトラッキング)、nuScenes(3Dトラッキング)、MOTS、Youtube-VIS(インスタンスセグメンテーショントラッキング)の4つのデータセットに示されている。 プロジェクトページ: https://jialianwu.co m/projects/TraDeS.ht ml

Most online multi-object trackers perform object detection stand-alone in a neural net without any input from tracking. In this paper, we present a new online joint detection and tracking model, TraDeS (TRAck to DEtect and Segment), exploiting tracking clues to assist detection end-to-end. TraDeS infers object tracking offset by a cost volume, which is used to propagate previous object features for improving current object detection and segmentation. Effectiveness and superiority of TraDeS are shown on 4 datasets, including MOT (2D tracking), nuScenes (3D tracking), MOTS and Youtube-VIS (instance segmentation tracking). Project page: https://jialianwu.co m/projects/TraDeS.ht ml.
翻訳日:2021-03-17 13:29:45 公開日:2021-03-16
# Adversarial YOLO: 対向パッチ検出による人的検出パッチ攻撃の防御

Adversarial YOLO: Defense Human Detection Patch Attacks via Detecting Adversarial Patches ( http://arxiv.org/abs/2103.08860v1 )

ライセンス: Link先を確認
Nan Ji, YanFei Feng, Haidong Xie, Xueshuang Xiang and Naijin Liu(参考訳) 対象検出システムのセキュリティは、特に対向するパッチ攻撃に対して、注目を集めている。 パッチ攻撃はオブジェクト上の制限領域のピクセルを変更するため、物理的世界では、特に人間の検出システムを攻撃するために、容易に実装できる。 パッチ攻撃に対する既存の防御は、主に画像分類問題に適用され、人間の検出攻撃に対する抵抗が困難である。 本稿では,この重要な問題に対して,Ad-YOLO と呼ばれる YOLO 検出システム上で,効率的かつ効果的なプラグイン防御コンポーネントを提案する。 主なアイデアは、無視できる推論インクリメントを持つyoloアーキテクチャにパッチクラスを追加することだ。 したがって、Ad-YOLOは興味のある対象と敵のパッチの両方を直接検出することが期待される。 我々の知る限り、我々のアプローチは人間の検出攻撃に対する最初の防衛戦略である。 YOLOv2ベースラインにおけるAd-YOLOの性能について検討する。 ad-yoloのバラエティパッチ検出能力を向上させるために,まず,inria-patchと命名するinriaデータセットに基づくパッチデータセットを開発するために,敵のトレーニングプロセスを使用する。 次に、Pascal VOC、Inria、Inria-Patchデータセットを組み合わせてAd-YOLOをトレーニングする。 ad-yolo は voc 2007 テストセットで 0.70\%$ のマップを少し下げて 80.31\%$ ap を達成し、ホワイトボックスのパッチ攻撃に対して yolov2 の 3.93\%$ ap を大きく上回っている。 さらに、YOLOv2と比較して、物理世界攻撃に直面する結果も、Ad-YOLOの優れた一般化能力を示すために含まれている。

The security of object detection systems has attracted increasing attention, especially when facing adversarial patch attacks. Since patch attacks change the pixels in a restricted area on objects, they are easy to implement in the physical world, especially for attacking human detection systems. The existing defenses against patch attacks are mostly applied for image classification problems and have difficulty resisting human detection attacks. Towards this critical issue, we propose an efficient and effective plug-in defense component on the YOLO detection system, which we name Ad-YOLO. The main idea is to add a patch class on the YOLO architecture, which has a negligible inference increment. Thus, Ad-YOLO is expected to directly detect both the objects of interest and adversarial patches. To the best of our knowledge, our approach is the first defense strategy against human detection attacks. We investigate Ad-YOLO's performance on the YOLOv2 baseline. To improve the ability of Ad-YOLO to detect variety patches, we first use an adversarial training process to develop a patch dataset based on the Inria dataset, which we name Inria-Patch. Then, we train Ad-YOLO by a combination of Pascal VOC, Inria, and Inria-Patch datasets. With a slight drop of $0.70\%$ mAP on VOC 2007 test set, Ad-YOLO achieves $80.31\%$ AP of persons, which highly outperforms $33.93\%$ AP for YOLOv2 when facing white-box patch attacks. Furthermore, compared with YOLOv2, the results facing a physical-world attack are also included to demonstrate Ad-YOLO's excellent generalization ability.
翻訳日:2021-03-17 13:29:31 公開日:2021-03-16
# 弱・半スーパービジョンセマンティックセマンティックセグメンテーションに対する逆操作属性

Anti-Adversarially Manipulated Attributions for Weakly and Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2103.08896v1 )

ライセンス: Link先を確認
Jungbeom Lee, Eunji Kim, Sungroh Yoon(参考訳) 弱い教師付きセマンティックセグメンテーションは、分類器からピクセルレベルのローカライゼーションを生成するが、ターゲットオブジェクトの小さな識別領域に焦点を絞る可能性が高い。 AdvCAMは、分類スコアを増やすために操作される画像の属性マップである。 この操作は、対向攻撃で使用されるものと反対方向の画素勾配に沿って画像を摂動させる対向的な方法で実現される。 当初は差別的ではないと見なされ、その後の分類に関与し、ターゲットオブジェクトのより多くの領域を連続的に識別する帰属マップを作成する。 さらに,対象対象と無関係な領域の不正な帰属を抑制し,すでに高いスコアを持つ領域の帰属を制限する新たな正規化手順を導入する。 PASCAL VOC 2012 テスト画像では,弱いセマンティックセグメンテーションと半教師ありセマンティックセグメンテーションのための mIoUs 68.0 と 76.9 をそれぞれ達成した。

Weakly supervised semantic segmentation produces a pixel-level localization from a classifier, but it is likely to restrict its focus to a small discriminative region of the target object. AdvCAM is an attribution map of an image that is manipulated to increase the classification score. This manipulation is realized in an anti-adversarial manner, which perturbs the images along pixel gradients in the opposite direction from those used in an adversarial attack. It forces regions initially considered not to be discriminative to become involved in subsequent classifications, and produces attribution maps that successively identify more regions of the target object. In addition, we introduce a new regularization procedure that inhibits the incorrect attribution of regions unrelated to the target object and limits the attributions of the regions that already have high scores. On PASCAL VOC 2012 test images, we achieve mIoUs of 68.0 and 76.9 for weakly and semi-supervised semantic segmentation respectively, which represent a new state-of-the-art.
翻訳日:2021-03-17 13:29:04 公開日:2021-03-16
# BBAM: 弱教師付きセマンティックおよびインスタンスセグメンテーションのためのボックス属性マップ

BBAM: Bounding Box Attribution Map for Weakly Supervised Semantic and Instance Segmentation ( http://arxiv.org/abs/2103.08907v1 )

ライセンス: Link先を確認
Jungbeom Lee, Jihun Yi, Chaehun Shin, Sungroh Yoon(参考訳) バウンディングボックスアノテーションを用いた弱い教師付きセグメンテーション手法は、オブジェクトを含む各ボックスからピクセルレベルのマスクを取得することに焦点を当てている。 既存のメソッドは通常、クラスに依存しないマスクジェネレータに依存し、イメージに固有の低レベル情報を操作する。 本研究では,対象検出器が生成する画像の最小領域を画像全体とほぼ同程度に求めることにより,訓練対象検出器の挙動から得られる高次情報を利用する。 これらの領域は、バウンディングボックス属性マップ(BBAM)を構成し、そのバウンディングボックス内の対象物を識別し、弱教師付きセマンティクスとインスタンスセグメンテーションのための擬似基底として機能する。 このアプローチは、PASCAL VOCとMS COCOベンチマークの両方において、弱い教師付きセマンティクスとインスタンスセグメンテーションにおいて、最近の同等の技術よりも大幅に優れている。 さらに,本手法の詳細な解析を行い,BBAMの挙動についてより深い知見を提供する。

Weakly supervised segmentation methods using bounding box annotations focus on obtaining a pixel-level mask from each box containing an object. Existing methods typically depend on a class-agnostic mask generator, which operates on the low-level information intrinsic to an image. In this work, we utilize higher-level information from the behavior of a trained object detector, by seeking the smallest areas of the image from which the object detector produces almost the same result as it does from the whole image. These areas constitute a bounding-box attribution map (BBAM), which identifies the target object in its bounding box and thus serves as pseudo ground-truth for weakly supervised semantic and instance segmentation. This approach significantly outperforms recent comparable techniques on both the PASCAL VOC and MS COCO benchmarks in weakly supervised semantic and instance segmentation. In addition, we provide a detailed analysis of our method, offering deeper insight into the behavior of the BBAM.
翻訳日:2021-03-17 13:28:45 公開日:2021-03-16
# 調和物体検出のための局所化と分類の変調

Modulating Localization and Classification for Harmonized Object Detection ( http://arxiv.org/abs/2103.08958v1 )

ライセンス: Link先を確認
Taiheng Zhang, Qiaoyong Zhong, Shiliang Pu, Di Xie(参考訳) オブジェクト検出には2つのサブタスクがある。 イメージ内のオブジェクトをローカライズし、それらをさまざまなカテゴリに分類する。 既存のCNNベースの検出器では、局所化と分類が広範囲に分散していることに気付き、性能が低下する。 本研究では,この2つのタスクを変調する相互学習フレームワークを提案する。 特に,2つのタスクは,新たな相互ラベル付け戦略によって互いに学習することを余儀なくされる。 さらに, 簡易かつ効果的なIoU再構成方式を導入し, 分岐の低減を図る。 さらに,検出性能と相関する発散度を定量化するために,スピアマン相関に基づく計量を定義する。 提案手法は汎用的であり,FCOSやRetinaNetなどの既存の検出器に容易に注入できる。 我々はCOCOデータセットのベースライン検出器よりも大きな性能向上を達成した。

Object detection involves two sub-tasks, i.e. localizing objects in an image and classifying them into various categories. For existing CNN-based detectors, we notice the widespread divergence between localization and classification, which leads to degradation in performance. In this work, we propose a mutual learning framework to modulate the two tasks. In particular, the two tasks are forced to learn from each other with a novel mutual labeling strategy. Besides, we introduce a simple yet effective IoU rescoring scheme, which further reduces the divergence. Moreover, we define a Spearman rank correlation-based metric to quantify the divergence, which correlates well with the detection performance. The proposed approach is general-purpose and can be easily injected into existing detectors such as FCOS and RetinaNet. We achieve a significant performance gain over the baseline detectors on the COCO dataset.
翻訳日:2021-03-17 13:28:27 公開日:2021-03-16
# サンプル効率設定における半教師付き学習

Hebbian Semi-Supervised Learning in a Sample Efficiency Setting ( http://arxiv.org/abs/2103.09002v1 )

ライセンス: Link先を確認
Gabriele Lagani, Fabrizio Falchi, Claudio Gennaro, Giuseppe Amato(参考訳) 我々は,Deep Convolutional Neural Networks (DCNN) において,Hebbianの学習と勾配勾配の学習を併用した半教師付きトレーニング戦略により,サンプル効率の問題に取り組むことを提案する: 内部層(畳み込みと完全連結の両方)は,Hebbianの学習に基づく教師なしアプローチを用いて事前訓練され,最後に完全に接続された層(分類層)はStochastic Gradient Descent (SGD) を用いている。 実際、Hebbian Learningは教師なしの学習方法であるため、その可能性は、ラベル付き例なしでDCNNの内部層をトレーニングする可能性にある。 最後の完全接続層のみがラベル付きサンプルでトレーニングされる必要がある。 サンプル効率の異なる各種オブジェクト認識データセットの実験を行い、半教師付き(内部層はHebbian、最終層はSGD)アプローチとエンドツーエンドの教師付きバックプロパゲーショントレーニングを比較した。 その結果, 使用可能なラベル付きサンプルの数が低い状況では, ほぼすべてのケースにおいて, 半監督的アプローチが完全なバックプロパゲーションを上回っていることがわかった。

We propose to address the issue of sample efficiency, in Deep Convolutional Neural Networks (DCNN), with a semisupervised training strategy that combines Hebbian learning with gradient descent: all internal layers (both convolutional and fully connected) are pre-trained using an unsupervised approach based on Hebbian learning, and the last fully connected layer (the classification layer) is using Stochastic Gradient Descent (SGD). In fact, as Hebbian learning is an unsupervised learning method, its potential lies in the possibility of training the internal layers of a DCNN without labeled examples. Only the final fully connected layer has to be trained with labeled examples. We performed experiments on various object recognition datasets, in different regimes of sample efficiency, comparing our semi-supervised (Hebbian for internal layers + SGD for the final fully layer) approach with end-to-end supervised backpropagation training. The results show that, in regimes where the number of available labeled samples is low, our semi-supervised approach outperforms full backpropagation in almost all the cases.
翻訳日:2021-03-17 13:28:15 公開日:2021-03-16
# PC-HMR:2次元画像/ビデオからの3次元メッシュ復元のためのポスキャリブレーション

PC-HMR: Pose Calibration for 3D Human Mesh Recovery from 2D Images/Videos ( http://arxiv.org/abs/2103.09009v1 )

ライセンス: Link先を確認
Tianyu Luan, Yali Wang, Junhao Zhang, Zhe Wang, Zhipeng Zhou, Yu Qiao(参考訳) エンド・ツー・エンドのHuman Mesh Recovery (HMR) アプローチは3次元体再構築に成功している。 しかし、ほとんどのhmrベースのフレームワークは、画像やビデオからメッシュパラメータを直接学習することで人体を再構築し、視覚データにおける3d人間のポーズの明確なガイダンスを欠いている。 その結果、生成されたメッシュはしばしば、複雑なアクティビティの誤ったポーズを示す。 この問題に対処するために,人間のメッシュのキャリブレーションに3Dポーズを活用することを提案する。 具体的には,新しいポーズキャリブレーションフレームワークであるserial pc-hmrとparallel pc-hmrを開発した。 高度な3Dポーズ推定器とHMRを連続的または並列的に結合することにより、これらの2つのフレームワークは、簡潔なポーズキャリブレーションモジュールのガイダンスにより、人間のメッシュを効果的に補正することができる。 さらに, キャリブレーションモジュールは非剛性ポーズ変換により設計されているため, PC-HMRフレームワークは骨長の変動に柔軟に対応することができ, キャリブレーションメッシュのずれを軽減できる。 最後に、我々のフレームワークは、データ駆動学習と幾何学的モデリングの汎用的で補完的な統合に基づいている。 プラグアンドプレイモジュールを使用すると、イメージ/ビデオベースのヒューマンメッシュリカバリに効率よく適応できる。 さらに、テストフェーズで追加の3dポーズアノテーションを必要とせず、実際に推論の困難を発生させる。 我々は一般的なベンチマーク(Human3.6M, 3DPW, SURREAL)について広範な実験を行い、PC-HMRフレームワークがSOTA結果を達成する。

The end-to-end Human Mesh Recovery (HMR) approach has been successfully used for 3D body reconstruction. However, most HMR-based frameworks reconstruct human body by directly learning mesh parameters from images or videos, while lacking explicit guidance of 3D human pose in visual data. As a result, the generated mesh often exhibits incorrect pose for complex activities. To tackle this problem, we propose to exploit 3D pose to calibrate human mesh. Specifically, we develop two novel Pose Calibration frameworks, i.e., Serial PC-HMR and Parallel PC-HMR. By coupling advanced 3D pose estimators and HMR in a serial or parallel manner, these two frameworks can effectively correct human mesh with guidance of a concise pose calibration module. Furthermore, since the calibration module is designed via non-rigid pose transformation, our PC-HMR frameworks can flexibly tackle bone length variations to alleviate misplacement in the calibrated mesh. Finally, our frameworks are based on generic and complementary integration of data-driven learning and geometrical modeling. Via plug-and-play modules, they can be efficiently adapted for both image/video-based human mesh recovery. Additionally, they have no requirement of extra 3D pose annotations in the testing phase, which releases inference difficulties in practice. We perform extensive experiments on the popular bench-marks, i.e., Human3.6M, 3DPW and SURREAL, where our PC-HMR frameworks achieve the SOTA results.
翻訳日:2021-03-17 13:27:55 公開日:2021-03-16
# 映像に基づく人物再識別のためのディエンスインタラクション学習

Dense Interaction Learning for Video-based Person Re-identification ( http://arxiv.org/abs/2103.09013v1 )

ライセンス: Link先を確認
Tianyu He, Xin Jin, Xu Shen, Jianqiang Huang, Zhibo Chen, Xian-Sheng Hua(参考訳) ビデオベースの人物再識別(re-ID)は、同じ人物をビデオクリップ間でマッチングすることを目的としている。 構造的相互作用を構築しながら、マルチスケールのきめ細かい特徴を効果的に活用することが、その成功の鍵となる。 本稿では,cnnベースと注意ベースの両方のアーキテクチャの利点を生かして,ビデオベースの人物再特定問題に取り組むためのハイブリッドフレームワークであるdenseilを提案する。 denseilはcnnエンコーダとトランスデコーダを含んでいる。 CNNエンコーダは、フレーム間の空間的・時間的相互作用を意図的にモデル化するように設計されたトランスフォーマーデコーダに対して、識別的空間的特徴を効率的に抽出する。 バニラトランスとは違って、トランスフォーマーデコーダは中間粒度CNN機能に密着させ、ビデオクリップ毎にマルチスケールの時空間特徴表現を自然に生成する。 さらに、時空間入力における位置関係を調べるために、Transformer DecoderにSTEP-Emb(Spatio-TEmp oral Positional Embedding)を導入する。 我々の実験は、複数の標準ビデオベースのre-IDデータセットにおける最先端の手法を一貫して大幅に上回っている。

Video-based person re-identification (re-ID) aims at matching the same person across video clips. Efficiently exploiting multi-scale fine-grained features while building the structural interaction among them is pivotal for its success. In this paper, we propose a hybrid framework, Dense Interaction Learning (DenseIL), that takes the principal advantages of both CNN-based and Attention-based architectures to tackle video-based person re-ID difficulties. DenseIL contains a CNN Encoder and a Transformer Decoder. The CNN Encoder is responsible for efficiently extracting discriminative spatial features while the Transformer Decoder is designed to deliberately model spatial-temporal inherent interaction across frames. Different from the vanilla Transformer, we additionally let the Transformer Decoder densely attends to intermediate fine-grained CNN features and that naturally yields multi-scale spatial-temporal feature representation for each video clip. Moreover, we introduce Spatio-TEmporal Positional Embedding (STEP-Emb) into the Transformer Decoder to investigate the positional relation among the spatial-temporal inputs. Our experiments consistently and significantly outperform all the state-of-the-art methods on multiple standard video-based re-ID datasets.
翻訳日:2021-03-17 13:27:31 公開日:2021-03-16
# querydet:高分解能小型オブジェクト検出を高速化するカスケードスパースクエリ

QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection ( http://arxiv.org/abs/2103.09136v1 )

ライセンス: Link先を確認
Chenhongyi Yang, Zehao Huang and Naiyan Wang(参考訳) ディープラーニングを用いた汎用物体検出は,ここ数年で大成功を収めてきたが,小型物体の検出性能と効率性は十分とは程遠い。 小型物体検出を促進する最も一般的かつ効果的な方法は、高解像度画像や特徴地図を使用することである。 しかし,画像や特徴のサイズが大きくなるにつれて計算コストが正方形に大きくなるため,どちらの手法もコストのかかる計算を誘導する。 2つの世界を最大限に活用するために,特徴ピラミドに基づくオブジェクト検出器の推論速度を高速化する新しいクエリ機構を用いたQueryDetを提案する。 まず、小さなオブジェクトの粗い位置を低解像度の機能で予測し、その後、粗い位置によってあまり誘導されない高分解能機能を使用して、正確な検出結果を計算する。 このようにして,高分解能特徴マップの利点を享受できるだけでなく,背景領域の無駄な計算を回避できる。 一般的なCOCOデータセットでは,検出mAPを1.0倍,mAPを2.0倍に改善し,高分解能推論速度を平均3.0倍に向上する。 より小さなオブジェクトを含むVisDroneデータセットでは、平均2.3倍の高分解能加速を達成しながら、新しい最先端技術を作成する。 https://github.com/c henhongyiyang/queryd et-pytorch

While general object detection with deep learning has achieved great success in the past few years, the performance and efficiency of detecting small objects are far from satisfactory. The most common and effective way to promote small object detection is to use high-resolution images or feature maps. However, both approaches induce costly computation since the computational cost grows squarely as the size of images and features increases. To get the best of two worlds, we propose QueryDet that uses a novel query mechanism to accelerate the inference speed of feature-pyramid based object detectors. The pipeline composes two steps: it first predicts the coarse locations of small objects on low-resolution features and then computes the accurate detection results using high-resolution features sparsely guided by those coarse positions. In this way, we can not only harvest the benefit of high-resolution feature maps but also avoid useless computation for the background area. On the popular COCO dataset, the proposed method improves the detection mAP by 1.0 and mAP-small by 2.0, and the high-resolution inference speed is improved to 3.0x on average. On VisDrone dataset, which contains more small objects, we create a new state-of-the-art while gaining a 2.3x high-resolution acceleration on average. Code is available at: https://github.com/C henhongyiYang/QueryD et-PyTorch
翻訳日:2021-03-17 13:27:10 公開日:2021-03-16
# 正方形平面マーカーを用いたマルチビューカメラポーズ推定と物体追跡

Simultaneous Multi-View Camera Pose Estimation and Object Tracking with Square Planar Markers ( http://arxiv.org/abs/2103.09141v1 )

ライセンス: Link先を確認
Hamid Sarmadi, Rafael Mu\~noz-Salinas, M.A. Berb\'is, R. Medina-Carnicer(参考訳) 物体追跡は、医学における拡張現実のような多くのアプリケーションにおいて重要な側面である。 手術器具の追跡)またはロボット工学。 四角い角からポーズを推定できるため、四角い平面マーカーは追跡のための一般的なツールになっている。 1つのマーカーと1台のカメラを使用すると作業領域がかなり制限されるが、オブジェクトにアタッチされた複数のマーカーを使用することで相対位置を推定する必要がある。 同様に、複数のカメラを使用するには、余分なパラメータを推定する必要がある。 本稿では,上記の問題を同時に解く新しい手法を提案する。 複数のカメラから記録された平面マーカーの剛体集合を示すビデオシーケンスから,提案手法は,マーカーの3次元構成,カメラの外部パラメータ,および各フレームにおけるマーカーとカメラの相対的なポーズを自動的に取得することができる。 本実験は,低解像度カメラを用いたパラメータ推定において,高精度な結果が得られることを示す。 パラメータが得られたら、計算コストを低くして、オブジェクトのトラッキングをリアルタイムで行うことができる。 提案手法は,オブジェクト追跡のためのコスト効率の高いソリューションの開発における一歩である。

Object tracking is a key aspect in many applications such as augmented reality in medicine (e.g. tracking a surgical instrument) or robotics. Squared planar markers have become popular tools for tracking since their pose can be estimated from their four corners. While using a single marker and a single camera limits the working area considerably, using multiple markers attached to an object requires estimating their relative position, which is not trivial, for high accuracy tracking. Likewise, using multiple cameras requires estimating their extrinsic parameters, also a tedious process that must be repeated whenever a camera is moved. This work proposes a novel method to simultaneously solve the above-mentioned problems. From a video sequence showing a rigid set of planar markers recorded from multiple cameras, the proposed method is able to automatically obtain the three-dimensional configuration of the markers, the extrinsic parameters of the cameras, and the relative pose between the markers and the cameras at each frame. Our experiments show that our approach can obtain highly accurate results for estimating these parameters using low resolution cameras. Once the parameters are obtained, tracking of the object can be done in real time with a low computational cost. The proposed method is a step forward in the development of cost-effective solutions for object tracking.
翻訳日:2021-03-17 13:26:46 公開日:2021-03-16
# 敵対的運転:エンドツーエンドの自動運転システムを攻撃する

Adversarial Driving: Attacking End-to-End Autonomous Driving Systems ( http://arxiv.org/abs/2103.09151v1 )

ライセンス: Link先を確認
Han Wu, Wenjie Ruan(参考訳) ディープニューラルネットワークの研究が進むにつれて、ディープ畳み込みネットワークは自動運転タスクで実現可能になる。 運転タスクの自動化にエンドツーエンドモデルを採用するという新たなトレンドが生まれている。 しかし、以前の研究では、ディープニューラルネットワークは分類タスクにおける敵の攻撃に弱いことが明らかにされている。 自動運転のような回帰タスクでは、これらの攻撃の影響は不確かである。 本研究では、エンドツーエンドの自動運転システムに対する2つのホワイトボックス攻撃を考案する。 駆動モデルは、画像を入力として、操舵角度を出力する。 我々の攻撃は、入力画像を変更するだけで自律運転システムの動作を操作できる。 両方の攻撃の実装は、CPU上でリアルタイムのパフォーマンスを達成することができる。 このデモは、安全クリティカルシステムにおけるエンドツーエンドモデルの適用に対する懸念を高めることを目的としている。

As the research in deep neural networks advances, deep convolutional networks become feasible for automated driving tasks. There is an emerging trend of employing end-to-end models in the automation of driving tasks. However, previous research unveils that deep neural networks are vulnerable to adversarial attacks in classification tasks. While for regression tasks such as autonomous driving, the effect of these attacks remains uncertain. In this research, we devise two white-box targeted attacks against end-to-end autonomous driving systems. The driving model takes an image as input and outputs the steering angle. Our attacks can manipulate the behaviour of the autonomous driving system only by changing the input image. The implementation of both attacks can achieve real-time performance on CPUs. This demo aims to raise concerns over applications of end-to-end models in safety-critical systems.
翻訳日:2021-03-17 13:26:27 公開日:2021-03-16
# 概念テキスト領域ネットワーク:認知にインスパイアされた正確なシーンテキスト検出

Conceptual Text Region Network: Cognition-Inspired Accurate Scene Text Detection ( http://arxiv.org/abs/2103.09179v1 )

ライセンス: Link先を確認
Chenwei Cui, Liangfu Lu, Zhiyuan Tan, Amir Hussain(参考訳) セグメンテーションに基づく手法は、任意の形のテキストインスタンスを記述する際の優位性から、シーンテキストの検出に広く用いられている。 しかしながら,1) 現在のラベル生成技術は経験的であり, 理論的なサポートが欠如しているため, 詳細なラベル設計が避けられ, その結果, ほとんどの手法は不安定で意図的なチューニングを必要とするテキストカーネルセグメンテーションに大きく依存している。 これらの課題に対処するために,我々は,概念的テキスト領域ネットワーク(ctrnet)という,人間の認知に触発されたフレームワークを提案する。 このフレームワークは、優れた数学的特性を継承する認知ベースのツールのクラスである概念テキスト領域(ctrs)を使用し、洗練されたラベル設計を可能にする。 CTRNetのもうひとつのコンポーネントは、CTRの助けを借りて、テキストカーネルセグメンテーションの必要性を完全に省略する推論パイプラインである。 従来のセグメンテーション法と比較して,本手法は解釈可能なだけでなく,精度も高い。 CTRNetはベンチマークCTW1500, Total-Text, MSRA-TD500, ICDAR 2015データセットで最先端のパフォーマンスを実現し, 最大2.0%の性能向上を実現している。 我々の知る限りでは、CTRNetは4つのベンチマークで85.0%以上のF測定を達成した最初の検出モデルの一つであり、顕著な一貫性と安定性を備えている。

Segmentation-based methods are widely used for scene text detection due to their superiority in describing arbitrary-shaped text instances. However, two major problems still exist: 1) current label generation techniques are mostly empirical and lack theoretical support, discouraging elaborate label design; 2) as a result, most methods rely heavily on text kernel segmentation which is unstable and requires deliberate tuning. To address these challenges, we propose a human cognition-inspired framework, termed, Conceptual Text Region Network (CTRNet). The framework utilizes Conceptual Text Regions (CTRs), which is a class of cognition-based tools inheriting good mathematical properties, allowing for sophisticated label design. Another component of CTRNet is an inference pipeline that, with the help of CTRs, completely omits the need for text kernel segmentation. Compared with previous segmentation-based methods, our approach is not only more interpretable but also more accurate. Experimental results show that CTRNet achieves state-of-the-art performance on benchmark CTW1500, Total-Text, MSRA-TD500, and ICDAR 2015 datasets, yielding performance gains of up to 2.0%. Notably, to the best of our knowledge, CTRNet is among the first detection models to achieve F-measures higher than 85.0% on all four of the benchmarks, with remarkable consistency and stability.
翻訳日:2021-03-17 13:26:17 公開日:2021-03-16
# back to the feature: ピクセルからポーズまでロバストなカメラのローカライズを学ぶ

Back to the Feature: Learning Robust Camera Localization from Pixels to Pose ( http://arxiv.org/abs/2103.09213v1 )

ライセンス: Link先を確認
Paul-Edouard Sarlin, Ajaykumar Unagar, M{\aa}ns Larsson, Hugo Germain, Carl Toft, Viktor Larsson, Marc Pollefeys, Vincent Lepetit, Lars Hammarstrand, Fredrik Kahl, Torsten Sattler(参考訳) 既知のシーンでのカメラポーズ推定は、最近複数の学習アルゴリズムが取り組んだ3dジオメトリタスクである。 入力画像からのポーズや3dポイントなど、多くのレグレッシブな幾何学的量。 これは、新しい視点への一般化に失敗するか、モデルパラメータを特定のシーンに結び付ける。 より深いネットワークは、頑健で不変な視覚的特徴を学習することに集中すべきであり、幾何学的推定は原理化されたアルゴリズムに委ねるべきである。 画像と3Dモデルから正確な6-DoFポーズを推定するシーン非依存ニューラルネットワークPixLocを導入する。 このアプローチは,マルチスケールの深層機能の直接アライメントに基づいて,距離学習としてカメラのローカライズを行う。 PixLocは、ピクセルからエンドツーエンドのトレーニングによって強力なデータを学習し、モデルパラメータとシーン幾何学を分離することで、新しいシーンに例外的な一般化を示す。 このシステムは、粗いポーズの先行を与えられた大きな環境においてローカライズすることができるが、キーポイントを共同で精製し、オーバーヘッドを少なくすることでスパース特徴マッチングの精度を向上させることができる。 コードはhttps://github.com/c vg/pixloc.comで公開されている。

Camera pose estimation in known scenes is a 3D geometry task recently tackled by multiple learning algorithms. Many regress precise geometric quantities, like poses or 3D points, from an input image. This either fails to generalize to new viewpoints or ties the model parameters to a specific scene. In this paper, we go Back to the Feature: we argue that deep networks should focus on learning robust and invariant visual features, while the geometric estimation should be left to principled algorithms. We introduce PixLoc, a scene-agnostic neural network that estimates an accurate 6-DoF pose from an image and a 3D model. Our approach is based on the direct alignment of multiscale deep features, casting camera localization as metric learning. PixLoc learns strong data priors by end-to-end training from pixels to pose and exhibits exceptional generalization to new scenes by separating model parameters and scene geometry. The system can localize in large environments given coarse pose priors but also improve the accuracy of sparse feature matching by jointly refining keypoints and poses with little overhead. The code will be publicly available at https://github.com/c vg/pixloc.
翻訳日:2021-03-17 13:25:53 公開日:2021-03-16
# GraphSMOTE: グラフニューラルネットワークを用いたグラフ上の不均衡ノード分類

GraphSMOTE: Imbalanced Node Classification on Graphs with Graph Neural Networks ( http://arxiv.org/abs/2103.08826v1 )

ライセンス: Link先を確認
Tianxiang Zhao, Xiang Zhang, Suhang Wang(参考訳) ノード分類はグラフ学習において重要な研究トピックである。 グラフニューラルネットワーク(GNN)はノード分類の最先端性能を達成した。 しかし、既存のGNNは、異なるクラスのノードサンプルが平衡している問題に対処する。 この場合、GNN分類器を直接訓練すると、これらの少数クラスのサンプルが不足し、結果として準最適性能が得られる。 したがって、不均衡ノード分類のためのGNNの開発は非常に重要である。 しかし、これに関する作業は限られている。 そこで我々は,従来の非バランスな学習手法を,GNN分類を容易にするために不バランスなノード分類タスクに拡張する。 特に、最も効果的で安定であることが判明したため、合成的マイノリティオーバーサンプリングアルゴリズムを採用することを選んだ。 このタスクは非自明であり、以前の合成マイノリティの過剰サンプリングアルゴリズムは、グラフの学習に不可欠である新しく合成されたサンプルの関連情報を提供しない。 さらに、ノード属性は高次元である。 元の入力領域のオーバーサンプリングはドメイン外のサンプルを生成し、分類器の精度を損なう可能性がある。 本稿では,ノード間の類似性をエンコードするために埋め込み空間を構築する新しいフレームワークであるgraphsmoteを提案する。 この空間で新しいサンプルが合成され、真正性が保証される。 さらに、エッジジェネレータを同時にトレーニングして関係情報をモデル化し、それらの新しいサンプルに提供する。 このフレームワークは汎用的で、容易に異なるバリエーションに拡張できる。 提案するフレームワークは3つの異なるデータセットを用いて評価され、すべてのベースラインを大きなマージンで上回る。

Node classification is an important research topic in graph learning. Graph neural networks (GNNs) have achieved state-of-the-art performance of node classification. However, existing GNNs address the problem where node samples for different classes are balanced; while for many real-world scenarios, some classes may have much fewer instances than others. Directly training a GNN classifier in this case would under-represent samples from those minority classes and result in sub-optimal performance. Therefore, it is very important to develop GNNs for imbalanced node classification. However, the work on this is rather limited. Hence, we seek to extend previous imbalanced learning techniques for i.i.d data to the imbalanced node classification task to facilitate GNN classifiers. In particular, we choose to adopt synthetic minority over-sampling algorithms, as they are found to be the most effective and stable. This task is non-trivial, as previous synthetic minority over-sampling algorithms fail to provide relation information for newly synthesized samples, which is vital for learning on graphs. Moreover, node attributes are high-dimensional. Directly over-sampling in the original input domain could generates out-of-domain samples, which may impair the accuracy of the classifier. We propose a novel framework, GraphSMOTE, in which an embedding space is constructed to encode the similarity among the nodes. New samples are synthesize in this space to assure genuineness. In addition, an edge generator is trained simultaneously to model the relation information, and provide it for those new samples. This framework is general and can be easily extended into different variations. The proposed framework is evaluated using three different datasets, and it outperforms all baselines with a large margin.
翻訳日:2021-03-17 13:25:03 公開日:2021-03-16
# 半教師付きグラフ-グラフ変換

Semi-Supervised Graph-to-Graph Translation ( http://arxiv.org/abs/2103.08827v1 )

ライセンス: Link先を確認
Tianxiang Zhao, Xianfeng Tang, Xiang Zhang, Suhang Wang(参考訳) グラフ翻訳は、非常に有望な研究方向であり、多種多様な実世界応用がある。 グラフは関係と相互作用を表現する自然な構造であり、その翻訳は異なるシナリオにおける関係の本質的な意味の変化をエンコードすることができる。 しかし、その大きな可能性にもかかわらず、今のところグラフ翻訳の利用は限られている。 重要な理由のひとつは、高品質なペアデータセットがないことだ。 例えば、人々の共有音楽の好みを表すグラフや、共同購入行動を表すグラフを簡単に構築できますが、うまくペアリングされたデータセットを得るにはずっとコストがかかります。 そこで本研究では,半教師付きシナリオにおけるグラフ翻訳モデルを提案する。 グラフ変換は、リンクトポロジーとノード属性の形式で意味を変化させるが、組み合わせの性質と相互依存性のため、キャプチャが難しいため、このタスクは自明ではない。 さらに,グラフの構成の自由度が高いため,訓練されたモデルの一般化能力を保証することは困難である。 これらの困難は、未汚染のサンプルを搾取するためのより厳しい要件を課している。 そこで我々は,意味遷移をモデル化するために,変換を明示的に行う双対表現空間を構築することを提案する。 特別なエンコーダ/デコーダ構造が設計され、補助的な相互情報損失も非ペア/ペアの例のアライメントを強制するために採用される。 提案手法を3つの異なるデータセットで評価する。

Graph translation is very promising research direction and has a wide range of potential real-world applications. Graph is a natural structure for representing relationship and interactions, and its translation can encode the intrinsic semantic changes of relationships in different scenarios. However, despite its seemingly wide possibilities, usage of graph translation so far is still quite limited. One important reason is the lack of high-quality paired dataset. For example, we can easily build graphs representing peoples' shared music tastes and those representing co-purchase behavior, but a well paired dataset is much more expensive to obtain. Therefore, in this work, we seek to provide a graph translation model in the semi-supervised scenario. This task is non-trivial, because graph translation involves changing the semantics in the form of link topology and node attributes, which is difficult to capture due to the combinatory nature and inter-dependencies. Furthermore, due to the high order of freedom in graph's composition, it is difficult to assure the generalization ability of trained models. These difficulties impose a tighter requirement for the exploitation of unpaired samples. Addressing them, we propose to construct a dual representation space, where transformation is performed explicitly to model the semantic transitions. Special encoder/decoder structures are designed, and auxiliary mutual information loss is also adopted to enforce the alignment of unpaired/paired examples. We evaluate the proposed method in three different datasets.
翻訳日:2021-03-17 13:24:39 公開日:2021-03-16
# 最大期待損失最小化による拡張サンプルの重み付け

Reweighting Augmented Samples by Minimizing the Maximal Expected Loss ( http://arxiv.org/abs/2103.08933v1 )

ライセンス: Link先を確認
Mingyang Yi, Lu Hou, Lifeng Shang, Xin Jiang, Qun Liu, Zhi-Ming Ma(参考訳) データ拡張は、ディープニューラルネットワークの一般化を改善する効果的なテクニックである。 しかし、従来のデータ拡張手法では、モデルに対する個々の影響を考慮せずに、通常、拡張サンプルを等しく扱う。 これを解決するために、同じトレーニング例からの強化サンプルに対して、異なる重みを割り当てることを提案する。 我々は,拡張標本の任意の重み付け損失に対する上限となる最大期待損失を構成する。 この最大損失(MMEL)を最小限に抑え、より単純で解釈可能な閉形式解を得る: 大きな損失値を持つ増分サンプル(例えば、より難しい例)により多くの注意を払うべきである。 この最大損失を最小限にすることで、モデルは任意の再重み付け戦略の下でうまく機能する。 提案手法は, 一般に任意のデータ拡張法上に適用可能である。 トークンレベルのデータ拡張による自然言語理解タスクと、ランダムな作物や水平フリップといった一般的な画像拡張技術を用いた画像分類タスクの両方で実験を行った。 実験の結果,提案手法はモデルの一般化性能を向上させることがわかった。

Data augmentation is an effective technique to improve the generalization of deep neural networks. However, previous data augmentation methods usually treat the augmented samples equally without considering their individual impacts on the model. To address this, for the augmented samples from the same training example, we propose to assign different weights to them. We construct the maximal expected loss which is the supremum over any reweighted loss on augmented samples. Inspired by adversarial training, we minimize this maximal expected loss (MMEL) and obtain a simple and interpretable closed-form solution: more attention should be paid to augmented samples with large loss values (i.e., harder examples). Minimizing this maximal expected loss enables the model to perform well under any reweighting strategy. The proposed method can generally be applied on top of any data augmentation methods. Experiments are conducted on both natural language understanding tasks with token-level data augmentation, and image classification tasks with commonly-used image augmentation techniques like random crop and horizontal flip. Empirical results show that the proposed method improves the generalization performance of the model.
翻訳日:2021-03-17 13:24:17 公開日:2021-03-16
# TLSAN:次世代勧告のための長期的・短期的注意ネットワーク

TLSAN: Time-aware Long- and Short-term Attention Network for Next-item Recommendation ( http://arxiv.org/abs/2103.08971v1 )

ライセンス: Link先を確認
Jianqing Zhang (1), Dongjing Wang (1), Dongjin Yu (1) ((1) School of Computer Science and Technology, Hangzhou Dianzi University, China)(参考訳) 近年、ディープニューラルネットワークは、ユーザの好みを捕捉・モデル化する効果のために、リコメンデータシステムに広く応用されている。 特に、ディープラーニングにおける注意機構により、様々な特徴を適応的に組み込むことができる。 具体的には,次の項目推薦タスクについて,1) ユーザの時系列行動記録を時間的位置で集計する(時間的集約),2) ユーザが「時間的集約」現象(個人的時間的集約)に関連するパーソナライズされた嗜好を持つ,3) ユーザの短期的関心が次の項目予測/勧告において重要な役割を果たす,という3つの観察結果を得た。 本稿では,上記の観察に対処すべく,tlsan(time-aware long-term-term attention network)を提案する。 具体的には、TLSANは2つの主要コンポーネントから構成される。 まず、TLSANは「個人化された時間集約」をモデル化し、訓練可能な個人化された時間位置の埋め込みを通じて、長期的行動におけるカテゴリー対応の相関を学習する。 第2に,ユーザの長期的および短期的嗜好を効果的に捉えて正確な推薦を行うために,長期的および短期的特徴的注意層を提案する。 特に注意機構により、TLSANはユーザの好みを適応的に利用することができ、その長期的・短期的な利用により、疎結合データを扱う能力が向上する。 さまざまな分野(サイズも異なる)のAmazonデータセット上で大規模な実験が行われ、その結果、TLSANはユーザの好みのキャプチャと、時間に敏感な次の項目推奨の両方において、最先端のベースラインを上回っていることが示された。

Recently, deep neural networks are widely applied in recommender systems for their effectiveness in capturing/modeling users' preferences. Especially, the attention mechanism in deep learning enables recommender systems to incorporate various features in an adaptive way. Specifically, as for the next item recommendation task, we have the following three observations: 1) users' sequential behavior records aggregate at time positions ("time-aggregation&quo t;), 2) users have personalized taste that is related to the "time-aggregation&quo t; phenomenon ("personalized time-aggregation&quo t;), and 3) users' short-term interests play an important role in the next item prediction/recommend ation. In this paper, we propose a new Time-aware Long- and Short-term Attention Network (TLSAN) to address those observations mentioned above. Specifically, TLSAN consists of two main components. Firstly, TLSAN models "personalized time-aggregation&quo t; and learn user-specific temporal taste via trainable personalized time position embeddings with category-aware correlations in long-term behaviors. Secondly, long- and short-term feature-wise attention layers are proposed to effectively capture users' long- and short-term preferences for accurate recommendation. Especially, the attention mechanism enables TLSAN to utilize users' preferences in an adaptive way, and its usage in long- and short-term layers enhances TLSAN's ability of dealing with sparse interaction data. Extensive experiments are conducted on Amazon datasets from different fields (also with different size), and the results show that TLSAN outperforms state-of-the-art baselines in both capturing users' preferences and performing time-sensitive next-item recommendation.
翻訳日:2021-03-17 13:23:46 公開日:2021-03-16
# 複数環境地図の全体構造を用いた部分的観測による地図完成

Map completion from partial observation using the global structure of multiple environmental maps ( http://arxiv.org/abs/2103.09071v1 )

ライセンス: Link先を確認
Yuki Katsumata, Akinori Kanechika, Akira Taniguchi, Lotfi El Hafi, Yoshinobu Hagiwara, Tadahiro Taniguchi(参考訳) 様々な屋内環境の空間構造を事前知識として利用することで、ロボットはより効率的に地図を構築することができる。 自律移動ロボットは通常、新しく訪れた環境における到達可能な領域を理解するためにSLAM法を併用する。 しかし,従来のマッピング手法はセンサ観測と制御信号のみを考慮し,現在の環境マップを推定することで制限される。 本稿では,深層ニューラルネットワークを応用した確率的生成モデルに基づく新しいSLAM法であるマップ補完ネットワークを用いたSLAM(MCN-SLAM)を提案する。 これらのマップ補完ネットワークは主に、既存の地図データの大域的構造を抽出するGAN(Generative Adversarial Network)の枠組みで訓練されている。 本研究では,提案手法が従来のSLAM法よりも1.3倍の環境マップを推定できることを示す。

Using the spatial structure of various indoor environments as prior knowledge, the robot would construct the map more efficiently. Autonomous mobile robots generally apply simultaneous localization and mapping (SLAM) methods to understand the reachable area in newly visited environments. However, conventional mapping approaches are limited by only considering sensor observation and control signals to estimate the current environment map. This paper proposes a novel SLAM method, map completion network-based SLAM (MCN-SLAM), based on a probabilistic generative model incorporating deep neural networks for map completion. These map completion networks are primarily trained in the framework of generative adversarial networks (GANs) to extract the global structure of large amounts of existing map data. We show in experiments that the proposed method can estimate the environment map 1.3 times better than the previous SLAM methods in the situation of partial observation.
翻訳日:2021-03-17 13:23:10 公開日:2021-03-16
# 新型コロナウイルス感染予防のためのコンピュータビジョンシステム

A Computer Vision System to Help Prevent the Transmission of COVID-19 ( http://arxiv.org/abs/2103.08773v1 )

ライセンス: Link先を確認
Fevziye Irem Eyiokur, Haz{\i}m Kemal Ekenel, Alexander Waibel(参考訳) 新型コロナウイルスのパンデミックは世界中の日常生活に影響を及ぼす。 新型コロナウイルスの感染拡大を回避し、世界中の日常生活の正常を回復するため、保健機関は社交距離、マスク着用、接触面の回避を推奨している。 これらの保護策に基づき,新型ウイルスの感染防止を目的とした深層学習型コンピュータビジョンシステムを開発した。 具体的には,顔のマスク検出,対面インタラクション検出,社会的距離測定を行う。 これらの目的のために,実世界における顔マスクの使用状況と対面インタラクションを表す画像を収集し,注釈を付けた。 2つの異なる顔データセット,unconstrained face mask dataset (ufmd) とunconstrained face hand dataset (ufhd) を示した。 提案したモデルを独自のデータセットでトレーニングし、ターゲットデータセットに適応することなく、私たちのデータセットと既存のデータセットの両方で評価しました。 また,人間間の社会的距離を追跡するための距離測定モジュールを提案した。 実験の結果,UFMDとUFHDは現実世界の多様性をよく表していることがわかった。 提案システムは, 実世界のシナリオにおいて, 顔マスクの使用状況や対面インタラクションを検出するために, トレーニングデータの外部からデータを見ることができず, 社会的距離を追跡する場合の良好な性能を実現するために, 非常に高い性能と一般化能力を実現した。 UFMDとUFHDのデータセットはhttps://github.com/i remeyiokur/COVID-19- Preventions-Control- Systemで公開される。

The COVID-19 pandemic affects every area of daily life globally. To avoid the spread of coronavirus and retrieve the daily normal worldwide, health organizations advise social distancing, wearing face mask, and avoiding touching face. Based on these recommended protective measures, we developed a deep learning-based computer vision system to help prevent the transmission of COVID-19. Specifically, the developed system performs face mask detection, face-hand interaction detection, and measures social distance. For these purposes, we collected and annotated images that represent face mask usage and face-hand interaction in the real world. We presented two different face datasets, namely Unconstrained Face Mask Dataset (UFMD) and Unconstrained Face Hand Dataset (UFHD). We trained the proposed models on our own datasets and evaluated them on both our datasets and already existing datasets in the literature without performing any adaptation on these target datasets. Besides, we proposed a distance measurement module to track social distance between people. Experimental results indicate that UFMD and UFHD represent the real-world's diversity well. The proposed system achieved very high performance and generalization capacity in a real-world scenario for unseen data from outside the training data to detect face mask usage and face-hand interaction, and satisfactory performance in the case of tracking social distance. Presented UFMD and UFHD datasets will be available at https://github.com/i remeyiokur/COVID-19- Preventions-Control- System.
翻訳日:2021-03-17 13:22:45 公開日:2021-03-16
# エレベーターボタンのセグメンテーションと文字認識をベンチマークするための大規模データセット

A Large-Scale Dataset for Benchmarking Elevator Button Segmentation and Character Recognition ( http://arxiv.org/abs/2103.09030v1 )

ライセンス: Link先を確認
Jianbang Liu, Yuqi Fang, Delong Zhu, Nachuan Ma, Jin Pan, Max Q.-H. Meng(参考訳) 最近、人間の活動はCOVID-19によって非常に制限されています。 フロア間ナビゲーションを行うロボットは、人間の作業員に代えてサービス作業を行うことができるため、多くの一般の注目を集めている。 しかし、現在のロボットは人力支援かエレベーターの修理に依存しており、完全に自律的な床間ナビゲーションはまだ利用できない。 床間ナビゲーションの第1ステップとして、エレベーターボタンのセグメンテーションと認識が重要な位置を占める。 そこで本研究では,35,100個のボタンラベルを有する3,718枚のパネル画像を含む大規模公開エレベータパネルデータセットをリリースし,自律エレベータ操作におけるより強力なアルゴリズムを実現する。 データセットとともに、ボタンのセグメンテーションと認識のためのディープラーニングベースの実装もリリースされ、コミュニティの将来のメソッドをベンチマークする。 データセットは \url{https://github.com/z hudelong/elevator_bu tton_recognition で利用可能になる。

Human activities are hugely restricted by COVID-19, recently. Robots that can conduct inter-floor navigation attract much public attention, since they can substitute human workers to conduct the service work. However, current robots either depend on human assistance or elevator retrofitting, and fully autonomous inter-floor navigation is still not available. As the very first step of inter-floor navigation, elevator button segmentation and recognition hold an important position. Therefore, we release the first large-scale publicly available elevator panel dataset in this work, containing 3,718 panel images with 35,100 button labels, to facilitate more powerful algorithms on autonomous elevator operation. Together with the dataset, a number of deep learning based implementations for button segmentation and recognition are also released to benchmark future methods in the community. The dataset will be available at \url{https://github.com/z hudelong/elevator_bu tton_recognition
翻訳日:2021-03-17 13:22:19 公開日:2021-03-16
# 医用画像分割のための正規化型可逆残像ネットワーク

Invertible Residual Network with Regularization for Effective Medical Image Segmentation ( http://arxiv.org/abs/2103.09042v1 )

ライセンス: Link先を確認
Kashu Yamazaki, Vidhiwar Singh Rathour, T.Hoang Ngan Le(参考訳) 深層畳み込みニューラルネットワーク(Deep Convolutional Neural Networks, CNN) Residual Networks (ResNets) は多くのコンピュータビジョンタスクでうまく使われているが、3次元の医療データにスケールすることは困難である。 3d畳み込みニューラルネットワーク(cnns)のトレーニングでは、メモリがボトルネックになることが多い。 近年、インバーチブルニューラルネットワークは、バックプロパゲーションを行うために、中間的アクティベーションをメモリに格納することなく出力から入力を取り出すことができる可逆関数のおかげで、バックプロパゲーションでニューラルネットワークをトレーニングする際のアクティベーションメモリフットプリントを大幅に削減するために応用されている。 多くの成功したネットワークアーキテクチャの中で、3d unetは体積医学のセグメンテーションの標準アーキテクチャとして確立されている。 そこで我々は,非可逆ネットワークのベースラインとして3D Unetを選択し,それを可逆残差ネットワークで拡張する。 本稿では, 部分可逆残差ネットワーク (部分可逆残差ネットワーク) と完全可逆残差ネットワーク (完全可逆残差ネットワーク) の2つのバージョンを提案する。 部分インヴルでは、インバータブル残差層は加法結合と呼ばれる技法で定義され、フルインヴルルでは、逆アップサンプリングとダウンサンプリングの操作の両方がスクイージング(ピクセルシャッフルとして知られる)に基づいて学習される。 さらに、トレーニングデータが少ないため、過剰フィッティング問題を回避するために、変動オートエンコーダ(vae)ブランチを追加して入力ボリュームデータ自体を再構築する。 この結果から,部分可逆ネットワークをボリュームセグメンテーションの中心として用いることにより,メモリオーバヘッドを削減できるだけでなく,非可逆的3d unetと同等なセグメンテーション性能を実現することができた。 iSeg 2019やBraTS 2020など,さまざまなボリュームデータセット上で提案するネットワークを実証した。

Deep Convolutional Neural Networks (CNNs) i.e. Residual Networks (ResNets) have been used successfully for many computer vision tasks, but are difficult to scale to 3D volumetric medical data. Memory is increasingly often the bottleneck when training 3D Convolutional Neural Networks (CNNs). Recently, invertible neural networks have been applied to significantly reduce activation memory footprint when training neural networks with backpropagation thanks to the invertible functions that allow retrieving its input from its output without storing intermediate activations in memory to perform the backpropagation. Among many successful network architectures, 3D Unet has been established as a standard architecture for volumetric medical segmentation. Thus, we choose 3D Unet as a baseline for a non-invertible network and we then extend it with the invertible residual network. In this paper, we proposed two versions of the invertible Residual Network, namely Partially Invertible Residual Network (Partially-InvRes) and Fully Invertible Residual Network (Fully-InvRes). In Partially-InvRes, the invertible residual layer is defined by a technique called additive coupling whereas in Fully-InvRes, both invertible upsampling and downsampling operations are learned based on squeezing (known as pixel shuffle). Furthermore, to avoid the overfitting problem because of less training data, a variational auto-encoder (VAE) branch is added to reconstruct the input volumetric data itself. Our results indicate that by using partially/fully invertible networks as the central workhorse in volumetric segmentation, we not only reduce memory overhead but also achieve compatible segmentation performance compared against the non-invertible 3D Unet. We have demonstrated the proposed networks on various volumetric datasets such as iSeg 2019 and BraTS 2020.
翻訳日:2021-03-17 13:22:06 公開日:2021-03-16
# タイムウインドウを用いたマルチロボットルーティング:列生成アプローチ

Multi-Robot Routing with Time Windows: A Column Generation Approach ( http://arxiv.org/abs/2103.08835v1 )

ライセンス: Link先を確認
Naveed Haghani, Jiaoyang Li, Sven Koenig, Gautam Kunapuli, Claudio Contardo, Amelia Regan, Julian Yarkony(参考訳) 倉庫でタスクを実行するロボットは、輸送と物流に自動運転車を広く採用する最初の例である。 これらの作業の効率は、実際に広く変化する可能性があるが、サプライチェーンの成功の重要な要因である。 本研究では,倉庫内でピッキング作業を行うロボット群を協調させ,問題やロボット特有の制約を尊重しながら,時間内に達成した純利益を最大化する問題を考える。 本稿では, 倉庫床の要素が所定の時間窓で拾い上げ, 届けられる商品である重み付け組立問題として, 問題を定式化する。 我々は、ロボットが衝突してはならないという制約を課し、各アイテムが少なくとも1つのロボットによって拾われて配送されるようにし、いつでも活動するロボットの数は利用可能な総数を超えないようにする。 経路の集合は入力の大きさが指数関数的であるので、列生成による整数線形プログラムの最適化を攻撃し、そこでは、基本資源制約された最短経路問題の解決に費用がかかる。 我々は,時間内インクリメントの考慮を回避する効率的な最適化手法を提案する。 また,価格帯を効率的に解くことができるヒューリスティック価格アルゴリズムを提案する。 これはそれ自体が重要な問題であるが、これらの問題を解決することで得られた洞察は、他の時間制限された車両ルーティング問題に新たな進歩をもたらす可能性がある。

Robots performing tasks in warehouses provide the first example of wide-spread adoption of autonomous vehicles in transportation and logistics. The efficiency of these operations, which can vary widely in practice, are a key factor in the success of supply chains. In this work we consider the problem of coordinating a fleet of robots performing picking operations in a warehouse so as to maximize the net profit achieved within a time period while respecting problem- and robot-specific constraints. We formulate the problem as a weighted set packing problem where the elements in consideration are items on the warehouse floor that can be picked up and delivered within specified time windows. We enforce the constraint that robots must not collide, that each item is picked up and delivered by at most one robot, and that the number of robots active at any time does not exceed the total number available. Since the set of routes is exponential in the size of the input, we attack optimization of the resulting integer linear program using column generation, where pricing amounts to solving an elementary resource-constrained shortest-path problem. We propose an efficient optimization scheme that avoids consideration of every increment within the time windows. We also propose a heuristic pricing algorithm that can efficiently solve the pricing subproblem. While this itself is an important problem, the insights gained from solving these problems effectively can lead to new advances in other time-widow constrained vehicle routing problems.
翻訳日:2021-03-17 13:21:08 公開日:2021-03-16
# ソーシャルレコメンデーションのためのデュアルサイドディープコンテキスト制御

Dual Side Deep Context-aware Modulation for Social Recommendation ( http://arxiv.org/abs/2103.08976v1 )

ライセンス: Link先を確認
Bairan Fu and Wenming Zhang and Guangneng Hu and Xinyu Dai and Shujian Huang and Jiajun Chen(参考訳) ソーシャルレコメンデーションは、オンラインソーシャルネットワーキングプラットフォームからソーシャル関係を活用することで、レコメンデーションのパフォーマンスを向上させるのに有効である。 ユーザ間の社会的関係は、候補アイテムに対するユーザの関心をモデル化するための友人の情報を提供し、潜在的な消費者(アイテムアトラクション)に露出するアイテムを支援する。 第一に、既存のメソッドは通常、候補アイテムにのみコンテキスト化された友人の情報を収集し、この浅いコンテキスト認識集約は、限られた友人の情報に悩まされる。 第2に、アイテムアトラクションにおいて、過去の消費者がターゲットユーザと類似した消費習慣を持っている場合、ターゲットユーザにとってより魅力的なものとなるが、既存の手法のほとんどは、関連性を高めたコンテキスト対応アイテムアトラクションを無視している。 そこで我々はdicer (dual side deep context-aware modulation for socialrecommendation ) を提案する。 具体的には、まず、社会的関係と協調関係をモデル化する新しいグラフニューラルネットワークを提案し、高次関係の上に、友人の情報とアイテムのアトラクションを捉えるために、双方向のコンテキスト認識変調を導入する。 2つの実世界のデータセットにおける実験結果は,提案モデルの有効性を示し,双対文脈認識変調の動作を理解するためのさらなる実験を行った。

Social recommendation is effective in improving the recommendation performance by leveraging social relations from online social networking platforms. Social relations among users provide friends' information for modeling users' interest in candidate items and help items expose to potential consumers (i.e., item attraction). However, there are two issues haven't been well-studied: Firstly, for the user interests, existing methods typically aggregate friends' information contextualized on the candidate item only, and this shallow context-aware aggregation makes them suffer from the limited friends' information. Secondly, for the item attraction, if the item's past consumers are the friends of or have a similar consumption habit to the targeted user, the item may be more attractive to the targeted user, but most existing methods neglect the relation enhanced context-aware item attraction. To address the above issues, we proposed DICER (Dual Side Deep Context-aware Modulation for SocialRecommendation ). Specifically, we first proposed a novel graph neural network to model the social relation and collaborative relation, and on top of high-order relations, a dual side deep context-aware modulation is introduced to capture the friends' information and item attraction. Empirical results on two real-world datasets show the effectiveness of the proposed model and further experiments are conducted to help understand how the dual context-aware modulation works.
翻訳日:2021-03-17 13:20:45 公開日:2021-03-16
# ナレッジグラフを活用した新しい論文推薦法:研究初心者に向けて

A Novel Paper Recommendation Method Empowered by Knowledge Graph: for Research Beginners ( http://arxiv.org/abs/2103.08819v1 )

ライセンス: Link先を確認
Bangchao Wang (1 and 2), Ziyang Weng (1), Yanping Wang (3) ((1) School of Mathematics and Computer Science, Wuhan Textile University, Wuhan, China, (2) School of Computer Science, Wuhan University, Wuhan, China, (3) School of Information Management, Wuhan University, Wuhan, China)(参考訳) 異なる学術データベースから論文を検索することは、研究初心者がクロスドメイン技術ソリューションを得るために最もよく使われる方法である。 しかし、従来の検索手法では、異なるドメインにおける知識の不均一性を考慮せず、検索の下位層を構築しておらず、対象とするソリューションやソリューションの特性記述テキストに制限されないため、通常は非効率であり、時には役に立たない。 この問題を軽減するために, 利用者の要求をより正確に表現するだけでなく, 知識をより表現しやすい「マスタースレーブ」ドメイン知識グラフを導入することにより, 新たな論文推薦手法を提案する。 具体的には、コールドスタート問題に制限されず、チャレンジ指向の手法である。 提案手法の合理性と有用性を明らかにするため、2つのクロスドメインと3つの異なる学術データベースを選択した。 実験の結果,提案手法を用いた研究初心者によるクロスドメインシナリオにおける新たな技術論文の取得が可能となった。 さらに, 初期段階における研究初心者のための新たな研究パラダイムを提案する。

Searching for papers from different academic databases is the most commonly used method by research beginners to obtain cross-domain technical solutions. However, it is usually inefficient and sometimes even useless because traditional search methods neither consider knowledge heterogeneity in different domains nor build the bottom layer of search, including but not limited to the characteristic description text of target solutions and solutions to be excluded. To alleviate this problem, a novel paper recommendation method is proposed herein by introducing "master-slave" domain knowledge graphs, which not only help users express their requirements more accurately but also helps the recommendation system better express knowledge. Specifically, it is not restricted by the cold start problem and is a challenge-oriented method. To identify the rationality and usefulness of the proposed method, we selected two cross-domains and three different academic databases for verification. The experimental results demonstrate the feasibility of obtaining new technical papers in the cross-domain scenario by research beginners using the proposed method. Further, a new research paradigm for research beginners in the early stages is proposed herein.
翻訳日:2021-03-17 13:20:01 公開日:2021-03-16
# てんかんおよび失読不確かさの最小化による解釈可能な非現実的説明の生成

Generating Interpretable Counterfactual Explanations By Implicit Minimisation of Epistemic and Aleatoric Uncertainties ( http://arxiv.org/abs/2103.08951v1 )

ライセンス: Link先を確認
Lisa Schut, Oscar Key, Rory McGrath, Luca Costabello, Bogdan Sacaleanu, Medb Corcoran and Yarin Gal(参考訳) 対実的説明(CE)は、機械学習の分類器が特別な決定を下す理由を示す実用的なツールである。 CEが有用であるためには,ユーザが容易に解釈できることが重要である。 解釈可能なcesを生成する既存の方法は、複雑なデータセットには適さない補助生成モデルに依存しており、エンジニアリングのオーバーヘッドを負う。 本稿では,分類器の予測不確実性を利用して,補助モデルのないホワイトボックス設定で解釈可能なCEを生成する簡易かつ高速な手法を提案する。 実験の結果,提案アルゴリズムは既存の手法よりも,より解釈可能なCEを生成することがわかった。 さらに,本手法は,医療領域など安全クリティカルな応用において重要と思われるceの不確かさを推定することを可能にする。

Counterfactual explanations (CEs) are a practical tool for demonstrating why machine learning classifiers make particular decisions. For CEs to be useful, it is important that they are easy for users to interpret. Existing methods for generating interpretable CEs rely on auxiliary generative models, which may not be suitable for complex datasets, and incur engineering overhead. We introduce a simple and fast method for generating interpretable CEs in a white-box setting without an auxiliary model, by using the predictive uncertainty of the classifier. Our experiments show that our proposed algorithm generates more interpretable CEs, according to IM1 scores, than existing methods. Additionally, our approach allows us to estimate the uncertainty of a CE, which may be important in safety-critical applications, such as those in the medical domain.
翻訳日:2021-03-17 13:19:43 公開日:2021-03-16
# SoK:プライバシ保護型協調木モデル学習

SoK: Privacy-Preserving Collaborative Tree-based Model Learning ( http://arxiv.org/abs/2103.08987v1 )

ライセンス: Link先を確認
Sylvain Chatel, Apostolos Pyrgelis, Juan Ramon Troncoso-Pastoriza, Jean-Pierre Hubaux(参考訳) ツリーベースのモデルは、正確性、解釈性、単純さのため、データマイニングの最も効率的な機械学習技術の一つである。 最近の直交的なニーズは、協力的なプライバシ保護ソリューションのためのデータとプライバシ保護の要求を増やしている。 本研究では,木ベースモデルの分散およびプライバシ保全トレーニングに関する文献を調査し,その知識を学習アルゴリズム,協調モデル,保護機構,脅威モデルという4つの軸に基づいて体系化する。 これを用いてこれらの作業の長所と短所を特定し、分散ツリーベースモデル学習で発生した情報漏洩を分析するフレームワークを初めて提供する。

Tree-based models are among the most efficient machine learning techniques for data mining nowadays due to their accuracy, interpretability, and simplicity. The recent orthogonal needs for more data and privacy protection call for collaborative privacy-preserving solutions. In this work, we survey the literature on distributed and privacy-preserving training of tree-based models and we systematize its knowledge based on four axes: the learning algorithm, the collaborative model, the protection mechanism, and the threat model. We use this to identify the strengths and limitations of these works and provide for the first time a framework analyzing the information leakage occurring in distributed tree-based model learning.
翻訳日:2021-03-17 13:19:30 公開日:2021-03-16
# ロボット組み立てのための行動木計画と学習の融合

Combining Planning and Learning of Behavior Trees for Robotic Assembly ( http://arxiv.org/abs/2103.09036v1 )

ライセンス: Link先を確認
Jonathan Styrud, Matteo Iovino, Mikael Norrl\"of, M{\aa}rten Bj\"orkman and Christian Smith(参考訳) 産業用ロボットは、制御された環境で非常に複雑なタスクを解決できるが、現代のアプリケーションでは予測不能な環境でもロボットを操作できる必要がある。 ロボティクスにおけるリアクティブポリシアーキテクチャは行動木が主流ですが、他のアーキテクチャと同様、プログラミング時間は依然としてコストと柔軟性を制限します。 ポリシを自動的に生成するアルゴリズムには、自動化された計画と機械学習の2つの大きなブランチがある。 本研究では,遺伝的プログラミングアルゴリズムを用いて行動木を生成する手法を提案し,これら2つの枝を組み合わせ,自動プランナーの結果を集団に挿入する手法を提案する。 実験の結果, 計画と学習を組み合わせる手法は, 様々なロボット組立問題に対して良好に動作し, 両者を別々に比較できることがわかった。 また,このような高レベルな行動木学習は,さらなる学習をすることなく実システムへ移行できることを示した。

Industrial robots can solve very complex tasks in controlled environments, but modern applications require robots able to operate in unpredictable surroundings as well. An increasingly popular reactive policy architecture in robotics is Behavior Trees but as with other architectures, programming time still drives cost and limits flexibility. There are two main branches of algorithms to generate policies automatically, automated planning and machine learning, both with their own drawbacks. We propose a method for generating Behavior Trees using a Genetic Programming algorithm and combining the two branches by taking the result of an automated planner and inserting it into the population. Experimental results confirm that the proposed method of combining planning and learning performs well on a variety of robotic assembly problems and outperforms both of the base methods used separately. We also show that this type of high level learning of Behavior Trees can be transferred to a real system without further training.
翻訳日:2021-03-17 13:19:20 公開日:2021-03-16
# reconresnet:アンサンプされたデカルトおよびラジアルデータのmr画像再構成のための正規化残差学習

ReconResNet: Regularised Residual Learning for MR Image Reconstruction of Undersampled Cartesian and Radial Data ( http://arxiv.org/abs/2103.09203v1 )

ライセンス: Link先を確認
Soumick Chatterjee, Mario Breitkopf, Chompunuch Sarasaen, Hadya Yassin, Georg Rose, Andreas N\"urnberger and Oliver Speck(参考訳) MRIは本質的に遅いプロセスであり、高解像度画像の長時間のスキャンに繋がる。 データの一部(アンダーサンプリング)を無視して取得速度を上げることができる。 これにより、解像度の低下や画像アーティファクトの導入など、画質の低下につながる。 本研究の目的は,高度にアンサンプされたカルテシアンまたはラジアルMRの取得を,圧縮センシングのような従来の技術に比べて高解像度で再現することである。 近年では、ディープラーニングが研究の非常に重要な領域として現れ、逆問題(例えば、逆問題)を解く大きな可能性を示している。 mr画像再構成。 本稿では,ネットワークバックボーンとしてResNetの正規化バージョンを改良し,アンダーサンプル画像からアーティファクトを除去する,深層学習に基づくMR画像再構成フレームワークを提案する。 様々なアンダーサンプリングパターンに対するこのフレームワークの性能もテストされており、トレーニング中に混合しても様々なサンプリングパターンを処理するのに頑健であり、高いssim(加速係数 3.5 の 0.990$\pm$0.006 が最も高い)という観点で、完全なサンプル再構成と比較しながら、非常に高品質な再構築が行われることが観察されている。 提案手法は, カルテシアン (0.968$\pm$0.005) とラジアル (0.962$\pm$0.012) のデータに対して 20 の加速係数に対しても, 正常に再構成可能であることが示されている。 さらに,健常者を対象にトレーニングを行いながら,再建中の脳病理を保存できることが示されている。

MRI is an inherently slow process, which leads to long scan time for high-resolution imaging. The speed of acquisition can be increased by ignoring parts of the data (undersampling). Consequently, this leads to the degradation of image quality, such as loss of resolution or introduction of image artefacts. This work aims to reconstruct highly undersampled Cartesian or radial MR acquisitions, with better resolution and with less to no artefact compared to conventional techniques like compressed sensing. In recent times, deep learning has emerged as a very important area of research and has shown immense potential in solving inverse problems, e.g. MR image reconstruction. In this paper, a deep learning based MR image reconstruction framework is proposed, which includes a modified regularised version of ResNet as the network backbone to remove artefacts from the undersampled image, followed by data consistency steps that fusions the network output with the data already available from undersampled k-space in order to further improve reconstruction quality. The performance of this framework for various undersampling patterns has also been tested, and it has been observed that the framework is robust to deal with various sampling patterns, even when mixed together while training, and results in very high quality reconstruction, in terms of high SSIM (highest being 0.990$\pm$0.006 for acceleration factor of 3.5), while being compared with the fully sampled reconstruction. It has been shown that the proposed framework can successfully reconstruct even for an acceleration factor of 20 for Cartesian (0.968$\pm$0.005) and 17 for radially (0.962$\pm$0.012) sampled data. Furthermore, it has been shown that the framework preserves brain pathology during reconstruction while being trained on healthy subjects.
翻訳日:2021-03-17 13:18:47 公開日:2021-03-16
# 並列時間アルゴリズムをエミュレートする並列ニューラルネットワーク

Parareal Neural Networks Emulating a Parallel-in-time Algorithm ( http://arxiv.org/abs/2103.08802v1 )

ライセンス: Link先を確認
Chang-Ock Lee, Youngkyu Lee, and Jongho Park(参考訳) ディープニューラルネットワーク(DNN)が深まるにつれて、トレーニング時間が増加する。 この観点から、マルチGPU並列コンピューティングは、DNNのトレーニングを加速する重要なツールとなっている。 本稿では,与えられたdnnから複数のgpuを同時に利用できる並列ニューラルネットワークを構築するための新しい手法を提案する。 DNNの層は時間依存問題の時間ステップとして解釈でき、パラリアルと呼ばれる並列時間アルゴリズムをエミュレートすることで並列化できる。 パラリアルアルゴリズムは、並列に実装できる微細構造と、その微細構造に適切な近似を与える粗い構造とから構成される。 これをエミュレートすることで、DNNの層は破れ、適切な粗いネットワークで接続された並列構造を形成する。 本稿では,VGG-16とResNet-1001に適用した提案手法の高速化と精度保存結果について報告する。

As deep neural networks (DNNs) become deeper, the training time increases. In this perspective, multi-GPU parallel computing has become a key tool in accelerating the training of DNNs. In this paper, we introduce a novel methodology to construct a parallel neural network that can utilize multiple GPUs simultaneously from a given DNN. We observe that layers of DNN can be interpreted as the time step of a time-dependent problem and can be parallelized by emulating a parallel-in-time algorithm called parareal. The parareal algorithm consists of fine structures which can be implemented in parallel and a coarse structure which gives suitable approximations to the fine structures. By emulating it, the layers of DNN are torn to form a parallel structure which is connected using a suitable coarse network. We report accelerated and accuracy-preserved results of the proposed methodology applied to VGG-16 and ResNet-1001 on several datasets.
翻訳日:2021-03-17 13:18:13 公開日:2021-03-16
# 確率的宇宙飛行キャンペーン設計のための階層的強化学習フレームワーク

Hierarchical Reinforcement Learning Framework for Stochastic Spaceflight Campaign Design ( http://arxiv.org/abs/2103.08981v1 )

ライセンス: Link先を確認
Yuji Takubo, Hao Chen, and Koki Ho(参考訳) 本稿では,多ミッション宇宙飛行計画のための階層的強化学習アーキテクチャを,車両設計,インフラ配置計画,宇宙輸送スケジューリングなど不確実性の下で開発する。 この問題は高次元の設計空間を伴い、特に不確実性が存在する場合には困難である。 この課題に対処するために開発されたフレームワークは、強化学習(RL)とネットワークベースの混合整数線形プログラミング(MILP)を備えた階層構造を持ち、前者はキャンペーンレベルの決定(例えば、キャンペーン全体で使用される車両の設計、キャンペーンの各ミッションに割り当てられた目的地要求)を最適化し、後者は詳細なミッションレベルの決定(例えば、どの場所からどこに打ち上げるか)を最適化する。 本フレームワークは,不確実な資源利用(ISRU)性能を事例として,月面探査の一連のシナリオに適用した。 この研究の主な価値は、急速に成長しているrl研究と既存のmilpベースの宇宙ロジスティクス手法を統合することである。 私たちは、このユニークなフレームワークが、宇宙ミッション設計のための人工知能の新たな研究方向性の足掛かりになることを期待しています。

This paper develops a hierarchical reinforcement learning architecture for multi-mission spaceflight campaign design under uncertainty, including vehicle design, infrastructure deployment planning, and space transportation scheduling. This problem involves a high-dimensional design space and is challenging especially with uncertainty present. To tackle this challenge, the developed framework has a hierarchical structure with reinforcement learning (RL) and network-based mixed-integer linear programming (MILP), where the former optimizes campaign-level decisions (e.g., design of the vehicle used throughout the campaign, destination demand assigned to each mission in the campaign), whereas the latter optimizes the detailed mission-level decisions (e.g., when to launch what from where to where). The framework is applied to a set of human lunar exploration campaign scenarios with uncertain in-situ resource utilization (ISRU) performance as a case study. The main value of this work is its integration of the rapidly growing RL research and the existing MILP-based space logistics methods through a hierarchical framework to handle the otherwise intractable complexity of space mission design under uncertainty. We expect this unique framework to be a critical steppingstone for the emerging research direction of artificial intelligence for space mission design.
翻訳日:2021-03-17 13:18:00 公開日:2021-03-16
# HPCワークロードのインテリジェントコロケーション

Intelligent colocation of HPC workloads ( http://arxiv.org/abs/2103.09019v1 )

ライセンス: Link先を確認
Felippe V. Zacarias (1, 2 and 3), Vinicius Petrucci (1 and 5), Rajiv Nishtala (4), Paul Carpenter (3) and Daniel Moss\'e (5) ((1) Universidade Federal da Bahia, (2) Universitat Polit\`ecnica de Catalunya, (3) Barcelona Supercomputing Center, (4) Coop, Norway/Norwegian University of Science and Technology, Norway, (5) University of Pittsburgh)(参考訳) 多くのHPCアプリケーションは、共有キャッシュ、命令実行ユニット、I/O、メモリ帯域のボトルネックに悩まされている。 開発者やランタイムシステムにとって、すべての重要なリソースが単一のアプリケーションによって完全に悪用されることを保証するのは難しいため、hpcシステムの利用を増やすための魅力的なテクニックは、複数のアプリケーションを同じサーバに配置することである。 しかし、アプリケーションが重要なリソースを共有する場合、共有リソースの競合はアプリケーションのパフォーマンスを低下させる可能性がある。 本稿では,まず,ハードウェア性能カウンタに基づくコロケーションアプリケーションの性能劣化をモデル化し,そのモデルを利用してコロケーションアプリケーションの最適混合を決定することにより,サーバ効率を向上できることを示す。 本稿では,(1)ハードウェアカウンタに基づくコロケーションアプリケーションの性能低下を予測するための新しい機械学習モデル,(2)既存のリソースマネージャにデプロイされたインテリジェントスケジューリングスキームにより,パフォーマンス低下を最小限に抑えるアプリケーション共スケジュールを可能にすること,などを提案する。 その結果,従来のジョブマネージャが採用する標準的なポリシーと比較して7% (avg) と12% (max) のパフォーマンス改善を達成できた。

Many HPC applications suffer from a bottleneck in the shared caches, instruction execution units, I/O or memory bandwidth, even though the remaining resources may be underutilized. It is hard for developers and runtime systems to ensure that all critical resources are fully exploited by a single application, so an attractive technique for increasing HPC system utilization is to colocate multiple applications on the same server. When applications share critical resources, however, contention on shared resources may lead to reduced application performance. In this paper, we show that server efficiency can be improved by first modeling the expected performance degradation of colocated applications based on measured hardware performance counters, and then exploiting the model to determine an optimized mix of colocated applications. This paper presents a new intelligent resource manager and makes the following contributions: (1) a new machine learning model to predict the performance degradation of colocated applications based on hardware counters and (2) an intelligent scheduling scheme deployed on an existing resource manager to enable application co-scheduling with minimum performance degradation. Our results show that our approach achieves performance improvements of 7% (avg) and 12% (max) compared to the standard policy commonly used by existing job managers.
翻訳日:2021-03-17 13:17:38 公開日:2021-03-16
# (参考訳) OkwuGb\'e: FonとIgboのエンドツーエンド音声認識 [全文訳有]

OkwuGb\'e: End-to-End Speech Recognition for Fon and Igbo ( http://arxiv.org/abs/2103.07762v2 )

ライセンス: CC BY 4.0
Bonaventure F. P. Dossou and Chris C. Emezue(参考訳) 言語は人間のコミュニケーションには本質的に必須である。 書き言葉か話し言葉かにかかわらず、同じ地域の人々と異なる地域の人々の間での理解が保証される。 NLP研究に低リソース言語を取り入れることへの認識と努力が高まり、近年、アフリカ言語は機械翻訳やその他のNLPのテキストベースの分野の研究の中心となっている。 しかし、いまだにアフリカの言語の音声認識に匹敵する研究は少ない。 興味深いことに、nlpに影響を及ぼすアフリカ語の特徴、例えばダイアクリティカルや声調の複合性は、言語の主要な根源であり、注意深い音声解釈は、テキストベースのnlpのためのアフリカの言語の言語的複雑さに対処するためのより直感的な方法をもたらす可能性があることを示唆している。 OkwuGb\'eは、アフリカの低リソース言語のための音声認識システムを構築するためのステップである。 Fon と Igbo をケーススタディとして,各言語の包括的言語分析を行い,両言語間のエンドツーエンド,ディープニューラルネットワークに基づく音声認識モデルの作成について述べる。 本稿では,Fon の最先端 ASR モデルと Igbo のベンチマーク ASR モデルについて述べる。 我々の言語分析(FonとIgbo)は、他のアフリカの低リソース言語のための音声認識モデルの作成に関する貴重な洞察とガイダンスを提供し、FonとIgboの今後のNLP研究をガイドする。 FonとIgboモデルのソースコードが公開されている。

Language is inherent and compulsory for human communication. Whether expressed in a written or spoken way, it ensures understanding between people of the same and different regions. With the growing awareness and effort to include more low-resourced languages in NLP research, African languages have recently been a major subject of research in machine translation, and other text-based areas of NLP. However, there is still very little comparable research in speech recognition for African languages. Interestingly, some of the unique properties of African languages affecting NLP, like their diacritical and tonal complexities, have a major root in their speech, suggesting that careful speech interpretation could provide more intuition on how to deal with the linguistic complexities of African languages for text-based NLP. OkwuGb\'e is a step towards building speech recognition systems for African low-resourced languages. Using Fon and Igbo as our case study, we conduct a comprehensive linguistic analysis of each language and describe the creation of end-to-end, deep neural network-based speech recognition models for both languages. We present a state-of-art ASR model for Fon, as well as benchmark ASR model results for Igbo. Our linguistic analyses (for Fon and Igbo) provide valuable insights and guidance into the creation of speech recognition models for other African low-resourced languages, as well as guide future NLP research for Fon and Igbo. The Fon and Igbo models source code have been made publicly available.
翻訳日:2021-03-17 12:53:45 公開日:2021-03-16
# (参考訳) ゼロショットクロスリンガルインテント予測とスロットフィリングのための多言語コードスイッチング [全文訳有]

Multilingual Code-Switching for Zero-Shot Cross-Lingual Intent Prediction and Slot Filling ( http://arxiv.org/abs/2103.07792v2 )

ライセンス: CC BY 4.0
Jitin Krishnan, Antonios Anastasopoulos, Hemant Purohit, and Huzefa Rangwala(参考訳) テキストからユーザ意図を予測し、対応するスロットを検出することは、自然言語理解(NLU)における2つの重要な問題である。 ゼロショット学習の文脈では、このタスクは通常、mBERTのような事前訓練された多言語変換器の表現を使用するか、または、ソースデータを既知のターゲット言語に翻訳し、微調整することでアプローチされる。 私たちの研究は、トレーニング中にターゲット言語が不明な特定のシナリオに焦点を当てています。 そこで本研究では, ダウンストリームタスクを微調整する際に, トランスフォーマの言語中立性を高めるために, ランダム翻訳による多言語コードスイッチを用いた単言語データ拡張手法を提案する。 この方法は、世界中の異なる言語家族とのコードスイッチングがターゲット言語のパフォーマンスにどのように影響するかという、新しい洞察の発見にも役立ちます。 MultiATIS++のベンチマークデータセットの実験では、インテントタスクの精度が+4.2%向上し、スロットタスクの+1.8%向上した。 また,ハイチ大震災時に収集された英語とハイチクレオール語のスロット充満に関する新しい人間注釈ツイートデータセットを用いて,危機情報学の手法を適用した。

Predicting user intent and detecting the corresponding slots from text are two key problems in Natural Language Understanding (NLU). In the context of zero-shot learning, this task is typically approached by either using representations from pre-trained multilingual transformers such as mBERT, or by machine translating the source data into the known target language and then fine-tuning. Our work focuses on a particular scenario where the target language is unknown during training. To this goal, we propose a novel method to augment the monolingual source data using multilingual code-switching via random translations to enhance a transformer's language neutrality when fine-tuning it for a downstream task. This method also helps discover novel insights on how code-switching with different language families around the world impact the performance on the target language. Experiments on the benchmark dataset of MultiATIS++ yielded an average improvement of +4.2% in accuracy for intent task and +1.8% in F1 for slot task using our method over the state-of-the-art across 8 different languages. Furthermore, we present an application of our method for crisis informatics using a new human-annotated tweet dataset of slot filling in English and Haitian Creole, collected during Haiti earthquake disaster.
翻訳日:2021-03-17 12:28:25 公開日:2021-03-16
# (参考訳) MLベースのシステムのためのソフトウェアアーキテクチャ - 既存のものと、その先にあるもの [全文訳有]

Software Architecture for ML-based Systems: What Exists and What Lies Ahead ( http://arxiv.org/abs/2103.07950v2 )

ライセンス: CC BY 4.0
Henry Muccini and Karthik Vaidhyanathan(参考訳) 機械学習(ML)の利用の増加と、現代のソフトウェアアーキテクチャの課題が組み合わさって、MLベースのシステムのためのソフトウェアアーキテクチャ、MLベースのソフトウェアシステムを開発するためのアーキテクチャ技術開発に焦点を当てたソフトウェアアーキテクチャのためのソフトウェアアーキテクチャ、そして、従来のソフトウェアシステムを構築するためのML技術の開発に焦点を当てたソフトウェアアーキテクチャのためのMLの2つの広い研究領域が生まれた。 本研究では、MLベースのソフトウェアシステムを設計する現在のシナリオに存在するさまざまなアーキテクチャプラクティスを強調することを目的として、スペクトルの以前の側面に焦点を当てる。 MLベースのソフトウェアシステムを設計するための標準的なプラクティスセットをより適切に定義するために、MLとソフトウェア実践者の双方の注意を必要とするソフトウェアアーキテクチャの4つの重要な領域を特定します。 これらの領域は、イタリア最大の博物館のひとつでキュー処理の課題を解決するために、MLベースのソフトウェアシステムを設計した経験を踏まえたものです。

The increasing usage of machine learning (ML) coupled with the software architectural challenges of the modern era has resulted in two broad research areas: i) software architecture for ML-based systems, which focuses on developing architectural techniques for better developing ML-based software systems, and ii) ML for software architectures, which focuses on developing ML techniques to better architect traditional software systems. In this work, we focus on the former side of the spectrum with a goal to highlight the different architecting practices that exist in the current scenario for architecting ML-based software systems. We identify four key areas of software architecture that need the attention of both the ML and software practitioners to better define a standard set of practices for architecting ML-based software systems. We base these areas in light of our experience in architecting an ML-based software system for solving queuing challenges in one of the largest museums in Italy.
翻訳日:2021-03-17 11:53:02 公開日:2021-03-16
# (参考訳) S$^*$:マルチゴール経路探索のためのヒューリスティック情報に基づく近似フレームワーク [全文訳有]

S$^*$: A Heuristic Information-Based Approximation Framework for Multi-Goal Path Finding ( http://arxiv.org/abs/2103.08155v2 )

ライセンス: CC BY 4.0
Kenny Chour, Sivakumar Rathinam, Ramamoorthi Ravi(参考訳) 移動セールスマン問題に対する一方向および双方向のヒューリスティック探索のアイデアと近似アルゴリズムを組み合わせて,2近似保証を提供する多方向経路探索(mgpf)問題の新たな枠組みを開発する。 mgpfは、特定の目標セット内の各ノードがその経路に沿って少なくとも1回訪問されるように、原点から目的地までの最小コストのパスを見つけることを目指している。 本稿では,拡張ノード数と実行時間の観点から,従来の代替フレームワークと比較して,フレームワークの利点を数値的に示す。

We combine ideas from uni-directional and bi-directional heuristic search, and approximation algorithms for the Traveling Salesman Problem, to develop a novel framework for a Multi-Goal Path Finding (MGPF) problem that provides a 2-approximation guarantee. MGPF aims to find a least-cost path from an origin to a destination such that each node in a given set of goals is visited at least once along the path. We present numerical results to illustrate the advantages of our framework over conventional alternates in terms of the number of expanded nodes and run time.
翻訳日:2021-03-17 11:34:21 公開日:2021-03-16
# 乗算活性化雑音を持つニューラルネットワークのサンプリング不要変分推定

Sampling-free Variational Inference for Neural Networks with Multiplicative Activation Noise ( http://arxiv.org/abs/2103.08497v2 )

ライセンス: Link先を確認
Jannik Schmitt and Stefan Roth(参考訳) ニューラルネットワークを安全クリティカルな領域に導入するには、その予測を信頼できるかどうかを知ることが重要です。 ベイズニューラルネットワーク(BNN)は、後部重み分布に対する平均的な予測によって不確実性の推定を提供する。 BNNの変分推定法は, トラクタブル分布とトラクタブル分布とを近似するが, トレーニングや推論において, 変分分布のサンプリングに大きく依存する。 最近のサンプリングフリーアプローチは代替手段を提供するが、かなりのパラメーターオーバーヘッドをもたらす。 本稿では,多乗的ガウスアクティベーションノイズによる分布に依存するサンプリング不要な変分推定のための後方近似のより効率的なパラメータ化を提案する。 これにより、パラメータ効率とサンプリング不要な変分推論の利点を組み合わせることができる。 提案手法は,イメージネットを含む大規模画像分類タスクに対して,標準回帰問題に対する競合的な結果をもたらす。

To adopt neural networks in safety critical domains, knowing whether we can trust their predictions is crucial. Bayesian neural networks (BNNs) provide uncertainty estimates by averaging predictions with respect to the posterior weight distribution. Variational inference methods for BNNs approximate the intractable weight posterior with a tractable distribution, yet mostly rely on sampling from the variational distribution during training and inference. Recent sampling-free approaches offer an alternative, but incur a significant parameter overhead. We here propose a more efficient parameterization of the posterior approximation for sampling-free variational inference that relies on the distribution induced by multiplicative Gaussian activation noise. This allows us to combine parameter efficiency with the benefits of sampling-free variational inference. Our approach yields competitive results for standard regression problems and scales well to large-scale image classification tasks including ImageNet.
翻訳日:2021-03-17 11:17:49 公開日:2021-03-16
# 特徴依存ラベルノイズによる学習の進歩的アプローチ

Learning with Feature-Dependent Label Noise: A Progressive Approach ( http://arxiv.org/abs/2103.07756v2 )

ライセンス: Link先を確認
Yikai Zhang, Songzhu Zheng, Pengxiang Wu, Mayank Goswami, Chao Chen(参考訳) ラベルノイズは、現実世界の大規模データセットで頻繁に観測される。 ノイズは様々な理由で導入され、不均一で特徴に依存している。 ノイズラベルを扱う既存のアプローチのほとんどは、理想的な機能非依存のノイズを仮定するか、理論的保証なしにヒューリスティックであるかの2つのカテゴリに分類される。 本稿では,一般的なi.i.d.よりもはるかに一般的な特徴依存ラベルノイズの新たなファミリーを対象とする。 ノイズをラベル付けし、幅広いノイズパターンを包含する。 本稿では,この一般ノイズファミリーに着目し,ラベルを反復的に修正し,モデルを洗練するプログレッシブラベル補正アルゴリズムを提案する。 我々は、様々な(未知)ノイズパターンに対して、この戦略で訓練された分類器がベイズ分類器と一致するように収束することを示す理論的保証を提供する。 実験では,sotaベースラインを上回り,様々なノイズタイプやレベルに対して頑健である。

Label noise is frequently observed in real-world large-scale datasets. The noise is introduced due to a variety of reasons; it is heterogeneous and feature-dependent. Most existing approaches to handling noisy labels fall into two categories: they either assume an ideal feature-independent noise, or remain heuristic without theoretical guarantees. In this paper, we propose to target a new family of feature-dependent label noise, which is much more general than commonly used i.i.d. label noise and encompasses a broad spectrum of noise patterns. Focusing on this general noise family, we propose a progressive label correction algorithm that iteratively corrects labels and refines the model. We provide theoretical guarantees showing that for a wide variety of (unknown) noise patterns, a classifier trained with this strategy converges to be consistent with the Bayes classifier. In experiments, our method outperforms SOTA baselines and is robust to various noise types and levels.
翻訳日:2021-03-17 11:17:34 公開日:2021-03-16
# 解釈可能な深層強化学習のための記号規則の学習

Learning Symbolic Rules for Interpretable Deep Reinforcement Learning ( http://arxiv.org/abs/2103.08228v2 )

ライセンス: Link先を確認
Zhihao Ma, Yuzheng Zhuang, Paul Weng, Hankz Hankui Zhuo, Dong Li, Wulong Liu, Jianye Hao(参考訳) 近年の深部強化学習(DRL)の進歩は,ニューラルネットワークの利用によるところが大きい。 しかし、このブラックボックスアプローチは、学習したポリシーを人間の理解可能な方法で説明できない。 この課題に対処し、透明性を向上させるために、DRLにシンボリックロジックを導入し、ニューラルシンボリック強化学習フレームワークを提案する。 このフレームワークは推論と学習モジュールの受精を特徴とし、事前に象徴的な知識を持つエンドツーエンドの学習を可能にする。 さらに、推論モジュールによって学習された論理規則を記号規則空間に抽出することにより、解釈可能性を達成する。 実験結果から,我々のフレームワークは,最先端のアプローチと比較して,より優れた解釈性を持つことがわかった。

Recent progress in deep reinforcement learning (DRL) can be largely attributed to the use of neural networks. However, this black-box approach fails to explain the learned policy in a human understandable way. To address this challenge and improve the transparency, we propose a Neural Symbolic Reinforcement Learning framework by introducing symbolic logic into DRL. This framework features a fertilization of reasoning and learning modules, enabling end-to-end learning with prior symbolic knowledge. Moreover, interpretability is achieved by extracting the logical rules learned by the reasoning module in a symbolic rule space. The experimental results show that our framework has better interpretability, along with competing performance in comparison to state-of-the-art approaches.
翻訳日:2021-03-17 11:17:19 公開日:2021-03-16
# Refer-it-in-RGBD:RGB D画像における3次元視覚グラウンドのボトムアップアプローチ

Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD Images ( http://arxiv.org/abs/2103.07894v2 )

ライセンス: Link先を確認
Haolin Liu, Anran Lin, Xiaoguang Han, Lei Yang, Yizhou Yu, Shuguang Cui(参考訳) RGBD画像における接地参照表現は新たな分野である。 本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。 3Dシーンに接地するためのオブジェクト提案を直接生成する従来の作業とは対照的に,コンテキスト認識情報を段階的に集約するボトムアップ手法を提案し,部分幾何学による課題に効果的に対処する。 我々のアプローチは、まず言語と視覚機能をボトムレベルに融合させ、rgbdイメージ内の関連領域を粗くローカライズするヒートマップを生成する。 次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。 提案手法は,ScanReferデータセットから抽出したRGBD画像と新たに収集したSUNReferデータセットとを比較して評価する。 実験により,本手法は両方のデータセットにおいて従来手法よりも大きな差(11.2%,15.6%Acc@0.5) を示した。

Grounding referring expressions in RGBD image has been an emerging field. We present a novel task of 3D visual grounding in single-view RGBD image where the referred objects are often only partially scanned due to occlusion. In contrast to previous works that directly generate object proposals for grounding in the 3D scenes, we propose a bottom-up approach to gradually aggregate context-aware information, effectively addressing the challenge posed by the partial geometry. Our approach first fuses the language and the visual features at the bottom level to generate a heatmap that coarsely localizes the relevant regions in the RGBD image. Then our approach conducts an adaptive feature learning based on the heatmap and performs the object-level matching with another visio-linguistic fusion to finally ground the referred object. We evaluate the proposed method by comparing to the state-of-the-art methods on both the RGBD images extracted from the ScanRefer dataset and our newly collected SUNRefer dataset. Experiments show that our method outperforms the previous methods by a large margin (by 11.2% and 15.6% Acc@0.5) on both datasets.
翻訳日:2021-03-17 11:17:09 公開日:2021-03-16
# Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and difference-Aware Fusion

Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion ( http://arxiv.org/abs/2103.07941v2 )

ライセンス: Link先を確認
Ho Kei Cheng, Yu-Wing Tai, Chi-Keung Tang(参考訳) マスク間相互作用とマスク伝搬を分離し,より高い一般化性と性能を実現するモジュール型対話型VOS(MiVOS)フレームワークを提案する。 個別にトレーニングされたインタラクションモジュールは,ユーザインタラクションをオブジェクトマスクに変換して,時空間メモリを読み取るための新しいトップ-k$フィルタ戦略を用いて,伝搬モジュールによって時間的に伝搬する。 ユーザの意図を効果的に考慮した新たな差分認識モジュールを提案し、時空メモリを用いて、対象フレームにアライメントされた各インタラクションの前後に適切にマスクを融合する方法を学習する。 我々は,DAVISにおけるユーザインタラクションの異なる形態(例えば,スクリブル,クリック)で定性的かつ定量的に評価し,フレームインタラクションを少なくしながら,現在の最先端アルゴリズムよりも優れていることを示す。 我々は,4.8Mフレームの画素精度を向上した大規模な合成VOSデータセットを,ソースコードに付随して提供し,今後の研究を促進する。

We present Modular interactive VOS (MiVOS) framework which decouples interaction-to-mask and mask propagation, allowing for higher generalizability and better performance. Trained separately, the interaction module converts user interactions to an object mask, which is then temporally propagated by our propagation module using a novel top-$k$ filtering strategy in reading the space-time memory. To effectively take the user's intent into account, a novel difference-aware module is proposed to learn how to properly fuse the masks before and after each interaction, which are aligned with the target frames by employing the space-time memory. We evaluate our method both qualitatively and quantitatively with different forms of user interactions (e.g., scribbles, clicks) on DAVIS to show that our method outperforms current state-of-the-art algorithms while requiring fewer frame interactions, with the additional advantage in generalizing to different types of user interactions. We contribute a large-scale synthetic VOS dataset with pixel-accurate segmentation of 4.8M frames to accompany our source codes to facilitate future research.
翻訳日:2021-03-17 11:16:49 公開日:2021-03-16
# TransFG: 微粒化認識のためのトランスフォーマーアーキテクチャ

TransFG: A Transformer Architecture for Fine-grained Recognition ( http://arxiv.org/abs/2103.07976v2 )

ライセンス: Link先を確認
Ju He, Jieneng Chen, Shuai Liu, Adam Kortylewski, Cheng Yang, Yutong Bai, Changhu Wang, Alan Yuille(参考訳) サブカテゴリからオブジェクトを認識することを目的とした細粒度視覚分類(FGVC)は、本質的に微妙なクラス間差のため非常に難しい課題である。 近年の研究では、最も差別的な画像領域の特定に焦点をあて、ネットワークの微妙なばらつきを捉える能力を改善するためにそれらに依存している。 これらの作業の多くは、バックボーンネットワークを再利用して、選択した領域の特徴を抽出することで実現している。 しかし、この戦略は必然的にパイプラインを複雑化し、提案された領域をオブジェクトの大部分を含むようプッシュする。 近年,視覚変換器 (ViT) は従来の分類課題において高い性能を示した。 トランスの自己アテンション機構は、すべてのパッチトークンを分類トークンにリンクする。 注意リンクの強さはトークンの重要性の指標として直感的に考えることができる。 そこで本研究では,トランスフォーマーの全ての生の注意重みを注意マップに統合し,ネットワークを効果的かつ正確に識別可能な画像パッチを選定し,それらの関係を計算するトランスフォーマーベースのフレームワークであるtransfgを提案する。 対照的な損失は、類似するサブクラスの特徴表現間の距離をさらに拡大するために適用される。 我々は、cub-200-2011、stanford cars、stanford dogs、nabirds、inat2017の5つの人気のあるきめ細かいベンチマーク実験を行い、transfgの価値を実証した。 モデルの理解を深めるための定性的な結果が提示される。

Fine-grained visual classification (FGVC) which aims at recognizing objects from subcategories is a very challenging task due to the inherently subtle inter-class differences. Recent works mainly tackle this problem by focusing on how to locate the most discriminative image regions and rely on them to improve the capability of networks to capture subtle variances. Most of these works achieve this by re-using the backbone network to extract features of selected regions. However, this strategy inevitably complicates the pipeline and pushes the proposed regions to contain most parts of the objects. Recently, vision transformer (ViT) shows its strong performance in the traditional classification task. The self-attention mechanism of the transformer links every patch token to the classification token. The strength of the attention link can be intuitively considered as an indicator of the importance of tokens. In this work, we propose a novel transformer-based framework TransFG where we integrate all raw attention weights of the transformer into an attention map for guiding the network to effectively and accurately select discriminative image patches and compute their relations. A contrastive loss is applied to further enlarge the distance between feature representations of similar sub-classes. We demonstrate the value of TransFG by conducting experiments on five popular fine-grained benchmarks: CUB-200-2011, Stanford Cars, Stanford Dogs, NABirds and iNat2017 where we achieve state-of-the-art performance. Qualitative results are presented for better understanding of our model.
翻訳日:2021-03-17 11:16:26 公開日:2021-03-16
# 回転座標の高速なグローバル最適回転平均化

Rotation Coordinate Descent for Fast Globally Optimal Rotation Averaging ( http://arxiv.org/abs/2103.08292v2 )

ライセンス: Link先を確認
\'Alvaro Parra, Shin-Fang Chng, Tat-Jun Chin, Anders Eriksson, Ian Reid(参考訳) 測定値の雑音レベルに関する穏やかな条件下では、回転平均化は強い双対性を満たすため、半有限計画法(SDP)緩和による大域的解が得られる。 しかし、SDPの一般的な解法は、適度な大きさの回転平均化の場合でさえ、実際にはかなり遅いため、特殊化アルゴリズムの開発は不可欠である。 本稿では,回転座標降下(RCD)と呼ばれる大域的最適性を実現する高速アルゴリズムを提案する。 半定値行列を行ごと更新することでSDPを解くブロック座標降下(BCD)とは異なり、RCDは繰り返しを通して全ての有効な回転を直接維持・更新する。 これにより、大きな密度の半定義行列を格納する必要がなくなる。 アルゴリズムの収束を数学的に証明し、様々な問題構成に関する最先端のグローバル手法よりも優れた効率を実証的に示す。 有効なローテーションを維持することで、さらなるスピードアップのために局所最適化ルーチンを組み込むことも容易になる。 さらに,本アルゴリズムは実装が容易であり,デモプログラムの補足資料も参照する。

Under mild conditions on the noise level of the measurements, rotation averaging satisfies strong duality, which enables global solutions to be obtained via semidefinite programming (SDP) relaxation. However, generic solvers for SDP are rather slow in practice, even on rotation averaging instances of moderate size, thus developing specialised algorithms is vital. In this paper, we present a fast algorithm that achieves global optimality called rotation coordinate descent (RCD). Unlike block coordinate descent (BCD) which solves SDP by updating the semidefinite matrix in a row-by-row fashion, RCD directly maintains and updates all valid rotations throughout the iterations. This obviates the need to store a large dense semidefinite matrix. We mathematically prove the convergence of our algorithm and empirically show its superior efficiency over state-of-the-art global methods on a variety of problem configurations. Maintaining valid rotations also facilitates incorporating local optimisation routines for further speed-ups. Moreover, our algorithm is simple to implement; see supplementary material for a demonstration program.
翻訳日:2021-03-17 11:16:01 公開日:2021-03-16
# 連続学習のための特徴共分散のNull空間における学習ネットワーク

Training Networks in Null Space of Feature Covariance for Continual Learning ( http://arxiv.org/abs/2103.07113v2 )

ライセンス: Link先を確認
Shipeng Wang, Xiaorong Li, Jian Sun, Zongben Xu(参考訳) 連続学習の設定では、ネットワークは一連のタスクで訓練され、破滅的な忘れ込みに悩まされる。 連続学習におけるネットワークの可塑性と安定性のバランスをとるため,本論文では,ネットワークパラメータを逐次最適化するadam-nsclと呼ばれる新しいネットワーク学習アルゴリズムを提案する。 まず,連続学習におけるネットワーク安定性と可塑性を両立させる2つの数学的条件を提案する。 これらに基づいて、Adamにより候補パラメータ更新を生成するネットワークトレーニングプロセスにおいて、候補パラメータ更新をすべての前のタスクの近似ヌル空間に投影することで、シーケンシャルタスクのためのネットワークトレーニングが簡単に実現できる。 近似ヌル空間は、各線形層に対する前のタスクの全ての入力特徴の非中心共分散行列に特異値分解を適用することで導出することができる。 効率のために、各タスクを学習した後、非中心共分散行列を漸進的に計算することができる。 また,各線形層における近似ヌル空間の合理性を実験的に検証する。 我々は,CIFAR-100とTinyImageNetのベンチマークデータセットを用いた連続学習のためのトレーニングネットワークにアプローチを適用し,提案手法が最先端の連続学習手法よりも優れているか,あるいは適合しているかを示唆した。

In the setting of continual learning, a network is trained on a sequence of tasks, and suffers from catastrophic forgetting. To balance plasticity and stability of network in continual learning, in this paper, we propose a novel network training algorithm called Adam-NSCL, which sequentially optimizes network parameters in the null space of previous tasks. We first propose two mathematical conditions respectively for achieving network stability and plasticity in continual learning. Based on them, the network training for sequential tasks can be simply achieved by projecting the candidate parameter update into the approximate null space of all previous tasks in the network training process, where the candidate parameter update can be generated by Adam. The approximate null space can be derived by applying singular value decomposition to the uncentered covariance matrix of all input features of previous tasks for each linear layer. For efficiency, the uncentered covariance matrix can be incrementally computed after learning each task. We also empirically verify the rationality of the approximate null space at each linear layer. We apply our approach to training networks for continual learning on benchmark datasets of CIFAR-100 and TinyImageNet, and the results suggest that the proposed approach outperforms or matches the state-ot-the-art continual learning approaches.
翻訳日:2021-03-17 11:15:45 公開日:2021-03-16
# オンラインDouble Oracle

Online Double Oracle ( http://arxiv.org/abs/2103.07780v2 )

ライセンス: Link先を確認
Le Cong Dinh, Yaodong Yang, Zheng Tian, Nicolas Perez Nieves, Oliver Slumbers, David Henry Mguni, Haitham Bou Ammar, Jun Wang(参考訳) アクションスペースが制限的に大きい戦略的ゲームを解くことは、経済学、コンピュータサイエンス、人工知能において、未解決のトピックである。 本稿では,2プレイヤーゼロサムゲームにおいて,純粋戦略の数が巨大あるいは無限であるような新たな学習アルゴリズムを提案する。 具体的には,オンライン学習のノンレグレット分析とゲーム理論のダブルオラクル手法を組み合わせる。 我々の方法 -- \emph{Online Double Oracle (ODO)} -- は、ゲームのサイズではなく、ナッシュ平衡の支持サイズに線形に依存する \emph{ Effective Strategy set} のサイズであるセルフプレイ設定において、$\mathcal{O}(\sqrt{T k \log(k)})$の後悔境界を達成する。 純粋戦略が3.936$のLeduc Pokerを含む数種類の現実世界ゲームにおいて、我々の手法は、Nash平衡への収束率と戦略的敵に対する平均ペイオフの両方において、非regretアルゴリズムと二重オラクル手法を大きなマージンで上回ります。

Solving strategic games whose action space is prohibitively large is a critical yet under-explored topic in economics, computer science and artificial intelligence. This paper proposes new learning algorithms in two-player zero-sum games where the number of pure strategies is huge or even infinite. Specifically, we combine no-regret analysis from online learning with double oracle methods from game theory. Our method -- \emph{Online Double Oracle (ODO)} -- achieves the regret bound of $\mathcal{O}(\sqrt{T k \log(k)})$ in self-play setting where $k$ is NOT the size of the game, but rather the size of \emph{effective strategy set} that is linearly dependent on the support size of the Nash equilibrium. On tens of different real-world games, including Leduc Poker that contains $3^{936}$ pure strategies, our methods outperform no-regret algorithms and double oracle methods by a large margin, both in convergence rate to Nash equilibrium and average payoff against strategic adversary.
翻訳日:2021-03-17 11:15:24 公開日:2021-03-16
# 1000対1:概念符号化のためのセマンティック事前モデリング

Thousand to One: Semantic Prior Modeling for Conceptual Coding ( http://arxiv.org/abs/2103.07131v2 )

ライセンス: Link先を確認
Jianhui Chang, Zhenghui Zhao, Lingbo Yang, Chuanmin Jia, Jian Zhang, Siwei Ma(参考訳) 概念符号化は近年,自然画像を圧縮のための非絡み合った概念表現に符号化する,新たな研究トピックとなっている。 しかし,速度制約や復元品質の総合的な考慮が欠如しているため,既存手法の圧縮性能は相変わらず最適である。 そこで本研究では, エントロピー推定とテクスチャ合成のための統一された事前表現として, セマンティックな深部表現を利用する, 極低ビットレート画像圧縮のための, モデリングに基づく概念符号化手法を提案する。 具体的には, 構造的ガイダンスとして意味セグメンテーションマップを用い, テクスチャの細粒度分布モデルを提供し, より詳細な構成と, 高レベルの視覚タスクの柔軟性を高める。 さらに、空間的に独立なセマンティック先行のチャネル間相関をさらに活用するために、チャネル間エントロピーモデルを提案し、より正確なエントロピー推定を行う。 提案手法は,視覚処理および解析タスクに対して高い視覚的再構成品質と汎用性を保ちながら,超高1000倍圧縮比を実現する。

Conceptual coding has been an emerging research topic recently, which encodes natural images into disentangled conceptual representations for compression. However, the compression performance of the existing methods is still sub-optimal due to the lack of comprehensive consideration of rate constraint and reconstruction quality. To this end, we propose a novel end-to-end semantic prior modeling-based conceptual coding scheme towards extremely low bitrate image compression, which leverages semantic-wise deep representations as a unified prior for entropy estimation and texture synthesis. Specifically, we employ semantic segmentation maps as structural guidance for extracting deep semantic prior, which provides fine-grained texture distribution modeling for better detail construction and higher flexibility in subsequent high-level vision tasks. Moreover, a cross-channel entropy model is proposed to further exploit the inter-channel correlation of the spatially independent semantic prior, leading to more accurate entropy estimation for rate-constrained training. The proposed scheme achieves an ultra-high 1000x compression ratio, while still enjoying high visual reconstruction quality and versatility towards visual processing and analysis tasks.
翻訳日:2021-03-17 11:15:03 公開日:2021-03-16
# TinyOL: マイクロコントローラのオンライン学習を備えたTinyML

TinyOL: TinyML with Online-Learning on Microcontrollers ( http://arxiv.org/abs/2103.08295v2 )

ライセンス: Link先を確認
Haoyu Ren, Darko Anicic and Thomas Runkler(参考訳) TinyML(Tiny Machine Learning)は、全普及型マイクロコントローラ(MCU)のためのディープラーニングの民主化を目指す、急速に成長している研究分野である。 TinyMLは電力、メモリ、計算の制約に悩まされ、ここ数年で大幅な進歩を遂げている。 しかし、現在のTinyMLソリューションはバッチ/オフライン設定に基づいており、MCUでのニューラルネットワークの推論のみをサポートする。 ニューラルネットワークは、まず、強力なマシン上の大量の事前コンパイルデータを使用してトレーニングされ、次にMCUにフラッシュされる。 これにより、静的モデル、新しいデータへの適応が難しく、さまざまなシナリオの調整が不可能になり、IoT(Internet of Things)の柔軟性を損なうことになる。 そこで本稿では,ストリーミングデータのインクリメンタル・オン・デバイス・トレーニングを実現するtinyml(tinyml with online-learning)という新しいシステムを提案する。 TinyOLはオンライン学習の概念に基づいており、制約付きIoTデバイスに適している。 オートエンコーダニューラルネットワークを用いて,教師なし,教師なしのセットアップでtinyolを実験した。 最後に,提案手法の性能を報告し,その有効性と実現可能性を示す。

Tiny machine learning (TinyML) is a fast-growing research area committed to democratizing deep learning for all-pervasive microcontrollers (MCUs). Challenged by the constraints on power, memory, and computation, TinyML has achieved significant advancement in the last few years. However, the current TinyML solutions are based on batch/offline settings and support only the neural network's inference on MCUs. The neural network is first trained using a large amount of pre-collected data on a powerful machine and then flashed to MCUs. This results in a static model, hard to adapt to new data, and impossible to adjust for different scenarios, which impedes the flexibility of the Internet of Things (IoT). To address these problems, we propose a novel system called TinyOL (TinyML with Online-Learning), which enables incremental on-device training on streaming data. TinyOL is based on the concept of online learning and is suitable for constrained IoT devices. We experiment TinyOL under supervised and unsupervised setups using an autoencoder neural network. Finally, we report the performance of the proposed solution and show its effectiveness and feasibility.
翻訳日:2021-03-17 11:14:40 公開日:2021-03-16
# 自己機能規則化:教師モデルのない自己機能蒸留

Self-Feature Regularization: Self-Feature Distillation Without Teacher Models ( http://arxiv.org/abs/2103.07350v2 )

ライセンス: Link先を確認
Wenxuan Fan, Zhenyan Hou(参考訳) 知識蒸留(英: knowledge distillation)は、知識を大きなモデルから小さなモデルに移す過程である。 この過程において、小モデルは、大模型の一般化能力を学び、大模型のそれに近い性能を維持する。 知識蒸留は、モデルの知識を移行し、モデルの展開を促進し、推論を高速化する訓練手段を提供する。 しかし、従来の蒸留法では、まだ計算と記憶のオーバーヘッドをもたらす事前訓練された教師モデルが必要である。 本稿では,深層の特徴を用いて浅層における特徴学習を監督し,より意味的な情報を保持する,セルフ・フィーチャー・レギュライゼーション(sfr)と呼ばれる新しい汎用学習フレームワークを提案する。 具体的には,まずEMD-l2損失を局所的な特徴に合わせるために利用し,チャネル次元においてより集中的に特徴を蒸留するための多対一のアプローチを提案する。 次に、出力層で動的ラベル平滑化を用い、よりよい性能を得る。 さらに,提案手法の有効性を示す実験を行った。

Knowledge distillation is the process of transferring the knowledge from a large model to a small model. In this process, the small model learns the generalization ability of the large model and retains the performance close to that of the large model. Knowledge distillation provides a training means to migrate the knowledge of models, facilitating model deployment and speeding up inference. However, previous distillation methods require pre-trained teacher models, which still bring computational and storage overheads. In this paper, a novel general training framework called Self-Feature Regularization~(SFR) is proposed, which uses features in the deep layers to supervise feature learning in the shallow layers, retains more semantic information. Specifically, we firstly use EMD-l2 loss to match local features and a many-to-one approach to distill features more intensively in the channel dimension. Then dynamic label smoothing is used in the output layer to achieve better performance. Experiments further show the effectiveness of our proposed framework.
翻訳日:2021-03-17 11:14:23 公開日:2021-03-16