このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210428となっている論文です。

PDF登録状況(公開日: 20210428)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 強化学習エージェントのニューラルネットワークアーキテクチャの最適化 [全文訳有]

Optimizing the Neural Architecture of Reinforcement Learning Agents ( http://arxiv.org/abs/2011.14632v3 )

ライセンス: CC BY 4.0
N. Mazyavkina, S. Moustafa, I. Trofimov, E. Burnaev(参考訳) 強化学習(RL)はここ数年で大きな進歩を遂げた。 最も重要なステップの1つは、ニューラルネットワークの広範な応用であった。 しかし、これらのニューラルネットワークのアーキテクチャは通常手動で構築される。 本研究では最近,RLエージェントのアーキテクチャを最適化するためのニューラルアーキテクチャ探索法を提案する。 我々はAtariベンチマークで実験を行い、現代のNAS手法は手動で選択したRLエージェントのアーキテクチャよりも優れていると結論付けた。

Reinforcement learning (RL) enjoyed significant progress over the last years. One of the most important steps forward was the wide application of neural networks. However, architectures of these neural networks are typically constructed manually. In this work, we study recently proposed neural architecture search (NAS) methods for optimizing the architecture of RL agents. We carry out experiments on the Atari benchmark and conclude that modern NAS methods find architectures of RL agents outperforming a manually selected one.
翻訳日:2021-06-07 04:06:40 公開日:2021-04-28
# エッジでの深層学習によるロバストな超広帯域誤差低減

Robust Ultra-wideband Range Error Mitigation with Deep Learning at the Edge ( http://arxiv.org/abs/2011.14684v2 )

ライセンス: Link先を確認
Simone Angarano, Vittorio Mazzia, Francesco Salvetti, Giovanni Fantin and Marcello Chiaberge(参考訳) ウルトラワイドバンド(UWB)は、ワイヤレスローカライゼーションの最先端かつ最も人気のある技術である。 それでも、非視線条件(NLoS)における正確な測位と局所化は、まだオープンな研究トピックである。 実際、マルチパス効果、反射、屈折、室内無線環境の複雑さは、測定範囲に正のバイアスを生じさせることが容易であり、その結果、高度に不正確で不十分な位置推定が得られる。 本稿では,最先端のディープラーニング手法とグラフ最適化手法を活かし,エッジでの効率的な範囲誤差軽減を実現する効率的な表現学習手法を提案する。 チャネルインパルス応答(CIR)信号を直接利用して高い意味的特徴を抽出し、NLoSまたはLoS条件の補正を推定する。 異なる設定と構成による広範囲な実験により,提案手法の有効性が証明され,ロバストで低消費電力なuwbレンジ誤差軽減の実現性が実証された。

Ultra-wideband (UWB) is the state-of-the-art and most popular technology for wireless localization. Nevertheless, precise ranging and localization in non-line-of-sight (NLoS) conditions is still an open research topic. Indeed, multipath effects, reflections, refractions, and complexity of the indoor radio environment can easily introduce a positive bias in the ranging measurement, resulting in highly inaccurate and unsatisfactory position estimation. This article proposes an efficient representation learning methodology that exploits the latest advancement in deep learning and graph optimization techniques to achieve effective ranging error mitigation at the edge. Channel Impulse Response (CIR) signals are directly exploited to extract high semantic features to estimate corrections in either NLoS or LoS conditions. Extensive experimentation with different settings and configurations has proved the effectiveness of our methodology and demonstrated the feasibility of a robust and low computational power UWB range error mitigation.
翻訳日:2021-06-06 14:56:42 公開日:2021-04-28
# (参考訳) 定量的構造-活性関係の回帰法としての光勾配昇降機

Light Gradient Boosting Machine as a Regression Method for Quantitative Structure-Activity Relationships ( http://arxiv.org/abs/2105.08626v1 )

ライセンス: CC BY 4.0
Robert P. Sheridan, Andy Liaw, Matthew Tudor(参考訳) 医薬品業界では、多数の分子や記述子を持つ多くのQSARモデルを生成するのが一般的であるが、最も優れたQSAR法は、最も正確な予測を生成できるが、ハイパーパラメータに敏感であり、計算的に効率的である。 ここでは、Light Gradient Boosting Machine(LightGBM)を、30の社内データセット上のランダムフォレスト、シングルタスクディープニューラルネット、Extreme Gradient Boosting(XGBoost)と比較する。 すべてのブースティングアルゴリズムには調整可能なハイパーパラメータが多数存在するが、光gbmがシングルタスクのディープニューラルネットワークと同じくらい精度の高い予測を行うための標準ハイパーパラメータセットを定義することはできるが、最大のモデル全体の計算時間はランダムフォレストよりも1000倍速く、xgboostよりも約4倍高速である。 LightGBMのもう1つの非常に便利な機能は、予測間隔を推定するネイティブメソッドを含んでいることである。

In the pharmaceutical industry, where it is common to generate many QSAR models with large numbers of molecules and descriptors, the best QSAR methods are those that can generate the most accurate predictions but that are also insensitive to hyperparameters and are computationally efficient. Here we compare Light Gradient Boosting Machine (LightGBM) to random forest, single-task deep neural nets, and Extreme Gradient Boosting (XGBoost) on 30 in-house data sets. While any boosting algorithm has many adjustable hyperparameters, we can define a set of standard hyperparameters at which LightGBM makes predictions about as accurate as single-task deep neural nets, but is a factor of 1000-fold faster than random forest and ~4-fold faster than XGBoost in terms of total computational time for the largest models. Another very useful feature of LightGBM is that it includes a native method for estimating prediction intervals.
翻訳日:2021-05-20 08:15:36 公開日:2021-04-28
# 機械学習分類器を用いた従業員のワークライフバランスの分析

An Experimental Analysis of Work-Life Balance Among The Employees using Machine Learning Classifiers ( http://arxiv.org/abs/2105.07837v1 )

ライセンス: Link先を確認
Karampudi Radha, Mekala Rohith(参考訳) 今日の研究者たちは、私たちの日常生活における人工知能と機械学習の重要性と、私たちの生活と都市や国家の質を改善するために使用できることを発見した。 この例は、MLが労働者の効率を高める効果的な作業スケジュールやパターンを予測できるため、労働者を救済する方法を提供すると推測されている。 最終的に、これは労働者のワークライフバランスにつながる。 しかし、どのようにして可能か? 機械学習アルゴリズムでは、作業者のワークライフバランスの感情に影響する要因を予測し、計算することが可能である。 実際にこれを行うために、12,756人のデータの規模が検討されている。 様々な要因から分析し計算した結果,様々な要因とwlb(work-life balance in short)の相関が明らかになった。 WLBの主要な役割を担うため、真剣に考慮すべき要因がいくつかある。 私たちは、ランダムフォレスト分類器、svm、ナイーブベイズアルゴリズムでデータの80%をトレーニングしました。 テスト中、アルゴリズムは71.5%の精度でwlbを予測した。

Researchers today have found out the importance of Artificial Intelligence, and Machine Learning in our daily lives, as well as they can be used to improve the quality of our lives as well as the cities and nations alike. An example of this is that it is currently speculated that ML can provide ways to relieve workers as it can predict effective working schedules and patterns which increase the efficiency of the workers. Ultimately this is leading to a Work-Life Balance for the workers. But how is this possible? It is practically possible with the Machine Learning algorithms to predict, calculate the factors affecting the feelings of the worker's work-life balance. In order to actually do this, a sizeable amount of 12,756 people's data has been taken under consideration. Upon analysing the data and calculating under various factors, we have found out the correlation of various factors and WLB(Work-Life Balance in short). There are some factors that have to be taken into serious consideration as they play a major role in WLB. We have trained 80% of our data with Random Forest Classifier, SVM and Naive Bayes algorithms. Upon testing, the algorithms predict the WLB with 71.5% as the best accuracy.
翻訳日:2021-05-18 17:21:11 公開日:2021-04-28
# (参考訳) 脳波に基づくAMCI診断システムのためのグループ特徴学習とドメイン反転ニューラルネットワーク [全文訳有]

Group Feature Learning and Domain Adversarial Neural Network for aMCI Diagnosis System Based on EEG ( http://arxiv.org/abs/2105.06270v1 )

ライセンス: CC BY 4.0
Chen-Chen Fan, Haiqun Xie, Liang Peng, Hongjun Yang, Zhen-Liang Ni, Guan'an Wang, Yan-Jie Zhou, Sheng Chen, Zhijie Fang, Shuyun Huang, Zeng-Guang Hou(参考訳) 医療診断ロボットシステムは、その客観性と精度から、ますます注目されている。 軽度認知障害(MCI)の診断はアルツハイマー病(AD)の予防に有効な方法と考えられている。 医師は様々な臨床検査に基づいてMCIを診断し、診断結果は医師の知識に依存している。 したがって、人的要因の影響を排除し、高い精度を得るためのロボット診断システムを開発する必要がある。 本稿では,2つの重要なモジュールを含むアムネティックMCI (aMCI) 診断のための新しいグループ特徴領域逆ニューラルネットワーク (GF-DANN) を提案する。 グループ特徴抽出(GFE)モジュールは、対向学習を通じてグループレベルの特徴を学習することで個人差を低減する。 デュアルブランチドメイン適応(DBDA)モジュールは、ソースとターゲットドメイン間の分散差をドメイン適応方式で低減するように慎重に設計されている。 3種類のデータセットに対して、GF-DANNは古典的な機械学習やディープラーニングと比較して最も精度が高い。 DMSデータセットでは、GF-DANNの精度は89.47%であり、感度と特異性は90%と89%である。 さらに,3つの脳波データ収集パラダイムを比較することで,dmsパラダイムがamci診断ロボットシステムを構築する可能性を証明した。

Medical diagnostic robot systems have been paid more and more attention due to its objectivity and accuracy. The diagnosis of mild cognitive impairment (MCI) is considered an effective means to prevent Alzheimer's disease (AD). Doctors diagnose MCI based on various clinical examinations, which are expensive and the diagnosis results rely on the knowledge of doctors. Therefore, it is necessary to develop a robot diagnostic system to eliminate the influence of human factors and obtain a higher accuracy rate. In this paper, we propose a novel Group Feature Domain Adversarial Neural Network (GF-DANN) for amnestic MCI (aMCI) diagnosis, which involves two important modules. A Group Feature Extraction (GFE) module is proposed to reduce individual differences by learning group-level features through adversarial learning. A Dual Branch Domain Adaptation (DBDA) module is carefully designed to reduce the distribution difference between the source and target domain in a domain adaption way. On three types of data set, GF-DANN achieves the best accuracy compared with classic machine learning and deep learning methods. On the DMS data set, GF-DANN has obtained an accuracy rate of 89.47%, and the sensitivity and specificity are 90% and 89%. In addition, by comparing three EEG data collection paradigms, our results demonstrate that the DMS paradigm has the potential to build an aMCI diagnose robot system.
翻訳日:2021-05-15 12:06:20 公開日:2021-04-28
# (参考訳) UVStyle-Net:B-Repsのための3次元スタイル類似度測定の教師なしFew-shot学習 [全文訳有]

UVStyle-Net: Unsupervised Few-shot Learning of 3D Style Similarity Measure for B-Reps ( http://arxiv.org/abs/2105.02961v1 )

ライセンス: CC BY-SA 4.0
Peter Meltzer, Hooman Shayani, Amir Khasahmadi, Pradeep Kumar Jayaraman, Aditya Sanghi and Joseph Lambourne(参考訳) B-Reps(Bundary Representations)は、3D Computer Aided Design/Manufacturing (CAD/CAM)の業界標準であり、スタイリスティックな詳細を表現している。 しかし、3Dスタイルの研究では無視されている。 既存の3Dスタイルのメトリクスは、メッシュやポイントクラウドで運用されるのが一般的で、スタイルの固定された定義を採用することでエンドユーザの主観性を考慮できない。 本稿では,事前学習(教師なし)3dエンコーダにおけるアクティベーションの2次統計において,スタイル信号を利用したb-repsのスタイル類似度尺度であるuvstyle-netを提案する。 提案手法は,B-Repデータセットが公開されていないことを考えると,完全に教師なしの設定で使用することができるため,既存のデータ駆動型3Dスタイルの手法と異なる。 さらに重要なことに、数少ない学習はスタイルに固有の主観性に関係している。 我々は,B-Repsを用いた提案手法が,計算効率が著しく高いにもかかわらず,メッシュやポイントクラウドの代替手法よりも強いスタイル信号を捕捉できることを定量的に示す。 また,入力形状に関して有意義なスタイル勾配を生成できることを示すとともに,エンドユーザが選択した肯定的な例を2つも持たない,わずかなショット学習でスタイル尺度を格段に改善できることを示す。 最後に,CADモデルの大規模公開データセット上での有効性を示す。 ソースコードとデータは将来的にリリースされる予定だ。

Boundary Representations (B-Reps) are the industry standard in 3D Computer Aided Design/Manufacturing (CAD/CAM) and industrial design due to their fidelity in representing stylistic details. However, they have been ignored in the 3D style research. Existing 3D style metrics typically operate on meshes or pointclouds, and fail to account for end-user subjectivity by adopting fixed definitions of style, either through crowd-sourcing for style labels or hand-crafted features. We propose UVStyle-Net, a style similarity measure for B-Reps that leverages the style signals in the second order statistics of the activations in a pre-trained (unsupervised) 3D encoder, and learns their relative importance to a subjective end-user through few-shot learning. Our approach differs from all existing data-driven 3D style methods since it may be used in completely unsupervised settings, which is desirable given the lack of publicly available labelled B-Rep datasets. More importantly, the few-shot learning accounts for the inherent subjectivity associated with style. We show quantitatively that our proposed method with B-Reps is able to capture stronger style signals than alternative methods on meshes and pointclouds despite its significantly greater computational efficiency. We also show it is able to generate meaningful style gradients with respect to the input shape, and that few-shot learning with as few as two positive examples selected by an end-user is sufficient to significantly improve the style measure. Finally, we demonstrate its efficacy on a large unlabeled public dataset of CAD models. Source code and data will be released in the future.
翻訳日:2021-05-11 09:44:58 公開日:2021-04-28
# (参考訳) 転送学習を用いたクエリインテントと名前付きエンティティのマルチタスク学習 [全文訳有]

Multi-Task Learning of Query Intent and Named Entities using Transfer Learning ( http://arxiv.org/abs/2105.03316v1 )

ライセンス: CC BY 4.0
Shalin Shah, Ryan Siskind(参考訳) 名前付き実体認識(NER)は広く研究されており、初期のアルゴリズムは隠れマルコフモデル(HMM)や条件付きランダムフィールド(CRF)のようなシーケンスラベルに基づいていた。 次にニューラルネットワークベースのディープラーニングモデルが続いた。 最近、BERTは、NERのようなシーケンシャルラベリングタスクにおいて、新しい技術精度を示している。 本稿では,タスク特化NERに対する様々なアプローチについて考察する。 task specific nerは、テキストのインテント(検索クエリなど)を識別する2つのコンポーネントを持ち、タスク固有の名前付きエンティティでクエリをラベル付けする。 例えば、検索クエリ(検索ボックスに入力したり、AlexaやGoogle Homeのようなデバイスで話すことができる)でターゲットストアのロケーションをラベル付けするタスクについて検討する。 店舗の立地は非常に曖昧であり、ある場所と非場所を区別することが難しい場合もある。 例えば、"pickup my order at orange store" は店の場所として "orange" を持ち、"buy orange at target" は果物として "orange" を持つ。 我々は,情報伝達にグローバルと呼ぶマルチタスク学習を行うことで,この課題を解明する。 クエリインテント(すなわちクエリインテント)を共同で学習します。 BERTベースのモデルで複数の損失関数を使用して名前付きエンティティを検索し、興味深い結果を見つけます。

Named entity recognition (NER) has been studied extensively and the earlier algorithms were based on sequence labeling like Hidden Markov Models (HMM) and conditional random fields (CRF). These were followed by neural network based deep learning models. Recently, BERT has shown new state of the art accuracy in sequence labeling tasks like NER. In this short article, we study various approaches to task specific NER. Task specific NER has two components - identifying the intent of a piece of text (like search queries), and then labeling the query with task specific named entities. For example, we consider the task of labeling Target store locations in a search query (which could be entered in a search box or spoken in a device like Alexa or Google Home). Store locations are highly ambiguous and sometimes it is difficult to differentiate between say a location and a non-location. For example, "pickup my order at orange store" has "orange" as the store location, while "buy orange at target" has "orange" as a fruit. We explore this difficulty by doing multi-task learning which we call global to local transfer of information. We jointly learn the query intent (i.e. store lookup) and the named entities by using multiple loss functions in our BERT based model and find interesting results.
翻訳日:2021-05-11 09:12:37 公開日:2021-04-28
# 2次元画像分類のための重み近似と計算再利用に基づく深層ニューラルネットワーク

Deep Neural Networks Based Weight Approximation and Computation Reuse for 2-D Image Classification ( http://arxiv.org/abs/2105.02954v1 )

ライセンス: Link先を確認
Mohammed F. Tolba, Huruy Tekle Tesfai, Hani Saleh, Baker Mohammad, and Mahmoud Al-Qutayri(参考訳) Deep Neural Networks(DNN)は計算量とメモリ集約性があるため、IoTノードなどのリソース制約のあるデバイスにおいて、ハードウェア実装が特に課題となる。 本稿では,画像認識に使用するデータ再利用技術を用いて近似計算を行うことにより,dnnsの性能を向上させる新しい手法を提案する。 DNNの重みは、トレーニング期間中の線形および二次近似法に基づいて近似され、全ての重みを線形/二次係数に置き換えて、同じ係数を用いて異なる重みを計算できる方法で推論を行う。 これにより、処理要素(PE)アレイ間の重みの繰り返しが発生し、それによってDNNサブ計算(計算再利用)の再利用が可能になり、同じデータ(データ再利用)を活用してDNNの計算、メモリアクセスを削減し、トレーニング時間の増加を犠牲にしてエネルギー効率を向上させる。 MNISTとCIFAR 10のデータセットの完全な解析結果が画像認識のために提示され、LeNet 5はパラメータ数を1211.3倍に削減し、精度は0.9%未満であった。 art row stationary(rs)メソッドの状態と比較すると、提案されたアーキテクチャは必要な加算器と乗算器の総数の54%を節約した。 全体として、提案されたアプローチは、必要なメモリアクセス数だけでなく、メモリサイズ要件の削減によるIoTエッジデバイスに適している。

Deep Neural Networks (DNNs) are computationally and memory intensive, which makes their hardware implementation a challenging task especially for resource constrained devices such as IoT nodes. To address this challenge, this paper introduces a new method to improve DNNs performance by fusing approximate computing with data reuse techniques to be used for image recognition applications. DNNs weights are approximated based on the linear and quadratic approximation methods during the training phase, then, all of the weights are replaced with the linear/quadratic coefficients to execute the inference in a way where different weights could be computed using the same coefficients. This leads to a repetition of the weights across the processing element (PE) array, which in turn enables the reuse of the DNN sub-computations (computational reuse) and leverage the same data (data reuse) to reduce DNNs computations, memory accesses, and improve energy efficiency albeit at the cost of increased training time. Complete analysis for both MNIST and CIFAR 10 datasets is presented for image recognition , where LeNet 5 revealed a reduction in the number of parameters by a factor of 1211.3x with a drop of less than 0.9% in accuracy. When compared to the state of the art Row Stationary (RS) method, the proposed architecture saved 54% of the total number of adders and multipliers needed. Overall, the proposed approach is suitable for IoT edge devices as it reduces the memory size requirement as well as the number of needed memory accesses.
翻訳日:2021-05-11 08:36:35 公開日:2021-04-28
# sky画像を用いた物理およびデータ駆動型nowcasting法の検討

A review on physical and data-driven based nowcasting methods using sky images ( http://arxiv.org/abs/2105.02959v1 )

ライセンス: Link先を確認
Ekanki Sharma and Wilfried Elmenreich(参考訳) 再生可能エネルギー資源(RES)の中では、太陽はエネルギー源の最も一般的な形態であり、電力網への広範囲な統合に特に関心がある。 しかし、太陽源の断続的な性質のため、エネルギー需要に対応するために不断で信頼性の高い電源を確保するために太陽照射を予測することが最も重要である。 衛星ベースの方法、空画像に基づく方法、機械学習に基づく方法、数値気象予測に基づく方法など、太陽照度予測を行ういくつかの方法がある。 本稿では,空画像を用いた流速予測手法として,短時間の時間内太陽予測手法について概説する。 これに加えて、sky imageのどの機能がnowcastingメソッドにとって重要なのかを報告し、議論する。

Amongst all the renewable energy resources (RES), solar is the most popular form of energy source and is of particular interest for its widely integration into the power grid. However, due to the intermittent nature of solar source, it is of the greatest significance to forecast solar irradiance to ensure uninterrupted and reliable power supply to serve the energy demand. There are several approaches to perform solar irradiance forecasting, for instance satellite-based methods, sky image-based methods, machine learning-based methods, and numerical weather prediction-based methods. In this paper, we present a review on short-term intra-hour solar prediction techniques known as nowcasting methods using sky images. Along with this, we also report and discuss which sky image features are significant for the nowcasting methods.
翻訳日:2021-05-11 08:36:07 公開日:2021-04-28
# 深層移動学習に基づく在宅健康モニタリングのためのエッジコンピューティング手法

A Deep Transfer Learning-based Edge Computing Method for Home Health Monitoring ( http://arxiv.org/abs/2105.02960v1 )

ライセンス: Link先を確認
Abu Sufian, Changsheng You and Mianxiong Dong(参考訳) 医療は、パンデミックや疫病の状況で大きなストレスを受けます。 パンデミックを引き起こす新型コロナウイルス(COVID-19)など一部の病気は、感染した人から他人に非常に感染しやすい。 したがって、非クリティカル感染症患者に在宅健康サービスの提供は、このようなストレスを軽減するのに役立ちます。 また、この習慣は在宅高齢者の健康関連活動を監視する上でも非常に有用である。 在宅健康モニタリングは、視覚センサーを用いた在宅患者や高齢者の継続的なモニタリングであり、在宅医療サービスの非侵襲的なサブ領域である。 本稿では,在宅健康モニタリングのための伝達学習に基づくエッジコンピューティング手法を提案する。 具体的には、事前訓練された畳み込みニューラルネットワークベースのモデルでは、少量の地上データと微調整によるエッジデバイスを利用してモデルをトレーニングすることができる。 したがって、RGB、深度、サーマルセンサーによってキャプチャされた視覚データのオンサイト計算は、安価な方法で可能である。 その結果、この種のセンサで取得した生データは、家庭から外部に送信される必要はない。 したがって、プライバシー、セキュリティ、帯域幅の不足は問題ではない。 さらに、上記の目的のリアルタイムコンピューティングは、経済的に可能である。

The health-care gets huge stress in a pandemic or epidemic situation. Some diseases such as COVID-19 that causes a pandemic is highly spreadable from an infected person to others. Therefore, providing health services at home for non-critical infected patients with isolation shall assist to mitigate this kind of stress. In addition, this practice is also very useful for monitoring the health-related activities of elders who live at home. The home health monitoring, a continuous monitoring of a patient or elder at home using visual sensors is one such non-intrusive sub-area of health services at home. In this article, we propose a transfer learning-based edge computing method for home health monitoring. Specifically, a pre-trained convolutional neural network-based model can leverage edge devices with a small amount of ground-labeled data and fine-tuning method to train the model. Therefore, on-site computing of visual data captured by RGB, depth, or thermal sensor could be possible in an affordable way. As a result, raw data captured by these types of sensors is not required to be sent outside from home. Therefore, privacy, security, and bandwidth scarcity shall not be issues. Moreover, real-time computing for the above-mentioned purposes shall be possible in an economical way.
翻訳日:2021-05-11 08:35:23 公開日:2021-04-28
# (参考訳) ディープエンコーダネットワークを用いた非線形状態空間同定 [全文訳有]

Nonlinear state-space identification using deep encoder networks ( http://arxiv.org/abs/2012.07697v2 )

ライセンス: CC BY 4.0
Gerben Beintema, Roland Toth and Maarten Schoukens(参考訳) 力学系の非線形状態空間同定は、モデル誤差の影響を減らすためにシミュレーション誤差を最小化することで最もよく行われる。 この最適化問題は大規模データセットでは計算コストがかかる。 さらに、この問題は非凸性も強く、しばしば準最適パラメータ推定につながる。 本稿では,多重射法と同様の複数の独立した区間に分割してシミュレーション損失を近似する手法を提案する。 この分割操作は、データセットサイズによくスケールし、非凸コスト関数に平滑化効果を持つ確率的勾配最適化法の使用を可能にする。 本論文の主な貢献は,各セクションの開始時の初期状態を推定するエンコーダ関数の導入である。 エンコーダ関数は、履歴入力と出力サンプルから始まるフィードフォワードニューラルネットワークを用いて初期状態を推定する。 提案手法の効率と性能は,よく知られた2つのベンチマークで示され,例えば,wiener-hammersteinベンチマークにおいて最も低い既知のシミュレーション誤差を達成した。

Nonlinear state-space identification for dynamical systems is most often performed by minimizing the simulation error to reduce the effect of model errors. This optimization problem becomes computationally expensive for large datasets. Moreover, the problem is also strongly non-convex, often leading to sub-optimal parameter estimates. This paper introduces a method that approximates the simulation loss by splitting the data set into multiple independent sections similar to the multiple shooting method. This splitting operation allows for the use of stochastic gradient optimization methods which scale well with data set size and has a smoothing effect on the non-convex cost function. The main contribution of this paper is the introduction of an encoder function to estimate the initial state at the start of each section. The encoder function estimates the initial states using a feed-forward neural network starting from historical input and output samples. The efficiency and performance of the proposed state-space encoder method is illustrated on two well-known benchmarks where, for instance, the method achieves the lowest known simulation error on the Wiener--Hammerstein benchmark.
翻訳日:2021-05-08 21:48:21 公開日:2021-04-28
# (参考訳) ディープエンコーダを用いたビデオデータからの非線形状態空間モデル同定 [全文訳有]

Non-linear State-space Model Identification from Video Data using Deep Encoders ( http://arxiv.org/abs/2012.07721v2 )

ライセンス: CC BY 4.0
Gerben Izaak Beintema, Roland Toth and Maarten Schoukens(参考訳) ビデオストリームによって測定されるシステムのような高次元入力と出力を持つシステムを特定することは、ロボット工学、自動運転車、医療画像などの多くの応用において難しい問題である。 本稿では,高次元入力・出力データから始まる非線形状態空間同定手法を提案する。 複数の計算と概念の進歩が組み合わされ、データの高次元の性質を扱う。 ニューラルネットワークで表現されたエンコーダ関数を導入して再構成可能性マップを学習し、過去の入力や出力からモデル状態を予測する。 このエンコーダ関数はダイナミクスと共同で学習される。 さらに,高次元および大規模データセットを扱う場合の計算時間を制御し続けるため,マルチシューティングやバッチ最適化の改善など,複数の計算改善が提案されている。 制御可能な球のシミュレーション環境の映像ストリームに,提案手法を適用した。 シミュレーションにより,提案手法を用いて得られたモデルの長期予測に優れた低シミュレーション誤差を示す。

Identifying systems with high-dimensional inputs and outputs, such as systems measured by video streams, is a challenging problem with numerous applications in robotics, autonomous vehicles and medical imaging. In this paper, we propose a novel non-linear state-space identification method starting from high-dimensional input and output data. Multiple computational and conceptual advances are combined to handle the high-dimensional nature of the data. An encoder function, represented by a neural network, is introduced to learn a reconstructability map to estimate the model states from past inputs and outputs. This encoder function is jointly learned with the dynamics. Furthermore, multiple computational improvements, such as an improved reformulation of multiple shooting and batch optimization, are proposed to keep the computational time under control when dealing with high-dimensional and large datasets. We apply the proposed method to a video stream of a simulated environment of a controllable ball in a unit box. The simulation study shows low simulation error with excellent long term prediction for the obtained model using the proposed method.
翻訳日:2021-05-08 21:38:36 公開日:2021-04-28
# (参考訳) イベントシーケンスに基づくフライトサービスプロセスの因果発見 [全文訳有]

Causal Discovery of Flight Service Process Based on Event Sequence ( http://arxiv.org/abs/2105.00866v1 )

ライセンス: CC BY 4.0
Zhiwei Xing, Lin Zhang, Huan Xia, Qian Luo, and Zhao-xin Chen(参考訳) 民間航空産業の発展は、空港地上支援サービスの効率化の要求を継続的に高めている。 既存の地上支援研究において,サービスノードと飛行遅延の因果関係を研究するために,地上支援ログから直接支援を受けるプロセスモデルがまだ存在していない。 ほとんどの地上支援研究は、主に飛行遅延を予測する機械学習手法を用いており、それらに基づく飛行支援モデルは理想的なモデルである。 この研究は、地上支援リンクの背後にある因果メカニズムの詳細な研究は行わず、飛行遅延の真の原因を明らかにしなかった。 したがって、機械学習による飛行遅延予測には一定の偏差があり、研究に基づく理想的なモデルと実際のサービスプロセスとの間には一定の偏差がある。 したがって、保証ログからプロセスモデルを取得し、その因果関係を分析することは事実上重要である。 しかし、既存のプロセス因果因子発見法は、因果因子の仮定が確立され、潜伏変数の存在を考慮しない場合にのみ、特定の研究を行う。 そこで本稿では,因果関係を前提にせずにプロセス因果要因の発見を実現する枠組みを提案する。 最適化されたファジィマイニングプロセスモデルがサービスベンチマークモデルとして使用され、局所因果探索アルゴリズムが因果因子の探索に使用される。 本稿では,因果因子の探索に因果因子を仮定せず,ベンチマークデータセットを試験に用いる新しいマルコフ毛布探索アルゴリズムを提案する。 最後に、実際のフライトサービスデータを使用する。

The development of the civil aviation industry has continuously increased the requirements for the efficiency of airport ground support services. In the existing ground support research, there has not yet been a process model that directly obtains support from the ground support log to study the causal relationship between service nodes and flight delays. Most ground support studies mainly use machine learning methods to predict flight delays, and the flight support model they are based on is an ideal model. The study did not conduct an in-depth study of the causal mechanism behind the ground support link and did not reveal the true cause of flight delays. Therefore, there is a certain deviation in the prediction of flight delays by machine learning, and there is a certain deviation between the ideal model based on the research and the actual service process. Therefore, it is of practical significance to obtain the process model from the guarantee log and analyze its causality. However, the existing process causal factor discovery methods only do certain research when the assumption of causal sufficiency is established and does not consider the existence of latent variables. Therefore, this article proposes a framework to realize the discovery of process causal factors without assuming causal sufficiency. The optimized fuzzy mining process model is used as the service benchmark model, and the local causal discovery algorithm is used to discover the causal factors. Under this framework, this paper proposes a new Markov blanket discovery algorithm that does not assume causal sufficiency to discover causal factors and uses benchmark data sets for testing. Finally, the actual flight service data is used.
翻訳日:2021-05-06 06:44:43 公開日:2021-04-28
# (参考訳) 新型コロナウイルス病院跡の明示的重複隠れマルコフモデルに対する近似ベイズ計算

Approximate Bayesian Computation for an Explicit-Duration Hidden Markov Model of COVID-19 Hospital Trajectories ( http://arxiv.org/abs/2105.00773v1 )

ライセンス: CC BY 4.0
Gian Marco Visani, Alexandra Hope Lee, Cuong Nguyen, David M. Kent, John B. Wong, Joshua T. Cohen, and Michael C. Hughes(参考訳) 新型コロナウイルスのパンデミックの真っ最中に病院の制約された資源をモデル化し、将来的な需要の意思決定者に通知し、介入の社会的価値を評価するという課題に対処する。 幅広い適用性のために、関心のある領域の患者レベルデータが利用できない、一般的なが困難なシナリオに注目します。 代わりに、毎日の入院回数を考えると、一般病棟の患者数、集中治療室の患者数、人工呼吸器の患者数など、観察された資源使用量の合計数をモデル化する。 本稿では,個々の患者軌跡がこれらの数を生成する方法を説明するために,ACED-HMM(ACED-HMM)と呼ばれる集合数正規化隠れマルコフモデルを提案する。 そこで我々は,特定の場所からの集計数を与えられたモデルの遷移パラメータと持続時間パラメータの後方分布からサンプルを抽出し,そのモデルが関心のある地域や個々の病院に適応する近似ベイズ計算手法を開発した。 この後方からのサンプルは、任意の利子数の将来予測を生成するのに使うことができる。 米国と英国のデータを使って、パンデミックのダイナミクスが変化しても、当社のメカニックなアプローチが未来の競争的確率的予測をもたらすことを示します。 さらに,我々のモデルがリカバリ確率や保留分布の長さについての洞察を提供する方法を示し,介入の可能性の社会的価値に関する疑問に答える可能性を提案する。

We address the problem of modeling constrained hospital resources in the midst of the COVID-19 pandemic in order to inform decision-makers of future demand and assess the societal value of possible interventions. For broad applicability, we focus on the common yet challenging scenario where patient-level data for a region of interest are not available. Instead, given daily admissions counts, we model aggregated counts of observed resource use, such as the number of patients in the general ward, in the intensive care unit, or on a ventilator. In order to explain how individual patient trajectories produce these counts, we propose an aggregate count explicit-duration hidden Markov model, nicknamed the ACED-HMM, with an interpretable, compact parameterization. We develop an Approximate Bayesian Computation approach that draws samples from the posterior distribution over the model's transition and duration parameters given aggregate counts from a specific location, thus adapting the model to a region or individual hospital site of interest. Samples from this posterior can then be used to produce future forecasts of any counts of interest. Using data from the United States and the United Kingdom, we show our mechanistic approach provides competitive probabilistic forecasts for the future even as the dynamics of the pandemic shift. Furthermore, we show how our model provides insight about recovery probabilities or length of stay distributions, and we suggest its potential to answer challenging what-if questions about the societal value of possible interventions.
翻訳日:2021-05-06 06:24:29 公開日:2021-04-28
# モデル駆動深層学習によるミリ波大規模MIMOシステムのチャネル推定とフィードバック

Model-Driven Deep Learning Based Channel Estimation and Feedback for Millimeter-Wave Massive Hybrid MIMO Systems ( http://arxiv.org/abs/2104.11052v2 )

ライセンス: Link先を確認
Xisuo Ma, Zhen Gao, Feifei Gao, Marco Di Renzo(参考訳) 本稿では,広帯域ミリ波(mmwave)大規模ハイブリッド多入力多重出力(mimo)システムのためのモデル駆動型深層学習(mddl)に基づくチャネル推定とフィードバック方式を提案する。 まず、時間分割二重化システムのアップリンクチャネル推定について検討する。 基地局(BS)における無線周波数(RF)の限られた数から高次元チャネルを推定するためのアップリンクパイロットオーバーヘッドを低減するために,位相シフトネットワークとチャネル推定器を自動エンコーダとして共同で訓練することを提案する。 特に,プリオリモデルからチャネルの構造的疎結合を利用して,データサンプルから統合トレーニング可能なパラメータを学習することにより,提案手法を考案した冗長辞書を用いたMMV-LAMPネットワークが,複数のサブキャリアのチャネルを協調的に復元し,性能を著しく向上させることができる。 さらに,周波数分割二重化システムのダウンリンクチャネル推定とフィードバックについて検討する。 同様に、利用者のBSおよびチャネル推定器のパイロットは、それぞれエンコーダとデコーダとして共同で訓練することができる。 さらに、チャネルフィードバックのオーバーヘッドをさらに軽減するために、サブキャリアの一部の受信したパイロットのみがBSにフィードバックされ、MMV-LAMPネットワークを利用して空間周波数チャネルマトリックスを再構築することができる。 MDDLに基づくチャネル推定とフィードバック方式は,最先端の手法よりも優れていることを示す。

This paper proposes a model-driven deep learning (MDDL)-based channel estimation and feedback scheme for wideband millimeter-wave (mmWave) massive hybrid multiple-input multiple-output (MIMO) systems, where the angle-delay domain channels' sparsity is exploited for reducing the overhead. Firstly, we consider the uplink channel estimation for time-division duplexing systems. To reduce the uplink pilot overhead for estimating the high-dimensional channels from a limited number of radio frequency (RF) chains at the base station (BS), we propose to jointly train the phase shift network and the channel estimator as an auto-encoder. Particularly, by exploiting the channels' structured sparsity from an a priori model and learning the integrated trainable parameters from the data samples, the proposed multiple-measurement -vectors learned approximate message passing (MMV-LAMP) network with the devised redundant dictionary can jointly recover multiple subcarriers' channels with significantly enhanced performance. Moreover, we consider the downlink channel estimation and feedback for frequency-division duplexing systems. Similarly, the pilots at the BS and channel estimator at the users can be jointly trained as an encoder and a decoder, respectively. Besides, to further reduce the channel feedback overhead, only the received pilots on part of the subcarriers are fed back to the BS, which can exploit the MMV-LAMP network to reconstruct the spatial-frequency channel matrix. Numerical results show that the proposed MDDL-based channel estimation and feedback scheme outperforms the state-of-the-art approaches.
翻訳日:2021-05-03 19:49:48 公開日:2021-04-28
# 深層学習法を用いた新型コロナウイルスの新しい症例の時系列予測と新たな死亡率

Time Series Forecasting of New Cases and New Deaths Rate for COVID-19 using Deep Learning Methods ( http://arxiv.org/abs/2104.15007v1 )

ライセンス: Link先を確認
Nooshin Ayoobi, Danial Sharifrazi, Roohallah Alizadehsani, Afshin Shoeibi, Juan M. Gorriz, Hossein Moosaei, Abbas Khosravi, Saeid Nahavandi, Abdoulmohammad Gholamzadeh Chofreh, Feybi Ariani Goni, Jiri Jaromir Klemes, Amir Mosavi(参考訳) Covid-19は2019年に開始され、多くの国や政府に規制が課されている。 この期間に新たな症例や死亡件数を予測することは、将来必要となる費用や施設を予測する上で有用なステップである。 本研究の目的は,新たな症例と死亡率を7日間予測することである。 深層学習法と統計解析は100日間にわたってこれらの予測をモデル化する。 WHOのウェブサイトで採用されたデータに対して,6つの異なる深層学習手法を検討した。 3つの方法がLSTM、Convolutional LSTM、GRUとして知られている。 両方向モードは、オーストラリアやイランの国々で新たなケースの発生率と死亡率を予測する方法として考慮される。 この研究は、新型コロナウイルスの新しい症例と新しい死亡率時系列を予測するために、前述の3つの深層学習手法と、彼らの双方向モデルを実装しようとしている。 方法はすべて比較され、結果が示されます。 結果はグラフと統計解析の形で検討される。 その結果,双方向モデルは他のモデルよりも誤差が低いことがわかった。 すべてのモデルを比較するためにいくつかの誤差評価指標が提示され、最後に双方向手法の優位性が決定される。 実験結果と統計的テストにより,提案手法を他のベースライン法と比較した。 この研究は、新型コロナウイルス(COVID-19)対策や長期計画決定に有効かもしれない。

Covid-19 has been started in the year 2019 and imposed restrictions in many countries and costs organisations and governments. Predicting the number of new cases and deaths during this period can be a useful step in predicting the costs and facilities required in the future. The purpose of this study is to predict new cases and death rate for seven days ahead. Deep learning methods and statistical analysis model these predictions for 100 days. Six different deep learning methods are examined for the data adopted from the WHO website. Three methods are known as LSTM, Convolutional LSTM, and GRU. The bi-directional mode is then considered for each method to forecast the rate of new cases and new deaths for Australia and Iran countries. This study is novel as it attempts to implement the mentioned three deep learning methods, along with their Bi-directional models, to predict COVID-19 new cases and new death rate time series. All methods are compared, and results are presented. The results are examined in the form of graphs and statistical analyses. The results show that the Bi-directional models have lower error than other models. Several error evaluation metrics are presented to compare all models, and finally, the superiority of Bi-directional methods are determined. The experimental results and statistical test show on datasets to compare the proposed method with other baseline methods. This research could be useful for organisations working against COVID-19 and determining their long-term plans.
翻訳日:2021-05-03 13:48:40 公開日:2021-04-28
# 船舶ターンアラウンド時間予測のための機械学習システム

Machine Learning based System for Vessel Turnaround Time Prediction ( http://arxiv.org/abs/2104.14980v1 )

ライセンス: Link先を確認
Dejan Stepec and Tomaz Martincic and Fabrice Klein and Daniel Vladusic and Joao Pita Costa(参考訳) 本稿では,機械学習と標準ポートコールデータに基づいて,船舶のターンアラウンド時間を予測する新しいシステムを提案する。 また, 特定海洋ビッグデータの利用について検討し, 利用可能なデータの精度を高め, 開発システムの性能向上を図る。 ボルドー港で大規模な評価が行われ,11年間の港湾コールデータの結果を報告し,港からの実運用データに対する検証を行う。 提案した自動データ駆動ターンアラウンド時間予測システムは,現在のボルドー港のマニュアルエキスパートベースシステムと比較して,精度の向上を実現している。

In this paper, we present a novel system for predicting vessel turnaround time, based on machine learning and standardized port call data. We also investigate the use of specific external maritime big data, to enhance the accuracy of the available data and improve the performance of the developed system. An extensive evaluation is performed in Port of Bordeaux, where we report the results on 11 years of historical port call data and provide verification on live, operational data from the port. The proposed automated data-driven turnaround time prediction system is able to perform with increased accuracy, in comparison with the current manual expert-based system in Port of Bordeaux.
翻訳日:2021-05-03 13:34:29 公開日:2021-04-28
# 自己回帰型および言語横断型音声認識ネットワークを用いた教師なしサブワードモデルの有効性

The effectiveness of unsupervised subword modeling with autoregressive and cross-lingual phone-aware networks ( http://arxiv.org/abs/2012.09544v2 )

ライセンス: Link先を確認
Siyuan Feng, Odette Scharenborg(参考訳) この研究は、教師なしサブワードモデリング、すなわち、言語のサブワード単位を区別できる音響特徴表現の学習に対処する。 自己指導型学習と言語間知識伝達を組み合わせた2段階学習フレームワークを提案する。 このフレームワークは、フロントエンドとしてautoregressive prediction coding (apc)、バックエンドとしてcross-lingual deep neural network (dnn)で構成される。 Libri-lightおよびZeroSpeech 2017データベースで実施したABXサブワード識別性タスクの実験により、我々のアプローチは最先端の研究よりも競争力があるか優れていることが示された。 音素・調音機能(AF)レベルにおける包括的・系統的分析により,単声母音情報よりもディフソンを捕捉し,異なる種類の子音に対して取得した情報量に差が認められた。 また,音素情報取得におけるバックエンドの有効性と,音素に割り当てられた言語間ラベルの品質との間には正の相関が認められた。 The AF-level analysis with t-SNE visualization results showed that the proposed approach is better than MFCC and APC features in capture manner and place of articulation information, vowel height and backness information。 分析の結果,提案手法の2段階は音素情報とAF情報の収集に有効であることが判明した。 それにもかかわらず、単音母音情報は子音情報よりもうまく捉えられていないため、将来の研究は単音母音情報の獲得に焦点をあてるべきである。

This study addresses unsupervised subword modeling, i.e., learning acoustic feature representations that can distinguish between subword units of a language. We propose a two-stage learning framework that combines self-supervised learning and cross-lingual knowledge transfer. The framework consists of autoregressive predictive coding (APC) as the front-end and a cross-lingual deep neural network (DNN) as the back-end. Experiments on the ABX subword discriminability task conducted with the Libri-light and ZeroSpeech 2017 databases showed that our approach is competitive or superior to state-of-the-art studies. Comprehensive and systematic analyses at the phoneme- and articulatory feature (AF)-level showed that our approach was better at capturing diphthong than monophthong vowel information, while also differences in the amount of information captured for different types of consonants were observed. Moreover, a positive correlation was found between the effectiveness of the back-end in capturing a phoneme's information and the quality of the cross-lingual phone labels assigned to the phoneme. The AF-level analysis together with t-SNE visualization results showed that the proposed approach is better than MFCC and APC features in capturing manner and place of articulation information, vowel height, and backness information. Taken together, the analyses showed that the two stages in our approach are both effective in capturing phoneme and AF information. Nevertheless, monophthong vowel information is less well captured than consonant information, which suggests that future research should focus on improving capturing monophthong vowel information.
翻訳日:2021-05-02 07:18:52 公開日:2021-04-28
# (参考訳) 臨床画像と病変情報を用いた深層学習を用いたスマートフォンによる皮膚癌の分類 [全文訳有]

A Smartphone based Application for Skin Cancer Classification Using Deep Learning with Clinical Images and Lesion Information ( http://arxiv.org/abs/2104.14353v1 )

ライセンス: CC BY 4.0
Breno Krohling, Pedro B. C. Castro, Andre G. C. Pacheco, and Renato A. Krohling(参考訳) 過去数十年にわたり、皮膚がん、メラノーマ、非メラノーマの発生率は連続的に増加している。 特に皮膚がんの致死型であるメラノーマでは、早期発見は患者の予後を増すのに重要である。 近年,深層ニューラルネットワーク (dnn) が皮膚がん検出に有用になった。 本研究では,スマートフォンを用いた皮膚がん検出支援アプリケーションを提案する。 このアプリケーションは、スマートフォンから収集された臨床画像と患者人口に基づいて訓練された畳み込みニューラルネットワーク(CNN)に基づいている。 また, 皮膚がんデータセットのバランスが崩れているため, 差分進化(DE)アルゴリズムの突然変異演算子を用いて, データのバランスをとるアプローチを提案する。 この意味では、皮膚がんスクリーニングフェーズで医師を支援する柔軟なツールを提供するだけでなく、バランスの取れた精度85%、リコール96%の有望な結果が得られる。

Over the last decades, the incidence of skin cancer, melanoma and non-melanoma, has increased at a continuous rate. In particular for melanoma, the deadliest type of skin cancer, early detection is important to increase patient prognosis. Recently, deep neural networks (DNNs) have become viable to deal with skin cancer detection. In this work, we present a smartphone-based application to assist on skin cancer detection. This application is based on a Convolutional Neural Network(CNN) trained on clinical images and patients demographics, both collected from smartphones. Also, as skin cancer datasets are imbalanced, we present an approach, based on the mutation operator of Differential Evolution (DE) algorithm, to balance data. In this sense, beyond provides a flexible tool to assist doctors on skin cancer screening phase, the method obtains promising results with a balanced accuracy of 85% and a recall of 96%.
翻訳日:2021-05-01 03:00:03 公開日:2021-04-28
# (参考訳) ニューラルネットワークを用いたインド上空の落雷予測器の定義 [全文訳有]

Defined the predictors of the lightning over India by using artificial neural network ( http://arxiv.org/abs/2104.13958v1 )

ライセンス: CC BY 4.0
Pradip Kumar Gautam and Deweshvar Singh(参考訳) 雷の被害は、生命と財産に大きな損失をもたらす。 しかし、近年の雷は、現在研究または観測されている主要な自然災害の1つと見なされている。 インドにおける雷の特徴は、日次データ低解像度時系列と月次データ高解像度月次気候学を用いて研究されている。 我々は、ANN時系列法(ニューラルネットワーク)を用いて時系列を分析し、どれがインドにおける雷の最良の予測因子になるかを定義した。 雷の時系列は出力(依存)であり、入力(独立)はk-index、aod、capeなどである。 ガウス過程の回帰、サポートベクターマシン、回帰木、線形回帰は入力変数を定義した。 ほぼ線形関係を示す。

Lightning casualties cause tremendous loss to life and property. However, very lately lightning has been considered as one of the major natural calamities which is now studied or monitored with proper instrumentation. The lightning characteristics over India have been studying by using daily data low resolution time series and monthly data high resolution monthly climatology. We have used ANN time series method (a neural network) to analyze the time series and defined which one will be the best predictor of lightning over India. The time series of lightning is output(dependent) and input (independent) are k-index, AOD, Cape etc. The Gaussian process regression, support vector machine, regression trees and linear regression defined the input variables. Which show approximately linear relation.
翻訳日:2021-05-01 02:45:49 公開日:2021-04-28
# (参考訳) Tail-Net: ビッグデータアプリケーションのための最も低い特異トリプレットを抽出する [全文訳有]

Tail-Net: Extracting Lowest Singular Triplets for Big Data Applications ( http://arxiv.org/abs/2104.13968v1 )

ライセンス: CC BY 4.0
Gurpreet Singh and Soumyajit Gupta(参考訳) SVDは、最大の特異値に対応するトップランク-r特異因子の形で支配的な特徴を特定するための探索ツールとして機能する。 ビッグデータアプリケーションでは、singular value decomposition(svd)が主なメモリ要件のために制限的であることがよく知られている。 しかしながら、大規模グラフデータセットにおけるコミュニティ検出、クラスタリング、ボトルネック識別などの多くのアプリケーションは、最も低い特異値と特異対応するベクトルの識別に依存している。 例えば、グラフラプラシアンの最低特異値は、非向非巡回グラフに対する孤立したクラスタ(ゼロ特異値)やボトルネック(最も低い非ゼロ特異値)の数を明らかにする。 しかし、これは膨大なメモリ要件のため、実用的なビッグデータアプリケーションではすぐに実現不可能になる。 さらに、そのようなアプリケーションでは、完全な分解を計算的に外接にする最小の特異因子のみが望まれる。 本研究では,提案したRange-Netをメモリに簡単に拡張し,与えられた大データセットと指定されたランクrの最小特異要素の効率的な抽出を計算し,従来のSVDをベースラインとして,検証とベンチマーキングのための総合的および実践的なデータセットに関する数値実験を多数提示する。

SVD serves as an exploratory tool in identifying the dominant features in the form of top rank-r singular factors corresponding to the largest singular values. For Big Data applications it is well known that Singular Value Decomposition (SVD) is restrictive due to main memory requirements. However, a number of applications such as community detection, clustering, or bottleneck identification in large scale graph data-sets rely upon identifying the lowest singular values and the singular corresponding vectors. For example, the lowest singular values of a graph Laplacian reveal the number of isolated clusters (zero singular values) or bottlenecks (lowest non-zero singular values) for undirected, acyclic graphs. A naive approach here would be to perform a full SVD however, this quickly becomes infeasible for practical big data applications due to the enormous memory requirements. Furthermore, for such applications only a few lowest singular factors are desired making a full decomposition computationally exorbitant. In this work, we trivially extend the previously proposed Range-Net to \textbf{Tail-Net} for a memory and compute efficient extraction of lowest singular factors of a given big dataset and a specified rank-r. We present a number of numerical experiments on both synthetic and practical data-sets for verification and bench-marking using conventional SVD as the baseline.
翻訳日:2021-05-01 02:38:30 公開日:2021-04-28
# (参考訳) マルチテナントDNNアクセラレータスケジューリングのためのドメイン固有遺伝的アルゴリズム [全文訳有]

Domain-specific Genetic Algorithm for Multi-tenant DNNAccelerator Scheduling ( http://arxiv.org/abs/2104.13997v1 )

ライセンス: CC BY 4.0
Sheng-Chun Kao, Tushar Krishna(参考訳) Deep LearningはデータセンタやHPCでさまざまなアプリケーションを推進し続けているため、いくつかのサブアクセラレータコア/チップレットを備えた大規模アクセラレータの構築が増えている。 本研究は, 加速器におけるマルチテナント支援の問題について考察する。 特に、複数のDNNからのレイヤを同時にアクセラレーターにマッピングする問題に焦点を当てる。 非常に大きな探索空間を考えると、探索を最適化問題として定式化し、g# withcustom operatorと呼ばれる特殊な遺伝的アルゴリズムを開発し、構造化されたサンプル効率の探索を可能にする。 我々は、G#をいくつかの一般的なヒューリスティック、最先端最適化方法、異なるアクセラレータセットティング(大型/小型アクセラレータ)と異なるサブアクセラレータ構成(均一/均一)の強化学習手法と定量的に比較する。 さらに,リアルタイムスケジューリングを実現するために,学習スケジュールを一般化し,次のジョブのバッチに転送し,スケジュール計算時間をほぼゼロにする手法も示す。

As Deep Learning continues to drive a variety of applications in datacenters and HPC, there is a growing trend towards building large accelerators with several sub-accelerator cores/chiplets. This work looks at the problem of supporting multi-tenancy on such accelerators. In particular, we focus on the problem of mapping layers from several DNNs simultaneously on an accelerator. Given the extremely large search space, we formulate the search as an optimization problem and develop a specialized genetic algorithm called G# withcustom operators to enable structured sample-efficient exploration. We quantitatively compare G# with several common heuristics, state-of-the-art optimization methods, and reinforcement learning methods across different accelerator set-tings (large/small accelerators) and different sub-accelerator configurations (homogeneous/heterog eneous), and observeG# can consistently find better solutions. Further, to enable real-time scheduling, we also demonstrate a method to generalize the learnt schedules and transfer them to the next batch of jobs, reducing schedule compute time to near zero.
翻訳日:2021-05-01 02:28:12 公開日:2021-04-28
# (参考訳) kalman filter for online rating: one-fits-all approach [全文訳有]

Simplified Kalman filter for online rating: one-fits-all approach ( http://arxiv.org/abs/2104.14012v1 )

ライセンス: CC BY 4.0
Leszek Szczecinski and Rapha\"elle Tihon(参考訳) 本研究では,スポーツにおける評価の問題に対処し,選手/チームのスキルをゲームの結果から推定する。 本研究は,ゲーム結果とスキルの関係の確率的モデルを利用して,新たなゲーム後のスキルを推定するオンライン評価アルゴリズムに着目した。 近似カルマンフィルタと見なすことができ、任意のスキル・アウトカムモデルで使用でき、個人でもグループ・スポーツでも適用できるという意味では一般的であるベイズ的アプローチを提案する。 我々は、Elo、Glicko、TrueSkillアルゴリズムのような知識の豊富なアルゴリズムが、我々が提案するオールワンフィットアプローチの例と見なすことができることを示す。 ベイズ法がより単純な解に対して実際に得られる条件を明らかにするために, 実験データと同様に合成を用いた数値例を用いて, 既知のアルゴリズムと新しいアルゴリズムを批判的に比較する。

In this work, we deal with the problem of rating in sports, where the skills of the players/teams are inferred from the observed outcomes of the games. Our focus is on the online rating algorithms which estimate the skills after each new game by exploiting the probabilistic models of the relationship between the skills and the game outcome. We propose a Bayesian approach which may be seen as an approximate Kalman filter and which is generic in the sense that it can be used with any skills-outcome model and can be applied in the individual -- as well as in the group-sports. We show how the well-know algorithms (such as the Elo, the Glicko, and the TrueSkill algorithms) may be seen as instances of the one-fits-all approach we propose. In order to clarify the conditions under which the gains of the Bayesian approach over the simpler solutions can actually materialize, we critically compare the known and the new algorithms by means of numerical examples using the synthetic as well as the empirical data.
翻訳日:2021-05-01 01:14:08 公開日:2021-04-28
# (参考訳) 機械学習におけるバイアスのアルゴリズム的要因 [全文訳有]

Algorithmic Factors Influencing Bias in Machine Learning ( http://arxiv.org/abs/2104.14014v1 )

ライセンス: CC BY 4.0
William Blanzeisky, P\'adraig Cunningham(参考訳) 機械学習(ML)における顕著なバイアスの例の多くは、トレーニングデータにあるバイアスから生じていると言えます。 実際に、教師付きMLアルゴリズムはバイアスがなく、トレーニングされたデータを反映していると主張する人もいるだろう。 本稿では,MLアルゴリズムが過小評価によってトレーニングデータを誤って表現する方法を示す。 既約誤差,正規化,特徴およびクラス不均衡が,この過小評価にどのように寄与するかを示す。 本稿は, この過小評価バイアスの影響を, 総合的対策の慎重な管理がいかに改善するかを実証して結論づける。

It is fair to say that many of the prominent examples of bias in Machine Learning (ML) arise from bias that is there in the training data. In fact, some would argue that supervised ML algorithms cannot be biased, they reflect the data on which they are trained. In this paper we demonstrate how ML algorithms can misrepresent the training data through underestimation. We show how irreducible error, regularization and feature and class imbalance can contribute to this underestimation. The paper concludes with a demonstration of how the careful management of synthetic counterfactuals can ameliorate the impact of this underestimation bias.
翻訳日:2021-05-01 00:45:45 公開日:2021-04-28
# (参考訳) 感染診断におけるディープニューラルネットワークのリスクと不確実性 [全文訳有]

Reducing Risk and Uncertainty of Deep Neural Networks on Diagnosing COVID-19 Infection ( http://arxiv.org/abs/2104.14029v1 )

ライセンス: CC BY 4.0
Krishanu Sarker, Sharbani Pandit, Anupam Sarker, Saeid Belkasim and Shihao Ji(参考訳) コンピューター診断による効果的で信頼性の高い患者のスクリーニングは、新型コロナウイルス(covid-19)との闘いにおいて重要な役割を果たす。 既存の研究のほとんどは、高い検出性能をもたらす洗練された手法の開発に重点を置いているが、予測の不確実性の問題には対処していない。 本研究は、新型コロナウイルス検出における最先端(SOTA)DNNの信頼性の欠如に対処するため、専門家紹介の紛らわしい事例を検出するための不確実性推定を導入する。 私たちの知る限りでは、COVID-19検出問題でこの問題に最初に取り組むのは私たちです。 本研究は, 市販のCOVIDデータセット上でのSOTA不確実性評価手法を多数検討し, 実験結果について報告する。 医療専門家との協働により, 臨床実践における最善の実施方法の実現可能性を確保するために, 結果をさらに検証する。

Effective and reliable screening of patients via Computer-Aided Diagnosis can play a crucial part in the battle against COVID-19. Most of the existing works focus on developing sophisticated methods yielding high detection performance, yet not addressing the issue of predictive uncertainty. In this work, we introduce uncertainty estimation to detect confusing cases for expert referral to address the unreliability of state-of-the-art (SOTA) DNNs on COVID-19 detection. To the best of our knowledge, we are the first to address this issue on the COVID-19 detection problem. In this work, we investigate a number of SOTA uncertainty estimation methods on publicly available COVID dataset and present our experimental findings. In collaboration with medical professionals, we further validate the results to ensure the viability of the best performing method in clinical practice.
翻訳日:2021-05-01 00:36:31 公開日:2021-04-28
# (参考訳) 深層学習の数学に関する研究

A Study of the Mathematics of Deep Learning ( http://arxiv.org/abs/2104.14033v1 )

ライセンス: CC BY 4.0
Anirbit Mukherjee(参考訳) ディープ・ラーニング(deep learning)/ディープ・ニューラル・ネット(deep neural nets)は、人工知能タスクの最先端にますます展開されている技術革新だ。 ここ数年のディープラーニングの劇的な成功は、膨大な量のヒューリスティックな研究に支えられ、それらを厳格に説明できるという真剣な数学的挑戦であることが判明した。 この論文では、ジョンズ・ホプキンス大学応用数学・統計学科に提出され、これらの新しいディープラーニングのパラダイムの強力な理論的基盤を構築するためのいくつかのステップを踏む。 第2章では、深部神経関数の新しい回路複雑性定理を示し、これらの関数空間に関する分類定理を証明し、その結果、深さ2ReLUネットの実験的リスク最小化のための正確なアルゴリズムを導いた。 また、高複雑度神経機能の存在を構築的に確立するために、神経機能の複雑さの尺度をモチベーションとする。 第3章では、ほぼ分布のない設定で線形時間で実現可能な設定でReLUゲートを訓練できる最初のアルゴリズムを提供する。 第4章では、スパースコーディングが可能なオートエンコーダの現象を説明するための厳密な証明を与える。 第5章では、広く使われている適応的勾配深層学習アルゴリズム RMSProp と ADAM の確率的および決定論的バージョンに対する収束の最初の証明を行う。 この章には、現代のアルゴリズムが古典的加速度に基づく方法よりも大きな利点を持つハイパーパラメータ値のオートエンコーダに関する詳細な実証研究も含まれている。 第6章では,確率的ニューラルネットのリスクに対して,PAC-ベイジアン境界を新たに改良した。 この章はまた、トレーニング中にネットによって追跡される重み空間の経路の新たな幾何学的性質を明らかにする実験的調査を含んでいる。

"Deep Learning"/"Deep Neural Nets" is a technological marvel that is now increasingly deployed at the cutting-edge of artificial intelligence tasks. This dramatic success of deep learning in the last few years has been hinged on an enormous amount of heuristics and it has turned out to be a serious mathematical challenge to be able to rigorously explain them. In this thesis, submitted to the Department of Applied Mathematics and Statistics, Johns Hopkins University we take several steps towards building strong theoretical foundations for these new paradigms of deep-learning. In chapter 2 we show new circuit complexity theorems for deep neural functions and prove classification theorems about these function spaces which in turn lead to exact algorithms for empirical risk minimization for depth 2 ReLU nets. We also motivate a measure of complexity of neural functions to constructively establish the existence of high-complexity neural functions. In chapter 3 we give the first algorithm which can train a ReLU gate in the realizable setting in linear time in an almost distribution free set up. In chapter 4 we give rigorous proofs towards explaining the phenomenon of autoencoders being able to do sparse-coding. In chapter 5 we give the first-of-its-kind proofs of convergence for stochastic and deterministic versions of the widely used adaptive gradient deep-learning algorithms, RMSProp and ADAM. This chapter also includes a detailed empirical study on autoencoders of the hyper-parameter values at which modern algorithms have a significant advantage over classical acceleration based methods. In the last chapter 6 we give new and improved PAC-Bayesian bounds for the risk of stochastic neural nets. This chapter also includes an experimental investigation revealing new geometric properties of the paths in weight space that are traced out by the net during the training.
翻訳日:2021-05-01 00:35:28 公開日:2021-04-28
# (参考訳) PIDのためのブースト決定木に代わるディープニューラルネットワーク [全文訳有]

Deep Neural Network as an alternative to Boosted Decision Trees for PID ( http://arxiv.org/abs/2104.14045v1 )

ライセンス: CC BY 4.0
Denis Stanev, Riccardo Riva, Michele Umassi(参考訳) 本稿では,Roe et alで提案した粒子の2値分類法を再現し,改良する。 2005年)論文"boosted decision trees as an alternative of artificial neural networks for particle identification"。 このような粒子はタウニュートリノ(tau neutrinos)と呼ばれ、背景(background)、電子ニュートリノ(electronic neutrinos)と呼ばれる。 元の論文では、望ましいアルゴリズムはブースト決定木である。 これは、その労力の少ないチューニングと、その時の全体的なパフォーマンスが良いためである。 実装の選択はディープニューラルネットワークで、パフォーマンスがより速く、より有望です。 現代の技術を用いて、精度とトレーニング時間の両方において、元の結果をどのように改善できるかを示す。

In this paper we recreate, and improve, the binary classification method for particles proposed in Roe et al. (2005) paper "Boosted decision trees as an alternative to artificial neural networks for particle identification". Such particles are tau neutrinos, which we will refer to as background, and electronic neutrinos: the signal we are interested in. In the original paper the preferred algorithm is a Boosted decision tree. This is due to its low effort tuning and good overall performance at the time. Our choice for implementation is a deep neural network, faster and more promising in performance. We will show how, using modern techniques, we are able to improve on the original result, both in accuracy and in training time.
翻訳日:2021-05-01 00:33:30 公開日:2021-04-28
# 依存性解析のための多様性を考慮したバッチアクティブラーニング

Diversity-Aware Batch Active Learning for Dependency Parsing ( http://arxiv.org/abs/2104.13936v1 )

ライセンス: Link先を確認
Tianze Shi, Adrian Benton, Igor Malioutov, Ozan \.Irsoy(参考訳) 現代の統計依存性パーサーの予測性能は、高価な専門家が注釈付きツリーバンクデータの可用性に大きく依存しているが、すべてのアノテーションがパーサーのトレーニングに等しく寄与するわけではない。 本稿では,バッチアクティブラーニング(al)を用いた強い依存関係パーサのトレーニングに必要なラベル付きサンプル数を削減することを試みる。 特に,DPP(Determinantal point process)を用いたサンプルバッチにおける多様性の強制が,多様性に依存しないプロセスよりも改善できるかどうかを検討する。 英ニューズワイヤコーパスにおけるシミュレーション実験により,dppを用いた多様なバッチの選択は,特に学習過程の初期段階においてバッチの多様性を強制しない強力な選択戦略よりも優れていることが示された。 さらに,ダイバーシティアウェア戦略はコーパス重複環境下で頑健であり,ダイバーシティ非依存なサンプリング戦略は著しい劣化を示す。

While the predictive performance of modern statistical dependency parsers relies heavily on the availability of expensive expert-annotated treebank data, not all annotations contribute equally to the training of the parsers. In this paper, we attempt to reduce the number of labeled examples needed to train a strong dependency parser using batch active learning (AL). In particular, we investigate whether enforcing diversity in the sampled batches, using determinantal point processes (DPPs), can improve over their diversity-agnostic counterparts. Simulation experiments on an English newswire corpus show that selecting diverse batches with DPPs is superior to strong selection strategies that do not enforce batch diversity, especially during the initial stages of the learning process. Additionally, our diversityaware strategy is robust under a corpus duplication setting, where diversity-agnostic sampling strategies exhibit significant degradation.
翻訳日:2021-04-30 13:15:45 公開日:2021-04-28
# 非パラメトリック予測型ビューアサインメントによる視覚特徴の半教師付き学習

Semi-Supervised Learning of Visual Features by Non-Parametrically Predicting View Assignments with Support Samples ( http://arxiv.org/abs/2104.13963v1 )

ライセンス: Link先を確認
Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Armand Joulin, Nicolas Ballas, Michael Rabbat(参考訳) 本稿では,支援サンプル(PAWS)を用いたビュー割り当て予測による学習手法を提案する。 このメソッドは、一貫性の損失を最小限に抑えるためにモデルを訓練し、同じラベルのないインスタンスの異なるビューに同様の擬似ラベルが割り当てられることを保証する。 擬似ラベルは、画像ビューの表現をランダムにサンプリングされた一連のラベル付き画像と比較することにより、非パラメトリックに生成される。 ビュー表現とラベル付き表現の間の距離は、クラスラベルの重み付けに使われ、ソフトな擬似ラベルと解釈する。 このようにラベル付きサンプルを非パラメトリックに組み込むことにより、PAWSはBYOLやSwaVといった自己監督手法で使用される距離測定損失を半教師付き設定に拡張する。 アプローチの単純さにもかかわらず、PAWSはアーキテクチャ全体で他の半教師付き手法よりも優れており、ラベルの10%または1%でトレーニングされたImageNet上でResNet-50の最先端を新たに設定し、それぞれ75.5%と66.5%に達した。 PAWSは以前のベストメソッドの4倍から12倍のトレーニングを必要とする。

This paper proposes a novel method of learning by predicting view assignments with support samples (PAWS). The method trains a model to minimize a consistency loss, which ensures that different views of the same unlabeled instance are assigned similar pseudo-labels. The pseudo-labels are generated non-parametrically, by comparing the representations of the image views to those of a set of randomly sampled labeled images. The distance between the view representations and labeled representations is used to provide a weighting over class labels, which we interpret as a soft pseudo-label. By non-parametrically incorporating labeled samples in this way, PAWS extends the distance-metric loss used in self-supervised methods such as BYOL and SwAV to the semi-supervised setting. Despite the simplicity of the approach, PAWS outperforms other semi-supervised methods across architectures, setting a new state-of-the-art for a ResNet-50 on ImageNet trained with either 10% or 1% of the labels, reaching 75.5% and 66.5% top-1 respectively. PAWS requires 4x to 12x less training than the previous best methods.
翻訳日:2021-04-30 13:15:31 公開日:2021-04-28
# MeerCRAB:ディープラーニングを用いた実・ボグス過渡現象のMeerLICHT分類

MeerCRAB: MeerLICHT Classification of Real and Bogus Transients using Deep Learning ( http://arxiv.org/abs/2104.13950v1 )

ライセンス: Link先を確認
Zafiirah Hosenie, Steven Bloemen, Paul Groot, Robert Lyon, Bart Scheers, Benjamin Stappers, Fiorenzo Stoppa, Paul Vreeswijk, Simon De Wet, Marc Klein Wolt, Elmar K\"ording, Vanessa McBride, Rudolf Le Poole, Kerry Paterson, Dani\"elle L. A. Pieterse and Patrick Woudt(参考訳) 天文学者は、変数とトランジェント源のために(光学的)空を大規模に調査する際に、効率的な自動検出と分類パイプラインを必要とする。 このようなパイプラインは基本的に重要であり、これらの検出の迅速な追跡と分析が科学的な価値である可能性が高いためである。 そこで我々は,$\texttt{meercrab}$と呼ばれる畳み込みニューラルネットワークアーキテクチャに基づくディープラーニングパイプラインを提案する。 これは、meerlicht望遠鏡の過渡検出パイプラインにおいて、真の天体物理源からいわゆる「ボガス」検出をフィルターするように設計されている。 様々な2次元画像とそれらの画像から抽出した数値特徴を用いて光学的候補を記述する。 入力画像と対象クラスとの関係は不明確であり、基礎的真理は定義が不十分であり、しばしば議論の対象となっている。 これにより、分類アルゴリズムのトレーニングに使用する情報のソースを決定するのが難しくなる。 そのため、データ(i)しきい値付けと(ii)潜在クラスモデルアプローチのラベル付けに2つの手法を用いた。 入力画像の異なる組み合わせでトレーニングされた異なるネットワークアーキテクチャと、ボランティアが提供する分類ラベルに基づいたトレーニングセットの選択を駆使した、$\texttt{meercrab}$の変種をデプロイしました。 最も深いネットワークは99.5$\%$の精度で動作し、マシューズ相関係数 (mcc) は0.989であった。 最良のモデルは meerlicht transient vetting pipeline に統合され、検出されたトランジットの正確かつ効率的な分類が可能となり、研究者は研究目標に最も有望な候補を選ぶことができる。

Astronomers require efficient automated detection and classification pipelines when conducting large-scale surveys of the (optical) sky for variable and transient sources. Such pipelines are fundamentally important, as they permit rapid follow-up and analysis of those detections most likely to be of scientific value. We therefore present a deep learning pipeline based on the convolutional neural network architecture called $\texttt{MeerCRAB}$. It is designed to filter out the so called 'bogus' detections from true astrophysical sources in the transient detection pipeline of the MeerLICHT telescope. Optical candidates are described using a variety of 2D images and numerical features extracted from those images. The relationship between the input images and the target classes is unclear, since the ground truth is poorly defined and often the subject of debate. This makes it difficult to determine which source of information should be used to train a classification algorithm. We therefore used two methods for labelling our data (i) thresholding and (ii) latent class model approaches. We deployed variants of $\texttt{MeerCRAB}$ that employed different network architectures trained using different combinations of input images and training set choices, based on classification labels provided by volunteers. The deepest network worked best with an accuracy of 99.5$\%$ and Matthews correlation coefficient (MCC) value of 0.989. The best model was integrated to the MeerLICHT transient vetting pipeline, enabling the accurate and efficient classification of detected transients that allows researchers to select the most promising candidates for their research goals.
翻訳日:2021-04-30 13:13:31 公開日:2021-04-28
# 自然発生ブラケットからの構文学習

Learning Syntax from Naturally-Occurring Bracketings ( http://arxiv.org/abs/2104.13933v1 )

ライセンス: Link先を確認
Tianze Shi, Ozan \.Irsoy, Igor Malioutov, Lillian Lee(参考訳) 自然言語の質問に対する回答フラグメントやWebページのハイパーリンクなど、自然に発生するブラケットは、フレーズ境界に関する人間の構文的直感を反映することができる。 それらの構文の可用性と近似対応は、教師なし選挙区解析に組み込むための遠方の情報ソースとしてアピールする。 しかし、これらは騒々しく不完全であり、この課題に対処するために、学習における部分ブラケットを意識した構造化されたランプ損失を開発する。 実験により,自然に発生するブラケットデータに基づいて学習した遠隔教師付きモデルが,非教師付きシステムよりも構文構造を誘導する方が正確であることを実証した。 英語のWSJコーパスでは、登録されていないF1スコアが68.9である。

Naturally-occurring bracketings, such as answer fragments to natural language questions and hyperlinks on webpages, can reflect human syntactic intuition regarding phrasal boundaries. Their availability and approximate correspondence to syntax make them appealing as distant information sources to incorporate into unsupervised constituency parsing. But they are noisy and incomplete; to address this challenge, we develop a partial-brackets-awa re structured ramp loss in learning. Experiments demonstrate that our distantly-supervised models trained on naturally-occurring bracketing data are more accurate in inducing syntactic structures than competing unsupervised systems. On the English WSJ corpus, our models achieve an unlabeled F1 score of 68.9 for constituency parsing.
翻訳日:2021-04-30 13:13:06 公開日:2021-04-28
# 邪魔にならないようにする:インタラクティブなビジュアルナビゲーション

Pushing it out of the Way: Interactive Visual Navigation ( http://arxiv.org/abs/2104.14040v1 )

ライセンス: Link先を確認
Kuo-Hao Zeng, Luca Weihs, Ali Farhadi, Roozbeh Mottaghi(参考訳) 我々は,具体化エージェントの視覚的ナビゲーションの著しい進歩を観察した。 視覚ナビゲーションの研究における一般的な仮定は、環境が静的であることである。 インテリジェントなナビゲーションは、前進/後退と左右旋回以外の環境との相互作用を伴う可能性がある。 時には、ナビゲートする最良の方法は、何かを道から押し出すことです。 本稿では,エージェントがより効率的に移動するための環境変更を学習するインタラクティブナビゲーションの課題について検討する。 この目的のために,ニューラル・インタラクション・エンジン(nie)を導入し,エージェントの行動による環境の変化を明示的に予測する。 計画中の変更をモデル化することにより,エージェントのナビゲーション能力が大幅に向上することがわかった。 具体的には,(1)目標への経路が塞がれながら目標に到達し,(2)目標地点に物体を移動させる,という2つの課題を物理対応型で視覚的にリッチなAI2-THOR環境において検討する。 いずれのタスクにおいても,NIEを装着したエージェントは,アプローチのメリットを示すアクションの効果を理解せずに,エージェントよりも優れていた。

We have observed significant progress in visual navigation for embodied agents. A common assumption in studying visual navigation is that the environments are static; this is a limiting assumption. Intelligent navigation may involve interacting with the environment beyond just moving forward/backward and turning left/right. Sometimes, the best way to navigate is to push something out of the way. In this paper, we study the problem of interactive navigation where agents learn to change the environment to navigate more efficiently to their goals. To this end, we introduce the Neural Interaction Engine (NIE) to explicitly predict the change in the environment caused by the agent's actions. By modeling the changes while planning, we find that agents exhibit significant improvements in their navigational capabilities. More specifically, we consider two downstream tasks in the physics-enabled, visually rich, AI2-THOR environment: (1) reaching a target while the path to the target is blocked (2) moving an object to a target location by pushing it. For both tasks, agents equipped with an NIE significantly outperform agents without the understanding of the effect of the actions indicating the benefits of our approach.
翻訳日:2021-04-30 13:08:05 公開日:2021-04-28
# emergencynet:arous convolutional feature fusionを用いたドローン型緊急監視のための高効率空中画像分類法

EmergencyNet: Efficient Aerial Image Classification for Drone-Based Emergency Monitoring Using Atrous Convolutional Feature Fusion ( http://arxiv.org/abs/2104.14006v1 )

ライセンス: Link先を確認
Christos Kyrkou and Theocharis Theocharides(参考訳) ディープラーニングベースのアルゴリズムは、無人航空機(UAV)やドローンのようなリモートセンシング技術に対して最先端の精度を提供し、多くの緊急対応および災害管理アプリケーションに対するリモートセンシング能力を向上する可能性がある。 特に、カメラセンサーを装備したuavは遠隔操作が可能で、災害地域へのアクセスが困難であり、崩壊した建物、洪水、火災などの様々な災害発生時に画像を分析し、警告することで、環境や人口への影響を迅速に緩和することができる。 しかし、ディープラーニングの統合は、大きな計算要件を導入し、ミッションクリティカルな決定をリアルタイムで行うために、推論に低レイテンシの制約を課す多くのシナリオにおいて、そのようなディープニューラルネットワークの展開を妨げる。 この目的のために本稿では,緊急対応・監視用uavの航空機画像の効率的な分類に焦点をあてる。 具体的には、緊急対応アプリケーションのための専用空中画像データベースを導入し、既存のアプローチの比較分析を行う。 この分析を通じて、マルチレゾリューション機能を処理するためのアトラスな畳み込みに基づく、軽量な畳み込みニューラルネットワークアーキテクチャが提案され、最先端モデルと比較して1%未満の精度で最小限のメモリ要件を持つ既存モデルと比較して、最大20倍のパフォーマンスを達成することができる。

Deep learning-based algorithms can provide state-of-the-art accuracy for remote sensing technologies such as unmanned aerial vehicles (UAVs)/drones, potentially enhancing their remote sensing capabilities for many emergency response and disaster management applications. In particular, UAVs equipped with camera sensors can operating in remote and difficult to access disaster-stricken areas, analyze the image and alert in the presence of various calamities such as collapsed buildings, flood, or fire in order to faster mitigate their effects on the environment and on human population. However, the integration of deep learning introduces heavy computational requirements, preventing the deployment of such deep neural networks in many scenarios that impose low-latency constraints on inference, in order to make mission-critical decisions in real time. To this end, this article focuses on the efficient aerial image classification from on-board a UAV for emergency response/monitoring applications. Specifically, a dedicated Aerial Image Database for Emergency Response applications is introduced and a comparative analysis of existing approaches is performed. Through this analysis a lightweight convolutional neural network architecture is proposed, referred to as EmergencyNet, based on atrous convolutions to process multiresolution features and capable of running efficiently on low-power embedded platforms achieving upto 20x higher performance compared to existing models with minimal memory requirements with less than 1% accuracy drop compared to state-of-the-art models.
翻訳日:2021-04-30 13:05:49 公開日:2021-04-28
# 中分解能衛星画像からの船舶自動検出システム

Automated System for Ship Detection from Medium Resolution Satellite Optical Imagery ( http://arxiv.org/abs/2104.13923v1 )

ライセンス: Link先を確認
Dejan Stepec and Tomaz Martincic and Danijel Skocaj(参考訳) 本稿では,ESA Sentinel-2とPlanet Labs Doveの星座から得られた低解像度衛星画像に対する船舶検出パイプラインを提案する。 この光学衛星画像は、合成開口レーダー(SAR)画像に基づく既存のソリューションと比較して、地球上の任意の場所で容易に利用でき、海洋領域では利用できない。 本研究では,ais(automatic identification system)データの助けを借りて自動注釈付けされた大規模データセットを用いて,最先端のディープラーニングに基づく物体検出法に基づいて船舶検出法を開発した。

In this paper, we present a ship detection pipeline for low-cost medium resolution satellite optical imagery obtained from ESA Sentinel-2 and Planet Labs Dove constellations. This optical satellite imagery is readily available for any place on Earth and underutilized in the maritime domain, compared to existing solutions based on synthetic-aperture radar (SAR) imagery. We developed a ship detection method based on a state-of-the-art deep-learning-based object detection method which was developed and evaluated on a large-scale dataset that was collected and automatically annotated with the help of Automatic Identification System (AIS) data.
翻訳日:2021-04-30 13:04:37 公開日:2021-04-28
# 映像群カウントのための移動誘導非局所空間時間ネットワーク

Motion-guided Non-local Spatial-Temporal Network for Video Crowd Counting ( http://arxiv.org/abs/2104.13946v1 )

ライセンス: Link先を確認
Haoyue Bai, S.-H. Gary Chan(参考訳) 本研究では,映像列の全てのフレームにおける物体数(本論文の人物数)を推定するビデオ群数について検討する。 群衆の数え方に関するこれまでの研究は、主に静止画に基づいている。 ビデオシーケンスの高精度な推定を実現するために,近距離フレームと短距離フレームの空間的時間的相関を適切に抽出し,どのように活用するかは,ほとんど研究されていない。 本研究では,映像群カウントのための新しい,高精度な動き誘導型非局所時空間ネットワークMonetを提案する。 monetはまず、人フロー(動き情報)をガイダンスとして、人がいるかもしれないピクセルの領域を粗く分割する。 これらの領域から、モネは非局所的な時空間ネットワークを使用して、短距離と長距離の両方の空間的時間的情報を抽出する。 ネットワーク全体が最終的に融合損失でエンドツーエンドにトレーニングされ、高品質な密度マップを生成する。 公開ビデオ群集データセットの不足と(解像度とシーンの多様性の観点から)低品質に注目して、コミュニティに貢献するために、大規模なビデオ群集計数データセットであるviscrowdを収集し、構築しました。 VidCrowdには9000フレームの高解像度(2560 x 1440)があり、2つの都市で1,150,239のヘッドアノテーションが撮影されている。 我々は、挑戦的なVideoCrowdと、UCSDとMallの2つの公開ビデオクラウドカウントデータセットに関する広範な実験を行った。 このアプローチは他の最先端のアプローチと比べて、maeとmseの点で大幅に優れたパフォーマンスを実現しています。

We study video crowd counting, which is to estimate the number of objects (people in this paper) in all the frames of a video sequence. Previous work on crowd counting is mostly on still images. There has been little work on how to properly extract and take advantage of the spatial-temporal correlation between neighboring frames in both short and long ranges to achieve high estimation accuracy for a video sequence. In this work, we propose Monet, a novel and highly accurate motion-guided non-local spatial-temporal network for video crowd counting. Monet first takes people flow (motion information) as guidance to coarsely segment the regions of pixels where a person may be. Given these regions, Monet then uses a non-local spatial-temporal network to extract spatial-temporally both short and long-range contextual information. The whole network is finally trained end-to-end with a fused loss to generate a high-quality density map. Noting the scarcity and low quality (in terms of resolution and scene diversity) of the publicly available video crowd datasets, we have collected and built a large-scale video crowd counting datasets, VidCrowd, to contribute to the community. VidCrowd contains 9,000 frames of high resolution (2560 x 1440), with 1,150,239 head annotations captured in different scenes, crowd density and lighting in two cities. We have conducted extensive experiments on the challenging VideoCrowd and two public video crowd counting datasets: UCSD and Mall. Our approach achieves substantially better performance in terms of MAE and MSE as compared with other state-of-the-art approaches.
翻訳日:2021-04-30 13:04:24 公開日:2021-04-28
# 画像分類のための畳み込みネットワークにおけるフィルタ分布テンプレート

Filter Distribution Templates in Convolutional Networks for Image Classification Tasks ( http://arxiv.org/abs/2104.13993v1 )

ライセンス: Link先を確認
Ramon Izquierdo-Cordova and Walterio Mayol-Cuevas(参考訳) ニューラルネットワークデザイナは、モデルの深度を高め、新しいレイヤタイプを導入し、新しいレイヤの組み合わせを発見することで、進歩的な精度に達した。 多くのアーキテクチャにおいて共通する要素は、各層におけるフィルタ数の分布である。 ニューラルネットワークモデルは、LeNet、VGG、ResNet、MobileNet、NASNetのような自動検出アーキテクチャでさえも、より深いレイヤでフィルタを増やすパターン設計を維持している。 このフィルタのピラミッド分布が、異なるタスクや制約に対して最適かどうかは不明だ。 本稿では,4つの一般的なニューラルネットワークモデルにおけるフィルタ分布の変化と,その精度と資源消費への影響について述べる。 その結果、このアプローチを適用することで、パラメータの減少を示す精度が最大8.9%向上したモデルもある。

Neural network designers have reached progressive accuracy by increasing models depth, introducing new layer types and discovering new combinations of layers. A common element in many architectures is the distribution of the number of filters in each layer. Neural network models keep a pattern design of increasing filters in deeper layers such as those in LeNet, VGG, ResNet, MobileNet and even in automatic discovered architectures such as NASNet. It remains unknown if this pyramidal distribution of filters is the best for different tasks and constrains. In this work we present a series of modifications in the distribution of filters in four popular neural network models and their effects in accuracy and resource consumption. Results show that by applying this approach, some models improve up to 8.9% in accuracy showing reductions in parameters up to 54%.
翻訳日:2021-04-30 13:03:57 公開日:2021-04-28
# 自己中心型ビデオにおけるソーシャルインタラクション認識のためのグラフ畳み込みネットワークベースのフレームワークInteraction-GCN

Interaction-GCN: a Graph Convolutional Network based framework for social interaction recognition in egocentric videos ( http://arxiv.org/abs/2104.14007v1 )

ライセンス: Link先を確認
Simone Felicioni, Mariella Dimiccoli(参考訳) 本稿では,エゴセントリックビデオにおけるソーシャルインタラクションを分類する新たなフレームワークであるInteractionGCNを提案する。 本手法はフレームレベルで関係と非関係の手がかりのパターンを抽出し、グラフ畳み込みネットワークに基づくアプローチによりフレームレベルの相互作用コンテキストを推定する関係グラフを構築する。 そして、Gated Recurrent Unitアーキテクチャを通じて、一人称モーション情報とともに、時間とともにこのコンテキストを伝播する。 2つの公開データセットにおけるアブレーション研究と実験評価により,提案手法が検証され,結果が確立された。

In this paper we propose a new framework to categorize social interactions in egocentric videos, we named InteractionGCN. Our method extracts patterns of relational and non-relational cues at the frame level and uses them to build a relational graph from which the interactional context at the frame level is estimated via a Graph Convolutional Network based approach. Then it propagates this context over time, together with first-person motion information, through a Gated Recurrent Unit architecture. Ablation studies and experimental evaluation on two publicly available datasets validate the proposed approach and establish state of the art results.
翻訳日:2021-04-30 13:03:44 公開日:2021-04-28
# ランダム化ヒストグラムマッチング:上向き画像における教師なし領域適応のための簡易拡張

Randomized Histogram Matching: A Simple Augmentation for Unsupervised Domain Adaptation in Overhead Imagery ( http://arxiv.org/abs/2104.14032v1 )

ライセンス: Link先を確認
Can Yaris and Bohao Huang and Kyle Bradbury and Jordan M. Malof(参考訳) 現代のディープニューラルネットワーク(DNN)は、オーバーヘッド(例えば衛星)画像上の多くの認識タスクに対して非常に正確な結果を達成する。 しかし1つの課題は、視覚的領域シフト(すなわち統計的変化)であり、新しい画像セットでテストすると、DNNの精度が大幅に低下する可能性がある。 本研究では,画像ハードウェア,照明,その他の条件の変化による領域シフトを非線形画素変換としてモデル化する。 しかし、一般に2つの画像間の変換は分かっていない。 この問題を解決するために,ランダム化ヒストグラムマッチング (RHM) と呼ばれる,簡易なリアルタイム教師なしトレーニング強化手法を提案する。 セグメンテーションを構築するための2つの大規模公開ベンチマークデータセットを用いて実験を行い、rrmがよりシンプルで高速なにもかかわらず、最近の最先端の非教師なしドメイン適応アプローチに一貫して匹敵するパフォーマンスをもたらすことを発見した。 RHMはまた、オーバーヘッド画像で広く使われている他の可分に単純なアプローチよりも大幅に優れたパフォーマンスを提供する。

Modern deep neural networks (DNNs) achieve highly accurate results for many recognition tasks on overhead (e.g., satellite) imagery. One challenge however is visual domain shifts (i.e., statistical changes), which can cause the accuracy of DNNs to degrade substantially and unpredictably when tested on new sets of imagery. In this work we model domain shifts caused by variations in imaging hardware, lighting, and other conditions as non-linear pixel-wise transformations; and we show that modern DNNs can become largely invariant to these types of transformations, if provided with appropriate training data augmentation. In general, however, we do not know the transformation between two sets of imagery. To overcome this problem, we propose a simple real-time unsupervised training augmentation technique, termed randomized histogram matching (RHM). We conduct experiments with two large public benchmark datasets for building segmentation and find that RHM consistently yields comparable performance to recent state-of-the-art unsupervised domain adaptation approaches despite being simpler and faster. RHM also offers substantially better performance than other comparably simple approaches that are widely-used in overhead imagery.
翻訳日:2021-04-30 13:03:32 公開日:2021-04-28
# 適応メッシュ微細化と粗化シミュレーションにおける動的モード分解

Dynamic Mode Decomposition in Adaptive Mesh Refinement and Coarsening Simulations ( http://arxiv.org/abs/2104.14034v1 )

ライセンス: Link先を確認
Gabriel F. Barros, Mal\'u Grave, Alex Viguerie, Alessandro Reali, Alvaro L. G. A. Coutinho(参考訳) 動的モード分解(Dynamic Mode Decomposition, DMD)は、与えられた力学系を決定する時空間コヒーレント構造を抽出する強力なデータ駆動手法である。 この方法は、収集された時間スナップショットをマトリックスに積み重ね、線形演算子を用いて非線形ダイナミクスをマッピングする。 標準手順では、スナップショットは観測可能なすべてのデータに対して同じ次元を持つ。 しかし、アダプティブメッシュ精錬/粗大化スキーム(AMR/C)による数値シミュレーションではこのような現象は起こらないことが多い。 本稿では,dmdがamr/cシミュレーションに見られるような,異なるメッシュトポロジーと次元の観測から特徴を抽出する方法を提案する。 この目的のために、アダプティブスナップショットは同じ参照関数空間に投影され、MDDのようなスナップショットベースのメソッドが使用できる。 本研究は,AMR/Cシミュレーションの課題である,新型コロナウイルスの持続拡散反応疫学モデル,密度駆動重力電流シミュレーション,気泡上昇問題に適用する。 また,dmdの効率を評価し,ダイナミックスと関連する利害関係を再構築する。 特に,SEIRDモデルと気泡上昇問題に対して,DMDの時間外挿能力(短期将来予測)を評価する。

Dynamic Mode Decomposition (DMD) is a powerful data-driven method used to extract spatio-temporal coherent structures that dictate a given dynamical system. The method consists of stacking collected temporal snapshots into a matrix and mapping the nonlinear dynamics using a linear operator. The standard procedure considers that snapshots possess the same dimensionality for all the observable data. However, this often does not occur in numerical simulations with adaptive mesh refinement/coarsenin g schemes (AMR/C). This paper proposes a strategy to enable DMD to extract features from observations with different mesh topologies and dimensions, such as those found in AMR/C simulations. For this purpose, the adaptive snapshots are projected onto the same reference function space, enabling the use of snapshot-based methods such as DMD. The present strategy is applied to challenging AMR/C simulations: a continuous diffusion-reaction epidemiological model for COVID-19, a density-driven gravity current simulation, and a bubble rising problem. We also evaluate the DMD efficiency to reconstruct the dynamics and some relevant quantities of interest. In particular, for the SEIRD model and the bubble rising problem, we evaluate DMD's ability to extrapolate in time (short-time future estimates).
翻訳日:2021-04-30 12:55:58 公開日:2021-04-28
# ニューロモルフィックコンピューティングはチューリング完全

Neuromorphic Computing is Turing-Complete ( http://arxiv.org/abs/2104.13983v1 )

ライセンス: Link先を確認
Prasanna Date, Catherine Schuman, Bill Kay, Thomas Potok(参考訳) ニューロモルフィックコンピューティング(Neuromorphic computing)は、人間の脳をエミュレートして計算を行うニューマン計算パラダイムである。 ニューロモルフィックシステムはエネルギー効率が非常に高く、cpuやgpuの数千倍の消費電力で知られている。 彼らは将来、自動運転車、エッジコンピューティング、物のインターネットといった重要なユースケースを駆動する可能性がある。 このため、これらは将来のコンピューティングの展望に欠かせない部分となることが求められている。 ニューロモルフィックシステムは、主にスパイクベースの機械学習アプリケーションに使用されるが、グラフ理論、微分方程式、スパイクベースのシミュレーションには非機械的な応用がある。 これらの応用は、ニューロモルフィックコンピューティングが汎用コンピューティングを実現できる可能性を示唆している。 しかし、ニューロモルフィックコンピューティングの汎用計算性はまだ確立されていない。 本研究では,ニューロモルフィックコンピューティングがチューリング完全であり,汎用コンピューティングが可能であることを証明する。 具体的には,2つのニューロンパラメータ(閾値とリーク)と2つのシナプスパラメータ(重みと遅延)からなるニューロモルフィックコンピューティングのモデルを提案する。 我々は、すべての {\mu}-再帰関数(定数、後続関数および射影関数)とすべての {\mu}-再帰作用素(合成、原始再帰および最小化演算子)を計算するためのニューロモルフィック回路を考案する。 mu {\displaystyle {\mu}-再帰関数と演算子がチューリングマシンを使って正確に計算できる関数であることを考えると、この研究はニューロモルフィックコンピューティングのチューリング完全性を確立する。

Neuromorphic computing is a non-von Neumann computing paradigm that performs computation by emulating the human brain. Neuromorphic systems are extremely energy-efficient and known to consume thousands of times less power than CPUs and GPUs. They have the potential to drive critical use cases such as autonomous vehicles, edge computing and internet of things in the future. For this reason, they are sought to be an indispensable part of the future computing landscape. Neuromorphic systems are mainly used for spike-based machine learning applications, although there are some non-machine learning applications in graph theory, differential equations, and spike-based simulations. These applications suggest that neuromorphic computing might be capable of general-purpose computing. However, general-purpose computability of neuromorphic computing has not been established yet. In this work, we prove that neuromorphic computing is Turing-complete and therefore capable of general-purpose computing. Specifically, we present a model of neuromorphic computing, with just two neuron parameters (threshold and leak), and two synaptic parameters (weight and delay). We devise neuromorphic circuits for computing all the {\mu}-recursive functions (i.e., constant, successor and projection functions) and all the {\mu}-recursive operators (i.e., composition, primitive recursion and minimization operators). Given that the {\mu}-recursive functions and operators are precisely the ones that can be computed using a Turing machine, this work establishes the Turing-completeness of neuromorphic computing.
翻訳日:2021-04-30 12:52:13 公開日:2021-04-28
# 自律運転のための天気と光レベルの分類:データセット、ベースライン、アクティブラーニング

Weather and Light Level Classification for Autonomous Driving: Dataset, Baseline and Active Learning ( http://arxiv.org/abs/2104.14042v1 )

ライセンス: Link先を確認
Mahesh M Dhananjaya, Varun Ravi Kumar and Senthil Yogamani(参考訳) 自動運転は急速に進歩しており、レベル2機能は標準機能になりつつある。 最も顕著なハードルの1つは、精度の劣化が深刻である厳しい天候や低照度環境で、堅牢な視覚的知覚を得ることである。 これらのシナリオにおいて、視覚的認識の信頼性を低下させるための気象分類モデルを持つことが重要である。 そこで我々は,気象(fog,雨,雪)分類と光度(bright, medium, and low)分類のための新しいデータセットを構築した。 さらに, 道路タイプ (アスファルト, 草, 石石) の分類を行い, 9つのラベルを得た。 それぞれの画像には、天気、光度、街路に対応した3つのラベルがある。 RCCC(red/clear)フォーマットの工業用フロントカメラを用いて1024\times1084$の解像度でデータを記録した。 我々は15kの映像を収集し、60kの画像をサンプリングした。 本研究では,データセットの冗長性を低減するためのアクティブラーニングフレームワークを実装し,モデルのトレーニングに最適なフレーム群を求める。 60k画像をさらに1.1k画像に蒸留し、プライバシーの匿名化後に公開します。 当社の知識を最大限活用するための自動運転に焦点を当てた、気象と光レベルの分類に関する公開データセットはありません。 気象分類に使用されるベースラインのResNet18ネットワークは、2つの非音響気象分類公開データセットにおいて最先端の結果を得るが、提案データセットの精度は著しく低く、飽和せず、さらなる研究が必要であることを示す。

Autonomous driving is rapidly advancing, and Level 2 functions are becoming a standard feature. One of the foremost outstanding hurdles is to obtain robust visual perception in harsh weather and low light conditions where accuracy degradation is severe. It is critical to have a weather classification model to decrease visual perception confidence during these scenarios. Thus, we have built a new dataset for weather (fog, rain, and snow) classification and light level (bright, moderate, and low) classification. Furthermore, we provide street type (asphalt, grass, and cobblestone) classification, leading to 9 labels. Each image has three labels corresponding to weather, light level, and street type. We recorded the data utilizing an industrial front camera of RCCC (red/clear) format with a resolution of $1024\times1084$. We collected 15k video sequences and sampled 60k images. We implement an active learning framework to reduce the dataset's redundancy and find the optimal set of frames for training a model. We distilled the 60k images further to 1.1k images, which will be shared publicly after privacy anonymization. There is no public dataset for weather and light level classification focused on autonomous driving to the best of our knowledge. The baseline ResNet18 network used for weather classification achieves state-of-the-art results in two non-automotive weather classification public datasets but significantly lower accuracy on our proposed dataset, demonstrating it is not saturated and needs further research.
翻訳日:2021-04-30 12:50:18 公開日:2021-04-28
# smlsom: 最大可能性の自己組織化マップ

SMLSOM: The shrinking maximum likelihood self-organizing map ( http://arxiv.org/abs/2104.13971v1 )

ライセンス: Link先を確認
Ryosuke Motegi and Yoichi Seki(参考訳) データセット内のクラスタ数を決定することは、データクラスタリングにおける根本的な問題である。 モデル選択に関する問題として,クラスタ数の選択という課題を解決するために,多くの手法が提案されている。 本稿では,確率分布モデルフレームワークに基づいて,適切な数のクラスタを自動的に選択するグリージーアルゴリズムを提案する。 アルゴリズムは2つのコンポーネントを含む。 まず,確率分布モデルにリンクしたノードを持つ,各ノードの確率に基づいて,アルゴリズムが勝者を探索することのできる,コホーネンの自己組織化マップ(SOM)の一般化を紹介する。 第2に,提案手法は,ノードがユークリッド空間に固定されたコホーネンのSOMとは対照的に,ノード間の最短経路の長さで定義されるグラフ構造と近傍を用いる。 この実装により、不要なノード削除を避けるために弱連結ノードへのリンクを切断することで、グラフ構造を更新することができる。 Kullback-Leibler分散を用いてノード接続の弱点を測定し、最小記述長(MDL)によりノードの冗長性を測定する。 この更新ステップにより、適切な数のクラスタを簡単に決定できる。 既存の手法と比較して,提案手法は計算効率が高く,クラスタ数を正確に選択し,クラスタリングを行うことができる。

Determining the number of clusters in a dataset is a fundamental issue in data clustering. Many methods have been proposed to solve the problem of selecting the number of clusters, considering it to be a problem with regard to model selection. This paper proposes a greedy algorithm that automatically selects a suitable number of clusters based on a probability distribution model framework. The algorithm includes two components. First, a generalization of Kohonen's self-organizing map (SOM), which has nodes linked to a probability distribution model, and which enables the algorithm to search for the winner based on the likelihood of each node, is introduced. Second, the proposed method uses a graph structure and a neighbor defined by the length of the shortest path between nodes, in contrast to Kohonen's SOM in which the nodes are fixed in the Euclidean space. This implementation makes it possible to update its graph structure by cutting links to weakly connected nodes to avoid unnecessary node deletion. The weakness of a node connection is measured using the Kullback--Leibler divergence and the redundancy of a node is measured by the minimum description length (MDL). This updating step makes it easy to determine the suitable number of clusters. Compared with existing methods, our proposed method is computationally efficient and can accurately select the number of clusters and perform clustering.
翻訳日:2021-04-30 12:47:41 公開日:2021-04-28
# 非負行列分解法による法的文書の分析

Analysis of Legal Documents via Non-negative Matrix Factorization Methods ( http://arxiv.org/abs/2104.14028v1 )

ライセンス: Link先を確認
Ryan Budahazy, Lu Cheng, Yihuan Huang, Andrew Johnson, Pengyu Li, Joshua Vendrow, Zhoutong Wu, Denali Molitor, Elizaveta Rebrova, Deanna Needell(参考訳) california innocence project(cip)は、有罪判決を受けた囚人を解放することを目的とした臨床法学校プログラムで、新しい支援要請と対応する事件ファイルを含む数千のメールを評価している。 この大量の情報処理と解釈はCIP職員にとって重要な課題であり、トピックモデリング技術によって支援できる。本論文では、非負行列分解法(NMF)を適用し、CIPがコンパイルした重要かつ未研究のデータセットに対して、その様々なオフシュートを実装する。 既存の事例ファイルの下位のトピックを特定し、犯罪タイプとケースステータス(決定型)で要求ファイルを分類する。 その結果、現在のケースファイルの意味構造を明らかにし、cip職員に新たな受信したケースファイルに関する一般的な理解を与えることができる。 また、NMFの一般的な変種を実験結果とともに展示し、実世界の応用を通して各変種の利点と欠点について議論する。

The California Innocence Project (CIP), a clinical law school program aiming to free wrongfully convicted prisoners, evaluates thousands of mails containing new requests for assistance and corresponding case files. Processing and interpreting this large amount of information presents a significant challenge for CIP officials, which can be successfully aided by topic modeling techniques.In this paper, we apply Non-negative Matrix Factorization (NMF) method and implement various offshoots of it to the important and previously unstudied data set compiled by CIP. We identify underlying topics of existing case files and classify request files by crime type and case status (decision type). The results uncover the semantic structure of current case files and can provide CIP officials with a general understanding of newly received case files before further examinations. We also provide an exposition of popular variants of NMF with their experimental results and discuss the benefits and drawbacks of each variant through the real-world application.
翻訳日:2021-04-30 12:47:21 公開日:2021-04-28
# 話者と環境情報を用いた個人化キーワード検出

Personalized Keyphrase Detection using Speaker and Environment Information ( http://arxiv.org/abs/2104.13970v1 )

ライセンス: Link先を確認
Rajeev Rikhye, Quan Wang, Qiao Liang, Yanzhang He, Ding Zhao, Yiteng (Arden) Huang, Arun Narayanan, Ian McGraw(参考訳) 本稿では,大語彙から単語からなるフレーズを正確に検出できるように,容易にカスタマイズ可能なストリーミングキーフレーズ検出システムを提案する。 本システムは,エンドツーエンドで訓練された自動音声認識(ASR)モデルと,テキスト非依存話者検証モデルを用いて実装される。 様々な雑音条件下でこれらのキーフレーズを検出する課題に対処するため、話者検証モデルの特徴フロントエンドに話者分離モデルを追加し、マイクロホン間ノイズコヒーレンスを利用するための適応ノイズキャンセリング(anc)アルゴリズムを含む。 実験の結果,テキスト非依存話者検証モデルはキーフレーズ検出の誤発率を大幅に低減し,話者分離モデルと適応雑音キャンセリングは誤認率を大幅に低減することがわかった。

In this paper, we introduce a streaming keyphrase detection system that can be easily customized to accurately detect any phrase composed of words from a large vocabulary. The system is implemented with an end-to-end trained automatic speech recognition (ASR) model and a text-independent speaker verification model. To address the challenge of detecting these keyphrases under various noisy conditions, a speaker separation model is added to the feature frontend of the speaker verification model, and an adaptive noise cancellation (ANC) algorithm is included to exploit cross-microphone noise coherence. Our experiments show that the text-independent speaker verification model largely reduces the false triggering rate of the keyphrase detection, while the speaker separation model and adaptive noise cancellation largely reduce false rejections.
翻訳日:2021-04-30 12:44:50 公開日:2021-04-28
# 複雑なネットワーク指標を用いた都市小売エコシステムにおける協調・競争のモデル化

Modelling Cooperation and Competition in Urban Retail Ecosystems with Complex Network Metrics ( http://arxiv.org/abs/2104.13981v1 )

ライセンス: Link先を確認
Jordan Cambe, Krittika D'Silva, Anastasios Noulas, Cecilia Mascolo, Adam Waksman(参考訳) 新しいビジネスがローカル市場エコシステムに与える影響を理解することは、本質的に多面的であるため、難しい課題です。 この分野における過去の研究は、均質な会場タイプ(すなわち、協調的または競争的な役割)について検討してきた。 新しい書店が既存の書店に与える影響)。 しかし、これらの以前の作品は範囲や説明力に限られていた。 現代の都市における小売業のパフォーマンスをよりよく測定するために、モデルは同期的に相互作用する多くの要因を考慮すべきである。 本稿は,新しいビジネスが与える影響を調べる上で,都市における多面的な相互作用について考察した最初の事例である。 まず,各地域における新事業の役割を検討するためのモデリングフレームワークを提案する。 位置技術プラットフォームfoursquareの縦長データセットを使って、世界中の26の主要都市にまたがる新しい会場の影響をモデル化する。 都市を会場のネットワークとして表現し、その構造を定量化し、時間とともにそのダイナミクスを特徴づける。 これらの小売ネットワークに出現する強力なコミュニティ構造に注目し,小売施設の地域生態系に出現する協力的・競争的な力の相互作用に注目した。 次に、会場タイプ間の均質な相互作用と不均質な相互作用の両方を考慮に入れ、近隣の小売業者に対する新しい店舗の影響を1次相関で把握するデータ駆動メトリクスを考案する。 最後に、新しい会場が地域の小売エコシステムに与える影響を予測するために、教師付き機械学習モデルを構築します。 このアプローチは、機械学習予測モデル構築における複雑なネットワーク計測のパワーを強調する。 これらのモデルは小売業界で多くの応用があり、都市環境の変化を特徴づけ予測するモデルの開発において政策立案者、事業主、都市計画者を支援することができる。

Understanding the impact that a new business has on the local market ecosystem is a challenging task as it is multifaceted in nature. Past work in this space has examined the collaborative or competitive role of homogeneous venue types (i.e. the impact of a new bookstore on existing bookstores). However, these prior works have been limited in their scope and explanatory power. To better measure retail performance in a modern city, a model should consider a number of factors that interact synchronously. This paper is the first which considers the multifaceted types of interactions that occur in urban cities when examining the impact of new businesses. We first present a modeling framework which examines the role of new businesses in their respective local areas. Using a longitudinal dataset from location technology platform Foursquare, we model new venue impact across 26 major cities worldwide. Representing cities as connected networks of venues, we quantify their structure and characterise their dynamics over time. We note a strong community structure emerging in these retail networks, an observation that highlights the interplay of cooperative and competitive forces that emerge in local ecosystems of retail establishments. We next devise a data-driven metric that captures the first-order correlation on the impact of a new venue on retailers within its vicinity accounting for both homogeneous and heterogeneous interactions between venue types. Lastly, we build a supervised machine learning model to predict the impact of a given new venue on its local retail ecosystem. Our approach highlights the power of complex network measures in building machine learning prediction models. These models have numerous applications within the retail sector and can support policymakers, business owners, and urban planners in the development of models to characterize and predict changes in urban settings.
翻訳日:2021-04-30 12:44:34 公開日:2021-04-28
# 長期情報の解釈可能な表現による表現規則の最適化

Optimizing Rescoring Rules with Interpretable Representations of Long-Term Information ( http://arxiv.org/abs/2104.14291v1 )

ライセンス: Link先を確認
Aaron Fisher(参考訳) 時間的データ(例えばウェアラブルデバイスデータ)を分析するには、最近のものと遠い過去の情報を組み合わせる方法を決定する必要がある。 睡眠状態をアクチグラムから分類する文脈において、websterのリカリングルールは、移動ウィンドウモデルの出力の長期的なパターンに基づく1つの一般的なソリューションを提供する。 残念なことに、任意の設定に対するリスコリングルールの最適化方法に関する問題は未解決のままである。 この問題に対処し,再利用ルールの可能なユースケースを拡大するため,我々は,エポック特有の特徴の観点でこれらのルールを再現することを提案する。 われわれの特徴は2つの一般的な形態を採っている: (1) 与えられた状態に費やされた現在と最も近い(または最も近い)までの時間ラグ、(2) ある状態に費やされた最新の(または最も近い)時間の長さ。 初期移動ウィンドウモデルが与えられた場合、これらの機能は再帰的に定義でき、再列ルールの最適化が容易になる。 移動ウィンドウモデルとその後の再描画規則の協調最適化は、テンソルフローのような勾配に基づく最適化ソフトウェアを用いて実装することもできる。 二分分類問題(例えばスリープウォーク)以外にも、複数状態分類問題(例えば、座位、歩行、階段登山)の長期的なパターンを要約するためにも同様のアプローチが適用できる。 最適化されたRescoringルールは、スリープウェイク分類器の性能を改善し、特定のニューラルネットワークアーキテクチャと同等の精度を達成する。

Analyzing temporal data (e.g., wearable device data) requires a decision about how to combine information from the recent and distant past. In the context of classifying sleep status from actigraphy, Webster's rescoring rules offer one popular solution based on the long-term patterns in the output of a moving-window model. Unfortunately, the question of how to optimize rescoring rules for any given setting has remained unsolved. To address this problem and expand the possible use cases of rescoring rules, we propose rephrasing these rules in terms of epoch-specific features. Our features take two general forms: (1) the time lag between now and the most recent [or closest upcoming] bout of time spent in a given state, and (2) the length of the most recent [or closest upcoming] bout of time spent in a given state. Given any initial moving window model, these features can be defined recursively, allowing for straightforward optimization of rescoring rules. Joint optimization of the moving window model and the subsequent rescoring rules can also be implemented using gradient-based optimization software, such as Tensorflow. Beyond binary classification problems (e.g., sleep-wake), the same approach can be applied to summarize long-term patterns for multi-state classification problems (e.g., sitting, walking, or stair climbing). We find that optimized rescoring rules improve the performance of sleep-wake classifiers, achieving accuracy comparable to that of certain neural network architectures.
翻訳日:2021-04-30 12:42:37 公開日:2021-04-28
# deep neural network と long short-term memory $(2)$ を用いた2つの気象因子の動的予測

Dynamical prediction of two meteorological factors using the deep neural network and the long short-term memory $(2)$ ( http://arxiv.org/abs/2104.14406v1 )

ライセンス: Link先を確認
Ki-Hong Shin, Jae-Won Jung, Ki-Ho Chang, Dong-In Lee, Cheol-Hwan You, Kyungsik Kim(参考訳) 本稿では,ニューラルネットワークアルゴリズムにおける2変量気象因子,平均温度,平均湿度を用いた予測精度を提案する。 本研究では,従来のニューラルネットワーク,ディープニューラルネットワーク,極端な学習マシン,長期記憶,ピープホール接続による長期記憶などの5つの学習アーキテクチャを計算機シミュレーションにより解析する。 私たちのニューラルネットワークモードは、7年間(2014年から2020年まで)に毎日の時系列データセットでトレーニングされています。 2500,5000,7500エポックの訓練結果から,首都10都市(セオウル,デジョン,デグ,ブサン,インチョン,ガンジュ,ポハン,モクポ,トンジュン,ジュンジュ)のアウトプットから得られた気象要因の予測精度を得た。 誤差統計は出力の結果から得られ、これらの値は5つのニューラルネットワークの操作後に互いに比較する。 テスト1(入力層から6つの入力ノードが予測される平均温度)における短期記憶モデルを用いて、tonyongは、温度を予測するためにコンピュータシミュレーションから夏が最も低い根平均二乗誤差(rmse)値を0.866$(%)$とする。 湿度を予測するために、テスト2ではmokpoの夏季の長期短期記憶モデル(入力層から6つの入力ノードで予測される平均湿度)を用いて、rmseの最低値が5.732$(%)$であることを示す。 特に、長期の短期記憶モデルは、温度と湿度の予測において、他のニューラルネットワークモデルよりも日々のレベルを予測するのに正確であることがわかっている。 この結果は,将来,新しいニューラルネットワーク評価手法を探索し,発展させるために必要なコンピュータシミュレーション基盤を提供する可能性がある。

This paper presents the predictive accuracy using two-variate meteorological factors, average temperature and average humidity, in neural network algorithms. We analyze result in five learning architectures such as the traditional artificial neural network, deep neural network, and extreme learning machine, long short-term memory, and long-short-term memory with peephole connections, after manipulating the computer-simulation. Our neural network modes are trained on the daily time-series dataset during seven years (from 2014 to 2020). From the trained results for 2500, 5000, and 7500 epochs, we obtain the predicted accuracies of the meteorological factors produced from outputs in ten metropolitan cities (Seoul, Daejeon, Daegu, Busan, Incheon, Gwangju, Pohang, Mokpo, Tongyeong, and Jeonju). The error statistics is found from the result of outputs, and we compare these values to each other after the manipulation of five neural networks. As using the long-short-term memory model in testing 1 (the average temperature predicted from the input layer with six input nodes), Tonyeong has the lowest root mean squared error (RMSE) value of 0.866 $(%)$ in summer from the computer-simulation in order to predict the temperature. To predict the humidity, the RMSE is shown the lowest value of 5.732 $(%)$, when using the long short-term memory model in summer in Mokpo in testing 2 (the average humidity predicted from the input layer with six input nodes). Particularly, the long short-term memory model is is found to be more accurate in forecasting daily levels than other neural network models in temperature and humidity forecastings. Our result may provide a computer-simuation basis for the necessity of exploring and develping a novel neural network evaluation method in the future.
翻訳日:2021-04-30 12:41:07 公開日:2021-04-28
# (参考訳) AraStance: ファクトチェックのためのアラビアスタンス検出のためのマルチカウンタとマルチドメインデータセット [全文訳有]

AraStance: A Multi-Country and Multi-Domain Dataset of Arabic Stance Detection for Fact Checking ( http://arxiv.org/abs/2104.13559v1 )

ライセンス: CC BY 4.0
Tariq Alhindi, Amal Alabdulkarim, Ali Alshehri, Muhammad Abdul-Mageed and Preslav Nakov(参考訳) オンライン上の偽情報や偽情報の拡散が続く中、複数の言語をサポートする自動システムという形で大規模に戦闘機構を開発することが重要性を増している。 1つの課題はクレームの正確性予測であり、オンラインで検索された関連文書に対するスタンス検出を用いて対処することができる。 そこで本研究では,3つのファクトチェックサイトと1つのニュースサイトからなる多種多様な情報源から,新たなアラビアスタンス検出データセット(AraStance)を提示する。 アラスタンスは複数のドメイン(例えば、政治、スポーツ、健康)といくつかのアラブ諸国からの虚偽の主張と真偽の主張をカバーしており、その主張に関して関連文書と無関係の文書との間にバランスが取れている。 AraStanceと他の2つのスタンス検出データセットを、BERTベースのモデルを使ってベンチマークします。 我々の最善のモデルは85%の精度と78%のマクロf1スコアを達成し、改善の余地を残し、悲惨なアラスタンスの性質と一般的なスタンス検出の課題を反映している。

With the continuing spread of misinformation and disinformation online, it is of increasing importance to develop combating mechanisms at scale in the form of automated systems that support multiple languages. One task of interest is claim veracity prediction, which can be addressed using stance detection with respect to relevant documents retrieved online. To this end, we present our new Arabic Stance Detection dataset (AraStance) of 910 claims from a diverse set of sources comprising three fact-checking websites and one news website. AraStance covers false and true claims from multiple domains (e.g., politics, sports, health) and several Arab countries, and it is wellbalanced between related and unrelated documents with respect to the claims. We benchmark AraStance, along with two other stance detection datasets, using a number of BERTbased models. Our best model achieves an accuracy of 85% and a macro F1 score of 78%, which leaves room for improvement and reflects the challenging nature of AraStance and the task of stance detection in general.
翻訳日:2021-04-29 19:57:14 公開日:2021-04-28
# (参考訳) ニューラルレイトレーシング:学習面とリライトとビュー合成のための反射率 [全文訳有]

Neural Ray-Tracing: Learning Surfaces and Reflectance for Relighting and View Synthesis ( http://arxiv.org/abs/2104.13562v1 )

ライセンス: CC BY 4.0
Julian Knodt, Seung-Hwan Baek, Felix Heide(参考訳) 最近のニューラルレンダリング手法では、ニューラルネットワークを用いてボリューム密度と色を予測することにより、正確な視野補間が示されている。 このようなボリューム表現は静的および動的シーンで管理できるが、既存の方法では、表面モデリング、双方向散乱分布関数、間接照明効果を含む、特定のシーンのための単一のニューラルネットワークへの完全なシーン光輸送を暗黙的に焼く。 従来のレンダリングパイプラインとは対照的に、シーン内の他のオブジェクトの表面反射、照明、構成の変更を禁止している。 本研究では,シーン表面間の光伝達を明示的にモデル化し,従来の統合スキームと,シーンを再現するためのレンダリング式に依存する。 提案手法は、未知の光条件とパストラシングのような古典的な光輸送でBSDFの回復を可能にする。 従来のレンダリング法で確立された表面表現による分解輸送を学習することにより、自然に形状、反射性、照明、シーン構成の編集が容易になる。 この方法は、既知の照明条件下でのライトアップのためのnervよりも優れており、リライトや編集シーンのリアルな再構成を生成する。 提案手法は,NERVデータセットのサブセットの合成およびキャプチャビューから得られたシーン編集,リライティング,反射率推定に有効である。

Recent neural rendering methods have demonstrated accurate view interpolation by predicting volumetric density and color with a neural network. Although such volumetric representations can be supervised on static and dynamic scenes, existing methods implicitly bake the complete scene light transport into a single neural network for a given scene, including surface modeling, bidirectional scattering distribution functions, and indirect lighting effects. In contrast to traditional rendering pipelines, this prohibits changing surface reflectance, illumination, or composing other objects in the scene. In this work, we explicitly model the light transport between scene surfaces and we rely on traditional integration schemes and the rendering equation to reconstruct a scene. The proposed method allows BSDF recovery with unknown light conditions and classic light transports such as pathtracing. By learning decomposed transport with surface representations established in conventional rendering methods, the method naturally facilitates editing shape, reflectance, lighting and scene composition. The method outperforms NeRV for relighting under known lighting conditions, and produces realistic reconstructions for relit and edited scenes. We validate the proposed approach for scene editing, relighting and reflectance estimation learned from synthetic and captured views on a subset of NeRV's datasets.
翻訳日:2021-04-29 19:43:20 公開日:2021-04-28
# (参考訳) 未知知識を用いた関係抽出のための多視点推論 [全文訳有]

Multi-view Inference for Relation Extraction with Uncertain Knowledge ( http://arxiv.org/abs/2104.13579v1 )

ライセンス: CC BY 4.0
Bo Li, Wei Ye, Canming Huang, and Shikun Zhang(参考訳) 知識グラフ(KG)は関係抽出(RE)作業を容易にするために広く使われている。 従来のRE手法は決定論的KGの活用に重点を置いているが、関係インスタンスごとに信頼スコアを割り当てる不確実なKGは、関係事実の事前確率分布をREモデルにとって価値のある外部知識として提供することができる。 本稿では,不確実な知識を利用して関係抽出を改善することを提案する。 具体的には、ターゲットエンティティがコンセプトに属する範囲を示す不確実なKGであるProBaseを、当社のREアーキテクチャに導入する。 次に,3つの視点にわたる局所的文脈とグローバル知識を体系的に統合する,新しいマルチビュー推論フレームワークを設計した。 実験の結果,本モデルは文間関係抽出と文書間関係抽出の両方において競争性能を達成でき,我々が設計する多視点推論フレームワークと不確定な知識の導入の有効性を検証できることがわかった。

Knowledge graphs (KGs) are widely used to facilitate relation extraction (RE) tasks. While most previous RE methods focus on leveraging deterministic KGs, uncertain KGs, which assign a confidence score for each relation instance, can provide prior probability distributions of relational facts as valuable external knowledge for RE models. This paper proposes to exploit uncertain knowledge to improve relation extraction. Specifically, we introduce ProBase, an uncertain KG that indicates to what extent a target entity belongs to a concept, into our RE architecture. We then design a novel multi-view inference framework to systematically integrate local context and global knowledge across three views: mention-, entity- and concept-view. The experimental results show that our model achieves competitive performances on both sentence- and document-level relation extraction, which verifies the effectiveness of introducing uncertain knowledge and the multi-view inference framework that we design.
翻訳日:2021-04-29 19:31:23 公開日:2021-04-28
# (参考訳) [Re]コンテキストでオブジェクトを判断しない:コンテキストバイアスを克服する学習 [全文訳有]

[Re] Don't Judge an Object by Its Context: Learning to Overcome Contextual Bias ( http://arxiv.org/abs/2104.13582v1 )

ライセンス: CC BY 4.0
Sunnie S. Y. Kim, Sharon Zhang, Nicole Meister, Olga Russakovsky(参考訳) Singh et al. (2020) 視覚認識データセットにおける文脈バイアスの危険性を指摘する。 彼らはCAMベースと特徴分割という2つの手法を提案し、オブジェクトや属性を通常のコンテキストなしでよりよく認識し、競合するコンテキスト内精度を維持している。 それらの性能を検証するため,本論文では付録を含む12の表を全て再現する試みを行った。 また,提案手法をよりよく理解するための追加実験を行い,camによる正規化の増大や特徴分割の重み付き損失の除去などを行った。 オリジナルのコードが利用できないため、パイプライン全体をスクラッチからPyTorch 1.7.0で実装しました。 実装は著者との論文と電子メールの交換に基づいています。 提案手法は両手法とも文脈バイアスを軽減するのに有効であることがわかったが,いくつかの手法では,広範囲なハイパーパラメータ探索を完了しても,論文の定量的結果を完全に再現することはできなかった。 例えば、COCO-Stuff、DeepFashion、UnRelでは、標準ベースライン上でのコンテキスト外画像の精度が向上しましたが、AwAではパフォーマンスが低下しました。 提案手法では,元の論文の結果を0.5$\%$mAP以内で再現することができた。 実装はhttps://github.com/p rincetonvisualai/con textualbiasで確認できます。

Singh et al. (2020) point out the dangers of contextual bias in visual recognition datasets. They propose two methods, CAM-based and feature-split, that better recognize an object or attribute in the absence of its typical context while maintaining competitive within-context accuracy. To verify their performance, we attempted to reproduce all 12 tables in the original paper, including those in the appendix. We also conducted additional experiments to better understand the proposed methods, including increasing the regularization in CAM-based and removing the weighted loss in feature-split. As the original code was not made available, we implemented the entire pipeline from scratch in PyTorch 1.7.0. Our implementation is based on the paper and email exchanges with the authors. We found that both proposed methods in the original paper help mitigate contextual bias, although for some methods, we could not completely replicate the quantitative results in the paper even after completing an extensive hyperparameter search. For example, on COCO-Stuff, DeepFashion, and UnRel, our feature-split model achieved an increase in accuracy on out-of-context images over the standard baseline, whereas on AwA, we saw a drop in performance. For the proposed CAM-based method, we were able to reproduce the original paper's results to within 0.5$\%$ mAP. Our implementation can be found at https://github.com/p rincetonvisualai/Con textualBias.
翻訳日:2021-04-29 19:15:08 公開日:2021-04-28
# (参考訳) Transformerによるポイントクラウド学習 [全文訳有]

Point Cloud Learning with Transformer ( http://arxiv.org/abs/2104.13636v1 )

ライセンス: CC BY 4.0
Xian-Feng Han, Yu-Jia Kuang, Guo-Qiang Xiao(参考訳) 自然言語処理におけるトランスフォーマーネットワークの顕著な性能は、画像認識やセグメンテーションといったコンピュータビジョンタスクを扱う際のこれらのモデルの開発を促進する。 本稿では,多レベルマルチスケールポイントトランスフォーマ(mlmspt)と呼ばれる,表現学習のための不規則なポイントクラウド上で直接動作する新しいフレームワークを提案する。 具体的には,各スケールの異なるレベルからコンテキスト情報を集約し,それらの相互作用を強化するマルチレベルトランスフォーマーモジュールを用いて,様々な解像度やスケールで特徴をモデル化する。 マルチスケールトランスフォーマーモジュールは、異なるスケールの表現間の依存関係をキャプチャするように設計されている。 公開ベンチマークデータセットの広範な評価は,3次元形状分類,パートセグメンテーション,セマンティックセグメンテーションタスクにおける提案手法の有効性と競合性を示している。

Remarkable performance from Transformer networks in Natural Language Processing promote the development of these models in dealing with computer vision tasks such as image recognition and segmentation. In this paper, we introduce a novel framework, called Multi-level Multi-scale Point Transformer (MLMSPT) that works directly on the irregular point clouds for representation learning. Specifically, a point pyramid transformer is investigated to model features with diverse resolutions or scales we defined, followed by a multi-level transformer module to aggregate contextual information from different levels of each scale and enhance their interactions. While a multi-scale transformer module is designed to capture the dependencies among representations across different scales. Extensive evaluation on public benchmark datasets demonstrate the effectiveness and the competitive performance of our methods on 3D shape classification, part segmentation and semantic segmentation tasks.
翻訳日:2021-04-29 18:53:47 公開日:2021-04-28
# (参考訳) pytorch tabular: 表データを用いたディープラーニングフレームワーク [全文訳有]

PyTorch Tabular: A Framework for Deep Learning with Tabular Data ( http://arxiv.org/abs/2104.13638v1 )

ライセンス: CC BY 4.0
Manu Joseph(参考訳) テキストや画像のようなモダリティにおいて不合理な効果を示すにもかかわらず、Deep Learningは常にグラフデータのグラディエントブースティング(Gradient Boosting)に人気とパフォーマンスの両面でタグ付けしてきた。 しかし最近、表データ専用に作られた新しいモデルがあり、パフォーマンスバーを押している。 しかし、sci-kitのような簡単に使えるライブラリがディープラーニングのために学習できないため、人気は依然として課題である。 PyTorch Tabularは、Deep Learningと表データを簡単に高速に扱える新しいディープラーニングライブラリである。 PyTorchとPyTorch Lightningの上に構築されたライブラリで、パンダのデータフレームを直接処理する。 NODEやTabNetのような多くのSOTAモデルは、すでに統合されたAPIでライブラリに統合され実装されている。 pytorch tabularは、研究者にとって容易に拡張可能で、実践者にとってシンプルで、産業展開において堅牢であるように設計されている。

In spite of showing unreasonable effectiveness in modalities like Text and Image, Deep Learning has always lagged Gradient Boosting in tabular data - both in popularity and performance. But recently there have been newer models created specifically for tabular data, which is pushing the performance bar. But popularity is still a challenge because there is no easy, ready-to-use library like Sci-Kit Learn for deep learning. PyTorch Tabular is a new deep learning library which makes working with Deep Learning and tabular data easy and fast. It is a library built on top of PyTorch and PyTorch Lightning and works on pandas dataframes directly. Many SOTA models like NODE and TabNet are already integrated and implemented in the library with a unified API. PyTorch Tabular is designed to be easily extensible for researchers, simple for practitioners, and robust in industrial deployments.
翻訳日:2021-04-29 18:41:40 公開日:2021-04-28
# (参考訳) 履歴桁文字列認識のためのエンドツーエンドアプローチ [全文訳有]

End-to-End Approach for Recognition of Historical Digit Strings ( http://arxiv.org/abs/2104.13666v1 )

ライセンス: CC BY 4.0
Mengqiao Zhao, Andre G. Hochuli, Abbas Cheddad(参考訳) 近年、デジタル化された歴史文書データセットが多数登場し、手書き文字認識の分野への興味が再燃している。 同じ流れの中で、ARDISとして知られる最近発表されたデータセットは、スウェーデンの教会書の15万冊のスキャンされた文書から手書きの数字を抽出し、様々な筆跡を提示している。 そこで本研究では,ardisデータセット (4桁長文字列) に存在する日付の,この難解な手書きスタイルを扱うために,エンドツーエンドのセグメントフリーなディープラーニング手法を提案する。 vgg-16深層モデルにわずかな修正を加えることで、93.2%の認識率を達成でき、その結果、ヒューリスティックな方法、セグメンテーション、融合方法のない実現可能な解が得られることを示した。 さらに,提案手法はCRNN法(手書き認識タスクに広く適用されているモデル)よりも優れている。

The plethora of digitalised historical document datasets released in recent years has rekindled interest in advancing the field of handwriting pattern recognition. In the same vein, a recently published data set, known as ARDIS, presents handwritten digits manually cropped from 15.000 scanned documents of Swedish church books and exhibiting various handwriting styles. To this end, we propose an end-to-end segmentation-free deep learning approach to handle this challenging ancient handwriting style of dates present in the ARDIS dataset (4-digits long strings). We show that with slight modifications in the VGG-16 deep model, the framework can achieve a recognition rate of 93.2%, resulting in a feasible solution free of heuristic methods, segmentation, and fusion methods. Moreover, the proposed approach outperforms the well-known CRNN method (a model widely applied in handwriting recognition tasks).
翻訳日:2021-04-29 18:35:35 公開日:2021-04-28
# (参考訳) ランダムニューラルネットワークによる最適停止 [全文訳有]

Optimal Stopping via Randomized Neural Networks ( http://arxiv.org/abs/2104.13669v1 )

ライセンス: CC BY 4.0
Calypso Herrera, Florian Krack, Pierre Ruyssen, Josef Teichmann(参考訳) 本稿では,最適停止問題の解を近似する新しい機械学習手法を提案する。 これらの方法の重要なアイデアは、隠れた層がランダムに生成され、最後の層のみがトレーニングされるニューラルネットワークを使用することで、継続値を近似する。 我々のアプローチは、既存のアプローチがますます現実的でない高次元問題に適用できる。 さらに,本手法は単純な線形回帰法を用いて最適化できるため,実装は非常に容易であり,理論的保証も提供できる。 マルコフの例では、ランダム化された強化学習アプローチと非マルコフの例では、ランダム化されたリカレントニューラルネットワークアプローチが最先端や他の関連する機械学習アプローチより優れている。

This paper presents new machine learning approaches to approximate the solution of optimal stopping problems. The key idea of these methods is to use neural networks, where the hidden layers are generated randomly and only the last layer is trained, in order to approximate the continuation value. Our approaches are applicable for high dimensional problems where the existing approaches become increasingly impractical. In addition, since our approaches can be optimized using a simple linear regression, they are very easy to implement and theoretical guarantees can be provided. In Markovian examples our randomized reinforcement learning approach and in non-Markovian examples our randomized recurrent neural network approach outperform the state-of-the-art and other relevant machine learning approaches.
翻訳日:2021-04-29 18:24:35 公開日:2021-04-28
# (参考訳) HOTR:変換器による人間と物体の相互作用検出 [全文訳有]

HOTR: End-to-End Human-Object Interaction Detection with Transformers ( http://arxiv.org/abs/2104.13682v1 )

ライセンス: CC BY 4.0
Bumsoo Kim, Junhyun Lee, Jaewoo Kang, Eun-Sol Kim, Hyunwoo J. Kim(参考訳) 人間と物体の相互作用(hoi:human-object interaction)検出(human-object interaction)は、画像中の「一連の相互作用」を識別するタスクであり、i)対象(つまり、人間)と対象(すなわち、対象)の相互作用の分類、ii)相互作用ラベルの分類を含む。 既存のほとんどのメソッドは、人間とオブジェクトのインスタンスを検出し、検出されたインスタンスのペアを個別に推測することで、このタスクに間接的に対処している。 本稿では,変換器エンコーダ-デコーダアーキテクチャに基づく画像から<human, object, interaction>トリプレットのセットを直接予測するhotrによって言及される新しいフレームワークを提案する。 本手法は,画像中の意味的関係を効果的に利用し,既存の手法の主なボトルネックである時間を要する後処理を必要としない。 提案アルゴリズムは,物体検出後1ms以下の推定時間を持つ2つのHOI検出ベンチマークにおいて,最先端性能を実現する。

Human-Object Interaction (HOI) detection is a task of identifying "a set of interactions" in an image, which involves the i) localization of the subject (i.e., humans) and target (i.e., objects) of interaction, and ii) the classification of the interaction labels. Most existing methods have indirectly addressed this task by detecting human and object instances and individually inferring every pair of the detected instances. In this paper, we present a novel framework, referred to by HOTR, which directly predicts a set of <human, object, interaction> triplets from an image based on a transformer encoder-decoder architecture. Through the set prediction, our method effectively exploits the inherent semantic relationships in an image and does not require time-consuming post-processing which is the main bottleneck of existing methods. Our proposed algorithm achieves the state-of-the-art performance in two HOI detection benchmarks with an inference time under 1 ms after object detection.
翻訳日:2021-04-29 17:52:41 公開日:2021-04-28
# (参考訳) SELF & FEIL:フィンランドの感情と強度のレキシコン [全文訳有]

SELF & FEIL: Emotion and Intensity Lexicons for Finnish ( http://arxiv.org/abs/2104.13691v1 )

ライセンス: CC BY 4.0
Emily \"Ohman(参考訳) 本稿では,フィンランドのSELF(Sentiment and Emotion Lexicon)とフィンランドのFEIL(Emotion Intensity Lexicon)を紹介する。 本稿では,レキシコン生成プロセスを説明し,一般的なツールを用いてレキシコンを評価する。 辞書は、NRC Emotion Lexiconから投影されたアノテーションを使用して、注意深く編集された翻訳を行う。 私たちの知る限り、これはフィンランドにとって初めての総合的な感情と感情のレキシコンです。

This paper introduces a Sentiment and Emotion Lexicon for Finnish (SELF) and a Finnish Emotion Intensity Lexicon (FEIL). We describe the lexicon creation process and evaluate the lexicon using some commonly available tools. The lexicon uses annotations projected from the NRC Emotion Lexicon with carefully edited translations. To our knowledge, this is the first comprehensive sentiment and emotion lexicon for Finnish.
翻訳日:2021-04-29 17:37:30 公開日:2021-04-28
# (参考訳) 選択採用の情報交流プロファイル [全文訳有]

Information Interaction Profile of Choice Adoption ( http://arxiv.org/abs/2104.13695v1 )

ライセンス: CC BY 4.0
Ga\"el Poux-M\'edard and Julien Velcin and Sabine Loudcher(参考訳) 情報の断片(エンティティ)間の相互作用は、製品の採用、ニュースの拡散、戦略の選択など、個人の行動の仕方において重要な役割を果たす。 しかし、基礎となる相互作用機構はよく分かっておらず、文献ではほとんど研究されていない。 本稿では,相互作用するエンティティを分離する時間的距離に応じて,相互作用ネットワークとその進化を推論する効率的な手法を提案する。 相互作用プロファイルは、相互作用プロセスのメカニズムを特徴づけることができる。 マルチカーネル推論の最近の進歩に基づいて凸モデルを用いてこの問題にアプローチする。 エンティティ(url、広告、状況)への露光順序と、ユーザがそれに対して行うアクション(共有、クリック、決定)について検討する。 本研究では,曝露の組合せによってユーザが異なる行動を示す方法を検討する。 ユーザに対する露出の組み合わせの効果は、各露出の独立した効果の総和以上のものであることを示す。 我々はこのモデリングを並列に解くことができる非パラメトリック凸最適化問題に還元する。 提案手法は,3つの実世界のデータセット上でのインタラクションプロセスの状態を復元し,基礎となるデータ生成機構の推論においてベースラインを上回ります。 最後に,インタラクションプロファイルを直感的に視覚化することで,モデルの解釈を緩和できることを示す。

Interactions between pieces of information (entities) play a substantial role in the way an individual acts on them: adoption of a product, the spread of news, strategy choice, etc. However, the underlying interaction mechanisms are often unknown and have been little explored in the literature. We introduce an efficient method to infer both the entities interaction network and its evolution according to the temporal distance separating interacting entities; together, they form the interaction profile. The interaction profile allows characterizing the mechanisms of the interaction processes. We approach this problem via a convex model based on recent advances in multi-kernel inference. We consider an ordered sequence of exposures to entities (URL, ads, situations) and the actions the user exerts on them (share, click, decision). We study how users exhibit different behaviors according to combinations of exposures they have been exposed to. We show that the effect of a combination of exposures on a user is more than the sum of each exposure's independent effect--there is an interaction. We reduce this modeling to a non-parametric convex optimization problem that can be solved in parallel. Our method recovers state-of-the-art results on interaction processes on three real-world datasets and outperforms baselines in the inference of the underlying data generation mechanisms. Finally, we show that interaction profiles can be visualized intuitively, easing the interpretation of the model.
翻訳日:2021-04-29 17:31:41 公開日:2021-04-28
# (参考訳) ニューラルネットワークと視覚形状を用いた3次元頭部再構成のためのハイブリッドアプローチ [全文訳有]

Hybrid Approach for 3D Head Reconstruction: Using Neural Networks and Visual Geometry ( http://arxiv.org/abs/2104.13710v1 )

ライセンス: CC BY 4.0
Oussema Bouafif, Bogdan Khomutenko, Mohamed Daoudi(参考訳) 単一の入力画像から顔の3次元幾何学構造を復元することは、コンピュータビジョンにおける挑戦的な研究領域である。 本稿では,ディープラーニングと幾何学的手法に基づくハイブリッド手法を用いて,単一または複数画像から3次元頭部を再構成する新しい手法を提案する。 本稿では,U-netアーキテクチャに基づくエンコーダ・デコーダネットワークを提案し,合成データのみを訓練する。 ピクセル単位の正規ベクトルとランドマークの両方を単一の入力写真から予測する。 ランドマークはポーズ計算や最適化問題の初期化に使われ、パラメトリックな形態素モデルと正規ベクトル場を用いて3次元頭部形状を再構成する。 現状の成果は、単一および多視点設定の質的および定量的評価テストによって達成される。 モデルが合成データのみに基づいてトレーニングされたにもかかわらず、実世界の画像の3dジオメトリと正確なポーズを回復することに成功した。

Recovering the 3D geometric structure of a face from a single input image is a challenging active research area in computer vision. In this paper, we present a novel method for reconstructing 3D heads from a single or multiple image(s) using a hybrid approach based on deep learning and geometric techniques. We propose an encoder-decoder network based on the U-net architecture and trained on synthetic data only. It predicts both pixel-wise normal vectors and landmarks maps from a single input photo. Landmarks are used for the pose computation and the initialization of the optimization problem, which, in turn, reconstructs the 3D head geometry by using a parametric morphable model and normal vector fields. State-of-the-art results are achieved through qualitative and quantitative evaluation tests on both single and multi-view settings. Despite the fact that the model was trained only on synthetic data, it successfully recovers 3D geometry and precise poses for real-world images.
翻訳日:2021-04-29 17:19:11 公開日:2021-04-28
# (参考訳) 2021年の宇宙飛行士プロジェクト:人間の脳が世界の動きの感覚を作る方法 [全文訳有]

The Algonauts Project 2021 Challenge: How the Human Brain Makes Sense of a World in Motion ( http://arxiv.org/abs/2104.13714v1 )

ライセンス: CC BY 4.0
R.M. Cichy, K. Dwivedi, B. Lahner, A. Lascelles, P. Iamshchinina, M. Graumann, A. Andonian, N.A.R. Murty, K. Kay, G. Roig, A. Oliva(参考訳) 自然と人工知能の科学は基本的に結びついている。 脳にインスパイアされた人間工学AIは、現在、視覚中の人間の脳反応を予測する標準となっている。 これらの分野間のより深いつながりを促進するため、我々は2021年版のalgonauts project challenge: how the human brain makes sense of a world in motion (http://algonauts.cs ail.mit.edu/)をリリースする。 10人の被験者が毎日の出来事を描写した1000本以上の短いビデオクリップのリッチなセットを見ている間、全脳 fMRI 応答が記録された。 このチャレンジの目的は、ビデオクリップに対する脳の反応を正確に予測することだ。 私たちの挑戦の形式は、迅速な開発を保証し、結果を直接比較し、透過的にし、誰に対してもオープンです。 このようにして、視覚知能を理解するという共通の目標に向けて、学際的なコラボレーションを促進する。 2021年のalgonautsプロジェクトはcognitive computational neuroscience (ccn) conferenceと共同で行われている。

The sciences of natural and artificial intelligence are fundamentally connected. Brain-inspired human-engineered AI are now the standard for predicting human brain responses during vision, and conversely, the brain continues to inspire invention in AI. To promote even deeper connections between these fields, we here release the 2021 edition of the Algonauts Project Challenge: How the Human Brain Makes Sense of a World in Motion (http://algonauts.cs ail.mit.edu/). We provide whole-brain fMRI responses recorded while 10 human participants viewed a rich set of over 1,000 short video clips depicting everyday events. The goal of the challenge is to accurately predict brain responses to these video clips. The format of our challenge ensures rapid development, makes results directly comparable and transparent, and is open to all. In this way it facilitates interdisciplinary collaboration towards a common goal of understanding visual intelligence. The 2021 Algonauts Project is conducted in collaboration with the Cognitive Computational Neuroscience (CCN) conference.
翻訳日:2021-04-29 17:03:07 公開日:2021-04-28
# (参考訳) PCFGは、多くのシンボルを持つ確率論的文脈自由文法を誘導する [全文訳有]

PCFGs Can Do Better: Inducing Probabilistic Context-Free Grammars with Many Symbols ( http://arxiv.org/abs/2104.13727v1 )

ライセンス: CC0 1.0
Songlin Yang, Yanpeng Zhao, Kewei Tu(参考訳) ニューラルパラメータ化を伴う確率論的文脈自由文法(pcfgs)は教師なし句構造文法誘導に有効であることが示されている。 しかし、PCFG表現と解析の3次計算の複雑さのため、従来の手法では比較的多くの(非終端および終端)シンボルにスケールアップできない。 本研究では,シンボル数に最大2次計算量を持つテンソル分解に基づく新しいパラメータ化形式を提案する。 さらに,ニューラルパラメタライゼーションを用いて,教師なし解析性能を向上させる。 我々は10言語にまたがってモデルを評価し,より多くのシンボルの使用の有効性を実証的に実証する。 コード:https://github.com/ sustcsonglin/TN-PCFG

Probabilistic context-free grammars (PCFGs) with neural parameterization have been shown to be effective in unsupervised phrase-structure grammar induction. However, due to the cubic computational complexity of PCFG representation and parsing, previous approaches cannot scale up to a relatively large number of (nonterminal and preterminal) symbols. In this work, we present a new parameterization form of PCFGs based on tensor decomposition, which has at most quadratic computational complexity in the symbol number and therefore allows us to use a much larger number of symbols. We further use neural parameterization for the new form to improve unsupervised parsing performance. We evaluate our model across ten languages and empirically demonstrate the effectiveness of using more symbols. Our code: https://github.com/s ustcsonglin/TN-PCFG
翻訳日:2021-04-29 16:55:49 公開日:2021-04-28
# (参考訳) 画像分割における外乱検出のための分布ガウス過程層 [全文訳有]

Distributional Gaussian Process Layers for Outlier Detection in Image Segmentation ( http://arxiv.org/abs/2104.13756v1 )

ライセンス: CC BY 4.0
Sebastian G. Popescu, David J. Sharp, James H. Cole, Konstantinos Kamnitsas, Ben Glocker(参考訳) 我々は,wasserstein-2空間で動作するガウス過程を組み込んだ階層的畳み込みガウス過程に対して,不確かさを確実に伝播するパラメータ効率の高いベイズ層を提案する。 これは、ガウス過程を分布上の距離保存アフィン作用素に置き換える。 脳組織セグメンテーション実験の結果,従来の階層的ガウス過程では達成されていない,確立された決定論的セグメンテーションアルゴリズム(u-net)の性能にアプローチした。 さらに,同じセグメンテーションモデルを分散データ(例えば脳腫瘍などの病理画像)に適用することにより,不確実性推定の結果,従来のベイズネットワークや正規分布を学習するレコンストラクションに基づくアプローチよりも優れる分布外検出が得られることを示す。

We propose a parameter efficient Bayesian layer for hierarchical convolutional Gaussian Processes that incorporates Gaussian Processes operating in Wasserstein-2 space to reliably propagate uncertainty. This directly replaces convolving Gaussian Processes with a distance-preserving affine operator on distributions. Our experiments on brain tissue-segmentation show that the resulting architecture approaches the performance of well-established deterministic segmentation algorithms (U-Net), which has never been achieved with previous hierarchical Gaussian Processes. Moreover, by applying the same segmentation model to out-of-distribution data (i.e., images with pathology such as brain tumors), we show that our uncertainty estimates result in out-of-distribution detection that outperforms the capabilities of previous Bayesian networks and reconstruction-based approaches that learn normative distributions.
翻訳日:2021-04-29 16:33:11 公開日:2021-04-28
# (参考訳) FastAdaBelief:強い凸性による信頼に基づく適応最適化器の収束率の向上 [全文訳有]

FastAdaBelief: Improving Convergence Rate for Belief-based Adaptive Optimizer by Strong Convexity ( http://arxiv.org/abs/2104.13790v1 )

ライセンス: CC BY 4.0
Yangfan Zhou, Kaizhu Huang, Cheng Cheng, Xuguang Wang, and Xin Liu(参考訳) adabeliefアルゴリズムは、観測された勾配の指数的移動平均を見ることにより、adamアルゴリズムの優れた一般化能力を示す。 AdaBelief はデータ依存の $O(\sqrt{T})$ regret bound を持つことが証明されている。 しかし、AdaBeliefの収束率をさらに向上させるために、強い凸性を利用する方法については、未解決の問題である。 この問題に対処するため,我々はfastadabeliefと呼ばれる強い凸性を持つ新しい最適化アルゴリズムを提案する。 我々は、FastAdaBeliefがデータ依存の$O(\log T)$ regret boundを達成したことを証明している。 さらに、画像分類と言語モデリングのために、オープンデータセット(CIFAR-10とPenn Treebank)上で行われた広範な実験によって理論解析が検証される。

The AdaBelief algorithm demonstrates superior generalization ability to the Adam algorithm by viewing the exponential moving average of observed gradients. AdaBelief is proved to have a data-dependent $O(\sqrt{T})$ regret bound when objective functions are convex, where $T$ is a time horizon. However, it remains to be an open problem on how to exploit strong convexity to further improve the convergence rate of AdaBelief. To tackle this problem, we present a novel optimization algorithm under strong convexity, called FastAdaBelief. We prove that FastAdaBelief attains a data-dependant $O(\log T)$ regret bound, which is substantially lower than AdaBelief. In addition, the theoretical analysis is validated by extensive experiments performed on open datasets (i.e., CIFAR-10 and Penn Treebank) for image classification and language modeling.
翻訳日:2021-04-29 16:20:35 公開日:2021-04-28
# (参考訳) 部分観測可能なモンテカルロ計画のためのルールベースシールド [全文訳有]

Rule-based Shielding for Partially Observable Monte-Carlo Planning ( http://arxiv.org/abs/2104.13791v1 )

ライセンス: CC BY 4.0
Giulio Mazzi, Alberto Castellini, Alessandro Farinelli(参考訳) 部分的に観測可能なモンテカルロ計画 (POMCP) は、大規模な部分観測可能なマルコフ決定プロセスのための近似ポリシーを生成することができる強力なオンラインアルゴリズムである。 この手法のオンライン性は、完全なポリシー表現を避けてスケーラビリティをサポートする。 しかし、明示的な表現の欠如は政策解釈を妨げ、政策検証を非常に複雑にする。 本研究では,2つの貢献を提案する。 1つ目は、タスクの専門的な事前知識に関して、POMCPが選択した予期せぬ動作を特定する方法である。 2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。 最初の方法はSatifiability Modulo Theory (SMT) に基づいている。 POMCPが生成したトレース(すなわち、信念-行動-観測三重項の列)を検査し、専門家が定義したポリシー特性に関する論理公式のパラメータを計算する。 第2の貢献は、オンラインの論理式を使ってpomcpによって選択された異常なアクションを特定し、それらのアクションを専門家の知識を満たす論理式を満たすアクションに置き換えるモジュールである。 我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションにおける速度制御に関する現実の問題を評価する。 その結果, シールドされたPOMCPが標準のPOMCPよりも優れており, 間違ったパラメータのPOMCPが間違った動作を時折選択するケーススタディが得られた。 さらに,論理式パラメータが不適切な動作を含む軌跡を用いて最適化された場合にも,その手法が良好な性能を維持することを示す。

Partially Observable Monte-Carlo Planning (POMCP) is a powerful online algorithm able to generate approximate policies for large Partially Observable Markov Decision Processes. The online nature of this method supports scalability by avoiding complete policy representation. The lack of an explicit representation however hinders policy interpretability and makes policy verification very complex. In this work, we propose two contributions. The first is a method for identifying unexpected actions selected by POMCP with respect to expert prior knowledge of the task. The second is a shielding approach that prevents POMCP from selecting unexpected actions. The first method is based on Satisfiability Modulo Theory (SMT). It inspects traces (i.e., sequences of belief-action-observ ation triplets) generated by POMCP to compute the parameters of logical formulas about policy properties defined by the expert. The second contribution is a module that uses online the logical formulas to identify anomalous actions selected by POMCP and substitutes those actions with actions that satisfy the logical formulas fulfilling expert knowledge. We evaluate our approach on Tiger, a standard benchmark for POMDPs, and a real-world problem related to velocity regulation in mobile robot navigation. Results show that the shielded POMCP outperforms the standard POMCP in a case study in which a wrong parameter of POMCP makes it select wrong actions from time to time. Moreover, we show that the approach keeps good performance also if the parameters of the logical formula are optimized using trajectories containing some wrong actions.
翻訳日:2021-04-29 15:59:15 公開日:2021-04-28
# (参考訳) DeepSatData: 機械学習モデルをトレーニングするための衛星画像の大規模データセットの構築 [全文訳有]

DeepSatData: Building large scale datasets of satellite images for training machine learning models ( http://arxiv.org/abs/2104.13824v1 )

ライセンス: CC BY 4.0
Michail Tarasiou, Stefanos Zafeiriou(参考訳) 本稿では,高度分類タスクに重点を置いた機械学習モデル学習のための衛星画像データセットの自動生成のための設計上の考慮事項について述べる。 セマンティクスのセグメンテーション。 実装では、自由に利用可能なsentinel-2データを使用して、ディープニューラルネットワークのトレーニングに必要な大規模データセットを生成できる。 本稿では,深層ニューラルネットワークのトレーニングの観点から直面する課題について考察し,基礎的真理データの質の検証や,そのアプローチのスケーラビリティに関するコメント等について述べる。 コードはhttps://github.com/m ichaeltrs/deepsatdat aで提供される。

This report presents design considerations for automatically generating satellite imagery datasets for training machine learning models with emphasis placed on dense classification tasks, e.g. semantic segmentation. The implementation presented makes use of freely available Sentinel-2 data which allows generation of large scale datasets required for training deep neural networks. We discuss issues faced from the point of view of deep neural network training and evaluation such as checking the quality of ground truth data and comment on the scalability of the approach. Accompanying code is provided in https://github.com/m ichaeltrs/DeepSatDat a.
翻訳日:2021-04-29 15:42:57 公開日:2021-04-28
# (参考訳) 階層データのための深層自己回帰モデル学習 [全文訳有]

Learning deep autoregressive models for hierarchical data ( http://arxiv.org/abs/2104.13853v1 )

ライセンス: CC BY 4.0
Carl R. Andersson, Niklas Wahlstr\"om, Thomas B. Sch\"on(参考訳) 本稿では,確率的時間畳み込みネットワーク(STCN)の拡張として階層構造データのモデルを提案する。 提案モデルでは,階層型変分オートエンコーダとダウンサンプリングを併用することで,計算複雑性を向上できる。 提案モデルを音声と手書きテキストの2種類の逐次データで評価した。 その結果,提案モデルによる最先端性能の達成が期待できる。

We propose a model for hierarchical structured data as an extension to the stochastic temporal convolutional network (STCN). The proposed model combines an autoregressive model with a hierarchical variational autoencoder and downsampling to achieve superior computational complexity. We evaluate the proposed model on two different types of sequential data: speech and handwritten text. The results are promising with the proposed model achieving state-of-the-art performance.
翻訳日:2021-04-29 15:36:18 公開日:2021-04-28
# (参考訳) D-OccNet:クロスドメイン学習を用いた詳細な3次元再構成 [全文訳有]

D-OccNet: Detailed 3D Reconstruction Using Cross-Domain Learning ( http://arxiv.org/abs/2104.13854v1 )

ライセンス: CC BY 4.0
Minhaj Uddin Ansari, Talha Bilal, Naeem Akhter(参考訳) 深層学習に基づく1つのビュー2d画像の3次元再構成は,実世界の応用範囲が広いため,ますます普及しつつあるが,単一視点からのオブジェクトの部分的可観測性から,この課題は本質的に困難である。 近年,技術確率に基づくOccupancy Networksは3種類の入力領域から,単一ビュー2D画像,点雲,ボクセルの3次元面を再構成した。 本研究では,画像領域とポイント領域のクロスドメイン学習を活用し,占有ネットワークに関する研究を拡大する。 具体的には、まず1つのビュー2D画像を単純な点雲表現に変換し、それから3次元表面を再構成する。 我々のネットワークであるDouble Occupancy Network(D-OccNet)は、3D再構成で捉えた視覚的品質と詳細という点でOccupancy Networksを上回っている。

Deep learning based 3D reconstruction of single view 2D image is becoming increasingly popular due to their wide range of real-world applications, but this task is inherently challenging because of the partial observability of an object from a single perspective. Recently, state of the art probability based Occupancy Networks reconstructed 3D surfaces from three different types of input domains: single view 2D image, point cloud and voxel. In this study, we extend the work on Occupancy Networks by exploiting cross-domain learning of image and point cloud domains. Specifically, we first convert the single view 2D image into a simpler point cloud representation, and then reconstruct a 3D surface from it. Our network, the Double Occupancy Network (D-OccNet) outperforms Occupancy Networks in terms of visual quality and details captured in the 3D reconstruction.
翻訳日:2021-04-29 15:24:24 公開日:2021-04-28
# (参考訳) グラフリカレントニューラルネットワークを用いた分散制御における通信トポロジ共設計 [全文訳有]

Communication Topology Co-Design in Graph Recurrent Neural Network Based Distributed Control ( http://arxiv.org/abs/2104.13868v1 )

ライセンス: CC BY 4.0
Fengjun Yang and Nikolai Matni(参考訳) 大規模分散コントローラを設計する場合、通信トポロジによって定義されたサブコントローラ間の情報共有制約は、コントローラ自体と同じくらい重要である。 密集トポロジを用いて実装されたコントローラは、通常、スパーストポロジを用いて実装されたコントローラよりも優れているが、コントローラ配置のコストを最小限に抑えることも望ましい。 このようにして,分散コントローラと通信トポロジ共設計に適した分散コントローラのコンパクトかつ表現豊かなグラフリカレントニューラルネットワーク(GRNN)パラメータ化を導入する。 提案するパラメータ化は,従来のグラフニューラルネットワーク(GNN)ベースのパラメータ化と同様,局所的かつ分散的なアーキテクチャが好まれる一方で,分散コントローラと通信トポロジの協調最適化が自然に可能である。 分散制御/通信トポロジー共設計タスクを確率的勾配法を用いて効率的に解くことのできる$\ell_1$-regularized experimental risk minimization問題として提案する。 我々は、GRNNベースの分散コントローラの性能について広範なシミュレーションを行い、(a)自由パラメータを少なくしながらGNNベースのコントローラに匹敵する性能を実現し、(b)性能/通信密度トレードオフ曲線を効率的に近似できることを示す。

When designing large-scale distributed controllers, the information-sharing constraints between sub-controllers, as defined by a communication topology interconnecting them, are as important as the controller itself. Controllers implemented using dense topologies typically outperform those implemented using sparse topologies, but it is also desirable to minimize the cost of controller deployment. Motivated by the above, we introduce a compact but expressive graph recurrent neural network (GRNN) parameterization of distributed controllers that is well suited for distributed controller and communication topology co-design. Our proposed parameterization enjoys a local and distributed architecture, similar to previous Graph Neural Network (GNN)-based parameterizations, while further naturally allowing for joint optimization of the distributed controller and communication topology needed to implement it. We show that the distributed controller/communica tion topology co-design task can be posed as an $\ell_1$-regularized empirical risk minimization problem that can be efficiently solved using stochastic gradient methods. We run extensive simulations to study the performance of GRNN-based distributed controllers and show that (a) they achieve performance comparable to GNN-based controllers while having fewer free parameters, and (b) our method allows for performance/communic ation density tradeoff curves to be efficiently approximated.
翻訳日:2021-04-29 15:16:01 公開日:2021-04-28
# (参考訳) マルチタスク密集予測のための関係コンテキストの検討 [全文訳有]

Exploring Relational Context for Multi-Task Dense Prediction ( http://arxiv.org/abs/2104.13874v1 )

ライセンス: CC BY 4.0
David Bruggemann, Menelaos Kanakis, Anton Obukhov, Stamatios Georgoulis, Luc Van Gool(参考訳) コンピュータビジョン研究のタイムラインは、学習の進歩と効率的な文脈表現の活用が特徴である。 しかし、そのほとんどは、単一の下流タスクでモデルパフォーマンスを改善することを目的としている。 我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。 私たちの目標は、タスクの関係に依存するクロスタスクコンテキストをキャプチャすることで、各タスクの予測を洗練する最も効率的な方法を見つけることです。 マルチタスク設定において,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索し,各タスクを個別に洗練する際の動作を分析する。 実験により、異なるソースターゲットタスクペアが異なるコンテキストタイプから恩恵を受けることが確認された。 選択プロセスを自動化するために,ニューラルネットワークを用いてタスクペア毎に利用可能なコンテキストのプールをサンプリングし,最適な配置設定を出力する,適応タスク関連コンテキスト(ATRC)モジュールを提案する。 提案手法は,NYUD-v2 と PASCAL-Context という2つの重要なマルチタスクベンチマーク上での最先端性能を実現する。 提案したATRCは計算料金が低く、教師付きマルチタスクアーキテクチャのドロップイン改良モジュールとして使用できる。

The timeline of computer vision research is marked with advances in learning and utilizing efficient contextual representations. Most of them, however, are targeted at improving model performance on a single downstream task. We consider a multi-task environment for dense prediction tasks, represented by a common backbone and independent task-specific heads. Our goal is to find the most efficient way to refine each task prediction by capturing cross-task contexts dependent on tasks' relations. We explore various attention-based contexts, such as global and local, in the multi-task setting and analyze their behavior when applied to refine each task independently. Empirical findings confirm that different source-target task pairs benefit from different context types. To automate the selection process, we propose an Adaptive Task-Relational Context (ATRC) module, which samples the pool of all available contexts for each task pair using neural architecture search and outputs the optimal configuration for deployment. Our method achieves state-of-the-art performance on two important multi-task benchmarks, namely NYUD-v2 and PASCAL-Context. The proposed ATRC has a low computational toll and can be used as a drop-in refinement module for any supervised multi-task architecture.
翻訳日:2021-04-29 15:00:23 公開日:2021-04-28
# (参考訳) 高次元付加モデルに対する決定木の普遍的整合性 [全文訳有]

Universal Consistency of Decision Trees for High Dimensional Additive Models ( http://arxiv.org/abs/2104.13881v1 )

ライセンス: CC BY 4.0
Jason M. Klusowski(参考訳) 本稿では,分類木と回帰木(CART)手法を用いて構築された決定木が,ある$\ell_1$スペーサ性制約の下で,次元が標本サイズと指数関数的にスケールする場合でも,加法モデルに対して普遍的に一致していることを示す。 整合性は、入力変数の分布に先入観が存在しないという意味で普遍的である。 驚くべきことに、この(近似的または正確な)間隔への適応性は、アンサンブルに期待されるものとは対照的に、単一の木で達成される。 最後に,個々の樹木の質的性質は,ブレイマンのランダム林に受け継がれていることを示す。 この分析における重要なステップは、適合性と複雑性のトレードオフを正確に特徴づけるオラクルの不平等の確立である。

This paper shows that decision trees constructed with Classification and Regression Trees (CART) methodology are universally consistent for additive models, even when the dimensionality scales exponentially with the sample size, under certain $\ell_1$ sparsity constraints. The consistency is universal in the sense that there are no a priori assumptions on the distribution of the input variables. Surprisingly, this adaptivity to (approximate or exact) sparsity is achieved with a single tree, as opposed to what might be expected for an ensemble. Finally, we show that these qualitative properties of individual trees are inherited by Breiman's random forests. A key step in the analysis is the establishment of an oracle inequality, which precisely characterizes the goodness-of-fit and complexity tradeoff.
翻訳日:2021-04-29 14:42:26 公開日:2021-04-28
# (参考訳) ナンバープレートのローカライゼーションアルゴリズムの分類と比較 [全文訳有]

Classification and comparison of license plates localization algorithms ( http://arxiv.org/abs/2104.13896v1 )

ライセンス: CC BY 4.0
Mustapha Saidallah, Fatimazahra Taki, Abdelbaki El Belrhiti El Alaoui and Abdeslam El Fergougui(参考訳) インテリジェント・トランスポーテーション・システムズ(ITS)は世界経済競争の対象である。 これらは輸送部門における新しい情報・通信技術の応用であり、インフラをより効率的に、信頼性が高く、エコロジー的にするものである。 ライセンスプレート認識(lpr)は、このモジュールの速度と堅牢性を決定するため、ライセンスプレートのローカライゼーション(lpl)が最も重要な段階であるこれらのシステムのキーモジュールである。 したがって、このステップの間、アルゴリズムは画像を処理し、気候条件や照明条件、センサーや角度の変化、LPの標準化なし、リアルタイム処理などいくつかの制約を克服しなければならない。 本稿では,LPLアルゴリズムの分類と比較を行い,それぞれの利点,欠点,改善点について述べる。

The Intelligent Transportation Systems (ITS) are the subject of a world economic competition. They are the application of new information and communication technologies in the transport sector, to make the infrastructures more efficient, more reliable and more ecological. License Plates Recognition (LPR) is the key module of these systems, in which the License Plate Localization (LPL) is the most important stage, because it determines the speed and robustness of this module. Thus, during this step the algorithm must process the image and overcome several constraints as climatic and lighting conditions, sensors and angles variety, LPs no-standardization, and the real time processing. This paper presents a classification and comparison of License Plates Localization (LPL) algorithms and describes the advantages, disadvantages and improvements made by each of them
翻訳日:2021-04-29 14:22:04 公開日:2021-04-28
# (参考訳) ニューラルネットワークを用いた多スケール確率系における低速変数の発見 [全文訳有]

Discovery of slow variables in a class of multiscale stochastic systems via neural networks ( http://arxiv.org/abs/2104.13911v1 )

ライセンス: CC BY 4.0
Przemyslaw Zielinski and Jan S. Hesthaven(参考訳) 複雑で高次元のダイナミクスを本質的で低次元の「ハート」に還元することは、効率的な数値的アプローチを設計する上で必要不可欠な前提条件である。 機械学習手法は、そのような表現を自動的に発見する一般的なフレームワークを提供する可能性がある。 本稿では,局所的な低速時間スケール分離を伴うマルチスケール確率システムについて考察し,そのシステムから低速表現を抽出するマップをニューラルネットワークにエンコードする新しい手法を提案する。 ネットワークのアーキテクチャはエンコーダとデコーダのペアで構成されており、ボトルネック層に適切な低次元の埋め込みを学習するために教師付きで訓練する。 我々は、このメソッドを、正しいスロー表現を見つける能力を示すいくつかの例でテストする。 さらに,組込みの品質を評価するための誤差尺度を提供し,ネットワークの刈り取りがシステムの基本的な座標をピンポイントして遅い表現を構築できることを実証する。

Finding a reduction of complex, high-dimensional dynamics to its essential, low-dimensional "heart" remains a challenging yet necessary prerequisite for designing efficient numerical approaches. Machine learning methods have the potential to provide a general framework to automatically discover such representations. In this paper, we consider multiscale stochastic systems with local slow-fast time scale separation and propose a new method to encode in an artificial neural network a map that extracts the slow representation from the system. The architecture of the network consists of an encoder-decoder pair that we train in a supervised manner to learn the appropriate low-dimensional embedding in the bottleneck layer. We test the method on a number of examples that illustrate the ability to discover a correct slow representation. Moreover, we provide an error measure to assess the quality of the embedding and demonstrate that pruning the network can pinpoint an essential coordinates of the system to build the slow representation.
翻訳日:2021-04-29 14:11:08 公開日:2021-04-28
# (参考訳) 1次元からの高分解能光流と相関 [全文訳有]

High-Resolution Optical Flow from 1D Attention and Correlation ( http://arxiv.org/abs/2104.13918v1 )

ライセンス: CC BY 4.0
Haofei Xu, Jiaolong Yang, Jianfei Cai, Juyong Zhang, Xin Tong(参考訳) 光フローは本質的に2次元探索問題であり、計算複雑性は検索ウィンドウに対して2次的に増大し、高解像度画像に適合しない大きな変位が生じる。 本稿では,2次元光流を1次元の注意と相関で分解し,計算量を大幅に削減した高分解能光フロー推定法を提案する。 具体的には、まずターゲット画像の垂直方向の1Dアテンション操作を行い、次に参加者画像の水平方向の単純な1D相関により、2D対応モデリング効果が得られる。 注意と相関の方向も交換でき、光学フロー推定のために結合された2つの3dコストボリュームが得られる。 新たな1Dの定式化により,競争性能を維持しつつ,高解像度の入力画像にスケールすることができる。 Sintel,KITTI,および実世界の4K(2160 \times 3840$)解像度画像に対する大規模な実験により,提案手法の有効性と優位性を示した。

Optical flow is inherently a 2D search problem, and thus the computational complexity grows quadratically with respect to the search window, making large displacements matching infeasible for high-resolution images. In this paper, we propose a new method for high-resolution optical flow estimation with significantly less computation, which is achieved by factorizing 2D optical flow with 1D attention and correlation. Specifically, we first perform a 1D attention operation in the vertical direction of the target image, and then a simple 1D correlation in the horizontal direction of the attended image can achieve 2D correspondence modeling effect. The directions of attention and correlation can also be exchanged, resulting in two 3D cost volumes that are concatenated for optical flow estimation. The novel 1D formulation empowers our method to scale to very high-resolution input images while maintaining competitive performance. Extensive experiments on Sintel, KITTI and real-world 4K ($2160 \times 3840$) resolution images demonstrated the effectiveness and superiority of our proposed method.
翻訳日:2021-04-29 13:45:52 公開日:2021-04-28
# (参考訳) 教師なし画像キャプションにおける単語レベルのスプリアスアライメント除去と擬似カプセル化 [全文訳有]

Removing Word-Level Spurious Alignment between Images and Pseudo-Captions in Unsupervised Image Captioning ( http://arxiv.org/abs/2104.13872v1 )

ライセンス: CC BY 4.0
Ukyo Honda, Yoshitaka Ushiku, Atsushi Hashimoto, Taro Watanabe, Yuji Matsumoto(参考訳) 教師なしのイメージキャプションは、イメージと文のペアを監督せずにキャプションを生成することを目的とした課題であり、画像から検出された異なるソースやオブジェクトラベルから引き出された画像や文のみを扱う。 以前の研究では、検出されたオブジェクトラベルを含む文である擬似カプセルが与えられた画像に割り当てられていた。 先行研究の焦点は,入力画像のアライメントと文レベルでの擬似カプセル化であった。 しかし、疑似キャプチャには、ある画像と無関係な多くの単語が含まれている。 本研究では,画像・文のアライメントからミスマッチした単語を除去し,その処理を困難にする方法を検討する。 本稿では,画像特徴を擬似キャプションの最も信頼性の高い単語(検出対象ラベル)と整合させるための簡単なゲーティング機構を提案する。 実験の結果,提案手法は複雑な文レベルの学習目標を導入することなく,従来の手法よりも優れていた。 従来の作業の文レベルのアライメント手法と組み合わせることで,その性能をさらに向上する。 これらの結果は,単語レベルの細部における注意的アライメントの重要性を裏付けるものである。

Unsupervised image captioning is a challenging task that aims at generating captions without the supervision of image-sentence pairs, but only with images and sentences drawn from different sources and object labels detected from the images. In previous work, pseudo-captions, i.e., sentences that contain the detected object labels, were assigned to a given image. The focus of the previous work was on the alignment of input images and pseudo-captions at the sentence level. However, pseudo-captions contain many words that are irrelevant to a given image. In this work, we investigate the effect of removing mismatched words from image-sentence alignment to determine how they make this task difficult. We propose a simple gating mechanism that is trained to align image features with only the most reliable words in pseudo-captions: the detected object labels. The experimental results show that our proposed method outperforms the previous methods without introducing complex sentence-level learning objectives. Combined with the sentence-level alignment method of previous work, our method further improves its performance. These results confirm the importance of careful alignment in word-level details.
翻訳日:2021-04-29 13:19:31 公開日:2021-04-28
# オフライン政策評価と最適化のための自己回帰ダイナミクスモデル

Autoregressive Dynamics Models for Offline Policy Evaluation and Optimization ( http://arxiv.org/abs/2104.13877v1 )

ライセンス: Link先を確認
Michael R. Zhang, Tom Le Paine, Ofir Nachum, Cosmin Paduraru, George Tucker, Ziyu Wang, Mohammad Norouzi(参考訳) 連続制御のための標準力学モデルはフィードフォワード計算を用いて次の状態の条件分布を予測し、対角共分散構造を持つ多変量ガウス方程式を用いて与えられた状態と作用を与える。 このモデリングの選択は、次の状態と報酬の異なる次元が現在の状態と作用から条件的に独立であると仮定し、完全に観測可能な物理ベースのシミュレーション環境が決定論的遷移ダイナミクスを伴うという事実によって駆動される可能性がある。 本稿では,この条件付き独立性仮定に挑戦し,次状態の異なる次元を生成し,前次元に順次条件付きで報酬を与える表現的自己回帰力学モデル群を提案する。 自己回帰力学モデルは、保留遷移におけるログ様の標準フィードフォワードモデルよりも優れていることを示す。 さらに,オフラインのmujocoデータセットスイートであるrl unplugged上で,異なるモデルベースとモデルフリーのオフポリシー評価(ope)手法を比較して,自己回帰的ダイナミクスモデルがすべてのベースラインを一貫して上回っており,新たな最先端を実現することを確認した。 最後に,データ拡張による再生バッファの強化とモデルベースプランニングによる性能向上により,自動回帰力学モデルはオフラインポリシ最適化に有用であることを示す。

Standard dynamics models for continuous control make use of feedforward computation to predict the conditional distribution of next state and reward given current state and action using a multivariate Gaussian with a diagonal covariance structure. This modeling choice assumes that different dimensions of the next state and reward are conditionally independent given the current state and action and may be driven by the fact that fully observable physics-based simulation environments entail deterministic transition dynamics. In this paper, we challenge this conditional independence assumption and propose a family of expressive autoregressive dynamics models that generate different dimensions of the next state and reward sequentially conditioned on previous dimensions. We demonstrate that autoregressive dynamics models indeed outperform standard feedforward models in log-likelihood on heldout transitions. Furthermore, we compare different model-based and model-free off-policy evaluation (OPE) methods on RL Unplugged, a suite of offline MuJoCo datasets, and find that autoregressive dynamics models consistently outperform all baselines, achieving a new state-of-the-art. Finally, we show that autoregressive dynamics models are useful for offline policy optimization by serving as a way to enrich the replay buffer through data augmentation and improving performance using model-based planning.
翻訳日:2021-04-29 13:02:32 公開日:2021-04-28
# Feature-norm NetworkによるDeep Domain Generalization

Deep Domain Generalization with Feature-norm Network ( http://arxiv.org/abs/2104.13581v1 )

ライセンス: Link先を確認
Mohammad Mahfujur Rahman, Clinton Fookes, Sridha Sridharan(参考訳) 本稿では,複数のソースドメインを用いたトレーニングの課題を,適応ステップなしでテスト時に新しいドメインに一般化する目的で解決する。 これはドメイン一般化 (dg) と呼ばれる。 dgの以前の作品は、ソースドメイン全体で同一のカテゴリまたはラベル空間を仮定している。 ソース領域間のカテゴリシフトの場合、ラベル空間間の大きなミスマッチによりDGの従来の手法は負の転送に弱いため、ターゲットの分類精度は低下する。 上記の問題に対処するために、ソースドメイン間の特徴分布に一致しないため、負の転送に頑健なエンドツーエンド機能ノルムネットワーク(FNN)を導入する。 また、FNNの一般化機能を改善するために、協調的機能ノルムネットワーク(CFNN)を導入する。 CFNNは、各トレーニングサンプルの次の最も可能性の高いカテゴリの予測と一致し、各ネットワークの後方エントロピーが増加する。 画像分類タスクのDG問題に対して提案するFNNおよびCFNNネットワークを適用し,最先端技術に対する大幅な改善を示す。

In this paper, we tackle the problem of training with multiple source domains with the aim to generalize to new domains at test time without an adaptation step. This is known as domain generalization (DG). Previous works on DG assume identical categories or label space across the source domains. In the case of category shift among the source domains, previous methods on DG are vulnerable to negative transfer due to the large mismatch among label spaces, decreasing the target classification accuracy. To tackle the aforementioned problem, we introduce an end-to-end feature-norm network (FNN) which is robust to negative transfer as it does not need to match the feature distribution among the source domains. We also introduce a collaborative feature-norm network (CFNN) to further improve the generalization capability of FNN. The CFNN matches the predictions of the next most likely categories for each training sample which increases each network's posterior entropy. We apply the proposed FNN and CFNN networks to the problem of DG for image classification tasks and demonstrate significant improvement over the state-of-the-art.
翻訳日:2021-04-29 13:01:57 公開日:2021-04-28
# 生成逆ネットワークを用いた教師なしドメイン適応における意味的一貫性の保存

Preserving Semantic Consistency in Unsupervised Domain Adaptation Using Generative Adversarial Networks ( http://arxiv.org/abs/2104.13725v1 )

ライセンス: Link先を確認
Mohammad Mahfujur Rahman, Clinton Fookes, Sridha Sridharan(参考訳) 教師なしドメイン適応は、ソースドメインのラベル付きサンプルとターゲットドメインのラベルなしサンプルが与えられた場合、ソースドメインとターゲットドメインの間の分散不一致を軽減する。 GAN(Generative Adversarial Network)は,訓練に特有な画像を生成することにより,領域適応の大幅な向上を図っている。 しかし、教師なしドメイン適応のための既存のganベースの技術のほとんどは、ドメインマッチング中に意味情報を考慮しないため、ソースとターゲットのドメインデータが意味的に異なる場合のパフォーマンスが低下する。 本稿では, エンドツーエンドのセマンティック・コンセンサス・コンセンサス・ジェネレイティブ・アドバーサリー・ネットワーク(scgan)を提案する。 このネットワークは、特徴レベルでの意味情報をキャプチャし、ソースとターゲットドメインの両方から教師なしドメイン適応用の画像を生成することにより、ターゲットドメインマッチングを実現することができる。 提案手法は,デジットとオブジェクトの分類タスクを実験することにより,教師なしドメイン適応設定における最先端性能を超えるロバスト性を示す。

Unsupervised domain adaptation seeks to mitigate the distribution discrepancy between source and target domains, given labeled samples of the source domain and unlabeled samples of the target domain. Generative adversarial networks (GANs) have demonstrated significant improvement in domain adaptation by producing images which are domain specific for training. However, most of the existing GAN based techniques for unsupervised domain adaptation do not consider semantic information during domain matching, hence these methods degrade the performance when the source and target domain data are semantically different. In this paper, we propose an end-to-end novel semantic consistent generative adversarial network (SCGAN). This network can achieve source to target domain matching by capturing semantic information at the feature level and producing images for unsupervised domain adaptation from both the source and the target domains. We demonstrate the robustness of our proposed method which exceeds the state-of-the-art performance in unsupervised domain adaptation settings by performing experiments on digit and object classification tasks.
翻訳日:2021-04-29 13:01:41 公開日:2021-04-28
# 人物再同定のための姿勢誘導画像生成

Pose-driven Attention-guided Image Generation for Person Re-Identification ( http://arxiv.org/abs/2104.13773v1 )

ライセンス: Link先を確認
Amena Khatun, Simon Denman, Sridha Sridharan, Clinton Fookes(参考訳) 人物再識別(re-ID)は、マルチカメラ監視システムにおいて、異なるカメラビューにわたる被写体画像のマッチングに関するものである。 人物のリIDにおける大きな課題の1つは、カメラネットワーク全体のバリエーションであり、人の外観に大きな影響を及ぼす。 既存の開発データには、人物再IDシステムの効果的なトレーニングを行うための適切なポーズのバリエーションがない。 そこで本研究では,複数のポーズを生成するために,エンドツーエンドのポーズ駆動型注意誘導型生成対向ネットワークを提案する。 本稿では,注意機構を通じて被験者のポーズを注意深く学習し,伝達することを提案する。 ポーズ転送中の人物の意味情報を保持するために意味一貫性損失を提案する。 ポーズ変換後の微細な画像詳細が現実的であることを保証するため、画像転送のポーズが対象のポーズと正確に同一であることを保証するために、姿勢判別器を使用しながら、外観判別器を用いる。 提案手法を人物再識別フレームワークに組み込むことで、リアルなポーズ転送画像と最先端の再識別結果が得られることを示す。

Person re-identification (re-ID) concerns the matching of subject images across different camera views in a multi camera surveillance system. One of the major challenges in person re-ID is pose variations across the camera network, which significantly affects the appearance of a person. Existing development data lack adequate pose variations to carry out effective training of person re-ID systems. To solve this issue, in this paper we propose an end-to-end pose-driven attention-guided generative adversarial network, to generate multiple poses of a person. We propose to attentively learn and transfer the subject pose through an attention mechanism. A semantic-consistency loss is proposed to preserve the semantic information of the person during pose transfer. To ensure fine image details are realistic after pose translation, an appearance discriminator is used while a pose discriminator is used to ensure the pose of the transferred images will exactly be the same as the target pose. We show that by incorporating the proposed approach in a person re-identification framework, realistic pose transferred images and state-of-the-art re-identification results can be achieved.
翻訳日:2021-04-29 13:01:26 公開日:2021-04-28
# 人物再同定のための意味的一貫性とアイデンティティマッピング多成分生成対向ネットワーク

Semantic Consistency and Identity Mapping Multi-Component Generative Adversarial Network for Person Re-Identification ( http://arxiv.org/abs/2104.13780v1 )

ライセンス: Link先を確認
Amena Khatun, Simon Denman, Sridha Sridharan, Clinton Fookes(参考訳) 現実の環境では、照明条件、視角、ポーズ、オクルージョンの変化により、人物の再識別(Re-ID)は難しい課題である。 最近のパフォーマンス向上にもかかわらず、現在の人物のRe-IDアルゴリズムは、これらのバリエーションに遭遇しても大きな被害を受けています。 この問題に対処するために,1つのドメインから複数のドメインへのスタイル適応を提供する,意味的一貫性とアイデンティティマッピングの多成分生成対向ネットワーク(SC-IMGAN)を提案する。 トランスフォーメーションイメージが可能な限り現実的なものであることを保証するため,我々は,新しいアイデンティティマッピングと意味的一貫性の損失を提案し,多様なドメイン間のアイデンティティを維持する。 Re-IDタスクでは、生成画像と実画像でトレーニングされた共同検証識別クォーテットネットワークを提案し、続いて有効なクォーテット損失を検証に用いた。 提案手法は,cuhk01,cuhk03,viper ,prid2011,ilids,mark et-1501の6つの挑戦的人物リidデータセットにおける最先端技術を上回る。

In a real world environment, person re-identification (Re-ID) is a challenging task due to variations in lighting conditions, viewing angles, pose and occlusions. Despite recent performance gains, current person Re-ID algorithms still suffer heavily when encountering these variations. To address this problem, we propose a semantic consistency and identity mapping multi-component generative adversarial network (SC-IMGAN) which provides style adaptation from one to many domains. To ensure that transformed images are as realistic as possible, we propose novel identity mapping and semantic consistency losses to maintain identity across the diverse domains. For the Re-ID task, we propose a joint verification-identif ication quartet network which is trained with generated and real images, followed by an effective quartet loss for verification. Our proposed method outperforms state-of-the-art techniques on six challenging person Re-ID datasets: CUHK01, CUHK03, VIPeR, PRID2011, iLIDS and Market-1501.
翻訳日:2021-04-29 13:01:06 公開日:2021-04-28
# ツインズ:視覚変換器における空間的注意設計の再考

Twins: Revisiting Spatial Attention Design in Vision Transformers ( http://arxiv.org/abs/2104.13840v1 )

ライセンス: Link先を確認
Xiangxiang Chu and Zhi Tian and Yuqing Wang and Bo Zhang and Haibing Ren and Xiaolin Wei and Huaxia Xia and Chunhua Shen(参考訳) 近年、密集予測タスクのための様々な視覚トランスフォーマーアーキテクチャが提案され、これらのタスクの成功に空間的注意設計が不可欠であることが示されている。 本研究は,空間的注意の設計を再考し,注意深く考案され,かつ単純な空間的注意機構が最先端のスキームに対して好適に作用することを示す。 その結果,Twins-PCPVTとTwins-SVTの2つのビジョントランスフォーマーアーキテクチャを提案する。 提案するアーキテクチャは,現代のディープラーニングフレームワークに高度に最適化された行列乗算のみを含む,高効率かつ実装が容易である。 さらに,提案アーキテクチャは画像レベルの分類や高密度検出,セグメンテーションなど,幅広い視覚的タスクにおいて優れた性能を発揮する。 シンプルで強力なパフォーマンスは、提案するアーキテクチャが多くのビジョンタスクにおいてより強力なバックボーンとなることを示唆しています。 私たちのコードはもうすぐhttps://github.com/M eituan-AutoML/Twinsでリリースされます。

Very recently, a variety of vision transformer architectures for dense prediction tasks have been proposed and they show that the design of spatial attention is critical to their success in these tasks. In this work, we revisit the design of the spatial attention and demonstrate that a carefully-devised yet simple spatial attention mechanism performs favourably against the state-of-the-art schemes. As a result, we propose two vision transformer architectures, namely, Twins-PCPVT and Twins-SVT. Our proposed architectures are highly-efficient and easy to implement, only involving matrix multiplications that are highly optimized in modern deep learning frameworks. More importantly, the proposed architectures achieve excellent performance on a wide range of visual tasks including imagelevel classification as well as dense detection and segmentation. The simplicity and strong performance suggest that our proposed architectures may serve as stronger backbones for many vision tasks. Our code will be released soon at https://github.com/M eituan-AutoML/Twins .
翻訳日:2021-04-29 13:00:47 公開日:2021-04-28
# 視覚と言語知識蒸留によるゼロショット検出

Zero-Shot Detection via Vision and Language Knowledge Distillation ( http://arxiv.org/abs/2104.13921v1 )

ライセンス: Link先を確認
Xiuye Gu, Tsung-Yi Lin, Weicheng Kuo, Yin Cui(参考訳) ゼロショット画像分類は、アライメントされた画像とテキストエンコーダをトレーニングすることで、有望な進歩を遂げた。 この研究の目的はゼロショットオブジェクト検出の進歩であり、ボックスやマスクアノテーションを使わずに新しいオブジェクトを検出することを目的としている。 視覚・言語知識蒸留による学習手法であるViLDを提案する。 事前訓練されたゼロショット画像分類モデル(例えばクリップ)から2段階検出器(例えばマスクr-cnn)に知識を蒸留する。 本手法は,検出器内の領域埋め込みと,事前学習モデルによる画像埋め込みとを一致させる。 テキスト埋め込みを検出分類器として使用し,事前学習したテキストエンコーダにカテゴリ名を付与する。 次に、予め訓練された画像エンコーダに領域提案を供給して得られる領域埋め込みと画像埋め込みとの距離を最小化する。 推論中、ゼロショット検出のための検出分類器に新しいカテゴリのテキスト埋め込みを含める。 我々は,レアなカテゴリをすべて新しいカテゴリとして保持することで,LVISデータセットのパフォーマンスをベンチマークする。 ViLDは16.1マスクのAP$_r$をマスクR-CNN(ResNet-50 FPN)で取得し、ゼロショット検出を行う。 このモデルは、それぞれPASCAL VOC、COCO、Objects365で72.2 AP$_{50}$、36.6 AP、11.8 APを達成して、他のデータセットに直接転送することができる。

Zero-shot image classification has made promising progress by training the aligned image and text encoders. The goal of this work is to advance zero-shot object detection, which aims to detect novel objects without bounding box nor mask annotations. We propose ViLD, a training method via Vision and Language knowledge Distillation. We distill the knowledge from a pre-trained zero-shot image classification model (e.g., CLIP) into a two-stage detector (e.g., Mask R-CNN). Our method aligns the region embeddings in the detector to the text and image embeddings inferred by the pre-trained model. We use the text embeddings as the detection classifier, obtained by feeding category names into the pre-trained text encoder. We then minimize the distance between the region embeddings and image embeddings, obtained by feeding region proposals into the pre-trained image encoder. During inference, we include text embeddings of novel categories into the detection classifier for zero-shot detection. We benchmark the performance on LVIS dataset by holding out all rare categories as novel categories. ViLD obtains 16.1 mask AP$_r$ with a Mask R-CNN (ResNet-50 FPN) for zero-shot detection, outperforming the supervised counterpart by 3.8. The model can directly transfer to other datasets, achieving 72.2 AP$_{50}$, 36.6 AP and 11.8 AP on PASCAL VOC, COCO and Objects365, respectively.
翻訳日:2021-04-29 13:00:32 公開日:2021-04-28
# 医療用トランス:3次元MRI解析のためのユニバーサル脳エンコーダ

Medical Transformer: Universal Brain Encoder for 3D MRI Analysis ( http://arxiv.org/abs/2104.13633v1 )

ライセンス: Link先を確認
Eunji Jun, Seungwoo Jeong, Da-Woon Heo, Heung-Il Suk(参考訳) トランスファーラーニングは、現実世界でデータ駆動ディープラーニングモデルをトレーニングするためのアノテーション付き3d医療データセットが限られているため、医用画像解析で注目を集めている。 既存の3Dベースの手法では、トレーニング済みのモデルを下流のタスクに移行し、少数のトレーニングサンプルで有望な結果を得た。 しかし、彼らは3D医療画像のモデルを訓練するために大量のパラメータを要求する。 そこで本研究では, 2次元画像スライスのシーケンスとして, 3次元ボリュームイメージを効果的にモデル化する, medical transformer と呼ばれる新しいトランスファー学習フレームワークを提案する。 空間関係を向上する3次元形状の高レベル表現を実現するために,パラメータ効率のトレーニングを提供しながら,3次元体積の3次元平面から多くの情報を活用するマルチビュー手法を提案する。 様々なタスクに適用可能なソースモデルを構築するために,大規模で正常で健康な脳磁気共鳴画像(MRI)データセットを用いて,マスク付き符号化ベクトル予測をプロキシタスクとして自己教師付き学習方式で構築する。 脳疾患の診断(i)脳年齢予測(ii)脳腫瘍のセグメンテーション(iii)脳MRI研究で積極的に研究されている。 実験の結果,医用トランスフォーマーは最先端の伝達学習法より優れており,パラメータの数を92%まで効率的に削減できることがわかった。

Transfer learning has gained attention in medical image analysis due to limited annotated 3D medical datasets for training data-driven deep learning models in the real world. Existing 3D-based methods have transferred the pre-trained models to downstream tasks, which achieved promising results with only a small number of training samples. However, they demand a massive amount of parameters to train the model for 3D medical imaging. In this work, we propose a novel transfer learning framework, called Medical Transformer, that effectively models 3D volumetric images in the form of a sequence of 2D image slices. To make a high-level representation in 3D-form empowering spatial relations better, we take a multi-view approach that leverages plenty of information from the three planes of 3D volume, while providing parameter-efficient training. For building a source model generally applicable to various tasks, we pre-train the model in a self-supervised learning manner for masked encoding vector prediction as a proxy task, using a large-scale normal, healthy brain magnetic resonance imaging (MRI) dataset. Our pre-trained model is evaluated on three downstream tasks: (i) brain disease diagnosis, (ii) brain age prediction, and (iii) brain tumor segmentation, which are actively studied in brain MRI research. The experimental results show that our Medical Transformer outperforms the state-of-the-art transfer learning methods, efficiently reducing the number of parameters up to about 92% for classification and
翻訳日:2021-04-29 12:59:51 公開日:2021-04-28
# 視覚物体追跡のための2段階

Two stages for visual object tracking ( http://arxiv.org/abs/2104.13648v1 )

ライセンス: Link先を確認
Fei Chen and Xiaodong Wang(参考訳) Siameseベースのトラッカーは、ビジュアルオブジェクト追跡タスクで有望なパフォーマンスを達成した。 既存のシームズベースのトラッカーのほとんどは、分類ブランチとバウンディングボックス回帰ブランチを含む、追跡用の2つの別々のブランチを含んでいる。 さらに、イメージセグメンテーションは、より正確なターゲット領域を確保するための代替手段を提供する。 本稿では,検出とセグメンテーションという2段階の新たなトラッカーを提案する。 検出段階は、シャムネットワークによって目標を特定できる。 そして、第1段階で粗い状態推定を行うセグメンテーションモジュールにより、より正確な追跡結果を得る。 4つのベンチマークで実験を行う。 我々のアプローチは、vot2016のeaoは52.6$\%$、vot2018の51.3$\%$、vot2019のデータセットでは39.0$\%$である。

Siamese-based trackers have achived promising performance on visual object tracking tasks. Most existing Siamese-based trackers contain two separate branches for tracking, including classification branch and bounding box regression branch. In addition, image segmentation provides an alternative way to obetain the more accurate target region. In this paper, we propose a novel tracker with two-stages: detection and segmentation. The detection stage is capable of locating the target by Siamese networks. Then more accurate tracking results are obtained by segmentation module given the coarse state estimation in the first stage. We conduct experiments on four benchmarks. Our approach achieves state-of-the-art results, with the EAO of 52.6$\%$ on VOT2016, 51.3$\%$ on VOT2018, and 39.0$\%$ on VOT2019 datasets, respectively.
翻訳日:2021-04-29 12:59:25 公開日:2021-04-28
# MelBERT:メタフォリカル同定理論を用いた文脈的遅延相互作用によるメタフォリカル検出

MelBERT: Metaphor Detection via Contextualized Late Interaction using Metaphorical Identification Theories ( http://arxiv.org/abs/2104.13615v1 )

ライセンス: Link先を確認
Minjin Choi, Sunkyung Lee, Eunseong Choi, Heesoo Park, Junhyuk Lee, Dongwon Lee, and Jongwuk Lee(参考訳) メタファの自動検出は、文中の単語の比喩表現を識別する難しいタスクである。 この問題に対処するため、BERTやRoBERTaといった事前訓練済みのコンテキストモデルを採用しています。 そこで本研究では,BERT (MelBERT) に対するメタファ認識遅延相互作用というメタファ検出モデルを提案する。 我々のモデルは文脈化された単語表現を利用するだけでなく、文脈的意味とリテラル的意味を区別する言語的メタファー識別理論の利点も活用している。 我々の実証実験の結果、MelBERTは4つのベンチマークデータセット(VUA-18、VUA-20、MOH-X、TroFi)でいくつかの強力なベースラインを上回ります。

Automated metaphor detection is a challenging task to identify metaphorical expressions of words in a sentence. To tackle this problem, we adopt pre-trained contextualized models, e.g., BERT and RoBERTa. To this end, we propose a novel metaphor detection model, namely metaphor-aware late interaction over BERT (MelBERT). Our model not only leverages contextualized word representation but also benefits from linguistic metaphor identification theories to distinguish between the contextual and literal meaning of words. Our empirical results demonstrate that MelBERT outperforms several strong baselines on four benchmark datasets, i.e., VUA-18, VUA-20, MOH-X, and TroFi.
翻訳日:2021-04-29 12:59:12 公開日:2021-04-28
# 半教師付きグラフノード分類のためのグラフデカップリング注意マルコフネットワーク

Graph Decoupling Attention Markov Networks for Semi-supervised Graph Node Classification ( http://arxiv.org/abs/2104.13718v1 )

ライセンス: Link先を確認
Jie Chen, Shouzhen Chen, Mingyuan Bai, Jian Pu, Junping Zhang, Junbin Gao(参考訳) グラフニューラルネットワーク(GNN)は、ノード分類などのグラフ学習タスクにおいてユビキタスである。 GNNのほとんどのメソッドは、隣人の情報を集約することで、反復的にノードの埋め込みを更新する。 しかし、ノードを異なるラベルで接続するエッジのため、しばしば負の障害に悩まされる。 この否定的な混乱を緩和する一つのアプローチは注意を払うことであるが、現在の注意は、常に特徴の類似性を検討し、監督の欠如に苦しむ。 本稿では,グラフノードのラベル依存を考察し,ハードとソフトの両方の注意を学ぶための分離注意機構を提案する。 クラス間のエッジが少なくて洗練されたグラフ構造をラベルで学習する。 その目的は集合体の負の乱れを減らすことである。 より優れたグラフ構造上のメッセージパッシングによる情報ゲインを最大化する機能について、ソフトアテンションが学習される。 さらに、学習した注意がラベルの伝搬と特徴の伝播を導く。 提案手法の有効性を検証するために,5つのベンチマークグラフデータセットを用いて広範な実験を行った。

Graph neural networks (GNN) have been ubiquitous in graph learning tasks such as node classification. Most of GNN methods update the node embedding iteratively by aggregating its neighbors' information. However, they often suffer from negative disturbance, due to edges connecting nodes with different labels. One approach to alleviate this negative disturbance is to use attention, but current attention always considers feature similarity and suffers from the lack of supervision. In this paper, we consider the label dependency of graph nodes and propose a decoupling attention mechanism to learn both hard and soft attention. The hard attention is learned on labels for a refined graph structure with fewer inter-class edges. Its purpose is to reduce the aggregation's negative disturbance. The soft attention is learned on features maximizing the information gain by message passing over better graph structures. Moreover, the learned attention guides the label propagation and the feature propagation. Extensive experiments are performed on five well-known benchmark graph datasets to verify the effectiveness of the proposed method.
翻訳日:2021-04-29 12:58:58 公開日:2021-04-28
# 強化学習におけるオフポリシー値推定のための一般化投影ベルマン誤差

A Generalized Projected Bellman Error for Off-policy Value Estimation in Reinforcement Learning ( http://arxiv.org/abs/2104.13844v1 )

ライセンス: Link先を確認
Andrew Patterson, Adam White, Sina Ghiassian, Martha White(参考訳) 多くの強化学習アルゴリズムは値推定に依存している。 しかし、最も広く使われているアルゴリズム、すなわち時間差アルゴリズムは、オフポリシーサンプリングと非線形関数近似の両方の下で分岐することができる。 線形平均二乗射影ベルマン誤差 (PBE) に基づいて, 線形関数近似の下での音場推定のための多くのアルゴリズムを開発した。 これらの手法を非線形ケースに拡張することは、ほとんど成功していない。 近年, 平均二乗ベルマン誤差 (BE) と呼ばれる, 非線形近似を自然に設ける手法がいくつか提案されている。 本研究では,これらの知見に基づいて線形PBEを非線形設定に拡張する一般化されたPBEを導入する。 本稿では,この一般化目的が先行理論を含む先行研究をどのように統一するかを示し,一般化目的の解の値誤差に対する新たな境界を求める。 動作中により安定し、ハイパーパラメータに敏感で、ニューラルネットワーク関数近似の4つの制御領域で好適に機能する、汎用目的を最小化するための、使い易いが音のアルゴリズムを導出する。

Many reinforcement learning algorithms rely on value estimation. However, the most widely used algorithms -- namely temporal difference algorithms -- can diverge under both off-policy sampling and nonlinear function approximation. Many algorithms have been developed for off-policy value estimation which are sound under linear function approximation, based on the linear mean-squared projected Bellman error (PBE). Extending these methods to the non-linear case has been largely unsuccessful. Recently, several methods have been introduced that approximate a different objective, called the mean-squared Bellman error (BE), which naturally facilities nonlinear approximation. In this work, we build on these insights and introduce a new generalized PBE, that extends the linear PBE to the nonlinear setting. We show how this generalized objective unifies previous work, including previous theory, and obtain new bounds for the value error of the solutions of the generalized objective. We derive an easy-to-use, but sound, algorithm to minimize the generalized objective which is more stable across runs, is less sensitive to hyperparameters, and performs favorably across four control domains with neural network function approximation.
翻訳日:2021-04-29 12:58:45 公開日:2021-04-28
# MLDemon: 機械学習システムのデプロイ監視

MLDemon: Deployment Monitoring for Machine Learning Systems ( http://arxiv.org/abs/2104.13621v1 )

ライセンス: Link先を確認
Antonio Ginart, Martin Zhang, James Zou(参考訳) mlシステムの性能のデプロイ後の監視は、特に新しいユーザ入力がトレーニング分布と異なるため、信頼性を確保する上で重要である。 本稿ではML Deployment Monitoringのための新しいアプローチであるMLDemonを提案する。 MLDemonはラベル付けされていない機能と少数のオンデマンドラベル付きサンプルを統合し、与えられたデータストリーム上でのMLモデルの現在のパフォーマンスをリアルタイムで推定する。 予算制約により、MLDemonはモデルを検証するために追加でコストがかかるラベルを取得する時期を決定する。 多様な分布のドリフトとモデルを持つ時間データセットでは、MLDemonは既存のモニタリングアプローチを大幅に上回る。 さらに,mldemonは対数係数に最適なミニマックスレートであり,それ以前のアプローチがそうではないのに対して,広い分布ドリフトに対して確実に頑健であることを示すための理論的解析を行う。

Post-deployment monitoring of the performance of ML systems is critical for ensuring reliability, especially as new user inputs can differ from the training distribution. Here we propose a novel approach, MLDemon, for ML DEployment MONitoring. MLDemon integrates both unlabeled features and a small amount of on-demand labeled examples over time to produce a real-time estimate of the ML model's current performance on a given data stream. Subject to budget constraints, MLDemon decides when to acquire additional, potentially costly, supervised labels to verify the model. On temporal datasets with diverse distribution drifts and models, MLDemon substantially outperforms existing monitoring approaches. Moreover, we provide theoretical analysis to show that MLDemon is minimax rate optimal up to logarithmic factors and is provably robust against broad distribution drifts whereas prior approaches are not.
翻訳日:2021-04-29 12:58:16 公開日:2021-04-28
# タイトPAC-Bayesian C-Boundの直接最小化による自己境界多数投票学習アルゴリズム

Self-Bounding Majority Vote Learning Algorithms by the Direct Minimization of a Tight PAC-Bayesian C-Bound ( http://arxiv.org/abs/2104.13626v1 )

ライセンス: Link先を確認
Paul Viallard (LHC), Pascal Germain (ULaval), Amaury Habrard (LHC), Emilie Morvant (LHC)(参考訳) PAC-ベイズ文学において、C-バウンド(C-Bound)は、多数決分類者のリスク(ゼロ・ワンの損失)とそのマージンの最初の2つの瞬間(すなわち、予想されるマージンと有権者の多様性)の洞察に富んだ関係を指す。 これまで、このフレームワークで開発された学習アルゴリズムは、明示的なPAC-ベイズ一般化境界の代わりに、C-Boundの経験的なバージョンを最小化していた。 本稿では, c-バウンド上でpac-ベイズ保証を直接最適化することで, 自発的多数決学習アルゴリズムを導出する。 さらに、勾配勾配に基づくアルゴリズムはスケーラブルであり、非空き保証と組み合わせた正確な予測器につながる。

In the PAC-Bayesian literature, the C-Bound refers to an insightful relation between the risk of a majority vote classifier (under the zero-one loss) and the first two moments of its margin (i.e., the expected margin and the voters' diversity). Until now, learning algorithms developed in this framework minimize the empirical version of the C-Bound, instead of explicit PAC-Bayesian generalization bounds. In this paper, by directly optimizing PAC-Bayesian guarantees on the C-Bound, we derive self-bounding majority vote learning algorithms. Moreover, our algorithms based on gradient descent are scalable and lead to accurate predictors paired with non-vacuous guarantees.
翻訳日:2021-04-29 12:58:01 公開日:2021-04-28
# 重ね合わせ主成分分析とグラフニューラルネットワークによる解釈可能な埋め込み手続き知識伝達

Interpretable Embedding Procedure Knowledge Transfer via Stacked Principal Component Analysis and Graph Neural Network ( http://arxiv.org/abs/2104.13561v1 )

ライセンス: Link先を確認
Seunghyun Lee, Byung Cheol Song(参考訳) 知識蒸留(KD)は、軽量ニューラルネットワークにおいて最も有用な技術の一つである。 ニューラルネットワークはデータセットを低次元空間に埋め込むという明確な目的を持っているが、既存の知識はこの目的とは程遠いものであり、限られた情報しか提供しなかった。 優れた知識は埋め込み手順を解釈できるべきだと我々は主張する。 本稿では、主成分分析に基づいて解釈可能な埋め込み手順(IEP)の知識を生成し、メッセージパッシングニューラルネットワークに基づいて蒸留する方法を提案する。 実験の結果,提案手法によりトレーニングされた学生ネットワークは,最先端(SOTA)手法よりも高い性能を持つCIFAR100データセットの2.28%を改善した。 また,提案するkdプロセスの可視化により,埋め込み手続き知識を解釈できることを実証する。 実装されたコードはhttps://github.com/s seung0703/IEPKTで入手できる。

Knowledge distillation (KD) is one of the most useful techniques for light-weight neural networks. Although neural networks have a clear purpose of embedding datasets into the low-dimensional space, the existing knowledge was quite far from this purpose and provided only limited information. We argue that good knowledge should be able to interpret the embedding procedure. This paper proposes a method of generating interpretable embedding procedure (IEP) knowledge based on principal component analysis, and distilling it based on a message passing neural network. Experimental results show that the student network trained by the proposed KD method improves 2.28% in the CIFAR100 dataset, which is higher performance than the state-of-the-art (SOTA) method. We also demonstrate that the embedding procedure knowledge is interpretable via visualization of the proposed KD process. The implemented code is available at https://github.com/s seung0703/IEPKT.
翻訳日:2021-04-29 12:57:46 公開日:2021-04-28
# 先進的特化要因の活用による継続学習における先行知識の保存

Preserving Earlier Knowledge in Continual Learning with the Help of All Previous Feature Extractors ( http://arxiv.org/abs/2104.13614v1 )

ライセンス: Link先を確認
Zhuoyun Li, Changhong Zhong, Sijia Liu, Ruixuan Wang, and Wei-Shi Zheng(参考訳) 時間とともに新しい知識の継続的な学習は、インテリジェントシステムがより多くのオブジェクトのクラスを認識するために望ましい能力の1つである。 非常に限られた量の古いデータが保存されていない場合、インテリジェントシステムはしばしば、新しい知識を学ぶ際に、これまで学んだ古い知識を忘れてしまう。 近年,破滅的な忘れ方問題を軽減するため,様々なアプローチが提案されている。 しかし、以前に学んだ古い知識は、最近学んだ知識よりも保存されにくい。 従来の知識の忘れを減らし,継続的な学習性能を向上させるため,これまでに学習した特徴抽出器を全てインテリジェントモデルに組み込むことで,シンプルで効果的な融合機構を提案する。 さらに、新しいクラスの集合を毎回学習する際に、モデルに新しい特徴抽出器を組み込み、また、モデル全体のサイズが急速に大きくなるのを防止するために特徴抽出器プルーニングも施す。 複数の分類タスクの実験により,提案手法は従来の知識の忘れを効果的に減らし,最先端の継続的学習性能を達成できることが示されている。

Continual learning of new knowledge over time is one desirable capability for intelligent systems to recognize more and more classes of objects. Without or with very limited amount of old data stored, an intelligent system often catastrophically forgets previously learned old knowledge when learning new knowledge. Recently, various approaches have been proposed to alleviate the catastrophic forgetting issue. However, old knowledge learned earlier is commonly less preserved than that learned more recently. In order to reduce the forgetting of particularly earlier learned old knowledge and improve the overall continual learning performance, we propose a simple yet effective fusion mechanism by including all the previously learned feature extractors into the intelligent model. In addition, a new feature extractor is included to the model when learning a new set of classes each time, and a feature extractor pruning is also applied to prevent the whole model size from growing rapidly. Experiments on multiple classification tasks show that the proposed approach can effectively reduce the forgetting of old knowledge, achieving state-of-the-art continual learning performance.
翻訳日:2021-04-29 12:57:31 公開日:2021-04-28
# 関節リウマチに対する深層学習 : X線による関節検出と損傷検査

Deep Learning for Rheumatoid Arthritis: Joint Detection and Damage Scoring in X-rays ( http://arxiv.org/abs/2104.13915v1 )

ライセンス: Link先を確認
Krzysztof Maziarz, Anna Krason, Zbigniew Wojna(参考訳) コンピュータビジョンの最近の進歩は、医療画像解析の自動化を約束している。 慢性関節リウマチは、コンピュータによる診断で利益を得る自己免疫疾患であり、直接マーカーは存在せず、医師はx線画像の手動検査に頼る必要がある。 本研究では,X線画像上の関節の局所化と2種類の関節損傷の診断を同時に行うマルチタスク深層学習モデルを提案する。 さらに,分類と回帰の手がかりを単一損失に組み合わせ,標準損失関数と比較して5%の誤差低減を実現するラベル平滑化の修正を提案する。 最終モデルは,グローバルra2ドリームチャレンジにおいて,共同空間狭化で4位,共同エロージョンで5位を得た。

Recent advancements in computer vision promise to automate medical image analysis. Rheumatoid arthritis is an autoimmune disease that would profit from computer-based diagnosis, as there are no direct markers known, and doctors have to rely on manual inspection of X-ray images. In this work, we present a multi-task deep learning model that simultaneously learns to localize joints on X-ray images and diagnose two kinds of joint damage: narrowing and erosion. Additionally, we propose a modification of label smoothing, which combines classification and regression cues into a single loss and achieves 5% relative error reduction compared to standard loss functions. Our final model obtained 4th place in joint space narrowing and 5th place in joint erosion in the global RA2 DREAM challenge.
翻訳日:2021-04-29 12:57:15 公開日:2021-04-28
# 顔認識の誤りは性別分類の誤りか?

Does Face Recognition Error Echo Gender Classification Error? ( http://arxiv.org/abs/2104.13803v1 )

ライセンス: Link先を確認
Ying Qiu, V\'itor Albiero, Michael C. King, Kevin W. Bowyer(参考訳) 本論文は、顔認識アルゴリズム(例えば、性別分類)によって誤って分類された画像が、顔認識エラーをもたらす画像対に参加する確率が、多かれ少なかれ低いかどうかを調査する最初のものである。 3つの異なる性別分類アルゴリズム(1つのオープンソースと2つの商用)と2つの顔認識アルゴリズム(1つのオープンソースと1つの商用)から4つの人口集団(アフリカ系アメリカ人の女性と男性、白人女性と男性)を表す画像集合から結果を分析する。 インポスタ画像ペアでは, 同一画像が性別分類誤差を持つペアの方が, 両画像が正しい性別分類を持つペアよりも優れたインポスタ分布を持つため, 偽マッチング誤りが発生する可能性が低いことを示す。 実画像ペアの場合, 画像に正性分類と誤性分類が混在している個体は, 画像に正性分類がある個体に比べて, 真性分布(偽非一致率の増加)が悪くなることが示された。 したがって、正しい性別分類を生成する画像と比較して、性別分類誤差を生成する画像は、より良い(偽マッチング)と悪い(偽非マッチング)の両方の認識エラーパターンを生成する。

This paper is the first to explore the question of whether images that are classified incorrectly by a face analytics algorithm (e.g., gender classification) are any more or less likely to participate in an image pair that results in a face recognition error. We analyze results from three different gender classification algorithms (one open-source and two commercial), and two face recognition algorithms (one open-source and one commercial), on image sets representing four demographic groups (African-American female and male, Caucasian female and male). For impostor image pairs, our results show that pairs in which one image has a gender classification error have a better impostor distribution than pairs in which both images have correct gender classification, and so are less likely to generate a false match error. For genuine image pairs, our results show that individuals whose images have a mix of correct and incorrect gender classification have a worse genuine distribution (increased false non-match rate) compared to individuals whose images all have correct gender classification. Thus, compared to images that generate correct gender classification, images that generate gender classification errors do generate a different pattern of recognition errors, both better (false match) and worse (false non-match).
翻訳日:2021-04-29 12:57:04 公開日:2021-04-28
# 新型コロナウイルス(covid-19)のクローズドプラットフォームにおける噂の進化

The Evolution of Rumors on a Closed Platform during COVID-19 ( http://arxiv.org/abs/2104.13816v1 )

ライセンス: Link先を確認
Andrea W Wang (1), Jo-Yu Lan (2), Chihhao Yu (1), Ming-Hung Wang (2) ((1) Information Operations Research Group (IORG) (2) Department of Information Engineering and Computer Science, Feng Chia University)(参考訳) この研究で、2020年1月から7月にかけて台湾で最も人気のあるクローズドメッセージングプラットフォームから収集された114万の疑わしいメッセージのデータセットを調査した。 トピックやナラティブに応じて,大量のテキストメッセージを効率的にクラスタ化できるハイブリッドアルゴリズムを提案する。 つまり、相互に限定されたコンテンツ変更の範囲内にあるメッセージのグループを得ました。 データセットにアルゴリズムを適用することで、時間とともに特定の噂のコンテンツ変更と時間的ダイナミクスを見ることができました。 新型コロナウイルス(covid-19)に関連する3つの噂の質的ケーススタディで、重要な権威ある数字はしばしば誤った情報として引用されていることが判明した。 1つの偽情報の人気を高める効果的な手段であった。 また,誤情報が注目されるのを止めるにはファクトチェックは有効ではなかった。 実際、1つの偽情報の人気は、しばしば大きな社会的出来事や効果的な内容変更の影響を受けていた。

In this work we looked into a dataset of 114 thousands of suspicious messages collected from the most popular closed messaging platform in Taiwan between January and July, 2020. We proposed an hybrid algorithm that could efficiently cluster a large number of text messages according their topics and narratives. That is, we obtained groups of messages that are within a limited content alterations within each other. By employing the algorithm to the dataset, we were able to look at the content alterations and the temporal dynamics of each particular rumor over time. With qualitative case studies of three COVID-19 related rumors, we have found that key authoritative figures were often misquoted in false information. It was an effective measure to increase the popularity of one false information. In addition, fact-check was not effective in stopping misinformation from getting attention. In fact, the popularity of one false information was often more influenced by major societal events and effective content alterations.
翻訳日:2021-04-29 12:56:41 公開日:2021-04-28
# 多エージェント深部強化学習を用いた終端区間ハンドリング

End-to-End Intersection Handling using Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2104.13617v1 )

ライセンス: Link先を確認
Alessandro Paolo Capasso, Paolo Maramotti, Anthony Dell'Eva, Alberto Broggi(参考訳) 交差点を通ることは、自動運転車にとって大きな課題の一つだ。 しかし、信号機によって規制される交差点の大半については、自動運転車の挙動が信号機の状態と密接に関連している単純なルールベースの方法によって解決できる。 本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。 本稿では,ニューラルネットワークの学習に用いた連続モデルフリー深層強化学習アルゴリズムを用いて,各時間ステップにおける加速度と操舵角度の両方を予測するマルチエージェントシステムを提案する。 エージェントは,環境内の他の学習者の優先度を理解し,その経路に沿って安全に運転することにより,交差点を扱うために必要な基本的なルールを学習できることを実証する。 さらに,本モデルとルールベース手法との比較により,特に密集した交通状況において,より良好な結果が得られることを示す。 最後に、実際の交通データを用いて実世界のシナリオでテストを行い、モジュールが見えない環境と異なる交通条件の両方に一般化できることを実証した。

Navigating through intersections is one of the main challenging tasks for an autonomous vehicle. However, for the majority of intersections regulated by traffic lights, the problem could be solved by a simple rule-based method in which the autonomous vehicle behavior is closely related to the traffic light states. In this work, we focus on the implementation of a system able to navigate through intersections where only traffic signs are provided. We propose a multi-agent system using a continuous, model-free Deep Reinforcement Learning algorithm used to train a neural network for predicting both the acceleration and the steering angle at each time step. We demonstrate that agents learn both the basic rules needed to handle intersections by understanding the priorities of other learners inside the environment, and to drive safely along their paths. Moreover, a comparison between our system and a rule-based method proves that our model achieves better results especially with dense traffic conditions. Finally, we test our system on real world scenarios using real recorded traffic data, proving that our module is able to generalize both to unseen environments and to different traffic conditions.
翻訳日:2021-04-29 12:55:52 公開日:2021-04-28
# 検索コンテンツにおける社会的バイアス--BERTランキングのフレームワークと対応緩和-

Societal Biases in Retrieved Contents: Measurement Framework and Adversarial Mitigation for BERT Rankers ( http://arxiv.org/abs/2104.13640v1 )

ライセンス: Link先を確認
Navid Rekabsaz and Simone Kopeinik and Markus Schedl(参考訳) 社会的バイアスは、情報検索(IR)システムの検索内容に共鳴し、既存のステレオタイプを補強する。 この問題に迫るには、検索内容における各種社会集団の表現に関する公平さの確立と、特に深層ランキングモデルの進歩を踏まえて、これらのバイアスを緩和する方法が必要である。 本研究ではまず,検索したランキングモデルのテキスト内容の公平性を測定するための新しいフレームワークを提案する。 このフレームワークは、ランク付け非依存の測定の導入により、ランク付け者からの収集の公平性に対する影響を解消する。 第2に,保護属性の妥当性の予測と除去を共同で学習する,最先端のベルトローダに適用した逆バイアス緩和手法を提案する。 我々は,2つのパス検索コレクション(ms marco passage re- rankingとtrec deep learning 2019 passage re-ranking)について実験を行い,性別属性に関する問合せの抽出されたサブセットの公平性アノテーションによって拡張する。 MARCOベンチマークの結果,全てのランキングモデルの公正度は,ランク付け非依存のベースラインの公平度よりも低いが,検索内容の公平度は,提案した対角トレーニングの適用時に著しく向上することが示された。 最後に, 公平性と実用性とのトレードオフを調査し, 組合せモデル選択法を適用することで, 実用性に大きな損なうことなく公平性に大きな改善を維持できることを示す。

Societal biases resonate in the retrieved contents of information retrieval (IR) systems, resulting in reinforcing existing stereotypes. Approaching this issue requires established measures of fairness regarding the representation of various social groups in retrieved contents, as well as methods to mitigate such biases, particularly in the light of the advances in deep ranking models. In this work, we first provide a novel framework to measure the fairness in the retrieved text contents of ranking models. Introducing a ranker-agnostic measurement, the framework also enables the disentanglement of the effect on fairness of collection from that of rankers. Second, we propose an adversarial bias mitigation approach applied to the state-of-the-art Bert rankers, which jointly learns to predict relevance and remove protected attributes. We conduct experiments on two passage retrieval collections (MS MARCO Passage Re-ranking and TREC Deep Learning 2019 Passage Re-ranking), which we extend by fairness annotations of a selected subset of queries regarding gender attributes. Our results on the MS MARCO benchmark show that, while the fairness of all ranking models is lower than the ones of ranker-agnostic baselines, the fairness in retrieved contents significantly improves when applying the proposed adversarial training. Lastly, we investigate the trade-off between fairness and utility, showing that through applying a combinatorial model selection method, we can maintain the significant improvements in fairness without any significant loss in utility.
翻訳日:2021-04-29 12:55:35 公開日:2021-04-28
# データからのシンボル的抽象化:PAC学習アプローチ

Symbolic Abstractions From Data: A PAC Learning Approach ( http://arxiv.org/abs/2104.13901v1 )

ライセンス: Link先を確認
Alex Devonport, Adnane Saoud, and Murat Arcak(参考訳) 記号制御技術は複雑な論理仕様を満たすことを目的としている。 これらのテクニックの重要なステップは、与えられた連続状態システムの振る舞いを模倣する有限状態システムであるシンボリック(離散)抽象化の構築である。 しかし、記号的抽象化を計算するために使われる方法は、正確な閉形式モデルの知識を必要とする。 未知のダイナミクスを持つシステムに一般化するために、与えられた入力の下で各状態の後継者を評価する能力のみに頼る代わりに、クローズドフォームのダイナミクスを必要としない新しいデータ駆動アプローチを提案する。 学習した抽象化を保証するため,確率的近似(PAC)統計フレームワークを用いる。 まず,PAC型行動関係と適切な改善手順を導入する。 次に、この新たな行動関係を満たすためにシンボリック抽象をどのように構築できるかを示す。 さらに、所定の精度と信頼性を保証するために必要なデータ数を規定するPAC境界を提供する。 最後に,実例を示す。

Symbolic control techniques aim to satisfy complex logic specifications. A critical step in these techniques is the construction of a symbolic (discrete) abstraction, a finite-state system whose behaviour mimics that of a given continuous-state system. The methods used to compute symbolic abstractions, however, require knowledge of an accurate closed-form model. To generalize them to systems with unknown dynamics, we present a new data-driven approach that does not require closed-form dynamics, instead relying only the ability to evaluate successors of each state under given inputs. To provide guarantees for the learned abstraction, we use the Probably Approximately Correct (PAC) statistical framework. We first introduce a PAC-style behavioural relationship and an appropriate refinement procedure. We then show how the symbolic abstraction can be constructed to satisfy this new behavioural relationship. Moreover, we provide PAC bounds that dictate the number of data required to guarantee a prescribed level of accuracy and confidence. Finally, we present an illustrative example.
翻訳日:2021-04-29 12:55:09 公開日:2021-04-28
# サブガウス混合系における超パラメータ最大マージン分類のリスク境界

Risk Bounds for Over-parameterized Maximum Margin Classification on Sub-Gaussian Mixtures ( http://arxiv.org/abs/2104.13628v1 )

ライセンス: Link先を確認
Yuan Cao and Quanquan Gu and Mikhail Belkin(参考訳) ディープニューラルネットワークのような現代の機械学習システムは、しばしば過度にパラメータ化され、ノイズの多いトレーニングデータに正確に適合するが、実際には小さなテストエラーを達成できる。 本稿では,この「ベニグナーオーバーフィッティング(Bartlett et al)」について考察する。 (2020)) 線形分類問題に対する最大マージン分類器の現象。 具体的には、準ガウス混合から生成されたデータを考察し、過パラメータ設定における最大辺線形分類器の厳密なリスクを与える。 本研究は,線形分類問題において良性過剰が生じうる条件を正確に特徴化し,これまでの作業を改善する。 過パラメータロジスティック回帰にも直接的な意味を持つ。

Modern machine learning systems such as deep neural networks are often highly over-parameterized so that they can fit the noisy training data exactly, yet they can still achieve small test errors in practice. In this paper, we study this "benign overfitting" (Bartlett et al. (2020)) phenomenon of the maximum margin classifier for linear classification problems. Specifically, we consider data generated from sub-Gaussian mixtures, and provide a tight risk bound for the maximum margin linear classifier in the over-parameterized setting. Our results precisely characterize the condition under which benign overfitting can occur in linear classification problems, and improve on previous work. They also have direct implications for over-parameterized logistic regression.
翻訳日:2021-04-29 12:54:40 公開日:2021-04-28
# NUQSGD:不均一量子化による通信効率の高いデータ並列SGD

NUQSGD: Provably Communication-effici ent Data-parallel SGD via Nonuniform Quantization ( http://arxiv.org/abs/2104.13818v1 )

ライセンス: Link先を確認
Ali Ramezani-Kebrya, Fartash Faghri, Ilya Markov, Vitalii Aksenov, Dan Alistarh, Daniel M. Roy(参考訳) モデルやデータセットのサイズや複雑さが大きくなるにつれて、並列モデルのトレーニングを実行するためにデプロイできる確率的勾配降下の通信効率の高い変種が必要となる。 data-parallel sgd の一般的な通信圧縮方法は qsgd (alistarh et al., 2017) である。 qsgdのベースライン変種は強い理論的保証を提供するが、実際の目的のために著者らは、大規模ニューラルネットワークの分散トレーニングで印象的な成果を示す、qsgdinfと呼ばれるヒューリスティック変種を提案した。 本稿では,新しい勾配量子化スキームを提案し,qsgdよりも強力な理論保証を持ち,qsgdinfヒューリスティックおよび他の圧縮手法の実証的性能を満たし,超越することを示す。

As the size and complexity of models and datasets grow, so does the need for communication-effici ent variants of stochastic gradient descent that can be deployed to perform parallel model training. One popular communication-compre ssion method for data-parallel SGD is QSGD (Alistarh et al., 2017), which quantizes and encodes gradients to reduce communication costs. The baseline variant of QSGD provides strong theoretical guarantees, however, for practical purposes, the authors proposed a heuristic variant which we call QSGDinf, which demonstrated impressive empirical gains for distributed training of large neural networks. In this paper, we build on this work to propose a new gradient quantization scheme, and show that it has both stronger theoretical guarantees than QSGD, and matches and exceeds the empirical performance of the QSGDinf heuristic and of other compression methods.
翻訳日:2021-04-29 12:54:29 公開日:2021-04-28
# 腎細胞癌顕微鏡画像における核検出のためのマルチスケールディープラーニングアーキテクチャ

Multi-scale Deep Learning Architecture for Nucleus Detection in Renal Cell Carcinoma Microscopy Image ( http://arxiv.org/abs/2104.13557v1 )

ライセンス: Link先を確認
Shiba Kuanar, Vassilis Athitsos, Dwarikanath Mahapatra, Anand Rajan(参考訳) Clear cell renal cell carcinoma (ccRCC) は、腎癌研究において最も一般的な腫瘍内均一性の一つである。 ccRCCは近位尿細管の上皮のライニングに由来する。 これらの細胞はKi67タンパク質の存在下で異常な突然変異を起こし、細胞増殖を通じて塊状構造を形成する。 組織障害部における腫瘍細胞の手動計測は腎癌における最も強力な予後マーカーの一つである。 しかし、この手順は時間がかかり、主観性がもたらされる。 これらの評価は、物理的細胞外観に基づいており、オブザーバ内変異に苦しむ。 そのため, 腫瘍細胞増殖の評価には, より優れた細胞核検出・計数技術が重要なバイオマーカーとなる可能性がある。 本稿では,IHC染色組織像の細胞分類のための深層学習に基づく検出モデルを提案する。 これらの画像は、がんに感染した核領域でki67タンパク質の存在を見つけるために二分分類される。 本モデルでは, 局所境界領域からのマルチスケールピラミッドの特徴と精度情報をマッピングし, 回帰による境界ボックス座標の予測を行う。 本手法は,局所的ccRCCで処理した400個の組織像のコホートにおけるKi67発現の影響を検証し,既存の最先端核検出法と比較する。 提案手法の精度とリコールスコアを計算し,臨床データと比較した。 実験の結果,本モデルはf1スコアを86.3%,精度リコール曲線下の平均面積を85.73%改善した。

Clear cell renal cell carcinoma (ccRCC) is one of the most common forms of intratumoral heterogeneity in the study of renal cancer. ccRCC originates from the epithelial lining of proximal convoluted renal tubules. These cells undergo abnormal mutations in the presence of Ki67 protein and create a lump-like structure through cell proliferation. Manual counting of tumor cells in the tissue-affected sections is one of the strongest prognostic markers for renal cancer. However, this procedure is time-consuming and also prone to subjectivity. These assessments are based on the physical cell appearance and suffer wide intra-observer variations. Therefore, better cell nucleus detection and counting techniques can be an important biomarker for the assessment of tumor cell proliferation in routine pathological investigations. In this paper, we introduce a deep learning-based detection model for cell classification on IHC stained histology images. These images are classified into binary classes to find the presence of Ki67 protein in cancer-affected nucleus regions. Our model maps the multi-scale pyramid features and saliency information from local bounded regions and predicts the bounding box coordinates through regression. Our method validates the impact of Ki67 expression across a cohort of four hundred histology images treated with localized ccRCC and compares our results with the existing state-of-the-art nucleus detection methods. The precision and recall scores of the proposed method are computed and compared on the clinical data sets. The experimental results demonstrate that our model improves the F1 score up to 86.3% and an average area under the Precision-Recall curve as 85.73%.
翻訳日:2021-04-29 12:53:41 公開日:2021-04-28
# 画像から画像への変換による組織像中の癌領域の教師なし検出

Unsupervised Detection of Cancerous Regions in Histology Imagery using Image-to-Image Translation ( http://arxiv.org/abs/2104.13786v1 )

ライセンス: Link先を確認
Dejan Stepec and Danijel Skocaj(参考訳) 視覚異常の検出は、期待された視覚の外観に合致しない異なる画像データのパターンを見つける問題であり、異なる領域で広く研究されている問題である。 異常発生の性質と基礎となる生成プロセスのため、それらの特徴付けとラベル付きデータの取得は困難である。 ラベル付きデータの取得は、トレーニング済みのドメイン専門家だけがラベルを提供することができるバイオメディカルアプリケーションでは特に困難である。 近年,視覚異常を教師なしで検出する手法が提案されている。ラベル付きデータの必要性をなくし,異常なサンプルが正常な外観から著しく逸脱する領域で有望な結果を示す。 有望な結果にもかかわらず、そのようなアプローチのパフォーマンスは教師付きアプローチよりも遅れており、オールフィットのソリューションを提供していない。 本研究では,既存の教師なし手法の性能を大幅に上回り,組織像における癌領域検出の挑戦領域における教師なし手法の性能にアプローチする画像から画像への翻訳に基づくフレームワークを提案する。

Detection of visual anomalies refers to the problem of finding patterns in different imaging data that do not conform to the expected visual appearance and is a widely studied problem in different domains. Due to the nature of anomaly occurrences and underlying generating processes, it is hard to characterize them and obtain labeled data. Obtaining labeled data is especially difficult in biomedical applications, where only trained domain experts can provide labels, which often come in large diversity and complexity. Recently presented approaches for unsupervised detection of visual anomalies approaches omit the need for labeled data and demonstrate promising results in domains, where anomalous samples significantly deviate from the normal appearance. Despite promising results, the performance of such approaches still lags behind supervised approaches and does not provide a one-fits-all solution. In this work, we present an image-to-image translation-based framework that significantly surpasses the performance of existing unsupervised methods and approaches the performance of supervised methods in a challenging domain of cancerous region detection in histology imagery.
翻訳日:2021-04-29 12:53:20 公開日:2021-04-28
# MRIとCTの深層学習身体領域分類

Deep Learning Body Region Classification of MRI and CT examinations ( http://arxiv.org/abs/2104.13826v1 )

ライセンス: Link先を確認
Philippe Raffy, Jean-Fran\c{c}ois Pambrun, Ashish Kumar, David Dubois, Jay Waldron Patti, Robyn Alexandra Cairns, Ryan Young(参考訳) 個々の画像の標準化された身体領域ラベリングは、医療画像の人的およびコンピュータ的使用を改善するデータを提供する。 CNNに基づく分類器はCTとMRIの身体領域を識別するために開発された。 人体全体を覆う17個のCT (18 MRI) の身体領域を分類課題として定義した。 aiモデルのトレーニング、検証、テストのために、3つの振り返りデータベースが構築され、ボディ領域ごとの研究のバランスのとれた分散が構築された。 テストデータベースは、異なる医療ネットワークに由来する。 患者年齢, 性別, 施設, スキャナーメーカー, コントラスト, スライス厚, MRI シークエンス, CT カーネルについて, 分類器の精度, 再現性, 精度を評価した。 このデータには2,934件の匿名CT(トレーニング:1,804件、検証:602件、検査:528件)と3,185件の匿名MRI(トレーニング:1,911件、検証:636件、検査:638件)の振り返りコホートが含まれていた。 プライマリケア病院、地域病院、画像センターの27の機関がテストデータセットに寄与した。 このデータには、同じ割合の男女のケースと、数ヶ月から90歳までの被験者が含まれていた。 画像レベルの予測精度はCTでは91.9%(90.2~92.1)、MRIでは94.2%(92.0~95.6)であった。 分類結果は,全体域にまたがって頑健であり,背景因子も良好であった。 限られたデータにより、10歳未満の被験者のパフォーマンスは確実に評価できなかった。 深層学習モデルでは,下肢と上肢を含む身体領域でCTとMRIの画像を高精度に分類できることを示す。

Standardized body region labelling of individual images provides data that can improve human and computer use of medical images. A CNN-based classifier was developed to identify body regions in CT and MRI. 17 CT (18 MRI) body regions covering the entire human body were defined for the classification task. Three retrospective databases were built for the AI model training, validation, and testing, with a balanced distribution of studies per body region. The test databases originated from a different healthcare network. Accuracy, recall and precision of the classifier was evaluated for patient age, patient gender, institution, scanner manufacturer, contrast, slice thickness, MRI sequence, and CT kernel. The data included a retrospective cohort of 2,934 anonymized CT cases (training: 1,804 studies, validation: 602 studies, test: 528 studies) and 3,185 anonymized MRI cases (training: 1,911 studies, validation: 636 studies, test: 638 studies). 27 institutions from primary care hospitals, community hospitals and imaging centers contributed to the test datasets. The data included cases of all genders in equal proportions and subjects aged from a few months old to +90 years old. An image-level prediction accuracy of 91.9% (90.2 - 92.1) for CT, and 94.2% (92.0 - 95.6) for MRI was achieved. The classification results were robust across all body regions and confounding factors. Due to limited data, performance results for subjects under 10 years-old could not be reliably evaluated. We show that deep learning models can classify CT and MRI images by body region including lower and upper extremities with high accuracy.
翻訳日:2021-04-29 12:53:03 公開日:2021-04-28
# スパイク矩形モデルにおける信号の検出

Detection of Signal in the Spiked Rectangular Models ( http://arxiv.org/abs/2104.13517v1 )

ライセンス: Link先を確認
Ji Hyung Jung, Hye Won Chung, Ji Oon Lee(参考訳) スパイクされたウィッシュアート行列を一般化するランクワン信号+ノイズデータ行列モデルにおける信号検出の問題を考える。 雑音がガウス的でない場合、行列成分の事前変換により主成分分析を改善することができることを示す。 中間段階として、スパイク長方形行列の最大固有値の鋭い位相遷移を証明し、baek-ben arous-p\'ech\'e (bbp)遷移を延長する。 また,雑音がガウス的である場合のタイプIとタイプIIの誤差の総和を最小化する線形スペクトル統計に基づいて,計算量が少ない信号の存在を検出する仮説テストを提案する。

We consider the problem of detecting signals in the rank-one signal-plus-noise data matrix models that generalize the spiked Wishart matrices. We show that the principal component analysis can be improved by pre-transforming the matrix entries if the noise is non-Gaussian. As an intermediate step, we prove a sharp phase transition of the largest eigenvalues of spiked rectangular matrices, which extends the Baik-Ben Arous-P\'ech\'e (BBP) transition. We also propose a hypothesis test to detect the presence of signal with low computational complexity, based on the linear spectral statistics, which minimizes the sum of the Type-I and Type-II errors when the noise is Gaussian.
翻訳日:2021-04-29 12:52:33 公開日:2021-04-28
# 生体関係抽出のためのコントラスト学習を用いたBERTモデルの改良

Improving BERT Model Using Contrastive Learning for Biomedical Relation Extraction ( http://arxiv.org/abs/2104.13913v1 )

ライセンス: Link先を確認
Peng Su, Yifan Peng, K. Vijay-Shanker(参考訳) コントラスト学習は、コンピュータビジョンにおける画像の高品質表現を学ぶために用いられてきた。 しかし、テキストデータに対する一般的なデータ拡張法が欠如しているため、自然言語処理ではコントラスト学習が広く利用されていない。 本研究では,関係抽出のためのBERTモデルからテキスト表現を改善するために,コントラスト学習を利用する手法を検討する。 我々のフレームワークのキーノブは、言語知識をデータ拡張にシームレスに統合することにより、関係抽出タスクに適したユニークなコントラスト付き事前学習ステップである。 さらに,外部知識ベースから構築した大規模データによって,BERTの対照的な事前学習の一般化が促進されるかを検討する。 3つの関係抽出ベンチマークデータセットによる実験結果から,提案手法はBERTモデル表現を改善し,最先端性能を実現することができることが示された。 さらに,比較事前学習を伴うBERTが予測の有理性に依存することを示すことによって,モデルの解釈可能性について検討する。 私たちのコードとデータは、https://github.com/u del-biotm-lab/bert-c lreで公開されている。

Contrastive learning has been used to learn a high-quality representation of the image in computer vision. However, contrastive learning is not widely utilized in natural language processing due to the lack of a general method of data augmentation for text data. In this work, we explore the method of employing contrastive learning to improve the text representation from the BERT model for relation extraction. The key knob of our framework is a unique contrastive pre-training step tailored for the relation extraction tasks by seamlessly integrating linguistic knowledge into the data augmentation. Furthermore, we investigate how large-scale data constructed from the external knowledge bases can enhance the generality of contrastive pre-training of BERT. The experimental results on three relation extraction benchmark datasets demonstrate that our method can improve the BERT model representation and achieve state-of-the-art performance. In addition, we explore the interpretability of models by showing that BERT with contrastive pre-training relies more on rationales for prediction. Our code and data are publicly available at: https://github.com/u del-biotm-lab/BERT-C LRE.
翻訳日:2021-04-29 12:52:10 公開日:2021-04-28
# 密相関量を用いた極端回転推定

Extreme Rotation Estimation using Dense Correlation Volumes ( http://arxiv.org/abs/2104.13530v1 )

ライセンス: Link先を確認
Ruojin Cai, Bharath Hariharan, Noah Snavely and Hadar Averbuch-Elor(参考訳) 本稿では,RGB画像対の相対的な3次元回転を極端に推定する手法を提案する。 画像が重なり合っていない場合でも、光源方向、消滅点、現場に存在する対称性などの幾何学的関係について、隠れた手がかりが豊富に存在する可能性があることを観察する。 本稿では,2つの入力画像間の全ての点を比較することで,そのような暗黙の手がかりを自動的に学習できるネットワーク設計を提案する。 そこで本手法では, 高密度特徴相関ボリュームを構築し, 相対3次元回転の予測を行う。 3次元回転の後退に伴う困難を回避し,回転の細粒度離散化によって予測を行う。 我々は,照明条件や地理的な位置の異なる屋内・屋外画像を含む,多種多様なRGB画像対に対するアプローチを実証する。 提案手法は,重複しない画像間の相対回転を,重複した画像ペアのパフォーマンスを損なうことなく推定できることを示す。

We present a technique for estimating the relative 3D rotation of an RGB image pair in an extreme setting, where the images have little or no overlap. We observe that, even when images do not overlap, there may be rich hidden cues as to their geometric relationship, such as light source directions, vanishing points, and symmetries present in the scene. We propose a network design that can automatically learn such implicit cues by comparing all pairs of points between the two input images. Our method therefore constructs dense feature correlation volumes and processes these to predict relative 3D rotations. Our predictions are formed over a fine-grained discretization of rotations, bypassing difficulties associated with regressing 3D rotations. We demonstrate our approach on a large variety of extreme RGB image pairs, including indoor and outdoor images captured under different lighting conditions and geographic locations. Our evaluation shows that our model can successfully estimate relative rotations among non-overlapping images without compromising performance over overlapping image pairs.
翻訳日:2021-04-29 12:50:19 公開日:2021-04-28
# PAFNet: 効率的なアンカーフリーオブジェクト検出器ガイダンス

PAFNet: An Efficient Anchor-Free Object Detector Guidance ( http://arxiv.org/abs/2104.13534v1 )

ライセンス: Link先を確認
Ying Xin, Guanzhong Wang, Mingyuan Mao, Yuan Feng, Qingqing Dang, Yanjun Ma, Errui Ding, Shumin Han(参考訳) 物体検出はコンピュータビジョンにおける基本的なタスクであるが、様々な産業アプリケーションにおいて重要な役割を果たす。 しかし、ディープラーニングに基づく物体検出は、通常、より大きなストレージ要件と長い推論時間を必要とするため、実用性が著しく阻害される。 したがって、実用シナリオでは有効性と効率のトレードオフが必要である。 予め定義されたアンカーの制約がなければ、アンカーフリー検出器は許容精度と推論速度を同時に達成できる。 本稿では,TTFNetと呼ばれるアンカーフリー検出器からスタートし,TTFNetの構造を変更し,サーバとモバイルの効率的なソリューションを実現するために,複数の既存手法を導入する。 本論文のすべての実験はPaddlePaddleに基づいて行われるので、このモデルをPAFNet(Paddle Anchor Free Network)と呼ぶ。 サーバ側では、単一のV100 GPU上での効率(42.2% mAP)と効率(67.15 FPS)のバランスが良くなる。 モブライク側では、PAFNet-liteはキリン990 ARM CPUの精度(23.9% mAP)と26.00 msの精度を達成でき、既存の最先端のアンカーフリー検出器をかなり上回っている。 ソースコードはhttps://github.com/P addlePaddle/PaddleDe tectionにある。

Object detection is a basic but challenging task in computer vision, which plays a key role in a variety of industrial applications. However, object detectors based on deep learning usually require greater storage requirements and longer inference time, which hinders its practicality seriously. Therefore, a trade-off between effectiveness and efficiency is necessary in practical scenarios. Considering that without constraint of pre-defined anchors, anchor-free detectors can achieve acceptable accuracy and inference speed simultaneously. In this paper, we start from an anchor-free detector called TTFNet, modify the structure of TTFNet and introduce multiple existing tricks to realize effective server and mobile solutions respectively. Since all experiments in this paper are conducted based on PaddlePaddle, we call the model as PAFNet(Paddle Anchor Free Network). For server side, PAFNet can achieve a better balance between effectiveness (42.2% mAP) and efficiency (67.15 FPS) on a single V100 GPU. For moblie side, PAFNet-lite can achieve a better accuracy of (23.9% mAP) and 26.00 ms on Kirin 990 ARM CPU, outperforming the existing state-of-the-art anchor-free detectors by significant margins. Source code is at https://github.com/P addlePaddle/PaddleDe tection.
翻訳日:2021-04-29 12:50:01 公開日:2021-04-28
# シーン境界検出のためのショットコントラスト自己監督学習

Shot Contrastive Self-Supervised Learning for Scene Boundary Detection ( http://arxiv.org/abs/2104.13537v1 )

ライセンス: Link先を確認
Shixing Chen, Xiaohan Nie, David Fan, Dongqing Zhang, Vimal Bhat, Raffay Hamid(参考訳) シーンは、映画やテレビ番組のストーリーラインを意味的に凝集した部分に分割する上で重要な役割を果たす。 しかし、複雑な時間構造を考えると、シーン境界を見つけることは大量のラベル付きトレーニングデータを必要とする難しい作業である。 そこで本研究では,ランダムに選択したショットに対して,近傍ショット間の類似性を最大化するショット表現を学習するために,自己教師付きショットコントラスト学習手法(shotcol)を提案する。 学習したショット表現をシーン境界検出のタスクに適用して、MovieNetデータセット上で最先端のパフォーマンスを提供する方法を示し、トレーニングラベルの25%しか必要とせず、モデルパラメータを9倍少なくし、ランタイムを7倍高速にする。 シーン境界検出の新たな応用におけるShotCoLの有効性を評価するため,最小限の破壊的な視聴体験を提供しながら,映像やテレビドラマのタイムスタンプを挿入できる問題に取り組む。 この目的のために、adcuepointsという新しいデータセットを収集し、3,975本の映画とテレビ番組、220万本のショットと19,119件の広告キュアポイントレーベルで収集した。 本稿では,ShotCoLのアドキューポイント検出における有効性を示す実験的検討を行った。

Scenes play a crucial role in breaking the storyline of movies and TV episodes into semantically cohesive parts. However, given their complex temporal structure, finding scene boundaries can be a challenging task requiring large amounts of labeled training data. To address this challenge, we present a self-supervised shot contrastive learning approach (ShotCoL) to learn a shot representation that maximizes the similarity between nearby shots compared to randomly selected shots. We show how to apply our learned shot representation for the task of scene boundary detection to offer state-of-the-art performance on the MovieNet dataset while requiring only ~25% of the training labels, using 9x fewer model parameters and offering 7x faster runtime. To assess the effectiveness of ShotCoL on novel applications of scene boundary detection, we take on the problem of finding timestamps in movies and TV episodes where video-ads can be inserted while offering a minimally disruptive viewing experience. To this end, we collected a new dataset called AdCuepoints with 3,975 movies and TV episodes, 2.2 million shots and 19,119 minimally disruptive ad cue-point labels. We present a thorough empirical analysis on this dataset demonstrating the effectiveness of ShotCoL for ad cue-points detection.
翻訳日:2021-04-29 12:49:41 公開日:2021-04-28
# 骨格に基づく行動認識の再考

Revisiting Skeleton-based Action Recognition ( http://arxiv.org/abs/2104.13586v1 )

ライセンス: Link先を確認
Haodong Duan, Yue Zhao, Kai Chen, Dian Shao, Dahua Lin, Bo Dai(参考訳) 人間の骨格は、人間の行動のコンパクトな表現として近年注目を集めている。 多くの骨格に基づく行動認識法は、ヒト骨格上の特徴を抽出するためにグラフ畳み込みネットワーク(GCN)を採用している。 以前の研究で示された肯定的な結果にもかかわらず、GCNベースのメソッドは堅牢性、相互運用性、スケーラビリティの制限を受ける。 本研究では,人体骨格の基底表現としてグラフシーケンスの代わりに3次元ヒートマップスタックに依存する,骨格に基づく行動認識の新しいアプローチであるPoseC3Dを提案する。 GCNベースの手法と比較して、PoseC3Dは時空間特性の学習に有効であり、ポーズ推定ノイズに対してより堅牢であり、データセット間設定においてより良く一般化される。 また、posec3dは計算コストを増すことなく複数の人物のシナリオを処理でき、その機能は初期の融合段階で他のモードと容易に統合できるため、パフォーマンスをさらに高めるための優れた設計スペースを提供する。 4つの挑戦的なデータセットにおいて、PoseC3Dは、スケルトン上で単独で使用し、RGBモダリティと組み合わせることで、常に優れたパフォーマンスを得る。

Human skeleton, as a compact representation of human action, has received increasing attention in recent years. Many skeleton-based action recognition methods adopt graph convolutional networks (GCN) to extract features on top of human skeletons. Despite the positive results shown in previous works, GCN-based methods are subject to limitations in robustness, interoperability, and scalability. In this work, we propose PoseC3D, a new approach to skeleton-based action recognition, which relies on a 3D heatmap stack instead of a graph sequence as the base representation of human skeletons. Compared to GCN-based methods, PoseC3D is more effective in learning spatiotemporal features, more robust against pose estimation noises, and generalizes better in cross-dataset settings. Also, PoseC3D can handle multiple-person scenarios without additional computation cost, and its features can be easily integrated with other modalities at early fusion stages, which provides a great design space to further boost the performance. On four challenging datasets, PoseC3D consistently obtains superior performance, when used alone on skeletons and in combination with the RGB modality.
翻訳日:2021-04-29 12:49:18 公開日:2021-04-28
# DeRenderNet:形状(In)依存シェーディングレンダリングによる都市景観の内在的画像分解

DeRenderNet: Intrinsic Image Decomposition of Urban Scenes with Shape-(In)dependent Shading Rendering ( http://arxiv.org/abs/2104.13602v1 )

ライセンス: Link先を確認
Yongjie Zhu, Jiajun Tang, Si Li, and Boxin Shi(参考訳) 本研究では,アルベドと潜在照明を分解する深層ニューラルネットワークderendernetを提案する。 この目的を達成するために,ゲーム内のシーンから抽出したアルベドマップを,間接監督として提供される奥行きマップに基づいて,通常の地図と影前の地図を事前計算する手法を提案する。 DeRenderNetは、最先端の固有画像分解法と比較して、鮮明な細部と形状非依存シェーディングにおける影の正確な予測を備えた無影アルベドマップを生成し、都市景観における高次視覚タスクの再レンダリングと精度向上に有効であることが示されている。

We propose DeRenderNet, a deep neural network to decompose the albedo and latent lighting, and render shape-(in)dependent shadings, given a single image of an outdoor urban scene, trained in a self-supervised manner. To achieve this goal, we propose to use the albedo maps extracted from scenes in videogames as direct supervision and pre-compute the normal and shadow prior maps based on the depth maps provided as indirect supervision. Compared with state-of-the-art intrinsic image decomposition methods, DeRenderNet produces shadow-free albedo maps with clean details and an accurate prediction of shadows in the shape-independent shading, which is shown to be effective in re-rendering and improving the accuracy of high-level vision tasks for urban scenes.
翻訳日:2021-04-29 12:49:02 公開日:2021-04-28
# 自己監督深度推定によるドメイン適応セマンティックセマンティックセグメンテーション

Domain Adaptive Semantic Segmentation with Self-Supervised Depth Estimation ( http://arxiv.org/abs/2104.13613v1 )

ライセンス: Link先を確認
Qin Wang, Dengxin Dai, Lukas Hoyer, Olga Fink, Luc Van Gool(参考訳) セマンティックセグメンテーションのためのドメイン適応は、ソースとターゲットドメイン間の分散シフトの存在下でモデル性能を改善することを目的としている。 補助タスクからの監督(深度推定など)を活用することは、多くの視覚的タスクが互いに密接な関係にあるため、このシフトを癒す可能性がある。 しかし、そのような監督が常に可能であるとは限らない。 本研究では,ドメインギャップを埋めるために,両ドメインで利用可能な自己教師型深さ推定からのガイダンスを活用する。 一方,課題特徴相関を明示的に学習し,目標深度推定の助けを借りて,目的のセマンティック予測を強化することを提案する。 一方、ソースとターゲットの深度デコーダとの深度予測誤差を利用して、画素ワイド適応の難しさを近似する。 深度から推定される適応困難度は、ターゲットセマンティックセグメンテーションの擬似ラベルを洗練するために使用される。 提案手法は既存のセグメンテーションフレームワークに容易に実装できる。 提案手法は,都市間シンシア・ツー・シティスケープ (synthia-to-cityscap es) とgta-to-cityscape (gta-to-cityscapes) において,提案手法の有効性を示す。 私たちのコードは \url{https://github.com/q inenergy/corda} で利用可能です。

Domain adaptation for semantic segmentation aims to improve the model performance in the presence of a distribution shift between source and target domain. Leveraging the supervision from auxiliary tasks~(such as depth estimation) has the potential to heal this shift because many visual tasks are closely related to each other. However, such a supervision is not always available. In this work, we leverage the guidance from self-supervised depth estimation, which is available on both domains, to bridge the domain gap. On the one hand, we propose to explicitly learn the task feature correlation to strengthen the target semantic predictions with the help of target depth estimation. On the other hand, we use the depth prediction discrepancy from source and target depth decoders to approximate the pixel-wise adaptation difficulty. The adaptation difficulty, inferred from depth, is then used to refine the target semantic segmentation pseudo-labels. The proposed method can be easily implemented into existing segmentation frameworks. We demonstrate the effectiveness of our proposed approach on the benchmark tasks SYNTHIA-to-Cityscape s and GTA-to-Cityscapes, on which we achieve the new state-of-the-art performance of $55.0\%$ and $56.6\%$, respectively. Our code is available at \url{https://github.com/q inenergy/corda}.
翻訳日:2021-04-29 12:48:46 公開日:2021-04-28
# 効率的なクラスタ初期化のためのディープラーニングオブジェクト検出法

A Deep Learning Object Detection Method for an Efficient Clusters Initializatio ( http://arxiv.org/abs/2104.13634v1 )

ライセンス: Link先を確認
Hassan N. Noura, Ola Salman, Rapha\"el Couturier, Abderrahmane Sider(参考訳) クラスタリングは教師なしの機械学習手法で、データサンプルを類似オブジェクトのクラスタにグループ化する。 実際には、銀行顧客のプロファイリング、文書検索、画像セグメンテーション、Eコマースレコメンデーションエンジンなど、多数のアプリケーションでクラスタリングが使用されている。 しかし、既存のクラスタリング技術は、初期化パラメータ(例えば、初期化パラメータ)に対する安定性の信頼性に重大な制限がある。 クラスタ数、セントロイド数)。 この制限を克服するために、文献に異なる解決策が提示された(すなわち、)。 内部および外部の検証指標)。 しかし、これらの解は特に高次元データを扱う場合、高い計算複雑性とメモリ消費を必要とする。 本稿では,最近のオブジェクト検出ディープラーニング(DL)モデルであるYOLO-v5を適用し,そのサイズと可能なセンチロイドのクラスタ数などの初期クラスタリングパラメータを検出する。 提案手法は主に,dlベースの初期化フェーズを追加することで,クラスタリングアルゴリズムを初期化から解放する。 その結果,提案手法は計算量やリソースのオーバーヘッドが少なく,最適に近いクラスタ初期化パラメータを提供できることがわかった。

Clustering is an unsupervised machine learning method grouping data samples into clusters of similar objects. In practice, clustering has been used in numerous applications such as banking customers profiling, document retrieval, image segmentation, and e-commerce recommendation engines. However, the existing clustering techniques present significant limitations, from which is the dependability of their stability on the initialization parameters (e.g. number of clusters, centroids). Different solutions were presented in the literature to overcome this limitation (i.e. internal and external validation metrics). However, these solutions require high computational complexity and memory consumption, especially when dealing with high dimensional data. In this paper, we apply the recent object detection Deep Learning (DL) model, named YOLO-v5, to detect the initial clustering parameters such as the number of clusters with their sizes and possible centroids. Mainly, the proposed solution consists of adding a DL-based initialization phase making the clustering algorithms free of initialization. The results show that the proposed solution can provide near-optimal clusters initialization parameters with low computational and resources overhead compared to existing solutions.
翻訳日:2021-04-29 12:48:22 公開日:2021-04-28
# 画像検索におけるcentroidsの不合理な効果について

On the Unreasonable Effectiveness of Centroids in Image Retrieval ( http://arxiv.org/abs/2104.13643v1 )

ライセンス: Link先を確認
Mikolaj Wieczorek, Barbara Rychalska, Jacek Dabrowski(参考訳) 画像検索タスクは、一連のギャラリー(データベース)イメージからクエリ画像と類似した画像を見つけることで構成される。 このようなシステムは、様々なアプリケーションで使われる。 person re-identification (ReID) または visual product search。 検索モデルの開発は活発に行われているが、視角、照明、背景のぼやけ、閉塞などの変化によるクラス内ばらつきが大きく、クラス間のばらつきが比較的低いため、依然として困難な課題である。 現在の研究の大部分は、より堅牢な機能の作成と、通常トリプルトロスに基づく客観的機能の変更に焦点を当てている。 いくつかの研究は、クラスのcentroid/proxy表現を使用して、計算速度と三重項損失を伴うハードサンプルマイニングの問題を軽減する実験を行っている。 しかし、これらのアプローチは単独で訓練に使われ、検索段階で廃棄される。 本稿では,トレーニングと検索の両方において,平均セントロイド表現を用いることを提案する。 このような集約表現は、外れ値に対してより堅牢であり、より安定した特徴を保証する。 各クラスは単一の埋め込み – クラスセントロイド – で表現されるため、検索時間とストレージ要件の両方が大幅に削減される。 複数の埋め込みを集約することで、候補のターゲットベクトルの数を減少させることで、検索スペースが大幅に削減される。 ReIDとFashion Retrievalの2つのデータセットで実施した総合的な実験により,提案手法の有効性が示された。 本稿では,Fashion Retrieval と ReID の両方に適用可能な手法として,セントロイドトレーニングと検索を提案する。

Image retrieval task consists of finding similar images to a query image from a set of gallery (database) images. Such systems are used in various applications e.g. person re-identification (ReID) or visual product search. Despite active development of retrieval models it still remains a challenging task mainly due to large intra-class variance caused by changes in view angle, lighting, background clutter or occlusion, while inter-class variance may be relatively low. A large portion of current research focuses on creating more robust features and modifying objective functions, usually based on Triplet Loss. Some works experiment with using centroid/proxy representation of a class to alleviate problems with computing speed and hard samples mining used with Triplet Loss. However, these approaches are used for training alone and discarded during the retrieval stage. In this paper we propose to use the mean centroid representation both during training and retrieval. Such an aggregated representation is more robust to outliers and assures more stable features. As each class is represented by a single embedding - the class centroid - both retrieval time and storage requirements are reduced significantly. Aggregating multiple embeddings results in a significant reduction of the search space due to lowering the number of candidate target vectors, which makes the method especially suitable for production deployments. Comprehensive experiments conducted on two ReID and Fashion Retrieval datasets demonstrate effectiveness of our method, which outperforms the current state-of-the-art. We propose centroid training and retrieval as a viable method for both Fashion Retrieval and ReID applications.
翻訳日:2021-04-29 12:48:06 公開日:2021-04-28
# 3次元顔形状情報に基づくロバスト・フェイススワップ検出

Robust Face-Swap Detection Based on 3D Facial Shape Information ( http://arxiv.org/abs/2104.13665v1 )

ライセンス: Link先を確認
Weinan Guan, Wei Wang, Jing Dong, Bo Peng and Tieniu Tan(参考訳) 悪意のある画像やビデオ ― いわゆるディープフェイク ― 特に顔認識画像やビデオ ― は、いくつかの重要な人物の信用を損なうために、ますます悪意のある攻撃者を惹きつけている。 以前のピクセルレベルのアーティファクトに基づく検出技術は、常に不明瞭なパターンにフォーカスするが、利用可能なセマンティックヒントは無視する。 したがって、これらのアプローチは弱い解釈性と堅牢性を示す。 本稿では,キーフィギュアの顔・スワップ検出のための外観・形状特徴をフル活用するための生体情報ベース手法を提案する。 提案手法の重要な特徴は,3次元顔の形状と顔の外観の非一貫性を得ることであり,その非一貫性に基づく手掛かりは,提案手法の自然な解釈性を提供する。 実験の結果,提案手法の有効性を検証するため,様々な洗浄・クロスドメインデータに対するロバスト性が評価された。

Maliciously-manipula ted images or videos - so-called deep fakes - especially face-swap images and videos have attracted more and more malicious attackers to discredit some key figures. Previous pixel-level artifacts based detection techniques always focus on some unclear patterns but ignore some available semantic clues. Therefore, these approaches show weak interpretability and robustness. In this paper, we propose a biometric information based method to fully exploit the appearance and shape feature for face-swap detection of key figures. The key aspect of our method is obtaining the inconsistency of 3D facial shape and facial appearance, and the inconsistency based clue offers natural interpretability for the proposed face-swap detection method. Experimental results show the superiority of our method in robustness on various laundering and cross-domain data, which validates the effectiveness of the proposed method.
翻訳日:2021-04-29 12:47:41 公開日:2021-04-28
# AdvHaze: 敵のヘイズ攻撃

AdvHaze: Adversarial Haze Attack ( http://arxiv.org/abs/2104.13673v1 )

ライセンス: Link先を確認
Ruijun Gao, Qing Guo, Felix Juefei-Xu, Hongkai Yu, Wei Feng(参考訳) 近年、敵対的攻撃は、機械学習モデル、特にニューラルネットワークモデルの堅牢性を評価し改善することの価値に対して、より注意を向けている。 しかし、これまでの攻撃方法は、約$l^p$ノルムバウンドノイズの摂動の適用に主眼を置いている。 本稿では,実世界の風景に共通する現象であるhazeに基づく新たな攻撃手法を提案する。 本手法は,不正確なクラスを予測するために,高現実性と誤解を招く分類器を備えた大気散乱モデルに基づいて,潜在的に逆向きなヘイズを画像に合成することができる。 私たちは、ImageNetとNIPS~2017の2つの人気のあるデータセットで実験を開始します。 提案手法は,高い成功率を達成し,ベースラインと異なる分類モデル間での転送性が向上することを示す。 また,相関行列を可視化することで,攻撃の成功率を向上させるために,異なる摂動を共同で適用することを促す。 本研究が、非ノイズベースの敵攻撃の開発を促進し、DNNの堅牢性の評価と改善に役立つことを願っている。

In recent years, adversarial attacks have drawn more attention for their value on evaluating and improving the robustness of machine learning models, especially, neural network models. However, previous attack methods have mainly focused on applying some $l^p$ norm-bounded noise perturbations. In this paper, we instead introduce a novel adversarial attack method based on haze, which is a common phenomenon in real-world scenery. Our method can synthesize potentially adversarial haze into an image based on the atmospheric scattering model with high realisticity and mislead classifiers to predict an incorrect class. We launch experiments on two popular datasets, i.e., ImageNet and NIPS~2017. We demonstrate that the proposed method achieves a high success rate, and holds better transferability across different classification models than the baselines. We also visualize the correlation matrices, which inspire us to jointly apply different perturbations to improve the success rate of the attack. We hope this work can boost the development of non-noise-based adversarial attacks and help evaluate and improve the robustness of DNNs.
翻訳日:2021-04-29 12:47:24 公開日:2021-04-28
# PANDA : 知覚神経による異常検出

PANDA : Perceptually Aware Neural Detection of Anomalies ( http://arxiv.org/abs/2104.13702v1 )

ライセンス: Link先を確認
Jack W. Barker and Toby P. Breckon(参考訳) 近年,半教師付き異常検出法が大幅に進歩している。 特に興味深いのは、異常変動が視覚的に明らかなものから非常に微妙なものまで様々である多様で現実的な異常検出問題へのそのような手法の適用である。 本研究では,視覚的特徴と微妙な異常の両方を検出するために,半教師付きで訓練された新しい微細なVAE-GANアーキテクチャを提案する。 残差接続二重特徴抽出器,細粒度判別器,知覚損失関数を用いることで,検出能力が高く,推論時のauc値の偏差が小さい微妙なクラス間変異(異常対正常)を,推論中にも時間効率を保ったまま検出することができる。 We achieve state of-the-art anomaly detection results when compared extensively with prior semi-supervised approaches across a multitude of anomaly detection benchmark tasks including trivial leave-one out tasks (CIFAR-10 - AUPRCavg: 0.91; MNIST - AUPRCavg: 0.90) in addition to challenging real-world anomaly detection tasks (plant leaf disease - AUC: 0.776; threat item X-ray - AUC: 0.51), video frame-level anomaly detection (UCSDPed1 - AUC: 0.95) and high frequency texture with object anomalous defect detection (MVTEC - AUCavg: 0.83).

Semi-supervised methods of anomaly detection have seen substantial advancement in recent years. Of particular interest are applications of such methods to diverse, real-world anomaly detection problems where anomalous variations can vary from the visually obvious to the very subtle. In this work, we propose a novel fine-grained VAE-GAN architecture trained in a semi-supervised manner in order to detect both visually distinct and subtle anomalies. With the use of a residually connected dual-feature extractor, a fine-grained discriminator and a perceptual loss function, we are able to detect subtle, low inter-class (anomaly vs. normal) variant anomalies with greater detection capability and smaller margins of deviation in AUC value during inference compared to prior work whilst also remaining time-efficient during inference. We achieve state of-the-art anomaly detection results when compared extensively with prior semi-supervised approaches across a multitude of anomaly detection benchmark tasks including trivial leave-one out tasks (CIFAR-10 - AUPRCavg: 0.91; MNIST - AUPRCavg: 0.90) in addition to challenging real-world anomaly detection tasks (plant leaf disease - AUC: 0.776; threat item X-ray - AUC: 0.51), video frame-level anomaly detection (UCSDPed1 - AUC: 0.95) and high frequency texture with object anomalous defect detection (MVTEC - AUCavg: 0.83).
翻訳日:2021-04-29 12:47:09 公開日:2021-04-28
# minegan++: 限られたデータドメインへの効率的な知識伝達のための生成モデル

MineGAN++: Mining Generative Models for Efficient Knowledge Transfer to Limited Data Domains ( http://arxiv.org/abs/2104.13742v1 )

ライセンス: Link先を確認
Yaxing Wang, Abel Gonzalez-Garcia, Chenshen Wu, Luis Herranz, Fahad Shahbaz Khan, Shangling Jui and Joost van de Weijer(参考訳) gansは生成モデルの影響を大きく増加させる。 そこで本研究では,特定の対象領域に最も有益である知識を単一または複数の事前学習ganからマイニングすることに基づく生成モデルのための新しい知識伝達法を提案する。 これは、各事前訓練されたGANの生成分布のどの部分が対象領域に最も近いサンプルを出力しているかを識別するマイカネットワークを用いて行われる。 マイニングはGANサンプリングを遅延空間の適切な領域に向けて効果的に操り、後部微細化を容易にし、モード崩壊や柔軟性の欠如など他の手法の病理を回避する。 さらに,ターゲット領域が小さすぎることを防止するため,学習可能なニューロンのセットを対象データセットに関連するものに制限する,スパースサブネットワーク選択を導入する。 我々は、様々なGANアーキテクチャ(BigGAN、Progressive GAN、StyleGAN)を用いて、いくつかの挑戦的データセットの総合的な実験を行い、提案手法であるMineGANが、ターゲット画像が少ない領域に知識を効果的に伝達し、既存の手法よりも優れていることを示す。 さらに、MineGANは複数の事前訓練されたGANから知識を伝達することに成功した。

GANs largely increases the potential impact of generative models. Therefore, we propose a novel knowledge transfer method for generative models based on mining the knowledge that is most beneficial to a specific target domain, either from a single or multiple pretrained GANs. This is done using a miner network that identifies which part of the generative distribution of each pretrained GAN outputs samples closest to the target domain. Mining effectively steers GAN sampling towards suitable regions of the latent space, which facilitates the posterior finetuning and avoids pathologies of other methods, such as mode collapse and lack of flexibility. Furthermore, to prevent overfitting on small target domains, we introduce sparse subnetwork selection, that restricts the set of trainable neurons to those that are relevant for the target dataset. We perform comprehensive experiments on several challenging datasets using various GAN architectures (BigGAN, Progressive GAN, and StyleGAN) and show that the proposed method, called MineGAN, effectively transfers knowledge to domains with few target images, outperforming existing methods. In addition, MineGAN can successfully transfer knowledge from multiple pretrained GANs.
翻訳日:2021-04-29 12:46:42 公開日:2021-04-28
# マスク認識によるエンド・ツー・エンドキャッケードリファインメントによるイメージインペインティング

Image Inpainting by End-to-End Cascaded Refinement with Mask Awareness ( http://arxiv.org/abs/2104.13743v1 )

ライセンス: Link先を確認
Manyu Zhu, Dongliang He, Xin Li, Chao Li, Fu Li, Xiao Liu, Errui Ding and Zhaoxiang Zhang(参考訳) 任意の欠落領域を塗りつぶすことは、様々なマスクされた領域で有効な特徴を学ぶことは非自明だから難しい。 U字型エンコーダ・デコーダのフレームワークが成功しているのを目撃されているが、ほとんどの場合、コンボリューションウィンドウ(または領域)はすべて、欠落したピクセルの様々な形状を含む)が等しく扱われ、固定学習されたカーネルでフィルタリングされるため、特徴抽出においてマスク不認識の共通の欠点を共有している。 そこで本研究では,マスク対応塗装法を提案する。 第一に、Mask-Aware Dynamic Filtering (MADF)モジュールは、符号化フェーズにおいて欠落する領域のマルチスケール機能を効果的に学習するように設計されている。 具体的には、マスクの対応する領域の特徴から、畳み込みウィンドウ毎にフィルタを生成する。 マスク認識の第2段階は、マスク付き点における特徴の統計的性質が非マスキング点と異なることを考慮して、この復号フェーズにポイントワイド正規化(PN)を採用することで達成される。 提案するpnは,ポイントワイズスケーリング係数とバイアスを動的に割り当てることでこの問題に対処できる。 最後に、このモデルはエンドツーエンドのカスケード・リファインメント・モデルとして設計されています。 レコンストラクション損失、知覚損失、総変動損失などの監督情報を漸進的に活用し、塗装結果の粗さから細度への向上を図る。 提案フレームワークの有効性は,Places2,CelebA,Pari s StreetViewの3つの公開データセットに対する広範な実験を通じて,定量的かつ定性的に検証されている。

Inpainting arbitrary missing regions is challenging because learning valid features for various masked regions is nontrivial. Though U-shaped encoder-decoder frameworks have been witnessed to be successful, most of them share a common drawback of mask unawareness in feature extraction because all convolution windows (or regions), including those with various shapes of missing pixels, are treated equally and filtered with fixed learned kernels. To this end, we propose our novel mask-aware inpainting solution. Firstly, a Mask-Aware Dynamic Filtering (MADF) module is designed to effectively learn multi-scale features for missing regions in the encoding phase. Specifically, filters for each convolution window are generated from features of the corresponding region of the mask. The second fold of mask awareness is achieved by adopting Point-wise Normalization (PN) in our decoding phase, considering that statistical natures of features at masked points differentiate from those of unmasked points. The proposed PN can tackle this issue by dynamically assigning point-wise scaling factor and bias. Lastly, our model is designed to be an end-to-end cascaded refinement one. Supervision information such as reconstruction loss, perceptual loss and total variation loss is incrementally leveraged to boost the inpainting results from coarse to fine. Effectiveness of the proposed framework is validated both quantitatively and qualitatively via extensive experiments on three public datasets including Places2, CelebA and Paris StreetView.
翻訳日:2021-04-29 12:46:20 公開日:2021-04-28
# mod: 軍事用物体検出ベンチマーク

MOD: Benchmark for Military Object Detection ( http://arxiv.org/abs/2104.13763v1 )

ライセンス: Link先を確認
Xin Yi, Jiahao Wu, Bo Ma, Yangtong Ou, Longyao Liu(参考訳) 物体検出はコンピュータビジョンで広く研究されている。 近年,いくつかの代表的深層学習に基づく検出手法が提案され,関連する研究の進展が促進されている。 しかし、今のところ軍事分野を対象とする物体検出ベンチマークは存在しない。 将来の軍用物体検出研究を容易にするために,6,000枚の画像と17,465個のラベル付きインスタンスを含むMODと呼ばれる軍用物体検出ベンチマークを提案する。 以前のベンチマークとは異なり、modのオブジェクトは迷彩、ぼやけ、クラス間の類似性、クラス内分散、複雑な軍事環境といったユニークな課題を含んでいる。 以上の結果から,既存の検出手法は望ましくない性能に悩まされていることが明らかとなった。 この問題に対処するために、オブジェクトの代表領域をハイライトするために損失誘導注意(LGA)モジュールを利用するLGA-RCNNを提案する。 次に、強調したローカル情報をグローバル情報と融合して、正確な分類とローカライゼーションを行う。 MODの広範囲な実験により,本手法の有効性が検証された。

Object detection is widely studied in computer vision filed. In recent years, certain representative deep learning based detection methods along with solid benchmarks are proposed, which boosts the development of related researchs. However, there is no object detection benchmark targeted at military field so far. To facilitate future military object detection research, we propose a novel, publicly available object detection benchmark in military filed called MOD, which contains 6,000 images and 17,465 labeled instances. Unlike previous benchmarks, objects in MOD contain unique challenges such as camouflage, blur, inter-class similarity, intra-class variance and complex military environment. Experiments show that under above chanllenges, existing detection methods suffer from undesirable performance. To address this issue, we propose LGA-RCNN which utilizes a loss-guided attention (LGA) module to highlight representative region of objects. Then, those highlighted local information are fused with global information for precise classification and localization. Extensive experiments on MOD validate the effectiveness of our method.
翻訳日:2021-04-29 12:45:55 公開日:2021-04-28
# 一方向歩行者検出のためのセグメンテーションベースバウンディングボックス生成

Segmentation-Based Bounding Box Generation for Omnidirectional Pedestrian Detection ( http://arxiv.org/abs/2104.13764v1 )

ライセンス: Link先を確認
Masato Tamura, Tomoaki Yoshinaga(参考訳) そこで本研究では,全方位歩行者検出のためのセグメンテーションに基づく境界ボックス生成法を提案する。 全方位画像における歩行者の出現は任意の角度に回転する可能性があるため、一般的な歩行者検知器の性能は著しく劣化する可能性が高い。 既存の方法は、推論中に画像を変換したり、全方位画像で検出器を訓練することで、この問題を軽減する。 しかし、第1のアプローチは推論速度を著しく低下させ、第2のアプローチは退屈なアノテーションを必要とする。 これらの欠点を克服するために,セグメンテーションアノテーションを活用可能な既存の大規模データセットを活用して,バウンディングボックスアノテーションを厳密に生成する。 また,擬似魚眼歪み増大法を開発し,その性能をさらに向上させる。 広範囲な分析により,我々の検出器は歩行者にバウンディングボックスを適合させることに成功し,大幅な性能向上を示した。

We propose a segmentation-based bounding box generation method for omnidirectional pedestrian detection, which enables detectors to tightly fit bounding boxes to pedestrians without omnidirectional images for training. Because the appearance of pedestrians in omnidirectional images may be rotated to any angle, the performance of common pedestrian detectors is likely to be substantially degraded. Existing methods mitigate this issue by transforming images during inference or training detectors with omnidirectional images. However, the first approach substantially degrades the inference speed, and the second approach requires laborious annotations. To overcome these drawbacks, we leverage an existing large-scale dataset, whose segmentation annotations can be utilized, to generate tightly fitted bounding box annotations. We also develop a pseudo-fisheye distortion augmentation method, which further enhances the performance. Extensive analysis shows that our detector successfully fits bounding boxes to pedestrians and demonstrates substantial performance improvement.
翻訳日:2021-04-29 12:45:41 公開日:2021-04-28
# 圧縮正規化によるラベル雑音の強化

Boosting Co-teaching with Compression Regularization for Label Noise ( http://arxiv.org/abs/2104.13766v1 )

ライセンス: Link先を確認
Yingyi Chen, Xi Shen, Shell Xu Hu, Johan A.K. Suykens(参考訳) 本稿では,ラベルノイズの存在下での画像分類モデル学習の問題点について検討する。 我々はNested Dropoutというシンプルな圧縮正規化を再考する。 Nested Dropoutは、もともと高速な情報検索と適応データ圧縮を行うために提案されていたが、ニューラルネットワークを適切に正規化してラベルノイズと戦うことができる。 さらに、その単純さから、Co-Teachingと簡単に組み合わせてパフォーマンスをさらに向上させることができる。 ラベルノイズを持つ2つの実世界のデータセット(Clothing1MとANIMAL-10N)に対して、最先端のアプローチと同等あるいはそれ以上のパフォーマンスを実現しています。 Clothing1Mでは,DivideMixよりわずかに優れた74.9%の精度が得られる。 ANIMAL-10Nでは84.1%の精度で、PLCでは83.4%である。 ラベルノイズを学習するための強力なベースラインとして,私たちのシンプルなアプローチが提供できることを願っています。 私たちの実装はhttps://github.com/y ingyichen-cyy/nested -co-teachingで利用可能です。

In this paper, we study the problem of learning image classification models in the presence of label noise. We revisit a simple compression regularization named Nested Dropout. We find that Nested Dropout, though originally proposed to perform fast information retrieval and adaptive data compression, can properly regularize a neural network to combat label noise. Moreover, owing to its simplicity, it can be easily combined with Co-teaching to further boost the performance. Our final model remains simple yet effective: it achieves comparable or even better performance than the state-of-the-art approaches on two real-world datasets with label noise which are Clothing1M and ANIMAL-10N. On Clothing1M, our approach obtains 74.9% accuracy which is slightly better than that of DivideMix. On ANIMAL-10N, we achieve 84.1% accuracy while the best public result by PLC is 83.4%. We hope that our simple approach can be served as a strong baseline for learning with label noise. Our implementation is available at https://github.com/y ingyichen-cyy/Nested -Co-teaching.
翻訳日:2021-04-29 12:45:26 公開日:2021-04-28
# 変化点変調擬似ラベルによる符号分割

Sign Segmentation with Changepoint-Modulate d Pseudo-Labelling ( http://arxiv.org/abs/2104.13817v1 )

ライセンス: Link先を確認
Katrin Renz, Nicolaj C. Stache, Neil Fox, G\"ul Varol, Samuel Albanie(参考訳) この研究の目的は、連続手話における記号間の時間的境界を見つけることである。 このタスクで使用可能なアノテーションのpaucityに動機づけられ,関心領域からのラベルなし署名映像のセグメンテーション性能を向上させるための,単純かつ効果的なアルゴリズムを提案する。 我々は,(1)初期学習段階でラベル付きソースデータを利用できるが,適応期間中は利用できない手話セグメンテーションのための,ソースフリードメイン適応のタスクを動機付け,導入する。 2) 動作に敏感な特徴空間の急激な変化から, 適応のための擬似ラベリング品質を向上させるために, CMPLアルゴリズムを提案する。 (3) BSLCORPUS から BSL-1K および RWTH-PHOENIX-Weather 2014 データセットへ移行し, 先行技術より優れていることを示す。

The objective of this work is to find temporal boundaries between signs in continuous sign language. Motivated by the paucity of annotation available for this task, we propose a simple yet effective algorithm to improve segmentation performance on unlabelled signing footage from a domain of interest. We make the following contributions: (1) We motivate and introduce the task of source-free domain adaptation for sign language segmentation, in which labelled source data is available for an initial training phase, but is not available during adaptation. (2) We propose the Changepoint-Modulate d Pseudo-Labelling (CMPL) algorithm to leverage cues from abrupt changes in motion-sensitive feature space to improve pseudo-labelling quality for adaptation. (3) We showcase the effectiveness of our approach for category-agnostic sign segmentation, transferring from the BSLCORPUS to the BSL-1K and RWTH-PHOENIX-Weather 2014 datasets, where we outperform the prior state of the art.
翻訳日:2021-04-29 12:45:09 公開日:2021-04-28
# PDNet: 予測デカップリングによるワンステージオブジェクト検出の改善を目指す

PDNet: Towards Better One-stage Object Detection with Prediction Decoupling ( http://arxiv.org/abs/2104.13876v1 )

ライセンス: Link先を確認
Li Yang, Yan Xu, Shaoru Wang, Chunfeng Yuan, Ziqi Zhang, Bing Li, Weiming Hu(参考訳) 最近の1段階オブジェクト検出器は、各グリッドの位置からオブジェクトのカテゴリスコアと境界位置の両方を予測するピクセル単位の予測アプローチに従っている。 しかし、異なる対象、すなわち対象圏と境界を推定するのに最も適した位置は、一般的に異なる。 したがって、同じグリッド位置からこれらのターゲットを予測すれば、準最適結果につながる可能性がある。 本稿では,オブジェクトのカテゴリとバウンダリに適した推論位置を解析し,PDNetと呼ばれる予測対象分離検出器を提案し,よりフレキシブルな検出パラダイムを確立する。 我々のPDNetと予測デカップリング機構は、異なる場所で異なるターゲットを別々に符号化する。 学習可能な予測収集モジュールは、動的境界点と意味点という2つの動的点のセットで考案され、局所化と分類のために好ましい領域から予測を収集し集約する。 まず,これらの動的点位置を2段階の戦略で学習し,先行位置を異なる目標に対して推定し,ネットワークは対象特性をよりよく認識して位置の残差オフセットを更に予測する。 本手法の有効性と有効性を示すため,MS COCOベンチマークの大規模実験を行った。 バックボーンとして1つのResNeXt-64x4d-101を用いると、この検出器は48.7 APを単スケールテストで達成し、同じ実験条件下での精度で最先端の手法より優れている。 さらに,検出器は1段階のフレームワークとして極めて効率的である。 私たちのコードは公開されます。

Recent one-stage object detectors follow a per-pixel prediction approach that predicts both the object category scores and boundary positions from every single grid location. However, the most suitable positions for inferring different targets, i.e., the object category and boundaries, are generally different. Predicting all these targets from the same grid location thus may lead to sub-optimal results. In this paper, we analyze the suitable inference positions for object category and boundaries, and propose a prediction-target-de coupled detector named PDNet to establish a more flexible detection paradigm. Our PDNet with the prediction decoupling mechanism encodes different targets separately in different locations. A learnable prediction collection module is devised with two sets of dynamic points, i.e., dynamic boundary points and semantic points, to collect and aggregate the predictions from the favorable regions for localization and classification. We adopt a two-step strategy to learn these dynamic point positions, where the prior positions are estimated for different targets first, and the network further predicts residual offsets to the positions with better perceptions of the object properties. Extensive experiments on the MS COCO benchmark demonstrate the effectiveness and efficiency of our method. With a single ResNeXt-64x4d-101 as the backbone, our detector achieves 48.7 AP with single-scale testing, which outperforms the state-of-the-art methods by an appreciable margin under the same experimental settings. Moreover, our detector is highly efficient as a one-stage framework. Our code will be public.
翻訳日:2021-04-29 12:44:53 公開日:2021-04-28
# 異常検出用塗装変圧器

Inpainting Transformer for Anomaly Detection ( http://arxiv.org/abs/2104.13897v1 )

ライセンス: Link先を確認
Jonathan Pirnay, Keng Chai(参考訳) コンピュータビジョンにおける異常検出は、通常の画像から逸脱した画像を特定するタスクである。 一般的なアプローチは、深層畳み込みオートエンコーダを訓練して、画像の被覆部分を塗布し、出力と元の画像を比較することである。 異常のないサンプルのみをトレーニングすることにより、モデルが異常領域を適切に再構築できないと仮定される。 塗布による異常検出には,潜在的に離れた地域からの情報を組み込むことが有用であることが示唆された。 特にパッチ塗装問題として異常検出を行い、畳み込みを排除した純粋自己注意に基づくアプローチで解決することを提案する。 提案した Inpainting Transformer (InTra) は,多数の画像パッチに被覆パッチを塗布し,入力画像の広い領域に情報を統合するように訓練されている。 スクラッチから学習すると、InTraは検出とローカライゼーションのためのMVTec AD [1]データセットの最先端の結果よりも優れている。

Anomaly detection in computer vision is the task of identifying images which deviate from a set of normal images. A common approach is to train deep convolutional autoencoders to inpaint covered parts of an image and compare the output with the original image. By training on anomaly-free samples only, the model is assumed to not being able to reconstruct anomalous regions properly. For anomaly detection by inpainting we suggest it to be beneficial to incorporate information from potentially distant regions. In particular we pose anomaly detection as a patch-inpainting problem and propose to solve it with a purely self-attention based approach discarding convolutions. The proposed Inpainting Transformer (InTra) is trained to inpaint covered patches in a large sequence of image patches, thereby integrating information across large regions of the input image. When learning from scratch, InTra achieves better than state-of-the-art results on the MVTec AD [1] dataset for detection and localization.
翻訳日:2021-04-29 12:44:29 公開日:2021-04-28
# 光場高次物体検出のためのシナジスティックアテンションの学習

Learning Synergistic Attention for Light Field Salient Object Detection ( http://arxiv.org/abs/2104.13916v1 )

ライセンス: Link先を確認
Yi Zhang, Geng Chen, Qian Chen, Yujia Sun, Olivier Deforges and Lu Zhang(参考訳) 本稿では,マルチモーダル特徴と高度な注意機構の相乗効果を確立することにより,光場サルエント物体検出に対応する新しい相乗的注意ネットワーク(sa-net)を提案する。 sa-netは3次元畳み込みニューラルネットワークを介して焦点スタックの豊富な情報を活用し、2つのカスケードされた相乗的注意モジュールでマルチモーダル光フィールドデータの高レベル特徴をデコードし、効果的な特徴融合モジュールを用いてサリエンシーマップを漸進的に予測する。 広く使用されている3つのベンチマークデータセットの大規模な実験により、我々のSA-Netは28の最先端モデルより優れており、その有効性と優位性を十分に証明している。 私たちのコードは公開されます。

We propose a novel Synergistic Attention Network (SA-Net) to address the light field salient object detection by establishing a synergistic effect between multi-modal features with advanced attention mechanisms. Our SA-Net exploits the rich information of focal stacks via 3D convolutional neural networks, decodes the high-level features of multi-modal light field data with two cascaded synergistic attention modules, and predicts the saliency map using an effective feature fusion module in a progressive manner. Extensive experiments on three widely-used benchmark datasets show that our SA-Net outperforms 28 state-of-the-art models, sufficiently demonstrating its effectiveness and superiority. Our code will be made publicly available.
翻訳日:2021-04-29 12:44:12 公開日:2021-04-28
# 内容に基づく法律文献推薦のための文書表現の評価

Evaluating Document Representations for Content-based Legal Literature Recommendations ( http://arxiv.org/abs/2104.13841v1 )

ライセンス: Link先を確認
Malte Ostendorff, Elliott Ash, Terry Ruas, Bela Gipp, Julian Moreno-Schneider, Georg Rehm(参考訳) レコメンダシステムは、訴訟を支持するための関連文献を見つけるための法務専門家を支援する。 専門職としての重要性にもかかわらず、法律の応用は勧告システムや表現学習研究の最近の進歩を反映していない。 同時に、法的レコメンデータシステムは、一般に公開されているベンチマークデータセットなしで、小規模のユーザスタディで評価される。 したがって、これらの研究は再現性に制限がある。 研究と実践のギャップに対処するために,意味的に関係のある米国事例法を検索するタスクのための,最先端の文書表現手法について検討する。 テキストベース(例えば、fastText, Transformers)、引用ベース(例えば、DeepWalk, Poincar\'e)、ハイブリッドメソッドを評価します。 2つの銀標準と2,964の文書に対する注釈を用いて合計27の方法を比較した。 silver標準はopen case bookとwikisourceから新たに作成され、再現性を促進するオープンライセンスの下で再利用することができる。 実験の結果,平均化したfastTextワードベクトル(法定コーパスで学習した)の文書表現が最良の結果となり,Poincar\e の引用埋め込みがそれに近づいた。 fastTextとPoincar\'eをハイブリッドに組み合わせることで、全体的な結果が改善される。 全体的なパフォーマンスに加えて,文書の長さや引用数,推奨事項のカバレッジなどによって分析を行う。 ソースコード、モデル、データセットはhttps://github.com/m alteos/legal-documen t-similarity/で公開しています。

Recommender systems assist legal professionals in finding relevant literature for supporting their case. Despite its importance for the profession, legal applications do not reflect the latest advances in recommender systems and representation learning research. Simultaneously, legal recommender systems are typically evaluated in small-scale user study without any public available benchmark datasets. Thus, these studies have limited reproducibility. To address the gap between research and practice, we explore a set of state-of-the-art document representation methods for the task of retrieving semantically related US case law. We evaluate text-based (e.g., fastText, Transformers), citation-based (e.g., DeepWalk, Poincar\'e), and hybrid methods. We compare in total 27 methods using two silver standards with annotations for 2,964 documents. The silver standards are newly created from Open Case Book and Wikisource and can be reused under an open license facilitating reproducibility. Our experiments show that document representations from averaged fastText word vectors (trained on legal corpora) yield the best results, closely followed by Poincar\'e citation embeddings. Combining fastText and Poincar\'e in a hybrid manner further improves the overall result. Besides the overall performance, we analyze the methods depending on document length, citation count, and the coverage of their recommendations. We make our source code, models, and datasets publicly available at https://github.com/m alteos/legal-documen t-similarity/.
翻訳日:2021-04-29 12:43:58 公開日:2021-04-28
# グラフニューラルネットワークを用いた配水系統における潮圧の再構成

Reconstructing nodal pressures in water distribution systems with graph neural networks ( http://arxiv.org/abs/2104.13619v1 )

ライセンス: Link先を確認
Gergely Hajgat\'o and B\'alint Gyires-T\'oth and Gy\"orgy Pa\'al(参考訳) 配水システム(WDS)の各ノードにおける常時の圧力を知ることは、安全かつ効率的な操作を容易にする。 しかし,実物WDSの楽器数が限られているため,完全な測定データは収集できない。 本論文では, 限られた数のノードのみを観測して全ての節圧を再構成するデータ駆動手法について述べる。 本手法は,水ネットワーク上でのグラフ畳み込みが可能となるK局所化スペクトルグラフフィルタに基づく。 カーネルに適用される層数,層深さ,およびチェビシェフ・ポリノミカルの程度が,アプリケーションの特異性を考慮して検討した。 さらに、摩擦損失に関する情報を隣接行列を介してスペクトルグラフフィルタに埋め込むことができる重み付け法を示す。 提案モデルの性能は, 観測ノード数が異なる3つのwdssにおいて, 総ノード数と比較して示される。 重み付き接続は2次接続よりも有益であるが,提案モデルでは,少なくとも5%の観測比で平均5%の相対誤差で結節圧力を復元する。 この結果は,論文で論じた考察に従い,浅層グラフニューラルネットワークを用いて得られた。

Knowing the pressure at all times in each node of a water distribution system (WDS) facilitates safe and efficient operation. Yet, complete measurement data cannot be collected due to the limited number of instruments in a real-life WDS. The data-driven methodology of reconstructing all the nodal pressures by observing only a limited number of nodes is presented in the paper. The reconstruction method is based on K-localized spectral graph filters, wherewith graph convolution on water networks is possible. The effect of the number of layers, layer depth and the degree of the Chebyshev-polynomial applied in the kernel is discussed taking into account the peculiarities of the application. In addition, a weighting method is shown, wherewith information on friction loss can be embed into the spectral graph filters through the adjacency matrix. The performance of the proposed model is presented on 3 WDSs at different number of nodes observed compared to the total number of nodes. The weighted connections prove no benefit over the binary connections, but the proposed model reconstructs the nodal pressure with at most 5% relative error on average at an observation ratio of 5% at least. The results are achieved with shallow graph neural networks by following the considerations discussed in the paper.
翻訳日:2021-04-29 12:43:26 公開日:2021-04-28
# barlow双生児と負のサンプルフリーコントラスト学習の関連について

A Note on Connecting Barlow Twins with Negative-Sample-Free Contrastive Learning ( http://arxiv.org/abs/2104.13712v1 )

ライセンス: Link先を確認
Yao-Hung Hubert Tsai, Shaojie Bai, Louis-Philippe Morency, Ruslan Salakhutdinov(参考訳) 本報告では,バーロウ双生児のアルゴリズム設計とヒルベルト・シュミット独立基準(hsic)との関連性について述べる。 この観点から、バーロウ双生児(つまり否定的なサンプルフリーのコントラスト学習方法のクラス)は、自己教師付き学習哲学の2つの主要なファミリー、すなわち非矛盾的およびコントラスト的アプローチを橋渡しする可能性を示唆していると論じている。 特に、Barlow twinsは、大規模なトレーニングバッチサイズと負のサンプルペアリング(非競合的な方法のような)の必要性を回避し、対称性を破るネットワーク設計(対照的な方法のような)を避けるという、両方の世界のベストプラクティスを組み合わせる方法の例を示した。

In this report, we relate the algorithmic design of Barlow Twins' method to the Hilbert-Schmidt Independence Criterion (HSIC), thus establishing it as a contrastive learning approach that is free of negative samples. Through this perspective, we argue that Barlow Twins (and thus the class of negative-sample-free contrastive learning methods) suggests a possibility to bridge the two major families of self-supervised learning philosophies: non-contrastive and contrastive approaches. In particular, Barlow twins exemplified how we could combine the best practices of both worlds: avoiding the need of large training batch size and negative sample pairing (like non-contrastive methods) and avoiding symmetry-breaking network designs (like contrastive methods).
翻訳日:2021-04-29 12:43:08 公開日:2021-04-28
# 微分可能凸プログラミングによる高値トレーニングデータサブセットの探索

Finding High-Value Training Data Subset through Differentiable Convex Programming ( http://arxiv.org/abs/2104.13794v1 )

ライセンス: Link先を確認
Soumi Das, Arshdeep Singh, Saptarshi Chatterjee, Suparna Bhattacharya, Sourangshu Bhattacharya(参考訳) ディープニューラルネットワークのための貴重なトレーニングデータポイントを見つけることは、多くのアプリケーションにとって重要な研究課題である。 近年,個別の訓練データポイントの「値」を計算するための様々な手法が提案されている。 しかし、トレーニングデータポイントの値は、他の選択されたトレーニングデータポイントにも依存します。 本稿では,トレーニングデータの高値部分集合を選択する問題について検討する。 鍵となる考え方は、オンラインサブセット選択のための学習可能なフレームワークを設計することであり、トレーニングデータのミニバッチを使って学習することで、我々のメソッドをスケーラブルにする。 これにより、可微分凸プログラミングパラダイムに適合するパラメータ化された凸部分集合選択問題が発生し、エンドツーエンドのトレーニングで選択モデルのパラメータを学習できる。 このフレームワークを用いて,選択モデルとmlモデルのパラメータを共同で学習するオンライン交流最小化アルゴリズムを設計する。 合成データセットと3つの標準データセットの広範囲な評価により、我々のアルゴリズムは、最近の最先端手法と比較して、トレーニングデータの絶対値サブセットが常に高いことを示し、場合によっては既存の手法よりも20%高い値を示す。 サブセットは、誤ったトレーニングデータを見つけるのにも有用である。 我々のアルゴリズムは、既存の評価関数に匹敵する実行時間を要する。

Finding valuable training data points for deep neural networks has been a core research challenge with many applications. In recent years, various techniques for calculating the "value" of individual training datapoints have been proposed for explaining trained models. However, the value of a training datapoint also depends on other selected training datapoints - a notion that is not explicitly captured by existing methods. In this paper, we study the problem of selecting high-value subsets of training data. The key idea is to design a learnable framework for online subset selection, which can be learned using mini-batches of training data, thus making our method scalable. This results in a parameterized convex subset selection problem that is amenable to a differentiable convex programming paradigm, thus allowing us to learn the parameters of the selection model in end-to-end training. Using this framework, we design an online alternating minimization-based algorithm for jointly learning the parameters of the selection model and ML model. Extensive evaluation on a synthetic dataset, and three standard datasets, show that our algorithm finds consistently higher value subsets of training data, compared to the recent state-of-the-art methods, sometimes ~20% higher value than existing methods. The subsets are also useful in finding mislabelled training data. Our algorithm takes running time comparable to the existing valuation functions.
翻訳日:2021-04-29 12:42:53 公開日:2021-04-28
# 自動運転のための報酬(mis)設計

Reward (Mis)design for Autonomous Driving ( http://arxiv.org/abs/2104.13906v1 )

ライセンス: Link先を確認
W. Bradley Knox, Alessandro Allievi, Holger Banzhaf, Felix Schmitt, Peter Stone(参考訳) 本稿では,自律運転(AD)における報酬設計の問題について考察し,コスト関数や性能指標の設計にも適用可能な知見を概観する。 ここでは、報酬関数の欠陥を特定するための簡易な正当性チェックを8つ作成する。 健全性チェックは、自動運転のための強化学習(rl)に関する過去の研究から得られた報酬機能に適用され、他のタスクの報酬設計にまたがる可能性のある広告に対する報酬設計のほぼ普遍的な欠陥を明らかにする。 最後に、将来の研究者がADの報酬関数を設計するのに役立つ有望な方向を探る。

This paper considers the problem of reward design for autonomous driving (AD), with insights that are also applicable to the design of cost functions and performance metrics more generally. Herein we develop 8 simple sanity checks for identifying flaws in reward functions. The sanity checks are applied to reward functions from past work on reinforcement learning (RL) for autonomous driving, revealing near-universal flaws in reward design for AD that might also exist pervasively across reward design for other tasks. Lastly, we explore promising directions that may help future researchers design reward functions for AD.
翻訳日:2021-04-29 12:42:34 公開日:2021-04-28
# L}ukasiewicz と Meredith から学ぶ:証明構造の研究(拡張版)

Learning from {\L}ukasiewicz and Meredith: Investigations into Proof Structures (Extended Version) ( http://arxiv.org/abs/2104.13645v1 )

ライセンス: Link先を確認
Christoph Wernhard and Wolfgang Bibel(参考訳) 本論文で提示された資料は,自動推論の実質的進歩に不可欠な基礎を確立するのに寄与する。 選択された問題のグローバル特徴と、より直接的な方法で証明探索を導く可能性を提供するそれらの証明を特定し、研究する。 研究された問題は、"axiom(s)" と " rule(s) imply goal(s)" の広義の形式である。 その特徴には、よく知られたレムマの概念が含まれる。 そのため、選択された定理の人間的証明と自動証明の両方が密接に比較検討される。 同時にこの研究は、キュカシエヴィチ、メレディスらによる歴史的著作の一貫性と包括的な形式的な再構築を論じている。 この研究から得られた最初の実験は、様々な家族の自動化された一階述語を補う新しい補題生成法を示し、特に短い証明を見つける能力を強化した。

The material presented in this paper contributes to establishing a basis deemed essential for substantial progress in Automated Deduction. It identifies and studies global features in selected problems and their proofs which offer the potential of guiding proof search in a more direct way. The studied problems are of the wide-spread form of "axiom(s) and rule(s) imply goal(s)". The features include the well-known concept of lemmas. For their elaboration both human and automated proofs of selected theorems are taken into a close comparative consideration. The study at the same time accounts for a coherent and comprehensive formal reconstruction of historical work by {\L}ukasiewicz, Meredith and others. First experiments resulting from the study indicate novel ways of lemma generation to supplement automated first-order provers of various families, strengthening in particular their ability to find short proofs.
翻訳日:2021-04-29 12:42:24 公開日:2021-04-28
# IDMT-Traffic:音響交通モニタリング研究のためのオープンベンチマークデータセット

IDMT-Traffic: An Open Benchmark Dataset for Acoustic Traffic Monitoring Research ( http://arxiv.org/abs/2104.13620v1 )

ライセンス: Link先を確認
Jakob Abe{\ss}er and Saichand Gourishetti and Andr\'as K\'atai and Tobias Clau{\ss} and Prachi Sharma and Judith Liebetrau(参考訳) 多くの都市部では、交通負荷や騒音が絶えず増加している。 交通監視の自動化システムは、自治体の交通計画決定を支援するために、地方交通の流れを体系的に定量化し、予測できる、有望な対策である。 本稿では,高品質のsE8マイクロホンと中質のMEMSマイクロホンを併用した4718台の車両通過イベントの2.5時間のステレオオーディオ記録を含む,新しいベンチマークデータセットを提案する。 このデータセットは、マイク品質とハードウェア処理能力に制限のある組み込みセンサーデバイスにオーディオ分類アルゴリズムをデプロイするユースケースを評価するのに適している。 さらに,最近の音響トラフィック監視(ATM)アルゴリズムの詳細なレビューと,4つの最先端畳み込みニューラルネットワークアーキテクチャを用いた車両タイプ分類と移動方向推定に関する2つのベンチマーク実験の結果について述べる。

In many urban areas, traffic load and noise pollution are constantly increasing. Automated systems for traffic monitoring are promising countermeasures, which allow to systematically quantify and predict local traffic flow in order to to support municipal traffic planning decisions. In this paper, we present a novel open benchmark dataset, containing 2.5 hours of stereo audio recordings of 4718 vehicle passing events captured with both high-quality sE8 and medium-quality MEMS microphones. This dataset is well suited to evaluate the use-case of deploying audio classification algorithms to embedded sensor devices with restricted microphone quality and hardware processing power. In addition, this paper provides a detailed review of recent acoustic traffic monitoring (ATM) algorithms as well as the results of two benchmark experiments on vehicle type classification and direction of movement estimation using four state-of-the-art convolutional neural network architectures.
翻訳日:2021-04-29 12:42:10 公開日:2021-04-28
# ZePHyR:ゼロショットポス仮説のレーティング

ZePHyR: Zero-shot Pose Hypothesis Rating ( http://arxiv.org/abs/2104.13526v1 )

ライセンス: Link先を確認
Brian Okorn, Qiao Gu, Martial Hebert, David Held(参考訳) ポーズ推定は多くのロボット操作パイプラインの基本モジュールである。 環境中の物体のポーズを推定することは、把握、運動計画、操作に有用である。 しかし、現在のポーズ推定手法は、大きな注釈付きトレーニングセットやシミュレーションデータに依存している。 さらに、これらの手法の長い訓練期間は、新しい物体との迅速な相互作用を禁止している。 これらの問題に対処するために,ゼロショットオブジェクトポーズ推定の新しい手法を提案する。 提案手法は仮説生成とスコアリングのフレームワークを用いて,トレーニングに使用されていないオブジェクトに一般化するスコアリング関数の学習に重点を置いている。 非順序点差の関数としてのレーティング仮説によるゼロショット一般化を実現する。 本手法は,テクスチャと非テクスチャの両方のオブジェクトを散らかした難易度の高いデータセットに対して,提案手法が従来の手法を大幅に上回ることを示す。 また,新しい物体のモデルを素早くスキャンして構築することで,本システムをどのように利用できるかを示す。 我々の研究により、ユーザーは再トレーニングを必要とせずに、新しいオブジェクトのポーズを推定できる。 詳細は私たちのWebサイトhttps://bokorn.githu b.io/zephyr/で確認できます。

Pose estimation is a basic module in many robot manipulation pipelines. Estimating the pose of objects in the environment can be useful for grasping, motion planning, or manipulation. However, current state-of-the-art methods for pose estimation either rely on large annotated training sets or simulated data. Further, the long training times for these methods prohibit quick interaction with novel objects. To address these issues, we introduce a novel method for zero-shot object pose estimation in clutter. Our approach uses a hypothesis generation and scoring framework, with a focus on learning a scoring function that generalizes to objects not used for training. We achieve zero-shot generalization by rating hypotheses as a function of unordered point differences. We evaluate our method on challenging datasets with both textured and untextured objects in cluttered scenes and demonstrate that our method significantly outperforms previous methods on this task. We also demonstrate how our system can be used by quickly scanning and building a model of a novel object, which can immediately be used by our method for pose estimation. Our work allows users to estimate the pose of novel objects without requiring any retraining. Additional information can be found on our website https://bokorn.githu b.io/zephyr/
翻訳日:2021-04-29 12:41:54 公開日:2021-04-28
# ソフトウェアリポジトリにおける情報フラグメント探索のためのインタラクティブ可視化

Interactive Visualization for Exploring Information Fragments in Software Repositories ( http://arxiv.org/abs/2104.13568v1 )

ライセンス: Link先を確認
Youngtaek Kim, Hyeon Jeon, Kiroong Choe, Hyunjoo Song, Bohyoung Kim, Jinwook Seo(参考訳) ソフトウェア開発者は、開発履歴にアーカイブされた詳細な情報を得るために、ソフトウェアリポジトリデータを探索し、検査する。 しかし、開発コンテキストに精通していない開発者は、わずかな情報でリポジトリを掘り下げることに苦慮しており、リポジトリのトポロジカルおよびシーケンシャルな多次元構造を考慮した情報フラグメントの発見と拡張が困難である。 ソフトウェアリポジトリ内の情報断片を探索するためのインタラクティブな可視化であるExIFを紹介する。 ExIFは、クラスタやトポロジカルな隣人の間で新しい情報フラグメントを発見し、ユーザが選択したフラグメントを組み込んだリビジョンを識別するのに役立つ。

Software developers explore and inspect software repository data to obtain detailed information archived in the development history. However, developers who are not acquainted with the development context suffer from delving into the repositories with a handful of information; they have difficulty discovering and expanding information fragments considering the topological and sequential multi-dimensional structure of repositories. We introduce ExIF, an interactive visualization for exploring information fragments in software repositories. ExIF helps users discover new information fragments within clusters or topological neighbors and identify revisions incorporating user-collected fragments.
翻訳日:2021-04-29 12:41:36 公開日:2021-04-28
# 教師なし病理診断の序文としての画像合成

Image Synthesis as a Pretext for Unsupervised Histopathological Diagnosis ( http://arxiv.org/abs/2104.13797v1 )

ライセンス: Link先を確認
Dejan Stepec and Danijel Skocaj(参考訳) 視覚データの異常検出は、正常な症例と異常な外観を区別する問題を指す。 教師付きアプローチは、異なるドメインにうまく適用されているが、ラベル付きデータの豊富さを必要とする。 異常の発生とその基盤となる生成過程の性質のため、それらの特徴付けやラベル付けは困難である。 深層生成型モデルの最近の進歩は、このような非教師なし異常検出法の適用に関心を呼び起こし、医療および産業検査領域で有望な結果を示している。 本研究は, 正常な外観モデルに必要とされる非教師付き視覚異常検出パイプラインの重要な部分と, 近視正常および腫瘍標本を再構成する能力について評価する。 顔合成領域から得られた様々な高分解能状態生成モデルを適応・評価し、デジタル病理の挑戦的領域において現在使われているアプローチよりも優位性を示す。 画像合成におけるマルチフォールド改善は、生成画像の品質と解像度の観点から示され、教師付きモデルに対しても検証される。

Anomaly detection in visual data refers to the problem of differentiating abnormal appearances from normal cases. Supervised approaches have been successfully applied to different domains, but require an abundance of labeled data. Due to the nature of how anomalies occur and their underlying generating processes, it is hard to characterize and label them. Recent advances in deep generative-based models have sparked interest in applying such methods for unsupervised anomaly detection and have shown promising results in medical and industrial inspection domains. In this work we evaluate a crucial part of the unsupervised visual anomaly detection pipeline, that is needed for normal appearance modeling, as well as the ability to reconstruct closest looking normal and tumor samples. We adapt and evaluate different high-resolution state-of-the-art generative models from the face synthesis domain and demonstrate their superiority over currently used approaches on a challenging domain of digital pathology. Multifold improvement in image synthesis is demonstrated in terms of the quality and resolution of the generated images, validated also against the supervised model.
翻訳日:2021-04-29 12:41:24 公開日:2021-04-28
# 非視線イメージングの最近の進歩:従来の物理モデル、深層学習、新しいシーン

Recent Advances on Non-Line-of-Sight Imaging: Conventional Physical Models, Deep Learning, and New Scenes ( http://arxiv.org/abs/2104.13807v1 )

ライセンス: Link先を確認
Ruixu Geng, Yang Hu, Yan Chen(参考訳) 注目を浴びている新興技術として、nlos(non-line-of-sig ht)イメージングは、リレー面の拡散反射を分析して隠れた物体を再構築し、自動運転、医療画像、防衛の分野で広く応用される。 近年,低信号-雑音比 (SNR) と高雑音像の課題にもかかわらず,NLOSイメージングは急速に進歩している。 現在のnlosイメージング技術のほとんどは、従来の物理モデルを使用し、アクティブまたはパッシブ照明による画像モデルを構築し、隠れたシーンを復元するために再構成アルゴリズムを使用している。 さらに,NLOSイメージングのためのディープラーニングアルゴリズムも近年注目されている。 本稿では,従来型および深層学習型nlosイメージング技術の包括的概要について述べる。 また,提案するNLOSシーンについても調査を行い,既存技術の課題と展望について考察する。 このような調査は、読者が様々なタイプのNLOSイメージングを概観するのに役立つ。

As an emerging technology that has attracted huge attention, non-line-of-sight (NLOS) imaging can reconstruct hidden objects by analyzing the diffuse reflection on a relay surface, with broad application prospects in the fields of autonomous driving, medical imaging, and defense. Despite the challenges of low signal-to-noise ratio (SNR) and high ill-posedness, NLOS imaging has been developed rapidly in recent years. Most current NLOS imaging technologies use conventional physical models, constructing imaging models through active or passive illumination and using reconstruction algorithms to restore hidden scenes. Moreover, deep learning algorithms for NLOS imaging have also received much attention recently. This paper presents a comprehensive overview of both conventional and deep learning-based NLOS imaging techniques. Besides, we also survey new proposed NLOS scenes, and discuss the challenges and prospects of existing technologies. Such a survey can help readers have an overview of different types of NLOS imaging, thus expediting the development of seeing around corners.
翻訳日:2021-04-29 12:41:07 公開日:2021-04-28
# LambdaUNet:拡散強調MRI画像の2.5Dストローク病変分割

LambdaUNet: 2.5D Stroke Lesion Segmentation of Diffusion-weighted MR Images ( http://arxiv.org/abs/2104.13917v1 )

ライセンス: Link先を確認
Yanglan Ou, Ye Yuan, Xiaolei Huang, Kelvin Wong, John Volpi, James Z. Wang, Stephen T.C. Wong(参考訳) 虚血性脳梗塞の診断と治療には拡散強調(DW)MRIが不可欠である。 DW画像(DWI)は通常、2つの連続した2Dスライスにおける病変領域が大きなスライス厚みと時にはスライスギャップによって非常に不連続であるマルチスライス環境で取得される。 したがって、DWIはリッチな3D情報を含むが、通常の3D画像や2D画像として扱うことはできない。 代わりに、DWIは体積の性質から中間(2.5D)にあるが、スライス間不連続である。 したがって,2次元画像と3次元画像のいずれに対しても,既存のセグメント化手法を適用するのは理想的ではない。 そこで本研究では,DWIなどの不連続な2.5Dデータをセグメント化するためのニューラルネットワークアーキテクチャを提案する。 当社のネットワークはLambdaUNetと呼ばれ、畳み込みレイヤをLambda+レイヤに置き換えることでUNetを拡張しています。 特に、ラムダ+層は、ピクセル周辺のスライス内とスライス間の両方のコンテキストを、ラムダと呼ばれる線形関数に変換し、それをピクセルに適用して、有益な2.5d機能を生成する。 LambdaUNetはシンプルだが、隣接するスライスからスパース間情報を合成すると同時に、単一のスライス内で密集したコンテキスト特徴をキャプチャするのに有効である。 ユニークな臨床データセットの実験では、LambdaUNetは、UNetの最近の変種を含む既存の3D/2D画像セグメンテーションメソッドより優れていることが示されている。 LambdaUNetのコードは、将来の研究を促進するために出版とともにリリースされる。

Diffusion-weighted (DW) magnetic resonance imaging is essential for the diagnosis and treatment of ischemic stroke. DW images (DWIs) are usually acquired in multi-slice settings where lesion areas in two consecutive 2D slices are highly discontinuous due to large slice thickness and sometimes even slice gaps. Therefore, although DWIs contain rich 3D information, they cannot be treated as regular 3D or 2D images. Instead, DWIs are somewhere in-between (or 2.5D) due to the volumetric nature but inter-slice discontinuities. Thus, it is not ideal to apply most existing segmentation methods as they are designed for either 2D or 3D images. To tackle this problem, we propose a new neural network architecture tailored for segmenting highly-discontinuous 2.5D data such as DWIs. Our network, termed LambdaUNet, extends UNet by replacing convolutional layers with our proposed Lambda+ layers. In particular, Lambda+ layers transform both intra-slice and inter-slice context around a pixel into linear functions, called lambdas, which are then applied to the pixel to produce informative 2.5D features. LambdaUNet is simple yet effective in combining sparse inter-slice information from adjacent slices while also capturing dense contextual features within a single slice. Experiments on a unique clinical dataset demonstrate that LambdaUNet outperforms existing 3D/2D image segmentation methods including recent variants of UNet. Code for LambdaUNet will be released with the publication to facilitate future research.
翻訳日:2021-04-29 12:40:51 公開日:2021-04-28
# rate-distortion-perc eption関数の符号化定理

A coding theorem for the rate-distortion-perc eption function ( http://arxiv.org/abs/2104.13662v1 )

ライセンス: Link先を確認
Lucas Theis and Aaron B. Wagner(参考訳) RDPF (Rlau and Michaeli, 2019) は、損失圧縮における現実性と再構成の歪みを考えるための有用なツールとして登場した。 しかし、レート歪み関数とは異なり、RDPFが提案するレートを達成するエンコーダとデコーダが存在するかどうかは不明である。 Li と El Gamal (2018) の結果に基づいて, RDPF は確率的, 可変長の符号で実現可能であることを示す。 このクラスの符号に対しては、RDPFが達成可能なレートを低くすることを示す。

The rate-distortion-perc eption function (RDPF; Blau and Michaeli, 2019) has emerged as a useful tool for thinking about realism and distortion of reconstructions in lossy compression. Unlike the rate-distortion function, however, it is unknown whether encoders and decoders exist that achieve the rate suggested by the RDPF. Building on results by Li and El Gamal (2018), we show that the RDPF can indeed be achieved using stochastic, variable-length codes. For this class of codes, we also prove that the RDPF lower-bounds the achievable rate
翻訳日:2021-04-29 12:40:25 公開日:2021-04-28
# 影響要因:人口データから個々の反応を学習する

Causes of Effects: Learning individual responses from population data ( http://arxiv.org/abs/2104.13730v1 )

ライセンス: Link先を確認
Scott Mueller, Ang Li, Judea Pearl(参考訳) パーソナライゼーションの問題は、ほとんどすべての分野において重要であると認識されている。 特定の事象における影響の原因を特定することは、正確な意思決定にも不可欠である。 しかし、そのような推定は反事実関係を呼び起こすため、人口データからは決定できない。 例えば、治療の恩恵を受ける確率は、治療された場合の好ましくない結果と、治療されていない場合の好ましくない結果である。 粒度の細かい特徴を条件づけた実験は、個々の可能性の両方をテストできないため、基本的に不十分です。 ティアンとパールは、実験データと観測データを組み合わせて因果関係の他の可能性に限界を与えた。 これらの境界は厳密に証明されたものの、時としてより狭い境界は、因果モデルの形で構造情報が利用可能であるときに達成できる。 これは、説明可能なAI、法的責任、パーソナライズされた医療といった中心的な問題を解決する能力を持つ。 我々は,必要十分性(PNS)の確率に境界を適用し,グラフィカルな基準と実践的応用によって既存の研究を分析し,拡張する。

The problem of individualization is recognized as crucial in almost every field. Identifying causes of effects in specific events is likewise essential for accurate decision making. However, such estimates invoke counterfactual relationships, and are therefore indeterminable from population data. For example, the probability of benefiting from a treatment concerns an individual having a favorable outcome if treated and an unfavorable outcome if untreated. Experiments conditioning on fine-grained features are fundamentally inadequate because we can't test both possibilities for an individual. Tian and Pearl provided bounds on this and other probabilities of causation using a combination of experimental and observational data. Even though those bounds were proven tight, narrower bounds, sometimes significantly so, can be achieved when structural information is available in the form of a causal model. This has the power to solve central problems, such as explainable AI, legal responsibility, and personalized medicine, all of which demand counterfactual logic. We analyze and expand on existing research by applying bounds to the probability of necessity and sufficiency (PNS) along with graphical criteria and practical applications.
翻訳日:2021-04-29 12:39:38 公開日:2021-04-28
# すべての角度を見る:デモからコンタクトリッチタスクのためのマルチビュー操作ポリシーを学ぶ

Seeing All the Angles: Learning Multiview Manipulation Policies for Contact-Rich Tasks from Demonstrations ( http://arxiv.org/abs/2104.13907v1 )

ライセンス: Link先を確認
Trevor Ablett, Yifan Zhai, Jonathan Kelly(参考訳) visuomotorのポリシーは、ロボット操作タスクのための従来の手作りのフレームワークの代替としてかなりの成功を収めている。 驚くべきことに、マルチビュードメインへのこれらのメソッドの拡張は、比較的未検討である。 成功したマルチビューポリシーは、モバイル操作プラットフォームにデプロイされ、シーンのビューに関係なくタスクを完了させることができる。 本研究では,様々な視点からデータを収集することで,模倣学習を通じて多視点ポリシーを見いだせることを示す。 シミュレーション環境と実際のモバイル操作プラットフォームの両方において,複数の難解なマルチステージおよびコンタクトリッチなタスクを,多数の視点から完了させることで,この手法の一般的な適用性を示す。 さらに,マルチビューデータからの学習のメリットを,固定的な視点からのデータによる学習と比較するために,ポリシーを分析した。 マルチビューデータからの学習は,同一量の固定ビューデータを用いた学習と比較して,固定ビュータスクのパフォーマンスに対するペナルティが低かった。 最後に,マルチビューポリシと固定ビューポリシで学習したビジュアル機能について検討する。 以上の結果から,マルチビューポリシーは,空間的相関性のある特徴を視差の程度で認識することが暗黙的に学習されることが示唆された。

Learned visuomotor policies have shown considerable success as an alternative to traditional, hand-crafted frameworks for robotic manipulation tasks. Surprisingly, the extension of these methods to the multiview domain is relatively unexplored. A successful multiview policy could be deployed on a mobile manipulation platform, allowing it to complete a task regardless of its view of the scene. In this work, we demonstrate that a multiview policy can be found through imitation learning by collecting data from a variety of viewpoints. We illustrate the general applicability of the method by learning to complete several challenging multi-stage and contact-rich tasks, from numerous viewpoints, both in a simulated environment and on a real mobile manipulation platform. Furthermore, we analyze our policies to determine the benefits of learning from multiview data compared to learning with data from a fixed perspective. We show that learning from multiview data has little, if any, penalty to performance for a fixed-view task compared to learning with an equivalent amount of fixed-view data. Finally, we examine the visual features learned by the multiview and fixed-view policies. Our results indicate that multiview policies implicitly learn to identify spatially correlated features with a degree of view-invariance.
翻訳日:2021-04-29 12:39:21 公開日:2021-04-28
# AMSS-Net:テキストクエリによるユーザ指定ソースの音声操作

AMSS-Net: Audio Manipulation on User-Specified Sources with Textual Queries ( http://arxiv.org/abs/2104.13553v1 )

ライセンス: Link先を確認
Woosung Choi, Minseok Kim, Marco A. Mart\'inez Ram\'irez, Jaehwa Chung, Soonyoung Jung(参考訳) 本稿では,ユーザが指定した音声トラックの音源(例えばボーカル)に対して,記述に記載されていない他の音源を保存しながら,所定の記述に従って音声変換を行うニューラルネットワークを提案する。 特定の音源(AMSS)の音声操作は、音声オブジェクト(波形サンプルまたは周波数ビン)が「透明」であるため困難である。 この課題に対処するため,我々は,潜在源を抽出し,無関係なソースを維持しながら選択的に操作するamss-netを提案する。 また,複数のAMSSタスクに対する評価ベンチマークを提案し,AMSS-Netが客観的なメトリクスと経験的検証によって,複数のAMSSタスクのベースラインよりも優れていることを示す。

This paper proposes a neural network that performs audio transformations to user-specified sources (e.g., vocals) of a given audio track according to a given description while preserving other sources not mentioned in the description. Audio Manipulation on a Specific Source (AMSS) is challenging because a sound object (i.e., a waveform sample or frequency bin) is `transparent'; it usually carries information from multiple sources, in contrast to a pixel in an image. To address this challenging problem, we propose AMSS-Net, which extracts latent sources and selectively manipulates them while preserving irrelevant sources. We also propose an evaluation benchmark for several AMSS tasks, and we show that AMSS-Net outperforms baselines on several AMSS tasks via objective metrics and empirical verification.
翻訳日:2021-04-29 12:38:31 公開日:2021-04-28
# 遅延感度深層学習のためのパケットロス耐性スプリット推定

Packet-Loss-Tolerant Split Inference for Delay-Sensitive Deep Learning in Lossy Wireless Networks ( http://arxiv.org/abs/2104.13629v1 )

ライセンス: Link先を確認
Sohei Itahara, Takayuki Nishio, and Koji Yamamoto(参考訳) 分散推論フレームワークは、リソース制約のあるモノのインターネット(IoT)デバイス上で、最先端のディープラーニング(ML)によって強化されたリアルタイムアプリケーションのための新興技術である。 分散推論では、計算タスクは、損失の多いIoTネットワークを介して、IoTデバイスから他のデバイスやエッジサーバにオフロードされる。 しかし、狭帯域で損失の少ないIoTネットワークは、パケットの損失や再送信を生じさせ、通信遅延を生じさせる。 本研究では,損失iotネットワークにおけるパケット損失に起因する再送遅延の問題を解決した。 本稿では,パケットロスが発生しても再送信なしで高精度な分割推定を行うSI-NR法を提案する。 SI-NRでは、DNN層に隠されたユニットの出力をランダムにドロップするドロップアウト方式により、パケット損失をエミュレートしてMLモデルをトレーニングする。 これにより、SI-NRシステムはパケット損失に対して堅牢性を得ることができる。 実験の結果,SI-NR はパケット損失率 60% でパケット再送を伴わない精度の予測値が得られることがわかった。

The distributed inference framework is an emerging technology for real-time applications empowered by cutting-edge deep machine learning (ML) on resource-constrained Internet of things (IoT) devices. In distributed inference, computational tasks are offloaded from the IoT device to other devices or the edge server via lossy IoT networks. However, narrow-band and lossy IoT networks cause non-negligible packet losses and retransmissions, resulting in non-negligible communication latency. This study solves the problem of the incremental retransmission latency caused by packet loss in a lossy IoT network. We propose a split inference with no retransmissions (SI-NR) method that achieves high accuracy without any retransmissions, even when packet loss occurs. In SI-NR, the key idea is to train the ML model by emulating the packet loss by a dropout method, which randomly drops the output of hidden units in a DNN layer. This enables the SI-NR system to obtain robustness against packet losses. Our ML experimental evaluation reveals that SI-NR obtains accurate predictions without packet retransmission at a packet loss rate of 60%.
翻訳日:2021-04-29 12:38:16 公開日:2021-04-28
# ニアメモリ処理システムにおけるデータと計算マッピングの改善のための連続学習手法

Continual Learning Approach for Improving the Data and Computation Mapping in Near-Memory Processing System ( http://arxiv.org/abs/2104.13671v1 )

ライセンス: Link先を確認
Pritam Majumder, Jiayi Huang, Sungkeun Kim, Abdullah Muzahid, Dylan Siegers, Chia-Che Tsai, and Eun Jung Kim(参考訳) ビッグデータの出現に伴うニアメモリ処理(NMP)の復活は、計算パラダイムをプロセッサ中心からメモリ中心にシフトさせた。 メモリ中心コンピューティングの帯域幅と容量要求を満たすため、スケーラブルなメモリキューブネットワークを形成するために3Dメモリが採用された。 NMPやメモリシステムの開発とともに、NMPの性能向上を推進する上で、メモリキューブネットワークにおけるデータ配置と導出計算のマッピングが重要である。 しかし、一意なアプリケーション動作と難解な決定空間のため、すべてのアプリケーションに対して普遍的な最適マッピングを設計することは非常に困難である。 本稿では,ページと計算の再マップによるデータ配置とリソース利用を最適化する,aim(artificially intelligent memory mapping scheme)を提案する。 提案手法は,任意のアプリケーションに対するマッピング決定がシステム性能に与える影響を継続的に評価し学習することを含む。 AIMMは、ニューラルネットワークを使用して実行中にほぼ最適なマッピングを実現し、広大な設計空間を探索するのに有効な強化学習アルゴリズムを使用してトレーニングする。 また,様々なNMPシステムのプラグインモジュールとして採用可能な,詳細なAIMMハードウェア設計も提供する。 実験の結果,AIMMは1つのプログラムシナリオと複数プログラムシナリオのベースラインNMP性能を最大70%,50%向上させることがわかった。

The resurgence of near-memory processing (NMP) with the advent of big data has shifted the computation paradigm from processor-centric to memory-centric computing. To meet the bandwidth and capacity demands of memory-centric computing, 3D memory has been adopted to form a scalable memory-cube network. Along with NMP and memory system development, the mapping for placing data and guiding computation in the memory-cube network has become crucial in driving the performance improvement in NMP. However, it is very challenging to design a universal optimal mapping for all applications due to unique application behavior and intractable decision space. In this paper, we propose an artificially intelligent memory mapping scheme, AIMM, that optimizes data placement and resource utilization through page and computation remapping. Our proposed technique involves continuously evaluating and learning the impact of mapping decisions on system performance for any application. AIMM uses a neural network to achieve a near-optimal mapping during execution, trained using a reinforcement learning algorithm that is known to be effective for exploring a vast design space. We also provide a detailed AIMM hardware design that can be adopted as a plugin module for various NMP systems. Our experimental evaluation shows that AIMM improves the baseline NMP performance in single and multiple program scenario by up to 70% and 50%, respectively.
翻訳日:2021-04-29 12:37:58 公開日:2021-04-28
# 多面的最適化のための強化学習環境

A Reinforcement Learning Environment for Polyhedral Optimizations ( http://arxiv.org/abs/2104.13732v1 )

ライセンス: Link先を確認
Alexander Brauckmann, Andr\'es Goens, Jeronimo Castrillon(参考訳) 多面体モデルは、セマンティクス保存変換を定義する構造化方法を可能にし、ループの大規模なクラスのパフォーマンスを向上させる。 この空間の利益点を見つけることは、通常、ドメインエキスパート知識から一般化するヒューリスティックスによってアプローチされる難しい問題である。 最先端のヒューリスティックにおける既存の問題の定式化は、特定のループの形状に依存するため、機械学習領域からの汎用的で強力な最適化技術を活用することは困難である。 本稿では,多面体モデルにおける正則変換空間をマルコフ決定過程(mdp)として定式化した多面体であるpolygymを提案する。 変換を使う代わりに、定式化は可能なスケジュールの抽象空間に基づいている。 この定式化では、状態は部分スケジュールをモデル化し、異なるループにわたって再利用可能なアクションによって構成される。 空間を横切るための単純なヒューリスティックでは、我々の定式化が最先端のヒューリスティックに適合し、性能を上回るほど強力であることを示す。 Polybenchベンチマークスイートでは、LLVM O3よりも3.39倍のスピードアップを実現した変換が見つかりました。 我々の汎用MDP定式化は、強化学習を用いて幅広いループで最適化ポリシーを学習することを可能にする。 これはまた、既存のメソッドの限界を押し上げることができる新しい問題定式化を公開するため、コンパイラにおける機械学習の新興分野にも寄与する。

The polyhedral model allows a structured way of defining semantics-preserving transformations to improve the performance of a large class of loops. Finding profitable points in this space is a hard problem which is usually approached by heuristics that generalize from domain-expert knowledge. Existing problem formulations in state-of-the-art heuristics depend on the shape of particular loops, making it hard to leverage generic and more powerful optimization techniques from the machine learning domain. In this paper, we propose PolyGym, a shape-agnostic formulation for the space of legal transformations in the polyhedral model as a Markov Decision Process (MDP). Instead of using transformations, the formulation is based on an abstract space of possible schedules. In this formulation, states model partial schedules, which are constructed by actions that are reusable across different loops. With a simple heuristic to traverse the space, we demonstrate that our formulation is powerful enough to match and outperform state-of-the-art heuristics. On the Polybench benchmark suite, we found transformations that led to a speedup of 3.39x over LLVM O3, which is 1.83x better than the speedup achieved by ISL. Our generic MDP formulation enables using reinforcement learning to learn optimization policies over a wide range of loops. This also contributes to the emerging field of machine learning in compilers, as it exposes a novel problem formulation that can push the limits of existing methods.
翻訳日:2021-04-29 12:37:39 公開日:2021-04-28
# sum-of-normsクラスタリングは近くのボールを分離しない

Sum-of-norms clustering does not separate nearby balls ( http://arxiv.org/abs/2104.13753v1 )

ライセンス: Link先を確認
Alexander Dunlap and Jean-Christophe Mourrat(参考訳) Sum-of-normsクラスタリングは、$K$-meansクラスタリングの一般的な凸化である。 このデータセットが、単位半径の2つの非結合球の結合に関する均一測度に従って分布する多数の独立確率変数からなる場合、ボールが互いに十分に近接している場合、サム・オブ・ノームのクラスタリングは通常、データセットの2つのクラスタへの分解を回復できない。 次元が無限大になる傾向にあるので、2つの球の中心間の距離が2\sqrt{2}$であるとしても、これは成り立つ。 これを示すために,データセットを一般的な尺度に置き換えた,sum-of-normsクラスタリングの連続バージョンを紹介し,分析する。 特に、離散データポイントの場合においても、新しいと思われるクラスタリングの局所的・言語的特徴を記述し、証明する。

Sum-of-norms clustering is a popular convexification of $K$-means clustering. We show that, if the dataset is made of a large number of independent random variables distributed according to the uniform measure on the union of two disjoint balls of unit radius, and if the balls are sufficiently close to one another, then sum-of-norms clustering will typically fail to recover the decomposition of the dataset into two clusters. As the dimension tends to infinity, this happens even when the distance between the centers of the two balls is taken to be as large as $2\sqrt{2}$. In order to show this, we introduce and analyze a continuous version of sum-of-norms clustering, where the dataset is replaced by a general measure. In particular, we state and prove a local-global characterization of the clustering that seems to be new even in the case of discrete datapoints.
翻訳日:2021-04-29 12:37:15 公開日:2021-04-28
# Weighed $\ell_1$ on the simplex: Compressive Sensor meets locality

Weighed $\ell_1$ on the simplex: Compressive sensing meets locality ( http://arxiv.org/abs/2104.13894v1 )

ライセンス: Link先を確認
Abiy Tasissa, Pranay Tankala and Demba Ba(参考訳) スパース多様体学習アルゴリズムは、多様体学習のテクニックとスパース最適化を組み合わせて、下流タスクに使用できる機能を学ぶ。 圧縮センシングの標準設定はこの設定に直ちに適用することはできない。 データ固有の幾何学構造のため、辞書原子は冗長であり、制限された等尺性やコヒーレンス条件を満たすことができない。 さらに、多様体学習は標準的な$\ell_1$最小化問題に反映されない局所幾何学の学習を強調する。 我々は,辞書ベースの多様体学習に適した近傍原子による表現を促進する,重み付き$\ell_0$と重み付き$\ell_1$メトリックを提案する。 データはdelaunay三角測量から生成されると仮定すると、重み付き$\ell_1$と重み付き$\ell_0$の等価性を示す。 本稿では,辞書とスパース係数を学習する最適化プログラムについて論じ,合成および実データに対する正規化の有用性を実証する。

Sparse manifold learning algorithms combine techniques in manifold learning and sparse optimization to learn features that could be utilized for downstream tasks. The standard setting of compressive sensing can not be immediately applied to this setup. Due to the intrinsic geometric structure of data, dictionary atoms might be redundant and do not satisfy the restricted isometry property or coherence condition. In addition, manifold learning emphasizes learning local geometry which is not reflected in a standard $\ell_1$ minimization problem. We propose weighted $\ell_0$ and weighted $\ell_1$ metrics that encourage representation via neighborhood atoms suited for dictionary based manifold learning. Assuming that the data is generated from Delaunay triangulation, we show the equivalence of weighted $\ell_1$ and weighted $\ell_0$. We discuss an optimization program that learns the dictionaries and sparse coefficients and demonstrate the utility of our regularization on synthetic and real datasets.
翻訳日:2021-04-29 12:37:00 公開日:2021-04-28
# (参考訳) Fair-Capacitated Clustering [全文訳有]

Fair-Capacitated Clustering ( http://arxiv.org/abs/2104.12116v2 )

ライセンス: CC BY 4.0
Tai Le Quy, Arjun Roy, Gunnar Friege and Eirini Ntoutsi(参考訳) 従来、クラスタリングアルゴリズムは、データを同様のインスタンスのグループに分割することに重点を置いていた。 しかし、類似性の目的は、各クラスタに対して性別や人種などの保護された属性の観点からグループを公平に表現するアプリケーションでは不十分である。 さらに、多くのアプリケーションにおいて、クラスタをエンドユーザにとって有用なものにするためには、クラスタ間の平衡基数が必要である。 我々のモチベーションは、学生が多様な学生グループでより良く学ぶことができることを示し、もちろん、同様の基数を持つグループは、例えば、グループ割り当てのためにより実践的であることを示唆する教育分野から来ている。 この目的のために,クラスタの公平性とクラスタ濃度のバランスを確保しつつ,同様のインスタンスのクラスタにデータを分割する,公正なクラスタ化問題を導入する。 本稿では,この問題に対する2段階の解法を提案する。i) 公平制約を満たす最小集合を生成するために,fairletsに頼り,ii) 階層クラスタリングとパーティショニングベースのクラスタリングという2つのアプローチを提案する。 階層的アプローチはマージステップ中に追加の濃度要求を埋め込み、分割ベースは追加要件を満たすためにクナップサック問題定式化を使用して割り当てステップを変更する。 4つの教育データセットに関する実験では,クラスタ品質を維持しつつ,公平性と濃度の両面で,バランスの取れたクラスタを提供する方法が示されている。

Traditionally, clustering algorithms focus on partitioning the data into groups of similar instances. The similarity objective, however, is not sufficient in applications where a fair-representation of the groups in terms of protected attributes like gender or race, is required for each cluster. Moreover, in many applications, to make the clusters useful for the end-user, a balanced cardinality among the clusters is required. Our motivation comes from the education domain where studies indicate that students might learn better in diverse student groups and of course groups of similar cardinality are more practical e.g., for group assignments. To this end, we introduce the fair-capacitated clustering problem that partitions the data into clusters of similar instances while ensuring cluster fairness and balancing cluster cardinalities. We propose a two-step solution to the problem: i) we rely on fairlets to generate minimal sets that satisfy the fair constraint and ii) we propose two approaches, namely hierarchical clustering and partitioning-based clustering, to obtain the fair-capacitated clustering. The hierarchical approach embeds the additional cardinality requirements during the merging step while the partitioning-based one alters the assignment step using a knapsack problem formulation to satisfy the additional requirements. Our experiments on four educational datasets show that our approaches deliver well-balanced clusters in terms of both fairness and cardinality while maintaining a good clustering quality.
翻訳日:2021-04-29 11:23:40 公開日:2021-04-28
# (参考訳) 銀行小切手の署名のための新しいセグメンテーションデータセット [全文訳有]

A novel segmentation dataset for signatures on bank checks ( http://arxiv.org/abs/2104.12203v2 )

ライセンス: CC0 1.0
Muhammad Saif Ullah Khan(参考訳) 提示されたデータセットは、さまざまな複雑な背景を含むバンクチェックと、各フィールドで手書きのテキストとシグネチャ、およびチェックのシグネチャ用のピクセルレベルとパッチレベルのセグネチャマスクの高解像度画像を提供する。 銀行のチェックの画像は、他の公開可能なチェックデータセット、インターネット上で公開されているイメージ、実際のチェックのスキャンとイメージなど、さまざまなソースから取得された。 GIMPグラフィックスソフトウェアを用いて、これらのチェックの署名のためのピクセルレベルのセグメンテーションマスクを手動でバイナリ画像として生成した。 その後、自動スクリプトを使用してパッチレベルのマスクを生成する。 データセットは、銀行小切手やその他の非常に複雑な背景を持つ類似文書から署名を抽出するためのネットワークのトレーニングとテストのために作成された。

The dataset presented provides high-resolution images of real, filled out bank checks containing various complex backgrounds, and handwritten text and signatures in the respective fields, along with both pixel-level and patch-level segmentation masks for the signatures on the checks. The images of bank checks were obtained from different sources, including other publicly available check datasets, publicly available images on the internet, as well as scans and images of real checks. Using the GIMP graphics software, pixel-level segmentation masks for signatures on these checks were manually generated as binary images. An automated script was then used to generate patch-level masks. The dataset was created to train and test networks for extracting signatures from bank checks and other similar documents with very complex backgrounds.
翻訳日:2021-04-29 11:10:46 公開日:2021-04-28
# (参考訳) 画像復元・融合における動的劣化

Dynamic Degradation for Image Restoration and Fusion ( http://arxiv.org/abs/2104.12347v2 )

ライセンス: CC0 1.0
Aiqing Fang, Xinbo Zhao, Jiaqi Yang, Yanning Zhang(参考訳) 深層学習に基づく画像復元と融合手法は顕著な成果を上げている。 しかし, 従来の修復法と融合法は, 動的劣化に起因するロバスト性問題にはほとんど注意を払わなかった。 本稿では,静的回復と融合,動的劣化という2つの問題を解くことができる,DDRF-Netと呼ばれる新しい動的画像復元と融合ニューラルネットワークを提案する。 既存手法の静的融合問題を解くため,動的復元と融合重みを学習するために動的畳み込みを導入した。 さらに,画像復元と核融合の堅牢性を向上させるため,動的劣化カーネルを提案する。 ネットワークフレームワークは,画像劣化と画像融合タスクを効果的に結合し,画像復元損失による画像融合タスクの詳細な情報を提供し,画像融合損失による画像復元タスクを最適化する。 したがって、画像融合におけるディープラーニングの崩壊ブロック、例えば静的融合重みや特別に設計されたネットワークアーキテクチャは大幅に軽減される。 実験の結果,本手法は最先端の手法よりも優れていることがわかった。

The deep-learning-based image restoration and fusion methods have achieved remarkable results. However, the existing restoration and fusion methods paid little research attention to the robustness problem caused by dynamic degradation. In this paper, we propose a novel dynamic image restoration and fusion neural network, termed as DDRF-Net, which is capable of solving two problems, i.e., static restoration and fusion, dynamic degradation. In order to solve the static fusion problem of existing methods, dynamic convolution is introduced to learn dynamic restoration and fusion weights. In addition, a dynamic degradation kernel is proposed to improve the robustness of image restoration and fusion. Our network framework can effectively combine image degradation with image fusion tasks, provide more detailed information for image fusion tasks through image restoration loss, and optimize image restoration tasks through image fusion loss. Therefore, the stumbling blocks of deep learning in image fusion, e.g., static fusion weight and specifically designed network architecture, are greatly mitigated. Extensive experiments show that our method is more superior compared with the state-of-the-art methods.
翻訳日:2021-04-29 11:07:40 公開日:2021-04-28
# (参考訳) グラフニューラルネットワークを用いたトラヒック予測のための時空間モデリング

Unified Spatio-Temporal Modeling for Traffic Forecasting using Graph Neural Network ( http://arxiv.org/abs/2104.12518v2 )

ライセンス: CC BY 4.0
Amit Roy, Kashob Kumar Roy, Amin Ahsan Ali, M Ashraful Amin and A K M Mahbubur Rahman(参考訳) 交通強度を予測するディープラーニングモデルの研究は、交通データ内の複雑な時空間関係を捉える能力から、近年大きな注目を集めている。 しかし、最先端のほとんどのアプローチは空間のみを設計している(例)。 グラフニューラルネットワーク)と時間のみ(例えば、) リカレントニューラルネットワーク) 空間的特徴と時間的特徴を別々に抽出するモジュール。 しかし、そのような分解された加群との複素時空間関係を抽出することはより効果的であると主張する。 また、既存の作品の多くは、その日の1時間前の交通データのみに基づいて、特定の時間間隔の交通強度を予測する。 これにより、データの最後の1時間に存在するかもしれない日毎/週毎のパターンを無視する。 そこで我々は,時空間グラフのスペクトルグラフ畳み込みの助けを借りて,異なるタイムスタンプノード間の直接情報伝搬を通じて空間的および時間的アグリゲーションを行うトラフィック予測のための統一時空間グラフ畳み込みネットワーク (USTGCN) を提案する。 さらに、過去の日々のパターンや現在の交通データの現在のパターンもキャプチャする。 最後に,本研究の有効性を実験分析により検証し,本モデルがPMS(Performance Measurement System)の3つのベンチマークデータセットにおいて,最先端のパフォーマンスを上回ることを示す。 さらに,提案したUSTGCNモデルにより,トレーニング時間を大幅に短縮する。

Research in deep learning models to forecast traffic intensities has gained great attention in recent years due to their capability to capture the complex spatio-temporal relationships within the traffic data. However, most state-of-the-art approaches have designed spatial-only (e.g. Graph Neural Networks) and temporal-only (e.g. Recurrent Neural Networks) modules to separately extract spatial and temporal features. However, we argue that it is less effective to extract the complex spatio-temporal relationship with such factorized modules. Besides, most existing works predict the traffic intensity of a particular time interval only based on the traffic data of the previous one hour of that day. And thereby ignores the repetitive daily/weekly pattern that may exist in the last hour of data. Therefore, we propose a Unified Spatio-Temporal Graph Convolution Network (USTGCN) for traffic forecasting that performs both spatial and temporal aggregation through direct information propagation across different timestamp nodes with the help of spectral graph convolution on a spatio-temporal graph. Furthermore, it captures historical daily patterns in previous days and current-day patterns in current-day traffic data. Finally, we validate our work's effectiveness through experimental analysis, which shows that our model USTGCN can outperform state-of-the-art performances in three popular benchmark datasets from the Performance Measurement System (PeMS). Moreover, the training time is reduced significantly with our proposed USTGCN model.
翻訳日:2021-04-29 11:06:53 公開日:2021-04-28
# (参考訳) 複雑な自然環境における小型目標運動検出のための注意と予測誘導視覚システム [全文訳有]

An Attention and Prediction Guided Visual System for Small Target Motion Detection in Complex Natural Environments ( http://arxiv.org/abs/2104.13018v2 )

ライセンス: CC BY 4.0
Hongxin Wang, Jiannan Zhao, Huatian Wang, Jigen Peng, Shigang Yue(参考訳) 複雑な自然環境における小さな目標運動検出は、自律ロボットにとって非常に難しい課題である。 驚くべきことに、昆虫の視覚系は、視界に数ピクセルの小さいターゲットであっても、仲間を検出し、獲物を追跡するのに非常に効果的に進化してきた。 小さな標的の動きに対する優れた感度は、stmd(small target motion detectors)と呼ばれる特殊なニューロンに依存している。 しかし、既存のstmdベースのモデルは視覚的なコントラストに大きく依存しており、小さなターゲットが常に隣接する背景と非常に低いコントラストを示す複雑な自然環境では不十分である。 本稿では,この限界を克服するための注意と予測のための視覚システムを提案する。 提案する視覚システムは,主にアテンションモジュール,STMDベースニューラルネットワーク,予測モジュールを含む3つのサブシステムから構成される。 注目モジュールは、入力画像の予測領域における潜在的小さなターゲットを探索し、複雑な背景に対するコントラストを高める。 stmdベースのニューラルネットワークは、コントラスト強調画像を受け取り、背景偽陽性から小さな移動目標を判別する。 予測モジュールは、検出された対象の将来の位置を予測し、注目モジュールの予測マップを生成する。 3つのサブシステムは、連続的に処理された情報を小さなターゲット検出のために特定の領域を活性化するリカレントアーキテクチャで接続される。 合成および実世界のデータセットに対する大規模な実験は、複雑な自然環境に対する小さな低コントラスト移動目標を検出するために提案された視覚システムの有効性と優位性を示す。

Small target motion detection within complex natural environment is an extremely challenging task for autonomous robots. Surprisingly, visual systems of insects have evolved to be highly efficient in detecting mates and tracking prey, even though targets are as small as a few pixels in visual field. The excellent sensitivity to small target motion relies on a class of specialized neurons called small target motion detectors (STMDs). However, existing STMD-based models are heavily dependent on visual contrast and perform poorly in complex natural environment where small targets always exhibit extremely low contrast to neighboring backgrounds. In this paper, we propose an attention and prediction guided visual system to overcome this limitation. The proposed visual system mainly consists of three subsystems, including an attention module, a STMD-based neural network, and a prediction module. The attention module searches for potential small targets in the predicted areas of input image and enhances their contrast to complex background. The STMD-based neural network receives the contrast-enhanced image and discriminates small moving targets from background false positives. The prediction module foresees future positions of the detected targets and generates a prediction map for the attention module. The three subsystems are connected in a recurrent architecture allowing information processed sequentially to activate specific areas for small target detection. Extensive experiments on synthetic and real-world datasets demonstrate the effectiveness and superiority of the proposed visual system for detecting small, low-contrast moving targets against complex natural environment.
翻訳日:2021-04-29 11:05:56 公開日:2021-04-28
# 自己学習による複雑な分布シフトへのイメージネットスケールモデルの適用

Adapting ImageNet-scale models to complex distribution shifts with self-learning ( http://arxiv.org/abs/2104.12928v2 )

ライセンス: Link先を確認
Evgenia Rusak, Steffen Schneider, Peter Gehler, Oliver Bringmann, Wieland Brendel and Matthias Bethge(参考訳) 近年のドメイン適応技術では,自己学習が重要な要素となっているが,堅牢性研究に共通するイメージネットスケールデータセットでは,まだ包括的に評価されていない。 ResNetとEfficientNetモデルに関する広範な実験では,教師と学生のネットワーク間の短い更新時間,ネットワークに分散する少数のアフィンパラメータの微調整,ロバストな分類からの手法を活用したラベルノイズ対策の3つのコンポーネントが,自己学習によるパフォーマンス向上に不可欠であることが判明した。 これらの知見を用いて、ImageNet-C (22.0% mCE)、ImageNet-R (17.4%エラー)、ImageNet-A (14.8%エラー)の大幅な改善結果を得る。 提案手法は, 提案するロバスト化手法と組み合わせることで, さらなる改善をもたらす。 自己学習は、トップ1エラーを、それ以上の進歩が期待できないポイントまで減らすことができる。 そこで私たちは、Visual Domain Adaptation Challenge 2019からデータセットを再使用し、そのサブセットを新しい堅牢性ベンチマーク(ImageNet-D)として使用しています。

While self-learning methods are an important component in many recent domain adaptation techniques, they are not yet comprehensively evaluated on ImageNet-scale datasets common in robustness research. In extensive experiments on ResNet and EfficientNet models, we find that three components are crucial for increasing performance with self-learning: (i) using short update times between the teacher and the student network, (ii) fine-tuning only few affine parameters distributed across the network, and (iii) leveraging methods from robust classification to counteract the effect of label noise. We use these insights to obtain drastically improved state-of-the-art results on ImageNet-C (22.0% mCE), ImageNet-R (17.4% error) and ImageNet-A (14.8% error). Our techniques yield further improvements in combination with previously proposed robustification methods. Self-learning is able to reduce the top-1 error to a point where no substantial further progress can be expected. We therefore re-purpose the dataset from the Visual Domain Adaptation Challenge 2019 and use a subset of it as a new robustness benchmark (ImageNet-D) which proves to be a more challenging dataset for all current state-of-the-art models (58.2% error) to guide future research efforts at the intersection of robustness and domain adaptation on ImageNet scale.
翻訳日:2021-04-29 10:38:19 公開日:2021-04-28
# AIが思った以上に難しい理由

Why AI is Harder Than We Think ( http://arxiv.org/abs/2104.12871v2 )

ライセンス: Link先を確認
Melanie Mitchell(参考訳) 1950年代以降、人工知能の分野は、楽観的な予測と大規模な投資(「AI春」)の期間と失望の時期、信頼の喪失、資金の削減(「AI冬」)の間に何度も循環してきた。 今日のAIの急激な進歩にもかかわらず、自動運転車やホームキーピングロボット、会話の仲間といった長年のテクノロジーの開発は、多くの人が予想していたよりもずっと難しいことが判明した。 このような繰り返しサイクルの1つの理由は、インテリジェンス自体の性質と複雑さに対する私たちの限られた理解である。 本稿では,AI研究者による一般的な仮定における4つの誤りについて述べる。 結論として、人間のような常識を身につける機械の長年の挑戦など、これらの誤解によって引き起こされたオープンな質問について論じる。

Since its beginning in the 1950s, the field of artificial intelligence has cycled several times between periods of optimistic predictions and massive investment ("AI spring") and periods of disappointment, loss of confidence, and reduced funding ("AI winter"). Even with today's seemingly fast pace of AI breakthroughs, the development of long-promised technologies such as self-driving cars, housekeeping robots, and conversational companions has turned out to be much harder than many people expected. One reason for these repeating cycles is our limited understanding of the nature and complexity of intelligence itself. In this paper I describe four fallacies in common assumptions made by AI researchers, which can lead to overconfident predictions about the field. I conclude by discussing the open questions spurred by these fallacies, including the age-old challenge of imbuing machines with humanlike common sense.
翻訳日:2021-04-29 10:37:49 公開日:2021-04-28
# 深部構造モデルを用いた実用的広角画像補正

Practical Wide-Angle Portraits Correction with Deep Structured Models ( http://arxiv.org/abs/2104.12464v3 )

ライセンス: Link先を確認
Jing Tan, Shan Zhao, Pengfei Xiong, Jiangyu Liu, Haoqiang Fan, Shuaicheng Liu(参考訳) 広角の肖像画はしばしば拡張された景色を楽しめる。 しかし、特に、背景が歪んで顔が伸びているグループ肖像画を撮影する際には、視線歪みが顕著である。 本稿では,このような人工物を自由撮影写真から取り除くための,最初のディープラーニング手法を提案する。 具体的には、入力として広角ポートレートが与えられた場合、LineNet、ShapeNet、トランジションモジュール(TM)で構成されるカスケードネットワークを構築し、背景の視点歪みを補正し、顔領域の立体投影に適応し、これら2つのプロジェクション間のスムーズな遷移を実現する。 ネットワークをトレーニングするために、アイデンティティ、シーン、カメラモジュールに大きな多様性を持つ最初の視点ポートレートデータセットを構築しました。 定量的評価には,ラインの整合性と面の整合性という2つの新しい指標を導入する。 従来の最先端手法と比較して,カメラの歪みパラメータは不要である。 我々は,従来の最先端手法よりも質的,定量的に優れていることを示す。

Wide-angle portraits often enjoy expanded views. However, they contain perspective distortions, especially noticeable when capturing group portrait photos, where the background is skewed and faces are stretched. This paper introduces the first deep learning based approach to remove such artifacts from freely-shot photos. Specifically, given a wide-angle portrait as input, we build a cascaded network consisting of a LineNet, a ShapeNet, and a transition module (TM), which corrects perspective distortions on the background, adapts to the stereographic projection on facial regions, and achieves smooth transitions between these two projections, accordingly. To train our network, we build the first perspective portrait dataset with a large diversity in identities, scenes and camera modules. For the quantitative evaluation, we introduce two novel metrics, line consistency and face congruence. Compared to the previous state-of-the-art approach, our method does not require camera distortion parameters. We demonstrate that our approach significantly outperforms the previous state-of-the-art approach both qualitatively and quantitatively.
翻訳日:2021-04-29 10:37:35 公開日:2021-04-28