このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210111となっている論文です。

PDF登録状況(公開日: 20210111)

TitleAuthorsAbstract論文公表日・翻訳日
# 分子特性予測と薬物発見のための高度なグラフおよびシーケンスニューラルネットワーク

Advanced Graph and Sequence Neural Networks for Molecular Property Prediction and Drug Discovery ( http://arxiv.org/abs/2012.01981v2 )

ライセンス: Link先を確認
Zhengyang Wang, Meng Liu, Youzhi Luo, Zhao Xu, Yaochen Xie, Limei Wang, Lei Cai, Shuiwang Ji(参考訳) 分子の性質はそれらの機能を示すため、多くの用途で有用である。 実験的なアプローチに代わる費用対効果として、分子特性を予測する計算手法が勢いを増し、成功している。 しかし、現在このタスクには包括的なツールやメソッドが欠けている。 ここでは,分子特性予測と創薬のための様々な計算モデルと分子表現にまたがる総合的な機械学習ツールである molecularkit を開発した。 具体的には、分子をグラフとシーケンスの両方として表現する。 これらの表現に基づいて構築されたMoeculeKitには、ディープラーニングと、グラフとシーケンスデータのための従来の機械学習方法の両方が含まれている。 分子グラフや配列から学ぶための新しい深層モデルを提案し,開発する。 したがって、MoleculeKitは包括的なツールとして機能するだけでなく、新しい高度なグラフやシーケンス学習手法の開発にも貢献している。 オンラインおよびオフラインの抗生物質発見と分子特性予測のタスクの結果から、MoneculeKitは以前の方法よりも一貫した改善を実現していることがわかる。

Properties of molecules are indicative of their functions and thus are useful in many applications. As a cost-effective alternative to experimental approaches, computational methods for predicting molecular properties are gaining increasing momentum and success. However, there lacks a comprehensive collection of tools and methods for this task currently. Here we develop the MoleculeKit, a suite of comprehensive machine learning tools spanning different computational models and molecular representations for molecular property prediction and drug discovery. Specifically, MoleculeKit represents molecules as both graphs and sequences. Built on these representations, MoleculeKit includes both deep learning and traditional machine learning methods for graph and sequence data. Noticeably, we propose and develop novel deep models for learning from molecular graphs and sequences. Therefore, MoleculeKit not only serves as a comprehensive tool, but also contributes towards developing novel and advanced graph and sequence learning methodologies. Results on both online and offline antibiotics discovery and molecular property prediction tasks show that MoleculeKit achieves consistent improvements over prior methods.
翻訳日:2021-05-25 03:43:39 公開日:2021-01-11
# パーソナライズされた選好注意を伴う原点認識次決定勧告

Origin-Aware Next Destination Recommendation with Personalized Preference Attention ( http://arxiv.org/abs/2012.01915v3 )

ライセンス: Link先を確認
Nicholas Lim, Bryan Hooi, See-Kiong Ng, Xueou Wang, Yong Liang Goh, Renrong Weng, Rui Tan(参考訳) タクシーや配車サービスの交通分野においては、現在地に応じてパーソナライズされた目的地を推薦する次の目的地勧告が重要な課題である。 しかし、近年の勧告では、この原点認識性は満たされておらず、原点情報なしでは、歴史的目的地からしか学ばない。 これにより,ユーザの現在位置に基づく起点認識による推薦の学習や予測が不可能になり,準最適性能と現実の実践性が低下する。 そこで本研究では,次の目的地推薦課題について検討する。 そこで本稿では,まず局所的および時間的要因からオリジン・オリジン(oo),デスティネーション(dd),オリジン・デスティネーション(od)の関係を学習するための空間-時間的オリジン・デスティネーション・パーソナライズド・パーソナライズド・パーソナライズド・パーソナライズド・パーソナライズド・アテンション・アテンション・アテンション(stod-ppa)エンコーダ・デコーダモデルを提案する。 実世界の7つのトラクタデータセットにおける実験結果から,本モデルがベースラインおよび最先端の手法を大幅に上回ることがわかった。

Next destination recommendation is an important task in the transportation domain of taxi and ride-hailing services, where users are recommended with personalized destinations given their current origin location. However, recent recommendation works do not satisfy this origin-awareness property, and only consider learning from historical destination locations, without origin information. Thus, the resulting approaches are unable to learn and predict origin-aware recommendations based on the user's current location, leading to sub-optimal performance and poor real-world practicality. Hence, in this work, we study the origin-aware next destination recommendation task. We propose the Spatial-Temporal Origin-Destination Personalized Preference Attention (STOD-PPA) encoder-decoder model to learn origin-origin (OO), destination-destinat ion (DD), and origin-destination (OD) relationships by first encoding both origin and destination sequences with spatial and temporal factors in local and global views, then decoding them through personalized preference attention to predict the next destination. Experimental results on seven real-world user trajectory taxi datasets show that our model significantly outperforms baseline and state-of-the-art methods.
翻訳日:2021-05-23 15:05:40 公開日:2021-01-11
# (参考訳) 新型コロナウイルスパンデミック時の中国におけるオンライン噂の拡散メカニズムと影響 [全文訳有]

Spread Mechanism and Influence Measurement of Online Rumors in China During the COVID-19 Pandemic ( http://arxiv.org/abs/2012.02446v2 )

ライセンス: CC BY 4.0
Yiou Lin, Hang Lei and Yu Deng(参考訳) 2020年初頭、新型コロナウイルス感染症(COVID-19)が世界中を席巻した。 さらに、新型コロナウイルスの感染拡大に伴うネット上の噂は、公衆衛生や社会安定に対する人々のパニックを増した。 現在、オンラインの噂の拡散の理解と抑制は緊急の課題である。 そこで我々は,噂の拡散メカニズムを解析し,新たなインサイダーの速度による噂の影響を定量化する手法を提案する。 噂の探索周波数は、新しいインサイダーの観測変数として使用される。 指数分布に適合する探索周波数に対して、ピーク係数と減衰係数を算出する。 いくつかの噂機能を設計し,上記の2つの係数を予測可能なラベルとして用いた。 損失関数として平均二乗誤差(mse)を用いた5倍クロスバリデーション実験により,ピーク係数の予測には決定木が適しており,減衰係数の予測には線形回帰モデルが理想的であった。 特徴分析の結果,発生係数には前駆的特徴が最も重要であり,位置情報と噂実体情報が減衰係数には重要であった。 一方、流行を誘発する特徴は、噂の流布が続く中、しばしば有害であった。 同時に、不安は重要なうわさを引き起こした。 最後に,変換器を用いた双方向エンコーダ表現(BERT)モデルを用いて,ディープラーニング技術を用いて予測損失を低減する方法について論じる。

In early 2020, the Corona Virus Disease 2019 (COVID-19) pandemic swept the world.In China, COVID-19 has caused severe consequences. Moreover, online rumors during the COVID-19 pandemic increased people's panic about public health and social stability. At present, understanding and curbing the spread of online rumors is an urgent task. Therefore, we analyzed the rumor spreading mechanism and propose a method to quantify a rumors' influence by the speed of new insiders. The search frequency of the rumor is used as an observation variable of new insiders. The peak coefficient and the attenuation coefficient are calculated for the search frequency, which conforms to the exponential distribution. We designed several rumor features and used the above two coefficients as predictable labels. A 5-fold cross-validation experiment using the mean square error (MSE) as the loss function showed that the decision tree was suitable for predicting the peak coefficient, and the linear regression model was ideal for predicting the attenuation coefficient. Our feature analysis showed that precursor features were the most important for the outbreak coefficient, while location information and rumor entity information were the most important for the attenuation coefficient. Meanwhile, features that were conducive to the outbreak were usually harmful to the continued spread of rumors. At the same time, anxiety was a crucial rumor causing factor. Finally, we discuss how to use deep learning technology to reduce the forecast loss by using the Bidirectional Encoder Representations from Transformers (BERT) model.
翻訳日:2021-05-23 09:16:12 公開日:2021-01-11
# 自動利得熱赤外カメラのオンライン測光校正

Online Photometric Calibration of Automatic Gain Thermal Infrared Cameras ( http://arxiv.org/abs/2012.14292v2 )

ライセンス: Link先を確認
Manash Pratim Das, Larry Matthies and Shreyansh Daftry(参考訳) サーマル赤外線カメラは、解像度と可搬性の向上により、ロボットビジョン、産業検査、医用イメージングなどの様々な用途でますます使われている。 しかし、電子光学画像のために開発された従来のコンピュータビジョン技術の性能は、2つの大きな理由により熱領域に直接変換されない:これらのアルゴリズムは保持する光量仮定を必要とし、rgbカメラの測光キャリブレーションの方法は、データ取得とセンサー現象学の違いのため、熱赤外カメラに適用できない。 本稿では,この方向への一歩を踏み出し,熱赤外カメラのオンライン光度校正のための新しいアルゴリズムを提案する。 提案手法は特定のドライバ/ハードウェアのサポートを必要としないため,市販の熱赤外線カメラにも適用可能である。 本稿では,視覚オドメトリとslamアルゴリズムの文脈でこれを示し,標準ベンチマークデータセットと自然環境におけるサーマル赤外線カメラを用いた実世界の実地実験の両方に対して,本システムの有効性を実証する。

Thermal infrared cameras are increasingly being used in various applications such as robot vision, industrial inspection and medical imaging, thanks to their improved resolution and portability. However, the performance of traditional computer vision techniques developed for electro-optical imagery does not directly translate to the thermal domain due to two major reasons: these algorithms require photometric assumptions to hold, and methods for photometric calibration of RGB cameras cannot be applied to thermal-infrared cameras due to difference in data acquisition and sensor phenomenology. In this paper, we take a step in this direction, and introduce a novel algorithm for online photometric calibration of thermal-infrared cameras. Our proposed method does not require any specific driver/hardware support and hence can be applied to any commercial off-the-shelf thermal IR camera. We present this in the context of visual odometry and SLAM algorithms, and demonstrate the efficacy of our proposed system through extensive experiments for both standard benchmark datasets, and real-world field tests with a thermal-infrared camera in natural outdoor environments.
翻訳日:2021-05-16 20:46:32 公開日:2021-01-11
# (参考訳) 持続母音発声の音響解析に基づくALS患者の分類

Classification of ALS patients based on acoustic analysis of sustained vowel phonations ( http://arxiv.org/abs/2012.07347v2 )

ライセンス: CC BY 4.0
Maxim Vashkevich and Yulia Rushkevich(参考訳) 筋萎縮性側索硬化症(ALS)は,急速に進行する神経疾患である。 ALSの初期の症状は、摂食と発話が困難である。 しかし、音声症状や音声症状の早期の音響症状は非常に変化しており、人間の専門医や自動システムによる検出は非常に困難である。 本研究では,健常者とALS患者を分離する自動システムのための音声評価手法を提案する。 特に,als患者の自動分類を行うために,母音/a/,/i/の持続音韻分析に焦点をあてた。 mfcc、formants、jitter、shimmer、vibrato、ppe、gne、hnrなど、幅広い音響特徴がある。 分析されました また,母音の高調波構造を特徴付ける新しい音響特徴のセットを提案する。 これらの特徴の計算はピッチ同期音声解析に基づく。 線形判別分析(LDA)を用いて,ALS患者と健常者による発声の分類を行った。 LDAモデルに最適な特徴サブセットを見つけるために,いくつかの特徴選択アルゴリズムが試験された。 実験の結果、LASSO特徴選択アルゴリズムによって選択された32の特徴に基づく最も成功したLDAモデルは、99.3%の感度と99.9%の特異性で99.7%の精度で達成された。 少数の特徴を持つ分類器の中で、89.0%の精度(感度87.5%、特異度90.4%)を持つ5つの特徴を持つLDAモデルを強調することができる。

Amyotrophic lateral sclerosis (ALS) is incurable neurological disorder with rapidly progressive course. Common early symptoms of ALS are difficulty in swallowing and speech. However, early acoustic manifestation of speech and voice symptoms is very variable, that making their detection very challenging, both by human specialists and automatic systems. This study presents an approach to voice assessment for automatic system that separates healthy people from patients with ALS. In particular, this work focus on analysing of sustain phonation of vowels /a/ and /i/ to perform automatic classification of ALS patients. A wide range of acoustic features such as MFCC, formants, jitter, shimmer, vibrato, PPE, GNE, HNR, etc. were analysed. We also proposed a new set of acoustic features for characterizing harmonic structure of the vowels. Calculation of these features is based on pitch synchronized voice analysis. A linear discriminant analysis (LDA) was used to classify the phonation produced by patients with ALS and those by healthy individuals. Several algorithms of feature selection were tested to find optimal feature subset for LDA model. The study's experiments show that the most successful LDA model based on 32 features picked out by LASSO feature selection algorithm attains 99.7% accuracy with 99.3% sensitivity and 99.9% specificity. Among the classifiers with a small number of features, we can highlight LDA model with 5 features, which has 89.0% accuracy (87.5% sensitivity and 90.4% specificity).
翻訳日:2021-05-09 05:13:17 公開日:2021-01-11
# (参考訳) ProLab: 知覚的に均一な投影色座標系 [全文訳有]

ProLab: perceptually uniform projective colour coordinate system ( http://arxiv.org/abs/2012.07653v2 )

ライセンス: CC BY 4.0
Ivan A. Konovalenko, Anna A. Smagina, Dmitry P. Nikolaev and Petr P. Nikolaev(参考訳) 本稿では,CIE XYZの3次元射影変換から導出した新しい色座標系であるproLabを提案する。 本稿では,CIEDE2000色差式に関してSTRESS法で評価された知覚的均一性に基づき,広く使用されているCIELAB座標系よりもはるかに優れていることを示す。 同時に、線型色空間の標準となる色度推定の角誤差は、射影変換が多様体の線型性を保存するため、proLabでも使用できる。 線形空間とは異なり、異なる色相に対する角誤差はプロラブ内の人間の色識別閾値に従って正規化される。 また,ProLabのショットノイズは,CAM16-UCSや他の標準色空間よりも均等であることを示す。 これにより prolab は線形色解析を行うための便利な座標系となる。

In this work, we propose proLab: a new colour coordinate system derived as a 3D projective transformation of CIE XYZ. We show that proLab is far ahead of the widely used CIELAB coordinate system (though inferior to the modern CAM16-UCS) according to perceptual uniformity evaluated by the STRESS metric in reference to the CIEDE2000 colour difference formula. At the same time, angular errors of chromaticity estimation that are standard for linear colour spaces can also be used in proLab since projective transformations preserve the linearity of manifolds. Unlike in linear spaces, angular errors for different hues are normalized according to human colour discrimination thresholds within proLab. We also demonstrate that shot noise in proLab is more homoscedastic than in CAM16-UCS or other standard colour spaces. This makes proLab a convenient coordinate system in which to perform linear colour analysis.
翻訳日:2021-05-08 22:47:32 公開日:2021-01-11
# (参考訳) ストロークGAN:ストロークエンコーディングによる中国のフォント生成におけるモード崩壊の低減 [全文訳有]

StrokeGAN: Reducing Mode Collapse in Chinese Font Generation via Stroke Encoding ( http://arxiv.org/abs/2012.08687v2 )

ライセンス: CC BY 4.0
Jinshan Zeng, Qi Chen, Yunxin Liu, Mingwen Wang, Yuan Yao(参考訳) スタイリッシュな中国語フォントの生成は多くのアプリケーションにおいて重要な問題である。 既存の生成手法のほとんどは、特にgan(generative adversarial networks)に基づく深層生成モデルに基づいている。 しかし、これらの深層生成モデルはモード崩壊問題に悩まされ、生成した結果の多様性と品質が著しく低下する。 本稿では,漢字のキーモード情報を取り込んで,中国語フォント生成のための一般的な深層生成モデルである cyclegan に組み込む1ビットストローク符号化を提案する。 そこで本研究では,ストロークエンコーディングが漢字のモード情報を含むという観測を主目的とした,効率的なストロークガン法を提案する。 関連する生成文字の1ビットストローク符号化を再構築するために、識別器に課されるストロークエンコード復元損失を導入する。 このような1ビットのストロークエンコーディングとストロークエンコード再構成損失により、CycleGANのモード崩壊問題を大幅に軽減し、ストロークの保存と生成された文字の多様性を改善した。 StrokeGANの有効性は、異なるフォントを持つ9つのデータセットに対して一連の生成タスクによって実証される。 数値的な結果から,StrokeGANはコンテントや認識精度,ストロークエラーなど,最先端の手法よりも優れ,より現実的な文字を生成することがわかった。

The generation of stylish Chinese fonts is an important problem involved in many applications. Most of existing generation methods are based on the deep generative models, particularly, the generative adversarial networks (GAN) based models. However, these deep generative models may suffer from the mode collapse issue, which significantly degrades the diversity and quality of generated results. In this paper, we introduce a one-bit stroke encoding to capture the key mode information of Chinese characters and then incorporate it into CycleGAN, a popular deep generative model for Chinese font generation. As a result we propose an efficient method called StrokeGAN, mainly motivated by the observation that the stroke encoding contains amount of mode information of Chinese characters. In order to reconstruct the one-bit stroke encoding of the associated generated characters, we introduce a stroke-encoding reconstruction loss imposed on the discriminator. Equipped with such one-bit stroke encoding and stroke-encoding reconstruction loss, the mode collapse issue of CycleGAN can be significantly alleviated, with an improved preservation of strokes and diversity of generated characters. The effectiveness of StrokeGAN is demonstrated by a series of generation tasks over nine datasets with different fonts. The numerical results demonstrate that StrokeGAN generally outperforms the state-of-the-art methods in terms of content and recognition accuracies, as well as certain stroke error, and also generates more realistic characters.
翻訳日:2021-05-07 03:20:29 公開日:2021-01-11
# (参考訳) VIS30K:IEEE Visualization Conferenceの図表と表のコレクション [全文訳有]

VIS30K: A Collection of Figures and Tables from IEEE Visualization Conference Publications ( http://arxiv.org/abs/2101.01036v3 )

ライセンス: CC BY 4.0
Jian Chen and Meng Ling and Rui Li and Petra Isenberg and Tobias Isenberg and Michael Sedlmair and Torsten M\"oller and Robert S. Laramee and Han-Wei Shen and Katharina W\"unsche and Qiru Wang(参考訳) IEEE Visualization Conferenceシリーズ(Vis, SciVis, InfoVis, VAST)の各トラックから30年分の数字とテーブルを表現した29,689枚のVIS30Kデータセットを提示する。 VIS30Kの可視化における科学文献の包括的カバレッジは、分野の進歩を反映するだけでなく、研究者が最先端の進化を研究し、グラフィカルコンテンツに基づいて関連する仕事を見つけることを可能にする。 本稿では,畳み込みニューラルネットワーク(CNN)とキュレーションを組み合わせたデータセットと半自動収集プロセスについて述べる。 図と表を半自動で抽出することで、画像が見過ごされ、誤って抽出されることを検証できます。 品質をさらに向上するため、初期のieeeビジュアライゼーション論文から高品質な数値をピア検索するプロセスに取り組みました。 また, 著者名, 論文キーワード, タイトルと要約によるVIS30Kの探索と探索を容易にするウェブベースのツールであるVISImageNavigator (VIN, visimagenavigator.gi thub.io) を寄贈した。

We present the VIS30K dataset, a collection of 29,689 images that represents 30 years of figures and tables from each track of the IEEE Visualization conference series (Vis, SciVis, InfoVis, VAST). VIS30K's comprehensive coverage of the scientific literature in visualization not only reflects the progress of the field but also enables researchers to study the evolution of the state-of-the-art and to find relevant work based on graphical content. We describe the dataset and our semi-automatic collection process, which couples convolutional neural networks (CNN) with curation. Extracting figures and tables semi-automatically allows us to verify that no images are overlooked or extracted erroneously. To improve quality further, we engaged in a peer-search process for high-quality figures from early IEEE Visualization papers. With the resulting data, we also contribute VISImageNavigator (VIN, visimagenavigator.gi thub.io), a web-based tool that facilitates searching and exploring VIS30K by author names, paper keywords, title and abstract, and years.
翻訳日:2021-04-26 10:34:00 公開日:2021-01-11
# インドにおけるCOVID-19ロックダウン中のテレビシリーズ再放送に対する反応の分析

Analyzing the response to TV serials retelecast during COVID19 lockdown in India ( http://arxiv.org/abs/2101.02628v2 )

ライセンス: Link先を確認
Sandeep Ranjan(参考訳) テレビシリーズは人気のあるエンターテイメントの源です。 現在進行中のcovid-19ロックダウンは、公衆のメンタルヘルスを悪化させる可能性が高い。 インド政府は2020年3月28日から7月31日まで、公共放送のドアダーシャンで「yesteryears popular tv serials」の再放送を開始した。 doordarshanハッシュタグに対応するツイートはデータセットを作成するためにマイニングされました。 この実験は、ツイートデータセットの感情スコアを計算し、テレビシリーズの再放送に対する大衆の反応を分析することを目的としている。 データセットの平均感情スコアは0.65で、肯定的なツイートの64.58%は、Doordarshans retelecast決定の受け入れを示している。 感情分析の結果は、一般の心のポジティブな状態も反映している。

TV serials are a popular source of entertainment. The ongoing COVID19 lockdown has a high probability of degrading the publics mental health. The Government of India started the retelecast of yesteryears popular TV serials on public broadcaster Doordarshan from 28th March 2020 to 31st July 2020. Tweets corresponding to the Doordarshan hashtag were mined to create a dataset. The experiment aims to analyze the publics response to the retelecast of TV serials by calculating the sentiment score of the tweet dataset. Datasets mean sentiment score of 0.65 and high share 64.58% of positive tweets signifies the acceptance of Doordarshans retelecast decision. The sentiment analysis result also reflects the positive state of mind of the public.
翻訳日:2021-04-26 07:13:35 公開日:2021-01-11
# (参考訳) IIRC:Incrmental Implicitly-Refined Classification

IIRC: Incremental Implicitly-Refined Classification ( http://arxiv.org/abs/2012.12477v2 )

ライセンス: CC0 1.0
Mohamed Abdelsalam, Mojtaba Faramarzi, Shagun Sodhani, Sarath Chandar(参考訳) irc(incremental implicitly-refined classi-fication)という,クラス単位のバッチが2つの粒度レベルを持つ,クラスインクリメンタル学習のセットアップの拡張について紹介する。 すなわち、それぞれのサンプルは、"bear"のような高レベル(粗い)ラベルと、"polar bear"のような低レベル(細い)ラベルを持つことができる。 一度に1つのラベルしか提供されておらず、モデルはすでに学習している場合は、別のラベルを見つけなければなりません。 この設定は、学習者が通常、同じエンティティのファミリーと複数回対話し、それらについてより粒度の大きいことを発見しながら、以前の知識を忘れないようにしようとする実際のシナリオとより一致している。 さらに、この設定により、既存の設定では容易に対処できない重要な生涯学習課題に対するモデルの評価が可能になる。 これらの課題は、「もしモデルが1つのタスクでクラスクマに訓練され、別のタスクでホッキョクグマに訓練されたら、それはクマの概念を忘れるのか、ホッキョクグマがまだクマであることを正しく推測するのか?」という例に動機づけられる。 そしてそれは、ホッキョクグマのラベルを他のクマの品種と誤って関連付けるだろうか? 我々は,IIRCセットアップ上でモデルを評価するための標準ベンチマークを開発する。 最先端の生涯学習アルゴリズムをいくつか評価し,その強みと限界を強調する。 例えば、蒸留法は比較的よく機能するが、画像ごとにラベルが多すぎることを誤って予測する傾向がある。 提案された設定とベンチマークが、実践者に有意義な問題設定を提供することを期待しています。

We introduce the "Incremental Implicitly-Refined Classi-fication (IIRC)" setup, an extension to the class incremental learning setup where the incoming batches of classes have two granularity levels. i.e., each sample could have a high-level (coarse) label like "bear" and a low-level (fine) label like "polar bear". Only one label is provided at a time, and the model has to figure out the other label if it has already learnfed it. This setup is more aligned with real-life scenarios, where a learner usually interacts with the same family of entities multiple times, discovers more granularity about them, while still trying not to forget previous knowledge. Moreover, this setup enables evaluating models for some important lifelong learning challenges that cannot be easily addressed under the existing setups. These challenges can be motivated by the example "if a model was trained on the class bear in one task and on polar bear in another task, will it forget the concept of bear, will it rightfully infer that a polar bear is still a bear? and will it wrongfully associate the label of polar bear to other breeds of bear?". We develop a standardized benchmark that enables evaluating models on the IIRC setup. We evaluate several state-of-the-art lifelong learning algorithms and highlight their strengths and limitations. For example, distillation-based methods perform relatively well but are prone to incorrectly predicting too many labels per image. We hope that the proposed setup, along with the benchmark, would provide a meaningful problem setting to the practitioners
翻訳日:2021-04-26 05:36:05 公開日:2021-01-11
# (参考訳) 線形システムの確率的反復法

Probabilistic Iterative Methods for Linear Systems ( http://arxiv.org/abs/2012.12615v2 )

ライセンス: CC BY 4.0
Jon Cockayne and Ilse C.F. Ipsen and Chris J. Oates and Tim W. Reid(参考訳) 本稿では、非特異線型系 $\mathbf{A} \mathbf{x}_* = \mathbf{b}$ の解 $\mathbf{x}_* \in \mathbb{R}^d$ を近似する反復法に関する確率論的視点を示す。 このアプローチでは、$\mathbb{r}^d$ の標準的な反復法が持ち上げられ、確率分布 $\mathcal{p}(\mathbb{r}^d)$ の空間に作用する。 古典的には、反復法は$\mathbf{x}_m$ に収束する近似の列 $\mathbf{x}_m$ を生成する。 この論文で提案された反復的手法の出力は、代わりに確率分布の列 $\mu_m \in \mathcal{p}(\mathbb{r}^d)$ である。 分布出力はともに$\mathbf{x}_*$に対して「最良の推算」を提供し、例えば$\mu_m$の平均と、その値が正確に決定されていないときに$\mathbf{x}_*$の確率的不確実性定量化を提供する。 理論解析は定常線形反復法の原型として提供される。 この設定では、$\mu_m$ の縮小率と$\mathbf{x}_*$ の原子測度と不確かさの定量化の性質の両方を特徴付ける。 最後に,確率的反復的手法によって得られる解の不確実性に対する洞察を強調する経験的例を示す。

This paper presents a probabilistic perspective on iterative methods for approximating the solution $\mathbf{x}_* \in \mathbb{R}^d$ of a nonsingular linear system $\mathbf{A} \mathbf{x}_* = \mathbf{b}$. In the approach a standard iterative method on $\mathbb{R}^d$ is lifted to act on the space of probability distributions $\mathcal{P}(\mathbb{R}^d)$. Classically, an iterative method produces a sequence $\mathbf{x}_m$ of approximations that converge to $\mathbf{x}_*$. The output of the iterative methods proposed in this paper is, instead, a sequence of probability distributions $\mu_m \in \mathcal{P}(\mathbb{R}^d)$. The distributional output both provides a "best guess" for $\mathbf{x}_*$, for example as the mean of $\mu_m$, and also probabilistic uncertainty quantification for the value of $\mathbf{x}_*$ when it has not been exactly determined. Theoretical analysis is provided in the prototypical case of a stationary linear iterative method. In this setting we characterise both the rate of contraction of $\mu_m$ to an atomic measure on $\mathbf{x}_*$ and the nature of the uncertainty quantification being provided. We conclude with an empirical illustration that highlights the insight into solution uncertainty that can be provided by probabilistic iterative methods.
翻訳日:2021-04-26 01:36:32 公開日:2021-01-11
# (参考訳) ベイズ混合密度ネットワークによる確率的電力負荷予測

Probabilistic electric load forecasting through Bayesian Mixture Density Networks ( http://arxiv.org/abs/2012.14389v2 )

ライセンス: CC BY 4.0
Alessandro Brusaferri and Matteo Matteucci and Stefano Spinelli and Andrea Vitali(参考訳) 確率的負荷予測(PLF)は、スマートエネルギーグリッドの効率的な管理に必要な拡張ツールチェーンの重要なコンポーネントである。 ニューラルネットワークは、ターゲットと条件変数の複雑な関係の高度に柔軟なマッピングをサポートすることにより、予測性能の向上が広く検討されている。 しかし、このようなブラックボックスモデルから包括的な予測の不確実性を得ることは依然として困難で未解決な問題である。 本研究では,ベイズ混合密度ネットワークを用いた新しいplf手法を提案する。 aleatoric と epistemic uncertainty source の両方がモデル予測の中に包含され、入力特徴に応じて、エンドツーエンドのトレーニングフレームワーク内で一般的な条件密度を推測する。 後方分布の信頼性および計算スケーラブルな推定を実現するため,平均場変動推定と深層アンサンブルを統合した。 家庭の短期負荷予測タスクにおいて, 異なる動作条件下で頑健な性能を実現するための提案手法の有効性を示す実験を行った。

Probabilistic load forecasting (PLF) is a key component in the extended tool-chain required for efficient management of smart energy grids. Neural networks are widely considered to achieve improved prediction performances, supporting highly flexible mappings of complex relationships between the target and the conditioning variables set. However, obtaining comprehensive predictive uncertainties from such black-box models is still a challenging and unsolved problem. In this work, we propose a novel PLF approach, framed on Bayesian Mixture Density Networks. Both aleatoric and epistemic uncertainty sources are encompassed within the model predictions, inferring general conditional densities, depending on the input features, within an end-to-end training framework. To achieve reliable and computationally scalable estimators of the posterior distributions, both Mean Field variational inference and deep ensembles are integrated. Experiments have been performed on household short-term load forecasting tasks, showing the capability of the proposed method to achieve robust performances in different operating conditions.
翻訳日:2021-04-25 23:11:47 公開日:2021-01-11
# 普遍的対向摂動における支配クラスの解析

Analysis of Dominant Classes in Universal Adversarial Perturbations ( http://arxiv.org/abs/2012.14352v2 )

ライセンス: Link先を確認
Jon Vadillo and Roberto Santana and Jose A. Lozano(参考訳) ディープニューラルネットワークが敵の例に騙されやすい理由は、まだ議論の余地がある。 実際、多くの異なる戦略が敵の攻撃を効率的に発生させるのに使えるが、その一部は異なる理論的正当化に依存している。 これらの戦略のうち、普遍的(入力非依存)摂動は、摂動が適用される入力とは独立してネットワークを騙す能力があるため、特に興味深い。 本稿では,これまで文献で報告されてきた普遍摂動の興味をそそられる現象について検討するが,その正当性は証明されていない: 普遍摂動は,その摂動の生成中にその挙動が特定されていない場合でも,ほとんどの入力に対して予測されたクラスを1つの(支配的な)クラスに変更する。 本研究は,この現象の原因を正当化するために,音声領域における音声コマンド分類問題を用いて,複数の仮説を提案し,実験的に検証する。 本解析では,普遍摂動の興味深い性質を明らかにし,このような攻撃を発生させる新しい手法を提案し,幾何学的およびデータ的観点から支配的クラスを説明する。

The reasons why Deep Neural Networks are susceptible to being fooled by adversarial examples remains an open discussion. Indeed, many different strategies can be employed to efficiently generate adversarial attacks, some of them relying on different theoretical justifications. Among these strategies, universal (input-agnostic) perturbations are of particular interest, due to their capability to fool a network independently of the input in which the perturbation is applied. In this work, we investigate an intriguing phenomenon of universal perturbations, which has been reported previously in the literature, yet without a proven justification: universal perturbations change the predicted classes for most inputs into one particular (dominant) class, even if this behavior is not specified during the creation of the perturbation. In order to justify the cause of this phenomenon, we propose a number of hypotheses and experimentally test them using a speech command classification problem in the audio domain as a testbed. Our analyses reveal interesting properties of universal perturbations, suggest new methods to generate such attacks and provide an explanation of dominant classes, under both a geometric and a data-feature perspective.
翻訳日:2021-04-19 11:00:10 公開日:2021-01-11
# (参考訳) 診断のためのサブタイプ非教師付きドメイン適応 [全文訳有]

Subtype-aware Unsupervised Domain Adaptation for Medical Diagnosis ( http://arxiv.org/abs/2101.00318v2 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Xiongchang Liu, Bo Hu, Wenxuan Ji, Fangxu Xing, Jun Lu, Jane You, C.-C. Jay Kuo, Georges El Fakhri, Jonghye Woo(参考訳) 教師なしドメイン適応(UDA)の最近の進歩は、転送可能な原型学習がクラス条件アライメントの強力な手段であることを示している。 しかし、クロスドメイン内部クラスコンパクト性と基礎となる細粒度のサブタイプ構造はほとんど未検討のままであった。 本研究では, 中間擬似ラベルを用いて, クラスワイド分離とサブタイプワイドコンパクトネスを明示的に強制することにより, 微粒なサブタイプ認識アライメントを適応的に行うことを提案する。 私たちの重要な洞察は、クラス内のラベルなしのサブタイプは、条件とラベルのシフトが異なる場合に互いに分岐し、サブタイプ内のローカルな近接を継承できるということです。 サブタイプ数に関する事前情報の有無を調査し,その基盤となるサブタイプ構造をオンライン形式で発見する。 提案するサブタイプ対応動的UDAは,医療診断タスクにおいて有望な結果が得られる。

Recent advances in unsupervised domain adaptation (UDA) show that transferable prototypical learning presents a powerful means for class conditional alignment, which encourages the closeness of cross-domain class centroids. However, the cross-domain inner-class compactness and the underlying fine-grained subtype structure remained largely underexplored. In this work, we propose to adaptively carry out the fine-grained subtype-aware alignment by explicitly enforcing the class-wise separation and subtype-wise compactness with intermediate pseudo labels. Our key insight is that the unlabeled subtypes of a class can be divergent to one another with different conditional and label shifts, while inheriting the local proximity within a subtype. The cases of with or without the prior information on subtype numbers are investigated to discover the underlying subtype structure in an online fashion. The proposed subtype-aware dynamic UDA achieves promising results on medical diagnosis tasks.
翻訳日:2021-04-17 09:41:15 公開日:2021-01-11
# (参考訳) rethnet: 顔の皮膚問題を検出するためのオブジェクト・バイ・オブジェクト学習 [全文訳有]

RethNet: Object-by-Object Learning for Detecting Facial Skin Problems ( http://arxiv.org/abs/2101.02127v2 )

ライセンス: CC BY 4.0
Shohrukh Bekmirzaev, Seoyoung Oh, Sangwook Yoo(参考訳) セマンティックセグメンテーションはコンピュータビジョンにおけるホットトピックであり、オブジェクトの検出と認識の最も困難なタスクはセマンティックセグメンテーションの成功によって対処されてきた。 意味的セグメンテーション法を用いて,11種類の顔面皮膚病変を検出するための物体別学習手法を提案する。 濃厚なグループにおける個々の皮膚病変の検出は、視覚データの外観のあいまいさのため、難しい課題である。 我々は、オブジェクトクラス(例えば、しわと年齢の斑点、または、乳頭と白頭など)の間に共変する視覚関係が存在することを観察する。 実際、リッチなコンテキスト情報はこの問題を解決するのに大いに役立ちます。 そこで本稿では,局所的に構築されたconvLSTM/Conv3D層とSEモジュールから構成されるRethinkerブロックを提案する。 実験の結果、提案したモデルはデータセットの試験で79.46%のMIoUに達し、Deeplab v3+(64.12%のMIoU)よりも15.34%改善した。

Semantic segmentation is a hot topic in computer vision where the most challenging tasks of object detection and recognition have been handling by the success of semantic segmentation approaches. We propose a concept of object-by-object learning technique to detect 11 types of facial skin lesions using semantic segmentation methods. Detecting individual skin lesion in a dense group is a challenging task, because of ambiguities in the appearance of the visual data. We observe that there exist co-occurrent visual relations between object classes (e.g., wrinkle and age spot, or papule and whitehead, etc.). In fact, rich contextual information significantly helps to handle the issue. Therefore, we propose REthinker blocks that are composed of the locally constructed convLSTM/Conv3D layers and SE module as a one-shot attention mechanism whose responsibility is to increase network's sensitivity in the local and global contextual representation that supports to capture ambiguously appeared objects and co-occurrence interactions between object classes. Experiments show that our proposed model reached MIoU of 79.46% on the test of a prepared dataset, representing a 15.34% improvement over Deeplab v3+ (MIoU of 64.12%).
翻訳日:2021-04-11 04:41:11 公開日:2021-01-11
# 良い子は誰? 機械学習を用いたリアルタイム犬行動の強化

Who's a Good Boy? Reinforcing Canine Behavior in Real-Time using Machine Learning ( http://arxiv.org/abs/2101.02380v2 )

ライセンス: Link先を確認
Jason Stock, Tom Cavey(参考訳) 本稿では,機械学習と組込みハードウェアを組み合わせた犬用自動ディスペンサーの開発手法について概説する。 画像分類モデルのトレーニングに機械学習のテクニックを使用することで、犬の仲間の“sit”、“stand”、“lie down”の3つの振る舞いを、最大92%のテスト精度と毎秒39フレームで識別します。 我々は,nvidia jetson nano専用モデルを開発するために,様々なニューラルネットワークアーキテクチャ,解釈可能性手法,モデル量子化および最適化手法を評価した。 上記の動作をリアルタイムに検出し、jetson nanoの推論を行い、サーボモータに信号を送信して、トリート配送装置から報奨を解放することで、ポジティブな動作を強化する。

In this paper we outline the development methodology for an automatic dog treat dispenser which combines machine learning and embedded hardware to identify and reward dog behaviors in real-time. Using machine learning techniques for training an image classification model we identify three behaviors of our canine companions: "sit", "stand", and "lie down" with up to 92% test accuracy and 39 frames per second. We evaluate a variety of neural network architectures, interpretability methods, model quantization and optimization techniques to develop a model specifically for an NVIDIA Jetson Nano. We detect the aforementioned behaviors in real-time and reinforce positive actions by making inference on the Jetson Nano and transmitting a signal to a servo motor to release rewards from a treat delivery apparatus.
翻訳日:2021-04-10 13:37:35 公開日:2021-01-11
# (参考訳) convolutional recurrent generative adversarial networkを用いた時系列再生による有効寿命推定 [全文訳有]

Time-Series Regeneration with Convolutional Recurrent Generative Adversarial Network for Remaining Useful Life Estimation ( http://arxiv.org/abs/2101.03678v1 )

ライセンス: CC BY-SA 4.0
Xuewen Zhang, Yan Qin, Chau Yuen (Fellow IEEE), Lahiru Jayasinghe, and Xiang Liu(参考訳) 健康診断タスクでは, 劣化メカニズムを探索することなく, 産業機器や部品の正確な有効寿命(RUL)を推定できる機械学習に基づく手法に重点を置いている。 これらの手法の成功を確実にする前提条件は、豊富な実行障害データに依存するが、実際は実行障害データが不十分である可能性がある。 つまり、かなりの量の破壊実験を行うことは、高いコストだけでなく、破滅的な結果をもたらす可能性がある。 このことから,データ自己生成に焦点をあてたRULフレームワークが,非循環的および循環的劣化パターンに対して初めて提案される。 データをデータ駆動方式で強化し、現在のRULメソッドを強化するために、現実的な時系列を生成するように設計されている。 第一に、2チャネルの融合畳み込み畳み込み畳み込み畳み込み畳み込み畳み込み畳み込み畳み込み型ニューラルネットワーク(CR-GAN)を用いて、高品質なデータ生成を実現する。 次に、生成されたデータを現在のRUL推定手法に結合する階層的フレームワークを提案する。 最後に, 提案手法の有効性を非環状および環状の分解システムを用いて検証した。 RULフレームワークの強化により、3つの典型的なRULモデルを用いて非循環劣化後のエアエンジンシステムをテストすることができる。 生成した時系列によるカプセルネットワークの強化により,最先端のRUL推定結果が得られた。 具体的には,指標スコア関数で評価した推定誤差を21.77%,運用条件を32.67%削減した。 また、リチウムイオン電池システムにおいて、周期的劣化を示す推定誤差をゼロにする。

For health prognostic task, ever-increasing efforts have been focused on machine learning-based methods, which are capable of yielding accurate remaining useful life (RUL) estimation for industrial equipment or components without exploring the degradation mechanism. A prerequisite ensuring the success of these methods depends on a wealth of run-to-failure data, however, run-to-failure data may be insufficient in practice. That is, conducting a substantial amount of destructive experiments not only is high costs, but also may cause catastrophic consequences. Out of this consideration, an enhanced RUL framework focusing on data self-generation is put forward for both non-cyclic and cyclic degradation patterns for the first time. It is designed to enrich data from a data-driven way, generating realistic-like time-series to enhance current RUL methods. First, high-quality data generation is ensured through the proposed convolutional recurrent generative adversarial network (CR-GAN), which adopts a two-channel fusion convolutional recurrent neural network. Next, a hierarchical framework is proposed to combine generated data into current RUL estimation methods. Finally, the efficacy of the proposed method is verified through both non-cyclic and cyclic degradation systems. With the enhanced RUL framework, an aero-engine system following non-cyclic degradation has been tested using three typical RUL models. State-of-art RUL estimation results are achieved by enhancing capsule network with generated time-series. Specifically, estimation errors evaluated by the index score function have been reduced by 21.77%, and 32.67% for the two employed operating conditions, respectively. Besides, the estimation error is reduced to zero for the Lithium-ion battery system, which presents cyclic degradation.
翻訳日:2021-04-04 22:15:47 公開日:2021-01-11
# (参考訳) 2つのフレームからの剛体運動のセグメンテーション学習 [全文訳有]

Learning to Segment Rigid Motions from Two Frames ( http://arxiv.org/abs/2101.03694v1 )

ライセンス: CC BY 4.0
Gengshan Yang and Deva Ramanan(参考訳) 外観に基づく検出器は一般的な場面で顕著な性能を発揮するが、訓練データの欠如により失敗する傾向がある。 しかし、幾何学的モーションセグメンテーションアルゴリズムは、新しいシーンに一般化するが、ノイズの多いモーション推定と退化運動構成のため、外観に基づくシーンに匹敵する性能をまだ達成していない。 両世界のベストを組み合わせるために,エゴモーション場からどのような独立な物体の動きを復元できるかの幾何学的解析により,アーキテクチャを動機付けるモジュラーネットワークを提案する。 2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。 本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。 推測された剛性運動は、深さとシーンフローの推定を著しく改善する。 提案時点で,提案手法はkitti scene flow leaderboardで第1位にランクインし,最高の公開手法(scene flow error: 4.89% vs 6.31%)を上回った。

Appearance-based detectors achieve remarkable performance on common scenes, but tend to fail for scenarios lack of training data. Geometric motion segmentation algorithms, however, generalize to novel scenes, but have yet to achieve comparable performance to appearance-based ones, due to noisy motion estimations and degenerate motion configurations. To combine the best of both worlds, we propose a modular network, whose architecture is motivated by a geometric analysis of what independent object motions can be recovered from an egomotion field. It takes two consecutive frames as input and predicts segmentation masks for the background and multiple rigidly moving objects, which are then parameterized by 3D rigid transformations. Our method achieves state-of-the-art performance for rigid motion segmentation on KITTI and Sintel. The inferred rigid motions lead to a significant improvement for depth and scene flow estimation. At the time of submission, our method ranked 1st on KITTI scene flow leaderboard, out-performing the best published method (scene flow error: 4.89% vs 6.31%).
翻訳日:2021-04-04 21:55:33 公開日:2021-01-11
# (参考訳) 深層学習による時系列分類の強化による静止ケーブルの条件評価 [全文訳有]

Condition Assessment of Stay Cables through Enhanced Time Series Classification Using a Deep Learning Approach ( http://arxiv.org/abs/2101.03701v1 )

ライセンス: CC0 1.0
Zhiming Zhang, Jin Yan, Liangding Li, Hong Pan, and Chuanzhi Dong(参考訳) 本研究では,無傷状態からバイアスパターンを認識し,測定ケーブル力によるケーブル損傷を検知するデータ駆動方式を提案する。 提案手法は,ケーブルの挙動を実測ケーブル力列で暗黙的に表現できることを考慮して,深層学習における時系列分類(TSC)によるケーブル損傷検出のパターン認識問題を解く。 深層学習モデル、長期記憶完全畳み込みネットワーク(LSTM-FCN)は、TSC問題に対して適切な入力と代表クラスラベルを割り当て、まず、静止ケーブルの無傷な条件下で収集されたデータを用いてTSC分類器を訓練、検証し、セグメント化されたデータ系列を入力とし、ケーブル(またはケーブルペア)IDをクラスラベルとする。 その後、損傷可能な条件下で収集されたデータを用いて分類器を試験する。 最後に、最少分類精度に対応するケーブル又はケーブル対を、最も破損しやすいケーブル又はケーブル対として推奨する。 提案手法は, ケーブルを損傷したケーブル架設橋上で試験した。 提案手法における2つのシナリオについて検討し, 1) ケーブル力の生時間列を分類器に供給し, 2) ケーブル損傷によるケーブル対間の力分布の変動を考慮したケーブル力比を分類器に入力した。 これら2つのシナリオにおけるTSC試験の結果と組み合わせて, 断裂したケーブルを正しく同定した。 本研究では,ケーブル損傷検出のためのデータ駆動手法を提案する。データプリプロセッシングと機能工学を最小にし,実アプリケーションにおいて迅速かつ便利な早期検出を可能にする。

This study proposes a data-driven method that detects cable damage from measured cable forces by recognizing biased patterns from the intact conditions. The proposed method solves the pattern recognition problem for cable damage detection through time series classification (TSC) in deep learning, considering that the cable's behavior can be implicitly represented by the measured cable force series. A deep learning model, long short term memory fully convolutional network (LSTM-FCN), is leveraged by assigning appropriate inputs and representative class labels for the TSC problem, First, a TSC classifier is trained and validated using the data collected under intact conditions of stay cables, setting the segmented data series as input and the cable (or cable pair) ID as class labels. Subsequently, the classifier is tested using the data collected under possible damaged conditions. Finally, the cable or cable pair corresponding to the least classification accuracy is recommended as the most probable damaged cable or cable pair. The proposed method was tested on an in-service cable-stayed bridge with damaged stay cables. Two scenarios in the proposed TSC scheme were investigated: 1) raw time series of cable forces were fed into the classifiers; and 2) cable force ratios were inputted in the classifiers considering the possible variation of force distribution between cable pairs due to cable damage. Combining the results of TSC testing in these two scenarios, the cable with rupture was correctly identified. This study proposes a data-driven methodology for cable damage detection that requires the least data preprocessing and feature engineering, which enables fast and convenient early detection in real applications.
翻訳日:2021-04-04 21:23:24 公開日:2021-01-11
# (参考訳) fedar: 分散移動ロボットのためのアクティビティとリソースアウェアフェデレーション学習モデル [全文訳有]

FedAR: Activity and Resource-Aware Federated Learning Model for Distributed Mobile Robots ( http://arxiv.org/abs/2101.03705v1 )

ライセンス: CC BY 4.0
Ahmed Imteaj and M. Hadi Amini(参考訳) スマートフォン、自動運転車、IoT(Internet-of-Thin gs)デバイスは、分散ネットワークの主要なデータソースと考えられている。 インターネットの可用性の急激なブレークスルーとIoTデバイスの継続的な改善により、すべてのローカル情報を集中型計算エージェントと共有するのではなく、データをローカルに保存してエッジで計算することが望ましい。 最近提案されたFederated Learning (FL)と呼ばれる機械学習(ML)アルゴリズムは、データプライバシの保護、分散学習の実行、大規模機械学習(ML)問題における通信オーバーヘッドの低減への道を開いた。 本稿では,クライアントのアクティビティを監視し,特に資源制約のあるIoTデバイス(モバイルロボットなど)で利用可能なローカルコンピューティングリソースを活用することにより,学習プロセスを高速化するFLモデルを提案する。 各FLクライアントに対して信頼スコアを割り当て、クライアントのアクティビティに基づいて更新する。 我々は,分散移動ロボットを,メモリ,帯域幅,プロセッサ,バッテリ寿命に制限のあるFLクライアントとみなす。 このような移動ロボットをFLクライアントとみなして,実環境における資源制約された動作を理解する。 クライアントが不正なモデルを注入したり、FLプロセス中に繰り返し応答を遅くした場合、FLクライアントは信頼できないとみなす。 非効率で信頼性の低いクライアントを無視して、選択したflクライアントでローカルトレーニングを行います。 トラグラー問題をさらに軽減するため,FLサーバ上でのアグリゲーションを,特定のクライアントの応答を長時間待たずに行うことで,非同期FL機構を実現する。

Smartphones, autonomous vehicles, and the Internet-of-things (IoT) devices are considered the primary data source for a distributed network. Due to a revolutionary breakthrough in internet availability and continuous improvement of the IoT devices capabilities, it is desirable to store data locally and perform computation at the edge, as opposed to share all local information with a centralized computation agent. A recently proposed Machine Learning (ML) algorithm called Federated Learning (FL) paves the path towards preserving data privacy, performing distributed learning, and reducing communication overhead in large-scale machine learning (ML) problems. This paper proposes an FL model by monitoring client activities and leveraging available local computing resources, particularly for resource-constrained IoT devices (e.g., mobile robots), to accelerate the learning process. We assign a trust score to each FL client, which is updated based on the client's activities. We consider a distributed mobile robot as an FL client with resource limitations either in memory, bandwidth, processor, or battery life. We consider such mobile robots as FL clients to understand their resource-constrained behavior in a real-world setting. We consider an FL client to be untrustworthy if the client infuses incorrect models or repeatedly gives slow responses during the FL process. After disregarding the ineffective and unreliable client, we perform local training on the selected FL clients. To further reduce the straggler issue, we enable an asynchronous FL mechanism by performing aggregation on the FL server without waiting for a long period to receive a particular client's response.
翻訳日:2021-04-04 20:58:40 公開日:2021-01-11
# (参考訳) 逆問題における変分推論のための正規化流れの事前条件付き訓練 [全文訳有]

Preconditioned training of normalizing flows for variational inference in inverse problems ( http://arxiv.org/abs/2101.03709v1 )

ライセンス: CC BY 4.0
Ali Siahkoohi and Gabrio Rizzuti and Mathias Louboutin and Philipp A. Witte and Felix J. Herrmann(参考訳) 高価なフォワード演算子による逆問題の後方分布からサンプルを得ることは、特に未知のものが強不均質な地球を含む場合、困難である。 これらの課題を満たすために,条件付き正規化フロー (nf) を低忠実な後方分布から直接サンプリングできるプリコンディショニング方式を提案する。 この条件NFは、予測値と所望の高忠実後方密度との間のクルバック・リーブラー分散の最小化を含む高忠実度目標のトレーニングを、間接測定のために高速化するために用いられる。 フォワード演算子に関連するコストを最小限に抑えるため,事前訓練した低忠実度NFの重み付けで高忠実度NFを初期化する。 2D玩具と地震圧縮センシングの例を含む数値実験により, プレコンディショニングにより, NFをスクラッチからトレーニングした場合に比べて, かなりのスピードアップが達成できることが実証された。

Obtaining samples from the posterior distribution of inverse problems with expensive forward operators is challenging especially when the unknowns involve the strongly heterogeneous Earth. To meet these challenges, we propose a preconditioning scheme involving a conditional normalizing flow (NF) capable of sampling from a low-fidelity posterior distribution directly. This conditional NF is used to speed up the training of the high-fidelity objective involving minimization of the Kullback-Leibler divergence between the predicted and the desired high-fidelity posterior density for indirect measurements at hand. To minimize costs associated with the forward operator, we initialize the high-fidelity NF with the weights of the pretrained low-fidelity NF, which is trained beforehand on available model and data pairs. Our numerical experiments, including a 2D toy and a seismic compressed sensing example, demonstrate that thanks to the preconditioning considerable speed-ups are achievable compared to training NFs from scratch.
翻訳日:2021-04-04 20:42:49 公開日:2021-01-11
# (参考訳) バイオマニュファクチャリング発酵制御のためのモデルリスク下の強化学習

Reinforcement Learning under Model Risk for Biomanufacturing Fermentation Control ( http://arxiv.org/abs/2101.03735v1 )

ライセンス: CC BY-SA 4.0
Bo Wang, Wei Xie, Tugce Martagan, Alp Akcay(参考訳) バイオ医薬品製造において、発酵プロセスは生産性と利益に重要な役割を果たす。 生物療法は,生物機構が複雑で出力が可変な生体細胞で製造されているため,本論文では,生物プロセスのオンライン学習を支援するモデルリスクを考慮したモデルベース強化学習フレームワークを導入し,発酵プロセスの最適かつ堅牢な停止ポリシーを導出する。 具体的には, タンパク質と不純物生成の動的メカニズムに基づいて, まず, 不純物とタンパク質の成長速度に対する生物過程の確率的不確かさの影響を特徴付ける確率モデルを構築した。 バイオ医薬品製造は製造過程の発達と初期段階において非常に限られたデータしか持たないことが多いため、プロセスモデルリスクを定量化する後続分布を導出し、基礎となる確率過程に基づくオンライン学習を支援するためにベイズ規則に基づく知識更新を開発する。 生体プロセスの確率的不確かさとモデルリスクの両方に対する予測リスク会計により、提案する強化学習フレームワークは、不確実性のすべてのソースを積極的にヘッジし、最適かつ堅牢な意思決定を支援することができる。 最適政策の構造分析を行い,モデルリスクが政策選択に与える影響について検討する。 確率過程の完全な情報に基づいて得られる最適方針に漸近的に収束することを示すことができる。 本研究の事例から, 提案する枠組みは, バイオマニュファクチャリング産業の実践を大幅に改善できることを示す。

In the biopharmaceutical manufacturing, fermentation process plays a critical role impacting on productivity and profit. Since biotherapeutics are manufactured in living cells whose biological mechanisms are complex and have highly variable outputs, in this paper, we introduce a model-based reinforcement learning framework accounting for model risk to support bioprocess online learning and guide the optimal and robust customized stopping policy for fermentation process. Specifically, built on the dynamic mechanisms of protein and impurity generation, we first construct a probabilistic model characterizing the impact of underlying bioprocess stochastic uncertainty on impurity and protein growth rates. Since biopharmaceutical manufacturing often has very limited data during the development and early stage of production, we derive the posterior distribution quantifying the process model risk, and further develop the Bayesian rule based knowledge update to support the online learning on underlying stochastic process. With the prediction risk accounting for both bioprocess stochastic uncertainty and model risk, the proposed reinforcement learning framework can proactively hedge all sources of uncertainties and support the optimal and robust customized decision making. We conduct the structural analysis of optimal policy and study the impact of model risk on the policy selection. We can show that it asymptotically converges to the optimal policy obtained under perfect information of underlying stochastic process. Our case studies demonstrate that the proposed framework can greatly improve the biomanufacturing industrial practice.
翻訳日:2021-04-04 20:18:29 公開日:2021-01-11
# (参考訳) 画像検索タスクのための視覚トランスフォーマーモデルの検討 [全文訳有]

Investigating the Vision Transformer Model for Image Retrieval Tasks ( http://arxiv.org/abs/2101.03771v1 )

ライセンス: CC BY 4.0
Socratis Gkelios, Yiannis Boutalis, Savvas A. Chatzichristofis(参考訳) 本稿では,先行初期化や準備をすることなく,画像検索タスクに効果的に適用できるプラグイン・アンド・プレイディスクリプタを提案する。 提案手法は,パラメータ調整のためのトレーニングデータを必要としないが,最近提案されたビジョントランスフォーマネットワークを利用する。 画像検索タスクにおいて、手作りのグローバルデリプタとローカルデリプタの使用は、近年、畳み込みニューラルネットワーク(cnn)ベースの手法によって、非常にうまく置き換えられてきた。 しかし,本論文では,36の最先端記述子に対するベンチマークデータセットについて,Vision Transformerなどの畳み込み層を持たないニューラルネットワークがグローバル記述子を形成でき,競争的な結果が得られることを示した。 微調整は不要であるため、提案手法の低複雑性は、画像検索ベースラインモデルとしてアーキテクチャの採用を促進し、従来のCNNベースのアプローチを置き換えるとともに、画像検索アプローチの新しい時代を開拓する。

This paper introduces a plug-and-play descriptor that can be effectively adopted for image retrieval tasks without prior initialization or preparation. The description method utilizes the recently proposed Vision Transformer network while it does not require any training data to adjust parameters. In image retrieval tasks, the use of Handcrafted global and local descriptors has been very successfully replaced, over the last years, by the Convolutional Neural Networks (CNN)-based methods. However, the experimental evaluation conducted in this paper on several benchmarking datasets against 36 state-of-the-art descriptors from the literature demonstrates that a neural network that contains no convolutional layer, such as Vision Transformer, can shape a global descriptor and achieve competitive results. As fine-tuning is not required, the presented methodology's low complexity encourages adoption of the architecture as an image retrieval baseline model, replacing the traditional and well adopted CNN-based approaches and inaugurating a new era in image retrieval approaches.
翻訳日:2021-04-04 20:16:24 公開日:2021-01-11
# (参考訳) 変圧器を用いた領域外検出のためのマハラノビス距離の再検討 [全文訳有]

Revisiting Mahalanobis Distance for Transformer-Based Out-of-Domain Detection ( http://arxiv.org/abs/2101.03778v1 )

ライセンス: CC BY-SA 4.0
Alexander Podolskiy and Dmitry Lipin and Andrey Bout and Ekaterina Artemova and Irina Piontkovskaya(参考訳) ダイアログシステムのような機械学習に大きく依存する実生活アプリケーションでは、ドメイン外検出メソッドが要求される。 インテント分類モデルは、見知らぬ意図を識別する機構を備えて、ダイアログエージェントが後者を拒絶し、望ましくない振る舞いを避けることができるようにすべきである。 しかし,タスクに注意を払っているにもかかわらず,ドメイン外意図検出のベストプラクティスは確立されていない。 本稿では,ドメイン外インテント検出手法を徹底的に比較する。 学習中のドメイン外データへのアクセスを必要とせず,ユーザの発話の語彙的・形式的変動により,極めて時間と労力を要する手法を優先する。 インテント分類のための3つの標準データセットにおいて,複数のコンテクストエンコーダと手法を評価し,その効率性を確認した。 本研究の主目的は,細調整トランスフォーマーを用いたインドメインデータエンコーダが優れた結果をもたらすことである。 マハラノビス距離は、トランスフォーマーベースのエンコーダから派生した発話表現とともに、他の手法を広いマージンで上回り、すべてのデータセットに対して新たな最先端結果を確立する。 より広範に分析したところ、成功の理由は、微調整トランスフォーマーがドメイン内発話の均質表現を構築でき、ドメイン内発話の幾何学的相違が明らかになるという事実にある。 マハラノビス距離は容易にこの差を捉えている。

Real-life applications, heavily relying on machine learning, such as dialog systems, demand out-of-domain detection methods. Intent classification models should be equipped with a mechanism to distinguish seen intents from unseen ones so that the dialog agent is capable of rejecting the latter and avoiding undesired behavior. However, despite increasing attention paid to the task, the best practices for out-of-domain intent detection have not yet been fully established. This paper conducts a thorough comparison of out-of-domain intent detection methods. We prioritize the methods, not requiring access to out-of-domain data during training, gathering of which is extremely time- and labor-consuming due to lexical and stylistic variation of user utterances. We evaluate multiple contextual encoders and methods, proven to be efficient, on three standard datasets for intent classification, expanded with out-of-domain utterances. Our main findings show that fine-tuning Transformer-based encoders on in-domain data leads to superior results. Mahalanobis distance, together with utterance representations, derived from Transformer-based encoders, outperforms other methods by a wide margin and establishes new state-of-the-art results for all datasets. The broader analysis shows that the reason for success lies in the fact that the fine-tuned Transformer is capable of constructing homogeneous representations of in-domain utterances, revealing geometrical disparity to out of domain utterances. In turn, the Mahalanobis distance captures this disparity easily.
翻訳日:2021-04-04 19:58:57 公開日:2021-01-11
# (参考訳) チクングニヤの予測分析 [全文訳有]

Predictive Analysis of Chikungunya ( http://arxiv.org/abs/2101.03785v1 )

ライセンス: CC BY 4.0
Sayed Erfan Arefin, Tasnia Ashrafi Heya, Dr Moinul Zaber(参考訳) チクングニヤは世界中で医療の安全を脅かす新興の脅威であり、急速に普及している。 DARPAが2014年から2017年にかけて、疑わしいケース、死亡率、死亡率、死亡率、死亡率、発生率などのデータをまとめて、多くの地域でチクングニャの発生率を適切に予測する研究が行われている。 このプロジェクトでは、DARPAのデータセットを分析し、気温、湿度、乾燥度、風、圧力などの異なる特徴と、各国の緯度や経度などを用いて、発生率を予測できるように拡張した。 2014年から2016年にかけて、さまざまなAPIを使用してこれらの追加機能を見つけなければなりませんでした。 純粋なデータセットを作成した後、リニア回帰を用いて入射率を予測し、精度と誤差率を算出した。

Chikungunya is an emerging threat for health security all over the world which is spreading very fast. Researches for proper forecasting of the incidence rate of chikungunya has been going on in many places in which DARPA has done a very extensive summarized result from 2014 to 2017 with the data of suspected cases, confirmed cases, deaths, population and incidence rate in different countries. In this project, we have analysed the dataset from DARPA and extended it to predict the incidence rate using different features of weather like temperature, humidity, dewiness, wind and pressure along with the latitude and longitude of every country. We had to use different APIs to find out these extra features from 2014-2016. After creating a pure dataset, we have used Linear Regression to predict the incidence rate and calculated the accuracy and error rate.
翻訳日:2021-04-04 19:45:24 公開日:2021-01-11
# (参考訳) テスラ車の第2ハンド価格予測 [全文訳有]

Second Hand Price Prediction for Tesla Vehicles ( http://arxiv.org/abs/2101.03788v1 )

ライセンス: CC BY 4.0
Sayed Erfan Arefin(参考訳) Teslaの車両は、消費者市場では手頃な価格でカーボンフットプリントを残さず、自動車業界で非常に人気を博した。 2019年初めにテスラの株価が大幅に下落したため、テスラのオーナーは中古車市場で自動車の販売を開始した。 これらの中古車の価格は、車両のモデル、生産年、マイル駆動、車両に使用されるバッテリーといった特性に依存していた。 特定の車両の価格は異なっていた。 本稿では,第2のTesla車価格予測システムを開発するために,機械学習技術がどのように実装されているかについて議論する。 この目標を達成するために、決定木、サポートベクターマシン(SVM)、ランダムフォレスト、ディープラーニングといったさまざまな機械学習技術を調査し、最終的に決定木回帰を向上して実装した。 将来的には、より高度なアルゴリズムを使って精度を上げることが意図されている。

The Tesla vehicles became very popular in the car industry as it was affordable in the consumer market and it left no carbon footprint. Due to the large decline in the stock prices of Tesla Inc. at the beginning of 2019, Tesla owners started selling their vehicles in the used car market. These used car prices depended on attributes such as the model of the vehicle, year of production, miles driven, and the battery used for the vehicle. Prices were different for a specific vehicle in different months. In this paper, it is discussed how a machine learning technique is being implemented in order to develop a second-hand Teslavehicle price prediction system. To reach this goal, different machine learning techniques such as decision trees, support vector machine (SVM), random forest, and deep learning were investigated and finally was implemented with boosted decision tree regression. I the future, it is intended to use a more sophisticated algorithm for better accuracy.
翻訳日:2021-04-04 19:37:52 公開日:2021-01-11
# (参考訳) CTアンギオグラフィ臨床研究における冠動脈プラーク解析 [全文訳有]

Coronary Plaque Analysis for CT Angiography Clinical Research ( http://arxiv.org/abs/2101.03799v1 )

ライセンス: CC BY 4.0
Felix Denzinger, Michael Wels, Christian Hopfgartner, Jing Lu, Max Sch\"obinger, Andreas Maier, Michael S\"uhling(参考訳) 冠血管内プラーク沈着の分析は,最近の臨床研究において重要な課題である。 技術的な側面から見ると、主に異なるサブタスクのための新しいアルゴリズムである。 中心線抽出または容器/プラーク分割が提案されている。 しかし,これらのアルゴリズムの助けを借りて臨床研究を可能にするためには,手動補正,包括的視覚フィードバック,組織解析機能を実現するソフトウェアソリューションが必要である。 したがって、このような統合されたソフトウェアソリューションを提示したい。 頑丈な自動中心線抽出と内壁と外壁のセグメンテーションを可能とし、手動の修正ツールを容易に利用できる。 また、中心線に沿った病変のアノテーションも可能で、組織組成についてさらに分析することができる。 さらに、血管周囲の脂肪組織の定量化と専用のプラーク分析による二重エネルギーCTスキャンを自動セットアップでサポートし、今後の技術や研究の方向性について研究することができる。

The analysis of plaque deposits in the coronary vasculature is an important topic in current clinical research. From a technical side mostly new algorithms for different sub tasks - e.g. centerline extraction or vessel/plaque segmentation - are proposed. However, to enable clinical research with the help of these algorithms, a software solution, which enables manual correction, comprehensive visual feedback and tissue analysis capabilities, is needed. Therefore, we want to present such an integrated software solution. It is able to perform robust automatic centerline extraction and inner and outer vessel wall segmentation, while providing easy to use manual correction tools. Also, it allows for annotation of lesions along the centerlines, which can be further analyzed regarding their tissue composition. Furthermore, it enables research in upcoming technologies and research directions: it does support dual energy CT scans with dedicated plaque analysis and the quantification of the fatty tissue surrounding the vasculature, also in automated set-ups.
翻訳日:2021-04-04 19:31:19 公開日:2021-01-11
# (参考訳) 適応推論グラフを用いたマルチドメイン画像から画像への変換 [全文訳有]

Multi-Domain Image-to-Image Translation with Adaptive Inference Graph ( http://arxiv.org/abs/2101.03806v1 )

ライセンス: CC BY 4.0
The-Phuc Nguyen, St\'ephane Lathuili\`ere, Elisa Ricci(参考訳) 本稿では,特に計算コストに注意を払って,マルチドメイン画像から画像への変換の問題に対処する。 特に、芸術モデルの現在の状態は、複数のドメインの視覚的多様性を扱うために、大きくて深いモデルを必要とする。 限られた計算資源の文脈では、ネットワークサイズを増やすことは不可能である。 そこで本研究では,適応グラフ構造を用いてネットワーク容量を増やすことを提案する。 推測時、ネットワークは特定のサブネットワークを選択することで独自のグラフを推定する。 サブネットワークの選択は、エンドツーエンドのトレーニングを可能にするためにgumbel-softmaxを使用して実装される。 このアプローチは、ほぼ一定の計算コストを維持しながら、パラメータの調整可能な増加につながる。 顔画像と絵画画像の2つの公開データセットによる評価は、我々の適応戦略が文学的手法よりも少ないアーティファクト画像を生成することを示している。

In this work, we address the problem of multi-domain image-to-image translation with particular attention paid to computational cost. In particular, current state of the art models require a large and deep model in order to handle the visual diversity of multiple domains. In a context of limited computational resources, increasing the network size may not be possible. Therefore, we propose to increase the network capacity by using an adaptive graph structure. At inference time, the network estimates its own graph by selecting specific sub-networks. Sub-network selection is implemented using Gumbel-Softmax in order to allow end-to-end training. This approach leads to an adjustable increase in number of parameters while preserving an almost constant computational cost. Our evaluation on two publicly available datasets of facial and painting images shows that our adaptive strategy generates better images with fewer artifacts than literature methods
翻訳日:2021-04-04 19:26:07 公開日:2021-01-11
# (参考訳) 深層学習による皮膚病変画像の解析 [全文訳有]

Analysis of skin lesion images with deep learning ( http://arxiv.org/abs/2101.03814v1 )

ライセンス: CC BY-SA 4.0
Josef Steppan and Sten Hanke(参考訳) 皮膚がんは世界中で最も多いがんであり、メラノーマが最も多い。 皮膚内視鏡検査は, 皮膚がんの診断において, サポートなしの視力検査と比較して改善した皮膚画像モダリティである。 皮膚病変の分類と文献の分類のためのISIC-2019 Challengeに基づいて,皮膚画像の分類における術式の現状を評価した。 ImageNetデータセットに事前トレーニングされた様々なディープニューラルネットワークアーキテクチャは、転写学習とモデル微調整を用いた皮膚病変の皮膚内視鏡的および臨床的画像からなる複合トレーニングデータセットに適合する。 8種類の皮膚病変の検出におけるこれらのモデルの性能と適用性について検討した。 ランダムな回転、翻訳、せん断、ズームを利用するリアルタイムデータ拡張は、利用可能なトレーニングサンプルの数を増やすために使用される。 モデル予測は逆クラス周波数に乗算され、より近似的な実確率分布に正規化される。 独立に訓練されたモデルの予測の算術平均を用いて、全体的な予測精度をさらに向上する。 最高のシングルモデルはWebサービスとして公開された。

Skin cancer is the most common cancer worldwide, with melanoma being the deadliest form. Dermoscopy is a skin imaging modality that has shown an improvement in the diagnosis of skin cancer compared to visual examination without support. We evaluate the current state of the art in the classification of dermoscopic images based on the ISIC-2019 Challenge for the classification of skin lesions and current literature. Various deep neural network architectures pre-trained on the ImageNet data set are adapted to a combined training data set comprised of publicly available dermoscopic and clinical images of skin lesions using transfer learning and model fine-tuning. The performance and applicability of these models for the detection of eight classes of skin lesions are examined. Real-time data augmentation, which uses random rotation, translation, shear, and zoom within specified bounds is used to increase the number of available training samples. Model predictions are multiplied by inverse class frequencies and normalized to better approximate actual probability distributions. Overall prediction accuracy is further increased by using the arithmetic mean of the predictions of several independently trained models. The best single model has been published as a web service.
翻訳日:2021-04-04 19:14:39 公開日:2021-01-11
# (参考訳) ディープニューラルネットワークを用いた逆問題に対するベイズ不確かさのスケールアップ

Scaling Up Bayesian Uncertainty Quantification for Inverse Problems using Deep Neural Networks ( http://arxiv.org/abs/2101.03906v1 )

ライセンス: CC BY 4.0
Shiwei Lan, Shuyi Li, Babak Shahbaba(参考訳) 不確実量化(UQ)の重要性から、逆問題に対するベイズ的アプローチは応用数学、物理学、工学において最近人気を集めている。 しかしながら、マルコフ連鎖モンテカルロ(mcmc)に基づく伝統的なベイズ推定法は、そのような高次元問題に対して計算量的かつ非効率である傾向がある。 この問題に対処するため、推測過程を高速化するために代理モデルに基づくいくつかの手法が提案されている。 より具体的には、キャリブレーション・エミュレーション・サンプリング(CES)方式は、大規模なUQ問題に成功している。 本研究では,エミュレーションフェーズのためのディープニューラルネットワーク(DNN)モデルに基づくベイズ推論のための新しいCESアプローチを提案する。 結果として得られるアルゴリズムは、計算効率が向上するだけでなく、トレーニングセットに対する感度も低下する。 さらに,次元減少のためにオートエンコーダ(AE)を用いることで,ベイズ推定法を最大3桁まで高速化することができた。 全体として、我々の手法は、従って \emph{dimension-reduced emulative autoencoder monte carlo (dream)} アルゴリズムと呼ばれ、物理学的に制約された逆問題において、ベイジアンuqを最大数千次元までスケールすることができる。 2つの低次元(線型および非線形)逆問題を用いて、このアプローチの有効性を示す。 次に,本手法を2つの高次元数値例(楕円およびアドベクション拡散)に適用し,既存のアルゴリズムに対する計算上の優位性を示す。

Due to the importance of uncertainty quantification (UQ), Bayesian approach to inverse problems has recently gained popularity in applied mathematics, physics, and engineering. However, traditional Bayesian inference methods based on Markov Chain Monte Carlo (MCMC) tend to be computationally intensive and inefficient for such high dimensional problems. To address this issue, several methods based on surrogate models have been proposed to speed up the inference process. More specifically, the calibration-emulatio n-sampling (CES) scheme has been proven to be successful in large dimensional UQ problems. In this work, we propose a novel CES approach for Bayesian inference based on deep neural network (DNN) models for the emulation phase. The resulting algorithm is not only computationally more efficient, but also less sensitive to the training set. Further, by using an Autoencoder (AE) for dimension reduction, we have been able to speed up our Bayesian inference method up to three orders of magnitude. Overall, our method, henceforth called \emph{Dimension-Reduced Emulative Autoencoder Monte Carlo (DREAM)} algorithm, is able to scale Bayesian UQ up to thousands of dimensions in physics-constrained inverse problems. Using two low-dimensional (linear and nonlinear) inverse problems we illustrate the validity this approach. Next, we apply our method to two high-dimensional numerical examples (elliptic and advection-diffussion ) to demonstrate its computational advantage over existing algorithms.
翻訳日:2021-04-04 18:53:52 公開日:2021-01-11
# (参考訳) 画像生成のためのスタイル転送を用いたサイクル生成逆ネットワークアルゴリズム [全文訳有]

Cycle Generative Adversarial Networks Algorithm With Style Transfer For Image Generation ( http://arxiv.org/abs/2101.03921v1 )

ライセンス: CC BY 4.0
Anugrah Akbar Praramadhan and Guntur Eka Saputra(参考訳) 機械学習エンジニアが直面している最大の課題は、特に2次元画像において、保持するデータの不足である。 イメージは機械学習モデルにトレーニングされ、データのパターンを認識し、予測することが可能になる。 この研究は、データ不足の問題を克服するために、Cycle Generative Adversarial Networks (GAN)アルゴリズムを用いたソリューションを作成することを目的としている。 次に、スタイル転送を使用して、所定のスタイルに基づいて新しいイメージを生成する。 テストの結果から、写真生成器の損失値: 3.1267, monetスタイル生成器: 3.2026, photo discriminator: 0.6325, monetスタイルの判別器: 0.6931 to photo generator: 2.3792, monetスタイル生成器: 2.7291, photo discriminator: 0.5956, monetスタイルの判別器: 0.4940。 本研究は, 教育, 芸術, 情報技術, 医学, 天文学, 自動車, その他の重要な分野において, このソリューションを有効活用することが期待されている。

The biggest challenge faced by a Machine Learning Engineer is the lack of data they have, especially for 2-dimensional images. The image is processed to be trained into a Machine Learning model so that it can recognize patterns in the data and provide predictions. This research is intended to create a solution using the Cycle Generative Adversarial Networks (GANs) algorithm in overcoming the problem of lack of data. Then use Style Transfer to be able to generate a new image based on the given style. Based on the results of testing the resulting model has been carried out several improvements, previously the loss value of the photo generator: 3.1267, monet style generator: 3.2026, photo discriminator: 0.6325, and monet style discriminator: 0.6931 to photo generator: 2.3792, monet style generator: 2.7291, photo discriminator: 0.5956, and monet style discriminator: 0.4940. It is hoped that the research will make the application of this solution useful in the fields of Education, Arts, Information Technology, Medicine, Astronomy, Automotive and other important fields.
翻訳日:2021-04-04 18:52:46 公開日:2021-01-11
# (参考訳) グラフ表現学習による患者の予後予測 [全文訳有]

Predicting Patient Outcomes with Graph Representation Learning ( http://arxiv.org/abs/2101.03940v1 )

ライセンス: CC BY 4.0
Emma Rocheteau, Catherine Tong, Petar Veli\v{c}kovi\'c, Nicholas Lane, Pietro Li\`o(参考訳) 集中治療室(ICU)における患者の予後予測に関する最近の研究は、診断や医薬品などのスパースデータを無視した生理的時系列データに重点を置いている。 それらを含むと、通常はモデルの後期に連結され、稀な疾患のパターンから学ぶのに苦労する。 代わりに,類似した患者をグラフでつなげることで,診断を関係情報として活用する戦略を提案する。 そこで本研究では,時間的特徴抽出のための長期短期記憶ネットワーク(lstms)と患者周辺情報抽出のためのグラフニューラルネットワーク(gnns)を組み合わせたハイブリッドモデルを提案する。 LSTM-GNNは,eICUデータベース上の滞在予測タスクの長さにおいて,LSTMのみのベースラインよりも優れていることを示す。 より一般的には, グラフニューラルネットワークを用いた周辺患者の情報活用が有望な研究方向であり, 電子健康記録における教師付き学習成績に有意なリターンをもたらすことが示唆された。

Recent work on predicting patient outcomes in the Intensive Care Unit (ICU) has focused heavily on the physiological time series data, largely ignoring sparse data such as diagnoses and medications. When they are included, they are usually concatenated in the late stages of a model, which may struggle to learn from rarer disease patterns. Instead, we propose a strategy to exploit diagnoses as relational information by connecting similar patients in a graph. To this end, we propose LSTM-GNN for patient outcome prediction tasks: a hybrid model combining Long Short-Term Memory networks (LSTMs) for extracting temporal features and Graph Neural Networks (GNNs) for extracting the patient neighbourhood information. We demonstrate that LSTM-GNNs outperform the LSTM-only baseline on length of stay prediction tasks on the eICU database. More generally, our results indicate that exploiting information from neighbouring patient cases using graph neural networks is a promising research direction, yielding tangible returns in supervised learning performance on Electronic Health Records.
翻訳日:2021-04-04 18:38:53 公開日:2021-01-11
# (参考訳) ワクチンを含むインターベンショナル・ポリシーが新型コロナウイルスの伝播と社会経済的要因に及ぼす影響 [全文訳有]

Impact of Interventional Policies Including Vaccine on Covid-19 Propagation and Socio-Economic Factors ( http://arxiv.org/abs/2101.03944v1 )

ライセンス: CC BY 4.0
Haonan Wu, Rajarshi Banerjee, Indhumathi Venkatachalam, Daniel Percy-Hughes and Praveen Chougale(参考訳) 新型コロナウイルス(COVID-19)が流行し、世界は新たな現実に突入した。 人間に制御可能なものもある(例)。 介入政策、移動性、ワクチンなど)一部はそうではない(例:ワクチン)。 天気)。 我々は、これらのコントロール可能な要因の変化が、経済的影響に対する日々のケースの数という2つの尺度にどのように影響するかを試そうとした。 適切なレベルと最新のデータを適用して測定すれば、政策立案者はターゲットとした介入を行い、コストを計測できるでしょう。 本研究は、新型コロナウイルスの伝播をモデル化し、予測し、シミュレーションするための予測分析フレームワークを提供することを目的としている。 政策立案者、政府代表者、ビジネスリーダーは、シナリオプランニングを通じて、様々な介入の潜在的な効果について、より良い決定を下すことができる。 私たちは最近ローンチしたオープンソースの新型コロナウイルス(covid-19)ビッグデータプラットフォームを活用し、公開研究によって潜在的な関連する変数(機能)を見つけ、詳細なデータ品質チェックと分析を機能選択と予測に活用しました。 先進的な機械学習パイプラインは、現代的な機械学習アーキテクチャにデプロイされた自己進化モデルを用いて開発された。 トレンド予測(r-squaredでバックテスト)の精度が高く、深い洞察の解釈可能性も向上している。

A novel coronavirus disease has emerged (later named COVID-19) and caused the world to enter a new reality, with many direct and indirect factors influencing it. Some are human-controllable (e.g. interventional policies, mobility and the vaccine); some are not (e.g. the weather). We have sought to test how a change in these human-controllable factors might influence two measures: the number of daily cases against economic impact. If applied at the right level and with up-to-date data to measure, policymakers would be able to make targeted interventions and measure their cost. This study aims to provide a predictive analytics framework to model, predict and simulate COVID-19 propagation and the socio-economic impact of interventions intended to reduce the spread of the disease such as policy and/or vaccine. It allows policymakers, government representatives and business leaders to make better-informed decisions about the potential effect of various interventions with forward-looking views via scenario planning. We have leveraged a recently launched open-source COVID-19 big data platform and used published research to find potentially relevant variables (features) and leveraged in-depth data quality checks and analytics for feature selection and predictions. An advanced machine learning pipeline has been developed armed with a self-evolving model, deployed on a modern machine learning architecture. It has high accuracy for trend prediction (back-tested with r-squared) and is augmented with interpretability for deeper insights.
翻訳日:2021-04-04 18:27:39 公開日:2021-01-11
# (参考訳) BERTに基づくより効率的な中国語名前付きエンティティ認識と構文解析 [全文訳有]

A More Efficient Chinese Named Entity Recognition base on BERT and Syntactic Analysis ( http://arxiv.org/abs/2101.11423v1 )

ライセンス: CC BY 4.0
Xiao Fu and Guijun Zhang(参考訳) 本研究では, POSタグの誤りによるNERエラーを回避しつつ, POSタグ付け, 中国語単語分割, 構文解析の結果を効果的に活用するための新しい名前付きエンティティ認識(NER)手法を提案する。 本稿では,まずstanford natural language process (nlp) ツールを用いて,タグ付きデータへの依存度を低減するために,大規模非タグ付きデータをアノテートする。次に,トランスフォーマ(bert)モデルから双方向エンコーダ表現を圧縮して計算量を削減するために,新しいnlpモデルであるg-bertモデルを提案する。 実験結果から,g-bertモデルの計算量は60%削減され,テストf1では,bertモデルと比較して2%向上した。

We propose a new Named entity recognition (NER) method to effectively make use of the results of Part-of-speech (POS) tagging, Chinese word segmentation (CWS) and parsing while avoiding NER error caused by POS tagging error. This paper first uses Stanford natural language process (NLP) tool to annotate large-scale untagged data so as to reduce the dependence on the tagged data; then a new NLP model, g-BERT model, is designed to compress Bidirectional Encoder Representations from Transformers (BERT) model in order to reduce calculation quantity; finally, the model is evaluated based on Chinese NER dataset. The experimental results show that the calculation quantity in g-BERT model is reduced by 60% and performance improves by 2% with Test F1 to 96.5 compared with that in BERT model.
翻訳日:2021-04-04 18:22:11 公開日:2021-01-11
# (参考訳) ニューラル・スタッキングによるcovid-19関連偽ニュースの同定 [全文訳有]

Identification of COVID-19 related Fake News via Neural Stacking ( http://arxiv.org/abs/2101.03988v1 )

ライセンス: CC BY 4.0
Boshko Koloski, Timen Stepi\v{s}nik Perdih, Senja Pollak and Bla\v{z} \v{S}krlj(参考訳) フェイクニュースの識別はパンデミックの進行において重要な役割を担い、日々の生活の様々な側面に影響を与える。 本研究は、英語で「COVID19 Fake News Detection」と題された共有タスクに対する解決策を提示し、168件の投稿のうち、50位にランクインした。 このソリューションは、最高のソリューションの1.5%以内にありました。 提案手法は,複数の隠蔽層からなる追加のニューラルネットワーク分類ヘッドを介して,分類タスクに適合する異種表現アンサンブルを用いている。 本論文は,提案手法の挙動と可能性を示す詳細なアブレーション研究からなる。 ソリューションは無償で利用可能です。 https://gitlab.com/b oshko.koloski/covid1 9-fake-news}

Identification of Fake News plays a prominent role in the ongoing pandemic, impacting multiple aspects of day-to-day life. In this work we present a solution to the shared task titled COVID19 Fake News Detection in English, scoring the 50th place amongst 168 submissions. The solution was within 1.5% of the best performing solution. The proposed solution employs a heterogeneous representation ensemble, adapted for the classification task via an additional neural classification head comprised of multiple hidden layers. The paper consists of detailed ablation studies further displaying the proposed method's behavior and possible implications. The solution is freely available. \url{https://gitlab.com/b oshko.koloski/covid1 9-fake-news}
翻訳日:2021-04-04 18:16:45 公開日:2021-01-11
# (参考訳) 完全畳み込みニューラルネットワークを用いた自動ポリープ分割 [全文訳有]

Automatic Polyp Segmentation using Fully Convolutional Neural Network ( http://arxiv.org/abs/2101.04001v1 )

ライセンス: CC BY 4.0
Nikhil Kumar Tomar(参考訳) 大腸癌は世界中で致命的ながんの1つだ。 大腸内視鏡は大腸ポリープの検査・局在・除去の標準的な治療である。 しかし,大腸内視鏡検査における大腸ポリープのミスレートは6~27%であった。 大腸内視鏡検査における自動的, 高精度, リアルタイムポリプセグメンテーションの使用は, 臨床医が欠如した病変を除去し, 大腸癌のさらなる進展を予防するのに役立つ。 Medico Automatic Polyp segmentation Challenge'は、polyp segmentationを研究し、高速なセグメンテーションモデルを構築する機会を提供する。 チャレンジオーガナイザはモデルをトレーニングするためのKvasir-SEGデータセットを提供する。 次に、セグメンテーションモデルの効率と速度を検証するために、別個の未認識データセット上でテストする。 実験により, Kvasir-SEGデータセットを用いてトレーニングし, 未確認データセット上で試験したモデルは, ダイス係数0.7801, mIoU0.6847, リコール0.8077, 精度0.8126を達成し, モデルの一般化能力を実証した。 このモデルは、画像解像度が512 \times 512$の未確認データセットで80.60 FPSを達成した。

Colorectal cancer is one of fatal cancer worldwide. Colonoscopy is the standard treatment for examination, localization, and removal of colorectal polyps. However, it has been shown that the miss-rate of colorectal polyps during colonoscopy is between 6 to 27%. The use of an automated, accurate, and real-time polyp segmentation during colonoscopy examinations can help the clinicians to eliminate missing lesions and prevent further progression of colorectal cancer. The ``Medico automatic polyp segmentation challenge'' provides an opportunity to study polyp segmentation and build a fast segmentation model. The challenge organizers provide a Kvasir-SEG dataset to train the model. Then it is tested on a separate unseen dataset to validate the efficiency and speed of the segmentation model. The experiments demonstrate that the model trained on the Kvasir-SEG dataset and tested on an unseen dataset achieves a dice coefficient of 0.7801, mIoU of 0.6847, recall of 0.8077, and precision of 0.8126, demonstrating the generalization ability of our model. The model has achieved 80.60 FPS on the unseen dataset with an image resolution of $512 \times 512$.
翻訳日:2021-04-04 18:07:53 公開日:2021-01-11
# (参考訳) 説明的感情帰属・生成・再分類のための常識推論フレームワーク

A Commonsense Reasoning Framework for Explanatory Emotion Attribution, Generation and Re-classification ( http://arxiv.org/abs/2101.04017v1 )

ライセンス: CC BY 4.0
Antonio Lieto, Gian Luca Pozzato, Stefano Zoia, Viviana Patti, Rossana Damiano(参考訳) 本稿では,Description Logicsナレッジベースにおける新しい概念の自動生成のための人間ライクな手順に基づく,最近導入されたコモンセンス推論フレームワーク(TCLロジック)に依存した,感情帰属とレコメンデーションのための説明可能なシステム(DEGARI)を提案する。 感情のオントロジな形式化(arsemoticaとして知られる)から始まり、このシステムは論理tclを利用して複合感情の新たな共通意味表現(例えば)を自動的に生成する。 arsemoticaモデルによる喜びと信頼の組み合わせに由来する愛)。 生成された感情はプロトタイプ、すなわち 与えられた概念のコモンセンス表現は、アートデータセットからrai radiotelevisione italiana(イタリアの放送会社)のオンラインマルチメディアプラットフォームであるraiplayで利用可能な編集コンテンツまで、さまざまな芸術領域における感情関連コンテンツの再分類に使われてきた。 本システムでは,新たに生成した複合感情について,テストデータセット内の利用可能なコンテンツを再分類し,その再分類を推奨された感情内容として利用することの可能性を評価することで,(1)システムをテストした。 得られた成果は、さらなる改善や研究の方向性への道を開いたり来たりしています。

In this work we present an explainable system for emotion attribution and recommendation (called DEGARI) relying on a recently introduced commonsense reasoning framework (the TCL logic) which is based on a human-like procedure for the automatic generation of novel concepts in a Description Logics knowledge base. Starting from an ontological formalization of emotions (known as ArsEmotica), the system exploits the logic TCL to automatically generate novel commonsense semantic representations of compound emotions (e.g. Love as derived from the combination of Joy and Trust according to the ArsEmotica model). The generated emotions correspond to prototypes, i.e. commonsense representations of given concepts, and have been used to reclassify emotion-related contents in a variety of artistic domains, ranging from art datasets to the editorial content available in RaiPlay, the online multimedia platform of RAI Radiotelevisione Italiana (the Italian public broadcasting company). We have tested our system (1) by reclassifying the available contents in the tested dataset with respect to the new generated compound emotions (2) with an evaluation, in the form of a controlled user study experiment, of the feasibility of using the obtained reclassifications as recommended emotional content. The obtained results are encouraging and pave the way to many possible further improvements and research directions.
翻訳日:2021-04-04 18:03:52 公開日:2021-01-11
# (参考訳) デザイン材料としての機械学習の不確かさ--現象学的考察 [全文訳有]

Machine Learning Uncertainty as a Design Material: A Post-Phenomenologica l Inquiry ( http://arxiv.org/abs/2101.04035v1 )

ライセンス: CC BY-SA 4.0
Jesse Josua Benjamin, Arne Berger, Nick Merrill, James Pierce(参考訳) デザイン研究は、新しいテクノロジーがいかに人間の体験を形作るかを理解し、疑問視するために重要である。 しかし、機械学習(ML)による設計研究は比較的未開発である。 重要なことに、設計者はMLの不確実性を障害ではなく設計の機会として捉えていない。 技術的文献では、MLの主な2つの特性として、データとモデルの不確実性が指摘されている。 現象学を通して,人間の経験を媒介するmlプロセスの物質的属性として不確かさを位置づける。 設計材料としてのMLの不確実性を理解するため,MLを含む4つの設計研究事例を考察した。 すべて不確実性: ML駆動の成果物は環境に不確実で変動的な関係を持つ; パターンリーク: MLの不確実性は、彼らが表現しようとする世界を形作るパターンにつながる; 未来が不確実性: ML技術は、不確実性を伴う時間と人間の関係をテクスチャ化する。 最後に,デザイン研究の軌跡を概説し,人間-ML関係に対する現象学的アプローチをスケッチする。

Design research is important for understanding and interrogating how emerging technologies shape human experience. However, design research with Machine Learning (ML) is relatively underdeveloped. Crucially, designers have not found a grasp on ML uncertainty as a design opportunity rather than an obstacle. The technical literature points to data and model uncertainties as two main properties of ML. Through post-phenomenology, we position uncertainty as one defining material attribute of ML processes which mediate human experience. To understand ML uncertainty as a design material, we investigate four design research case studies involving ML. We derive three provocative concepts: thingly uncertainty: ML-driven artefacts have uncertain, variable relations to their environments; pattern leakage: ML uncertainty can lead to patterns shaping the world they are meant to represent; and futures creep: ML technologies texture human relations to time with uncertainty. Finally, we outline design research trajectories and sketch a post-phenomenologica l approach to human-ML relations.
翻訳日:2021-04-04 18:02:51 公開日:2021-01-11
# (参考訳) 構造化潜在表現の絡み合いの評価 [全文訳有]

Evaluating Disentanglement of Structured Latent Representations ( http://arxiv.org/abs/2101.04041v1 )

ライセンス: CC BY 4.0
Rapha\"el Dang-Nhu and Angelika Steger(参考訳) 構造的潜在表現の全ての階層レベルで動作する最初の多層異方性計量を設計し、その理論的性質を導出する。 対象中心の表現に応用し、潜在スロット間のオブジェクト分離と内部スロットの絡み合いの双方の評価を共通の数学的枠組みに統一する。 また、ARIのような以前のピクセルレベルのセグメンテーションメトリクスのセグメンテーションマスクシャープネスに対する問題にも対処する。 おそらく、実験結果から、良いARI値が不整合表現を保証せず、この指標に排他的焦点をあてた結果、過去の評価では非生産的選択が導かれた。 追加の技術的貢献として,表現のスロット置換不変性を扱う特徴重要度を得るための新しいアルゴリズムを提案する。

We design the first multi-layer disentanglement metric operating at all hierarchy levels of a structured latent representation, and derive its theoretical properties. Applied to object-centric representations, our metric unifies the evaluation of both object separation between latent slots and internal slot disentanglement into a common mathematical framework. It also addresses the problematic dependence on segmentation mask sharpness of previous pixel-level segmentation metrics such as ARI. Perhaps surprisingly, our experimental results show that good ARI values do not guarantee a disentangled representation, and that the exclusive focus on this metric has led to counterproductive choices in some previous evaluations. As an additional technical contribution, we present a new algorithm for obtaining feature importances that handles slot permutation invariance in the representation.
翻訳日:2021-04-04 17:33:55 公開日:2021-01-11
# (参考訳) 水平-垂直ビデオ変換 [全文訳有]

Horizontal-to-Vertic al Video Conversion ( http://arxiv.org/abs/2101.04051v1 )

ライセンス: CC BY 4.0
Tun Zhu, Daoxin Zhang, Tianran Wang, Xiaolong Jiang, Jiawei Li, Yao Hu, Jianke Zhu(参考訳) モバイルビデオの普及とともに、一般大衆は携帯端末で垂直ビデオを消費する傾向にある。 本稿では, H2V-142Kの正確な注釈付きデータセットを伴って, H2Vフレームワークによる自動水平垂直変換(H2V)の探索を行う。 具体的には、h2vフレームワークはビデオショット境界検出、主題選択、マルチオブジェクト追跡を統合し、主題保存変換を容易にし、鍵が主題選択である。 そこで我々は,人間の物体を検知し,その位置,外観,および有能な手がかりを利用して保存対象を選択するランクSSモジュールを提案する。 その後、このフレームワークは被写体周辺の映像を自動的に収集し、水平方向からの垂直なコンテンツを生成する。 H2V-142Kデータセットは,H2Vフレーム132Kフレームと9,500ビデオカバーを有する125本の動画に対して,被写体境界ボックスと密接なアノテートされ,従来のサリアンアプローチと比較して優れた被写体選択性能を示し,全体として有望な水平-垂直変換性能を示す。 このデータセットと私たちのアプローチを公表することで、水平から垂直へのビデオ変換タスクにおけるより価値のある取り組みへの道を開くことを望みます。

Alongside the prevalence of mobile videos, the general public leans towards consuming vertical videos on hand-held devices. To revitalize the exposure of horizontal contents, we hereby set forth the exploration of automated horizontal-to-vertic al (abbreviated as H2V) video conversion with our proposed H2V framework, accompanied by an accurately annotated H2V-142K dataset. Concretely, H2V framework integrates video shot boundary detection, subject selection and multi-object tracking to facilitate the subject-preserving conversion, wherein the key is subject selection. To achieve so, we propose a Rank-SS module that detects human objects, then selects the subject-to-preserve via exploiting location, appearance, and salient cues. Afterward, the framework automatically crops the video around the subject to produce vertical contents from horizontal sources. To build and evaluate our H2V framework, H2V-142K dataset is densely annotated with subject bounding boxes for 125 videos with 132K frames and 9,500 video covers, upon which we demonstrate superior subject selection performance comparing to traditional salient approaches, and exhibit promising horizontal-to-vertic al conversion performance overall. By publicizing this dataset as well as our approach, we wish to pave the way for more valuable endeavors on the horizontal-to-vertic al video conversion task.
翻訳日:2021-04-04 16:56:51 公開日:2021-01-11
# (参考訳) 臨床試験におけるコア出力のコンパイルの自動化 [全文訳有]

Automating the Compilation of Potential Core-Outcomes for Clinical Trials ( http://arxiv.org/abs/2101.04076v1 )

ライセンス: CC BY 4.0
Shwetha Bharadwaj, Melanie Laffin(参考訳) 臨床試験の結果や分析へのアクセスの増加により、研究者や科学者は、関連するアプローチをより効果的に反復または改善することができる。 しかしながら、臨床試験のメトリクスと関連する結果は通常、報告の標準化に従わないため、研究者が異なる臨床試験の結果を解析することがより困難になる。 本研究の目的は,異なる臨床試験結果の問題点を軽減するために,自然言語処理を利用した自動化手法について述べることである。 このプロセスの性質はドメイン固有であるため、BioBERTはマルチクラスのエンティティ正規化タスクを実行するために使用された。 BioBERTに加えて、結果とラベルのエンコーダ出力の埋め込み表現のみを利用する教師なしの機能ベースのアプローチが利用された。 最後に、コサイン類似性をベクトル全体で計算し、意味的類似性を得る。 この方法では、BioBERTモデルの学習した埋め込みから各トークンのドメイン固有のコンテキストを活用できるだけでなく、より安定した文類似度の測定も可能である。 それぞれの分類でJaccardの類似性を識別したいくつかの一般的な結果がコンパイルされ、一部は耐え難いが、この自動化プロセスを実行するパイプラインが確立された。

Due to increased access to clinical trial outcomes and analysis, researchers and scientists are able to iterate or improve upon relevant approaches more effectively. However, the metrics and related results of clinical trials typically do not follow any standardization in their reports, making it more difficult for researchers to parse the results of different trials. The objective of this paper is to describe an automated method utilizing natural language processing in order to describe the probable core outcomes of clinical trials, in order to alleviate the issues around disparate clinical trial outcomes. As the nature of this process is domain specific, BioBERT was employed in order to conduct a multi-class entity normalization task. In addition to BioBERT, an unsupervised feature-based approach making use of only the encoder output embedding representations for the outcomes and labels was utilized. Finally, cosine similarity was calculated across the vectors to obtain the semantic similarity. This method was able to both harness the domain-specific context of each of the tokens from the learned embeddings of the BioBERT model as well as a more stable metric of sentence similarity. Some common outcomes identified using the Jaccard similarity in each of the classifications were compiled, and while some are untenable, a pipeline for which this automation process could be conducted was established.
翻訳日:2021-04-04 16:36:22 公開日:2021-01-11
# (参考訳) Adversary Instantiation: 差分プライベート機械学習のための低境界 [全文訳有]

Adversary Instantiation: Lower Bounds for Differentially Private Machine Learning ( http://arxiv.org/abs/2101.04535v1 )

ライセンス: CC BY 4.0
Milad Nasr, Shuang Song, Abhradeep Thakurta, Nicolas Papernot and Nicholas Carlini(参考訳) differentially private (dp) マシンラーニングは、データ漏洩を制限しながら、プライベートデータのモデルのトレーニングを可能にする。 DPは、このデータ漏洩を、あるモデルがデータセットDでトレーニングされたか、あるいは1つの例で異なるデータセットD'でトレーニングされたかを、相手が予測しなければならない暗号ゲームを通じて形式化する。 したがって,プライバシ分析の目的は,どの敵がモデルがトレーニングされたのかを推測できる確率を上限にすることであり,本論文では,この差分ゲームに勝つ可能性の低い境界を確立するために,この仮説的敵をインスタンス化する。 dp-sgdは,プライバシの異なるプライバシを持つニューラルネットワークをトレーニングするための最も一般的な手法であり,その下限は厳密であり,理論上の上限と一致している。 これは、より良い上限を証明するためには、追加の仮定を使う必要があることを意味する。 幸いなことに、我々の攻撃は敵の能力に追加の(現実的な)制限を加えると著しく弱くなり、しかし多くの実世界の展開に共通する実践的な環境では、我々の下限と分析によって提供される上限の間にギャップがある: 差分プライバシーは保守的であり、敵は理論的境界によって示唆されるような情報を漏らすことができないかもしれない。

Differentially private (DP) machine learning allows us to train models on private data while limiting data leakage. DP formalizes this data leakage through a cryptographic game, where an adversary must predict if a model was trained on a dataset D, or a dataset D' that differs in just one example.If observing the training algorithm does not meaningfully increase the adversary's odds of successfully guessing which dataset the model was trained on, then the algorithm is said to be differentially private. Hence, the purpose of privacy analysis is to upper bound the probability that any adversary could successfully guess which dataset the model was trained on.In our paper, we instantiate this hypothetical adversary in order to establish lower bounds on the probability that this distinguishing game can be won. We use this adversary to evaluate the importance of the adversary capabilities allowed in the privacy analysis of DP training algorithms.For DP-SGD, the most common method for training neural networks with differential privacy, our lower bounds are tight and match the theoretical upper bound. This implies that in order to prove better upper bounds, it will be necessary to make use of additional assumptions. Fortunately, we find that our attacks are significantly weaker when additional (realistic)restricti ons are put in place on the adversary's capabilities.Thus, in the practical setting common to many real-world deployments, there is a gap between our lower bounds and the upper bounds provided by the analysis: differential privacy is conservative and adversaries may not be able to leak as much information as suggested by the theoretical bound.
翻訳日:2021-04-04 16:29:37 公開日:2021-01-11
# (参考訳) Tinkeringからエンジニアリングへ:Tensorflow Playgroundにおける計測 [全文訳有]

From Tinkering to Engineering: Measurements in Tensorflow Playground ( http://arxiv.org/abs/2101.04141v1 )

ライセンス: CC BY 4.0
Henrik Hoeiness and Axel Harstad and Gerald Friedland(参考訳) 本稿では,Tensorflow Meter(TFMeter)と呼ばれるTensorflow Playgroundの拡張について述べる。 TFMeterは、ニューラルネットワークの異なるアーキテクチャを視覚的に作成できる、インタラクティブなニューラルネットワークアーキテクチャツールである。 本ツールでは,その祖先である遊び場に加えて,ネットワークの構築,トレーニング,テスト中に情報理論の測定結果を表示する。 その結果、それぞれの変更によって少なくとも1つの測定値が変更され、異なるアーキテクチャが何を学べるかのエンジニアリング直感が向上します。 この測定は文学の様々な場所から導かれる。 このデモでは、オンラインで利用可能なWebアプリケーションをhttp://tfmeter.icsi. berkeley.edu/で記述し、オリジナルのPlaygroundがニューラルネットワークに関する直観を構築することを目的としているのと同じように、当社のエクステンションは使用可能な測定についてユーザを教育する。

In this article, we present an extension of the Tensorflow Playground, called Tensorflow Meter (short TFMeter). TFMeter is an interactive neural network architecting tool that allows the visual creation of different architectures of neural networks. In addition to its ancestor, the playground, our tool shows information-theoreti c measurements while constructing, training, and testing the network. As a result, each change results in a change in at least one of the measurements, providing for a better engineering intuition of what different architectures are able to learn. The measurements are derived from various places in the literature. In this demo, we describe our web application that is available online at http://tfmeter.icsi. berkeley.edu/ and argue that in the same way that the original Playground is meant to build an intuition about neural networks, our extension educates users on available measurements, which we hope will ultimately improve experimental design and reproducibility in the field.
翻訳日:2021-04-04 16:03:06 公開日:2021-01-11
# (参考訳) BERT-GT:BERTとグラフトランスを用いたn-ary関係抽出 [全文訳有]

BERT-GT: Cross-sentence n-ary relation extraction with BERT and Graph Transformer ( http://arxiv.org/abs/2101.04158v1 )

ライセンス: CC BY 4.0
Po-Ting Lai and Zhiyong Lu(参考訳) バイオメディカルリレーションメントは、一般的に複数の文で表現され、遺伝子、疾患、化学、突然変異を含む多くの概念から構成される。 バイオメディカル文献から情報を自動的に抽出するために、既存のバイオメディカルテキストマイニングアプローチは、通常、複数の文にわたるn個のエンティティ間の関係を検知する横断的なn-ary関係抽出タスクとして問題を定式化し、長い短期記憶を持つグラフニューラルネットワーク(GNN)または注意機構を使用する。 近年、Transformerは多くの自然言語処理(NLP)タスクにおいてLSTMよりも優れていることが示されている。 本稿では,変換器からの双方向エンコーダ表現とグラフトランスフォーマ(bert-gt)を組み合わせた新しいアーキテクチャを提案する。 文全体を利用して現在のトークンの注目度を計算する元のトランスアーキテクチャとは異なり、本手法における隣り合わせ機構は、その隣のトークンのみを用いてその注目度を算出する。 したがって、各トークンは、ノイズが少なく隣の情報に注意を払うことができる。 クロス文や抽象レベルの関係抽出タスクのように、テキストが非常に長い場合、これは極めて重要であることを示す。 ベンチマークの結果,n-aryおよびケミカル-プロテイン関係データセットにおける精度5.44%と3.89%の改善とf1-measureが得られ,bert-gtは他の生物医学的関係抽出タスクやデータセットに適用可能な頑健なアプローチであることが示唆された。

A biomedical relation statement is commonly expressed in multiple sentences and consists of many concepts, including gene, disease, chemical, and mutation. To automatically extract information from biomedical literature, existing biomedical text-mining approaches typically formulate the problem as a cross-sentence n-ary relation-extraction task that detects relations among n entities across multiple sentences, and use either a graph neural network (GNN) with long short-term memory (LSTM) or an attention mechanism. Recently, Transformer has been shown to outperform LSTM on many natural language processing (NLP) tasks. In this work, we propose a novel architecture that combines Bidirectional Encoder Representations from Transformers with Graph Transformer (BERT-GT), through integrating a neighbor-attention mechanism into the BERT architecture. Unlike the original Transformer architecture, which utilizes the whole sentence(s) to calculate the attention of the current token, the neighbor-attention mechanism in our method calculates its attention utilizing only its neighbor tokens. Thus, each token can pay attention to its neighbor information with little noise. We show that this is critically important when the text is very long, as in cross-sentence or abstract-level relation-extraction tasks. Our benchmarking results show improvements of 5.44% and 3.89% in accuracy and F1-measure over the state-of-the-art on n-ary and chemical-protein relation datasets, suggesting BERT-GT is a robust approach that is applicable to other biomedical relation extraction tasks or datasets.
翻訳日:2021-04-04 16:00:06 公開日:2021-01-11
# (参考訳) ニューラルネットワークによる強化学習による一階問題の解法 [全文訳有]

First-Order Problem Solving through Neural MCTS based Reinforcement Learning ( http://arxiv.org/abs/2101.04167v1 )

ライセンス: CC BY 4.0
Ruiyang Xu, Prashank Kadam, Karl Lieberherr(参考訳) 解釈された一階述語論理(fol)文の形式的意味論は、タルスキー意味論または基本的に等価なゲーム意味論で与えられる。 後者は文と解釈を2人のプレイヤーによるセマンティクスゲームにマップする。 多くの組合せ問題は、解釈されたfol文を使って記述でき、意味ゲームにマッピングできる。 したがって、セマンティックゲームをプレイすることを学ぶことは、組合せ問題の特定の事例の解決につながる。 alphazeroアルゴリズムを採用することで、goやチェスと異なる特性を持つセマンティクスゲームを学べるようにしています。 本稿では,組換え問題のFOL記述を意味ゲームにマッピングして,ニューラルネットワークMCTSに基づく強化学習アルゴリズムを用いて解くための汎用フレームワークPersephoneを提案する。 Persephone の目標は,FOL に記述された問題を人間の介入なしに解にマッピングすることである。

The formal semantics of an interpreted first-order logic (FOL) statement can be given in Tarskian Semantics or a basically equivalent Game Semantics. The latter maps the statement and the interpretation into a two-player semantic game. Many combinatorial problems can be described using interpreted FOL statements and can be mapped into a semantic game. Therefore, learning to play a semantic game perfectly leads to the solution of a specific instance of a combinatorial problem. We adapt the AlphaZero algorithm so that it becomes better at learning to play semantic games that have different characteristics than Go and Chess. We propose a general framework, Persephone, to map the FOL description of a combinatorial problem to a semantic game so that it can be solved through a neural MCTS based reinforcement learning algorithm. Our goal for Persephone is to make it tabula-rasa, mapping a problem stated in interpreted FOL to a solution without human intervention.
翻訳日:2021-04-04 15:48:58 公開日:2021-01-11
# (参考訳) Slodderwetenschap (Sloppy Science) of Stochastic Parrots -- Gebru and Bender が提唱する、科学のための場 [全文訳有]

The Slodderwetenschap (Sloppy Science) of Stochastic Parrots -- A Plea for Science to NOT take the Route Advocated by Gebru and Bender ( http://arxiv.org/abs/2101.10098v1 )

ライセンス: CC BY 4.0
Michael Lissack(参考訳) この記事では、現在悪名高い論文である"on the dangers of stochastic parrots: can language models be too big? ティニット・ゲブル(Timnit Gebru)、エミリー・ベンダー(Emily Bender)らによって、この著作の日付は未発表のままである。 私はParrot Paperの倫理が欠如していることに気付き、その欠如の中で、コンピュータ科学、機械学習、人工知能が進む方向について心配しています。 学界は心理学におけるディデリック・ステペル事件(Diederik Stapel affair in Psycho [2])とともに広く用いられてきた言葉であるSlodderwetenschap(Sl odderwetenschap)としてパロット・ペーパーに具現化された議論と顕在化の実践について論じる。 パロット・ペーパーに欠けているのは、3つの重要な要素である:(1)研究よりもポジション・ペーパー・アドボケーション・ピースであることを認め、(2)批判的前提を明確に明記し、(3)利益が重要でないかのように、潜在的「ハーム」の単なるリサイクリングではなく、コスト・利益トレードオフを明確に考慮すること。 これら3つの要素を除外することは、科学と研究の両方にとって良い実践ではない。

This article is a position paper written in reaction to the now-infamous paper titled "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?" by Timnit Gebru, Emily Bender, and others who were, as of the date of this writing, still unnamed. I find the ethics of the Parrot Paper lacking, and in that lack, I worry about the direction in which computer science, machine learning, and artificial intelligence are heading. At best, I would describe the argumentation and evidentiary practices embodied in the Parrot Paper as Slodderwetenschap (Dutch for Sloppy Science) -- a word which the academic world last widely used in conjunction with the Diederik Stapel affair in psychology [2]. What is missing in the Parrot Paper are three critical elements: 1) acknowledgment that it is a position paper/advocacy piece rather than research, 2) explicit articulation of the critical presuppositions, and 3) explicit consideration of cost/benefit trade-offs rather than a mere recitation of potential "harms" as if benefits did not matter. To leave out these three elements is not good practice for either science or research.
翻訳日:2021-04-04 15:33:14 公開日:2021-01-11
# (参考訳) 新型コロナウイルスの死亡率の空間的分析 [全文訳有]

Where you live matters: a spatial analysis of COVID-19 mortality ( http://arxiv.org/abs/2101.04199v1 )

ライセンス: CC BY 4.0
Behzad Javaheri(参考訳) 新型コロナウイルスのパンデミックで約200万人の死者が出た。 しかし、未解決の質問の1つとして、メキシコとのケース/モルティリティ比の異常が明確な例として挙げられている。 ここでは、この異常を空間解析により調べ、局所要因に応じて死亡率が局所的に変化するかどうかを考察する。 これに対処するため、ヘキサゴナル地図(hexbin)は、新型コロナウイルスの死亡率を空間的にマッピングし、人口統計や既存の健康状態に関する患者レベルのデータと関連づけるために使用される。 これはメキシコシティレベルでコロンプルスマッピングによってさらに尋問された。 ヘキサゴナルカルトグラムの使用は、地域規模と人口の偏りに対処するため、メキシコにおけるCOVID-19データの空間マッピングにより良いアプローチであることを示す。 メキシコ州における性・年齢関連空間的関係と死亡率,健康状態と死亡率の関係について報告する。 メキシコシティには明確な南部と北部の区分があり、北部の自治体では死亡率が高い。 これらの北部自治体の患者は、最も高い既往の健康状態にある。 そこで本研究では,メキシコにおけるcovid-19マッピングの改良と,メキシコにおける死亡率の空間的多様性の実証を行った。

The COVID-19 pandemic has caused ~ 2 million fatalities. Significant progress has been made in advancing our understanding of the disease process, one of the unanswered questions, however, is the anomaly in the case/mortality ratio with Mexico as a clear example. Herein, this anomaly is explored by spatial analysis and whether mortality varies locally according to local factors. To address this, hexagonal cartogram maps (hexbin) used to spatially map COVID-19 mortality and visualise association with patient-level data on demographics and pre-existing health conditions. This was further interrogated at local Mexico City level by choropleth mapping. Our data show that the use of hexagonal cartograms is a better approach for spatial mapping of COVID-19 data in Mexico as it addresses bias in area size and population. We report sex/age-related spatial relationship with mortality amongst the Mexican states and a trend between health conditions and mortality at the state level. Within Mexico City, there is a clear south, north divide with higher mortality in the northern municipalities. Deceased patients in these northern municipalities have the highest pre-existing health conditions. Taken together, this study provides an improved presentation of COVID-19 mapping in Mexico and demonstrates spatial divergence of the mortality in Mexico.
翻訳日:2021-04-04 15:22:29 公開日:2021-01-11
# (参考訳) PyHealth: ヘルス予測モデルのためのPythonライブラリ [全文訳有]

PyHealth: A Python Library for Health Predictive Models ( http://arxiv.org/abs/2101.04209v1 )

ライセンス: CC BY 4.0
Yue Zhao, Zhi Qiao, Cao Xiao, Lucas Glass, Jimeng Sun(参考訳) 医療AI研究への関心が急増しているにもかかわらず、それらの研究成果の再現性とベンチマークは、標準ベンチマークデータセットと多様な評価指標が欠如しているため、しばしば制限される。 この再現性の問題に対処するため、医療データ上で様々な予測モデルを開発するためのオープンソースのPythonツールボックスであるPyHealthを開発した。 PyHealthはデータ前処理モジュール、予測モデリングモジュール、評価モジュールで構成される。 PyHealthのターゲットユーザは、コンピュータサイエンス研究者と医療データサイエンティストの両方だ。 pyhealthでは、10行未満のコードで、医療データセット上で複雑な機械学習パイプラインを実行できる。 データ前処理モジュールは、縦断的な電子健康記録、医療画像、連続信号(例えば心電図)、臨床メモなどの複雑な医療データセットを機械学習フレンドリーなフォーマットに変換することができる。 予測モデリングモジュールは、研究者と実践者の両方のために設計された統一的で拡張可能なAPIを通じて、確立されたアンサンブルツリーやディープニューラルネットワークベースのアプローチを含む30以上の機械学習モデルを提供する。 評価モジュールはさまざまな評価戦略(クロスバリデーションやトレインバリデーションテストの分割など)と予測モデルメトリクスを提供する。 堅牢性とスケーラビリティを念頭に置いて,ユニットテストや継続的インテグレーション,コードカバレッジ,インタラクティブな例といったベストプラクティスがライブラリの開発に導入されている。 PyHealthはPython Package Index (PyPI)またはhttps://github.com/y zhao062/PyHealthを通じてインストールできる。

Despite the explosion of interest in healthcare AI research, the reproducibility and benchmarking of those research works are often limited due to the lack of standard benchmark datasets and diverse evaluation metrics. To address this reproducibility challenge, we develop PyHealth, an open-source Python toolbox for developing various predictive models on healthcare data. PyHealth consists of data preprocessing module, predictive modeling module, and evaluation module. The target users of PyHealth are both computer science researchers and healthcare data scientists. With PyHealth, they can conduct complex machine learning pipelines on healthcare datasets with fewer than ten lines of code. The data preprocessing module enables the transformation of complex healthcare datasets such as longitudinal electronic health records, medical images, continuous signals (e.g., electrocardiogram), and clinical notes into machine learning friendly formats. The predictive modeling module provides more than 30 machine learning models, including established ensemble trees and deep neural network-based approaches, via a unified but extendable API designed for both researchers and practitioners. The evaluation module provides various evaluation strategies (e.g., cross-validation and train-validation-tes t split) and predictive model metrics. With robustness and scalability in mind, best practices such as unit testing, continuous integration, code coverage, and interactive examples are introduced in the library's development. PyHealth can be installed through the Python Package Index (PyPI) or https://github.com/y zhao062/PyHealth .
翻訳日:2021-04-04 15:12:08 公開日:2021-01-11
# 個人移動予測: 解釈可能なアクティビティベース隠れマルコフアプローチ

Individual Mobility Prediction: An Interpretable Activity-based Hidden Markov Approach ( http://arxiv.org/abs/2101.03996v1 )

ライセンス: Link先を確認
Baichuan Mo, Zhan Zhao, Haris N. Koutsopoulos, Jinhua Zhao(参考訳) 個人のモビリティは、様々な時空間パターンを持つアクティビティの需要によって駆動されるが、既存のモビリティ予測の方法は、しばしば基礎となるアクティビティパターンを見落としている。 そこで本研究では,個人移動予測のためのアクティビティに基づくモデリングフレームワークを開発した。 具体的には,入力出力隠れマルコフモデル(IOHMM)フレームワークを提案し,トランジットスマートカードデータを用いて次の旅行の(連続的な)時間と(離散的な)位置を同時に予測する。 予測タスクは、隠れた活動継続時間と終了位置の予測に変換できる。 香港のmetroシステムのケーススタディに基づいて,提案モデルが最先端のlong short-term memory (lstm)モデルと同様の予測性能を達成可能であることを示す。 LSTMとは異なり、提案したIOHMMモデルは隠れた活動パターンの分析にも利用でき、これは個人がなぜ旅行をするのかを意味のある行動解釈を提供する。 したがって,アクティビティベースの予測フレームワークは,先進的な機械学習手法の予測力を保ちつつ,洞察に富んだ行動説明を生成する能力を高めつつ,パーソナライズされた旅行情報などのユーザ中心の交通アプリケーションにおける状況意識を高めるのに役立つ。

Individual mobility is driven by demand for activities with diverse spatiotemporal patterns, but existing methods for mobility prediction often overlook the underlying activity patterns. To address this issue, this study develops an activity-based modeling framework for individual mobility prediction. Specifically, an input-output hidden Markov model (IOHMM) framework is proposed to simultaneously predict the (continuous) time and (discrete) location of an individual's next trip using transit smart card data. The prediction task can be transformed into predicting the hidden activity duration and end location. Based on a case study of Hong Kong's metro system, we show that the proposed model can achieve similar prediction performance as the state-of-the-art long short-term memory (LSTM) model. Unlike LSTM, the proposed IOHMM model can also be used to analyze hidden activity patterns, which provides meaningful behavioral interpretation for why an individual makes a certain trip. Therefore, the activity-based prediction framework offers a way to preserve the predictive power of advanced machine learning methods while enhancing our ability to generate insightful behavioral explanations, which is useful for enhancing situational awareness in user-centric transportation applications such as personalized traveler information.
翻訳日:2021-04-04 14:52:19 公開日:2021-01-11
# 液晶製造産業における認知視覚検査サービス

Cognitive Visual Inspection Service for LCD Manufacturing Industry ( http://arxiv.org/abs/2101.03747v1 )

ライセンス: Link先を確認
Yuanyuan Ding and Junchi Yan and Guoqiang Hu and Jun Zhu(参考訳) ディスプレイ機器の急速な成長に伴い、フラットパネルディスプレイ(FPD)業界では、機械ビジョン技術による品質検査がますます重要になっている。 本稿では,現在FPD業界で主流となっている液晶ディスプレイ(LCD)の視覚検査システムについて述べる。 このシステムは、堅牢/高性能な欠陥認識モデルと、認知視覚検査サービスアーキテクチャの2つの基盤に基づいている。 従来のコンピュータビジョン技術と最新の深層畳み込みニューラルネットワーク(dcnn)のハイブリッド応用により、画像レベルのクラスアノテーションだけで経済的に訓練可能な欠陥検出、分類、衝撃評価モデルが統合され、高い検査精度を達成する。 さらに、適切に訓練されたモデルは、画像キュリティの変動に対して堅牢であり、モデル予測性能と画像取得環境との依存性を著しく軽減する。 これは、認知視覚検査サービスアーキテクチャの設計と実現を動機付けることにより、フロントエンドデバイスからバックエンドセバストへの欠陥認識機能の分離を正当化する。 実世界のLCD製造ラインにおいて,異なる層や製品を有する製造ラインからの大規模実世界のLCDデータセットを用いて実証ケーススタディを行い,実世界のLCD製造ラインに世界の主要プレイヤーから展開されたシステムの有用性を示す。

With the rapid growth of display devices, quality inspection via machine vision technology has become increasingly important for flat-panel displays (FPD) industry. This paper discloses a novel visual inspection system for liquid crystal display (LCD), which is currently a dominant type in the FPD industry. The system is based on two cornerstones: robust/high-performa nce defect recognition model and cognitive visual inspection service architecture. A hybrid application of conventional computer vision technique and the latest deep convolutional neural network (DCNN) leads to an integrated defect detection, classfication and impact evaluation model that can be economically trained with only image-level class annotations to achieve a high inspection accuracy. In addition, the properly trained model is robust to the variation of the image qulity, significantly alleviating the dependency between the model prediction performance and the image aquisition environment. This in turn justifies the decoupling of the defect recognition functions from the front-end device to the back-end serivce, motivating the design and realization of the cognitive visual inspection service architecture. Empirical case study is performed on a large-scale real-world LCD dataset from a manufacturing line with different layers and products, which shows the promising utility of our system, which has been deployed in a real-world LCD manufacturing line from a major player in the world.
翻訳日:2021-04-04 14:51:36 公開日:2021-01-11
# ベイズ型ニューラルネットワークは、コンパクトな惑星系の溶解を予測する

A Bayesian neural network predicts the dissolution of compact planetary systems ( http://arxiv.org/abs/2101.04117v1 )

ライセンス: Link先を確認
Miles Cranmer, Daniel Tamayo, Hanno Rein, Peter Battaglia, Samuel Hadden, Philip J. Armitage, Shirley Ho, David N. Spergel(参考訳) 300年以上の努力にもかかわらず、一般的な惑星構成が不安定になると予測するための解決策は存在しない。 我々は,この問題をコンパクトシステムで推進するために,ディープラーニングアーキテクチャを導入する。 この領域における現在の機械学習アルゴリズムは、科学者による不安定なメトリクスに依存しているが、この新しいテクニックは、ダイナミクス理論に触発された新しい内部構造によって、スクラッチから独自のメトリクスを学習する。 私たちのベイズ型ニューラルネットワークモデルは、ifだけでなく、3つ以上の惑星が不安定になるコンパクトな惑星系も正確に予測できます。 実軌道要素の短いN-体時系列から直接訓練したモデルでは,解析的推定値よりも不安定時間の予測が2桁以上正確であると同時に,既存の機械学習アルゴリズムのバイアスを3倍近く低減する。 コンパクト共振および近共振三平面構成で訓練されているにもかかわらず、このモデルは非共振およびより高い多重性構成の両方に堅牢な一般化を示す。 このモデルは、数値積分器よりも最大5桁高速な不安定性推定を計算し、以前の試みとは異なり、予測に対する信頼区間を提供する。 私たちの推論モデルは、トレーニングコードをオープンソース化したspockパッケージで公開されています。

Despite over three hundred years of effort, no solutions exist for predicting when a general planetary configuration will become unstable. We introduce a deep learning architecture to push forward this problem for compact systems. While current machine learning algorithms in this area rely on scientist-derived instability metrics, our new technique learns its own metrics from scratch, enabled by a novel internal structure inspired from dynamics theory. Our Bayesian neural network model can accurately predict not only if, but also when a compact planetary system with three or more planets will go unstable. Our model, trained directly from short N-body time series of raw orbital elements, is more than two orders of magnitude more accurate at predicting instability times than analytical estimators, while also reducing the bias of existing machine learning algorithms by nearly a factor of three. Despite being trained on compact resonant and near-resonant three-planet configurations, the model demonstrates robust generalization to both non-resonant and higher multiplicity configurations, in the latter case outperforming models fit to that specific set of integrations. The model computes instability estimates up to five orders of magnitude faster than a numerical integrator, and unlike previous efforts provides confidence intervals on its predictions. Our inference model is publicly available in the SPOCK package, with training code open-sourced.
翻訳日:2021-04-04 14:50:54 公開日:2021-01-11
# 中間監督信号学習によるマルチホップ知識ベース質問応答の改善

Improving Multi-hop Knowledge Base Question Answering by Learning Intermediate Supervision Signals ( http://arxiv.org/abs/2101.03737v1 )

ライセンス: Link先を確認
Gaole He, Yunshi Lan, Jing Jiang, Wayne Xin Zhao and Ji-Rong Wen(参考訳) KBQA(Multi-hop Knowledge Base Question Answering)は、知識ベース(KB)から複数のホップを持つ答えエンティティを抽出することを目的としている。 主要な課題は、中間段階における監視信号の欠如である。 したがって、マルチホップKBQAアルゴリズムは最終回答からのフィードバックしか受信できないため、学習が不安定または非効率になる。 この課題に対処するために,マルチホップKBQAタスクのための新しい教師学生アプローチを提案する。 本研究では,学生ネットワークが質問に対する正しい回答を見つけることを目的としており,教師ネットワークは学生ネットワークの推論能力を向上させるための中間的監督信号の学習を試みる。 教師ネットワークの設計において,中間実体分布の学習を促進するために,前向き推論と後向き推論の両方を利用する。 双方向推論を考えることで、教師ネットワークはより信頼性の高い中間監督信号を生成することができる。 3つのベンチマークデータセットに対する大規模な実験により、KBQAタスクに対するアプローチの有効性が実証された。

Multi-hop Knowledge Base Question Answering (KBQA) aims to find the answer entities that are multiple hops away in the Knowledge Base (KB) from the entities in the question. A major challenge is the lack of supervision signals at intermediate steps. Therefore, multi-hop KBQA algorithms can only receive the feedback from the final answer, which makes the learning unstable or ineffective. To address this challenge, we propose a novel teacher-student approach for the multi-hop KBQA task. In our approach, the student network aims to find the correct answer to the query, while the teacher network tries to learn intermediate supervision signals for improving the reasoning capacity of the student network. The major novelty lies in the design of the teacher network, where we utilize both forward and backward reasoning to enhance the learning of intermediate entity distributions. By considering bidirectional reasoning, the teacher network can produce more reliable intermediate supervision signals, which can alleviate the issue of spurious reasoning. Extensive experiments on three benchmark datasets have demonstrated the effectiveness of our approach on the KBQA task.
翻訳日:2021-04-04 14:50:33 公開日:2021-01-11
# 新型コロナウイルスのフェイクニュース検出モデル

Model Generalization on COVID-19 Fake News Detection ( http://arxiv.org/abs/2101.03841v1 )

ライセンス: Link先を確認
Yejin Bang, Etsuko Ishii, Samuel Cahyawijaya, Ziwei Ji, Pascale Fung(参考訳) 新型コロナウイルスのパンデミックが続く中、世界は偽情報と実情報の両方の拡散で前例のないインフォデミックに直面している。 新型コロナウイルス(COVID-19)の偽ニュースがもたらす問題の結果を考えると、科学界はそれに取り組む努力をしてきた。 このインフォデミックとの闘いに寄与するため,我々は制約2021(fakenews-19)で提案されたcovid-19フェイクニューズ検出タスクに対して,1)ロバストな損失関数を有するトランスフォーマーベースの言語モデル,2)影響計算による有害なトレーニングインスタンスの除去という2つのアプローチにより,堅牢なモデルの実現を目指している。 我々は、モデル一般化能力を理解するために、異なるCOVID-19誤情報テストセット(Tweets-19)で評価することで、モデルの堅牢性をさらに評価する。 最初のアプローチでは、共有タスクの重み付きF1スコア(W-F1)は98.13%、Tweets-19では38.18%である。 それとは対照的に、影響データのクリーニングを行うことで、当社の99%のクリーニングパーセンテージを持つモデルは、トレードオフのあるTweets-19で54.33%のW-F1スコアを達成することができる。 2つの偽ニューステストセットでモデルを評価することにより、オンラインソーシャルメディアプラットフォームにおける偽ニュース問題に対処するために、このタスクにおけるモデル一般化能力の重要性を示唆する。

Amid the pandemic COVID-19, the world is facing unprecedented infodemic with the proliferation of both fake and real information. Considering the problematic consequences that the COVID-19 fake-news have brought, the scientific community has put effort to tackle it. To contribute to this fight against the infodemic, we aim to achieve a robust model for the COVID-19 fake-news detection task proposed at CONSTRAINT 2021 (FakeNews-19) by taking two separate approaches: 1) fine-tuning transformers based language models with robust loss functions and 2) removing harmful training instances through influence calculation. We further evaluate the robustness of our models by evaluating on different COVID-19 misinformation test set (Tweets-19) to understand model generalization ability. With the first approach, we achieve 98.13% for weighted F1 score (W-F1) for the shared task, whereas 38.18% W-F1 on the Tweets-19 highest. On the contrary, by performing influence data cleansing, our model with 99% cleansing percentage can achieve 54.33% W-F1 score on Tweets-19 with a trade-off. By evaluating our models on two COVID-19 fake-news test sets, we suggest the importance of model generalization ability in this task to step forward to tackle the COVID-19 fake-news problem in online social media platforms.
翻訳日:2021-04-04 14:50:15 公開日:2021-01-11
# インテリジェントシステムに向けた機械学習: 応用、挑戦、機会

Machine Learning Towards Intelligent Systems: Applications, Challenges, and Opportunities ( http://arxiv.org/abs/2101.03655v1 )

ライセンス: Link先を確認
MohammadNoor Injadat, Abdallah Moubayed, Ali Bou Nassif, Abdallah Shami(参考訳) インターネットおよび関連技術への出現と継続的な依存は、分析に利用できる大量のデータを生成する結果となった。 しかし、人間はそのような大量のデータを理解する認知能力を持っていない。 機械学習(ML)は、人間が大量のデータを処理し、データの振る舞いに関する洞察を得て、結果の分析に基づいてより深い意思決定を行うためのメカニズムを提供する。 MLは様々な分野で応用されている。 このレビューは教育、医療、ネットワークセキュリティ、銀行と金融、ソーシャルメディアといった分野と応用に焦点を当てている。 これらのフィールドには、複数のユニークな課題があります。 しかし、MLはこれらの課題に対する解決策を提供し、さらなる研究機会を生み出すことができる。 そこで,本研究では,上記の分野に直面する課題を調査し,それらに取り組む以前の文献の一部を提示する。 さらに、これらの課題に対処するためにMLを使用することから恩恵を受けるいくつかの研究機会も提案されている。

The emergence and continued reliance on the Internet and related technologies has resulted in the generation of large amounts of data that can be made available for analyses. However, humans do not possess the cognitive capabilities to understand such large amounts of data. Machine learning (ML) provides a mechanism for humans to process large amounts of data, gain insights about the behavior of the data, and make more informed decision based on the resulting analysis. ML has applications in various fields. This review focuses on some of the fields and applications such as education, healthcare, network security, banking and finance, and social media. Within these fields, there are multiple unique challenges that exist. However, ML can provide solutions to these challenges, as well as create further research opportunities. Accordingly, this work surveys some of the challenges facing the aforementioned fields and presents some of the previous literature works that tackled them. Moreover, it suggests several research opportunities that benefit from the use of ML to address these challenges.
翻訳日:2021-04-04 14:49:33 公開日:2021-01-11
# 移動学習に基づくリチウムイオン電池の常温帯電状態の推定

A Transfer Learning-based State of Charge Estimation for Lithium-Ion Battery at Varying Ambient Temperatures ( http://arxiv.org/abs/2101.03704v1 )

ライセンス: Link先を確認
Yan Qin, Stefan Adams, and Chau Yuen(参考訳) リチウムイオン電池(LiBs)を駆動するデバイスに安定かつ効率的な環境を提供するために、精度が高く信頼性の高い充電状態推定(SoC)がますます重要になる。 多くのデータ駆動型SoCモデルは、温度に対するLiBsの高感度を無視し、重大な予測誤差を引き起こすような、一定の環境温度のために構築されている。 それでも,soc推定における温度の影響の体系的評価や,限られたデータを用いた推定モデルの新たな温度への迅速な調整方法についてはほとんど議論されていない。 これらの課題を解決するために, 測定の時間的ダイナミクスを活用し, 異なる温度間で一貫した推定能力を伝達することにより, 新たなsoc推定法を提案する。 まず,過去のゆらぎと将来の動きとの相関によって提示される時間力学を正準変量解析を用いて抽出する。 次に、時間的ダイナミクスを用いて、参照SoC推定モデルと推定能力監視モデルを含む2つのモデルを開発する。 モニタリングモデルは、SoC推定能力に対する温度の影響を定量的に評価するための経路を提供する。 その後、参照SoC推定モデルの異常が検出されると、転移学習のために温度間の一貫した時間ダイナミクスが選択される。 最後に,提案手法の有効性をベンチマークを用いて検証した。 提案手法は,一定の温度での予測誤差(-20{\deg}cでは24.35%, 25{\deg}cでは49.82%)を低減し, 新たな温度での予測精度を向上させる。

Accurate and reliable state of charge (SoC) estimation becomes increasingly important to provide a stable and efficient environment for Lithium-ion batteries (LiBs) powered devices. Most data-driven SoC models are built for a fixed ambient temperature, which neglect the high sensitivity of LiBs to temperature and may cause severe prediction errors. Nevertheless, a systematic evaluation of the impact of temperature on SoC estimation and ways for a prompt adjustment of the estimation model to new temperatures using limited data have been hardly discussed. To solve these challenges, a novel SoC estimation method is proposed by exploiting temporal dynamics of measurements and transferring consistent estimation ability among different temperatures. First, temporal dynamics, which is presented by correlations between the past fluctuation and the future motion, is extracted using canonical variate analysis. Next, two models, including a reference SoC estimation model and an estimation ability monitoring model, are developed with temporal dynamics. The monitoring model provides a path to quantitatively evaluate the influences of temperature on SoC estimation ability. After that, once the inability of the reference SoC estimation model is detected, consistent temporal dynamics between temperatures are selected for transfer learning. Finally, the efficacy of the proposed method is verified through a benchmark. Our proposed method not only reduces prediction errors at fixed temperatures (e.g., reduced by 24.35% at -20{\deg}C, 49.82% at 25{\deg}C) but also improves prediction accuracies at new temperatures.
翻訳日:2021-04-04 14:49:20 公開日:2021-01-11
# 時系列解析のための自己符号化コンパクト表現を用いた階層クラスタリング

Hierarchical Clustering using Auto-encoded Compact Representation for Time-series Analysis ( http://arxiv.org/abs/2101.03742v1 )

ライセンス: Link先を確認
Soma Bandyopadhyay, Anish Datta and Arpan Pal (TCS Research, TATA Consultancy Services, Kolkata, India)(参考訳) 距離測定と適切な表現の最適な選択で、堅牢な時系列クラスタリングを得ることは、常に課題です。 本稿では,学習した時系列のコンパクト表現,オートエンコードコンパクトシーケンス(AECS),階層クラスタリングアプローチを組み合わせたクラスタの識別機構を提案する。 提案アルゴリズムは、学習された潜在表現aecsの長さが元の時系列の長さよりもずっと低く、その性能向上を望んでいるため、階層的クラスタリングの大規模な計算時間問題に対処することを目的としている。このアルゴリズムは、最良クラスタリングを推奨するために最良距離尺度の選択により、完全シーケンストシーケンス(seq2seq)と凝集型クラスタリングをベースとする再帰的ニューラルネットワーク(rnn)を活用する。 本手法は,一変量と多変量の両方の時系列に対して最適な距離測度と対応するクラスタリングを選択する。 私たちは、健康、スマートシティ、製造など、さまざまなアプリケーションドメインから得られたUCCとUCIアーカイブの実際の時系列を実験しました。 実験結果から,提案手法はベンチマーク結果に近づいただけでなく,ベンチマークよりも優れた結果が得られた。

Getting a robust time-series clustering with best choice of distance measure and appropriate representation is always a challenge. We propose a novel mechanism to identify the clusters combining learned compact representation of time-series, Auto Encoded Compact Sequence (AECS) and hierarchical clustering approach. Proposed algorithm aims to address the large computing time issue of hierarchical clustering as learned latent representation AECS has a length much less than the original length of time-series and at the same time want to enhance its performance.Our algorithm exploits Recurrent Neural Network (RNN) based under complete Sequence to Sequence(seq2seq) autoencoder and agglomerative hierarchical clustering with a choice of best distance measure to recommend the best clustering. Our scheme selects the best distance measure and corresponding clustering for both univariate and multivariate time-series. We have experimented with real-world time-series from UCR and UCI archive taken from diverse application domains like health, smart-city, manufacturing etc. Experimental results show that proposed method not only produce close to benchmark results but also in some cases outperform the benchmark.
翻訳日:2021-04-04 14:48:55 公開日:2021-01-11
# switch transformers: シンプルで効率的なスパーシティで1兆のパラメータモデルにスケールする

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity ( http://arxiv.org/abs/2101.03961v1 )

ライセンス: Link先を確認
William Fedus, Barret Zoph, Noam Shazeer(参考訳) ディープラーニングでは、モデルは通常、すべての入力に対して同じパラメータを再利用する。 Mixture of Experts (MoE)はこれを定義し、代わりに、受信する各例ごとに異なるパラメータを選択する。 その結果、厳密に活性化されたモデル -- パラメータの無数のモデル -- が、計算コストは一定である。 しかし、MoEのいくつかの顕著な成功にもかかわらず、広く採用されているのは複雑さ、通信コスト、トレーニングの不安定さである。 我々は、MoEルーティングアルゴリズムを単純化し、通信コストと計算コストを削減した直感的な改良モデルを設計する。 提案するトレーニング手法は不安定さを緩和するのに役立つため,大規模なスパースモデルが初めて低精度 (bfloat16) フォーマットで訓練できることを示す。 我々は,t5-base と t5-large に基づいてモデルを設計し,同じ計算資源で事前学習速度を最大7倍向上させる。 これらの改善は、すべての101言語にわたるmT5-Baseバージョンに対するゲインを測定するマルチ言語設定にまで拡張されている。 最後に,「Colossal Clean Crawled Corpus」上で最大1兆のパラメータモデルを事前学習し,T5-XXLモデルよりも4倍の高速化を実現することにより,現在の言語モデルのスケールを推し進める。

In deep learning, models typically reuse the same parameters for all inputs. Mixture of Experts (MoE) defies this and instead selects different parameters for each incoming example. The result is a sparsely-activated model -- with outrageous numbers of parameters -- but a constant computational cost. However, despite several notable successes of MoE, widespread adoption has been hindered by complexity, communication costs and training instability -- we address these with the Switch Transformer. We simplify the MoE routing algorithm and design intuitive improved models with reduced communication and computational costs. Our proposed training techniques help wrangle the instabilities and we show large sparse models may be trained, for the first time, with lower precision (bfloat16) formats. We design models based off T5-Base and T5-Large to obtain up to 7x increases in pre-training speed with the same computational resources. These improvements extend into multilingual settings where we measure gains over the mT5-Base version across all 101 languages. Finally, we advance the current scale of language models by pre-training up to trillion parameter models on the "Colossal Clean Crawled Corpus" and achieve a 4x speedup over the T5-XXL model.
翻訳日:2021-04-04 14:48:38 公開日:2021-01-11
# データ駆動・説明可能な顧客感情モニタのためのシステム設計

System Design for a Data-driven and Explainable Customer Sentiment Monitor ( http://arxiv.org/abs/2101.04086v1 )

ライセンス: Link先を確認
An Nguyen, Stefan Foerstel, Thomas Kittler, Andrey Kurzyukov, Leo Schwinn, Dario Zanca, Tobias Hipp, Da Jun Sun, Michael Schrapp, Eva Rothgang, Bjoern Eskofier(参考訳) 顧客サービスの最も重要な目標は、顧客満足を維持することです。 しかしながら、サービスリソースは常に制限され、優先順位を付ける必要があります。 したがって、満足できなくなり、エスカレーションにつながる可能性のある顧客を特定することが重要である。 今日では、顧客の優先順位付けは手動で行うことが多い。 IoTデータに関するデータサイエンス(esp)。 ログデータ) マシンヘルスモニタリングや顧客関係管理(crm)のための企業データの分析は、主に独立して研究され、適用されてきた。 本稿では、IoTと企業データを組み合わせて顧客感情をモデル化するデータ駆動意思決定支援システムのフレームワークを提案する。 このような意思決定支援システムは、顧客やサービスリソースを優先し、問題を効果的にトラブルシュートしたり、回避したりするのに役立ちます。 このフレームワークは、主要な医療機器メーカーとの実際のケーススタディに適用される。 これには、完全に自動化され、解釈可能なマシンラーニングパイプラインが含まれており、ドメインの専門家やエンドユーザが定義した要件を満たすように設計されている。 フレームワークは現在、数千のハイエンド医療機器の顧客感情を積極的に監視するために、テラバイト単位のIoTおよびエンタープライズデータから予測モデルをデプロイ、学習、評価している。 さらに,研究コミュニティ向けに匿名化産業ベンチマークデータセットを提供する。

The most important goal of customer services is to keep the customer satisfied. However, service resources are always limited and must be prioritized. Therefore, it is important to identify customers who potentially become unsatisfied and might lead to escalations. Today this prioritization of customers is often done manually. Data science on IoT data (esp. log data) for machine health monitoring, as well as analytics on enterprise data for customer relationship management (CRM) have mainly been researched and applied independently. In this paper, we present a framework for a data-driven decision support system which combines IoT and enterprise data to model customer sentiment. Such decision support systems can help to prioritize customers and service resources to effectively troubleshoot problems or even avoid them. The framework is applied in a real-world case study with a major medical device manufacturer. This includes a fully automated and interpretable machine learning pipeline designed to meet the requirements defined with domain experts and end users. The overall framework is currently deployed, learns and evaluates predictive models from terabytes of IoT and enterprise data to actively monitor the customer sentiment for a fleet of thousands of high-end medical devices. Furthermore, we provide an anonymized industrial benchmark dataset for the research community.
翻訳日:2021-04-04 14:48:14 公開日:2021-01-11
# ポリシーイテレーションによる共通ペイオフゲームの解決

Solving Common-Payoff Games with Approximate Policy Iteration ( http://arxiv.org/abs/2101.04237v1 )

ライセンス: Link先を確認
Samuel Sokota, Edward Lockhart, Finbarr Timbers, Elnaz Davoodi, Ryan D'Orazio, Neil Burch, Martin Schmid, Michael Bowling, Marc Lanctot(参考訳) 人工知能学習システムが現実世界で広く適用可能であるためには,分散的に運用できることが重要である。 残念ながら、分散制御は難しい。epsilon-optimalのジョイントポリシーでさえも、nexpの完全な問題である。 しかし、最近再発見された、エージェントのチームが共通の知識を通じて協調できるという洞察は、小さな共通支払いゲームで最適な共同ポリシーを見つけるアルゴリズムを生み出した。 ベイズアクションデコーダ(BAD)は、この洞察と深い強化学習を利用して、2人のプレイヤーであるハナビのゲームにスケールする。 しかし、それが行おうとする近似は、最適な解を強迫するほど小さいゲームでも最適なジョイントポリシーを発見するのを防ぐ。 この研究は、共通知識と深い強化学習を組み合わせた新しいアルゴリズムであるCAPIを提案する。 しかし、BADとは異なり、CAPIはスケーラビリティよりも最適なジョイントポリシーを見つけるための妥当性を優先している。 この選択は、CAPIがハナビほど大きなゲームにスケールすることを妨げるが、実証的な結果は、CAPIがスケールするゲームでは、他の現代的なマルチエージェント強化学習アルゴリズムではできない場合でも、最適なジョイントポリシーを発見することができることを示している。 コードはhttps://github.com/s sokota/capiで入手できる。

For artificially intelligent learning systems to have widespread applicability in real-world settings, it is important that they be able to operate decentrally. Unfortunately, decentralized control is difficult -- computing even an epsilon-optimal joint policy is a NEXP complete problem. Nevertheless, a recently rediscovered insight -- that a team of agents can coordinate via common knowledge -- has given rise to algorithms capable of finding optimal joint policies in small common-payoff games. The Bayesian action decoder (BAD) leverages this insight and deep reinforcement learning to scale to games as large as two-player Hanabi. However, the approximations it uses to do so prevent it from discovering optimal joint policies even in games small enough to brute force optimal solutions. This work proposes CAPI, a novel algorithm which, like BAD, combines common knowledge with deep reinforcement learning. However, unlike BAD, CAPI prioritizes the propensity to discover optimal joint policies over scalability. While this choice precludes CAPI from scaling to games as large as Hanabi, empirical results demonstrate that, on the games to which CAPI does scale, it is capable of discovering optimal joint policies even when other modern multi-agent reinforcement learning algorithms are unable to do so. Code is available at https://github.com/s sokota/capi .
翻訳日:2021-04-04 14:47:56 公開日:2021-01-11
# 深層畳み込みニューラルネットワークの無限極限における相関重み

Correlated Weights in Infinite Limits of Deep Convolutional Neural Networks ( http://arxiv.org/abs/2101.04097v1 )

ライセンス: Link先を確認
Adri\`a Garriga-Alonso, Mark van der Wilk(参考訳) ディープニューラルネットワークの無限幅制限はしばしば扱いやすい形式を持つ。 それらは、有限ネットワークの挙動を解析するために使われ、また、それ自身で有用な方法である。 無限に広いCNNを調べたところ,空間的重み共有による相関は無限の極限で消失することがわかった。 空間的相関がCNNの背後にある主な動機であるため、これは望ましくない。 この性質の喪失は無限の極限の結果ではなく、先に独立した重みを選択することによるものであることを示す。 重みの関係は活性化の相関を維持する。 独立重み付き限界と平均プーリングの間の相関の量を変える。 無限大ネットワークの実証評価により,極端間の最適性能が達成され,相関が有効であることが示された。

Infinite width limits of deep neural networks often have tractable forms. They have been used to analyse the behaviour of finite networks, as well as being useful methods in their own right. When investigating infinitely wide CNNs it was observed that the correlations arising from spatial weight sharing disappear in the infinite limit. This is undesirable, as spatial correlation is the main motivation behind CNNs. We show that the loss of this property is not a consequence of the infinite limit, but rather of choosing an independent weight prior. Correlating the weights maintains the correlations in the activations. Varying the amount of correlation interpolates between independent-weight limits and mean-pooling. Empirical evaluation of the infinitely wide network shows that optimal performance is achieved between the extremes, indicating that correlations can be useful.
翻訳日:2021-04-04 14:47:33 公開日:2021-01-11
# コントラスト情報推定による公平な結果の制御可能な保証

Controllable Guarantees for Fair Outcomes via Contrastive Information Estimation ( http://arxiv.org/abs/2101.04108v1 )

ライセンス: Link先を確認
Umang Gupta and Aaron Ferber and Bistra Dilkina and Greg Ver Steeg(参考訳) トレーニングデータセットにおけるバイアスの制御は、下流のアプリケーションで異なるグループ間で平等に扱われることを保証するために不可欠である。 単純な解決策は、グループメンバーシップから統計的に独立するようにデータを変換することだが、公平さと正確性の間の合理的な妥協が望まれる場合、多くの情報を捨てる可能性がある。 もう一つの一般的なアプローチは、パリティを最大化しようとする特定の敵の能力を制限することである。 残念なことに、敵のアプローチによって生成される表現は、その効果が訓練中に使用される敵の複雑さに結びついているため、まだバイアスを保持する可能性がある。 この目的のために,表現と保護属性の相互情報を制限することによって,下流の分類器のパリティを確実に制御できることを理論的に立証する。 コントラスト情報推定器に基づく相互情報を介してパリティを制御する効果的な方法を示し,複素生成モデルに基づく変分境界に依存するアプローチよりも優れることを示す。 uci成人および遺産健康データセットに対する我々のアプローチをテストし、このアプローチが任意の下流アルゴリズムのパリティに対する強い理論的保証を提供しながら、所望のパリティ閾値の範囲にわたってより有益な表現を提供することを実証する。

Controlling bias in training datasets is vital for ensuring equal treatment, or parity, between different groups in downstream applications. A naive solution is to transform the data so that it is statistically independent of group membership, but this may throw away too much information when a reasonable compromise between fairness and accuracy is desired. Another common approach is to limit the ability of a particular adversary who seeks to maximize parity. Unfortunately, representations produced by adversarial approaches may still retain biases as their efficacy is tied to the complexity of the adversary used during training. To this end, we theoretically establish that by limiting the mutual information between representations and protected attributes, we can assuredly control the parity of any downstream classifier. We demonstrate an effective method for controlling parity through mutual information based on contrastive information estimators and show that they outperform approaches that rely on variational bounds based on complex generative models. We test our approach on UCI Adult and Heritage Health datasets and demonstrate that our approach provides more informative representations across a range of desired parity thresholds while providing strong theoretical guarantees on the parity of any downstream algorithm.
翻訳日:2021-04-04 14:47:22 公開日:2021-01-11
# ガラス箱CNNに向けて

Towards glass-box CNNs ( http://arxiv.org/abs/2101.10443v1 )

ライセンス: Link先を確認
Piduguralla Manaswini, Jignesh S. Bhatt(参考訳) 畳み込みニューラルネットワーク(CNN)は、視覚的に複雑なタスクを訓練し、再学習する能力で、脳にインスパイアされたアーキテクチャである。 インクリメンタルでスケーラブルだが、CNNはブラックボックスとして扱われ、複数の試行錯誤を伴う。 我々はCNNが最先端の性能を達成するための強力な内部表現を構築することを観察する。 本稿では2クラス画像分類問題に対する3層ガラス箱(分析)CNNを提案する。 1つ目は、入力画像のクラス情報(群不変)と対称変換(群同変)の両方を含む表現層である。 その後、次元還元層(PCA)を通過する。 最後に、コンパクトで完備な表現はクラスiferに提供されます。 分析機械学習分類器と多層パーセプトロンを用いて感度を評価する。 提案したガラス箱CNNとAlexNet(CNN)内部表現の等価性を比較して,結果の理解と普及を図る。 将来的には,マルチクラス視覚タスクのためのガラス箱CNNを構築したい。

Convolution neural networks (CNNs) are brain-inspired architectures popular for their ability to train and relearn visually complex tasks. It is incremental and scalable; however, CNN is mostly treated as black-box and involves multiple trial & error runs. We observe that CNN constructs powerful internal representations that help achieve state-of-the-art performance. Here we propose three layer glass-box (analytical) CNN for two-class image classifcation problems. First is a representation layer that encompasses both the class information (group invariant) and symmetric transformations (group equivariant) of input images. It is then passed through dimension reduction layer (PCA). Finally the compact yet complete representation is provided to a classifer. Analytical machine learning classifers and multilayer perceptrons are used to assess sensitivity. Proposed glass-box CNN is compared with equivariance of AlexNet (CNN) internal representation for better understanding and dissemination of results. In future, we would like to construct glass-box CNN for multiclass visually complex tasks.
翻訳日:2021-04-04 14:47:00 公開日:2021-01-11
# 機械学習システムのための技術準備レベル

Technology Readiness Levels for Machine Learning Systems ( http://arxiv.org/abs/2101.03989v1 )

ライセンス: Link先を確認
Alexander Lavin, Ciar\'an M. Gilligan-Lee, Alessya Visnjic, Siddha Ganju, Dava Newman, Sujoy Ganguly, Danny Lange, At{\i}l{\i}m G\"une\c{s} Baydin, Amit Sharma, Adam Gibson, Yarin Gal, Eric P. Xing, Chris Mattmann, James Parr(参考訳) 機械学習(ML)システムの開発とデプロイは、現代的なツールで容易に実行できるが、プロセスは通常急いで、エンドツーエンドで実行される。 勤勉さの欠如は、技術的負債、スコープのクリープと不一致の目標、モデルの誤用と失敗、そして高価な結果をもたらす可能性がある。 一方、エンジニアリングシステムは、高品質で信頼性の高い結果の開発を効率化するために、明確に定義されたプロセスとテスト標準に従っています。 極端は宇宙船システムであり、ミッションクリティカルな手段と堅牢性が開発プロセスに浸透している。 宇宙船工学とML(ドメイン領域にわたる製品の研究から)の経験に基づいて、我々は、機械学習の開発と展開のための実証済みのシステム工学アプローチを開発した。 私たちの"Machine Learning Technology Readiness Levels"(MLTRL)フレームワークは、従来のソフトウェアエンジニアリングとの大きな違いを含むMLワークフローを合理化しながら、堅牢で信頼性があり、責任のあるシステムを保証するための、原則化されたプロセスを定義しています。 さらにMLTRLは、チームや組織が人工知能や機械学習技術に協力して取り組むための言語フランカを定義している。 本稿では, 医療診断, 消費者コンピュータビジョン, 衛星画像, 粒子物理学などの分野において, 製品化と展開を通じた基礎研究からml手法を開発するための実世界のユースケースをいくつか紹介する。

The development and deployment of machine learning (ML) systems can be executed easily with modern tools, but the process is typically rushed and means-to-an-end. The lack of diligence can lead to technical debt, scope creep and misaligned objectives, model misuse and failures, and expensive consequences. Engineering systems, on the other hand, follow well-defined processes and testing standards to streamline development for high-quality, reliable results. The extreme is spacecraft systems, where mission critical measures and robustness are ingrained in the development process. Drawing on experience in both spacecraft engineering and ML (from research through product across domain areas), we have developed a proven systems engineering approach for machine learning development and deployment. Our "Machine Learning Technology Readiness Levels" (MLTRL) framework defines a principled process to ensure robust, reliable, and responsible systems while being streamlined for ML workflows, including key distinctions from traditional software engineering. Even more, MLTRL defines a lingua franca for people across teams and organizations to work collaboratively on artificial intelligence and machine learning technologies. Here we describe the framework and elucidate it with several real world use-cases of developing ML methods from basic research through productization and deployment, in areas such as medical diagnostics, consumer computer vision, satellite imagery, and particle physics.
翻訳日:2021-04-04 14:46:47 公開日:2021-01-11
# 反復時間調整によるフェデレーション学習における差分プライバシーの実践性について

On the Practicality of Differential Privacy in Federated Learning by Tuning Iteration Times ( http://arxiv.org/abs/2101.04163v1 )

ライセンス: Link先を確認
Yao Fu, Yipeng Zhou, Di Wu, Shui Yu, Yonggang Wen, Chao Li(参考訳) 分散クライアント間の機械学習モデルを協調的にトレーニングする場合、連合学習(federated learning, fl)はプライバシ保護でよく知られているが、最近の研究では、naive flが勾配リーク攻撃の影響を受けやすいことを指摘している。 一方、ディファレンシャルプライバシ(dp)は、勾配漏洩攻撃を防御するための有望な対策として現れる。 しかし、FLにおけるクライアントによるDPの採用はモデルの精度を著しく損なう可能性がある。 理論的な観点からDPの実践性を理解することは依然としてオープンな問題である。 本稿では, 反復回数を調整し, flにおけるdpの実用性を理解するための最初の試みを行う。 我々はFedAvgアルゴリズムに基づいて、FLにおけるDPノイズによる収束率を公式に導出する。 その結果,1)大域的反復数(GI)が無限大に近づくにつれて,DPベースのFedAvgが収束する条件,2)DPノイズの負の影響を最小限に抑えるために局所的反復数(LI)を設定する方法,が導かれる。 さらに,ラプラスとガウスの機構をそれぞれ導出収束率に置換することにより,以下のことを示す。 3) ラプラス機構を持つdpベースのフェダブは収束できないが,本手法で lis の数を設定することで発散速度を効果的に防止できる。 4) ガウス機構を用いたdpベースのフェダブの学習誤差は,gi 当たりの lis 数が一定であれば,最終的に一定数に収束する。 理論的知見を検証するため、2つの実世界のデータセットを用いて広範な実験を行った。 その結果,解析結果だけでなく,DPをFLに組み込む際のモデル精度の最適化に関する有用なガイドラインが得られた。

In spite that Federated Learning (FL) is well known for its privacy protection when training machine learning models among distributed clients collaboratively, recent studies have pointed out that the naive FL is susceptible to gradient leakage attacks. In the meanwhile, Differential Privacy (DP) emerges as a promising countermeasure to defend against gradient leakage attacks. However, the adoption of DP by clients in FL may significantly jeopardize the model accuracy. It is still an open problem to understand the practicality of DP from a theoretic perspective. In this paper, we make the first attempt to understand the practicality of DP in FL through tuning the number of conducted iterations. Based on the FedAvg algorithm, we formally derive the convergence rate with DP noises in FL. Then, we theoretically derive: 1) the conditions for the DP based FedAvg to converge as the number of global iterations (GI) approaches infinity; 2) the method to set the number of local iterations (LI) to minimize the negative influence of DP noises. By further substituting the Laplace and Gaussian mechanisms into the derived convergence rate respectively, we show that: 3) The DP based FedAvg with the Laplace mechanism cannot converge, but the divergence rate can be effectively prohibited by setting the number of LIs with our method; 4) The learning error of the DP based FedAvg with the Gaussian mechanism can converge to a constant number finally if we use a fixed number of LIs per GI. To verify our theoretical findings, we conduct extensive experiments using two real-world datasets. The results not only validate our analysis results, but also provide useful guidelines on how to optimize model accuracy when incorporating DP into FL
翻訳日:2021-04-04 14:46:20 公開日:2021-01-11
# ハンナン将軍とクイン氏 : 共通時系列の基準

General Hannan and Quinn Criterion for Common Time Series ( http://arxiv.org/abs/2101.04210v1 )

ライセンス: Link先を確認
Kare Kamila(参考訳) 本稿では、ARMAやAR($\infty$)プロセス、GARCHやARCH($\infty$)、APARCHなどの多くのプロセスを含む、大規模な時系列のデータ駆動モデル選択基準を検討することを目的とする。 我々は,強い一貫性を享受する適応基準を設計するという課題に取り組んだ。 上記のモデルのうちの1つから観測が生成されるとき、新しい基準は、ほぼ確実に漸近的に真のモデルを選択する。 提案された基準は、ハンナンとクインの基準に類似したペナル化されたコントラストの最小化に基づいており、その後、ほとんどの古典的な時系列モデルやより複雑なモデルで知られている用語を含む。 CAC40指数のモンテカルロ実験と図示例を行い、得られた結果を強調した。

This paper aims to study data driven model selection criteria for a large class of time series, which includes ARMA or AR($\infty$) processes, as well as GARCH or ARCH($\infty$), APARCH and many others processes. We tackled the challenging issue of designing adaptive criteria which enjoys the strong consistency property. When the observations are generated from one of the aforementioned models, the new criteria, select the true model almost surely asymptotically. The proposed criteria are based on the minimization of a penalized contrast akin to the Hannan and Quinn's criterion and then involved a term which is known for most classical time series models and for more complex models, this term can be data driven calibrated. Monte-Carlo experiments and an illustrative example on the CAC 40 index are performed to highlight the obtained results.
翻訳日:2021-04-04 14:45:26 公開日:2021-01-11
# 自己組織化マップによる単語埋め込みのクラスタリング。 larosedaの応用 - ルーマニアの大規模な感情データセット

Clustering Word Embeddings with Self-Organizing Maps. Application on LaRoSeDa -- A Large Romanian Sentiment Data Set ( http://arxiv.org/abs/2101.04197v1 )

ライセンス: Link先を確認
Anca Maria Tache, Mihaela Gaman, Radu Tudor Ionescu(参考訳) ルーマニア語は計算言語学の未研究言語の一つであり、自然言語処理ツールの開発のためのリソースはほとんどない。 本稿では,ルーマニア最大のeコマースプラットフォームから収集された15,000の肯定的評価と否定的評価からなる,ルーマニアの大規模な感情データセットであるlarosedaを紹介する。 低レベルの特徴(特徴的n-gram)と高レベルの特徴(k-meansによるクラスタリングによる単語埋め込み)に基づく2つの感情分類手法をベースラインとして採用した。 さらに,k-meansクラスタリングアルゴリズムを自己組織化マップ (SOMs) に置き換えることで,生成した単語埋め込みのクラスタは,自然言語を統治するZipfの法則分布に近いため,より良い結果が得られる。 また,最近導入された別のルーマニア語データセット上での単語埋め込みのクラスタリングにSOMを用いてトピックごとのテキスト分類を行う際の一般化能力を示す。

Romanian is one of the understudied languages in computational linguistics, with few resources available for the development of natural language processing tools. In this paper, we introduce LaRoSeDa, a Large Romanian Sentiment Data Set, which is composed of 15,000 positive and negative reviews collected from one of the largest Romanian e-commerce platforms. We employ two sentiment classification methods as baselines for our new data set, one based on low-level features (character n-grams) and one based on high-level features (bag-of-word-embeddi ngs generated by clustering word embeddings with k-means). As an additional contribution, we replace the k-means clustering algorithm with self-organizing maps (SOMs), obtaining better results because the generated clusters of word embeddings are closer to the Zipf's law distribution, which is known to govern natural language. We also demonstrate the generalization capacity of using SOMs for the clustering of word embeddings on another recently-introduced Romanian data set, for text categorization by topic.
翻訳日:2021-04-04 14:44:51 公開日:2021-01-11
# インプシット差分学習:強化学習によるニューラルテキスト生成の改善

Implicit Unlikelihood Training: Improving Neural Text Generation with Reinforcement Learning ( http://arxiv.org/abs/2101.04229v1 )

ライセンス: Link先を確認
Evgeny Lagutin and Daniil Gavrilov and Pavel Kalaidin(参考訳) 擬似訓練と最大化に基づく復号化は、強力な言語モデル(Holtzman et al., 2019)を使用しても、退屈で反復的なテキストを生成する。 正規化のための損失関数の追加は、矛盾や繰り返しなどの不要な特性を回避することでテキスト生成の出力を改善する(Li at al., 2020)。 本研究では、ポリシー勾配強化学習を用いて言語モデルを微調整し、より優れた生成に向けて直接最適化する。 本稿では,生成テキストにおける繰り返しの最小化に本手法を適用し,不規則学習(Welleck et al., 2020)と組み合わせることで,言語モデルの品質に影響を与えずに繰り返しを減らすことができることを示す。 また、学習時間と復号時の生成を改善する他の方法の評価を行い、テキスト生成出力を改善するための様々な指標を用いて比較する。

Likelihood training and maximization-based decoding result in dull and repetitive generated texts even when using powerful language models (Holtzman et al., 2019). Adding a loss function for regularization was shown to improve text generation output by helping avoid unwanted properties, such as contradiction or repetition (Li at al., 2020). In this work, we propose fine-tuning a language model by using policy gradient reinforcement learning, directly optimizing for better generation. We apply this approach to minimizing repetition in generated text, and show that, when combined with unlikelihood training (Welleck et al., 2020), our method further reduces repetition without impacting the language model quality. We also evaluate other methods for improving generation at training and decoding time, and compare them using various metrics aimed at control for better text generation output.
翻訳日:2021-04-04 14:44:33 公開日:2021-01-11
# Learn-n-Route: 車両ルーティングに対する暗黙の選好学習

Learn-n-Route: Learning implicit preferences for vehicle routing ( http://arxiv.org/abs/2101.03936v1 )

ライセンス: Link先を確認
Rocsildes Canoy, V\'ictor Bucarey, Jayanta Mandi, Tias Guns(参考訳) 本研究では,経路計画(経路計画)を手作業で作成する際に,人間の計画者が持つ暗黙の嗜好を学習する車両経路決定支援システムについて検討する。 目的は、車両ルーティングシステムにおける距離に基づく客観的基準の上に、これらの学習された主観的嗜好を使用することである。 これは、独自のルーティング要件を持つ企業毎にカスタムvrpを識別的に定式化するプラクティスに代わるものだ。 代わりに、同じ顧客に対して過去の車両ルーティングソリューションの存在を想定し、同様の選択をすることを学びます。 学習アプローチは、決定論的距離行列ではなく確率論的遷移行列に対応するマルコフモデルを学ぶという概念に基づいている。 それにもかかわらず、既存のアークルーティングVRPソフトウェアを使って実際のルーティングを作成し、同時に距離と好みを最適化することができます。 学習のために、我々は時間とともに好みを変えることができる確率的遷移行列を構築するための異なるスキームを探索する。 小型輸送会社とのユースケースでは,制約やサブオブジェクトを明示的に特徴づけることなく,手作業で作成したソリューションに近い結果を生成できることが判明した。 顧客集合の変更の場合であっても,本手法は距離のみを使用する場合よりも実際のルーティングに近い解を見つけることができるため,実用的なルーティングに変換する際に手作業による変更が少ない解を得ることができる。

We investigate a learning decision support system for vehicle routing, where the routing engine learns implicit preferences that human planners have when manually creating route plans (or routings). The goal is to use these learned subjective preferences on top of the distance-based objective criterion in vehicle routing systems. This is an alternative to the practice of distinctively formulating a custom VRP for every company with its own routing requirements. Instead, we assume the presence of past vehicle routing solutions over similar sets of customers, and learn to make similar choices. The learning approach is based on the concept of learning a Markov model, which corresponds to a probabilistic transition matrix, rather than a deterministic distance matrix. This nevertheless allows us to use existing arc routing VRP software in creating the actual routings, and to optimize over both distances and preferences at the same time. For the learning, we explore different schemes to construct the probabilistic transition matrix that can co-evolve with changing preferences over time. Our results on a use-case with a small transportation company show that our method is able to generate results that are close to the manually created solutions, without needing to characterize all constraints and sub-objectives explicitly. Even in the case of changes in the customer sets, our method is able to find solutions that are closer to the actual routings than when using only distances, and hence, solutions that require fewer manual changes when transformed into practical routings.
翻訳日:2021-04-04 14:44:15 公開日:2021-01-11
# MAAS:アクティブ話者検出のためのマルチモーダルアサイン

MAAS: Multi-modal Assignation for Active Speaker Detection ( http://arxiv.org/abs/2101.03682v1 )

ライセンス: Link先を確認
Juan Le\'on-Alc\'azar, Fabian Caba Heilbron, Ali Thabet, and Bernard Ghanem(参考訳) アクティブな話者検出には、マルチモーダルキューをしっかりと統合する必要がある。 個々のモダリティは解を近似することができるが、正確な予測は音声と視覚の特徴を明示的に融合し、時間進行をモデル化することによってのみ達成できる。 固有のミューティモーダルの性質にもかかわらず、現在の手法は、フレームレベルで、しばしば個々の話者に短期的な聴覚的特徴をモデリングし、使用することに焦点を当てている。 本稿では,この問題のマルチモーダル性に直接対処するアクティブ話者検出手法を提案する。また,シーン内の潜在的な話者から独立した視覚的特徴を事前に検出された音声イベントに割り当てる,直接的な戦略を提供する。 実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。 さらに、この初期グラフの時間拡張は、88.8\%のmAPを持つAVA-ActiveSpeakerデータセット上の新しい最先端を達成する。

Active speaker detection requires a solid integration of multi-modal cues. While individual modalities can approximate a solution, accurate predictions can only be achieved by explicitly fusing the audio and visual features and modeling their temporal progression. Despite its inherent muti-modal nature, current methods still focus on modeling and fusing short-term audiovisual features for individual speakers, often at frame level. In this paper we present a novel approach to active speaker detection that directly addresses the multi-modal nature of the problem, and provides a straightforward strategy where independent visual features from potential speakers in the scene are assigned to a previously detected speech event. Our experiments show that, an small graph data structure built from a single frame, allows to approximate an instantaneous audio-visual assignment problem. Moreover, the temporal extension of this initial graph achieves a new state-of-the-art on the AVA-ActiveSpeaker dataset with a mAP of 88.8\%.
翻訳日:2021-04-04 14:43:53 公開日:2021-01-11
# arrowgan : アロー・オブ・タイム学習による動画生成の学習

ArrowGAN : Learning to Generate Videos by Learning Arrow of Time ( http://arxiv.org/abs/2101.03710v1 )

ライセンス: Link先を確認
Kibeom Hong, Youngjung Uh, Hyeran Byun(参考訳) 動画上でのGANのトレーニングは、動画の次元が際立ったため、画像よりもさらに洗練されています。 最近の手法は時間を考慮した専用アーキテクチャを設計しているが、生成したビデオは実際のビデオと区別できない。 本稿では,識別者が時間の矢印を補助タスクとして分類し,生成者が前進動画の合成を試みるarrowganフレームワークを提案する。 対象ドメインについて、補助タスクを慎重に選択すべきである。 さらに,ArrowGANフレームワーク上での条件付き画像生成における最近の技術を用いて,カテゴリ型ビデオ生成における最先端のパフォーマンスを実現する。 我々は,自己スーパーバイザリータスクとしてのアロー・オブ・タイムの有効性を検証し,3つのデータセット (weizmann, ucfsports, ucf-101) 上のビデオインセプションスコアとフレシェット映像距離の改善につながることを実証した。

Training GANs on videos is even more sophisticated than on images because videos have a distinguished dimension: time. While recent methods designed a dedicated architecture considering time, generated videos are still far from indistinguishable from real videos. In this paper, we introduce ArrowGAN framework, where the discriminators learns to classify arrow of time as an auxiliary task and the generators tries to synthesize forward-running videos. We argue that the auxiliary task should be carefully chosen regarding the target domain. In addition, we explore categorical ArrowGAN with recent techniques in conditional image generation upon ArrowGAN framework, achieving the state-of-the-art performance on categorical video generation. Our extensive experiments validate the effectiveness of arrow of time as a self-supervisory task, and demonstrate that all our components of categorical ArrowGAN lead to the improvement regarding video inception score and Frechet video distance on three datasets: Weizmann, UCFsports, and UCF-101.
翻訳日:2021-04-04 14:43:38 公開日:2021-01-11
# サブコンセプト探索による弱ラベルWebビデオからの学習

Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts ( http://arxiv.org/abs/2101.03713v1 )

ライセンス: Link先を確認
Kunpeng Li, Zizhao Zhang, Guanhang Wu, Xuehan Xiong, Chen-Yu Lee, Zhichao Lu, Yun Fu, Tomas Pfister(参考訳) インターネット上のアクセスが容易なビデオデータの大規模なコーパスのおかげで、Webビデオの弱ラベル化から視覚的知識を学ぶことが、研究の関心を集めている。 しかし、ビデオアクション認識では、興味のある動作は、トリミングされていないウェブビデオの任意のクリップにのみ存在し、時間空間のラベルノイズが高まる。 この問題に対処するために,問合せウェブビデオを用いた映像行動認識モデルの事前学習手法を提案する。 そこで本研究では,質問ビデオ中の潜在的な雑音を,サブプセドラベル(spl)の概念を定め,有用な監督信号に変換することを提案する。 具体的には、ビデオクエリ中に元の弱いラベルを外挿し、教師モデルから事前の知識を抽出することで、意味のある「中核」ラベル空間を新たに作る。 その結果、splはビデオモデルがより良い表現を学ぶための強化された監督を提供する。 SPLは比較的単純で、教育費がかからない一般的な教師による自己学習フレームワークと直交する。 提案手法の有効性を4つのビデオ行動認識データセットと弱ラベル画像データセットで検証し,一般化能力について検討した。 実験により、SPLは擬似ラベルと学習表現を用いて既存の事前学習戦略よりも優れており、HMDB-51とUCF-101を微調整すると、最近の事前学習法と比較して競合する結果が得られた。

Learning visual knowledge from massive weakly-labeled web videos has attracted growing research interests thanks to the large corpus of easily accessible video data on the Internet. However, for video action recognition, the action of interest might only exist in arbitrary clips of untrimmed web videos, resulting in high label noises in the temporal space. To address this issue, we introduce a new method for pre-training video action recognition models using queried web videos. Instead of trying to filter out, we propose to convert the potential noises in these queried videos to useful supervision signals by defining the concept of Sub-Pseudo Label (SPL). Specifically, SPL spans out a new set of meaningful "middle ground" label space constructed by extrapolating the original weak labels during video querying and the prior knowledge distilled from a teacher model. Consequently, SPL provides enriched supervision for video models to learn better representations. SPL is fairly simple and orthogonal to popular teacher-student self-training frameworks without extra training cost. We validate the effectiveness of our method on four video action recognition datasets and a weakly-labeled image dataset to study the generalization ability. Experiments show that SPL outperforms several existing pre-training strategies using pseudo-labels and the learned representations lead to competitive results when fine-tuning on HMDB-51 and UCF-101 compared with recent pre-training methods.
翻訳日:2021-04-04 14:43:19 公開日:2021-01-11
# ディープラーニングに基づく顔の超解像:調査

Deep Learning-based Face Super-resolution: A Survey ( http://arxiv.org/abs/2101.03749v1 )

ライセンス: Link先を確認
Junjun Jiang, Chenyang Wang, Xianming Liu, and Jiayi Ma(参考訳) 顔の高解像度画像を生成するために、低解像度(LR)画像または一連の顔画像の解像度を高めることを目的とした、顔の高解像度化(英語版)とも呼ばれる。 近年,顔の超解像が注目され,深層学習技術で目立った進歩が見られた。 現在、深層学習に基づく顔の超解像に関する研究の要約は少ない。 本稿では,超解像面における深層学習手法を体系的に概観する。 まず,顔の超解像に関する問題定式化について概説する。 第2に、汎用画像の超解像と顔の超解像の違いを比較する。 第3に、顔幻覚で一般的に使用されるデータセットとパフォーマンスメトリクスを示す。 第4に,顔特定情報の利用により,既存の手法を大まかに分類する。 各カテゴリでは,設計原則の一般的な説明から始めて,代表的なアプローチの概要を示し,その類似点と相違点を比較する。 最後に,この分野におけるさらなる技術進歩の展望について考察する。

Face super-resolution, also known as face hallucination, which is aimed at enhancing the resolution of low-resolution (LR) one or a sequence of face images to generate the corresponding high-resolution (HR) face images, is a domain-specific image super-resolution problem. Recently, face super-resolution has received considerable attention, and witnessed dazzling advances with deep learning techniques. To date, few summaries of the studies on the deep learning-based face super-resolution are available. In this survey, we present a comprehensive review of deep learning techniques in face super-resolution in a systematic manner. First, we summarize the problem formulation of face super-resolution. Second, we compare the differences between generic image super-resolution and face super-resolution. Third, datasets and performance metrics commonly used in facial hallucination are presented. Fourth, we roughly categorize existing methods according to the utilization of face-specific information. In each category, we start with a general description of design principles, present an overview of representative approaches, and compare the similarities and differences among various methods. Finally, we envision prospects for further technical advancement in this field.
翻訳日:2021-04-04 14:42:55 公開日:2021-01-11
# WiCV 2020:コンピュータビジョンワークショップの7人目の女性

WiCV 2020: The Seventh Women In Computer Vision Workshop ( http://arxiv.org/abs/2101.03787v1 )

ライセンス: Link先を確認
Hazel Doughty, Nour Karessli, Kathryn Leonard, Boyi Li, Carianne Martinez, Azadeh Mobasher, Arsha Nagrani, Srishti Yadav(参考訳) 本稿では,仮想CVPR 2020と共に組織されたWomen in Computer Vision WorkshopWiCV 2020の詳細を紹介する。 このイベントは、コンピュータビジョンの分野で女性研究者を奨励することを目的としている。 コンピュータビジョンコミュニティの少数派(女性)グループに声を提供し、アカデミックと産業の両方において、これらの研究者の可視性の向上に焦点を当てている。 WiCVは、そのような出来事がコンピュータビジョンの分野における性別の不均衡を下げる上で重要な役割を果たすと考えている。 WiCVは毎年、サービスを提供している。 研究者間のコラボレーションの機会b) 女性若手研究者へのメンターシップ(c.) プレゼンターに対する金銭的負担を克服するための財政的支援(d.) ロールモデルの大規模かつ多様な選択。 本稿では,ワークショッププログラムの報告,過去の動向,プレゼンター,参加者,スポンサーシップに関する統計の要約を紹介する。

In this paper we present the details of Women in Computer Vision Workshop - WiCV 2020, organized in alongside virtual CVPR 2020. This event aims at encouraging the women researchers in the field of computer vision. It provides a voice to a minority (female) group in computer vision community and focuses on increasingly the visibility of these researchers, both in academia and industry. WiCV believes that such an event can play an important role in lowering the gender imbalance in the field of computer vision. WiCV is organized each year where it provides a.) opportunity for collaboration with between researchers b.) mentorship to female junior researchers c.) financial support to presenters to overcome monetary burden and d.) large and diverse choice of role models, who can serve as examples to younger researchers at the beginning of their careers. In this paper, we present a report on the workshop program, trends over the past years, a summary of statistics regarding presenters, attendees, and sponsorship for the current workshop.
翻訳日:2021-04-04 14:42:07 公開日:2021-01-11
# WDR FACE:広ダイナミックレンジにおける顔検出のための最初のデータベース

WDR FACE: The First Database for Studying Face Detection in Wide Dynamic Range ( http://arxiv.org/abs/2101.03826v1 )

ライセンス: Link先を確認
Ziyi Liu, Jie Yang, Mengchen Lin, Kenneth Kam Fai Lai, Svetlana Yanushkevich, Orly Yadid-Pecht(参考訳) 現在、顔検出アプローチは、ポーズ、咬合、照明、背景、人種、性別など、特定のパラメータによって顔情報に焦点を当てている。 これらの研究は、低ダイナミックレンジ画像から得られる情報のみを利用したが、広ダイナミックレンジ(WDR)シーンにおける顔検出はほとんど注目されていない。 我々の知る限り、顔検出研究用のWDRデータベースは公開されていない。 WDRフィールドにおける顔検出研究の促進と支援を目的として,29人の被験者から収集した398メガピクセルのグレイスケールダイナミックレンジ画像を含む,WDR FACEと呼ばれる顔検出のための最初のWDRデータベースを提案する。 これらのWDR画像(WDRI)は8つの特定のWDRシーンで撮影された。 90%の画像のダイナミックレンジは60,000:1を超え、70%画像のダイナミックレンジは65,000:1を超える。 さらに,データベース内のWDRIに異なる顔検出方法が与える影響について述べる。 これは25の異なるトーンマッピングオペレータと5つの異なる顔検出器で実行される。 このユニークなWDRデータベース上で顔検出の予備実験結果を提供する。

Currently, face detection approaches focus on facial information by varying specific parameters including pose, occlusion, lighting, background, race, and gender. These studies only utilized the information obtained from low dynamic range images, however, face detection in wide dynamic range (WDR) scenes has received little attention. To our knowledge, there is no publicly available WDR database for face detection research. To facilitate and support future face detection research in the WDR field, we propose the first WDR database for face detection, called WDR FACE, which contains a total of 398 16-bit megapixel grayscale wide dynamic range images collected from 29 subjects. These WDR images (WDRIs) were taken in eight specific WDR scenes. The dynamic range of 90% images surpasses 60,000:1, and that of 70% images exceeds 65,000:1. Furthermore, we show the effect of different face detection procedures on the WDRIs in our database. This is done with 25 different tone mapping operators and five different face detectors. We provide preliminary experimental results of face detection on this unique WDR database.
翻訳日:2021-04-04 14:41:31 公開日:2021-01-11
# 解釈可能な分類のための意味論的特徴の学習

Learning Semantically Meaningful Features for Interpretable Classifications ( http://arxiv.org/abs/2101.03919v1 )

ライセンス: Link先を確認
Sandareka Wickramanayake, Wynne Hsu, Mong Li Lee(参考訳) 意味的に意味のある特徴を学ぶことは、ディープニューラルネットワークがエンドユーザの信頼を勝ち取るために重要である。 モデルで学習した特徴表現の解釈性を改善しないため, ポストホックな説明を生成する試みは, ユーザの信頼を得るには不十分である。 本稿では,視覚特徴と単語句の関係を学習するための概念層を付加した意味畳み込みニューラルネットワーク(semcnn)を提案する。 SemCNNは、予測精度と学習した特徴表現の意味論的意味の両方を最適化する目的関数を用いる。 さらに、semcnnはこれらの機能の貢献の重み付けとして決定を下し、完全に解釈可能な決定へと導く。 複数のベンチマークデータセットによる実験結果から,SemCNNは,予測精度を損なうことなく,意味を明確化し,モデル決定に寄与する特徴を学習できることが示されている。 さらに、これらの学習された概念は転送可能であり、同様の概念を持つオブジェクトの新しいクラスに適用することができる。

Learning semantically meaningful features is important for Deep Neural Networks to win end-user trust. Attempts to generate post-hoc explanations fall short in gaining user confidence as they do not improve the interpretability of feature representations learned by the models. In this work, we propose Semantic Convolutional Neural Network (SemCNN) that has an additional Concept layer to learn the associations between visual features and word phrases. SemCNN employs an objective function that optimizes for both the prediction accuracy as well as the semantic meaningfulness of the learned feature representations. Further, SemCNN makes its decisions as a weighted sum of the contributions of these features leading to fully interpretable decisions. Experiment results on multiple benchmark datasets demonstrate that SemCNN can learn features with clear semantic meaning and their corresponding contributions to the model decision without compromising prediction accuracy. Furthermore, these learned concepts are transferrable and can be applied to new classes of objects that have similar concepts.
翻訳日:2021-04-04 14:40:55 公開日:2021-01-11
# ORDNet: シーン解析のためのOmni-Range依存性のキャプチャ

ORDNet: Capturing Omni-Range Dependencies for Scene Parsing ( http://arxiv.org/abs/2101.03929v1 )

ライセンス: Link先を確認
Shaofei Huang, Si Liu, Tianrui Hui, Jizhong Han, Bo Li, Jiashi Feng and Shuicheng Yan(参考訳) 空間的位置間の依存関係をキャプチャする学習は多くの視覚的タスク、特にシーン解析のような濃密なラベル付け問題に不可欠である。 既存のメソッドは、ローカル畳み込みによって短時間で、セルフアテンション機構で、長距離依存性を効果的にキャプチャできる。 しかし、長距離と短距離の依存関係の間には大きなギャップがあるため、複雑な自然風景画像における多様な空間スケールと関係性へのモデルの柔軟性が大幅に低下する。 このようなギャップを埋めるために,中間範囲(mr)ブランチを開発し,局所パッチへの自己アテンションを制限し,中間範囲依存性をキャプチャする。 また,他者と大きな相関関係を持つ空間領域を,より正確に長距離依存性を活用できるように強調し,改良型長距離(rlr)ブランチを提案する。 Omni-Range Dependencies Network (ORDNet) は,提案したMRとRLRのブランチに基づいて,短距離,中距離,長距離の依存関係を効果的に捉えることができる。 我々のORDNetは、より包括的なコンテキスト情報を抽出し、シーンイメージの複雑な空間分散に順応することができる。 ORDNetはPASCAL Context, COCO Stuff, ADE20Kといった3つのシーン解析のベンチマークにおいて, 従来の最先端手法よりも優れており, シーン解析タスクの深層モデルにおけるオムニレンジ依存性の捕捉が優れていることを示す。

Learning to capture dependencies between spatial positions is essential to many visual tasks, especially the dense labeling problems like scene parsing. Existing methods can effectively capture long-range dependencies with self-attention mechanism while short ones by local convolution. However, there is still much gap between long-range and short-range dependencies, which largely reduces the models' flexibility in application to diverse spatial scales and relationships in complicated natural scene images. To fill such a gap, we develop a Middle-Range (MR) branch to capture middle-range dependencies by restricting self-attention into local patches. Also, we observe that the spatial regions which have large correlations with others can be emphasized to exploit long-range dependencies more accurately, and thus propose a Reweighed Long-Range (RLR) branch. Based on the proposed MR and RLR branches, we build an Omni-Range Dependencies Network (ORDNet) which can effectively capture short-, middle- and long-range dependencies. Our ORDNet is able to extract more comprehensive context information and well adapt to complex spatial variance in scene images. Extensive experiments show that our proposed ORDNet outperforms previous state-of-the-art methods on three scene parsing benchmarks including PASCAL Context, COCO Stuff and ADE20K, demonstrating the superiority of capturing omni-range dependencies in deep models for scene parsing task.
翻訳日:2021-04-04 14:40:01 公開日:2021-01-11
# 現実シナリオにおける大腸ポリープ検出:デザインと実験研究

Colorectal Polyp Detection in Real-world Scenario: Design and Experiment Study ( http://arxiv.org/abs/2101.04034v1 )

ライセンス: Link先を確認
Xinzi Sun, Dechun Wang, Chenxi Zhang, Pengfei Zhang, Zinan Xiong, Yu Cao, Benyuan Liu, Xiaowei Liu, Shuijiao Chen(参考訳) 大腸ポリープ(Colectal polyps)は、大腸または直腸の intima に増殖する異常な組織で、大腸癌に進展するリスクが高い。 大腸内視鏡検査による大腸ポリープの早期発見と除去は大腸癌予防に有効な方法であることが判明した。 近年,ポリープ検出を支援するcnnを用いたコンピュータ支援システムが開発されている。 しかし,実際の大腸内視鏡画像と一般データセット画像との間に有意な差があるため,実際の大腸内視鏡手術では良好に機能しない。 公共のデータセットで明らかなポリープを持つ鮮明な画像とは異なり、大腸内視鏡の画像は、しばしばぼやけ、流体、破片、泡、反射、特異性、コントラスト、飽和、医療機器などの様々な人工物を含み、さまざまな大きさ、形状、テクスチャの多彩なポリープがある。 これらの因子は、大腸内視鏡で効果的なポリープ検出に重大な課題をもたらす。 この目的のために224回の大腸内視鏡検査から7,313枚の画像を含むプライベートデータセットを収集した。 このデータセットは現実的な運用シナリオを表しており、モデルをよりよく訓練し、実際にシステムの性能を評価するために使用できる。 本稿では,ポリープ検出の独特な課題に対処する統合システムアーキテクチャを提案する。 広範な実験により,大腸内視鏡検査でポリープを効果的に検出できることを確認した。

Colorectal polyps are abnormal tissues growing on the intima of the colon or rectum with a high risk of developing into colorectal cancer, the third leading cause of cancer death worldwide. Early detection and removal of colon polyps via colonoscopy have proved to be an effective approach to prevent colorectal cancer. Recently, various CNN-based computer-aided systems have been developed to help physicians detect polyps. However, these systems do not perform well in real-world colonoscopy operations due to the significant difference between images in a real colonoscopy and those in the public datasets. Unlike the well-chosen clear images with obvious polyps in the public datasets, images from a colonoscopy are often blurry and contain various artifacts such as fluid, debris, bubbles, reflection, specularity, contrast, saturation, and medical instruments, with a wide variety of polyps of different sizes, shapes, and textures. All these factors pose a significant challenge to effective polyp detection in a colonoscopy. To this end, we collect a private dataset that contains 7,313 images from 224 complete colonoscopy procedures. This dataset represents realistic operation scenarios and thus can be used to better train the models and evaluate a system's performance in practice. We propose an integrated system architecture to address the unique challenges for polyp detection. Extensive experiments results show that our system can effectively detect polyps in a colonoscopy with excellent performance in real time.
翻訳日:2021-04-04 14:39:13 公開日:2021-01-11
# 顔生成を優先した実世界ブラインド顔復元に向けて

Towards Real-World Blind Face Restoration with Generative Facial Prior ( http://arxiv.org/abs/2101.04061v1 )

ライセンス: Link先を確認
Xintao Wang, Yu Li, Honglun Zhang, Ying Shan(参考訳) ブラインドフェイスの復元は通常、現実的で忠実な詳細を復元するために、顔の幾何の先行や参照のような顔の先行に頼っている。 しかし、非常に低品質な入力は正確な幾何学的先行を提供することができないが、高品質な参照はアクセスできない。 本研究は,前訓練顔GANにカプセル化される多種多様な前駆体を利用してブラインドフェイス修復を行うGFP-GANを提案する。 このGFP(Generative Facial Prior)は、新しいチャネル分割空間特徴変換層を介して顔復元プロセスに組み込まれ、本手法により現実性と忠実性のバランスが良好になる。 我々のGFP-GANは、強力な顔前と繊細なデザインのおかげで、顔の詳細を共同で復元し、1つの前方パスで色を改善できます。 広範な実験により,本手法は,合成データと実世界のデータセットの両方において,先行技術よりも優れた性能が得られることが示された。

Blind face restoration usually relies on facial priors, such as facial geometry prior or reference prior, to restore realistic and faithful details. However, very low-quality inputs cannot offer accurate geometric prior while high-quality references are inaccessible, limiting the applicability in real-world scenarios. In this work, we propose GFP-GAN that leverages rich and diverse priors encapsulated in a pretrained face GAN for blind face restoration. This Generative Facial Prior (GFP) is incorporated into the face restoration process via novel channel-split spatial feature transform layers, which allow our method to achieve a good balance of realness and fidelity. Thanks to the powerful generative facial prior and delicate designs, our GFP-GAN could jointly restore facial details and enhance colors with just a single forward pass, while GAN inversion methods require expensive image-specific optimization at inference. Extensive experiments show that our method achieves superior performance to prior art on both synthetic and real-world datasets.
翻訳日:2021-04-04 14:38:48 公開日:2021-01-11
# 単一画像からの人間の神経的再レンダリング

Neural Re-Rendering of Humans from a Single Image ( http://arxiv.org/abs/2101.04104v1 )

ライセンス: Link先を確認
Kripasindhu Sarkar, Dushyant Mehta, Weipeng Xu, Vladislav Golyanik, Christian Theobalt(参考訳) 単一の画像から人間の再レンダリングは、非常に制約の厳しい問題であり、最先端のアルゴリズムは、過度に滑らかな、身体の部品や衣服の非現実的な歪み、あるいはテクスチャの不可解な変化など、望ましくない成果物をしばしば示す。 これらの課題に対処するために,新しいユーザ定義のポーズと視点の下での人間のニューラルリレンダリング手法を提案する。 本アルゴリズムは,単一の画像から再構成でき,容易に再現できるパラメトリックメッシュとして,身体のポーズと形状を表現する。 色に基づくUVテクスチャマップの代わりに,学習した高次元UV特徴マップを用いて外観を符号化する。 この豊かな暗黙の表現は、学習された色彩テクスチャマップよりも、ポーズ、視点、人物のアイデンティティ、服装スタイルの詳細な外観変化を捉えている。 レンダリングされた特徴マップを持つボディモデルは、最終的なレンダリングされたカラー画像を生成するニューラルネットワークを介して供給される。 上記のコンポーネントは、ソースパーソンイメージを入力として取り込んだエンドツーエンドのニューラルネットワークアーキテクチャと、ソースポーズと所望のターゲットポーズにおけるパラメトリックボディモデルのイメージに結合される。 実験評価により,提案手法は既存の手法よりも高品質な単一画像再レンダリング結果が得られることを示した。

Human re-rendering from a single image is a starkly under-constrained problem, and state-of-the-art algorithms often exhibit undesired artefacts, such as over-smoothing, unrealistic distortions of the body parts and garments, or implausible changes of the texture. To address these challenges, we propose a new method for neural re-rendering of a human under a novel user-defined pose and viewpoint, given one input image. Our algorithm represents body pose and shape as a parametric mesh which can be reconstructed from a single image and easily reposed. Instead of a colour-based UV texture map, our approach further employs a learned high-dimensional UV feature map to encode appearance. This rich implicit representation captures detailed appearance variation across poses, viewpoints, person identities and clothing styles better than learned colour texture maps. The body model with the rendered feature maps is fed through a neural image-translation network that creates the final rendered colour image. The above components are combined in an end-to-end-trained neural network architecture that takes as input a source person image, and images of the parametric body model in the source pose and desired target pose. Experimental evaluation demonstrates that our approach produces higher quality single image re-rendering results than existing methods.
翻訳日:2021-04-04 14:38:28 公開日:2021-01-11
# DBTagger:双方向リカレントニューラルネットワークを用いたNLIDBにおけるキーワードマッピングのためのマルチタスク学習

DBTagger: Multi-Task Learning for Keyword Mapping in NLIDBs Using Bi-Directional Recurrent Neural Networks ( http://arxiv.org/abs/2101.04226v1 )

ライセンス: Link先を確認
Arif Usta, Akifhan Karakayali and \"Ozg\"ur Ulusoy(参考訳) リレーショナルデータベースにデプロイされたインタフェースで自然言語クエリ(nlqs)を構造化クエリ言語(sql)に翻訳することは、最近データベースコミュニティで広く研究されている課題である。 従来のルールベースのシステムは、一連のソリューションをパイプラインとして、停止語フィルタリング、トークン化、スターリング/レンマティゼーション、パース、タグ付け、翻訳といったタスクの各ステップに対処する。 最近の研究は主に、アドホックなソリューションを使って、以前のステップを見下ろす翻訳ステップに焦点を当てている。 クエリ内のトークンと関係データベース要素(テーブル、属性、値など)のマッピングを構築する。 キーワードマッピング問題をシーケンスタギング問題として定義し,NLQのPOSタグを利用した新しいディープラーニングに基づく教師付きアプローチを提案する。 提案するアプローチは,DataBase Taggerと呼ばれるもので,エンドツーエンドでスキーマに依存しないソリューションなので,様々なリレーショナルデータベースに実用的です。 8つの異なるデータセットに対するアプローチを評価し、新しい最先端の精度結果、平均で92.4\%$を報告します。 我々の結果は、DBTaggerが最大10000ドル以上の高速で、より大きなデータベースにスケーラブルであることを示している。

Translating Natural Language Queries (NLQs) to Structured Query Language (SQL) in interfaces deployed in relational databases is a challenging task, which has been widely studied in database community recently. Conventional rule based systems utilize series of solutions as a pipeline to deal with each step of this task, namely stop word filtering, tokenization, stemming/lemmatizati on, parsing, tagging, and translation. Recent works have mostly focused on the translation step overlooking the earlier steps by using ad-hoc solutions. In the pipeline, one of the most critical and challenging problems is keyword mapping; constructing a mapping between tokens in the query and relational database elements (tables, attributes, values, etc.). We define the keyword mapping problem as a sequence tagging problem, and propose a novel deep learning based supervised approach that utilizes POS tags of NLQs. Our proposed approach, called \textit{DBTagger} (DataBase Tagger), is an end-to-end and schema independent solution, which makes it practical for various relational databases. We evaluate our approach on eight different datasets, and report new state-of-the-art accuracy results, $92.4\%$ on the average. Our results also indicate that DBTagger is faster than its counterparts up to $10000$ times and scalable for bigger databases.
翻訳日:2021-04-04 14:37:37 公開日:2021-01-11
# 米国における家庭用オンラインショッピング需要のモデル化:機械学習アプローチと2009年と2017年の比較検討

Modeling Household Online Shopping Demand in the U.S.: A Machine Learning Approach and Comparative Investigation between 2009 and 2017 ( http://arxiv.org/abs/2101.03690v1 )

ライセンス: Link先を確認
Limon Barua, Bo Zou, Yan (Joann) Zhou, Yulin Liu(参考訳) オンラインショッピングの急速な成長と、オンラインショッピングと店舗内ショッピングの関係に関する研究の関心にもかかわらず、オンラインショッピングの需要の全国レベルのモデリングと調査は文献に限定されている。 本稿では,2009年と2017年の米国家庭旅行調査(NHTS)データを2回リリースし,機械学習(ML)モデル,特に家計レベルのオンラインショッピング購入を予測するための勾配促進機(GBM)を開発した。 NHTSのデータは全国的な調査を行うだけでなく、家庭内の会員の消費と買い物のニーズが関係しているため、個人レベルよりも適切な家庭レベルの調査を行うことができる。 モデル開発のための体系的な手順として,再帰的特徴除去アルゴリズムを用いて入力変数(特徴量)を選択し,モデルの過剰フィッティングのリスクを低減し,モデル説明可能性を高める。 2009年から2017年にかけて、オンラインショッピング需要予測における各入力変数の重要性を定量化し、需要と入力変数間の価値依存関係を特徴付けるなど、広範なポストモデリング調査が実施された。 機械学習技術の最近の進歩であるshapley value-based feature importanceとcumded local effects plotは、現在のmlモデリングにおける一般的なテクニックの欠点を克服するために採用されている。 モデリングと調査は全国レベルで行われ、ニューヨーク、ロサンゼルス、ヒューストンの3大都市で行われている。 得られたモデルと洞察は、オンラインショッピング関連貨物需要生成に利用することができ、関連する政策がオンラインショッピング需要に与える影響を評価することもできる。

Despite the rapid growth of online shopping and research interest in the relationship between online and in-store shopping, national-level modeling and investigation of the demand for online shopping with a prediction focus remain limited in the literature. This paper differs from prior work and leverages two recent releases of the U.S. National Household Travel Survey (NHTS) data for 2009 and 2017 to develop machine learning (ML) models, specifically gradient boosting machine (GBM), for predicting household-level online shopping purchases. The NHTS data allow for not only conducting nationwide investigation but also at the level of households, which is more appropriate than at the individual level given the connected consumption and shopping needs of members in a household. We follow a systematic procedure for model development including employing Recursive Feature Elimination algorithm to select input variables (features) in order to reduce the risk of model overfitting and increase model explainability. Extensive post-modeling investigation is conducted in a comparative manner between 2009 and 2017, including quantifying the importance of each input variable in predicting online shopping demand, and characterizing value-dependent relationships between demand and the input variables. In doing so, two latest advances in machine learning techniques, namely Shapley value-based feature importance and Accumulated Local Effects plots, are adopted to overcome inherent drawbacks of the popular techniques in current ML modeling. The modeling and investigation are performed both at the national level and for three of the largest cities (New York, Los Angeles, and Houston). The models developed and insights gained can be used for online shopping-related freight demand generation and may also be considered for evaluating the potential impact of relevant policies on online shopping demand.
翻訳日:2021-04-04 14:37:15 公開日:2021-01-11
# 深層ニューラルネットワークによる歩道アクセシビリティ可視化のための車椅子行動認識

Wheelchair Behavior Recognition for Visualizing Sidewalk Accessibility by Deep Neural Networks ( http://arxiv.org/abs/2101.03724v1 )

ライセンス: Link先を確認
Takumi Watanabe, Hiroki Takahashi, Goh Sato, Yusuke Iwasawa, Yutaka Matsuo, Ikuko Eguchi Yairi(参考訳) 本稿では,車いすシート下に設置したスマートフォンの3軸加速度計を用いて,車いすの挙動から歩道のアクセシビリティを推定する手法を提案する。 本手法は,環境要因から歩道のアクセシビリティを認識する。 勾配、縁石、隙間は車椅子の身体に影響を与え、移動が困難である人々の負担になる。 本稿では,深層ニューラルネットワークを用いて車椅子加速度から知識を抽出し,歩道のアクセシビリティ情報を可視化するプロトタイプシステムを開発した。 まず,車いす加速度データを用いて路面条件を分類するための教師付き畳み込みニューラルネットワークモデルを作成した。 第2に,手動アノテーションを使わずに路面条件の表現を抽出するために弱教師付き手法を適用した。 最後に,車椅子利用者の歩道障壁を評価する自己教師付き変分自動エンコーダを開発した。 提案手法は,車椅子のアクセシビリティから歩道のアクセシビリティを推定し,弱教師付きおよび自己教師型アプローチによりアクセシビリティの知識を抽出する。

This paper introduces our methodology to estimate sidewalk accessibilities from wheelchair behavior via a triaxial accelerometer in a smartphone installed under a wheelchair seat. Our method recognizes sidewalk accessibilities from environmental factors, e.g. gradient, curbs, and gaps, which influence wheelchair bodies and become a burden for people with mobility difficulties. This paper developed and evaluated a prototype system that visualizes sidewalk accessibility information by extracting knowledge from wheelchair acceleration using deep neural networks. Firstly, we created a supervised convolutional neural network model to classify road surface conditions using wheelchair acceleration data. Secondly, we applied a weakly supervised method to extract representations of road surface conditions without manual annotations. Finally, we developed a self-supervised variational autoencoder to assess sidewalk barriers for wheelchair users. The results show that the proposed method estimates sidewalk accessibilities from wheelchair accelerations and extracts knowledge of accessibilities by weakly supervised and self-supervised approaches.
翻訳日:2021-04-04 14:36:45 公開日:2021-01-11
# 時間間隔マイニングにおける意味的隣接基準

The Semantic Adjacency Criterion in Time Intervals Mining ( http://arxiv.org/abs/2101.03842v1 )

ライセンス: Link先を確認
Alexander Shknevsky, Yuval Shahar, Robert Moskovitch(参考訳) 時間的相互作用に基づく多変量データで見つかる頻繁な時間的パターンは、構文的には正しいが、非透過的かもしれない: いくつかのパターンの例では、パターンの通常の意味と矛盾する同じエンティティに対して間隔が存在するかもしれない。 非透明パターンは分類や予測機能としてはあまり有用ではないと推測する。 本稿では、ドメイン知識を利用して、意味的に矛盾する可能性のあるコンポーネントを含むパターンをフィルタリングするSAC(Semantic Adjacency Criterion)という、頻繁な時間的パターン発見プロセスにおいて、新たなプルーニング制約を提案する。 我々は3つのSACバージョンを定義し、その効果を3つの医学領域で検証した。 これらの基準を頻繁な時間パターン発見フレームワークに組み込んだ。 従来,我々はSACの原則を非公式に提示し,それを用いて同一臨床領域における発見の再現性を高めることを示した。 ここでは,3つのSAC変種の意味論を形式的に定義し,3つの異なる医療領域における分類・予測タスクの特徴として,プルーニングパターンの集合と発見パターンの完全な集合の使用を比較した。 我々は,ランダムフォレスト,ネイブベイズ,SVM,ロジスティック回帰という4つの機械学習手法を用いて,各タスクに4つの分類器を誘導した。 これらの特徴は、各データセットで頻繁に発見された時間パターンである。 SACベースの時間パターン発見は、発見されるパターンの数を最大97%削減し、発見ランタイムを最大98%削減した。 しかし、SACに基づくパターンベース特徴セットの分類と予測性能は、完全な集合を使用する場合と同様に良好であった。 SACを使用すると、分類や予測性能を失うことなく、発見される頻繁な間隔ベースの時間パターンの数とそれに対応する計算労力を大幅に削減できる。

Frequent temporal patterns discovered in time-interval-based multivariate data, although syntactically correct, might be non-transparent: For some pattern instances, there might exist intervals for the same entity that contradict the pattern's usual meaning. We conjecture that non-transparent patterns are also less useful as classification or prediction features. We propose a new pruning constraint during a frequent temporal-pattern discovery process, the Semantic Adjacency Criterion [SAC], which exploits domain knowledge to filter out patterns that contain potentially semantically contradictory components. We have defined three SAC versions, and tested their effect in three medical domains. We embedded these criteria in a frequent-temporal-pa ttern discovery framework. Previously, we had informally presented the SAC principle and showed that using it to prune patterns enhances the repeatability of their discovery in the same clinical domain. Here, we define formally the semantics of three SAC variations, and compare the use of the set of pruned patterns to the use of the complete set of discovered patterns, as features for classification and prediction tasks in three different medical domains. We induced four classifiers for each task, using four machine-learning methods: Random Forests, Naive Bayes, SVM, and Logistic Regression. The features were frequent temporal patterns discovered in each data set. SAC-based temporal pattern-discovery reduced by up to 97% the number of discovered patterns and by up to 98% the discovery runtime. But the classification and prediction performance of the reduced SAC-based pattern-based features set, was as good as when using the complete set. Using SAC can significantly reduce the number of discovered frequent interval-based temporal patterns, and the corresponding computational effort, without losing classification or prediction performance.
翻訳日:2021-04-04 14:36:28 公開日:2021-01-11
# コミュニティ検出とノード表現のための変分埋め込み

Variational Embeddings for Community Detection and Node Representation ( http://arxiv.org/abs/2101.03885v1 )

ライセンス: Link先を確認
Rayyan Ahmad Khan, Muhammad Umer Anwaar, Omran Kaddah and Martin Kleinsteuber(参考訳) 本稿では,グラフ解析における2つの高度に相関したタスク,すなわちコミュニティ検出とノード表現学習を同時に学習する方法を検討する。 本稿では,コミュニティ検出とノード表現のための変分埋め込みを共同学習するためのVECoDeRと呼ばれる効率的な生成モデルを提案する。 VECoDeRは、すべてのノードが1つ以上のコミュニティのメンバーになれると仮定する。 ノードの埋め込みは、接続ノードが互いに"クローズ"するだけでなく、同様のコミュニティ割り当てを共有するように学習される。 共同学習フレームワークは、コミュニティを意識したノード埋め込みを利用して、コミュニティ検出を改善する。 いくつかのグラフデータセットで、VECoDeRは事実上3つのタスクすべてにおいて多くの競争ベースラインを上回ります。 ノード分類、重複するコミュニティ検出、重複しないコミュニティ検出。 また,VECoDeRは計算効率が高く,様々なハイパーパラメータで高い性能を示すことを示す。

In this paper, we study how to simultaneously learn two highly correlated tasks of graph analysis, i.e., community detection and node representation learning. We propose an efficient generative model called VECoDeR for jointly learning Variational Embeddings for Community Detection and node Representation. VECoDeR assumes that every node can be a member of one or more communities. The node embeddings are learned in such a way that connected nodes are not only "closer" to each other but also share similar community assignments. A joint learning framework leverages community-aware node embeddings for better community detection. We demonstrate on several graph datasets that VECoDeR effectively out-performs many competitive baselines on all three tasks i.e. node classification, overlapping community detection and non-overlapping community detection. We also show that VECoDeR is computationally efficient and has quite robust performance with varying hyperparameters.
翻訳日:2021-04-04 14:35:58 公開日:2021-01-11
# コントラスト学習は新型コロナウイルス患者の臨界事象予測を改善する

Contrastive Learning Improves Critical Event Prediction in COVID-19 Patients ( http://arxiv.org/abs/2101.04013v1 )

ライセンス: Link先を確認
Tingyi Wanyan, Hossein Honarvar, Suraj K. Jaladanki, Chengxi Zang, Nidhi Naik, Sulaiman Somani, Jessica K. De Freitas, Ishan Paranjpe, Akhil Vaid, Riccardo Miotto, Girish N. Nadkarni, Marinka Zitnik, ArifulAzad, Fei Wang, Ying Ding, Benjamin S. Glicksberg(参考訳) マシンラーニング(ML)モデルは一般的に、医療のコンテキストにおいて堅牢で一般化可能で効果的な、大規模でバランスのとれたトレーニングデータを必要とする。 これは、特に電子健康記録(EHR)調査において、データを高度に不均衡にしている新型コロナウイルス(COVID-19)パンデミックのためのMLモデルを開発する上で、大きな問題となっている。 MLの従来のアプローチでは、しばしば粗利分類に苦しむクロスエントロピー損失(CEL)を用いる。 比較損失(CL)は,特に不均衡なEHRデータと関連するCOVID-19分析において,CELの性能を向上させることが初めて示された。 この研究は、シナイ山にあるイカーン医学学校(Icahn School of Medicine)の機関審査委員会(Institutional Review Board)によって承認された。 入院後24時間,48時間以上で死亡率,挿管量,集中治療単位(ICU)の移動を予測するために,マウント・シナイ・ヘルス・システム(MSHS)内の5病院のEHRデータを用いた。 我々は2つの損失関数 (CEL と CL) を用いて2つの連続アーキテクチャ (RNN と RETAIN) を訓練する。 モデルはすべての利用可能なデータと制限付きデータセットを含む完全なサンプルデータセット上でテストされ、auprcでは0.04から0.15、aurocでは0.05から0.1と、これらのタスクで設定された制限付きデータと一貫してcelモデルを上回る。 制限されたサンプルでは、clモデルのみが適切なクラスタリングを維持し、パルスオキシメトリのような重要な特徴を識別できる。 CLは、予測力、クラスタリング、機能の重要性の3つのパフォーマンス指標に関して、3つのEHR結果に対して、厳しいクラス不均衡のケースでCELを上回っます。 開発したCLフレームワークは拡張可能であり、一般に EHR ML の作業に使用できると信じている。

Machine Learning (ML) models typically require large-scale, balanced training data to be robust, generalizable, and effective in the context of healthcare. This has been a major issue for developing ML models for the coronavirus-disease 2019 (COVID-19) pandemic where data is highly imbalanced, particularly within electronic health records (EHR) research. Conventional approaches in ML use cross-entropy loss (CEL) that often suffers from poor margin classification. For the first time, we show that contrastive loss (CL) improves the performance of CEL especially for imbalanced EHR data and the related COVID-19 analyses. This study has been approved by the Institutional Review Board at the Icahn School of Medicine at Mount Sinai. We use EHR data from five hospitals within the Mount Sinai Health System (MSHS) to predict mortality, intubation, and intensive care unit (ICU) transfer in hospitalized COVID-19 patients over 24 and 48 hour time windows. We train two sequential architectures (RNN and RETAIN) using two loss functions (CEL and CL). Models are tested on full sample data set which contain all available data and restricted data set to emulate higher class imbalance.CL models consistently outperform CEL models with the restricted data set on these tasks with differences ranging from 0.04 to 0.15 for AUPRC and 0.05 to 0.1 for AUROC. For the restricted sample, only the CL model maintains proper clustering and is able to identify important features, such as pulse oximetry. CL outperforms CEL in instances of severe class imbalance, on three EHR outcomes with respect to three performance metrics: predictive power, clustering, and feature importance. We believe that the developed CL framework can be expanded and used for EHR ML work in general.
翻訳日:2021-04-04 14:35:45 公開日:2021-01-11
# PEng4NN: 効率的なニューラルネットワークアーキテクチャ探索のための精度の高い性能推定エンジン

PEng4NN: An Accurate Performance Estimation Engine for Efficient Automated Neural Network Architecture Search ( http://arxiv.org/abs/2101.04185v1 )

ライセンス: Link先を確認
Ariel Keller Rorabaugh (1), Silvina Ca\'ino-Lores (1), Michael R. Wyatt II (1), Travis Johnston (2), Michela Taufer (1) ((1) University of Tennessee, Knoxville, USA, (2) Oak Ridge National Lab, Oak Ridge, USA)(参考訳) ニューラルネットワーク(NN)モデルは、データセットから知識を抽出するために、科学シミュレーションやAI、その他のハイパフォーマンスコンピューティング(HPC)分野でますます使われている。 各データセットはnnモデルアーキテクチャをカスタマイズする必要があるが、構造を手で設計することは時間がかかり、エラーが発生しやすいプロセスである。 neural architecture search (nas) はnnアーキテクチャの設計を自動化する。 NASは、NNの能力(例えばデータセット内のサンプルの分類の正確さ)をキャプチャする重要な指標によって、パフォーマンスが測定される特殊なダットセットのNNモデルを見つけようとする。 既存のnasメソッドは、特に大規模データセットの高精度なモデルを探す場合、リソース集約的です。 そこで本研究では,NNのトレーニングリソースを削減し,NASスループットを向上させる性能推定手法を提案する。 PEng4NNはトレーニングプロセスの早い段階でNNの最終精度を予測し、NNのパフォーマンスをNASに通知することで、NASがトレーニングNNの早期終了を可能にする。 CIFAR-100, Fashion MNIST, SVHNの3つの多様なデータセットを用いてエンジンの評価を行った。 我々のエンジンは、必要なトレーニングエポックを減らし、平均すると、トレーニングエポックの6.1 %$から8.2 %$に節約し、最先端NAS法に比べて2.5 %から5 %のスループットを向上する。 2つの重要な結果が示されるように、精度を損なうことなくこの利益を達成する。 第一に、私たちのすべてのテストで、基礎的真実の最良のモデルのうち、74\%$から979\%の範囲が、私たちの予測した最良のモデル群にあります。 第二に、基底真実の最良のモデルと予測された最良のモデルの精度分布は同等であり、平均精度値は全てのテストで少なくとも.7ポイント異なる。

Neural network (NN) models are increasingly used in scientific simulations, AI, and other high performance computing (HPC) fields to extract knowledge from datasets. Each dataset requires tailored NN model architecture, but designing structures by hand is a time-consuming and error-prone process. Neural architecture search (NAS) automates the design of NN architectures. NAS attempts to find well-performing NN models for specialized datsets, where performance is measured by key metrics that capture the NN capabilities (e.g., accuracy of classification of samples in a dataset). Existing NAS methods are resource intensive, especially when searching for highly accurate models for larger and larger datasets. To address this problem, we propose a performance estimation strategy that reduces the resources for training NNs and increases NAS throughput without jeopardizing accuracy. We implement our strategy via an engine called PEng4NN that plugs into existing NAS methods; in doing so, PEng4NN predicts the final accuracy of NNs early in the training process, informs the NAS of NN performance, and thus enables the NAS to terminate training NNs early. We assess our engine on three diverse datasets (i.e., CIFAR-100, Fashion MNIST, and SVHN). By reducing the training epochs needed, our engine achieves substantial throughput gain; on average, our engine saves $61\%$ to $82\%$ of training epochs, increasing throughput by a factor of 2.5 to 5 compared to a state-of-the-art NAS method. We achieve this gain without compromising accuracy, as we demonstrate with two key outcomes. First, across all our tests, between $74\%$ and $97\%$ of the ground truth best models lie in our set of predicted best models. Second, the accuracy distributions of the ground truth best models and our predicted best models are comparable, with the mean accuracy values differing by at most .7 percentage points across all tests.
翻訳日:2021-04-04 14:35:14 公開日:2021-01-11
# 競争強化学習のための独立政策勾配法

Independent Policy Gradient Methods for Competitive Reinforcement Learning ( http://arxiv.org/abs/2101.04233v1 )

ライセンス: Link先を確認
Constantinos Daskalakis, Dylan J. Foster, Noah Golowich(参考訳) 我々は、2つのエージェント(ゼロサム確率ゲーム)と競合する強化学習設定において、独立学習アルゴリズムのグローバルな非漸近収束保証を得る。 各エピソードにおいて、各プレイヤーが独立して方針を選択し、自身の行動と報酬のみを国家とともに観察するエピソディックな設定を考える。 両プレイヤーがタンデムでポリシー勾配法を実行すると、学習率が2段階のルールに従う限り、それらのポリシーはゲームのミニマックス均衡に収束する(これは必要である)。 我々の知る限りでは、これは競争的RLにおける独立政策勾配法に対する最初の有限サンプル収束結果である。

We obtain global, non-asymptotic convergence guarantees for independent learning algorithms in competitive reinforcement learning settings with two agents (i.e., zero-sum stochastic games). We consider an episodic setting where in each episode, each player independently selects a policy and observes only their own actions and rewards, along with the state. We show that if both players run policy gradient methods in tandem, their policies will converge to a min-max equilibrium of the game, as long as their learning rates follow a two-timescale rule (which is necessary). To the best of our knowledge, this constitutes the first finite-sample convergence result for independent policy gradient methods in competitive RL; prior work has largely focused on centralized, coordinated procedures for equilibrium computation.
翻訳日:2021-04-04 14:34:14 公開日:2021-01-11
# 実践的制約によるマーケティングミックス最適化

Marketing Mix Optimization with Practical Constraints ( http://arxiv.org/abs/2101.03663v1 )

ライセンス: Link先を確認
Hsin-Chan Huang and Jiefeng Xu and Alvin Lim(参考訳) 本稿では,小売・消費者パッケージ商品(CPG)産業など,多くの産業でよく見られるマーケティングミックス最適化(MMO)問題に対処する。 この問題は、調整された場合、各マーケティング活動の費用を、不要な程度(最小変更)で変更することと、支出変化を伴う活動の総数(最大変更数)を制限することを必要とする。 これら2つの追加の実用要件により、元のリソース割り当て問題は混合整数非線形プログラム(MINLP)として定式化される。 産業環境における現実的な問題の大きさを考えると、最先端の整数型プログラミングソルバは、適度な時間内に、簡単な方法で最適性の問題を解くことができないかもしれない。 そこで我々は,計算負担を軽減するための体系的な改革を提案する。 計算テストでは、ソリューションプロセスが大幅に改善されている。

In this paper, we address a variant of the marketing mix optimization (MMO) problem which is commonly encountered in many industries, e.g., retail and consumer packaged goods (CPG) industries. This problem requires the spend for each marketing activity, if adjusted, be changed by a non-negligible degree (minimum change) and also the total number of activities with spend change be limited (maximum number of changes). With these two additional practical requirements, the original resource allocation problem is formulated as a mixed integer nonlinear program (MINLP). Given the size of a realistic problem in the industrial setting, the state-of-the-art integer programming solvers may not be able to solve the problem to optimality in a straightforward way within a reasonable amount of time. Hence, we propose a systematic reformulation to ease the computational burden. Computational tests show significant improvements in the solution process.
翻訳日:2021-04-04 14:33:36 公開日:2021-01-11
# 群適応弾性ネットに対するペナルティの高速限界度推定

Fast marginal likelihood estimation of penalties for group-adaptive elastic net ( http://arxiv.org/abs/2101.03875v1 )

ライセンス: Link先を確認
Mirrelijn M. van Nee, Tim van de Brug, Mark A. van de Wiel(参考訳) 今日、臨床研究は、臨床結果の予測やマーカーの選択に、遺伝子発現などのオメックデータを日常的に使用する。 さらに、いわゆるコデータも利用可能であり、以前に発表された研究のp値や経路に対応する遺伝子群などの共変量の補的な情報を提供する。 弾性ネットペナル化は予測と共変量選択に広く用いられている。 群適応弾性ネットペナライゼーションはコデータから学習し、他の群よりも重要な共変量の群を解析することにより予測と共変量の選択を改善する。 しかし、既存の手法は計算コストが高い。 本稿では,一般化線形モデルに対する群適応弾性ネットペナルティの限界推定法を提案する。 まず, 限界確率のテイラー近似の低次元表現と群適応リッジペナルティに対する最初の微分を導出し, それらのペナルティを効率的に推定する。 次に, 線形予測器の漸近正規性を用いて, 弾性ネットモデルの限界確率はリッジモデルの限界確率によく近似できることを示した。 そして、この分散関数を用いて、リッジ群ペナルティを弾性ネット群ペナルティに変換する。 この方法は、重複するグループと不給変数を許容する。 本手法をモデルベースシミュレーション研究で実証し,癌ゲノム学への応用について述べる。 この方法は計算時間を大幅に削減し、コデータから学習することで他の方法に匹敵する。

Nowadays, clinical research routinely uses omics data, such as gene expression, for predicting clinical outcomes or selecting markers. Additionally, so-called co-data are often available, providing complementary information on the covariates, like p-values from previously published studies or groups of genes corresponding to pathways. Elastic net penalisation is widely used for prediction and covariate selection. Group-adaptive elastic net penalisation learns from co-data to improve the prediction and covariate selection, by penalising important groups of covariates less than other groups. Existing methods are, however, computationally expensive. Here we present a fast method for marginal likelihood estimation of group-adaptive elastic net penalties for generalised linear models. We first derive a low-dimensional representation of the Taylor approximation of the marginal likelihood and its first derivative for group-adaptive ridge penalties, to efficiently estimate these penalties. Then we show by using asymptotic normality of the linear predictors that the marginal likelihood for elastic net models may be approximated well by the marginal likelihood for ridge models. The ridge group penalties are then transformed to elastic net group penalties by using the variance function. The method allows for overlapping groups and unpenalised variables. We demonstrate the method in a model-based simulation study and an application to cancer genomics. The method substantially decreases computation time and outperforms or matches other methods by learning from co-data.
翻訳日:2021-04-04 14:33:23 公開日:2021-01-11
# Instant and Plug & Playスタイル転送による超音波画像分割の一般化

Generalize Ultrasound Image Segmentation via Instant and Plug & Play Style Transfer ( http://arxiv.org/abs/2101.03711v1 )

ライセンス: Link先を確認
Zhendong Liu, Xiaoqiong Huang, Xin Yang, Rui Gao, Rui Li, Yuanji Zhang, Yankai Huang, Guangquan Zhou, Yi Xiong, Alejandro F Frangi, Dong Ni(参考訳) 外観不明の画像に一般化するディープセグメンテーションモデルは、現実の医療画像解析において重要である。 モデルの再トレーニングは、高いレイテンシと複雑なパイプラインをもたらし、臨床環境では実用的ではない。 超音波画像解析では外観の変化が大きいため, 状況はより深刻になる。 本稿では,未知の外観変化の下でのロバストなセグメンテーション手法を提案する。 私たちの貢献は3倍です。 まず,階層型トランスファーユニットをセグメンテーションアーキテクチャに組み込んで,ワンステージのプラグアンドプレイソリューションを提案する。 我々のソリューションは外観変化を除去し、同時にセグメンテーションを行うことができる。 次に、動的インスタンス正規化を用いて、従来固定されていたスタイル正規化ではなく、正確に動的スタイル転送を行う。 第3に、我々のソリューションは迅速で軽量であり、定期的な臨床応用に役立ちます。 400*400の画像入力が与えられると、ベースラインパイプラインと比較して外観シフトを処理するために、さらに0.2msと1.92mフロップが必要となる。 3つのベンダーによる大規模データセットで広範な実験を行い,提案手法が深層セグメンテーションモデルのロバスト性を高めることを実証した。

Deep segmentation models that generalize to images with unknown appearance are important for real-world medical image analysis. Retraining models leads to high latency and complex pipelines, which are impractical in clinical settings. The situation becomes more severe for ultrasound image analysis because of their large appearance shifts. In this paper, we propose a novel method for robust segmentation under unknown appearance shifts. Our contribution is three-fold. First, we advance a one-stage plug-and-play solution by embedding hierarchical style transfer units into a segmentation architecture. Our solution can remove appearance shifts and perform segmentation simultaneously. Second, we adopt Dynamic Instance Normalization to conduct precise and dynamic style transfer in a learnable manner, rather than previously fixed style normalization. Third, our solution is fast and lightweight for routine clinical adoption. Given 400*400 image input, our solution only needs an additional 0.2ms and 1.92M FLOPs to handle appearance shifts compared to the baseline pipeline. Extensive experiments are conducted on a large dataset from three vendors demonstrate our proposed method enhances the robustness of deep segmentation models.
翻訳日:2021-04-04 14:33:01 公開日:2021-01-11
# 効率的な組織像分類のための解像度に基づく蒸留法

Resolution-Based Distillation for Efficient Histology Image Classification ( http://arxiv.org/abs/2101.04170v1 )

ライセンス: Link先を確認
Joseph DiPalma, Arief A. Suriawinata, Laura J. Tafe, Lorenzo Torresani, Saeed Hassanpour(参考訳) 組織像を分析するディープラーニングモデルの開発は、画像の膨大なサイズが計算パイプラインのすべての部分に過大な負荷をもたらしているため、計算的に困難である。 本稿では,組織像分類の計算効率を向上させるための新しい深層学習手法を提案する。 提案手法は,入力解像度を低減し,限定ラベルデータを用いて効果的にトレーニングできる画像に対して頑健である。 本手法は, 従来の高分解能画像に基づいて, 知識蒸留(KD)を用いて, 教師モデルから同じ画像上で訓練された学生モデルへ, はるかに低い解像度で学習知識を伝達する。 大規模ラベル付きヒストロジー画像データセットの欠如に対処するため,自己教師あり方式でkdを行う。 セリアック病 (CD) と肺腺癌 (LUAD) に関連する2つの組織像データセットについて検討した。 以上の結果から,KDと自己監督の組み合わせにより,生徒モデルがより効率的に教師の分類精度を越えながら,生徒モデルにアプローチすることが可能であることが示唆された。 さらに,ラベルなしデータセットのサイズが増加するにつれて学生の分類性能が向上し,さらに拡大する可能性が示唆された。 CDデータの場合、我々のモデルはHR教師モデルより優れ、計算量は4倍少ない。 LUADデータの場合、学生モデルは1.25倍の倍率で10倍の倍率で教師モデルの3%以内であり、計算コストは64倍である。 さらに、cdの結果は、ラベルなしのデータを使用することで、パフォーマンススケーリングの恩恵を受けます。 0.625倍の場合、ラベルのないデータを使用すると、ベースラインよりも4%精度が向上する。 これにより,標準計算ハードウェアを用いて,デジタル病理学における深層学習ソリューションの実現可能性を高めることができる。

Developing deep learning models to analyze histology images has been computationally challenging, as the massive size of the images causes excessive strain on all parts of the computing pipeline. This paper proposes a novel deep learning-based methodology for improving the computational efficiency of histology image classification. The proposed approach is robust when used with images that have reduced input resolution and can be trained effectively with limited labeled data. Pre-trained on the original high-resolution (HR) images, our method uses knowledge distillation (KD) to transfer learned knowledge from a teacher model to a student model trained on the same images at a much lower resolution. To address the lack of large-scale labeled histology image datasets, we perform KD in a self-supervised manner. We evaluate our approach on two histology image datasets associated with celiac disease (CD) and lung adenocarcinoma (LUAD). Our results show that a combination of KD and self-supervision allows the student model to approach, and in some cases, surpass the classification accuracy of the teacher, while being much more efficient. Additionally, we observe an increase in student classification performance as the size of the unlabeled dataset increases, indicating that there is potential to scale further. For the CD data, our model outperforms the HR teacher model, while needing 4 times fewer computations. For the LUAD data, our student model results at 1.25x magnification are within 3% of the teacher model at 10x magnification, with a 64 times computational cost reduction. Moreover, our CD outcomes benefit from performance scaling with the use of more unlabeled data. For 0.625x magnification, using unlabeled data improves accuracy by 4% over the baseline. Thus, our method can improve the feasibility of deep learning solutions for digital pathology with standard computational hardware.
翻訳日:2021-04-04 14:32:43 公開日:2021-01-11
# ブラックボックスの円滑な説明--反事実的アプローチ

Explaining the Black-box Smoothly- A Counterfactual Approach ( http://arxiv.org/abs/2101.04230v1 )

ライセンス: Link先を確認
Sumedha Singla, Brian Pollack, Stephen Wallace and Kayhan Batmanghelich(参考訳) 医用画像アプリケーション用に開発されたBlackBox \emph{Counterfactual Explainer}を提案する。 古典的アプローチ(例) 特徴の重要性を評価することは、特定の解剖学的領域における \emph{how} と \emph{why} の変異が、医療応用における透明な意思決定に不可欠である結果に関連することを説明しない。 我々のフレームワークは、与えられた結果ラベルのセマンティック効果を徐々に強調して結果を説明する。 分類器へのクエリ入力が与えられると、生成型逆ネットワークはクエリ画像に対する漸進的な摂動の集合を生成し、元のクラスから否定へと後続確率を徐々に変化させる。 本研究は,サポートデバイスなどの本質的かつ潜在的に関係のある詳細が,偽造画像に保存されることを保証するために,損失関数を設計する。 胸部X線画像の分類課題について広範囲に評価する。 本実験は, 定量的, 質的, 定量的に, 臨床関連測定値と反事実的に発生する視覚的説明が一致していることを示した。

We propose a BlackBox \emph{Counterfactual Explainer} that is explicitly developed for medical imaging applications. Classical approaches (e.g. saliency maps) assessing feature importance do not explain \emph{how} and \emph{why} variations in a particular anatomical region is relevant to the outcome, which is crucial for transparent decision making in healthcare application. Our framework explains the outcome by gradually \emph{exaggerating} the semantic effect of the given outcome label. Given a query input to a classifier, Generative Adversarial Networks produce a progressive set of perturbations to the query image that gradually changes the posterior probability from its original class to its negation. We design the loss function to ensure that essential and potentially relevant details, such as support devices, are preserved in the counterfactually generated images. We provide an extensive evaluation of different classification tasks on the chest X-Ray images. Our experiments show that a counterfactually generated visual explanation is consistent with the disease's clinical relevant measurements, both quantitatively and qualitatively.
翻訳日:2021-04-04 14:31:17 公開日:2021-01-11
# メタラーニングによるディープインタラクティブベイズ強化学習

Deep Interactive Bayesian Reinforcement Learning via Meta-Learning ( http://arxiv.org/abs/2101.03864v1 )

ライセンス: Link先を確認
Luisa Zintgraf, Sam Devlin, Kamil Ciosek, Shimon Whiteson, Katja Hofmann(参考訳) 他のエージェントと対話するエージェントは、他のエージェントの戦略が何であるかを事前に知らないが、他のエージェントと対話し、学びながら、自分たちのオンラインリターンを最大化しなければならない。 他のエージェントの戦略w.r.t.に対する不確実性下での最適適応行動 原則として、インタラクティブベイズ強化学習フレームワークを使って計算することができる。 残念ながら、ほとんどの設定ではそうすることは難しく、既存の近似メソッドは小さなタスクに限定されている。 これを解決するために,メタラーン近似的信念推論とベイズ最適行動を提案する。 他のエージェントに対する信念をモデル化するために、シーケンシャルおよび階層的な変分オートエンコーダを結合し、この推論モデルをポリシーと一緒にメタトレーニングします。 提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。

Agents that interact with other agents often do not know a priori what the other agents' strategies are, but have to maximise their own online return while interacting with and learning about others. The optimal adaptive behaviour under uncertainty over the other agents' strategies w.r.t. some prior can in principle be computed using the Interactive Bayesian Reinforcement Learning framework. Unfortunately, doing so is intractable in most settings, and existing approximation methods are restricted to small tasks. To overcome this, we propose to meta-learn approximate belief inference and Bayes-optimal behaviour for a given prior. To model beliefs over other agents, we combine sequential and hierarchical Variational Auto-Encoders, and meta-train this inference model alongside the policy. We show empirically that our approach outperforms existing methods that use a model-free approach, sample from the approximate posterior, maintain memory-free models of others, or do not fully utilise the known structure of the environment.
翻訳日:2021-04-04 14:30:56 公開日:2021-01-11
# サブルーチンに関する基礎的質問に対するニューラル質問応答システム

A Neural Question Answering System for Basic Questions about Subroutines ( http://arxiv.org/abs/2101.03999v1 )

ライセンス: Link先を確認
Aakash Bansal, Zachary Eberhart, Lingfei Wu, Collin McMillan(参考訳) 質問応答システム(英: question answering, QA)とは、人間による質問に対する自然言語応答を生成する対話型AIの一種である。 QAシステムはしばしば対話型対話システムのバックボーンを形成し、レストランの推薦から医療診断まで幅広いタスクで研究されてきた。 近年、特にビッグデータ入力でトレーニングされたエンコーダ-デコーダニューラルアーキテクチャの使用によって、劇的な進歩を遂げている。 本稿では,サブルーチンに関する基本的な質問に対して,コンテキストベースのQAシステムを設計することにより,最先端のニューラルQA技術をソフトウェア工学アプリケーションに導入するための最初のステップについて述べる。 我々は、最近の経験的研究から抽出したルールに基づいて、109万の質問/コンテキスト/回答タプルのトレーニングデータセットをキュレートする。 そして、このデータセットを用いてカスタムニューラルネットワークQAモデルをトレーニングし、プロのプログラマによる研究でモデルを評価する。 我々は,システムの長所と短所を実証し,ソフトウェア工学の対話システムにおけるその使用の基礎を定めている。

A question answering (QA) system is a type of conversational AI that generates natural language answers to questions posed by human users. QA systems often form the backbone of interactive dialogue systems, and have been studied extensively for a wide variety of tasks ranging from restaurant recommendations to medical diagnostics. Dramatic progress has been made in recent years, especially from the use of encoder-decoder neural architectures trained with big data input. In this paper, we take initial steps to bringing state-of-the-art neural QA technologies to Software Engineering applications by designing a context-based QA system for basic questions about subroutines. We curate a training dataset of 10.9 million question/context/ans wer tuples based on rules we extract from recent empirical studies. Then, we train a custom neural QA model with this dataset and evaluate the model in a study with professional programmers. We demonstrate the strengths and weaknesses of the system, and lay the groundwork for its use in eventual dialogue systems for software engineering.
翻訳日:2021-04-04 14:30:39 公開日:2021-01-11
# マルチグラフオートエンコーダを用いた集約データの異常検出

Anomaly Detection for Aggregated Data Using Multi-Graph Autoencoder ( http://arxiv.org/abs/2101.04053v1 )

ライセンス: Link先を確認
Tomer Meirman, Roni Stern, Gilad Katz(参考訳) データシステムでは、アクティビティやイベントがフィールドで継続的に収集され、適切な実行をトレースします。 ログは、イベントのシーケンスを記録することを意味し、システム障害や障害を分析し、そのような問題の原因や場所を特定するのに使用することができる。 本研究では,システムログの異常検出モデルの作成に焦点をあてる。 異常検出のタスクは、通常の行動とは異なるデータセットにおける予期せぬ事象を特定することである。 異常検出モデルは、データシステム分析タスクも支援する。 現代のシステムは、個々のイベントを監視できるような大量のイベントを発生させることは不可能である。 このような場合、イベントは一定期間に集約されることが多く、その期間に発生したイベントの回数が報告される。 このアグリゲーションはスケーリングを容易にするが、異常検出には異なるアプローチを必要とする。 本研究では,集約されたデータと集約されたイベントの関係を徹底的に分析する。 研究の初期段階に基づいて、集約されたデータセットのグラフ表現を示し、同じコンテキストにおける集約されたインスタンス間の異なる関係を表現します。 グラフ表現を用いた新しい畳み込みグラフ・オートエンコーダモデルであるMulti-graphs Autoencoder MGAEを提案する。 MGAEは標準グラフオートコーダモデルと異なる実験より優れている。 新しいmgaeでは,高次関係の再構築において表現される標準グラフオートエンコーダと比較して,再構成誤差が60%減少した。

In data systems, activities or events are continuously collected in the field to trace their proper executions. Logging, which means recording sequences of events, can be used for analyzing system failures and malfunctions, and identifying the causes and locations of such issues. In our research we focus on creating an Anomaly detection models for system logs. The task of anomaly detection is identifying unexpected events in dataset, which differ from the normal behavior. Anomaly detection models also assist in data systems analysis tasks. Modern systems may produce such a large amount of events monitoring every individual event is not feasible. In such cases, the events are often aggregated over a fixed period of time, reporting the number of times every event has occurred in that time period. This aggregation facilitates scaling, but requires a different approach for anomaly detection. In this research, we present a thorough analysis of the aggregated data and the relationships between aggregated events. Based on the initial phase of our research we present graphs representations of our aggregated dataset, which represent the different relationships between aggregated instances in the same context. Using the graph representation, we propose Multiple-graphs autoencoder MGAE, a novel convolutional graphs-autoencoder model which exploits the relationships of the aggregated instances in our unique dataset. MGAE outperforms standard graph-autoencoder models and the different experiments. With our novel MGAE we present 60% decrease in reconstruction error in comparison to standard graph autoencoder, which is expressed in reconstructing high-degree relationships.
翻訳日:2021-04-04 14:30:06 公開日:2021-01-11
# 比較フィードバックによる学習--サンプル統計のオンライン推定

Learning with Comparison Feedback: Online Estimation of Sample Statistics ( http://arxiv.org/abs/2101.04176v1 )

ライセンス: Link先を確認
Michela Meister and Sloan Nietert(参考訳) 本研究では, ランダムノイズに悩まされるのではなく, 確率的でない相手からフィードバックが生成される, 雑音二分探索問題のオンライン版について検討する。 我々は、各数$x_t$が${1(x_t \leq q_t)}$という形式の単一のしきい値クエリを通してのみアクセス可能なモデルにおいて、逆整数列の中央値である$x_1, x_2, \dots$の正確な推定を維持するように、これを再構成する。 このオンライン比較フィードバックモデルでは、一般的なサンプル統計量の推定を行い、平均値、cdf、平均推定のロバストなアルゴリズムを提供する。 我々はいくつかの高次元の一般化で結論付ける。

We study an online version of the noisy binary search problem where feedback is generated by a non-stochastic adversary rather than perturbed by random noise. We reframe this as maintaining an accurate estimate for the median of an adversarial sequence of integers, $x_1, x_2, \dots$, in a model where each number $x_t$ can only be accessed through a single threshold query of the form ${1(x_t \leq q_t)}$. In this online comparison feedback model, we explore estimation of general sample statistics, providing robust algorithms for median, CDF, and mean estimation with nearly matching lower bounds. We conclude with several high-dimensional generalizations.
翻訳日:2021-04-04 14:29:45 公開日:2021-01-11
# 機械学習を用いた薬剤安全性保証の枠組み

A Framework for Assurance of Medication Safety using Machine Learning ( http://arxiv.org/abs/2101.05620v1 )

ライセンス: Link先を確認
Yan Jia, Tom Lawton, John McDermid, Eric Rojas, Ibrahim Habli(参考訳) 薬の誤用は、病院で避けられる患者の危害の主な原因であり続けている。 本稿では,機械学習と安全工学を組み合わせた薬剤安全性を確保する枠組みを提案する。 専門家の意見に基づいて、安全分析を用いて薬物エラーの潜在的な原因を積極的に特定する。 医療はデータに富んでいるため、機械学習による安全性分析を強化して、データから医薬品エラーの実際の原因を発見し、安全分析で予測されたものから逸脱した場所を特定することができる。 これら2つのビューを組み合わせることで、薬物エラーのリスクを積極的に動的に管理できる可能性がある。 この枠組みを胸腔手術を含む症例研究に適用する。 心房細動の制御には、β遮断薬を投与するエラーが不可欠である。 このケーススタディでは、HAZOPベースの安全分析手法であるSHARDとベイジアンネットワーク構造学習とプロセスマイニングを組み合わせて分析結果を生成し、患者安全を確保するためのフレームワークの可能性を示し、複雑な医療環境における安全管理の方法を変える。

Medication errors continue to be the leading cause of avoidable patient harm in hospitals. This paper sets out a framework to assure medication safety that combines machine learning and safety engineering methods. It uses safety analysis to proactively identify potential causes of medication error, based on expert opinion. As healthcare is now data rich, it is possible to augment safety analysis with machine learning to discover actual causes of medication error from the data, and to identify where they deviate from what was predicted in the safety analysis. Combining these two views has the potential to enable the risk of medication errors to be managed proactively and dynamically. We apply the framework to a case study involving thoracic surgery, e.g. oesophagectomy, where errors in giving beta-blockers can be critical to control atrial fibrillation. This case study combines a HAZOP-based safety analysis method known as SHARD with Bayesian network structure learning and process mining to produce the analysis results, showing the potential of the framework for ensuring patient safety, and for transforming the way that safety is managed in complex healthcare environments.
翻訳日:2021-04-04 14:29:15 公開日:2021-01-11
# 宇宙の進化地図(EMU):SCORPIOフィールドの銀河面へのコンパクトな電波源

Evolutionary Map of the Universe (EMU):Compact radio sources in the SCORPIO field towards the Galactic plane ( http://arxiv.org/abs/2101.03843v1 )

ライセンス: Link先を確認
S. Riggi, G. Umana, C. Trigilio, F. Cavallaro, A. Ingallinera, P. Leto, F. Bufano, R.P. Norris, A.M. Hopkins, M.D. Filipovi\'c, H. Andernach, J.Th. van Loon, M.J. Micha{\l}owski, C. Bordiu, T. An, C. Buemi, E. Carretti, J.D. Collier, T. Joseph, B.S. Koribalski, R. Kothes, S. Loru, D. McConnell, M. Pommier, E. Sciacca, F. Schillir\'o, F. Vitello, K. Warhurst, M. Whiting(参考訳) 本稿では,オーストラリア四角キロメートル配列パスファインダー (askap) の初期科学プログラム中に観測された銀河面の領域について述べる。 この文脈では、SCORPIOフィールドを912MHzで観測し、15個のアンテナからなる未完成アレイを観測した。 その結果得られた地図は、(l, b)=(343.5{\deg}, 0.75{\deg})を中心に約40 deg^2の正方形領域をカバーし、合成されたビームは24"x21"、背景rmsノイズは150-200 {\mu}jy/beamで、銀河面に近い500-600 {\mu}jy/beamまで増加する。 CAESARソースファインダを用いて,3963個の電波源を検出した。 シミュレーションデータから推定した音源抽出と特徴的不確かさの補正後, 予め公表したデータと一致する差分音源数を得た。 また,ATCAの2.1GHzと10"の空間分解能において,従来の調査(MGPS,NVSS)とSCORPIOフィールドの観測により,ASKAPの位置およびフラックス密度スケールの精度についても検討した。 これにより、カタログ化されたソースのサブセットのスペクトル指数と、報告されたカタログの解決されたソースの(少なくとも)8%を推定した割合を測定することができた。 我々は、分類された情報源と異なる天文学データベースを交互に組み合わせて、可能な天体を探索し、既知の銀河天体と約150の関連を見出した。 最後に,従来報告されていなかった銀河源を無線赤外色に基づいて分類するマルチパラメトリック手法を検討した。

We present observations of a region of the Galactic plane taken during the Early Science Program of the Australian Square Kilometre Array Pathfinder (ASKAP). In this context, we observed the SCORPIO field at 912 MHz with an uncompleted array consisting of 15 commissioned antennas. The resulting map covers a square region of ~40 deg^2, centred on (l, b)=(343.5{\deg}, 0.75{\deg}), with a synthesized beam of 24"x21" and a background rms noise of 150-200 {\mu}Jy/beam, increasing to 500-600 {\mu}Jy/beam close to the Galactic plane. A total of 3963 radio sources were detected and characterized in the field using the CAESAR source finder. We obtained differential source counts in agreement with previously published data after correction for source extraction and characterization uncertainties, estimated from simulated data. The ASKAP positional and flux density scale accuracy were also investigated through comparison with previous surveys (MGPS, NVSS) and additional observations of the SCORPIO field, carried out with ATCA at 2.1 GHz and 10" spatial resolution. These allowed us to obtain a measurement of the spectral index for a subset of the catalogued sources and an estimated fraction of (at least) 8% of resolved sources in the reported catalogue. We cross-matched our catalogued sources with different astronomical databases to search for possible counterparts, finding ~150 associations to known Galactic objects. Finally, we explored a multiparametric approach for classifying previously unreported Galactic sources based on their radio-infrared colors.
翻訳日:2021-04-04 14:28:56 公開日:2021-01-11
# 顔マスクの存在下でのリモートパルス推定

Remote Pulse Estimation in the Presence of Face Masks ( http://arxiv.org/abs/2101.04096v1 )

ライセンス: Link先を確認
Jeremy Speth, Nathan Vance, Patrick Flynn, Kevin Bowyer, Adam Czajka(参考訳) リモート光胸腺撮影(remote photoplethysmography , RPPG)は、カメラからの血液量変化をモニタリングする技術群である。 これは、消費者向けの可視光カメラからの顔ビデオを分析する際に、広範囲にわたるコンタクトレス健康監視に特に有用である。 新型コロナウイルス(covid-19)のパンデミックは、ウイルス感染を防ぐために保護マスクを広く利用した。 顔の保護マスクにより顔が部分的に遮蔽されると, 血液量推定の絶対誤差がほぼ2倍になるため, 顔用マスクの閉塞が顔用ビデオベースrppgに与える影響が確認された。 To our knowledge, this paper is the first to analyse the impact of face masks on the accuracy of blood volume pulse estimation and offers several novel elements: (a) two publicly available pulse estimation datasets acquired from 86 unmasked and 61 masked subjects, (b) evaluations of handcrafted algorithms and a 3D convolutional neural network trained on videos of full (unmasked) faces and synthetically generated masks, and (c) data augmentation method (a generator adding a synthetic mask to a face video). 本研究は,フェイスマスクが顔映像解析の精度を低下させる方法を明らかにするのに役立ち,より堅牢なパルス推定への道筋について考察する。 本論文では,提案手法のデータセットとソースコードについて述べる。

Remote photoplethysmography (rPPG) is a known family of techniques for monitoring blood volume changes from a camera. It may be especially useful for widespread contact-less health monitoring when used to analyze face video from consumer-grade visible-light cameras. The COVID-19 pandemic has caused the widespread use of protective face masks to prevent virus transmission. We found that occlusions from face masks affect face video-based rPPG as the mean absolute error of blood volume estimation is nearly doubled when the face is partially occluded by protective masks. To our knowledge, this paper is the first to analyse the impact of face masks on the accuracy of blood volume pulse estimation and offers several novel elements: (a) two publicly available pulse estimation datasets acquired from 86 unmasked and 61 masked subjects, (b) evaluations of handcrafted algorithms and a 3D convolutional neural network trained on videos of full (unmasked) faces and synthetically generated masks, and (c) data augmentation method (a generator adding a synthetic mask to a face video). Our findings help identify how face masks degrade accuracy of face video analysis, and we discuss paths toward more robust pulse estimation in their presence. The datasets and source codes of all proposed methods are available along with this paper.
翻訳日:2021-04-04 14:27:21 公開日:2021-01-11
# 振動時系列から未知の物理パラメータを復元するディープニューラルネットワーク

Deep Neural Networks to Recover Unknown Physical Parameters from Oscillating Time Series ( http://arxiv.org/abs/2101.03850v1 )

ライセンス: Link先を確認
Antoine Garcon, Julian Vexler, Dmitry Budker, Stefan Kramer(参考訳) ディープニューラルネットワーク(Deep Neural Network, DNN)は、人間の理解しやすく定量的なデータ生成過程の記述、例えば方程式の形では達成できないパターン認識タスクにおいて広く使われている。 その間、DNNはしばしばデータ生成プロセスの抽象的(絡み合った、非解釈可能な)表現を生成する。 これは、DNNが物理信号処理で広く使われていない理由の1つである:物理学者は一般に、研究されたシステムに関する定量的情報を得るために、その分析を必要とする。 本稿では、DNNを用いて、振動する時系列の成分を乱し、意味のある情報を復元する。 DNNは有用な抽象的特徴表現を見つけることができるため、信号生成過程に関する事前の知識が存在する場合に使用できるが、「新しい物理」探索では特にそうであるように、完全ではない。 この目的のために、我々はdnnを合成振動時系列に訓練し、信号潜在パラメータの回帰とオートエンコーダライクなアーキテクチャによる信号ノイズの2つのタスクを実行する。 回帰および復調性能は、DNNが初期推定を全く必要としていないにもかかわらず、真の潜在パラメータの初期推定値を持つ最小二乗曲線フィッティング(LS-fit)のものと類似していることを示す。 次に、事前の知識が不完全である場合に、我々のアーキテクチャが物理学における時系列処理に役立つと信じているアプリケーションを探る。 例えば、最初の推測が不明な場合には、DNNを使ってLS適合を知らせる。 回帰は、他のパラメータの存在を無視しながら、潜在パラメータで実行可能であることを示す。 オートエンコーダは物理モデルに関する事前情報を必要としないため、未知の潜在パラメータをキャプチャして、データ探索と発見のためのスペースを残しながら、部分的な事前知識を利用することができる。

Deep neural networks (DNNs) are widely used in pattern-recognition tasks for which a human comprehensible, quantitative description of the data-generating process, e.g., in the form of equations, cannot be achieved. While doing so, DNNs often produce an abstract (entangled and non-interpretable) representation of the data-generating process. This is one of the reasons why DNNs are not extensively used in physics-signal processing: physicists generally require their analyses to yield quantitative information about the studied systems. In this article we use DNNs to disentangle components of oscillating time series, and recover meaningful information. We show that, because DNNs can find useful abstract feature representations, they can be used when prior knowledge about the signal-generating process exists, but is not complete, as it is particularly the case in "new-physics" searches. To this aim, we train our DNN on synthetic oscillating time series to perform two tasks: a regression of the signal latent parameters and signal denoising by an Autoencoder-like architecture. We show that the regression and denoising performance is similar to those of least-square curve fittings (LS-fit) with true latent parameters' initial guesses, in spite of the DNN needing no initial guesses at all. We then explore applications in which we believe our architecture could prove useful for time-series processing in physics, when prior knowledge is incomplete. As an example, we employ DNNs as a tool to inform LS-fits when initial guesses are unknown. We show that the regression can be performed on some latent parameters, while ignoring the existence of others. Because the Autoencoder needs no prior information about the physical model, the remaining unknown latent parameters can still be captured, thus making use of partial prior knowledge, while leaving space for data exploration and discoveries.
翻訳日:2021-04-04 14:27:04 公開日:2021-01-11
# スケーラブルなAC-OPF学習のための負荷埋め込み

Load Embeddings for Scalable AC-OPF Learning ( http://arxiv.org/abs/2101.03973v1 )

ライセンス: Link先を確認
Terrence W.K. Mak and Ferdinando Fioretto and Pascal VanHentenryck(参考訳) AC Optimal Power Flow (AC-OPF)は、電力系統最適化の基本的な構成要素である。 特に再生可能エネルギーが普及している地域では、運用上の限界に違反することを避けるために繰り返し解決されることが多い。 近年の研究では,AC-OPFの高精度な近似にディープラーニングが有効であることが示されている。 しかし、ディープラーニングのアプローチは、特に大規模な現実的なグリッドに適用する場合、スケーラビリティの問題に苦しむ可能性がある。 本稿では,これらのスケーラビリティの限界に対処し,3段階のアプローチを用いた負荷埋め込み方式を提案する。 第1ステップは、負荷埋め込み問題をペナルティ法を用いて解決可能な二段階最適化モデルとして定式化する。 第2のステップはエンコーディング最適化を学び、新しいopfインスタンスのロード埋め込みを迅速に生成する。 3番目のステップは、負荷埋め込みを使用して正確なAC-OPF近似を生成するディープラーニングモデルである。 このアプローチはnestaライブラリから大規模テストケースで実験的に評価される。 その結果,提案手法はトレーニングの収束度と予測精度を大幅に向上させることがわかった。

AC Optimal Power Flow (AC-OPF) is a fundamental building block in power system optimization. It is often solved repeatedly, especially in regions with large penetration of renewable generation, to avoid violating operational limits. Recent work has shown that deep learning can be effective in providing highly accurate approximations of AC-OPF. However, deep learning approaches may suffer from scalability issues, especially when applied to large realistic grids. This paper addresses these scalability limitations and proposes a load embedding scheme using a 3-step approach. The first step formulates the load embedding problem as a bilevel optimization model that can be solved using a penalty method. The second step learns the encoding optimization to quickly produce load embeddings for new OPF instances. The third step is a deep learning model that uses load embeddings to produce accurate AC-OPF approximations. The approach is evaluated experimentally on large-scale test cases from the NESTA library. The results demonstrate that the proposed approach produces an order of magnitude improvements in training convergence and prediction accuracy.
翻訳日:2021-04-04 14:26:33 公開日:2021-01-11
# 反応-輸送系における混合パターンをキャプチャするディープラーニングモデリングフレームワーク

A deep learning modeling framework to capture mixing patterns in reactive-transport systems ( http://arxiv.org/abs/2101.04227v1 )

ライセンス: Link先を確認
N. V. Jagtap, M. K. Mudunuru, and K. B. Nakshatrala(参考訳) 化学混合の予測と制御は、地下反応性輸送、気候モデリング、燃焼、疫学、薬理学など多くの科学分野において不可欠である。 異方性媒質と異方性媒質の混合の複雑な性質から、この現象に関連する数学的モデルは解析的に説明できない。 数値シミュレーションは、しばしば化学混合を正確に予測するための実行可能な経路を提供する。 しかし,空間領域が大きい場合,特に長期の時間的予測において,現代的な混合モデルでは,将来予測の精度を向上させるために利用可能な時空間データを利用することはできない。 本稿では, この知識ギャップに対処するため, 高速二分子反応における化学混合の進行を予測するための深層学習(DL)モデリングフレームワークを提案する。 このフレームワークは、畳み込みニューラルネットワーク(CNN)を使用して、空間パターンと長い短期記憶(LSTM)ネットワークを捕捉し、混合時の時間的変動を予測する。 この枠組みは、cnnの重みと活性化関数の選択に対する非負の制約の配置を注意深く設計することにより、全ての空間点および常に化学種の非負性を保証する。 私たちのdlベースのフレームワークは高速で正確で、トレーニングに最小限のデータが必要です。

Prediction and control of chemical mixing are vital for many scientific areas such as subsurface reactive transport, climate modeling, combustion, epidemiology, and pharmacology. Due to the complex nature of mixing in heterogeneous and anisotropic media, the mathematical models related to this phenomenon are not analytically tractable. Numerical simulations often provide a viable route to predict chemical mixing accurately. However, contemporary modeling approaches for mixing cannot utilize available spatial-temporal data to improve the accuracy of the future prediction and can be compute-intensive, especially when the spatial domain is large and for long-term temporal predictions. To address this knowledge gap, we will present in this paper a deep-learning (DL) modeling framework applied to predict the progress of chemical mixing under fast bimolecular reactions. This framework uses convolutional neural networks (CNN) for capturing spatial patterns and long short-term memory (LSTM) networks for forecasting temporal variations in mixing. By careful design of the framework -- placement of non-negative constraint on the weights of the CNN and the selection of activation function, the framework ensures non-negativity of the chemical species at all spatial points and for all times. Our DL-based framework is fast, accurate, and requires minimal data for training.
翻訳日:2021-04-04 14:26:19 公開日:2021-01-11