このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210211となっている論文です。

PDF登録状況(公開日: 20210211)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 対応のないロバスト回帰への過度アプローチ

A Hypergradient Approach to Robust Regression without Correspondence ( http://arxiv.org/abs/2012.00123v2 )

ライセンス: CC BY 4.0
Yujia Xie, Yixiu Mao, Simiao Zuo, Hongteng Xu, Xiaojing Ye, Tuo Zhao, Hongyuan Zha(参考訳) 我々は,入力データと出力データの対応が得られない回帰問題の一変型を考える。 このようなシャッフルデータは多くの実世界の問題でよく見られる。 フローサイトメトリーを例として、測定器はサンプルと測定値との対応を維持することができないかもしれない。 問題の組合せ的性質から、既存の手法のほとんどはサンプルサイズが小さく、線形回帰モデルに制限された場合にのみ適用できる。 このようなボトルネックを克服するために,大規模データや複雑な非線形モデルに適用可能なシャッフル回帰問題に対して,新たな計算フレームワークであるロボットを提案する。 具体的には、連続最適化問題として対応のない回帰を再構成する。 次に、回帰モデルとデータ対応の相互作用を利用して、微分可能プログラミング手法に基づく超勾配アプローチを開発する。 このような過次的アプローチは、データ対応を回帰の演算子と見なすので、データ対応を微分することで、モデルパラメータのより良い降下方向を見つけることができる。 ROBOTは、入力データと出力データの間に正確なアライメントがないような不正確な対応設定にさらに拡張することができる。 より詳細な数値実験により,フローサイトメトリーやマルチオブジェクトトラッキングといった実世界の応用を含む線形回帰タスクと非線形回帰タスクの両方において,ROBOTは既存の手法よりも優れた性能を発揮することが示された。

We consider a variant of regression problem, where the correspondence between input and output data is not available. Such shuffled data is commonly observed in many real world problems. Taking flow cytometry as an example, the measuring instruments may not be able to maintain the correspondence between the samples and the measurements. Due to the combinatorial nature of the problem, most existing methods are only applicable when the sample size is small, and limited to linear regression models. To overcome such bottlenecks, we propose a new computational framework -- ROBOT -- for the shuffled regression problem, which is applicable to large data and complex nonlinear models. Specifically, we reformulate the regression without correspondence as a continuous optimization problem. Then by exploiting the interaction between the regression model and the data correspondence, we develop a hypergradient approach based on differentiable programming techniques. Such a hypergradient approach essentially views the data correspondence as an operator of the regression, and therefore allows us to find a better descent direction for the model parameter by differentiating through the data correspondence. ROBOT can be further extended to the inexact correspondence setting, where there may not be an exact alignment between the input and output data. Thorough numerical experiments show that ROBOT achieves better performance than existing methods in both linear and nonlinear regression tasks, including real-world applications such as flow cytometry and multi-object tracking.
翻訳日:2021-06-06 17:37:52 公開日:2021-02-11
# 大腸内視鏡ビデオにおけるモーションベースカメラ定位システム

Motion-based Camera Localization System in Colonoscopy Videos ( http://arxiv.org/abs/2012.01690v3 )

ライセンス: Link先を確認
Heming Yao, Ryan W. Stidham, Zijun Gao, Jonathan Gryak, Kayvan Najarian(参考訳) 大腸内視鏡検査は,胃癌検診やステージング,小腸出血,下血,腹部症状評価,炎症性腸疾患評価など,多くの消化管疾患の診断・予後診断に必須のツールである。 大腸内視鏡所見の質的ヒト解釈における主観性を考慮した大腸内視鏡自動評価が重要である。 大腸内視鏡検査で診断された疾患の所見の意味と文脈を理解するにはカメラの局在が不可欠である。 本研究では,カメラの相対的な位置を推定し,大腸を解剖学的セグメントに分類するカメラローカライズシステムを提案する。 カメラのローカライゼーションシステムは、非形式的フレーム検出と除去から始まる。 次に、カメラの動きを推定するために、自己学習されたエンドツーエンド畳み込みニューラルネットワークを構築し、そのロバスト性と内視鏡ビデオの一般化を改善するためのいくつかの戦略を提案する。 推定カメラモーションを用いて、カメラ軌跡を導出し、相対的な位置指数を算出する。 推定位置指数に基づいて、大腸テンプレートを構築して解剖学的大腸セグメント分類を行う。 提案する動き推定アルゴリズムは,カメラポーズの基底真理を含む外部データセット上で評価した。 実験の結果,提案手法の性能は他の手法よりも優れていることがわかった。 臨床検査から採取した大腸内視鏡画像を用いて, 相対的位置指数推定と解剖学的領域分類を更に検証した。 この検証により、0.754の分類における平均精度が得られ、これは他の方法で構築された位置指標を用いた性能よりもかなり高い。

Optical colonoscopy is an essential diagnostic and prognostic tool for many gastrointestinal diseases, including cancer screening and staging, intestinal bleeding, diarrhea, abdominal symptom evaluation, and inflammatory bowel disease assessment. Automated assessment of colonoscopy is of interest considering the subjectivity present in qualitative human interpretations of colonoscopy findings. Localization of the camera is essential to interpreting the meaning and context of findings for diseases evaluated by colonoscopy. In this study, we propose a camera localization system to estimate the relative location of the camera and classify the colon into anatomical segments. The camera localization system begins with non-informative frame detection and removal. Then a self-training end-to-end convolutional neural network is built to estimate the camera motion, where several strategies are proposed to improve its robustness and generalization on endoscopic videos. Using the estimated camera motion a camera trajectory can be derived and a relative location index calculated. Based on the estimated location index, anatomical colon segment classification is performed by constructing a colon template. The proposed motion estimation algorithm was evaluated on an external dataset containing the ground truth for camera pose. The experimental results show that the performance of the proposed method is superior to other published methods. The relative location index estimation and anatomical region classification were further validated using colonoscopy videos collected from routine clinical practice. This validation yielded an average accuracy in classification of 0.754, which is substantially higher than the performances obtained using location indices built from other methods.
翻訳日:2021-05-23 15:12:28 公開日:2021-02-11
# (参考訳) グラフネットワークを用いたルンド平面におけるジェットタギング [全文訳有]

Jet tagging in the Lund plane with graph networks ( http://arxiv.org/abs/2012.08526v2 )

ライセンス: CC BY 4.0
Fr\'ed\'eric A. Dreyer and Huilin Qu(参考訳) トップクォークやベクターボソンのような高密度粒子の同定は、大型ハドロン衝突型加速器の実験で生じる重要な問題の一つである。 本稿では,グラフニューラルネットワークに基づく新しいジェットタグ付け手法であるlundnetと,ジェット内の放射パターンの効率的な記述により,ブースト対象物のシグネチャを背景イベントから最適に切り離す方法を提案する。 我々はこのフレームワークを多数の異なるベンチマークに適用し、既存の最先端アルゴリズムと比較して、トップタグのパフォーマンスを著しく改善した。 本研究では,非摂動および検出器効果に対する lundnet tagger のロバスト性について検討し,lund 平面の運動的切断がモデル依存的貢献に対するニューラルネットワークの過剰フィットをいかに緩和するかを示す。 最後に, この手法の計算複雑性とスケーリングを, 従来のグラフベースタグよりも高速な速度向上を図った, 運動論的Lund平面切断の関数として考える。

The identification of boosted heavy particles such as top quarks or vector bosons is one of the key problems arising in experimental studies at the Large Hadron Collider. In this article, we introduce LundNet, a novel jet tagging method which relies on graph neural networks and an efficient description of the radiation patterns within a jet to optimally disentangle signatures of boosted objects from background events. We apply this framework to a number of different benchmarks, showing significantly improved performance for top tagging compared to existing state-of-the-art algorithms. We study the robustness of the LundNet taggers to non-perturbative and detector effects, and show how kinematic cuts in the Lund plane can mitigate overfitting of the neural network to model-dependent contributions. Finally, we consider the computational complexity of this method and its scaling as a function of kinematic Lund plane cuts, showing an order of magnitude improvement in speed over previous graph-based taggers.
翻訳日:2021-05-07 09:31:19 公開日:2021-02-11
# 分布シフトによる学習のための変分ビーム探索

Variational Beam Search for Learning with Distribution Shifts ( http://arxiv.org/abs/2012.08101v2 )

ライセンス: Link先を確認
Aodong Li, Alex Boyd, Padhraic Smyth, Stephan Mandt(参考訳) 本稿では,自律ナビゲーションなどのアプリケーションにおいて,突発的な配電シフトが存在する場合のオンライン学習の問題点をよく見かける。 分散シフトは、一定のパフォーマンス監視と再トレーニングを必要とする。 また、検出も困難で、モデルパフォーマンスの遅いが安定した劣化につながる可能性がある。 この問題に対処するために,我々は, (i) 最小の逐次観測に基づいて微妙な分布シフトを推測し, (ii) オンラインの手法でモデルに適応できる新しいベイズメタアルゴリズムを提案する。 このアプローチでは、複数の変更点仮説をビームサーチして、階層的な逐次潜在変数モデリングフレームワーク上で推論を行う。 提案手法はモデル非依存であり,教師付き学習と教師なし学習の両方に適用可能である。

We consider the problem of online learning in the presence of sudden distribution shifts as frequently encountered in applications such as autonomous navigation. Distribution shifts require constant performance monitoring and re-training. They may also be hard to detect and can lead to a slow but steady degradation in model performance. To address this problem we propose a new Bayesian meta-algorithm that can both (i) make inferences about subtle distribution shifts based on minimal sequential observations and (ii) accordingly adapt a model in an online fashion. The approach uses beam search over multiple change point hypotheses to perform inference on a hierarchical sequential latent variable modeling framework. Our proposed approach is model-agnostic, applicable to both supervised and unsupervised learning, and yields significant improvements over state-of-the-art Bayesian online learning approaches.
翻訳日:2021-05-07 05:35:06 公開日:2021-02-11
# 高分解能画像合成のためのタンピングトランス

Taming Transformers for High-Resolution Image Synthesis ( http://arxiv.org/abs/2012.09841v2 )

ライセンス: Link先を確認
Patrick Esser and Robin Rombach and Bj\"orn Ommer(参考訳) シーケンシャルデータで長距離インタラクションを学習するために設計されたトランスフォーマーは、さまざまなタスクで最先端の結果を示し続けている。 CNNとは対照的に、局所的な相互作用を優先する誘導バイアスは存在しない。 これは表現力があるが、高解像度画像のような長いシーケンスでは計算不可能である。 本稿では,CNNの帰納バイアスとトランスフォーマーの表現性を組み合わせることで,高分解能画像のモデル化と合成を実現する方法について述べる。 画像成分の文脈に富んだ語彙を学習するために(i)CNNを使う方法を示し、(ii)変換器を用いて高解像度画像中の合成を効率的にモデル化する。 本手法は,オブジェクトクラスなどの非空間情報とセグメンテーションなどの空間情報の両方が生成画像を制御することができる条件合成タスクに容易に適用できる。 特に,トランスフォーマーを用いたメガピクセル画像のセマンティック誘導合成の最初の結果を示す。 プロジェクトページ: https://compvis.gith ub.io/taming-transfo rmers/

Designed to learn long-range interactions on sequential data, transformers continue to show state-of-the-art results on a wide variety of tasks. In contrast to CNNs, they contain no inductive bias that prioritizes local interactions. This makes them expressive, but also computationally infeasible for long sequences, such as high-resolution images. We demonstrate how combining the effectiveness of the inductive bias of CNNs with the expressivity of transformers enables them to model and thereby synthesize high-resolution images. We show how to (i) use CNNs to learn a context-rich vocabulary of image constituents, and in turn (ii) utilize transformers to efficiently model their composition within high-resolution images. Our approach is readily applied to conditional synthesis tasks, where both non-spatial information, such as object classes, and spatial information, such as segmentations, can control the generated image. In particular, we present the first results on semantically-guided synthesis of megapixel images with transformers. Project page at https://compvis.gith ub.io/taming-transfo rmers/ .
翻訳日:2021-05-02 07:23:04 公開日:2021-02-11
# I-BERT:整数のみのBERT量子化

I-BERT: Integer-only BERT Quantization ( http://arxiv.org/abs/2101.01321v2 )

ライセンス: Link先を確認
Sehoon Kim, Amir Gholami, Zhewei Yao, Michael W. Mahoney, Kurt Keutzer(参考訳) BERTやRoBERTaのようなトランスフォーマーベースのモデルは、多くの自然言語処理タスクで最先端の結果を得た。 しかし、そのメモリフットプリント、推論レイテンシ、電力消費は、エッジやデータセンターでも効率的な推論が禁じられている。 量子化は実現可能な解決策であるが、前回のトランスフォーマーモデルの量子化では、推論中に浮動小数点演算が用いられており、最近のチューリングテンソルコアや従来の整数のみのarmプロセッサのような整数のみの論理単位を効率的に利用できない。 本研究では,整数のみの算術で推論全体を量子化するトランスフォーマーモデルのための新しい量子化スキームI-BERTを提案する。 I-BERTは、GELU、Softmax、Layer Normalizationなどの非線形演算のための軽量整数専用近似法に基づいて、浮動小数点演算なしでエンドツーエンドの整数専用BERT推論を実行する。 我々は,RoBERTa-Base/Largeを用いて,GLUE下流タスクに対するアプローチを評価する。 いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。 さらに,我々は,T4 GPUシステム上でのINT8推論において,FP32推論と比較して2.4-4.0xの高速化を示した。 このフレームワークはPyTorchで開発され、オープンソース化されている。

Transformer based models, like BERT and RoBERTa, have achieved state-of-the-art results in many Natural Language Processing tasks. However, their memory footprint, inference latency, and power consumption are prohibitive for efficient inference at the edge, and even at the data center. While quantization can be a viable solution for this, previous work on quantizing Transformer based models use floating-point arithmetic during inference, which cannot efficiently utilize integer-only logical units such as the recent Turing Tensor Cores, or traditional integer-only ARM processors. In this work, we propose I-BERT, a novel quantization scheme for Transformer based models that quantizes the entire inference with integer-only arithmetic. Based on lightweight integer-only approximation methods for nonlinear operations, e.g., GELU, Softmax, and Layer Normalization, I-BERT performs an end-to-end integer-only BERT inference without any floating point calculation. We evaluate our approach on GLUE downstream tasks using RoBERTa-Base/Large. We show that for both cases, I-BERT achieves similar (and slightly higher) accuracy as compared to the full-precision baseline. Furthermore, our preliminary implementation of I-BERT shows a speedup of 2.4 - 4.0x for INT8 inference on a T4 GPU system as compared to FP32 inference. The framework has been developed in PyTorch and has been open-sourced.
翻訳日:2021-04-11 11:38:42 公開日:2021-02-11
# (参考訳) 自己監督型トランスフォーマーによる有害テキストの民話 [全文訳有]

Civil Rephrases Of Toxic Texts With Self-Supervised Transformers ( http://arxiv.org/abs/2102.05456v2 )

ライセンス: CC BY 4.0
Leo Laugier, John Pavlopoulos, Jeffrey Sorensen, Lucas Dixon(参考訳) ソーシャルネットワークからニュースサイトまで、オンラインコメントをサポートするプラットフォームは、機械学習を活用してモデレーションを支援している。 しかし、このプロセスは通常、コミュニティガイドラインに従って貢献してくれる著者へのフィードバックを提供しません。 これは人間のモデレーターが行うのに極めて時間がかかり、計算アプローチはまだ初期段階にある。 この研究は、より市民的な方法で有毒なコメントを言い換えるのに役立つモデルに焦点を当てている。 近年のシーケンス・ツー・シーケンス・タスクの進歩に触発されて,CAE-T5と呼ばれる自己教師型学習モデルが導入された。 cae-t5は事前学習されたテキストからテキストへの変換器を採用しており、ノイズとサイクリックなオートエンコーダの損失を微調整している。 これまでで最大の毒性検出データセット(Civil Comments)を用いて実験を行った結果,本モデルでは,複数のスコアリングシステムと人的評価を用いて比較したテキストスタイルの転送システムと比較して,初期コンテンツ保存の精度が向上した文を生成する。

Platforms that support online commentary, from social networks to news sites, are increasingly leveraging machine learning to assist their moderation efforts. But this process does not typically provide feedback to the author that would help them contribute according to the community guidelines. This is prohibitively time-consuming for human moderators to do, and computational approaches are still nascent. This work focuses on models that can help suggest rephrasings of toxic comments in a more civil manner. Inspired by recent progress in unpaired sequence-to-sequence tasks, a self-supervised learning model is introduced, called CAE-T5. CAE-T5 employs a pre-trained text-to-text transformer, which is fine tuned with a denoising and cyclic auto-encoder loss. Experimenting with the largest toxicity detection dataset to date (Civil Comments) our model generates sentences that are more fluent and better at preserving the initial content compared to earlier text style transfer systems which we compare with using several scoring systems and human evaluation.
翻訳日:2021-04-06 08:29:28 公開日:2021-02-11
# (参考訳) Lie-Sensor:感情知を利用したチャットアプリケーションのためのライブ感情検証装置 [全文訳有]

Lie-Sensor: A Live Emotion Verifier or a Licensor for Chat Applications using Emotional Intelligence ( http://arxiv.org/abs/2102.11318v1 )

ライセンス: CC BY-SA 4.0
Falguni Patel, NirmalKumar Patel, Santosh Kumar Bharti(参考訳) veracityは、革新的な製品の研究と開発における重要な鍵である。 ライブ感情分析と検証は、ライブチャットの不満を解消し、メッセージングアプリの両端のメッセージをコラボレートし、ユーザー間の正直な会話を促進する。 この感情の背後にある主要な概念は、表情とテキストの予測によって認識されるチャットアプリのさまざまな感情を比較することによって、メッセージ説明責任をライセンスまたは低下させることである。 本稿では,提案する感情知性ライブ検出器が,幸福,悲しみ,驚き,憎しみというラベルに表情の感情を分配する正直なアービターとして機能する。 さらに、テキスト分類によってメッセージのラベルを別々に予測する。 最後に、両方のラベルを比較し、メッセージを詐欺またはボナフィドとして宣言する。 感情検出には,最小知覚モデルを用いて畳み込みニューラルネットワーク(cnn)を展開し,テキスト予測のためにサポートベクターマシン(svm)の自然言語処理確率分類器を,サポートベクターマシン(svm),ランダムフォレスト分類器(random forest classifier),ナイーブベイズ分類器(naive bayes classifier),ロジスティック回帰(logistic regression)を適用した。

Veracity is an essential key in research and development of innovative products. Live Emotion analysis and verification nullify deceit made to complainers on live chat, corroborate messages of both ends in messaging apps and promote an honest conversation between users. The main concept behind this emotion artificial intelligent verifier is to license or decline message accountability by comparing variegated emotions of chat app users recognized through facial expressions and text prediction. In this paper, a proposed emotion intelligent live detector acts as an honest arbiter who distributes facial emotions into labels namely, Happiness, Sadness, Surprise, and Hate. Further, it separately predicts a label of messages through text classification. Finally, it compares both labels and declares the message as a fraud or a bonafide. For emotion detection, we deployed Convolutional Neural Network (CNN) using a miniXception model and for text prediction, we selected Support Vector Machine (SVM) natural language processing probability classifier due to receiving the best accuracy on training dataset after applying Support Vector Machine (SVM), Random Forest Classifier, Naive Bayes Classifier, and Logistic regression.
翻訳日:2021-04-06 05:53:31 公開日:2021-02-11
# (参考訳) 眼球運動の特徴からみた外科医の鑑別 [全文訳有]

Differentiating Surgeon Expertise Solely by Eye Movement Features ( http://arxiv.org/abs/2102.08155v1 )

ライセンス: CC BY-SA 4.0
Benedikt Hosp, Myat Su Yin, Peter Haddawy, Paphon Sa-Ngasoongsong, and Enkelejda Kasneci(参考訳) 近年のコンピュータ科学の発展は病院に移行しつつある。 外科医は新しい技術的課題に直面しています。 視覚知覚はこれらのほとんどにおいて重要な役割を担っている。 若い外科医の訓練を最適化するために診断と訓練モデルが必要である。 本研究では,眼球運動のみを用いた専門家,4歳住民,3歳住民の分類モデルを提案する。 眼球運動を正しいクラスに分類するために、最小限の機能セットを使用しながら76.46パーセントのロバストな精度を達成しているモデルを示す。 同様に,本研究では,3つの専門知識クラス間の視覚知覚の進化的ステップを扱い,専門知識の診断モデルへの第一歩となる。

Developments in computer science in recent years are moving into hospitals. Surgeons are faced with ever new technical challenges. Visual perception plays a key role in most of these. Diagnostic and training models are needed to optimize the training of young surgeons. In this study, we present a model for classifying experts, 4th-year residents and 3rd-year residents, using only eye movements. We show a model that uses a minimal set of features and still achieve a robust accuracy of 76.46 % to classify eye movements into the correct class. Likewise, in this study, we address the evolutionary steps of visual perception between three expertise classes, forming a first step towards a diagnostic model for expertise.
翻訳日:2021-04-06 05:45:10 公開日:2021-02-11
# (参考訳) 制御理論の発展の4世代? [全文訳有]

Four Generations of Control Theory Development ? ( http://arxiv.org/abs/2102.08190v1 )

ライセンス: CC BY 4.0
Tai Cheng Yang(参考訳) この記事では、制御システムの研究を4世代、すなわち、1つの転送関数ベース、2つの状態空間ベース、3つのネットワーク制御システム、そして新しいAI時代の4つの制御に分けることができるという意見を示す。

This short article presents an opinion that control system study up to date can be divided into four generations; namely, 1 transfer function based; 2 state-space based; 3 networked control systems; and 4 control in the new AI era.
翻訳日:2021-04-06 05:36:40 公開日:2021-02-11
# (参考訳) 深層学習を用いた業務プロセスにおけるイベントタイプとイベント時間予測 [全文訳有]

Quartile-based Prediction of Event Types and Event Time in Business Processes using Deep Learning ( http://arxiv.org/abs/2102.07838v1 )

ライセンス: CC BY-SA 4.0
Ishwar Venugopal(参考訳) ディープラーニングモデルは、ビジネスプロセスにおける予測プロセスマイニングタスクにますます使われています。 現代のアプローチは、従来のアプローチと比較して、さまざまな予測タスクのパフォーマンス向上に成功しています。 この研究では、グラフ畳み込み層と線形層を含むモデルの5つの異なるバリエーションが、与えられたプロセスインスタンスにおける次のアクティビティの性質とタイムスタンプを予測するタスクのためにテストされている。 我々は,各プロセスのインスタンスにおける個々のイベントの特徴ベクトルを表現する新しい手法を提案し,対応するデータセットから生成した直接フォロープロセスグラフの構造を考慮に入れた。 生成されたプロセスグラフの隣接行列は、グラフ畳み込みネットワーク(gcn)への入力として使用される。 異なるモデル変種は、隣接行列の表現のバリエーションを利用する。 全てのモデル変種の性能はプロセスの異なる段階でテストされ、事象の数とケース期間に基づいて推定される四量体によって決定されている。 実験の結果は、個々のタスクのほとんどについて、以前報告した結果よりも大幅に改善された。 興味深いことに、ドロップアウトを持つ線形多層パーセプトロン(MLP)は、両方の予測タスクにおいてGCN変異よりも優れていた。 四分位数に基づく分析により、他の変種は、mlpが全体的な性能で最高のタスクの一部において、個々の四分数においてmlpよりも優れた性能を発揮できることがさらに観察された。

Deep learning models are now being increasingly used for predictive process mining tasks in business processes. Modern approaches have been successful in achieving better performance for different predictive tasks, as compared to traditional approaches. In this work, five different variants of a model involving a Graph Convolutional Layer and linear layers have been tested for the task of predicting the nature and timestamp of the next activity in a given process instance. We have introduced a new method for representing feature vectors for any individual event in a given process instance, taking into consideration the structure of Directly-follows process graphs generated from the corresponding datasets. The adjacency matrix of the process graphs generated has been used as input to a Graph Convolutional Network (GCN). Different model variants make use of variations in the representation of the adjacency matrix. The performance of all the model variants have been tested at different stages of a process, determined by quartiles estimated based on the number of events and the case duration. The results obtained from the experiments, significantly improves over the previously reported results for most of the individual tasks. Interestingly, it was observed that a linear Multi-Layer Perceptron (MLP) with dropout was able to outperform the GCN variants in both the prediction tasks. Using a quartile-based analysis, it was further observed that the other variants were able to perform better than MLP at individual quartiles in some of the tasks where the MLP had the best overall performance.
翻訳日:2021-04-06 05:34:05 公開日:2021-02-11
# 健康保険における不正検出のための機械学習統合型マルコフモデル

Markov model with machine learning integration for fraud detection in health insurance ( http://arxiv.org/abs/2102.10978v1 )

ライセンス: Link先を確認
Rohan Yashraj Gupta, Satya Sai Mudigonda, Pallav Kumar Baruah and Phani Krishna Kandala(参考訳) インドでは、医療保険部門の経費が大幅に増加した。 この研究は、健康保険詐欺の検出に適用される方法を提供することを目的としている。 この研究は、健康保険請求書における勾配押し上げ手法を用いたマルコフモデルと改良マルコフモデルという2つのアプローチを提示した。 データセット382,587の主張のうち38,082は不正である。 マルコフベースのモデルは94.07%の精度でF1スコアは0.6683である。 しかし、改良されたマルコフモデルは、97.10%の精度と0.8546のf1-scoreと比較してはるかに優れた性能を示した。 改良されたマルコフモデルがマルコフモデルよりもはるかに低い偽陽性率を示した。

Fraud has led to a huge addition of expenses in health insurance sector in India. The work is aimed to provide methods applied to health insurance fraud detection. The work presents two approaches - a markov model and an improved markov model using gradient boosting method in health insurance claims. The dataset 382,587 claims of which 38,082 claims are fraudulent. The markov based model gave the accuracy of 94.07% with F1-score at 0.6683. However, the improved markov model performed much better in comparison with the accuracy of 97.10% and F1-score of 0.8546. It was observed that the improved markov model gave much lower false positives compared to markov model.
翻訳日:2021-04-05 00:38:32 公開日:2021-02-11
# 対話のパーソナライズと文書レベルの機械翻訳に向けて

Towards Personalised and Document-level Machine Translation of Dialogue ( http://arxiv.org/abs/2102.10979v1 )

ライセンス: Link先を確認
Sebastian T. Vincent(参考訳) State-of-the-art(SOT A)ニューラルマシン翻訳(NMT)システムは、テキストを文レベルで翻訳し、文脈を無視する:前文のようなテキスト内情報、話者の性別のようなテキスト外情報である。 そのため、いくつかの文は誤って翻訳される。 パーソナライズされたNMT(PersNMT)とドキュメントレベルのNMT(DocNMT)は、この情報を翻訳プロセスに組み込む。 どちらの分野も比較的新しいもので、それ以前の作業は限られている。 さらに、簡単に利用できるロバストな評価指標は存在せず、より良いシステムを開発することや、グローバルな進捗を追跡し、異なる方法を比較することが困難になる。 この論文は、英語、ブラジルポルトガル語、ドイツ語、フランス語、ポーランド語のテレビ字幕から抽出された対話領域のPersNMTとDocNMTに焦点を当てている。 1)NMTシステムに直接テキスト情報を導入すること,(2)凝集装置の機械翻訳を改善すること,(3)PersNMTとDocNMTの信頼性を評価すること,の3つの課題に対処する。

State-of-the-art (SOTA) neural machine translation (NMT) systems translate texts at sentence level, ignoring context: intra-textual information, like the previous sentence, and extra-textual information, like the gender of the speaker. Because of that, some sentences are translated incorrectly. Personalised NMT (PersNMT) and document-level NMT (DocNMT) incorporate this information into the translation process. Both fields are relatively new and previous work within them is limited. Moreover, there are no readily available robust evaluation metrics for them, which makes it difficult to develop better systems, as well as track global progress and compare different methods. This thesis proposal focuses on PersNMT and DocNMT for the domain of dialogue extracted from TV subtitles in five languages: English, Brazilian Portuguese, German, French and Polish. Three main challenges are addressed: (1) incorporating extra-textual information directly into NMT systems; (2) improving the machine translation of cohesion devices; (3) reliable evaluation for PersNMT and DocNMT.
翻訳日:2021-04-05 00:37:45 公開日:2021-02-11
# 機械的換気によるCOVID-19患者の位置決めの際の医療スタッフ支援にエキソスケトンを用いた実験的検討

Using exoskeletons to assist medical staff during prone positioning of mechanically ventilated COVID-19 patients: a pilot study ( http://arxiv.org/abs/2102.08760v1 )

ライセンス: Link先を確認
Serena Ivaldi (LARSEN), Pauline Maurice (LORIA), Waldez Gomes (LORIA), Jean Theurel (INRS (Vandoeuvre l\`es Nancy)), Li\^en Wioland (INRS (Vandoeuvre l\`es Nancy)), Jean-Jacques Atain-Kouadio (INRS (Vandoeuvre l\`es Nancy)), Laurent Claudon (INRS (Vandoeuvre l\`es Nancy)), Hind Hani (CUESim), Antoine Kimmoun (CHRU Nancy), Jean-Marc Sellal (CHRU Nancy), Bruno Levy (CHRU Nancy), Jean Paysant (CHRU Nancy), Sergue\"i Malikov (CHRU Nancy), Bruno Chenuel (CHRU Nancy), Nicla Settembre (CHRU Nancy)(参考訳) ナンシー大学病院(フランス)の集中治療室(icu)の介護者に対して,重症急性呼吸窮迫症候群患者に対するプロイン・ポジショニング(pp)操作を行うための支援型外骨格の可能性と実現可能性を評価するためのパイロット研究を行った。 4つの商業用外骨格を比較すると、ラエボ受動外骨格は2020年4月にicuで選定され使用された。 Laevoを使用した最初のボランティアは、非常に肯定的なフィードバックと労力の削減を報告し、EMGとECG分析によって確認された。 laevoはその後、新型コロナウイルス(covid-19)の再検査の後、ナンシー病院のicuでppの身体的支援に使用され、全体的なポジティブなフィードバックが得られた。

We conducted a pilot study to evaluate the potential and feasibility of back-support exoskeletons to help the caregivers in the Intensive Care Unit (ICU) of the University Hospital of Nancy (France) executing Prone Positioning (PP) maneuvers on patients suffering from severe COVID-19-related Acute Respiratory Distress Syndrome. After comparing four commercial exoskeletons, the Laevo passive exoskeleton was selected and used in the ICU in April 2020. The first volunteers using the Laevo reported very positive feedback and reduction of effort, confirmed by EMG and ECG analysis. Laevo has been since used to physically assist during PP in the ICU of the Hospital of Nancy, following the recrudescence of COVID-19, with an overall positive feedback.
翻訳日:2021-04-05 00:37:05 公開日:2021-02-11
# データセンターテレメトリにおける時系列予測の課題とアプローチ:サーベイ

Challenges and approaches to time-series forecasting in data center telemetry: A Survey ( http://arxiv.org/abs/2101.04224v2 )

ライセンス: Link先を確認
Shruti Jadon, Jan Kanty Milczek, Ajit Patankar(参考訳) 時系列予測は長年にわたって重要な研究領域であった。 そのアプリケーションには、ecgの予測、売上予測、気象条件、新型コロナウイルスの拡散予測などが含まれる。 これらの応用は、多くの研究者が最適な予測手法を見つける動機となったが、アプリケーションドメインが変化するにつれてモデリングアプローチも変化している。 この研究は、データセンターで収集されたテレメトリデータ予測のための様々な予測アプローチのレビューに重点を置いている。 テレメトリデータの予測は、ネットワークおよびデータセンター管理製品の重要な特徴である。 しかし、単純な線形統計モデルから高容量ディープラーニングアーキテクチャに至るまで、予測アプローチには複数の選択肢がある。 本稿では,よく知られた時系列予測手法の性能を要約し,評価することを試みた。 この評価がテレメトリデータの予測手法を革新する包括的な概要を提供することを期待している。

Time-series forecasting has been an important research domain for so many years. Its applications include ECG predictions, sales forecasting, weather conditions, even COVID-19 spread predictions. These applications have motivated many researchers to figure out an optimal forecasting approach, but the modeling approach also changes as the application domain changes. This work has focused on reviewing different forecasting approaches for telemetry data predictions collected at data centers. Forecasting of telemetry data is a critical feature of network and data center management products. However, there are multiple options of forecasting approaches that range from a simple linear statistical model to high capacity deep learning architectures. In this paper, we attempted to summarize and evaluate the performance of well known time series forecasting techniques. We hope that this evaluation provides a comprehensive summary to innovate in forecasting approaches for telemetry data.
翻訳日:2021-04-04 14:45:48 公開日:2021-02-11
# (参考訳) APEX-Net: 自動スロットエクストラクタネットワーク [全文訳有]

APEX-Net: Automatic Plot Extractor Network ( http://arxiv.org/abs/2101.06217v3 )

ライセンス: CC BY 4.0
Aalok Gangopadhyay, Prajwal Singh, Shanmuganathan Raman(参考訳) 2次元線プロット画像からの生データの自動抽出は、多くの実世界のアプリケーションを持つ重要な問題である。 この問題を解決するためにいくつかのアルゴリズムが提案されている。 しかし、これらのアルゴリズムには大量の人間の介入が含まれる。 この介入を最小限に抑えるために,プロット抽出問題を解決するための新しい損失関数を持つディープラーニングフレームワークapex-netを提案する。 本稿ではプロット画像と生データの両方を含む新しい大規模データセットであるAPEX-1Mを紹介する。 本稿では,APEX-1MテストセットにおけるAPEX-Netの性能を実演し,精度が向上したことを示す。 また,プロット画像に対するネットワークの視覚的な結果を示し,プロットの形状をある程度抽出できることを実証した。 最後に,プロット抽出のためのguiベースのソフトウェアを開発し,コミュニティ全体のメリットを享受する。 詳細はhttps://sites.google .com/view/apexnetpap er/を参照。

Automatic extraction of raw data from 2D line plot images is a problem of great importance having many real-world applications. Several algorithms have been proposed for solving this problem. However, these algorithms involve a significant amount of human intervention. To minimize this intervention, we propose APEX-Net, a deep learning based framework with novel loss functions for solving the plot extraction problem. We introduce APEX-1M, a new large scale dataset which contains both the plot images and the raw data. We demonstrate the performance of APEX-Net on the APEX-1M test set and show that it obtains impressive accuracy. We also show visual results of our network on unseen plot images and demonstrate that it extracts the shape of the plots to a great extent. Finally, we develop a GUI based software for plot extraction that can benefit the community at large. For dataset and more information visit https://sites.google .com/view/apexnetpap er/.
翻訳日:2021-03-28 14:13:11 公開日:2021-02-11
# (参考訳) 行動変化アプリにおけるパーソナライゼーションパラドックス:身体活動のためのソーシャル比較ベースのパーソナライゼーションアプリからの教訓 [全文訳有]

Personalization Paradox in Behavior Change Apps: Lessons from a Social Comparison-Based Personalized App for Physical Activity ( http://arxiv.org/abs/2101.10020v2 )

ライセンス: CC BY 4.0
Jichen Zhu, Diane H. Dallal, Robert C. Gray, Jennifer Villareale, Santiago Onta\~n\'on, Evan M. Forman, Danielle Arigo(参考訳) ソーシャル比較ベースの機能は、ソーシャルコンピューティングアプリケーションで広く使われている。 しかし、ほとんどの既存のアプリは社会的比較理論に基づきておらず、社会的比較の好みや反応の個人差を考慮していない。 本論文は、社会比較対象を自動的にパーソナライズする最初の論文である。 m-health app for physical activityのコンテキストでは、多腕バンディットの人工知能(AI)技術を使用します。 ユーザ調査 (n=53) の結果, 社会比較のAIによるパーソナライゼーションにより動機付けが向上する証拠がいくつかある。 検出された効果は、モチベーションと身体活動の促進のための介入の現実世界の意義を表わし、小さくてモデレートな効果サイズを達成した。 本論文では,ソーシャルアプリにおけるソーシャル比較機能に対するデザインの影響に加えて,個人化のパラドックス,ユーザモデリングと適応の衝突を,行動変化のための個人化アプリケーションの重要な設計課題として特定した。 さらに,このパーソナライゼーションパラドックスを緩和する研究の方向性を提案する。

Social comparison-based features are widely used in social computing apps. However, most existing apps are not grounded in social comparison theories and do not consider individual differences in social comparison preferences and reactions. This paper is among the first to automatically personalize social comparison targets. In the context of an m-health app for physical activity, we use artificial intelligence (AI) techniques of multi-armed bandits. Results from our user study (n=53) indicate that there is some evidence that motivation can be increased using the AI-based personalization of social comparison. The detected effects achieved small-to-moderate effect sizes, illustrating the real-world implications of the intervention for enhancing motivation and physical activity. In addition to design implications for social comparison features in social apps, this paper identified the personalization paradox, the conflict between user modeling and adaptation, as a key design challenge of personalized applications for behavior change. Additionally, we propose research directions to mitigate this Personalization Paradox.
翻訳日:2021-03-16 04:19:06 公開日:2021-02-11
# (参考訳) がん遺伝子プロファイリングの発見 [全文訳有]

Cancer Gene Profiling through Unsupervised Discovery ( http://arxiv.org/abs/2102.07713v1 )

ライセンス: CC0 1.0
Enzo Battistella, Maria Vakalopoulou, Roger Sun, Th\'eo Estienne, Marvin Lerousseau, Sergey Nikolaev, Emilie Alvarez Andres, Alexandre Carr\'e, St\'ephane Niyoteka, Charlotte Robert, Nikos Paragios, Eric Deutsch(参考訳) 精密医療は、ゲノムデータに大きく依存する医療のパラダイムシフトである。 しかし, 生物学的相互作用の複雑さ, 遺伝子の多さ, データ解析における比較の欠如は, 臨床応用において大きなボトルネックとなっている。 本論文では、低次元遺伝子バイオマーカーを発見するための新しい自動および非監視フレームワークについて紹介する。 本手法は,高次元中心ベースの非監視クラスタリングアルゴリズムであるLP-Stabilityアルゴリズムに基づいており,最適なクラスタ数を自動的に決定しながら,メトリクス関数とスケーラビリティを懸念するモジュラリティを提供する。 我々の評価には数学的基準と生物学的基準の両方が含まれる。 回収されたシグネチャは、生物学的経路および機能のスクリーニング、腫瘍タイプおよびサブタイプの特性関連性など、さまざまな生物学的タスクに適用されます。 文献で使用されるクラスタリング法や参照遺伝子シグネチャなど,異なる距離の計測値の定量的比較により,本手法の有効性を確認した。 特に27の遺伝子に基づくシグネチャは、他の参照クラスタリング法よりも少なくとも30ドル以上の数学的意義(平均ダン指数)と25%の生物学的意義(タンパク質とタンパク質の相互作用における平均的な富化)が報告されている。 最後に, 免疫炎症性腫瘍と免疫砂漠性腫瘍を区別する有望な結果が報告され, 腫瘍型分類では92%, 腫瘍サブタイプ分類では平均68%と高いバランスの取れた精度が報告された。

Precision medicine is a paradigm shift in healthcare relying heavily on genomics data. However, the complexity of biological interactions, the large number of genes as well as the lack of comparisons on the analysis of data, remain a tremendous bottleneck regarding clinical adoption. In this paper, we introduce a novel, automatic and unsupervised framework to discover low-dimensional gene biomarkers. Our method is based on the LP-Stability algorithm, a high dimensional center-based unsupervised clustering algorithm, that offers modularity as concerns metric functions and scalability, while being able to automatically determine the best number of clusters. Our evaluation includes both mathematical and biological criteria. The recovered signature is applied to a variety of biological tasks, including screening of biological pathways and functions, and characterization relevance on tumor types and subtypes. Quantitative comparisons among different distance metrics, commonly used clustering methods and a referential gene signature used in the literature, confirm state of the art performance of our approach. In particular, our signature, that is based on 27 genes, reports at least $30$ times better mathematical significance (average Dunn's Index) and 25% better biological significance (average Enrichment in Protein-Protein Interaction) than those produced by other referential clustering methods. Finally, our signature reports promising results on distinguishing immune inflammatory and immune desert tumors, while reporting a high balanced accuracy of 92% on tumor types classification and averaged balanced accuracy of 68% on tumor subtypes classification, which represents, respectively 7% and 9% higher performance compared to the referential signature.
翻訳日:2021-02-16 18:02:26 公開日:2021-02-11
# 深層伝達学習による3次元のリアルタイムトポロジー最適化

Real-Time Topology Optimization in 3D via Deep Transfer Learning ( http://arxiv.org/abs/2102.07657v1 )

ライセンス: Link先を確認
MohammadMahdi Behzadi, Horea T. Ilies(参考訳) トポロジー最適化に関する論文は過去20年で爆発的に発展し、形状や位相微分や様々な幾何学表現やパラメトリゼーションに基づいて定式化された進化的アルゴリズムを使う方法を含んでいる。 これらの手法の鍵となる課題の1つは、3次元トポロジー最適化問題に関連する膨大な計算コストである。 We introduce a transfer learning method based on a convolutional neural network that (1) can handle high-resolution 3D design domains of various shapes and topologies; (2) supports real-time design space explorations as the domain and boundary conditions change; (3) requires a much smaller set of high-resolution examples for the improvement of learning in a new task compared to traditional deep learning networks; (4) is multiple orders of magnitude more efficient than the established gradient-based methods, such as SIMP. ソースネットワークには見られない設計領域や、トランスファーラーニングに基づくアプローチの一般化機能など、提案手法の有効性と精度を示すために、多数の2Dおよび3Dサンプルを提供しています。 実験では,平均二進法精度を95%程度,実時間予測速度で達成した。 これらの特性から,提案手法がトポロジ最適化に基づくリアルタイム3次元デザイン探索のための最初の実践的基盤となる可能性が示唆された。

The published literature on topology optimization has exploded over the last two decades to include methods that use shape and topological derivatives or evolutionary algorithms formulated on various geometric representations and parametrizations. One of the key challenges of all these methods is the massive computational cost associated with 3D topology optimization problems. We introduce a transfer learning method based on a convolutional neural network that (1) can handle high-resolution 3D design domains of various shapes and topologies; (2) supports real-time design space explorations as the domain and boundary conditions change; (3) requires a much smaller set of high-resolution examples for the improvement of learning in a new task compared to traditional deep learning networks; (4) is multiple orders of magnitude more efficient than the established gradient-based methods, such as SIMP. We provide numerous 2D and 3D examples to showcase the effectiveness and accuracy of our proposed approach, including for design domains that are unseen to our source network, as well as the generalization capabilities of the transfer learning-based approach. Our experiments achieved an average binary accuracy of around 95% at real-time prediction rates. These properties, in turn, suggest that the proposed transfer-learning method may serve as the first practical underlying framework for real-time 3D design exploration based on topology optimization
翻訳日:2021-02-16 16:07:14 公開日:2021-02-11
# Freudian and Newtonian Recurrent Cell for Sequential Recommendation

Freudian and Newtonian Recurrent Cell for Sequential Recommendation ( http://arxiv.org/abs/2102.07645v1 )

ライセンス: Link先を確認
Hoyeop Lee, Jinbae Im, Chang Ouk Kim, Sehee Chung(参考訳) シーケンシャルレコメンデータシステムは、行動パターンに基づいた魅力的なアイテムをユーザに推奨することを目的としている。 主要なレコメンデーションモデルは、ある定義された空間にアイテムを埋め込んで、アイテムの埋め込みに基づいてユーザの長期的および短期的嗜好を把握するゲートリカレントユニットのような自然言語処理モデルに基づいている。 しかしながら、これらのアプローチは、そのようなモデルがユーザの固有の意思決定プロセスとどのように関係しているかに関する根本的な洞察を欠いている。 そこで本研究では,FreudianとNewtonianの視点から,新たな繰り返しセルであるFaNCを提案する。 FaNCはユーザの状態を意識的かつ無意識な状態に分割し、ユーザの決定プロセスはFreud氏の2つの原則、すなわち快楽原則と現実原則によってモデル化される。 快楽原理、すなわち自由浮揚ユーザの本能をモデル化するために、私たちはユーザの無意識状態とアイテム埋め込みを同じ潜在空間に配置し、ニュートンの重力の法則に従わせる。 さらに,ユーザに対してアイテムを推奨するために,ゲーティング機能を通じて,意識状態と無意識状態のバランスをとる現実原理をモデル化する。 本稿では,各種ベンチマークデータセットに関する広範な実験を基に,提案モデルの特徴について考察する。 FaNCは、精神分析とレコメンダーシステムの収束で、シーケンシャルレコメンデーションの新しい方向を開始します。

A sequential recommender system aims to recommend attractive items to users based on behaviour patterns. The predominant sequential recommendation models are based on natural language processing models, such as the gated recurrent unit, that embed items in some defined space and grasp the user's long-term and short-term preferences based on the item embeddings. However, these approaches lack fundamental insight into how such models are related to the user's inherent decision-making process. To provide this insight, we propose a novel recurrent cell, namely FaNC, from Freudian and Newtonian perspectives. FaNC divides the user's state into conscious and unconscious states, and the user's decision process is modelled by Freud's two principles: the pleasure principle and reality principle. To model the pleasure principle, i.e., free-floating user's instinct, we place the user's unconscious state and item embeddings in the same latent space and subject them to Newton's law of gravitation. Moreover, to recommend items to users, we model the reality principle, i.e., balancing the conscious and unconscious states, via a gating function. Based on extensive experiments on various benchmark datasets, this paper provides insight into the characteristics of the proposed model. FaNC initiates a new direction of sequential recommendations at the convergence of psychoanalysis and recommender systems.
翻訳日:2021-02-16 15:59:42 公開日:2021-02-11
# 共生自律システム(SAS)の哲学的・認知的・数学的基礎について

On the Philosophical, Cognitive and Mathematical Foundations of Symbiotic Autonomous Systems (SAS) ( http://arxiv.org/abs/2102.07617v1 )

ライセンス: Link先を確認
Yingxu Wang, Fakhri Karray, Sam Kwong, Konstantinos N. Plataniotis, Henry Leung, Ming Hou, Edward Tunstel, Imre J. Rudas, Ljiljana Trajkovic, Okyay Kaynak, Janusz Kacprzyk, Mengchu Zhou, Michael H. Smith, Philip Chen and Shushma Patel(参考訳) 共生自律システム(SAS)は、ハイブリッド社会における人間と機械の相互作用の一貫した共生によって可能になる自律的集団知能を示す高度なインテリジェントおよび認知システムです。 SASの新興分野における基礎研究は、人間の介入なしに機能する高度な汎用AI技術や、人間とインテリジェントマシンをコヒーレントな認知システムに統合するハイブリッド共生システムを引き起こしました。 この研究は、知性、認知、コンピュータ、システム科学の最新の進歩に根ざしたSASの理論的枠組みを示す。 SASは、生物脳にインスパイアされ、異質に相乗的な構造と自律的な行動を採用する自律的および共生的なシステムの構成によって特徴付けられる。 本稿では,その認知的基礎と数学的基礎について考察する。 ハイブリッド環境における人間と機械のシームレスな相互作用の課題に対処する。 SASベースの集団知能は、次世代の汎用AI、自律コンピュータ、信頼できるミッションクリティカルなインテリジェントシステムに向けて、自律的なマシン知能によって人間の能力を増強するために研究されている。 SASの進化するパラダイムとエンジニアリングアプリケーションは、人間と認知ロボットの間で共生的に機能する自律的な知識学習システムを介して詳細化される。

Symbiotic Autonomous Systems (SAS) are advanced intelligent and cognitive systems exhibiting autonomous collective intelligence enabled by coherent symbiosis of human-machine interactions in hybrid societies. Basic research in the emerging field of SAS has triggered advanced general AI technologies functioning without human intervention or hybrid symbiotic systems synergizing humans and intelligent machines into coherent cognitive systems. This work presents a theoretical framework of SAS underpinned by the latest advances in intelligence, cognition, computer, and system sciences. SAS are characterized by the composition of autonomous and symbiotic systems that adopt bio-brain-social-ins pired and heterogeneously synergized structures and autonomous behaviors. This paper explores their cognitive and mathematical foundations. The challenge to seamless human-machine interactions in a hybrid environment is addressed. SAS-based collective intelligence is explored in order to augment human capability by autonomous machine intelligence towards the next generation of general AI, autonomous computers, and trustworthy mission-critical intelligent systems. Emerging paradigms and engineering applications of SAS are elaborated via an autonomous knowledge learning system that symbiotically works between humans and cognitive robots.
翻訳日:2021-02-16 15:47:47 公開日:2021-02-11
# 狭窄検出への機械学習応用のための概念研究の実証

A proof of concept study for machine learning application to stenosis detection ( http://arxiv.org/abs/2102.07614v1 )

ライセンス: Link先を確認
Gareth Jones, Jim Parr, Perumal Nithiarasu, Sanjay Pant(参考訳) この概念実証(PoC)は、2つの共通の腸に分岐する腹部大動脈からなる3つの血管動脈系におけるステンドーシスの存在を予測する機械学習(ML)分類器の能力を評価する。 haemodynamicsの1次元パルス波伝播モデルを用いて仮想患者データベース(vpd)を作成する。 4つの異なる機械学習(ML)メソッドを使用して、一連の分類器(バイナリとマルチクラスの両方)を訓練およびテストし、圧力と流量の測定の異なる組み合わせを使用して、健康な仮想患者と不健康な仮想患者(VP)を区別します。 ml分類器は, 80%以上の特異性と, 50~75%の感度を達成した。 また、最もバランスの取れた分類器は、受信者の操作特性曲線0.75以下の領域も達成し、臨床で用いられる約20の手法より優れており、適度に正確である。 i)より多くの/すべての測定が使用される場合と比較して、いくつかの測定が類似した分類精度を提供することができること、(ii)いくつかの測定が分類のために他の測定よりも有益であること、および(iii)標準的な方法の修正が狭狭症の存在だけでなく、ステンソス容器の検出につながる可能性があること。

This proof of concept (PoC) assesses the ability of machine learning (ML) classifiers to predict the presence of a stenosis in a three vessel arterial system consisting of the abdominal aorta bifurcating into the two common iliacs. A virtual patient database (VPD) is created using one-dimensional pulse wave propagation model of haemodynamics. Four different machine learning (ML) methods are used to train and test a series of classifiers -- both binary and multiclass -- to distinguish between healthy and unhealthy virtual patients (VPs) using different combinations of pressure and flow-rate measurements. It is found that the ML classifiers achieve specificities larger than 80% and sensitivities ranging from 50-75%. The most balanced classifier also achieves an area under the receiver operative characteristic curve of 0.75, outperforming approximately 20 methods used in clinical practice, and thus placing the method as moderately accurate. Other important observations from this study are that: i) few measurements can provide similar classification accuracies compared to the case when more/all the measurements are used; ii) some measurements are more informative than others for classification; and iii) a modification of standard methods can result in detection of not only the presence of stenosis, but also the stenosed vessel.
翻訳日:2021-02-16 15:34:45 公開日:2021-02-11
# (参考訳) 適応型パンデミック制御のための知識注入型ポリシー勾配 [全文訳有]

Knowledge Infused Policy Gradients for Adaptive Pandemic Control ( http://arxiv.org/abs/2102.06245v1 )

ライセンス: CC BY 4.0
Kaushik Roy, Qi Zhang, Manas Gaur, and Amit Sheth(参考訳) 新型コロナウイルス(COVID-19)は、その政策実装に基づいて異なる国に影響を与えている。 効果的な政策には、公開情報と新しい知識への適応性を考慮する必要がある。 新型コロナウイルスを理解するために構築された疫学モデルはほとんど政策立案者に適応性パンデミックコントロール(APC)の機能を提供します。 克服すべき課題の1つは、(a)パンデミックのタイムラインにまたがる様々なコントリビューション機能において高い非均一性を扱うことができないこと、(b)公衆衛生専門家の知識を適応的に取り入れられるアプローチがないこと、(c)政策提案における意思決定プロセスの理解を可能にする透明なモデルである。 本研究では,Knowledge Infused Policy Gradient (KIPG) 手法を用いて,これらの課題を早期に解決する。 知識注入に関する先行研究は、疾患情報やガイドラインに関するさまざまな知識のソフトでハードな差し込みを扱うものではありません。 さらに、モデルは特徴数における非均一性に従わず、ポリシーを通知する部分的可観測性として表される。 さらに、APCに必要な解釈可能なモデルを学ぶ代わりに、解釈可能な構造をポストラーニングで抽出する。 そこで本研究では, (a) 世界のマルチリレーショナルな特徴に対して関連する特徴数を誘導し, (b) 核化集約の線形結合である隠れ変数として潜在非均質数を扱い, (b) 知識を関数的制約として原理的に組み込む, KIPG法の数学的枠組みを提案する。 この研究は硬く柔らかい制約を課す理論を確立し、実験を通じてそれをシミュレートする。 知識集約型ベースラインと比較すると,新しい知識への迅速な適応と,特にパンデミック状況における学習方針における解釈可能性を示す。

COVID-19 has impacted nations differently based on their policy implementations. The effective policy requires taking into account public information and adaptability to new knowledge. Epidemiological models built to understand COVID-19 seldom provide the policymaker with the capability for adaptive pandemic control (APC). Among the core challenges to be overcome include (a) inability to handle a high degree of non-homogeneity in different contributing features across the pandemic timeline, (b) lack of an approach that enables adaptive incorporation of public health expert knowledge, and (c) transparent models that enable understanding of the decision-making process in suggesting policy. In this work, we take the early steps to address these challenges using Knowledge Infused Policy Gradient (KIPG) methods. Prior work on knowledge infusion does not handle soft and hard imposition of varying forms of knowledge in disease information and guidelines to necessarily comply with. Furthermore, the models do not attend to non-homogeneity in feature counts, manifesting as partial observability in informing the policy. Additionally, interpretable structures are extracted post-learning instead of learning an interpretable model required for APC. To this end, we introduce a mathematical framework for KIPG methods that can (a) induce relevant feature counts over multi-relational features of the world, (b) handle latent non-homogeneous counts as hidden variables that are linear combinations of kernelized aggregates over the features, and (b) infuse knowledge as functional constraints in a principled manner. The study establishes a theory for imposing hard and soft constraints and simulates it through experiments. In comparison with knowledge-intensive baselines, we show quick sample efficient adaptation to new knowledge and interpretability in the learned policy, especially in a pandemic context.
翻訳日:2021-02-15 23:23:34 公開日:2021-02-11
# (参考訳) ランゲビン拡散の第一次離散に対する高次一般化誤差

Higher Order Generalization Error for First Order Discretization of Langevin Diffusion ( http://arxiv.org/abs/2102.06229v1 )

ライセンス: CC BY 4.0
Mufan Bill Li, Maxime Gazeau(参考訳) 本稿では,確率勾配ランゲヴィンダイナミクス (SGLD) など,ランゲヴィン拡散の離散化に対する一般化誤差の解析手法を提案する。 予想される一般化誤差の $\epsilon$ 許容値に対して、$\Omega(\epsilon^{-1} \log (\epsilon^{-1}) )$ の反復を $\Omega(\epsilon^{-1})$ サンプルで実行すると、第一次離散がこのターゲットに達することが知られている。 本稿では,さらにスムーズな仮定を加えることで,一階法でも任意の実行時複雑性を実現することができることを示す。 より正確には、各$N>0$に対して、第1次離散化が$\epsilon$期待一般化誤差に$\Omega( \epsilon^{-1/N} \log (\epsilon^{-1}) )$反復が$\Omega(\epsilon^{-1})$サンプルを満たすような損失関数上の十分滑らかな条件を提供する。

We propose a novel approach to analyze generalization error for discretizations of Langevin diffusion, such as the stochastic gradient Langevin dynamics (SGLD). For an $\epsilon$ tolerance of expected generalization error, it is known that a first order discretization can reach this target if we run $\Omega(\epsilon^{-1} \log (\epsilon^{-1}) )$ iterations with $\Omega(\epsilon^{-1})$ samples. In this article, we show that with additional smoothness assumptions, even first order methods can achieve arbitrarily runtime complexity. More precisely, for each $N>0$, we provide a sufficient smoothness condition on the loss function such that a first order discretization can reach $\epsilon$ expected generalization error given $\Omega( \epsilon^{-1/N} \log (\epsilon^{-1}) )$ iterations with $\Omega(\epsilon^{-1})$ samples.
翻訳日:2021-02-15 22:38:33 公開日:2021-02-11
# (参考訳) Wasserstein Eigenvectorを用いた教師なし地上測定学習

Unsupervised Ground Metric Learning using Wasserstein Eigenvectors ( http://arxiv.org/abs/2102.06278v1 )

ライセンス: CC BY 4.0
Geert-Jan Huizing, Laura Cantini, Gabriel Peyr\'e(参考訳) 最適輸送(OT)は、確率分布を比較するために機械学習アプリケーションで使用される幾何学的に意味のある「ワッサースタイン」距離を定義する。 しかし、重要なボトルネックは、研究対象のタスクに適合すべき「基礎」コストの設計である。 ほとんどの場合、教師付きメトリクス学習はアクセスできず、通常はアドホックなアプローチに頼っています。 したがって、教師なしメトリック学習は、最適輸送のデータ駆動型アプリケーションを実現するための根本的な問題である。 本論文では,コストを入力間のペアワイズOT距離にマッピングする関数の正の固有ベクトルとして,接地コストを計算することで,正の正の答えを初めて提案する。 この写像は均質で単調であり、非線型ペロン・フロベニウス問題として教師なしの計量学習を組み立てる。 この固有ベクトルの存在と特異性を保証するための基準を提供する。 さらに、エントロピー正規化を用いたスケーラブルな計算手法を導入し、大きな正規化限度において主成分分析次元の低減を行います。 この手法を合成例とデータセットで紹介する。 最後に,高スループット単一細胞RNAシークエンシング(scRNAseq)データセットの解析に生物学の文脈で適用し,細胞クラスタリングを改善し,遺伝子間の関係を教師なしの方法で推測する。

Optimal Transport (OT) defines geometrically meaningful "Wasserstein" distances, used in machine learning applications to compare probability distributions. However, a key bottleneck is the design of a "ground" cost which should be adapted to the task under study. In most cases, supervised metric learning is not accessible, and one usually resorts to some ad-hoc approach. Unsupervised metric learning is thus a fundamental problem to enable data-driven applications of Optimal Transport. In this paper, we propose for the first time a canonical answer by computing the ground cost as a positive eigenvector of the function mapping a cost to the pairwise OT distances between the inputs. This map is homogeneous and monotone, thus framing unsupervised metric learning as a non-linear Perron-Frobenius problem. We provide criteria to ensure the existence and uniqueness of this eigenvector. In addition, we introduce a scalable computational method using entropic regularization, which - in the large regularization limit - operates a principal component analysis dimensionality reduction. We showcase this method on synthetic examples and datasets. Finally, we apply it in the context of biology to the analysis of a high-throughput single-cell RNA sequencing (scRNAseq) dataset, to improve cell clustering and infer the relationships between genes in an unsupervised way.
翻訳日:2021-02-15 22:37:25 公開日:2021-02-11
# (参考訳) バンディット学習者との市場におけるレグレト、安定性、公正性

Regret, stability, and fairness in matching markets with bandit learners ( http://arxiv.org/abs/2102.06246v1 )

ライセンス: CC BY 4.0
Sarah H. Cen and Devavrat Shah(参考訳) 我々は,バンディット学習者との対面マッチング市場を考える。 標準マッチング問題では、ユーザとプロバイダは、安定性の概念を通じてインセンティブ互換性を確保するために一致します。 しかし、マッチング問題の根本的な仮定に反して、ユーザーとプロバイダーは彼らの真の好みを優先順位を知らないし、それらを学ばなければなりません。 この仮定に対処するため、近年の研究では、マッチングとマルチアームバンディットの問題をブレンドすることを提案する。 彼らは、エージェントの真の好みの下で安定しているマッチングにシステムが収束するように、エージェントが十分に学習できるように、各時間ステップで安定したマッチング(インセンティブ互換)を割り当てることができることを確立している。 しかし、これらのマッチングの下では低い後悔を被るエージェントもあるが、特に$T$が時空である場合、$\Omega(T)$最適な後悔を被るエージェントもいる。 本研究では,エージェント間の競争を忠実にモデル化するために,両面のマッチング市場におけるコストと移動を帯域学習者と組み合わせた。 我々は,(1)インセンティブ相反性,すなわち安定性,(2)低い後悔,すなわち$o(\log(t))$の最適後悔,(3)エージェント間の後悔の分配の公平性,(4)高い社会福祉の4つのデシデラタを同時に保証できることを証明する。

We consider the two-sided matching market with bandit learners. In the standard matching problem, users and providers are matched to ensure incentive compatibility via the notion of stability. However, contrary to the core assumption of the matching problem, users and providers do not know their true preferences a priori and must learn them. To address this assumption, recent works propose to blend the matching and multi-armed bandit problems. They establish that it is possible to assign matchings that are stable (i.e., incentive-compatible ) at every time step while also allowing agents to learn enough so that the system converges to matchings that are stable under the agents' true preferences. However, while some agents may incur low regret under these matchings, others can incur high regret -- specifically, $\Omega(T)$ optimal regret where $T$ is the time horizon. In this work, we incorporate costs and transfers in the two-sided matching market with bandit learners in order to faithfully model competition between agents. We prove that, under our framework, it is possible to simultaneously guarantee four desiderata: (1) incentive compatibility, i.e., stability, (2) low regret, i.e., $O(\log(T))$ optimal regret, (3) fairness in the distribution of regret among agents, and (4) high social welfare.
翻訳日:2021-02-15 21:48:33 公開日:2021-02-11
# (参考訳) 悪騒音を有する半空間のサンプル最適PAC学習 [全文訳有]

Sample-Optimal PAC Learning of Halfspaces with Malicious Noise ( http://arxiv.org/abs/2102.06247v1 )

ライセンス: CC BY 4.0
Jie Shen(参考訳) Valiant~(1985)の悪意のあるノイズの存在下で、$\mathbb{R}^d$における均質な半空間の効率的なPAC学習について研究する。 これは困難なノイズモデルであり、最近まで、ラベルのないデータ分布が等方性ログ凹であるという穏やかな条件下で、ほぼ最適のノイズ耐性が確立された。 しかし、最適なサンプルの複雑さを同時に得る方法はまだ未定である。 本稿では, awasthi et al.~(2017) のアルゴリズムの新しい解析を行い,$\tilde{o}(d)$ という最適に近いサンプル複雑性を本質的に達成できることを示し,$\tilde{o}(d^2)$ の最もよく知られた結果を改善する。 我々の主成分は, awasthi et al.~(2017)の局所化スキームを注意深く探究すると共に, 経験的共分散行列のスペクトルに束縛する行列チャーノフ型不等式を新規に組み込んだものである。 さらにアルゴリズムと解析をBshouty~et~alのより汎用的で強力なノイズモデルに拡張する。 (2002年)、多項式時間でほぼ最適のノイズ公差とサンプル複雑性を達成できることを示した。

We study efficient PAC learning of homogeneous halfspaces in $\mathbb{R}^d$ in the presence of malicious noise of Valiant~(1985). This is a challenging noise model and only until recently has near-optimal noise tolerance bound been established under the mild condition that the unlabeled data distribution is isotropic log-concave. However, it remains unsettled how to obtain the optimal sample complexity simultaneously. In this work, we present a new analysis for the algorithm of Awasthi et al.~(2017) and show that it essentially achieves the near-optimal sample complexity bound of $\tilde{O}(d)$, improving the best known result of $\tilde{O}(d^2)$. Our main ingredient is a novel incorporation of a Matrix Chernoff-type inequality to bound the spectrum of an empirical covariance matrix for well-behaved distributions, in conjunction with a careful exploration of the localization schemes of Awasthi et al.~(2017). We further extend the algorithm and analysis to the more general and stronger nasty noise model of Bshouty~et~al. (2002), showing that it is still possible to achieve near-optimal noise tolerance and sample complexity in polynomial time.
翻訳日:2021-02-15 21:47:23 公開日:2021-02-11
# (参考訳) DeepSentinelに向けて:ラベル付き Sentinel-1 と -2 イメージの拡張可能なコーパスと汎用センサ融合セマンティック埋め込みモデル [全文訳有]

Towards DeepSentinel: An extensible corpus of labelled Sentinel-1 and -2 imagery and a general-purpose sensor-fusion semantic embedding model ( http://arxiv.org/abs/2102.06260v1 )

ライセンス: CC BY 4.0
Lucas Kruitwagen(参考訳) 地球観測は、自然に対する人類学的変化と、これらの変化が構築された環境と実際の経済に与える影響(および影響)について、新たな洞察を与える。 中分解能(10-30m)合成開口レーダ(SAR)Sentinel-1とマルチスペクトルSentinel-2画像のグローバル利用により、機械学習は企業や国の報告に偏らず、これらの洞察を大規模に提供することができる。 本稿では,sentinelとsentinel-2画像の汎用的な意味埋め込みを実現するためのデータパイプラインおよび実験フレームワークであるdeepsentinelを提案する。 センサ融合研究のために、ラベル付きおよび非ラベル付き画像の拡張可能なコーパスの開発を文書化します。 この新しいデータセットでは、土地被覆分類問題に一般的な自己監督方法とエンコーダアーキテクチャを適用する一連の実験を開発している。 自己保持可能なTile2vec空間エンコーディングにより、ResNetモデルはResNetのより深いバリアントを上回り、バリエーションのオートエンコーディングとコントラスト損失を伴うプリトレーニングを上回ります。 すべてのサポートおよび派生データおよびコードは一般に公開されます。

Earth observation offers new insight into anthropogenic changes to nature, and how these changes are effecting (and are effected by) the built environment and the real economy. With the global availability of medium-resolution (10-30m) synthetic aperture radar (SAR) Sentinel-1 and multispectral Sentinel-2 imagery, machine learning can be employed to offer these insights at scale, unbiased to the reporting of companies and countries. In this paper, I introduce DeepSentinel, a data pipeline and experimentation framework for producing general-purpose semantic embeddings of paired Sentinel-1 and Sentinel-2 imagery. I document the development of an extensible corpus of labelled and unlabelled imagery for the purposes of sensor fusion research. With this new dataset I develop a set of experiments applying popular self-supervision methods and encoder architectures to a land cover classification problem. Tile2vec spatial encoding with a self-attention enabled ResNet model outperforms deeper ResNet variants as well as pretraining with variational autoencoding and contrastive loss. All supporting and derived data and code are made publicly available.
翻訳日:2021-02-15 20:29:54 公開日:2021-02-11
# (参考訳) 深層学習を用いた胸部X線画像からのCOVID-19検出 [全文訳有]

COVID-19 detection from scarce chest x-ray image data using deep learning ( http://arxiv.org/abs/2102.06285v1 )

ライセンス: CC BY 4.0
Shruti Jadon(参考訳) 現在の新型コロナウイルスのパンデミックでは、感染した患者を迅速かつ正確に検査する必要がある。 胸部x線画像で訓練されたディープラーニングモデルを使うことは、これらの状況で新型コロナウイルス患者をスクリーニングする効率的な方法になり得る。 深層学習のアプローチは、すでに医療コミュニティで広く使われている。 しかし、正確であるためには大量のデータが必要である。 オープンソースコミュニティは総合的にデータの収集と注釈付けに取り組んでいるが、正確なディープラーニングモデルをトレーニングするには不十分だ。 少数の学習は、少ないデータ量で目的を学ぶことを目的とした機械学習のサブフィールドです。 本研究では、深層学習におけるデータ不足に対するよく知られた解決策を実験し、COVID-19を検出する。 これには、データ拡張、転送学習、少数ショット学習、教師なし学習が含まれる。 我々はまた、シアムネットワークを用いて新型コロナウイルスを検出するためのカスタムな数発の学習手法も提案した。 実験結果から,少ないデータ量でも少数の学習アプローチを取り入れることで,covid-19検出のための効率的かつ高精度なディープラーニングモデルを実現することができた。 提案手法では,ベースラインモデルを用いて83%から96.4%の精度向上を達成できた。

In the current COVID-19 pandemic situation, there is an urgent need to screen infected patients quickly and accurately. Using deep learning models trained on chest X-ray images can become an efficient method for screening COVID-19 patients in these situations. Deep learning approaches are already widely used in the medical community. However, they require a large amount of data to be accurate. The open-source community collectively has made efforts to collect and annotate the data, but it is not enough to train an accurate deep learning model. Few-shot learning is a sub-field of machine learning that aims to learn the objective with less amount of data. In this work, we have experimented with well-known solutions for data scarcity in deep learning to detect COVID-19. These include data augmentation, transfer learning, and few-shot learning, and unsupervised learning. We have also proposed a custom few-shot learning approach to detect COVID-19 using siamese networks. Our experimental results showcased that we can implement an efficient and accurate deep learning model for COVID-19 detection by adopting the few-shot learning approaches even with less amount of data. Using our proposed approach we were able to achieve 96.4% accuracy an improvement from 83% using baseline models.
翻訳日:2021-02-15 20:17:59 公開日:2021-02-11
# (参考訳) 凸関数の最適化によるガウス-ベルヌーリRBMの学習 [全文訳有]

Learning Gaussian-Bernoulli RBMs using Difference of Convex Functions Optimization ( http://arxiv.org/abs/2102.06228v1 )

ライセンス: CC BY 4.0
Vidyadhar Upadhya and P S Sastry(参考訳) gaussian-bernoulli restricted boltzmann machine (gb-rbm)は、与えられたn$-次元連続データから有意義な特徴をキャプチャする有用な生成モデルである。 GB-RBMの学習に伴う困難は、初期の研究で広く報告されている。 現在の標準アルゴリズムであるコントラスト発散(cd)と永続的コントラスト発散(pcd)を用いたgb-rbmのトレーニングでは、発散を避けるために慎重に選択された小さな学習率が必要であることが示されている。 本研究では,可視単位(隠れ単位状態)の条件分布の分散と可視単位のバイアスを一定に保つことで,gb-rbm の負の対数様相を凸関数の差として表現できることを示すことで,このような困難を解消する。 これを用いて, gb-rbm を学習するための convex functions} (dc) programming (s-dcp) アルゴリズムを提案する。 本稿では,このs-dcpアルゴリズムの性能を検証するために,いくつかのベンチマークデータセットに関する広範な実証研究を行う。 S-DCPは学習速度および学習した生成モデルの品質の点でCDおよびPCDアルゴリズムよりも優れていることが観察されている。

The Gaussian-Bernoulli restricted Boltzmann machine (GB-RBM) is a useful generative model that captures meaningful features from the given $n$-dimensional continuous data. The difficulties associated with learning GB-RBM are reported extensively in earlier studies. They indicate that the training of the GB-RBM using the current standard algorithms, namely, contrastive divergence (CD) and persistent contrastive divergence (PCD), needs a carefully chosen small learning rate to avoid divergence which, in turn, results in slow learning. In this work, we alleviate such difficulties by showing that the negative log-likelihood for a GB-RBM can be expressed as a difference of convex functions if we keep the variance of the conditional distribution of visible units (given hidden unit states) and the biases of the visible units, constant. Using this, we propose a stochastic {\em difference of convex functions} (DC) programming (S-DCP) algorithm for learning the GB-RBM. We present extensive empirical studies on several benchmark datasets to validate the performance of this S-DCP algorithm. It is seen that S-DCP is better than the CD and PCD algorithms in terms of speed of learning and the quality of the generative model learnt.
翻訳日:2021-02-15 18:48:21 公開日:2021-02-11
# (参考訳) 継続性: 複雑連続学習シナリオの簡易管理 [全文訳有]

Continuum: Simple Management of Complex Continual Learning Scenarios ( http://arxiv.org/abs/2102.06253v1 )

ライセンス: CC BY 4.0
Arthur Douillard and Timoth\'ee Lesort(参考訳) 連続学習は、非IDデータの設定に特化した機械学習サブフィールドである。 したがって、トレーニングデータ分布は静的ではなく、時間を通じてドリフトする。 これらのドリフトはトレーニングされたモデルに干渉を引き起こす可能性があり、データ分布の以前の状態について学んだ知識は忘れられる可能性があります。 継続的な学習の課題は、データ分散ドリフトに対処しながら、増え続ける知識を学習できるアルゴリズムを作ることである。 これらの分野における1つの実装難しさは、非iidシナリオをシミュレートするデータローダを作成することである。 実際、データローダは継続的なアルゴリズムの重要なコンポーネントです。 慎重に設計し再現しなければなりません。 データローダの小さなエラーは、例えばアルゴリズムの結果に重大な影響を与える。 悪い前処理、間違ったデータの順序、悪いテストセットで。 Continuumは、データローダを多数備えたシンプルで効率的なフレームワークで、研究者がデータローダの設計に時間を費やすことを避け、時間を要するエラーを取り除く。 提案フレームワークでは,複数のシナリオと実装された評価メトリクスを用いて,モデル設計に直接注目することが可能である。 さらにフレームワークは簡単に拡張でき、特定のニーズに新しい設定を追加できる。

Continual learning is a machine learning sub-field specialized in settings with non-iid data. Hence, the training data distribution is not static and drifts through time. Those drifts might cause interferences in the trained model and knowledge learned on previous states of the data distribution might be forgotten. Continual learning's challenge is to create algorithms able to learn an ever-growing amount of knowledge while dealing with data distribution drifts. One implementation difficulty in these field is to create data loaders that simulate non-iid scenarios. Indeed, data loaders are a key component for continual algorithms. They should be carefully designed and reproducible. Small errors in data loaders have a critical impact on algorithm results, e.g. with bad preprocessing, wrong order of data or bad test set. Continuum is a simple and efficient framework with numerous data loaders that avoid researcher to spend time on designing data loader and eliminate time-consuming errors. Using our proposed framework, it is possible to directly focus on the model design by using the multiple scenarios and evaluation metrics implemented. Furthermore the framework is easily extendable to add novel settings for specific needs.
翻訳日:2021-02-15 18:29:24 公開日:2021-02-11
# (参考訳) 時間変動ベイズ最適化のためのノレグレットアルゴリズム [全文訳有]

No-Regret Algorithms for Time-Varying Bayesian Optimization ( http://arxiv.org/abs/2102.06296v1 )

ライセンス: CC BY 4.0
Xingyu Zhou and Ness Shroff(参考訳) 本稿では,時変ベイズ最適化問題を考察する。 各時点の未知の関数は、有界ノルムを持つ RKHS (再生核ヒルベルト空間) にあると仮定される。 時変環境を捉えるために,一般変動予算モデルを採用し,その変動はRKHS基準の変更によって特徴づけられる。 R-GP-UCBとSW-GP-UCBの2種類のGP-UCB型アルゴリズムを導入した。 両アルゴリズムの動的後悔に対する最初の(頻繁な)後悔の保証を導き出す。 この結果は,線形カーネルを用いた場合の先行線形バンディット結果を復元するだけでなく,ベイズ型正規性仮定の下での時間変動ガウス過程バンディットの先行後悔解析,すなわち各関数はガウス過程からのサンプルである。

In this paper, we consider the time-varying Bayesian optimization problem. The unknown function at each time is assumed to lie in an RKHS (reproducing kernel Hilbert space) with a bounded norm. We adopt the general variation budget model to capture the time-varying environment, and the variation is characterized by the change of the RKHS norm. We adapt the restart and sliding window mechanism to introduce two GP-UCB type algorithms: R-GP-UCB and SW-GP-UCB, respectively. We derive the first (frequentist) regret guarantee on the dynamic regret for both algorithms. Our results not only recover previous linear bandit results when a linear kernel is used, but complement the previous regret analysis of time-varying Gaussian process bandit under a Bayesian-type regularity assumption, i.e., each function is a sample from a Gaussian process.
翻訳日:2021-02-15 18:15:52 公開日:2021-02-11
# (参考訳) 強化学習のためのエコー状態ネットワーク

Echo State Networks for Reinforcement Learning ( http://arxiv.org/abs/2102.06258v1 )

ライセンス: CC BY 4.0
Allen G. Hart, Kevin R. Olding, A. M. G. Cox, Olga Isupova, J. H. P. Dawes(参考訳) Echo State Networks (ESN) は、ランダムな内部重み付けとトレーニング可能な出力層を備えた単層リカレントニューラルネットワークの一種である。 十分に大きなEcho State Network (ESN) が、幅広い確率的および決定論的制御問題の値関数を近似できることを、穏やかな条件下で証明する。 このような制御問題は一般にマルコフでない。 本稿では,ESNが非マルコフフレームワークにおける新規(かつ計算効率のよい)強化学習アルゴリズムの基礎をいかに形成できるかについて述べる。 この理論を2つの例で示す。 第一に、ESNを用いて決定論的、部分的に観察された制御問題を解き、これは'Bee World'と呼ばれる単純なゲームである。 第2の例では、数学金融における市場形成問題から着想を得た確率的制御問題を考える。 いずれの場合も、アルゴリズムのダイナミクスと分析的なソリューションを比較して、たった1回の強化ポリシーイテレーションの後でも、アルゴリズムが合理的なスキルで実行することを示すことができる。

Echo State Networks (ESNs) are a type of single-layer recurrent neural network with randomly-chosen internal weights and a trainable output layer. We prove under mild conditions that a sufficiently large Echo State Network (ESN) can approximate the value function of a broad class of stochastic and deterministic control problems. Such control problems are generally non-Markovian. We describe how the ESN can form the basis for novel (and computationally efficient) reinforcement learning algorithms in a non-Markovian framework. We demonstrate this theory with two examples. In the first, we use an ESN to solve a deterministic, partially observed, control problem which is a simple game we call `Bee World'. In the second example, we consider a stochastic control problem inspired by a market making problem in mathematical finance. In both cases we can compare the dynamics of the algorithms with analytic solutions to show that even after only a single reinforcement policy iteration the algorithms perform with reasonable skill.
翻訳日:2021-02-15 16:14:15 公開日:2021-02-11
# (参考訳) グラフポリシー勾配を用いた大規模分散協調型無ラベル運動計画 [全文訳有]

Large Scale Distributed Collaborative Unlabeled Motion Planning with Graph Policy Gradients ( http://arxiv.org/abs/2102.06284v1 )

ライセンス: CC BY 4.0
Arbaaz Khan, Vijay Kumar, Alejandro Ribeiro(参考訳) 本稿では,多数のロボットの2次元空間における運動制約と空間制約を用いて,不規則な動作問題を解決する学習手法を提案する。 任意の力学と制約の問題を解くため,マルチエージェント問題として定式化することを提案する。 我々は、グラフニューラルネットワーク(GNN)を用いて、ロボットのポリシーをパラメータ化することで、多数のロボットに対するメソッドのスケーラビリティを実証することができる。 GNNは、畳み込みニューラルネットワークが画像内の局所的な特徴を学習する方法と同様に、ロボット間で情報を集約するフィルタを学習することにより、問題の寸法性を低減します。 さらに、GNNを使用することで、少数のロボットに対してグラフフィルタをトレーニングし、さらに多数のロボットにゼロショットポリシーを転送することで、多数のロボットに対するトレーニングポリシーの計算オーバーヘッドを克服することができる。 様々なシミュレーションによる枠組みの有効性を実証する。

In this paper, we present a learning method to solve the unlabelled motion problem with motion constraints and space constraints in 2D space for a large number of robots. To solve the problem of arbitrary dynamics and constraints we propose formulating the problem as a multi-agent problem. We are able to demonstrate the scalability of our methods for a large number of robots by employing a graph neural network (GNN) to parameterize policies for the robots. The GNN reduces the dimensionality of the problem by learning filters that aggregate information among robots locally, similar to how a convolutional neural network is able to learn local features in an image. Additionally, by employing a GNN we are also able to overcome the computational overhead of training policies for a large number of robots by first training graph filters for a small number of robots followed by zero-shot policy transfer to a larger number of robots. We demonstrate the effectiveness of our framework through various simulations.
翻訳日:2021-02-15 15:42:16 公開日:2021-02-11
# (参考訳) ロバスト音声認識のためのエンドツーエンドモデルの検討 [全文訳有]

An Investigation of End-to-End Models for Robust Speech Recognition ( http://arxiv.org/abs/2102.06237v1 )

ライセンス: CC BY 4.0
Archiki Prasad, Preethi Jyothi, Rajbabu Velmurugan(参考訳) 堅牢な自動音声認識(ASR)のためのエンドツーエンドモデルは、以前の作業で十分に十分に検討されていませんでした。 エンドツーエンドモデルでは、音声強調技術を用いて入力音声の前処理を選択でき、拡張音声を用いてモデルを訓練することができる。 もう1つの選択肢は、ノイズ音声を入力として渡し、モデルアーキテクチャを変更して雑音音声に適応させることである。 エンドツーエンドのロバストなasrに対するこれら2つのアプローチの体系的な比較は、これまで試みられていない。 このギャップに対処し、ロバストASRのためのデータ強化、マルチタスク学習、対角学習を含む、音声強調に基づく手法と3つの異なるモデルベース適応手法の詳細な比較を示す。 対向学習は特定の雑音の種類において最高の性能の手法であるが、クリーン音声WERを劣化させるコストがかかる。 他の比較的定常的なノイズタイプでは、新しい音声強調技術がモデルに基づく適応技術をすべて上回っていた。 このことは,基礎となる雑音タイプの知識が適応手法の選択に有意義な影響を与えることを示唆する。

End-to-end models for robust automatic speech recognition (ASR) have not been sufficiently well-explored in prior work. With end-to-end models, one could choose to preprocess the input speech using speech enhancement techniques and train the model using enhanced speech. Another alternative is to pass the noisy speech as input and modify the model architecture to adapt to noisy speech. A systematic comparison of these two approaches for end-to-end robust ASR has not been attempted before. We address this gap and present a detailed comparison of speech enhancement-based techniques and three different model-based adaptation techniques covering data augmentation, multi-task learning, and adversarial learning for robust ASR. While adversarial learning is the best-performing technique on certain noise types, it comes at the cost of degrading clean speech WER. On other relatively stationary noise types, a new speech enhancement technique outperformed all the model-based adaptation techniques. This suggests that knowledge of the underlying noise type can meaningfully inform the choice of adaptation technique.
翻訳日:2021-02-15 14:34:11 公開日:2021-02-11
# 点的相互情報を用いた教師なし抽出要約

Unsupervised Extractive Summarization using Pointwise Mutual Information ( http://arxiv.org/abs/2102.06272v1 )

ライセンス: Link先を確認
Vishakh Padmakumar, He He(参考訳) 抽出要約に対する教師なしのアプローチは、通常、文と文書の間の意味的類似性によって定義される文の重要性の概念に依存する。 予め訓練された言語モデルによって容易に計算できる文間のポイントワイズ相互情報 (PMI) を用いて, 関連性および冗長性の新たな指標を提案する。 直感的には、関連文は、読者が文書の内容(文書の高PMI)を推測することができ、余分な文を要約(要約の高PMI)から推測することができる。 次に, 抽出文の冗長性を最小限に抑えるグリーディ文選択アルゴリズムを開発した。 本手法は, ニュース, 医療雑誌記事, 個人逸話など, さまざまな領域のデータセットにおける類似性に基づく手法を上回っていることを示した。

Unsupervised approaches to extractive summarization usually rely on a notion of sentence importance defined by the semantic similarity between a sentence and the document. We propose new metrics of relevance and redundancy using pointwise mutual information (PMI) between sentences, which can be easily computed by a pre-trained language model. Intuitively, a relevant sentence allows readers to infer the document content (high PMI with the document), and a redundant sentence can be inferred from the summary (high PMI with the summary). We then develop a greedy sentence selection algorithm to maximize relevance and minimize redundancy of extracted sentences. We show that our method outperforms similarity-based methods on datasets in a range of domains including news, medical journal articles, and personal anecdotes.
翻訳日:2021-02-15 13:23:55 公開日:2021-02-11
# 短い文字列における言語識別のためのAppleの双方向LSTMモデルの再現

A reproduction of Apple's bi-directional LSTM models for language identification in short strings ( http://arxiv.org/abs/2102.06282v1 )

ライセンス: Link先を確認
Mads Toftrup, S{\o}ren Asger S{\o}rensen, Manuel R. Ciosici, Ira Assent(参考訳) 言語識別は、文書の言語を特定するタスクである。 自動スペルチェッカー選択のようなアプリケーションでは、言語識別はテキストメッセージフラグメントのような非常に短い文字列を使用する必要がある。 本稿では、Appleが簡単にスケッチした言語識別アーキテクチャをブログ記事で再現する。 バイLSTMモデルの性能を確認し,現在のオープンソース言語識別子よりも優れていることを確認した。 さらに、その言語識別ミスは、関連する言語間の混乱によるものです。

Language Identification is the task of identifying a document's language. For applications like automatic spell checker selection, language identification must use very short strings such as text message fragments. In this work, we reproduce a language identification architecture that Apple briefly sketched in a blog post. We confirm the bi-LSTM model's performance and find that it outperforms current open-source language identifiers. We further find that its language identification mistakes are due to confusion between related languages.
翻訳日:2021-02-15 13:23:44 公開日:2021-02-11
# ポリークラッパート平均ゼロ階確率勾配アルゴリズムの統計的推測

Statistical Inference for Polyak-Ruppert Averaged Zeroth-order Stochastic Gradient Algorithm ( http://arxiv.org/abs/2102.05198v2 )

ライセンス: Link先を確認
Yanhao Jin, Tesi Xiao, Krishnakumar Balasubramanian(参考訳) 機械学習モデルがクリティカルなアプリケーションにデプロイされるにつれて、モデルパラメータのポイント推定子(あるいはその後の予測)を提供するだけでなく、信頼セットを通じてモデルパラメータを推定する不確実性も定量化することが重要になる。 過去10年間で、いくつかの機械学習モデルにおける推定またはトレーニングは、確率勾配アルゴリズムの実行と同義語になっている。 しかし、いくつかの設定での確率勾配の計算は非常に高価か、時には不可能である。 これまで統計的機械学習文献で十分に対処されていない重要な質問は、ゼロ次確率勾配アルゴリズムを実用的だが厳格な推論能力を装備することである。 そこで本研究では、まず、ゼロ階設定におけるPolyak-Ruppert平均確率勾配アルゴリズムの中央極限定理を確立する。 次に、中心極限定理に現れる漸近共分散行列のオンライン推定を行い、ゼロ階の設定においてパラメータ推定(または予測)のための漸近的に有効な信頼集合(または区間)を構築するための実践的な手順を提供する。

As machine learning models are deployed in critical applications, it becomes important to not just provide point estimators of the model parameters (or subsequent predictions), but also quantify the uncertainty associated with estimating the model parameters via confidence sets. In the last decade, estimating or training in several machine learning models has become synonymous with running stochastic gradient algorithms. However, computing the stochastic gradients in several settings is highly expensive or even impossible at times. An important question which has thus far not been addressed sufficiently in the statistical machine learning literature is that of equipping zeroth-order stochastic gradient algorithms with practical yet rigorous inferential capabilities. Towards this, in this work, we first establish a central limit theorem for Polyak-Ruppert averaged stochastic gradient algorithm in the zeroth-order setting. We then provide online estimators of the asymptotic covariance matrix appearing in the central limit theorem, thereby providing a practical procedure for constructing asymptotically valid confidence sets (or intervals) for parameter estimation (or prediction) in the zeroth-order setting.
翻訳日:2021-02-15 13:21:57 公開日:2021-02-11
# KL制約近似政策イテレーションにおける最適化問題

Optimization Issues in KL-Constrained Approximate Policy Iteration ( http://arxiv.org/abs/2102.06234v1 )

ライセンス: Link先を確認
Nevena Lazi\'c, Botao Hao, Yasin Abbasi-Yadkori, Dale Schuurmans, Csaba Szepesv\'ari(参考訳) 多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。 標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。 TRPO、MPO、VMPOといった一般的な実践的アルゴリズムは、連続的なポリシーのKL分割の制約によって正規化を置き換える。 本研究では,この実装選択をより詳細に検討する。 制約としてklダイバージェンスの使用と正規化としての使用を比較し、広く使われている制約付きアプローチの最適化問題をいくつか指摘する。 制約付きアルゴリズムは、制約付き問題を正確に解くことができる単純な問題例でも収束することが保証されておらず、実際には線形期待の後悔をもたらす。 Softmaxポリシーを使用した近似実装により、正規化は元の目的の最適化のランドスケープを改善できることを示しています。 これらの問題をいくつかのバンディットおよびRL環境で実証する。

Many reinforcement learning algorithms can be seen as versions of approximate policy iteration (API). While standard API often performs poorly, it has been shown that learning can be stabilized by regularizing each policy update by the KL-divergence to the previous policy. Popular practical algorithms such as TRPO, MPO, and VMPO replace regularization by a constraint on KL-divergence of consecutive policies, arguing that this is easier to implement and tune. In this work, we study this implementation choice in more detail. We compare the use of KL divergence as a constraint vs. as a regularizer, and point out several optimization issues with the widely-used constrained approach. We show that the constrained algorithm is not guaranteed to converge even on simple problem instances where the constrained problem can be solved exactly, and in fact incurs linear expected regret. With approximate implementation using softmax policies, we show that regularization can improve the optimization landscape of the original objective. We demonstrate these issues empirically on several bandit and RL environments.
翻訳日:2021-02-15 13:21:38 公開日:2021-02-11
# LIMEは画像に何が見えるのか?

What does LIME really see in images? ( http://arxiv.org/abs/2102.06307v1 )

ライセンス: Link先を確認
Damien Garreau, Dina Mardaoui(参考訳) オブジェクト認識のような特定のコンピュータビジョンタスクにおける現代のアルゴリズムのパフォーマンスは、今や人間のそれに近い。 この成功は、数百万のパラメータに応じて複雑なアーキテクチャのコストで達成され、特定の予測がどのように行われるかを理解することが非常に困難になっています。 解釈可能性法は、この理解を与える。 この論文では、LIME、おそらく最も人気のあるものの1つを研究します。 理論的には、生成された例の数が多い場合、LIMEの説明は明示的な表現を与える制限説明の周りに集中されることを示しています。 本研究は,基本形状検出器と線形モデルについてさらに述べる。 この分析の結果、LIMEと積分勾配の関連性、すなわち別の説明法が明らかになった。 より正確には、LIMEの説明は、LIMEの前処理ステップで使用されるスーパーピクセル上の積分勾配の和に類似している。

The performance of modern algorithms on certain computer vision tasks such as object recognition is now close to that of humans. This success was achieved at the price of complicated architectures depending on millions of parameters and it has become quite challenging to understand how particular predictions are made. Interpretability methods propose to give us this understanding. In this paper, we study LIME, perhaps one of the most popular. On the theoretical side, we show that when the number of generated examples is large, LIME explanations are concentrated around a limit explanation for which we give an explicit expression. We further this study for elementary shape detectors and linear models. As a consequence of this analysis, we uncover a connection between LIME and integrated gradients, another explanation method. More precisely, the LIME explanations are similar to the sum of integrated gradients over the superpixels used in the preprocessing step of LIME.
翻訳日:2021-02-15 13:19:23 公開日:2021-02-11
# フェイクニュースにおけるドメイン差を受け入れる:マルチモーダルデータを用いたクロスドメインフェイクニュース検出

Embracing Domain Differences in Fake News: Cross-domain Fake News Detection using Multi-modal Data ( http://arxiv.org/abs/2102.06314v1 )

ライセンス: Link先を確認
Amila Silva, Ling Luo, Shanika Karunasekera, Christopher Leckie(参考訳) ソーシャルメディアの急速な進化に伴い、フェイクニュースは重要な社会問題となり、手動調査を使用してタイムリーに対処することはできません。 これは偽ニュース検出の自動化に関する多くの研究を動機づけている。 ほとんどの研究は、フェイクニュースを特定するために、ニュースレコードの様々なモーダル(テキスト、画像、伝播ネットワークなど)を持つ教師付きトレーニングモデルを検討する。 しかし、特に訓練中に見当たらない、またはほとんど見当たらないドメインに対して、ニュース記録が異なるドメイン(例えば、政治、娯楽)から来れば、その技術のパフォーマンスは低下する。 モチベーションとして、異なるドメインのニュースレコードは、単語使用量や伝播パターンが著しく異なることを実証的に示す。 さらに、ラベルなしのニュースレコードの量が多いため、ラベル付きデータセットのドメイン被覆を最大化するため、手動ラベリング用のニュースレコードを選択することが困難である。 そこで本研究では,(1)異なるドメインからの偽ニュースを検出するために,ニュースレコードにおけるドメイン固有の知識とクロスドメインの知識を共同で保持する新たな枠組みを提案し,(2)手動ラベリングのためのラベルなし情報付きニュースレコードのセットを選択するための教師なし手法を導入し,最終的には多くのドメインで有効な偽ニュース検出モデルを訓練し,ラベルコストを最小化することができる。 提案する偽ニュースモデルと選択的アノテーションアプローチの統合により,クロスドメインニュースデータセットの最先端性能を実現するとともに,ニュースデータセットにおける稀に現れるドメインに対して顕著な改善が得られた。

With the rapid evolution of social media, fake news has become a significant social problem, which cannot be addressed in a timely manner using manual investigation. This has motivated numerous studies on automating fake news detection. Most studies explore supervised training models with different modalities (e.g., text, images, and propagation networks) of news records to identify fake news. However, the performance of such techniques generally drops if news records are coming from different domains (e.g., politics, entertainment), especially for domains that are unseen or rarely-seen during training. As motivation, we empirically show that news records from different domains have significantly different word usage and propagation patterns. Furthermore, due to the sheer volume of unlabelled news records, it is challenging to select news records for manual labelling so that the domain-coverage of the labelled dataset is maximized. Hence, this work: (1) proposes a novel framework that jointly preserves domain-specific and cross-domain knowledge in news records to detect fake news from different domains; and (2) introduces an unsupervised technique to select a set of unlabelled informative news records for manual labelling, which can be ultimately used to train a fake news detection model that performs well for many domains while minimizing the labelling cost. Our experiments show that the integration of the proposed fake news model and the selective annotation approach achieves state-of-the-art performance for cross-domain news datasets, while yielding notable improvements for rarely-appearing domains in news datasets.
翻訳日:2021-02-15 13:16:23 公開日:2021-02-11
# HPCのスケジューリングのための深部強化剤

Deep Reinforcement Agent for Scheduling in HPC ( http://arxiv.org/abs/2102.06243v1 )

ライセンス: Link先を確認
Yuping Fan, Zhiling Lan, Taylor Childers, Paul Rich, William Allcock and Michael E. Papka(参考訳) クラスタスケジューラは高性能コンピューティング(HPC)において重要である。 利用可能なシステムリソースにどのユーザジョブを割り当てるべきかを決定する。 既存のクラスタスケジューリングヒューリスティックは、特定のHPCシステムとワークロードの経験に基づいて、人間の専門家によって開発されます。 しかし、コンピューティングシステムの複雑さが増し、アプリケーションワークロードの非常にダイナミックな性質が、手動で設計され、調整されたスケジューリングヒューリスティックに多大な負担をかけた。 HPCのクラスタスケジューリングには、より積極的な最適化と自動化が必要です。 本研究では,深層強化学習を活用したDRAS(Deep Reinforcement Agent for Scheduling)と呼ばれる自動HPCスケジューリングエージェントを提案する。 DRASは、リソース予約やバックフィルなどの特別なHPCスケジューリング機能を組み込んだ、新しい階層型ニューラルネットワーク上に構築されています。 DRASがターゲット環境を迅速に学習できるように、ユニークなトレーニング戦略が提示されている。 システムマネージャが特定のスケジューリング目標を提供すると、DRASは自動的にスケジューリング環境との相互作用を通じてポリシーを改善することを学び、ワークロードの変更に応じてポリシーを動的に調整します。 異なった生産の負荷の実験はDRASが既存のヒューリスティックおよび最適化のアプローチを45%まで上回ることを示します。

Cluster scheduler is crucial in high-performance computing (HPC). It determines when and which user jobs should be allocated to available system resources. Existing cluster scheduling heuristics are developed by human experts based on their experience with specific HPC systems and workloads. However, the increasing complexity of computing systems and the highly dynamic nature of application workloads have placed tremendous burden on manually designed and tuned scheduling heuristics. More aggressive optimization and automation are needed for cluster scheduling in HPC. In this work, we present an automated HPC scheduling agent named DRAS (Deep Reinforcement Agent for Scheduling) by leveraging deep reinforcement learning. DRAS is built on a novel, hierarchical neural network incorporating special HPC scheduling features such as resource reservation and backfilling. A unique training strategy is presented to enable DRAS to rapidly learn the target environment. Once being provided a specific scheduling objective given by system manager, DRAS automatically learns to improve its policy through interaction with the scheduling environment and dynamically adjusts its policy as workload changes. The experiments with different production workloads demonstrate that DRAS outperforms the existing heuristic and optimization approaches by up to 45%.
翻訳日:2021-02-15 13:15:42 公開日:2021-02-11
# モンテカルロツリー探索による金融デリバティブ契約のヘッジ

Hedging of Financial Derivative Contracts via Monte Carlo Tree Search ( http://arxiv.org/abs/2102.06274v1 )

ライセンス: Link先を確認
Oleg Szehr(参考訳) 不完全市場におけるデリバティブ契約の近似レプリケーション戦略の構築は金融工学の重要な問題である。 近年、リアルな市場条件下での価格設定とヘッジのための強化学習アルゴリズムが注目されている。 金融研究は主に$ Q$-ラーニングのバリエーションに焦点を当てていますが、人工知能のモンテカルロツリー検索では、ヘックス、チェス、Goなどのさまざまな計画問題のための最先端の方法が認識されています。 本稿では,現実市場における金融デリバティブのヘッジに対するモンテカルロ木探索について紹介し,他の強化学習法よりもモンテカルロ木探索の方が理論的・実践的に有利であることを示す。

The construction of approximate replication strategies for derivative contracts in incomplete markets is a key problem of financial engineering. Recently Reinforcement Learning algorithms for pricing and hedging under realistic market conditions have attracted significant interest. While financial research mostly focused on variations of $Q$-learning, in Artificial Intelligence Monte Carlo Tree Search is the recognized state-of-the-art method for various planning problems, such as the games of Hex, Chess, Go,... This article introduces Monte Carlo Tree Search for the hedging of financial derivatives in realistic markets and shows that there are good reasons, both on the theoretical and practical side, to favor it over other Reinforcement Learning methods.
翻訳日:2021-02-15 13:15:25 公開日:2021-02-11
# DEEPF0:音楽信号と音声信号の基本周波数推定

DEEPF0: End-To-End Fundamental Frequency Estimation for Music and Speech Signals ( http://arxiv.org/abs/2102.06306v1 )

ライセンス: Link先を確認
Satwinder Singh, Ruili Wang, Yuanhang Qiu(参考訳) 我々は、利用可能な注釈付きデータを利用して、生音声から直接データ駆動で学習する、DeepF0と呼ばれる新しいピッチ推定手法を提案する。 f0推定は様々な音声処理や音楽情報検索において重要である。 ピッチ推定のための既存のディープラーニングモデルは、浅い受容領域のために比較的限られた学習能力を有する。 提案モデルは,拡張畳み込みブロックをネットワークに導入することにより,ネットワークの受容領域を拡張することでこの問題に対処する。 拡張係数は、モデルパラメータを指数関数的に増加させることなく、ネットワーク受容場を指数関数的に増加させる。 トレーニングプロセスをより効率的かつ高速にするために、deepf0は、残留接続を持つ残留ブロックで拡張される。 本実験では,77.4%少ないネットワークパラメータを用いても,生ピッチ精度と生クロマ精度でベースラインを上回っていることを実証した。 また, 種々の伴奏雑音の下でも, 適切なピッチ推定が可能であることを示す。

We propose a novel pitch estimation technique called DeepF0, which leverages the available annotated data to directly learns from the raw audio in a data-driven manner. F0 estimation is important in various speech processing and music information retrieval applications. Existing deep learning models for pitch estimations have relatively limited learning capabilities due to their shallow receptive field. The proposed model addresses this issue by extending the receptive field of a network by introducing the dilated convolutional blocks into the network. The dilation factor increases the network receptive field exponentially without increasing the parameters of the model exponentially. To make the training process more efficient and faster, DeepF0 is augmented with residual blocks with residual connections. Our empirical evaluation demonstrates that the proposed model outperforms the baselines in terms of raw pitch accuracy and raw chroma accuracy even using 77.4% fewer network parameters. We also show that our model can capture reasonably well pitch estimation even under the various levels of accompaniment noise.
翻訳日:2021-02-15 13:15:12 公開日:2021-02-11
# 動的バックアップワーカーによるストラグラー・レジリエンスな分散機械学習

Straggler-Resilient Distributed Machine Learning with Dynamic Backup Workers ( http://arxiv.org/abs/2102.06280v1 )

ライセンス: Link先を確認
Guojun Xiong, Gang Yan, Rahul Singh, Jian Li(参考訳) 機械学習モデルの大規模トレーニングの需要が高まる中、コンセンサスベースの分散最適化メソッドは最近、人気のあるパラメータサーバフレームワークに代わるものとして提唱されている。 このパラダイムでは、各作業員が最適なパラメータベクトルの局所推定を維持し、隣人から得られたすべての推定を待ち、平均して反復的に更新し、そのローカルデータセットに基づいて修正します。 しかし、同期フェーズは \textit{stragglers}、すなわち遅いワーカを待つ必要があるため、時間がかかる可能性がある。 この効果を緩和するための効率的な方法は、各ワーカーがローカルパラメータを更新する前に、最速の隣人からの更新だけを待たせることです。 残りの隣人は \textit{backup workers} と呼ばれる。 ネットワーク上でのトレーニング時間を最小化するために,作業者毎のバックアップ作業員数を動的に決定する完全分散アルゴリズムを提案する。 本アルゴリズムは,収束の線形速度アップ(つまり,作業者数に対して収束性能が線形に増加する)を達成することを示す。 我々は、MNISTとCIFAR-10の広範な実験を行い、理論結果を検証する。

With the increasing demand for large-scale training of machine learning models, consensus-based distributed optimization methods have recently been advocated as alternatives to the popular parameter server framework. In this paradigm, each worker maintains a local estimate of the optimal parameter vector, and iteratively updates it by waiting and averaging all estimates obtained from its neighbors, and then corrects it on the basis of its local dataset. However, the synchronization phase can be time consuming due to the need to wait for \textit{stragglers}, i.e., slower workers. An efficient way to mitigate this effect is to let each worker wait only for updates from the fastest neighbors before updating its local parameter. The remaining neighbors are called \textit{backup workers.} To minimize the globally training time over the network, we propose a fully distributed algorithm to dynamically determine the number of backup workers for each worker. We show that our algorithm achieves a linear speedup for convergence (i.e., convergence performance increases linearly with respect to the number of workers). We conduct extensive experiments on MNIST and CIFAR-10 to verify our theoretical results.
翻訳日:2021-02-15 13:14:58 公開日:2021-02-11
# ホーフディングおよびバーンスタイン型濃度不等式

Some Hoeffding- and Bernstein-type Concentration Inequalities ( http://arxiv.org/abs/2102.06304v1 )

ライセンス: Link先を確認
Andreas Maurer and Massimiliano Pontil(参考訳) 独立確率変数 {under} 部分ガウス条件および部分指数条件の関数に対する濃度不等式を証明した。 不等式の実用性は、リプシッツ函数クラスと非有界部分指数分布へのラデマチャー複素数の現在の古典的方法の拡張によって証明される。

We prove concentration inequalities for functions of independent random variables {under} sub-gaussian and sub-exponential conditions. The utility of the inequalities is demonstrated by an extension of the now classical method of Rademacher complexities to Lipschitz function classes and unbounded sub-exponential distribution.
翻訳日:2021-02-15 13:14:40 公開日:2021-02-11
# 動的ネットワークモデリングのための相互励起点プロセスグラフ

Mutually exciting point process graphs for modelling dynamic networks ( http://arxiv.org/abs/2102.06527v1 )

ライセンス: Link先を確認
Francesco Sanna Passino, Nicholas A. Heard(参考訳) 動的ネットワークのための新しいクラスのモデルが提案され、コンピュータネットワークのセキュリティにおける実用的なアプリケーションによって動機づけられた相互刺激ポイントプロセスグラフ(MEG)と呼ばれる。 MEGは拡張可能なネットワークワイド統計モデルであり、以前は観測されていなかった接続の重要性を評価する際に異常検出に使用することができる。 このモデルは相互にエキサイティングなポイントプロセスを組み合わせて、イベント間の依存性を推定し、ノード間の関係を推測する。 各ネットワークエッジの強度関数はノード固有のパラメータによってのみパラメータ化され、ネットワーク間で情報を共有できる。 現代の勾配昇降アルゴリズムを用いた高速推論手順が利用されている。 このモデルはシミュレーショングラフと実世界のコンピュータネットワークデータセット上でテストされ、優れた性能を示す。

A new class of models for dynamic networks is proposed, called mutually exciting point process graphs (MEG), motivated by a practical application in computer network security. MEG is a scalable network-wide statistical model for point processes with dyadic marks, which can be used for anomaly detection when assessing the significance of previously unobserved connections. The model combines mutually exciting point processes to estimate dependencies between events and latent space models to infer relationships between the nodes. The intensity functions for each network edge are parameterised exclusively by node-specific parameters, which allows information to be shared across the network. Fast inferential procedures using modern gradient ascent algorithms are exploited. The model is tested on simulated graphs and real world computer network datasets, demonstrating excellent performance.
翻訳日:2021-02-15 13:13:46 公開日:2021-02-11
# 3次元畳み込みニューラルネットワークアンサンブルと解剖学的前駆体を用いた縦隔リンパ節分節

Mediastinal lymph nodes segmentation using 3D convolutional neural network ensembles and anatomical priors guiding ( http://arxiv.org/abs/2102.06515v1 )

ライセンス: Link先を確認
David Bouget, Andr\'e Pedersen, Johanna Vanel, Haakon O. Leira, Thomas Lang{\o}(参考訳) 肺癌が進展するにつれて,腫瘍の進展を適切に推定し,最善の治療法を選択するために,拡大し,潜在的に悪性リンパ節の存在を評価する必要がある。 臨床ガイドラインに従って、正確な診断には短軸径と縦隔局の推定が不可欠です。 したがって、リンパ節を定量的に記述するための正確かつ自動分割方法が決定的である。 本研究では,3次元畳み込みニューラルネットワークを用いて,スラブ方式や全ボリュームのダウンサンプリングを利用する方法を検討した。 さらに,単純なアンサンブル戦略の影響も検討した。 リンパ節は近くの解剖学的構造と類似した減衰値を持つため,他の臓器の知識を先行情報として利用して分節作業の指導を行う。 セグメンテーションとインスタンス検出性能を評価するため、5倍のクロスバリデーション戦略を120個の造影CTボリュームのデータセット上で追従した。 短軸径$\geq10$ mmの1178リンパ節では、私たちの最高のパフォーマンスアプローチは、患者の賢明なリコール92%、患者1人当たりの偽陽性比5、セグメント化重複80.5%に達しました。 この方法も同様に全ての駅でよく機能する。 スラブワイドとフルボリュームのアプローチをアンサンブルスキームに組み込むことで、最高のパフォーマンスを実現した。 anatomical priors guideing strategyは有望だが、最適な利益を生み出すには4つ以上の臓器が必要と思われる。 リンパ節が示すことができる表現の広い範囲(すなわち、形状、位置、減衰)とコントラストの取り込みの変動を考えると、より大きなデータセットも必須である。

As lung cancer evolves, the presence of enlarged and potentially malignant lymph nodes must be assessed to properly estimate disease progression and select the best treatment strategy. Following the clinical guidelines, estimation of short-axis diameter and mediastinum station are paramount for correct diagnosis. A method for accurate and automatic segmentation is hence decisive for quantitatively describing lymph nodes. In this study, the use of 3D convolutional neural networks, either through slab-wise schemes or the leveraging of downsampled entire volumes, is investigated. Furthermore, the potential impact from simple ensemble strategies is considered. As lymph nodes have similar attenuation values to nearby anatomical structures, we suggest using the knowledge of other organs as prior information to guide the segmentation task. To assess the segmentation and instance detection performances, a 5-fold cross-validation strategy was followed over a dataset of 120 contrast-enhanced CT volumes. For the 1178 lymph nodes with a short-axis diameter $\geq10$ mm, our best performing approach reached a patient-wise recall of 92%, a false positive per patient ratio of 5, and a segmentation overlap of 80.5%. The method performs similarly well across all stations. Fusing a slab-wise and a full volume approach within an ensemble scheme generated the best performances. The anatomical priors guiding strategy is promising, yet a larger set than four organs appears needed to generate an optimal benefit. A larger dataset is also mandatory, given the wide range of expressions a lymph node can exhibit (i.e., shape, location, and attenuation), and contrast uptake variations.
翻訳日:2021-02-15 13:12:25 公開日:2021-02-11
# kヘアスタイル:仮想毛髪編集と髪型分類のための大規模韓国髪型データセット

K-Hairstyle: A Large-scale Korean hairstyle dataset for virtual hair editing and hairstyle classification ( http://arxiv.org/abs/2102.06288v1 )

ライセンス: Link先を確認
Taewoo Kim, Chaeyeon Chung, Sunghyun Park, Gyojung Gu, Keonmin Nam, Wonzo Choe, Jaesung Lee, Jaegul Choo(参考訳) 毛髪と美容産業は急速に成長している産業の1つである。 これは、顧客のニーズを満たすために、仮想的な髪染めやヘアスタイルの翻訳といった様々なアプリケーションの開発につながった。 これらのアプリケーションにはいくつかのパブリックヘアデータセットがありますが、解像度の低い画像の数が少ないため、高品質のヘア編集のパフォーマンスが制限されます。 そこで,高精細画像を用いた大規模韓国髪型データセットk-hairstyle 256,679について紹介する。 また、K髪型には、韓国のヘアスタイリストやヘアセグメンテーションマスクによって注釈付けされた様々なヘア属性が含まれている。 我々は,髪型翻訳,髪型分類,髪型検索などのいくつかの応用を利用して,データセットの有効性を検証する。 さらに、近々Kヘアスタイルをリリースします。

The hair and beauty industry is one of the fastest growing industries. This led to the development of various applications, such as virtual hair dyeing or hairstyle translations, to satisfy the need of the customers. Although there are several public hair datasets available for these applications, they consist of limited number of images with low resolution, which restrict their performance on high-quality hair editing. Therefore, we introduce a novel large-scale Korean hairstyle dataset, K-hairstyle, 256,679 with high-resolution images. In addition, K-hairstyle contains various hair attributes annotated by Korean expert hair stylists and hair segmentation masks. We validate the effectiveness of our dataset by leveraging several applications, such as hairstyle translation, and hair classification and hair retrieval. Furthermore, we will release K-hairstyle soon.
翻訳日:2021-02-15 13:10:05 公開日:2021-02-11
# セマンティクスを活用した学習深度:暗黙的および暗黙的セマンティックガイダンスによる自己監督単眼深度推定

Learning Depth via Leveraging Semantics: Self-supervised Monocular Depth Estimation with Both Implicit and Explicit Semantic Guidance ( http://arxiv.org/abs/2102.06685v1 )

ライセンス: Link先を確認
Rui Li, Xiantuo He, Danna Xue, Shaolin Su, Qing Mao, Yu Zhu, Jinqiu Sun, Yanning Zhang(参考訳) 自己教師付き深度推定は、ラベルなし画像列からの深度学習において大きな成功を収めた。 画像深度と画素深度とのマッピングは、現在の方法ではよく研究されているが、画像、深度、シーンセマンティクスの相関は考慮されていない。 これはネットワークがシーンの実際の形状をよりよく理解することを妨げる、なぜならコンテキストの手がかりは、シーンの奥行きの潜在表現だけでなく、深度マップに対するストレートな制約にも寄与するからである。 本論文では, 暗黙的, 明示的な意味的ガイダンスを提案することにより, 精度の高い自己監督深度推定を行う。 シーン認識深度推定のための深度特徴と暗黙的な意味的特徴を効果的に整合するセマンティック・アウェア・空間特徴アライメント(SSFA)スキームを提案する。 また,推定深度マップを実シーンの文脈特性と整合性に明示的に制約する意味誘導型ランキング損失を提案する。 セマンティックラベルノイズと予測の不確実性の両方が信頼性の高い深度監視をもたらすと考えられる。 その結果,本手法は複雑なシーンや多種多様なセマンティックなカテゴリで一貫した高品質な深度マップを作成でき,最先端の手法よりも顕著に優れていることがわかった。

Self-supervised depth estimation has made a great success in learning depth from unlabeled image sequences. While the mappings between image and pixel-wise depth are well-studied in current methods, the correlation between image, depth and scene semantics, however, is less considered. This hinders the network to better understand the real geometry of the scene, since the contextual clues, contribute not only the latent representations of scene depth, but also the straight constraints for depth map. In this paper, we leverage the two benefits by proposing the implicit and explicit semantic guidance for accurate self-supervised depth estimation. We propose a Semantic-aware Spatial Feature Alignment (SSFA) scheme to effectively align implicit semantic features with depth features for scene-aware depth estimation. We also propose a semantic-guided ranking loss to explicitly constrain the estimated depth maps to be consistent with real scene contextual properties. Both semantic label noise and prediction uncertainty is considered to yield reliable depth supervisions. Extensive experimental results show that our method produces high quality depth maps which are consistently superior either on complex scenes or diverse semantic categories, and outperforms the state-of-the-art methods by a significant margin.
翻訳日:2021-02-15 13:08:38 公開日:2021-02-11
# 因果知識を用いたドメイン適応のための治療効果モデルの選択

Selecting Treatment Effects Models for Domain Adaptation Using Causal Knowledge ( http://arxiv.org/abs/2102.06271v1 )

ライセンス: Link先を確認
Trent Kyono, Ioana Bica, Zhaozhi Qian, Mihaela van der Schaar(参考訳) 個別化処理効果 (ITE) を観測データから推定するための因果推論モデルの選択は, 反現実的な結果が観測されないため, 独特な課題である。 この問題はunsupervised domain adaptation(uda)設定においてさらに問題となり、ソースドメイン内のラベル付きサンプルのみにアクセスできるが、ラベルなしのサンプルのみが使用可能なターゲットドメインで優れたパフォーマンスを実現するモデルを選択する必要がある。 UDAモデル選択のための既存の技術は予測設定のために設計されています。 これらの手法は,入力共変量と対象領域との識別密度比を解析し,対象領域におけるモデルの予測に影響を及ぼさない。 このため、ソースドメインで同一のパフォーマンスを持つ2つのモデルは、既存のメソッドで同じリスクスコアを受け取るが、実際にはテストドメインではかなり異なるパフォーマンスを持つ。 UDA設定下でのITE法用に特別に設計された新しいモデル選択メトリックを提案するために、ドメイン間の因果構造の不変性を利用します。 特に,介入効果の予測が対象領域の既知の因果構造を満たすモデルを選択することを提案する。 実験では,いくつかの医療データセットにおけるコバリアントシフトにロバストなiteモデルを選択し,異なる地域からのcovid-19患者の換気効果を推定する。

Selecting causal inference models for estimating individualized treatment effects (ITE) from observational data presents a unique challenge since the counterfactual outcomes are never observed. The problem is challenged further in the unsupervised domain adaptation (UDA) setting where we only have access to labeled samples in the source domain, but desire selecting a model that achieves good performance on a target domain for which only unlabeled samples are available. Existing techniques for UDA model selection are designed for the predictive setting. These methods examine discriminative density ratios between the input covariates in the source and target domain and do not factor in the model's predictions in the target domain. Because of this, two models with identical performance on the source domain would receive the same risk score by existing methods, but in reality, have significantly different performance in the test domain. We leverage the invariance of causal structures across domains to propose a novel model selection metric specifically designed for ITE methods under the UDA setting. In particular, we propose selecting models whose predictions of interventions' effects satisfy known causal structures in the target domain. Experimentally, our method selects ITE models that are more robust to covariate shifts on several healthcare datasets, including estimating the effect of ventilation in COVID-19 patients from different geographic locations.
翻訳日:2021-02-15 13:07:54 公開日:2021-02-11
# mixupがキャリブレーションを改善する時期と方法

When and How Mixup Improves Calibration ( http://arxiv.org/abs/2102.06289v1 )

ライセンス: Link先を確認
Linjun Zhang, Zhun Deng, Kenji Kawaguchi, James Zou(参考訳) 多くの機械学習アプリケーションでは、モデルが予測の不確実性を正確に把握する信頼スコアを提供することが重要である。 現代の学習方法は予測精度で大きな成功を収めているが、校正された信頼度スコアの生成は依然として大きな課題である。 Mixupは、一連のトレーニング例の凸組み合わせをベースとした、人気があるが単純なデータ拡張技術であり、様々なアプリケーションにおける信頼性校正を大幅に改善することが実証されている。 しかし、いつどのようにMixupがキャリブレーションを助けるかはまだ神秘的です。 本論文では,Mixupが分類と回帰に関する2つの自然データモデルを調べることにより,<textit{high-dimensional} 設定のキャリブレーションを改善することを理論的に証明する。 興味深いことに、Mixupのキャリブレーションの利点はモデルキャパシティの増加とともに増加する。 私たちは、共通アーキテクチャとデータセットの実験で理論を支持します。 さらに,半教師付き学習におけるmixupのキャリブレーション改善効果について検討した。 ラベルのないデータを組み込むことで、モデルのキャリブレーションが低下することがあるが、Mixupトレーニングを追加することでこの問題が軽減され、キャリブレーションが向上する。 私たちの分析は、Mixupとキャリブレーションを理解するための新しい洞察とフレームワークを提供します。

In many machine learning applications, it is important for the model to provide confidence scores that accurately captures its prediction uncertainty. Although modern learning methods have achieved great success in predictive accuracy, generating calibrated confidence scores remains a major challenge. Mixup, a popular yet simple data augmentation technique based on taking convex combinations of pairs of training examples, has been empirically found to significantly improve confidence calibration across diverse applications. However, when and how Mixup helps calibration is still mysterious. In this paper, we theoretically prove that Mixup improves calibration in \textit{high-dimensional} settings by investigating two natural data models on classification and regression. Interestingly, the calibration benefit of Mixup increases as the model capacity increases. We support our theories with experiments on common architectures and data sets. In addition, we study how Mixup improves calibration in semi-supervised learning. While incorporating unlabeled data can sometimes make the model less calibrated, adding Mixup training mitigates this issue and provably improves calibration. Our analysis provides new insights and a framework to understand Mixup and calibration.
翻訳日:2021-02-15 13:07:33 公開日:2021-02-11
# エンドツーエンド音声理解のための音声言語事前学習

Speech-language Pre-training for End-to-end Spoken Language Understanding ( http://arxiv.org/abs/2102.06283v1 )

ライセンス: Link先を確認
Yao Qian, Ximo Bian, Yu Shi, Naoyuki Kanda, Leo Shen, Zhen Xiao and Michael Zeng(参考訳) エンドツーエンド(E2E)音声言語理解(SLU)は、自然言語理解(NLU)モジュールで自動音声認識(ASR)をカスケードすることなく、音声信号から直接意味を推測することができる。 しかし、ペア音声記録とそれに対応する意味論は、実運用環境でE2E SLUモデルをトレーニングするのに必ずしも十分なものではない。 本稿では,最適化されたe2e asrエンコーダ (speech) と事前学習された言語モデルエンコーダ (language) をトランスフォーマデコーダに統合する。 条件付きマスキング言語モデル(mlm)の目的を用いて、対象領域から限定されたラベル付きデータに対してslp(unified speech-language pre-trained model)を継続的に強化し、推論において所定の入力音声に対する意図、スロットタイプ、スロット値のシーケンスを効果的に生成することができる。 2つの公開コーパスによる実験結果から,E2E SLUへのアプローチは従来のカスケード法よりも優れていることが示された。 また、E2E SLUに対する現在の最先端のアプローチよりもはるかに少ないペアデータで優れている。

End-to-end (E2E) spoken language understanding (SLU) can infer semantics directly from speech signal without cascading an automatic speech recognizer (ASR) with a natural language understanding (NLU) module. However, paired utterance recordings and corresponding semantics may not always be available or sufficient to train an E2E SLU model in a real production environment. In this paper, we propose to unify a well-optimized E2E ASR encoder (speech) and a pre-trained language model encoder (language) into a transformer decoder. The unified speech-language pre-trained model (SLP) is continually enhanced on limited labeled data from a target domain by using a conditional masked language model (MLM) objective, and thus can effectively generate a sequence of intent, slot type, and slot value for given input speech in the inference. The experimental results on two public corpora show that our approach to E2E SLU is superior to the conventional cascaded method. It also outperforms the present state-of-the-art approaches to E2E SLU with much less paired data.
翻訳日:2021-02-15 13:04:24 公開日:2021-02-11
# 不対画像調和のためのセグメンテーション再正規化深部特徴変調

Segmentation-Renorma lized Deep Feature Modulation for Unpaired Image Harmonization ( http://arxiv.org/abs/2102.06315v1 )

ライセンス: Link先を確認
Mengwei Ren, Neel Dey, James Fishbaugh, Guido Gerig(参考訳) 現在、ディープネットワークは大規模マルチセンターイメージング研究においてユビキタスである。 しかし、サイト全体にわたる画像の直接集約は、矛盾するコントラスト、解像度、ノイズによる下流統計および深層学習に基づく画像解析には反対である。 この目的のために、ペアデータがない場合には、ソースとターゲットドメインの間のイメージセットを調和させるために、サイクル一貫性のある生成共役ネットワークのバリエーションが使用されている。 重要なことは、これらの手法は、不安定性、コントラストインバージョン、難治性病理の操作、および実際の医用画像における信頼性を制限したステガノグラフィーマッピングの傾向にある。 本研究では,撮像部位間で形態的形状が整合していることを前提として,スキャン間の異種性を低減しながら解剖学的レイアウトを維持するセグメンテーション正規化画像翻訳フレームワークを提案する。 生成ネットワーク内の正規化層で使用されるアフィン変換を学習可能なスケールとシフトパラメータに置き換え,共学習した解剖学的セグメンテーションを条件として各レベルの特徴を変調する。 我々は, 病変のないデータセットを用いて, 画像モダリティ(T1w MRI, FLAIR MRI, OCT)の最近のベースラインに対する方法論を評価した。 Segmentation-renorma lization for Translation GANsは、受信距離によって定量化された優れた画像調和を実現し、ポストホックセグメンテーション精度による下流ユーティリティの改善と、翻訳の摂動と自己反逆攻撃に対する堅牢性の向上を示します。

Deep networks are now ubiquitous in large-scale multi-center imaging studies. However, the direct aggregation of images across sites is contraindicated for downstream statistical and deep learning-based image analysis due to inconsistent contrast, resolution, and noise. To this end, in the absence of paired data, variations of Cycle-consistent Generative Adversarial Networks have been used to harmonize image sets between a source and target domain. Importantly, these methods are prone to instability, contrast inversion, intractable manipulation of pathology, and steganographic mappings which limit their reliable adoption in real-world medical imaging. In this work, based on an underlying assumption that morphological shape is consistent across imaging sites, we propose a segmentation-renorma lized image translation framework to reduce inter-scanner heterogeneity while preserving anatomical layout. We replace the affine transformations used in the normalization layers within generative networks with trainable scale and shift parameters conditioned on jointly learned anatomical segmentation embeddings to modulate features at every level of translation. We evaluate our methodologies against recent baselines across several imaging modalities (T1w MRI, FLAIR MRI, and OCT) on datasets with and without lesions. Segmentation-renorma lization for translation GANs yields superior image harmonization as quantified by Inception distances, demonstrates improved downstream utility via post-hoc segmentation accuracy, and improved robustness to translation perturbation and self-adversarial attacks.
翻訳日:2021-02-15 13:02:42 公開日:2021-02-11
# $\mathcal{L}_2$-polynomial Regression とフーリエに基づくアルゴリズムを用いたAgnostic PAC学習について

On Agnostic PAC Learning using $\mathcal{L}_2$-polynomial Regression and Fourier-based Algorithms ( http://arxiv.org/abs/2102.06277v1 )

ライセンス: Link先を確認
Mohsen Heidari and Wojciech Szpankowski(参考訳) 構造的性質を持つPAC学習問題を解析するためのプロキシとしてヒルベルト空間を用いたフレームワークを開発する。 共同分布 $D$ の下で、真のラベルと予測値の関係を組み込んだヒルベルト空間を考える。 0-1 の損失を持つ無依存pac学習はヒルベルト空間領域の最適化と同値である。 本モデルでは,$\mathcal{l}_2$多項式回帰やlinialの低次アルゴリズムなどの最小二乗法に基づく手法を用いてpac学習問題を再検討する。 半空間や多項式近似クラス(すなわち、定次多項式で近似された関数)などのいくつかの仮説クラスに関する学習について研究する。 そのような手法が(いくつかの分布仮定の下で)クラス最適誤差である$opt$と最大2opt$の一般化誤差を得ることを示す。 したがって、$opt\leq 0.2$ のとき、最も厳しい一般化誤差を示す。

We develop a framework using Hilbert spaces as a proxy to analyze PAC learning problems with structural properties. We consider a joint Hilbert space incorporating the relation between the true label and the predictor under a joint distribution $D$. We demonstrate that agnostic PAC learning with 0-1 loss is equivalent to an optimization in the Hilbert space domain. With our model, we revisit the PAC learning problem using methods based on least-squares such as $\mathcal{L}_2$ polynomial regression and Linial's low-degree algorithm. We study learning with respect to several hypothesis classes such as half-spaces and polynomial-approxima ted classes (i.e., functions approximated by a fixed-degree polynomial). We prove that (under some distributional assumptions) such methods obtain generalization error up to $2opt$ with $opt$ being the optimal error of the class. Hence, we show the tightest bound on generalization error when $opt\leq 0.2$.
翻訳日:2021-02-15 13:00:40 公開日:2021-02-11
# マルチビューによる音声・視覚話者照合

A Multi-View Approach To Audio-Visual Speaker Verification ( http://arxiv.org/abs/2102.06291v1 )

ライセンス: Link先を確認
Leda Sar{\i}, Kritika Singh, Jiatong Zhou, Lorenzo Torresani, Nayan Singhal, Yatharth Saraf(参考訳) 話者検証は従来は音声のみのタスクであったが、いくつかの実用的な応用は音声と視覚の両方の入力ストリームを提供する。 このような場合、視覚ストリームは相補的な情報を提供し、しばしば音声の音響と連動して、検証性能を向上させることができる。 本研究では, 標準核融合技術を用いて音声ビジュアル(AV)埋め込みを学習し, 音声ビジュアル(AV)による音声検証手法を検討し, テスト時にクロスモーダル検証を処理する新しい手法を提案する。 具体的には、VoxCeleb1データセットにおいて、統一および連結に基づくAV融合を調査し、最低のAV等誤差率(EER)0.7%を最良システムを用いて報告します。 これらの手法ではクロスモーダル検証ができないため,共有分類器を用いて音声と映像を同一空間にマップするマルチビューモデルを導入する。 この新しいアプローチは、クロスモーダル検証の困難なテスト条件において、voxceleb1のeerを28%達成する。

Although speaker verification has conventionally been an audio-only task, some practical applications provide both audio and visual streams of input. In these cases, the visual stream provides complementary information and can often be leveraged in conjunction with the acoustics of speech to improve verification performance. In this study, we explore audio-visual approaches to speaker verification, starting with standard fusion techniques to learn joint audio-visual (AV) embeddings, and then propose a novel approach to handle cross-modal verification at test time. Specifically, we investigate unimodal and concatenation based AV fusion and report the lowest AV equal error rate (EER) of 0.7% on the VoxCeleb1 dataset using our best system. As these methods lack the ability to do cross-modal verification, we introduce a multi-view model which uses a shared classifier to map audio and video into the same space. This new approach achieves 28% EER on VoxCeleb1 in the challenging testing condition of cross-modal verification.
翻訳日:2021-02-15 12:57:28 公開日:2021-02-11
# (参考訳) 表象事項:順序決定のためのオフライン事前訓練 [全文訳有]

Representation Matters: Offline Pretraining for Sequential Decision Making ( http://arxiv.org/abs/2102.05815v1 )

ライセンス: CC BY 4.0
Mengjiao Yang, Ofir Nachum(参考訳) より大きなオフラインデータセット上での教師あり学習手法の成功は、同じパラダイムをrlアルゴリズムに変換できるかどうかを調べるために強化学習(rl)分野への関心を喚起した。 オフラインRLと呼ばれるこの研究領域は、オフラインポリシーの最適化に重点を置いており、オフラインデータのみからリターン最大化ポリシーを見つけることを目指しています。 本稿では,オフラインデータを逐次意思決定に組み込むアプローチについて検討する。 私たちは、オフラインデータセットに適用される監視されていない目的が、ダウンストリームタスクのパフォーマンスを高める状態表現を学ぶことができるか、ダウンストリームタスクがオンラインRLであるかどうか、専門家のデモンストレーションからの模倣学習、または同じオフラインデータセットに基づくオフラインポリシーの最適化? 標準オフラインRLデータセットを用いたさまざまな実験を通じて、教師なしの学習目標で事前トレーニングを使用することで、ポリシー学習アルゴリズムのパフォーマンスが劇的に改善されることが判明しました。 広範囲にわたるアブレーションは、例えば報酬予測、連続的または離散的な表現、事前訓練または微調整など、これらの教師なしの目的のどのコンポーネントが最も重要でどの設定が重要かを洞察する。

The recent success of supervised learning methods on ever larger offline datasets has spurred interest in the reinforcement learning (RL) field to investigate whether the same paradigms can be translated to RL algorithms. This research area, known as offline RL, has largely focused on offline policy optimization, aiming to find a return-maximizing policy exclusively from offline data. In this paper, we consider a slightly different approach to incorporating offline data into sequential decision-making. We aim to answer the question, what unsupervised objectives applied to offline datasets are able to learn state representations which elevate performance on downstream tasks, whether those downstream tasks be online RL, imitation learning from expert demonstrations, or even offline policy optimization based on the same offline dataset? Through a variety of experiments utilizing standard offline RL datasets, we find that the use of pretraining with unsupervised learning objectives can dramatically improve the performance of policy learning algorithms that otherwise yield mediocre performance on their own. Extensive ablations further provide insights into what components of these unsupervised objectives -- e.g., reward prediction, continuous or discrete representations, pretraining or finetuning -- are most important and in which settings.
翻訳日:2021-02-13 03:54:06 公開日:2021-02-11
# (参考訳) 再現性レポート: La-MAML: 継続的学習のためのルックアヘッドメタラーニング [全文訳有]

Reproducibility Report: La-MAML: Look-ahead Meta Learning for Continual Learning ( http://arxiv.org/abs/2102.05824v1 )

ライセンス: CC BY 4.0
Joel Joseph and Alex Gu(参考訳) 継続的学習(CL)問題には、限られた計算の下でタスクのシーケンスでうまく機能することが含まれる。 ドメインの現在のアルゴリズムは、遅い、オフライン、またはハイパーパラメータに敏感です。 最適化ベースのメタ学習アルゴリズムであるLa-MAMLは、他のリプレイベース、事前ベース、メタ学習ベースのアプローチよりも優れていると主張している。 MERの論文[1]によると、連続学習領域のパフォーマンスを測定する指標は、保持精度(RA)と後方伝達干渉(BTI)である。 La-MAMLは、ドメイン内のSOTAと比較して、これらの値のパフォーマンスが向上すると主張している。 これが本報告書の主主張であり、本報告書で検証する。

The Continual Learning (CL) problem involves performing well on a sequence of tasks under limited compute. Current algorithms in the domain are either slow, offline or sensitive to hyper-parameters. La-MAML, an optimization-based meta-learning algorithm claims to be better than other replay-based, prior-based and meta-learning based approaches. According to the MER paper [1], metrics to measure performance in the continual learning arena are Retained Accuracy (RA) and Backward Transfer-Interferenc e (BTI). La-MAML claims to perform better in these values when compared to the SOTA in the domain. This is the main claim of the paper, which we shall be verifying in this report.
翻訳日:2021-02-13 03:33:18 公開日:2021-02-11
# (参考訳) ニューラルネットワークにおけるユーティリティ、フェアネス、ディファレンシャルプライバシのトレードオフの調査 [全文訳有]

Investigating Trade-offs in Utility, Fairness and Differential Privacy in Neural Networks ( http://arxiv.org/abs/2102.05975v1 )

ライセンス: CC BY 4.0
Marlotte Pannekoek, Giacomo Spigler(参考訳) 機械学習アルゴリズムの倫理的かつ合法的な使用を可能にするためには、データを使用中の人々のプライバシーを公平に保護する必要がある。 しかし、プライバシーと公正性の制約を実装するには、ユーティリティのコストがかかる可能性がある(Jayaraman & Evans, 2019; Gong et al., 2020)。 本稿では,Simple (S-NN), a Fair (F-NN), a Differentially Private (DP-NN), a Differentially Private and Fair Neural Network (DPF-NN) を比較し,プライバシ(epsilon, delta), Fairness (risk difference), and utility (curacy)のパフォーマンスの違いを評価することにより,ニューラルネットワークにおけるプライバシ-ユーティリティ-フェア性トレードオフを検討する。 最高のプライバシー保証(epsilon = 0.1, delta = 0.00001)を持つシナリオでは、DPF-NNはS-NNおよびDP-NNよりもわずかに低い精度で他のすべてのニューラルネットワークよりも優れたリスク差を達成することが判明しました。 このモデルは、厳密(0.05)と寛容(0.1)のしきい値よりも低いリスク差を達成したため、公平とみなされる。 しかし、提案されたモデルの精度は、Xu、Yuan、Wu(2019)の以前の作業で改善されたが、リスク差は悪化していた。

To enable an ethical and legal use of machine learning algorithms, they must both be fair and protect the privacy of those whose data are being used. However, implementing privacy and fairness constraints might come at the cost of utility (Jayaraman & Evans, 2019; Gong et al., 2020). This paper investigates the privacy-utility-fair ness trade-off in neural networks by comparing a Simple (S-NN), a Fair (F-NN), a Differentially Private (DP-NN), and a Differentially Private and Fair Neural Network (DPF-NN) to evaluate differences in performance on metrics for privacy (epsilon, delta), fairness (risk difference), and utility (accuracy). In the scenario with the highest considered privacy guarantees (epsilon = 0.1, delta = 0.00001), the DPF-NN was found to achieve better risk difference than all the other neural networks with only a marginally lower accuracy than the S-NN and DP-NN. This model is considered fair as it achieved a risk difference below the strict (0.05) and lenient (0.1) thresholds. However, while the accuracy of the proposed model improved on previous work from Xu, Yuan and Wu (2019), the risk difference was found to be worse.
翻訳日:2021-02-13 03:28:48 公開日:2021-02-11
# (参考訳) ネットワークPruningによる多変量時系列の機能選択 [全文訳有]

Feature Selection for Multivariate Time Series via Network Pruning ( http://arxiv.org/abs/2102.06024v1 )

ライセンス: CC BY 4.0
Kang Gu, Soroush Vosoughi, Temiloluwa Prioleau(参考訳) 近年、様々な領域でMTS(多変量時系列)データが増加しており、通常はウェアラブルデバイスのような多くのセンサーが生成している。 これにより、MTSデータに関する新しい学習方法が開発され、ディープラーニングモデルが最新の進歩を支配しています。 以前の文献は主に、MSS内の時間的依存関係をモデル化するための新しいネットワークアーキテクチャの設計に重点を置いてきた。 しかし、あまり研究されていない課題は、MTSデータの高次元性に関連している。 本稿では,MTSデータの特徴選択のためのエンドツーエンドソリューションとして,ニューラル特徴セレクタ(NFS)という新しいニューラルネットワークコンポーネントを提案する。 具体的には、NFSは分解された畳み込み設計に基づいており、2つのモジュールを含む。まず、MTS内の各フィーチャーストリームは一時的なCNNによって独立して処理される。 提案するnfsモデルを4つの実世界のmtsデータセット上で評価し,最先端の手法と同等の結果が得られることを確認した。 また,最近のオートエンコーダ方式と比較して,NFSによる特徴選択の堅牢性と有効性を強調した。

In recent years, there has been an ever increasing amount of multivariate time series (MTS) data in various domains, typically generated by a large family of sensors such as wearable devices. This has led to the development of novel learning methods on MTS data, with deep learning models dominating the most recent advancements. Prior literature has primarily focused on designing new network architectures for modeling temporal dependencies within MTS. However, a less studied challenge is associated with high dimensionality of MTS data. In this paper, we propose a novel neural component, namely Neural Feature Se-lector (NFS), as an end-2-end solution for feature selection in MTS data. Specifically, NFS is based on decomposed convolution design and includes two modules: firstly each feature stream within MTS is processed by a temporal CNN independently; then an aggregating CNN combines the processed streams to produce input for other downstream networks. We evaluated the proposed NFS model on four real-world MTS datasets and found that it achieves comparable results with state-of-the-art methods while providing the benefit of feature selection. Our paper also highlights the robustness and effectiveness of feature selection with NFS compared to using recent autoencoder-based methods.
翻訳日:2021-02-13 02:57:20 公開日:2021-02-11
# (参考訳) メモリ効率の良い手話翻訳のための変分ベイズ系列列列ネットワーク [全文訳有]

Variational Bayesian Sequence-to-Sequence Networks for Memory-Efficient Sign Language Translation ( http://arxiv.org/abs/2102.06143v1 )

ライセンス: CC BY 4.0
Harris Partaourides, Andreas Voskou, Dimitrios Kosmopoulos, Sotirios Chatzis, and Dimitris N. Metaxas(参考訳) 記憶効率のよい連続手話翻訳は、聴覚障害者にリアルタイム適用可能な支援技術を開発する上で重要な課題である。 本稿では,非パラメトリック統計学からの適切な議論から再帰層の出力を導出する,再帰的な深層ネットワークを設計するパラダイムを提案する。 a) データ駆動メモリ圧縮のための完全なガウス後方分布と、b)ゲートリカレント単位非ゲート重みに適用される正則化前の非パラメトリックインドビュッフェプロセスからなる、新しい変分ベイズ列対シーケンスネットワークアーキテクチャを提案する。 我々は,Stick-Breaking Recurrent Network のアプローチをダブし,モデリング性能を低下させることなく,相当量の重み圧縮を実現できることを示す。

Memory-efficient continuous Sign Language Translation is a significant challenge for the development of assisted technologies with real-time applicability for the deaf. In this work, we introduce a paradigm of designing recurrent deep networks whereby the output of the recurrent layer is derived from appropriate arguments from nonparametric statistics. A novel variational Bayesian sequence-to-sequence network architecture is proposed that consists of a) a full Gaussian posterior distribution for data-driven memory compression and b) a nonparametric Indian Buffet Process prior for regularization applied on the Gated Recurrent Unit non-gate weights. We dub our approach Stick-Breaking Recurrent network and show that it can achieve a substantial weight compression without diminishing modeling performance.
翻訳日:2021-02-13 02:48:09 公開日:2021-02-11
# (参考訳) ABOShips -- 高精度なアノテーションを用いた沿岸・沖合船舶検知データセット [全文訳有]

ABOShips -- An Inshore and Offshore Maritime Vessel Detection Dataset with Precise Annotations ( http://arxiv.org/abs/2102.05869v1 )

ライセンス: CC BY 4.0
Bogdan Iancu, Valentin Soloviev, Luca Zelioli, Johan Lilius(参考訳) ドメイン固有のデータセットの可用性は、オブジェクト検出において重要な問題である。 沿岸および沖合のデータセットの海洋容器検出は例外ではなく、このニーズに対処する研究は限られている。 そのため, 背景変動, 大気条件, 照明, 視認率, 閉塞率, スケール変動など, 異なる要因を考慮に入れた海洋船舶画像のデータセットを収集した。 船体インスタンス (9種類の船体を含む) , シーマーク, 各種フローターを正確にアノテートし, 第1ラウンドのラベル付けを行い, CSRT [1]トラッカーを用いて不整合の追跡を行い, 不整合とレラベルの不整合性について検討した。 さらに,4つの代表的な物体検出アルゴリズム(Faster R-CNN [2], R-FCN [3], SSD [4], EfficientDet [5])の性能評価を行った。 アルゴリズムは以前、Microsoft COCOデータセットで訓練されていた。 その精度を特徴抽出器とオブジェクトサイズで比較する。 実験の結果,inception-resnet v2を用いたr-cnnの高速化は他のアルゴリズムよりも優れていることがわかった。

Availability of domain-specific datasets is an essential problem in object detection. Maritime vessel detection of inshore and offshore datasets is no exception, there is a limited number of studies addressing this need. For that reason, we collected a dataset of images of maritime vessels taking into account different factors: background variation, atmospheric conditions, illumination, visible proportion, occlusion and scale variation. Vessel instances (including 9 types of vessels), seamarks and miscellaneous floaters were precisely annotated: we employed a first round of labelling and subsequently, we used the CSRT [1] tracker to trace inconsistencies and relabel inadequate label instances. Moreover, we evaluated the the out-of-the-box performance of four prevalent object detection algorithms (Faster R-CNN [2], R-FCN [3], SSD [4] and EfficientDet [5]). The algorithms were previously trained on the Microsoft COCO dataset. We compare their accuracy based on feature extractor and object size. Our experiments show that Faster R-CNN with Inception-Resnet v2 outperforms the other algorithms, except in the large object category where EfficientDet surpasses the latter.
翻訳日:2021-02-13 02:37:53 公開日:2021-02-11
# (参考訳) 考古学データ科学における意味の障壁 [全文訳有]

The Barrier of meaning in archaeological data science ( http://arxiv.org/abs/2102.06022v1 )

ライセンス: CC BY 4.0
Luca Casini, Marco Roccetti, Giovanni Delnevo, Nicolo' Marchetti, Valentina Orru'(参考訳) 考古学者は、他の科学者と同様に、さまざまなソースからリモートで感知された画像など、ますます複雑(かつ大規模な)データの作成、収集、保管、転送を可能にするコンピューティングパワーとデバイスの急増によって、彼らの分野でデータ流出を経験しています。 本論文では,この情報利用の増大が,新たなコンピュータ化技術や人工知能による考古学的問題への理解を深める必要があるのか,予備的な疑問を提示する。 簡単に言うと、深層学習(deep learning, dl)は、人間が学習する方法に触発された機械学習設計の一種として広く普及し、人々がインテリジェントと表現する可能性のある自動アクションの実行に利用されているという事実であるが、ここでは、この手順に従って訓練された機械が、考古学的データ、概念、意味を人間と同じように外挿できるかどうか、という議論を予測したい。 技術的な結果を得る前にも、我々は非常に基本的なコンセプトでリフレクションを開始します:重要な考古学的な場所を持つ衛星画像のコレクションは、DLマシンに新しい考古学的な場所だけでなく、関心のある他の潜在的な場所を発見するように指示するのに十分有益ですか? さらに、人々が手動でルールでプログラムすることで学習するインテリジェントなマシンで、同様の結果に到達できたらどうでしょう? 最後に、もし意味の障壁があれば、機械によって人間のような理解が達成できる範囲を指すならば、考古学データ科学におけるその障壁はどこにあるべきか?

Archaeologists, like other scientists, are experiencing a data-flood in their discipline, fueled by a surge in computing power and devices that enable the creation, collection, storage and transfer of an increasingly complex (and large) amount of data, such as remotely sensed imagery from a multitude of sources. In this paper, we pose the preliminary question if this increasing availability of information actually needs new computerized techniques, and Artificial Intelligence methods, to make new and deeper understanding into archaeological problems. Simply said, while it is a fact that Deep Learning (DL) has become prevalent as a type of machine learning design inspired by the way humans learn, and utilized to perform automatic actions people might describe as intelligent, we want to anticipate, here, a discussion around the subject whether machines, trained following this procedure, can extrapolate, from archaeological data, concepts and meaning in the same way that humans would do. Even prior to getting to technical results, we will start our reflection with a very basic concept: Is a collection of satellite images with notable archaeological sites informative enough to instruct a DL machine to discover new archaeological sites, as well as other potential locations of interest? Further, what if similar results could be reached with less intelligent machines that learn by having people manually program them with rules? Finally: If with barrier of meaning we refer to the extent to which human-like understanding can be achieved by a machine, where should be posed that barrier in the archaeological data science?
翻訳日:2021-02-13 02:24:14 公開日:2021-02-11
# (参考訳) 確率ラベルを用いた画像ベース診断分類器のサンプル学習 [全文訳有]

Sample Efficient Learning of Image-Based Diagnostic Classifiers Using Probabilistic Labels ( http://arxiv.org/abs/2102.06164v1 )

ライセンス: CC BY 4.0
Roberto Vega, Pouneh Gorji, Zichen Zhang, Xuebin Qin, Abhilash Rakkunedeth Hareendranathan, Jeevesh Kapur, Jacob L. Jaremko, Russell Greiner(参考訳) ディープラーニングのアプローチは、しばしば優れた一般化を達成するために巨大なデータセットを必要とする。 これは、画像ベースの医療診断などのタスクでの使用を複雑にします。小さなトレーニングデータセットは通常、適切なデータ表現を学ぶには不十分です。 このような敏感なタスクでは、予測に自信を提供することも重要です。 本稿では,確率ラベルの学習と利用により,比較的小さなデータセットから高精度で校正されたディープネットワークを学習する手法を提案する。 従来のアプローチと比較すると, ヒップ異形成, 脂肪肝, 緑内障の3つの分類課題において, これらのラベルで訓練したモデルの精度は最大22%向上した。 確率ラベルで訓練されたモデルの出力は校正され、その予測を適切な確率として解釈することができる。 このアプローチは、トレーニングインスタンスが少なく、専門家の知識を確率としてエンコードできる他のタスクにも適用できると予想しています。

Deep learning approaches often require huge datasets to achieve good generalization. This complicates its use in tasks like image-based medical diagnosis, where the small training datasets are usually insufficient to learn appropriate data representations. For such sensitive tasks it is also important to provide the confidence in the predictions. Here, we propose a way to learn and use probabilistic labels to train accurate and calibrated deep networks from relatively small datasets. We observe gains of up to 22% in the accuracy of models trained with these labels, as compared with traditional approaches, in three classification tasks: diagnosis of hip dysplasia, fatty liver, and glaucoma. The outputs of models trained with probabilistic labels are calibrated, allowing the interpretation of its predictions as proper probabilities. We anticipate this approach will apply to other tasks where few training instances are available and expert knowledge can be encoded as probabilities.
翻訳日:2021-02-13 02:14:43 公開日:2021-02-11
# (参考訳) クロスドメインマルチタスク学習を用いた研究論文の逐次文分類

Sequential Sentence Classification in Research Papers using Cross-Domain Multi-Task Learning ( http://arxiv.org/abs/2102.06008v1 )

ライセンス: CC BY 4.0
Arthur Brack and Anett Hoppe and Pascal Buscherm\"ohle and Ralph Ewerth(参考訳) 逐次文分類のタスクは、研究論文のセマンティック構造を可能にする。 これにより学術検索エンジンが強化され、研究者が研究文献の検索と探索をより効果的に行えるようになる。 しかし、以前の研究では、このタスクのために異なる科学領域のデータセットで学習を転送する可能性をまだ検討していません。 本稿では,複数の領域の学習データを活用し,各領域にまたがる科学文章の逐次文分類を改善するための,一様ディープラーニングアーキテクチャとマルチタスク学習を提案する。 Our contributions can be summarised as follows: (1) We tailor two common transfer learning methods, sequential transfer learning and multi-task learning, and evaluate their performance for sequential sentence classification; (2) The presented multi-task model is able to recognise semantically related classes from different datasets and thus supports manual comparison and assessment of different annotation schemes; (3) The unified approach is capable of handling datasets that contain either only abstracts or full papers without further feature engineering. 提案するマルチタスク学習アーキテクチャを用いて,異なる科学的領域のデータセット上で学習されるモデルが相互に利益をもたらすことを実証する。 私たちのアプローチは、3つのベンチマークデータセットの最先端を上回ります。

The task of sequential sentence classification enables the semantic structuring of research papers. This can enhance academic search engines to support researchers in finding and exploring research literature more effectively. However, previous work has not investigated the potential of transfer learning with datasets from different scientific domains for this task yet. We propose a uniform deep learning architecture and multi-task learning to improve sequential sentence classification in scientific texts across domains by exploiting training data from multiple domains. Our contributions can be summarised as follows: (1) We tailor two common transfer learning methods, sequential transfer learning and multi-task learning, and evaluate their performance for sequential sentence classification; (2) The presented multi-task model is able to recognise semantically related classes from different datasets and thus supports manual comparison and assessment of different annotation schemes; (3) The unified approach is capable of handling datasets that contain either only abstracts or full papers without further feature engineering. We demonstrate that models, which are trained on datasets from different scientific domains, benefit from one another when using the proposed multi-task learning architecture. Our approach outperforms the state of the art on three benchmark datasets.
翻訳日:2021-02-13 02:01:41 公開日:2021-02-11
# (参考訳) 言語モデルを用いた理論証明のためのArtifact Co-trainingの証明 [全文訳有]

Proof Artifact Co-training for Theorem Proving with Language Models ( http://arxiv.org/abs/2102.06203v1 )

ライセンス: CC BY-SA 4.0
Jesse Michael Han, Jason Rute, Yuhuai Wu, Edward W. Ayers, Stanislas Polu(参考訳) 形式化された数学の大きなライブラリーで証明される定理の模倣学習のためのラベル付きデータはほとんどなく、そのようなライブラリーは人間の専門家による長年の集中的な努力を必要とする。 これは、大規模なトランスフォーマー言語モデルを戦術予測に適用する場合に特に困難です。なぜなら、モデルサイズに関するパフォーマンスのスケーリングは、データスカースで容易にオーバーフィットした体制で急速に破壊されるからです。 通常の戦術予測目標と並行して、カーネルレベルの証明語から豊富な自己教師ありデータを抽出する一般的な手法であるpact ({\bf p}roof {\bf a}rtifact {\bf c}o-{\bf t}raining)を提案する。 私たちはこの方法論を、これまでで最も洗練された形式化された数学をホストするインタラクティブな証明アシスタントであるLeanに適用します。 トランスフォーマー言語モデルによって駆動される神経定理証明器を用いてリーンを計測し,pact がテスト定理の保留組における定理証明成功率を 32\% から 48\% に向上させることを示した。

Labeled data for imitation learning of theorem proving in large libraries of formalized mathematics is scarce as such libraries require years of concentrated effort by human specialists to be built. This is particularly challenging when applying large Transformer language models to tactic prediction, because the scaling of performance with respect to model size is quickly disrupted in the data-scarce, easily-overfitted regime. We propose PACT ({\bf P}roof {\bf A}rtifact {\bf C}o-{\bf T}raining), a general methodology for extracting abundant self-supervised data from kernel-level proof terms for co-training alongside the usual tactic prediction objective. We apply this methodology to Lean, an interactive proof assistant which hosts some of the most sophisticated formalized mathematics to date. We instrument Lean with a neural theorem prover driven by a Transformer language model and show that PACT improves theorem proving success rate on a held-out suite of test theorems from 32\% to 48\%.
翻訳日:2021-02-13 01:41:58 公開日:2021-02-11
# (参考訳) ディープフェイク検出ジレンマ:合成メディアにおける対比ダイナミクスのマルチステークホルダ探索 [全文訳有]

The Deepfake Detection Dilemma: A Multistakeholder Exploration of Adversarial Dynamics in Synthetic Media ( http://arxiv.org/abs/2102.06109v1 )

ライセンス: CC BY-SA 4.0
Claire Leibowicz, Sean McGregor, Aviv Ovadya(参考訳) 合成メディア検出技術は、メディアを合成または非合成とラベル付けし、ジャーナリスト、ウェブプラットフォーム、および一般大衆が誤情報やその他の問題のあるコンテンツを識別するためにますます使用されています。 高度に調達された組織と非技術一般の両方がより洗練された合成メディアを生成するため、問題のあるコンテンツのパーベイヤが適応する能力は、"newterm{detection dilemma}"を誘導する。 本稿では, 産学, 技術プラットフォーム, メディアエンティティ, 市民社会の多元的コーホートが, 合成メディア検出に活発に活動し, その社会技術的意義が検出ジレンマを評価する方法について述べる。 具体的には、有害な合成メディアの拡散を緩和することに関連する幅広いグローバルAIおよびメディア整合性コミュニティから得られた検出コンテキストと敵の能力の評価を提供します。 ペルソナのコレクションは、技術的能力の文脈における誤情報の未解決と高度に調達されたスポンサーの交差点を描いている。 この研究は、検出器ジレンマをナビゲートする"最良の"アプローチはないと結論づけるが、実際には、検出プロセスの決定や方針をよりよく知らせるために、マルチステイクホルダ入力から一連の影響を導き出している。

Synthetic media detection technologies label media as either synthetic or non-synthetic and are increasingly used by journalists, web platforms, and the general public to identify misinformation and other forms of problematic content. As both well-resourced organizations and the non-technical general public generate more sophisticated synthetic media, the capacity for purveyors of problematic content to adapt induces a \newterm{detection dilemma}: as detection practices become more accessible, they become more easily circumvented. This paper describes how a multistakeholder cohort from academia, technology platforms, media entities, and civil society organizations active in synthetic media detection and its socio-technical implications evaluates the detection dilemma. Specifically, we offer an assessment of detection contexts and adversary capacities sourced from the broader, global AI and media integrity community concerned with mitigating the spread of harmful synthetic media. A collection of personas illustrates the intersection between unsophisticated and highly-resourced sponsors of misinformation in the context of their technical capacities. This work concludes that there is no "best" approach to navigating the detector dilemma, but derives a set of implications from multistakeholder input to better inform detection process decisions and policies, in practice.
翻訳日:2021-02-12 23:53:03 公開日:2021-02-11
# (参考訳) セグメンテーション,拡張,クラス再バランスを組み込んだ3D-CNNによる胸部CT画像からのCOVID-19の同定

COVID-19 identification from volumetric chest CT scans using a progressively resized 3D-CNN incorporating segmentation, augmentation, and class-rebalancing ( http://arxiv.org/abs/2102.06169v1 )

ライセンス: CC BY 4.0
Md. Kamrul Hasan, Md. Tasnim Jawad, Kazi Nasim Imtiaz Hasan, Sajal Basak Partha, Md. Masum Al Masba(参考訳) 新型コロナウイルス(COVID-19)は世界的なパンデミックの流行です。 高い感度のコンピュータ支援スクリーニングツールは、可能な限り早期に疾患の診断と予後診断に不可欠です。 また、新型コロナウイルス(COVID-19)患者の検査と臨床監督のためのトリアージにも役立つ。 しかし、このような自動ツールの設計は、多くの手作業による注釈付きデータセットがまだ公開されていないため、非侵襲的なx線画像から難しい。 本稿では,空間ボクセル情報と空間ボクセル情報の両方を考慮した3次元畳み込みニューラルネットワーク(cnn)に基づく分類手法を提案する。 提案システムは,CT画像全体からの3Dパッチをエンドツーエンドにトレーニングし,トレーニングサンプル数を拡大し,パッチサイズ決定のためのアブレーション研究を行う。 プログレッシブリサイズ、セグメンテーション、拡張、クラスリバランスを3Dネットワークに統合します。 このセグメンテーションは、ctスキャンの外肺領域を除外しながら、分類器が顕著な肺の特徴を学習できる新型コロナウイルスの診断に必須のステップである。 MosMedと呼ばれる公開データセットの広範な実験を評価し、バイナリおよびマルチクラスの胸部CT画像パーティションを持っています。 実験結果は,二進法と多クラス法でそれぞれ0.914および0.893のroc曲線下の領域を5倍のクロスバリデーションを適用し,非常に有意な結果を得た。 この方法の有望な結果は、臨床医や放射線医がCOVID-19を評価するための有利な援助ツールとしてそれを委任します。

The novel COVID-19 is a global pandemic disease overgrowing worldwide. Computer-aided screening tools with greater sensitivity is imperative for disease diagnosis and prognosis as early as possible. It also can be a helpful tool in triage for testing and clinical supervision of COVID-19 patients. However, designing such an automated tool from non-invasive radiographic images is challenging as many manually annotated datasets are not publicly available yet, which is the essential core requirement of supervised learning schemes. This article proposes a 3D Convolutional Neural Network (CNN)-based classification approach considering both the inter- and intra-slice spatial voxel information. The proposed system is trained in an end-to-end manner on the 3D patches from the whole volumetric CT images to enlarge the number of training samples, performing the ablation studies on patch size determination. We integrate progressive resizing, segmentation, augmentations, and class-rebalancing to our 3D network. The segmentation is a critical prerequisite step for COVID-19 diagnosis enabling the classifier to learn prominent lung features while excluding the outer lung regions of the CT scans. We evaluate all the extensive experiments on a publicly available dataset, named MosMed, having binary- and multi-class chest CT image partitions. Our experimental results are very encouraging, yielding areas under the ROC curve of 0.914 and 0.893 for the binary- and multi-class tasks, respectively, applying 5-fold cross-validations. Our method's promising results delegate it as a favorable aiding tool for clinical practitioners and radiologists to assess COVID-19.
翻訳日:2021-02-12 23:38:21 公開日:2021-02-11
# (参考訳) シーケンシャル・ツー・シーケンス変換器を用いたコヒーレント・多様なスローガンの生成 [全文訳有]

Generating Coherent and Diverse Slogans with Sequence-to-Sequence Transformer ( http://arxiv.org/abs/2102.05924v1 )

ライセンス: CC BY 4.0
Yiping Jin, Akshay Bhatia, Dittaya Wanvarie, Phu T. V. Le(参考訳) スローガン生成のこれまでの仕事は、実際のスローガンから抽出されたテンプレートを利用して、新しいスローガンを生成することに集中しました。 そのようなスローガンの中にはキャッチーなものもあるが、テンプレートは他社のスローガンから採掘されるため、マーケティングコミュニケーション全体における会社の焦点やスタイルと一貫性がないことが多い。 短い会社説明からスローガンを生成するシーケンス・トゥ・シークエンス・トランスフォーマーモデルを提案する。 スローガン生成用に微調整されたナイーブシーケンスツーシーケンスモデルは、トレーニングデータに現れる偽情報、特に無関係な企業名を導入しやすい。 私たちはこの問題を解決するために語彙化を使い、生成したスローガンの品質を大きなマージンで改善します。 さらに,より多様なスローガンを生成するために,単純かつ効果的なアプローチを2つ適用する。 まず、業界で条件付けられたスローガン発生器を訓練します。 推測時間の間、業界を変えることで、スローガンの異なる「フレーバー」を得ることができる。 第2に,企業記述のみを入力シーケンスとして使用する代わりに,企業のWebサイトからランダムな段落をサンプリングする。 驚くべきことに、入力シーケンスが企業記述に似ていなくても、モデルは有意義なスローガンを生成することができる。 定量的評価と質的評価の両面で,提案手法の有効性を検証する。 ROUGE-1/-2/-L F1スコアは53.13/33.30/46.49。 また、人間の評価者は生成されたスローガンを平均3.39点のスコアで1-5点に割り当て、人間の記述に近い品質の可塑性スローガン(平均3.55点)を生成できることを示す。

Previous work in slogan generation focused on generating novel slogans by utilising templates mined from real slogans. While some such slogans can be catchy, they are often not coherent with the company's focus or style across their marketing communications because the templates are mined from other companies' slogans. We propose a sequence-to-sequence transformer model to generate slogans from a brief company description. A naive sequence-to-sequence model fine-tuned for slogan generation is prone to introducing false information, especially unrelated company names appearing in the training data. We use delexicalisation to address this problem and improve the generated slogans' quality by a large margin. Furthermore, we apply two simple but effective approaches to generate more diverse slogans. Firstly, we train a slogan generator conditioned on the industry. During inference time, by changing the industry, we can obtain different "flavours" of slogans. Secondly, instead of using only the company description as the input sequence, we sample random paragraphs from the company's website. Surprisingly, the model can generate meaningful slogans, even if the input sequence does not resemble a company description. We validate the effectiveness of the proposed method with both quantitative evaluation and qualitative evaluation. Our best model achieved a ROUGE-1/-2/-L F1 score of 53.13/33.30/46.49. Besides, human evaluators assigned the generated slogans an average score of 3.39 on a scale of 1-5, indicating the system can generate plausible slogans with a quality close to human-written ones (average score 3.55).
翻訳日:2021-02-12 23:08:20 公開日:2021-02-11
# (参考訳) マルチインスタンス学習を用いたエンティティレベルの関係抽出のためのエンドツーエンドモデル [全文訳有]

An End-to-end Model for Entity-level Relation Extraction using Multi-instance Learning ( http://arxiv.org/abs/2102.05980v1 )

ライセンス: CC BY 4.0
Markus Eberts, Adrian Ulges(参考訳) 文書からのエンティティレベルの関係抽出のための共同モデルを提案する。 他のアプローチとは対照的に - ローカルなイントラセンテンス参照ペアに注目し、レファレンスレベルでアノテーションを必要とする - 私たちのモデルはエンティティレベルで動作します。 これを実現するために、コリファレンスレゾリューションを基盤として、グローバルエンティティとローカル参照情報を組み合わせたマルチレベル表現によるマルチインスタンス学習を通じて関連する信号を収集するマルチタスクアプローチが提案されている。 我々は,docredデータセット上で最先端の関係抽出結果を達成し,第1のエンティティレベルのエンドツーエンド関係抽出結果を報告する。 最後に,共有パラメータとトレーニングステップによって効率が向上するが,協調アプローチはタスク固有の学習と同等であることが示唆された。

We present a joint model for entity-level relation extraction from documents. In contrast to other approaches - which focus on local intra-sentence mention pairs and thus require annotations on mention level - our model operates on entity level. To do so, a multi-task approach is followed that builds upon coreference resolution and gathers relevant signals via multi-instance learning with multi-level representations combining global entity and local mention information. We achieve state-of-the-art relation extraction results on the DocRED dataset and report the first entity-level end-to-end relation extraction results for future reference. Finally, our experimental results suggest that a joint approach is on par with task-specific learning, though more efficient due to shared parameters and training steps.
翻訳日:2021-02-12 22:48:03 公開日:2021-02-11
# (参考訳) ビデオスタイライゼーションのためのフレーム差に基づく時間損失 [全文訳有]

Frame Difference-Based Temporal Loss for Video Stylization ( http://arxiv.org/abs/2102.05822v1 )

ライセンス: CC BY 4.0
Jianjin Xu, Zheyang Xiong, Xiaolin Hu(参考訳) ニューラルスタイル転送モデルは、通常のビデオを特定のスタイルにスタイリッシュするために使われてきた。 スタイリングされたビデオのフレーム間の時間的不整合性を確保するため、オリジナルビデオ中の画素の光学的流れを推定し、生成したピクセルを推定された光学的流れと一致させることが一般的である。 これは、モデルトレーニング中の光学フローベース(OFB)損失を最小限にすることで達成される。 しかし、特に複雑な場面では、光学的フロー推定は難しい課題である。 さらに、高い計算コストが発生します。 時間的不整合問題を解決するために,フレーム差分法(FDB)損失という,より単純な時間的損失を提案する。 様式化されたフレーム間の差と元のフレーム間の差との距離として定義される。 2つのフレームの違いは、畳み込みニューラルネットワークによって指定された画素空間と特徴空間の両方で測定される。 62名の被験者による2,600票の人的行動実験の結果,提案するfdb損失のパフォーマンスはofb損失と一致した。 2種類の典型的映像スタイライゼーションモデルを用いて,生成映像の安定性とスタイライゼーション品質を主観的に評価した。 その結果,提案するFDB損失は,ビデオスタイリゼーションにおいて一般的に使用されるOFB損失の強力な代替手段であることが示唆された。

Neural style transfer models have been used to stylize an ordinary video to specific styles. To ensure temporal inconsistency between the frames of the stylized video, a common approach is to estimate the optic flow of the pixels in the original video and make the generated pixels match the estimated optical flow. This is achieved by minimizing an optical flow-based (OFB) loss during model training. However, optical flow estimation is itself a challenging task, particularly in complex scenes. In addition, it incurs a high computational cost. We propose a much simpler temporal loss called the frame difference-based (FDB) loss to solve the temporal inconsistency problem. It is defined as the distance between the difference between the stylized frames and the difference between the original frames. The differences between the two frames are measured in both the pixel space and the feature space specified by the convolutional neural networks. A set of human behavior experiments involving 62 subjects with 25,600 votes showed that the performance of the proposed FDB loss matched that of the OFB loss. The performance was measured by subjective evaluation of stability and stylization quality of the generated videos on two typical video stylization models. The results suggest that the proposed FDB loss is a strong alternative to the commonly used OFB loss for video stylization.
翻訳日:2021-02-12 22:32:43 公開日:2021-02-11
# (参考訳) ZスコアによるCNNモデルの説明可能性 [全文訳有]

Explainability in CNN Models By Means of Z-Scores ( http://arxiv.org/abs/2102.05874v1 )

ライセンス: CC BY 4.0
David Malmgren-Hansen, Allan Aasbjerg Nielsen and Leif Toudal Pedersen(参考訳) 本稿では,Zスコアによる入力の重要性を説明するために,ニューラルネットワーク(NN)における出力層とロジスティック回帰の類似性を検討する。 合成開口レーダ(sar)とマイクロ波放射計(mwr)データの融合ネットワークであるネットワーク解析を北極海氷の予測に適用した。 解析により,SARに対するMWRの重要性がMWR成分に有利であることが判明した。 さらに,モデルが画像の特徴を異なるスケールで表現するので,それらの相対的重要性もよく分析される。 提案する手法は、出力層コンポーネントを解析するためのシンプルで簡単なフレームワークを提供し、さらに分析するためのコンポーネントの数を削減できる。 一般的なNN可視化手法。

This paper explores the similarities of output layers in Neural Networks (NNs) with logistic regression to explain importance of inputs by Z-scores. The network analyzed, a network for fusion of Synthetic Aperture Radar (SAR) and Microwave Radiometry (MWR) data, is applied to prediction of arctic sea ice. With the analysis the importance of MWR relative to SAR is found to favor MWR components. Further, as the model represents image features at different scales, the relative importance of these are as well analyzed. The suggested methodology offers a simple and easy framework for analyzing output layer components and can reduce the number of components for further analysis with e.g. common NN visualization methods.
翻訳日:2021-02-12 22:11:47 公開日:2021-02-11
# (参考訳) L-SNet:地域ローカリゼーションからスケール不変の医療画像セグメンテーションへ [全文訳有]

L-SNet: from Region Localization to Scale Invariant Medical Image Segmentation ( http://arxiv.org/abs/2102.05971v1 )

ライセンス: CC BY 4.0
Jiahao Xie, Sheng Zhang, Jianwei Lu, Ye Luo(参考訳) 医用画像セグメンテーションにおける大規模変動を解決するために,粗大なモデルとカスケードセグメンテーションアーキテクチャが広く採用されている。 第一段階のセグメンテーションはパフォーマンスボトルネックになり、全体的な微分可能性の欠如により、2つのステージのトレーニングプロセスは非同期で一貫性がない。 本稿では,これらの問題に対処する2段階ネットワークアーキテクチャを提案する。 第1段階では、ローカライゼーションネットワーク(L-Net)が、関心領域(RoIs)を検出形式で特定し、第2段階では、セグメンテーションネットワーク(S-Net)が、リカライズされたRoI、L-NetとS-Netの間のRoIリカライゼーションモジュールにおいて、不整合を除去する。 公開データセットにおける実験結果から,本手法は計算オーバーヘッドが無視できる粗粒度モデルよりも優れていることがわかった。

Coarse-to-fine models and cascade segmentation architectures are widely adopted to solve the problem of large scale variations in medical image segmentation. However, those methods have two primary limitations: the first-stage segmentation becomes a performance bottleneck; the lack of overall differentiability makes the training process of two stages asynchronous and inconsistent. In this paper, we propose a differentiable two-stage network architecture to tackle these problems. In the first stage, a localization network (L-Net) locates Regions of Interest (RoIs) in a detection fashion; in the second stage, a segmentation network (S-Net) performs fine segmentation on the recalibrated RoIs; a RoI recalibration module between L-Net and S-Net eliminating the inconsistencies. Experimental results on the public dataset show that our method outperforms state-of-the-art coarse-to-fine models with negligible computation overheads.
翻訳日:2021-02-12 22:06:33 公開日:2021-02-11
# (参考訳) 野生におけるシェルフ監視メッシュ予測 [全文訳有]

Shelf-Supervised Mesh Prediction in the Wild ( http://arxiv.org/abs/2102.06195v1 )

ライセンス: CC BY 4.0
Yufei Ye, Shubham Tulsiani, Abhinav Gupta(参考訳) 本研究では,単一画像から物体の3次元形状とポーズを推定し,既製認識システムからのセグメンテーション出力のみを用いて,非構造化画像コレクションから学習可能な学習ベースのアプローチを提案する。 「自監」) 我々はまず、カメラのポーズと一緒に、正準フレーム内の体積表現を推測します。 外観とマスクの両方に幾何学的に一貫性のある表現を強制し、合成された新しいビューは画像コレクションとは区別がつかないようにする。 粗いボリューム予測はメッシュベースの表現に変換され、予測されたカメラフレームでさらに洗練される。 これらの2つのステップは、画像収集から形状的因子化と、より詳細なインスタンスごとの再構成の両方を可能にする。 本手法は,合成データと実世界のデータの両方について検討し,実世界の50のカテゴリのスケーラビリティを実証する。

We aim to infer 3D shape and pose of object from a single image and propose a learning-based approach that can train from unstructured image collections, supervised by only segmentation outputs from off-the-shelf recognition systems (i.e. 'shelf-supervised 7;). We first infer a volumetric representation in a canonical frame, along with the camera pose. We enforce the representation geometrically consistent with both appearance and masks, and also that the synthesized novel views are indistinguishable from image collections. The coarse volumetric prediction is then converted to a mesh-based representation, which is further refined in the predicted camera frame. These two steps allow both shape-pose factorization from image collections and per-instance reconstruction in finer details. We examine the method on both synthetic and real-world datasets and demonstrate its scalability on 50 categories in the wild, an order of magnitude more classes than existing works.
翻訳日:2021-02-12 22:04:48 公開日:2021-02-11
# (参考訳) フルフレームビデオ安定化のためのニューラルリレンダリング [全文訳有]

Neural Re-rendering for Full-frame Video Stabilization ( http://arxiv.org/abs/2102.06205v1 )

ライセンス: CC BY 4.0
Yu-Lun Liu, Wei-Sheng Lai, Ming-Hsuan Yang, Yung-Yu Chuang, Jia-Bin Huang(参考訳) 既存のビデオ安定化手法では、フレーム境界のアグレッシブトリミングや、安定化フレーム上の歪みアーチファクトの生成が必要である。 本稿では,まず高密度ワープ場を推定し,フルフレーム映像安定化のためのアルゴリズムを提案する。 フルフレーム安定化フレームは、隣接するフレームから歪んだコンテンツを融合することで合成することができる。 学習ベースのハイブリッド空間融合は、光学フローの不正確さと高速移動オブジェクトによって引き起こされるアーティファクトを緩和します。 NUSおよび自撮りビデオデータセットに対する本手法の有効性を検証した。 広範に実験を行った結果,従来のビデオ安定化手法に対するアプローチのメリットが示された。

Existing video stabilization methods either require aggressive cropping of frame boundaries or generate distortion artifacts on the stabilized frames. In this work, we present an algorithm for full-frame video stabilization by first estimating dense warp fields. Full-frame stabilized frames can then be synthesized by fusing warped contents from neighboring frames. The core technical novelty lies in our learning-based hybrid-space fusion that alleviates artifacts caused by optical flow inaccuracy and fast-moving objects. We validate the effectiveness of our method on the NUS and selfie video datasets. Extensive experiment results demonstrate the merits of our approach over prior video stabilization methods.
翻訳日:2021-02-12 21:50:53 公開日:2021-02-11
# (参考訳) 強固なデータ破損に対するロバストな政策勾配 [全文訳有]

Robust Policy Gradient against Strong Data Corruption ( http://arxiv.org/abs/2102.05800v1 )

ライセンス: CC BY 4.0
Xuezhou Zhang, Yiding Chen, Xiaojin Zhu and Wen Sun(参考訳) 対人汚職下での堅牢な強化学習の課題を報酬と移行の両面から検討する。 攻撃モデルは、学習エピソードの最大$\epsilon$-fractionに対して、エピソード内の各ステップにおける報酬とトランジションを任意に破壊できる \textit{adaptive} 敵を想定しています。 私達の攻撃モデルは前作で考慮されるものより厳しく強いです。 最初の結果は、攻撃モデルの下では、$O(\epsilon)$-optima l Policyよりも優れたアルゴリズムが見つからないことを示している。 次に、驚くべきことに自然政策勾配(NPG)法は、報酬の腐敗が境界づけられている場合に自然堅牢性特性を保持し、$O(\sqrt{\epsilon})$-optimal Policyを見つけることができることを示した。 その結果、無限の報酬の腐敗を許容し、$O(\epsilon^{1/4})$-optimal Policyを見つけることができるフィルタポリシーグラデーション(FPG)アルゴリズムを開発しました。 FPGは、一定のエピソードが破損した場合に有意義な学習保証を達成できる最初のものであることを強調します。 理論的結果と相まって,FPGのニューラル実装は,MuJoCo連続制御ベンチマーク上で強靭な学習性能を実現することを示す。

We study the problem of robust reinforcement learning under adversarial corruption on both rewards and transitions. Our attack model assumes an \textit{adaptive} adversary who can arbitrarily corrupt the reward and transition at every step within an episode, for at most $\epsilon$-fraction of the learning episodes. Our attack model is strictly stronger than those considered in prior works. Our first result shows that no algorithm can find a better than $O(\epsilon)$-optima l policy under our attack model. Next, we show that surprisingly the natural policy gradient (NPG) method retains a natural robustness property if the reward corruption is bounded, and can find an $O(\sqrt{\epsilon})$-optimal policy. Consequently, we develop a Filtered Policy Gradient (FPG) algorithm that can tolerate even unbounded reward corruption and can find an $O(\epsilon^{1/4})$-optimal policy. We emphasize that FPG is the first that can achieve a meaningful learning guarantee when a constant fraction of episodes are corrupted. Complimentary to the theoretical results, we show that a neural implementation of FPG achieves strong robust learning performance on the MuJoCo continuous control benchmarks.
翻訳日:2021-02-12 20:57:44 公開日:2021-02-11
# (参考訳) 分類とクラスタリングのためのオンライン決定論的アニーリング [全文訳有]

Online Deterministic Annealing for Classification and Clustering ( http://arxiv.org/abs/2102.05836v1 )

ライセンス: CC BY 4.0
Christos Mavridis, John Baras(参考訳) 決定論的アニーリングの原理に基づいたクラスタリングと分類のためのオンラインプロトタイプベースの学習アルゴリズムを紹介します。 本稿では,提案アルゴリズムが競合学習ニューラルネットワークを構成することを示し,学習規則をオンライン確率近似アルゴリズムとして定式化する。 アルゴリズムのアニーリング性は局所的な極小さを防ぎ、初期条件に対する堅牢性を提供し、直感的な分岐現象を通じて学習モデルの複雑さを段階的に増加させる手段を提供する。 その結果、提案手法は解釈可能であり、最小限のハイパーパラメータチューニングを必要とし、複雑性と精度のトレードオフに対するオンライン制御を提供する。 最後に、Bregmanの発散は、アルゴリズムの性能と計算複雑性の両方において重要な役割を果たすことを示す相似性尺度の族として用いられる。 本稿では,人工および実データ集合における学習アルゴリズムの特性と性能評価について述べる。

We introduce an online prototype-based learning algorithm for clustering and classification, based on the principles of deterministic annealing. We show that the proposed algorithm constitutes a competitive-learning neural network, the learning rule of which is formulated as an online stochastic approximation algorithm. The annealing nature of the algorithm prevents poor local minima, offers robustness with respect to the initial conditions, and provides a means to progressively increase the complexity of the learning model as needed, through an intuitive bifurcation phenomenon. As a result, the proposed approach is interpretable, requires minimal hyper-parameter tuning, and offers online control over the complexity-accuracy trade-off. Finally, Bregman divergences are used as a family of dissimilarity measures that are shown to play an important role in both the performance of the algorithm, and its computational complexity. We illustrate the properties and evaluate the performance of the proposed learning algorithm in artificial and real datasets.
翻訳日:2021-02-12 20:09:40 公開日:2021-02-11
# (参考訳) 病院における臨床劣化予測 [全文訳有]

Predicting Clinical Deterioration in Hospitals ( http://arxiv.org/abs/2102.05856v1 )

ライセンス: CC BY 4.0
Laleh Jalali, Hsiu-Khuern Tang, Richard H. Goldstein, Joaqun Alvarez Rodrguez(参考訳) 差し迫った臨床劣化の兆候を示す患者に迅速に反応することは、患者ケアの基本的な要素である。 これにより、早期対応システム(rapid response system, rrs)として知られる患者の安全介入哲学が生まれ、即座臨床悪化の判定基準を満たした患者は、その劣化を緩和し、集中治療ユニット(icu)の移送、心停止、または死亡を予防することを目標として、直ちに評価・治療される。 RRSは広く採用されているが、複数の体系的なレビューではその効果の証拠が見つからなかった。 通常、RSの基準は単純であり、専門家(合意)は重要な生理的異常を特定するか、臨床観察に基づく規則を定義している。 もし、現在の基準における生理的ずれの出現よりも早く患者のデータの中にパターンを見つけることができれば、介入戦略はより効果的であるかもしれない。 本稿では,emr(electronic medical records)に機械学習を適用し,患者が臨床劣化のリスクがあるかどうかを推定する。 当モデルでは,現在病院で用いられている既存のルールベース手法と比較して,より感度が高く,事前予測時間も高い。 成功すれば、病院は既存のITシステムに私たちのアプローチを統合し、モデルによって生成されたアラートを使用してICUの転送、心停止、または死亡を防ぎ、ICUの滞在期間を短縮することができます。

Responding rapidly to a patient who is demonstrating signs of imminent clinical deterioration is a basic tenet of patient care. This gave rise to a patient safety intervention philosophy known as a Rapid Response System (RRS), whereby a patient who meets a pre-determined set of criteria for imminent clinical deterioration is immediately assessed and treated, with the goal of mitigating the deterioration and preventing intensive care unit (ICU) transfer, cardiac arrest, or death. While RRSs have been widely adopted, multiple systematic reviews have failed to find evidence of their effectiveness. Typically, RRS criteria are simple, expert (consensus) defined rules that identify significant physiologic abnormalities or are based on clinical observation. If one can find a pattern in the patient's data earlier than the onset of the physiologic derangement manifest in the current criteria, intervention strategies might be more effective. In this paper, we apply machine learning to electronic medical records (EMR) to infer if patients are at risk for clinical deterioration. Our models are more sensitive and offer greater advance prediction time compared with existing rule-based methods that are currently utilized in hospitals. Our results warrant further testing in the field; if successful, hospitals can integrate our approach into their existing IT systems and use the alerts generated by the model to prevent ICU transfer, cardiac arrest, or death, or to reduce the ICU length of stay.
翻訳日:2021-02-12 19:50:15 公開日:2021-02-11
# (参考訳) EvoSplit: 複数ラベルデータセットを非結合なサブセットに分割する進化的アプローチ [全文訳有]

EvoSplit: An evolutionary approach to split a multi-label data set into disjoint subset ( http://arxiv.org/abs/2102.06154v1 )

ライセンス: CC BY 4.0
Francisco Florez-Revuelta(参考訳) 本稿では、教師付き機械学習のための非結合サブセットにマルチラベルデータセットを分散するための新しい進化的アプローチであるEvoSplitを提案する。 現在、データセットプロバイダは、データセットをランダムに分割するか、あるいは元のデータセットのラベル(またはラベルペア)分布を異なるサブセットに維持することを目的とした反復成層法を用いている。 同じ目的に続き、本論文はまず、これらの分布の類似性を独立に最大化する分割を求める、単目的進化的アプローチを提案する。 次に,両分布(ラベルとラベルペア)を同時に考慮し,類似性を最大化するために,新たな多目的進化アルゴリズムを提案する。 どちらのアプローチも、よく知られたマルチラベルデータセットと、現在コンピュータビジョンや機械学習アプリケーションで使われている大規模な画像データセットを使用して検証される。 EvoSplitは、ラベル分布、ラベルペア分布、例分布、折り畳みおよび折り畳みラベルペアの0の例に従って反復的な階層化と比較して、データセットの分割を改善します。

This paper presents a new evolutionary approach, EvoSplit, for the distribution of multi-label data sets into disjoint subsets for supervised machine learning. Currently, data set providers either divide a data set randomly or using iterative stratification, a method that aims to maintain the label (or label pair) distribution of the original data set into the different subsets. Following the same aim, this paper first introduces a single-objective evolutionary approach that tries to obtain a split that maximizes the similarity between those distributions independently. Second, a new multi-objective evolutionary algorithm is presented to maximize the similarity considering simultaneously both distributions (label and label pair). Both approaches are validated using well-known multi-label data sets as well as large image data sets currently used in computer vision and machine learning applications. EvoSplit improves the splitting of a data set in comparison to the iterative stratification following different measures: Label Distribution, Label Pair Distribution, Examples Distribution, folds and fold-label pairs with zero positive examples.
翻訳日:2021-02-12 19:24:14 公開日:2021-02-11
# (参考訳) 音声の非線形モデルを用いた言語独立感情定量化 [全文訳有]

Language Independent Emotion Quantification using Non linear Modelling of Speech ( http://arxiv.org/abs/2102.06003v1 )

ライセンス: CC BY 4.0
Uddalok Sarkar, Sayan Nag, Chirayata Bhattacharya, Shankha Sanyal, Archi Banerjee, Ranjan Sengupta and Dipak Ghosh(参考訳) 現在,音声からの感情抽出は多種多様であるため,非常に重要な課題である。 したがって、人の話すスタイル、声道情報、音色、および彼の声に関する他の先天的な情報を考慮してモデルを取得することは絶対に必要です。 音声生成システムは,他の実世界システムと同様,非線形システムである。 したがって、非線形手法を用いた音声情報のモデル化の必要性が生じる。 本研究では非線形多フラクタル解析を用いて調音システムをモデル化した。 マルチフラクタルスペクトル幅とスケーリング指数は、取られた音声信号に関連する複雑さを本質的に明らかにする。 マルチフラクタルスペクトルは、異なる感情の場合には低変動領域でよく区別できる。 震源特性は,多フラクタル抑止ゆらぎ解析,ウェーブレット変換変調最大値などの非線形モデルを用いて定量化されている。 この研究から得られた結果は、感情クラスタリングに非常に良い結果をもたらす。

At present emotion extraction from speech is a very important issue due to its diverse applications. Hence, it becomes absolutely necessary to obtain models that take into consideration the speaking styles of a person, vocal tract information, timbral qualities and other congenital information regarding his voice. Our speech production system is a nonlinear system like most other real world systems. Hence the need arises for modelling our speech information using nonlinear techniques. In this work we have modelled our articulation system using nonlinear multifractal analysis. The multifractal spectral width and scaling exponents reveals essentially the complexity associated with the speech signals taken. The multifractal spectrums are well distinguishable the in low fluctuation region in case of different emotions. The source characteristics have been quantified with the help of different non-linear models like Multi-Fractal Detrended Fluctuation Analysis, Wavelet Transform Modulus Maxima. The Results obtained from this study gives a very good result in emotion clustering.
翻訳日:2021-02-12 19:07:44 公開日:2021-02-11
# (参考訳) 音声と視覚領域における感情を特徴付けるフラクタルアプローチ : クロスモーダル相互作用に関する研究 [全文訳有]

A Fractal Approach to Characterize Emotions in Audio and Visual Domain: A Study on Cross-Modal Interaction ( http://arxiv.org/abs/2102.06038v1 )

ライセンス: CC BY 4.0
Sayan Nag, Uddalok Sarkar, Shankha Sanyal, Archi Banerjee, Souparno Roy, Samir Karmakar, Ranjan Sengupta and Dipak Ghosh(参考訳) 聴覚刺激と視覚刺激の両方が人間の心の感情を異なる程度に伝達できることは、すでに知られている。 感情刺激の強さや強さは、選択された刺激の種類によって異なる。 本研究では,聴覚刺激と視覚刺激の両方を伴うクロスモーダルシナリオにおける情緒覚醒について,音源特性を考察しながら検討する。 Detrended Fluctuation Analysis (DFA)とその2Dアナログと呼ばれる頑健なフラクタル解析技術は、正および負の原子価に対応するスケーリング指数を定量化する3つの標準オーディオおよびビデオ信号の特徴付けに用いられている。 2つの異なるモダリティに対応するスケーリング指数に有意な差があることが判明した。 Detrended Cross Correlation Analysis (DCCA)は、個々のオーディオおよび視覚刺激間の相互相関の解読度にも適用されている。 本研究は, 音源音声と視覚信号のみを用いて感情刺激をクロスモーダルシナリオで分類し, 相互相関を試みる, 新たなアルゴリズムを提案する最初の研究である。

It is already known that both auditory and visual stimulus is able to convey emotions in human mind to different extent. The strength or intensity of the emotional arousal vary depending on the type of stimulus chosen. In this study, we try to investigate the emotional arousal in a cross-modal scenario involving both auditory and visual stimulus while studying their source characteristics. A robust fractal analytic technique called Detrended Fluctuation Analysis (DFA) and its 2D analogue has been used to characterize three (3) standardized audio and video signals quantifying their scaling exponent corresponding to positive and negative valence. It was found that there is significant difference in scaling exponents corresponding to the two different modalities. Detrended Cross Correlation Analysis (DCCA) has also been applied to decipher degree of cross-correlation among the individual audio and visual stimulus. This is the first of its kind study which proposes a novel algorithm with which emotional arousal can be classified in cross-modal scenario using only the source audio and visual signals while also attempting a correlation between them.
翻訳日:2021-02-12 19:01:23 公開日:2021-02-11
# (参考訳) 雑音および感情的発話条件におけるカスケードGMM-CNN分類器を用いたCASA話者識別 [全文訳有]

CASA-Based Speaker Identification Using Cascaded GMM-CNN Classifier in Noisy and Emotional Talking Conditions ( http://arxiv.org/abs/2102.05894v1 )

ライセンス: CC BY 4.0
Ali Bou Nassif, Ismail Shahin, Shibani Hamsa, Nawel Nemmour, Keikichi Hirose(参考訳) 本研究の目的は、雑音や感情的な会話条件などの実際の応用状況において、テキスト非依存の話者識別性能を高めることである。 これは、2つの異なるモジュールを組み込むことによって実現される: 雑音低減のための計算聴覚シーン分析 CASA に基づく事前処理モジュールと、話者識別のためのガウス混合モデル 畳み込みニューラルネットワーク GMM-CNN 分類器、および感情認識である。 本研究では,感情的および高雑音環境下での話者識別精度を向上させる新しいアルゴリズムを提案し,評価する。 実験では,SUSASデータベース,Emirati Speech Database ESD,Ryerson Audio-Visual Database of Emotional Speech and Song RAVDESSデータベース,Fluent Speech Commandsデータベースがノイズの多い環境で使用されている場合に,他の分類器と比較して有望な結果が得られることを実証した。

This work aims at intensifying text-independent speaker identification performance in real application situations such as noisy and emotional talking conditions. This is achieved by incorporating two different modules: a Computational Auditory Scene Analysis CASA based pre-processing module for noise reduction and cascaded Gaussian Mixture Model Convolutional Neural Network GMM-CNN classifier for speaker identification followed by emotion recognition. This research proposes and evaluates a novel algorithm to improve the accuracy of speaker identification in emotional and highly-noise susceptible conditions. Experiments demonstrate that the proposed model yields promising results in comparison with other classifiers when Speech Under Simulated and Actual Stress SUSAS database, Emirati Speech Database ESD, the Ryerson Audio-Visual Database of Emotional Speech and Song RAVDESS database and the Fluent Speech Commands database are used in a noisy environment.
翻訳日:2021-02-12 18:54:15 公開日:2021-02-11
# (参考訳) 融合畳み込みニューラルネットワーク予測を用いた対比ロバストなディープフェイクメディア検出 [全文訳有]

Adversarially robust deepfake media detection using fused convolutional neural network predictions ( http://arxiv.org/abs/2102.05950v1 )

ライセンス: CC BY 4.0
Sohail Ahmed Khan, Alessandro Artusi, Hang Dai(参考訳) Deepfakesは、詐欺師が正当な情報を操作するために使用する合成生成画像、ビデオまたはオーディオです。 現在のディープフェイク検出システムは、見えないデータと闘います。 そこで我々は,(1)VGG16,(2)Incepti onV3,(3)XceptionNetという3種類の深層畳み込みニューラルネットワーク(CNN)モデルを用いて,ビデオから抽出した偽画像と実画像の分類を行った。 また,強靭性と一般化性を向上させるため,深部CNNモデルの融合も構築した。 提案手法は、市販のdeepfake detection challenge(dfdc)テストデータ(400ビデオ)でテストした場合、96.5%の精度で最先端モデルを上回る。 融合モデルは、低品質のDeepFake-TIMITデータセットビデオで99%、高品質のDeepFake-TIMITビデオで91.88%の精度を達成する。 これに加えて,予測融合が敵攻撃に対してより堅牢であることを示す。 あるモデルが敵攻撃によって妥協された場合、予測融合は全体分類に影響を与えない。

Deepfakes are synthetically generated images, videos or audios, which fraudsters use to manipulate legitimate information. Current deepfake detection systems struggle against unseen data. To address this, we employ three different deep Convolutional Neural Network (CNN) models, (1) VGG16, (2) InceptionV3, and (3) XceptionNet to classify fake and real images extracted from videos. We also constructed a fusion of the deep CNN models to improve the robustness and generalisation capability. The proposed technique outperforms state-of-the-art models with 96.5% accuracy, when tested on publicly available DeepFake Detection Challenge (DFDC) test data, comprising of 400 videos. The fusion model achieves 99% accuracy on lower quality DeepFake-TIMIT dataset videos and 91.88% on higher quality DeepFake-TIMIT videos. In addition to this, we prove that prediction fusion is more robust against adversarial attacks. If one model is compromised by an adversarial attack, the prediction fusion does not let it affect the overall classification.
翻訳日:2021-02-12 18:37:37 公開日:2021-02-11
# (参考訳) SWAGAN: スタイルベースのウェーブレット駆動生成モデル [全文訳有]

SWAGAN: A Style-based Wavelet-driven Generative Model ( http://arxiv.org/abs/2102.06108v1 )

ライセンス: CC BY 4.0
Rinon Gal, Dana Cohen, Amit Bermano, Daniel Cohen-Or(参考訳) 近年、GAN(Generative Adversarial Networks)の視覚的品質に大きな進歩を遂げています。 それでもこれらのネットワークは、スペクトル偏りのあるアーキテクチャと同様に不利な損失関数に起因する高周波コンテンツの品質低下に苦しんでいる。 そこで本研究では,周波数領域におけるプログレッシブ生成を実現する汎用スタイルとWAVEletベースのGAN(SWAGAN)を提案する。 SWAGANは、ジェネレータと識別器アーキテクチャ全体を通してウェーブレットを組み込み、各ステップで周波数対応の潜在表現を強制する。 このアプローチにより、生成した画像の視覚的品質が向上し、計算性能が大幅に向上する。 本手法は,SyleGAN2フレームワークに統合し,ウェーブレット領域におけるコンテンツ生成により,よりリアルな高周波数コンテンツによる高品質な画像が得られることを示す。 さらに,我々のモデルの潜在空間がスタイルガンを編集作業の基礎として機能させる品質を維持していることを検証し,周波数認識アプローチが下流の視覚品質の向上をももたらしていることを示す。

In recent years, considerable progress has been made in the visual quality of Generative Adversarial Networks (GANs). Even so, these networks still suffer from degradation in quality for high-frequency content, stemming from a spectrally biased architecture, and similarly unfavorable loss functions. To address this issue, we present a novel general-purpose Style and WAvelet based GAN (SWAGAN) that implements progressive generation in the frequency domain. SWAGAN incorporates wavelets throughout its generator and discriminator architectures, enforcing a frequency-aware latent representation at every step of the way. This approach yields enhancements in the visual quality of the generated images, and considerably increases computational performance. We demonstrate the advantage of our method by integrating it into the SyleGAN2 framework, and verifying that content generation in the wavelet domain leads to higher quality images with more realistic high-frequency content. Furthermore, we verify that our model's latent space retains the qualities that allow StyleGAN to serve as a basis for a multitude of editing tasks, and show that our frequency-aware approach also induces improved downstream visual quality.
翻訳日:2021-02-12 18:29:19 公開日:2021-02-11
# (参考訳) 微分可能なインシシシタブル・ソフトボディ物理 [全文訳有]

Differentiable Implicit Soft-Body Physics ( http://arxiv.org/abs/2102.05791v1 )

ライセンス: CC BY 4.0
Junior Rojas, Eftychios Sifakis, Ladislav Kavan(参考訳) 本稿では、ニューラルネットワークを微分可能な層として構成できる微分可能なソフトボディ物理シミュレータを提案する。 状態遷移を定義するために明示的な前方モデルを用いる他の微分可能な物理学のアプローチとは対照的に、関数最小化によって定義される暗黙の状態遷移にフォーカスする。 暗黙的な状態遷移は暗黙的な数値積分法に現れ、大きな時間ステップと優れた数値安定性を提供するが、明示的な微分可能なフォワードパスがないために微分可能性を達成するために特別な処理を必要とする。 力関数と力ヤコビ行列の明示的な公式を必要とする他の暗黙の微分アプローチとは対照的に、これらの微分を逆モードの自動微分によって自動的に行列のない方法で計算できるエネルギーベースのアプローチを提案する。 これにより、物理モデルを定義する際の柔軟性と生産性が向上し、しばしばリバースモードの自動微分(バックプロパゲーション)に依存するニューラルネットワークトレーニングの文脈において特に重要である。 移動課題に対するポリシー最適化における微分可能シミュレータの有効性を実証し,モデルフリーの強化学習よりも優れたサンプル効率を実現することを示す。

We present a differentiable soft-body physics simulator that can be composed with neural networks as a differentiable layer. In contrast to other differentiable physics approaches that use explicit forward models to define state transitions, we focus on implicit state transitions defined via function minimization. Implicit state transitions appear in implicit numerical integration methods, which offer the benefits of large time steps and excellent numerical stability, but require a special treatment to achieve differentiability due to the absence of an explicit differentiable forward pass. In contrast to other implicit differentiation approaches that require explicit formulas for the force function and the force Jacobian matrix, we present an energy-based approach that allows us to compute these derivatives automatically and in a matrix-free fashion via reverse-mode automatic differentiation. This allows for more flexibility and productivity when defining physical models and is particularly important in the context of neural network training, which often relies on reverse-mode automatic differentiation (backpropagation). We demonstrate the effectiveness of our differentiable simulator in policy optimization for locomotion tasks and show that it achieves better sample efficiency than model-free reinforcement learning.
翻訳日:2021-02-12 17:47:29 公開日:2021-02-11
# (参考訳) 農業・製造IoTシステムにおける移動学習による異常検出 [全文訳有]

Anomaly Detection through Transfer Learning in Agriculture and Manufacturing IoT Systems ( http://arxiv.org/abs/2102.05814v1 )

ライセンス: CC BY 4.0
Mustafa Abdallah, Wo Jae Lee, Nithin Raghunathan, Charilaos Mousoulis, John W. Sutherland, and Saurabh Bagchi(参考訳) IoTシステムは、これらのシステムの複雑化と迅速な展開の実践により、ますます高度な技術的問題に直面しています。 その結果、IoT管理者は、サイバーリスクと運用コストを削減するために、障害(異常)を慎重に検出する必要があります。 多くのIoTベースのシステムには異常検出に関する豊富な文献があるが、デジタル農業やスマート製造システムにおける異常検出のためのMLモデルの使用を文書化する研究は存在しない。 この2つのアプリケーションドメインは、技術的な課題がある。 農業では、農業の広大な地域と、モニタリングのコストを低く抑える必要があるため、データは希少であることが多い。 第二に、両方のドメインには、さまざまな機能とコストを持つ複数のタイプのセンサーがあります。 センサデータの特性は、モータのRPMなど、環境や機械の動作ポイントによって変化します。 従って、参照処理と異常検出プロセスは、操作ポイントに合わせて調整される必要がある。 本稿では, 農作物に設置したセンサから, 7種類のセンサからのデータと, 振動センサを用いた先進的な製造試験からのデータを分析する。 センサデータの時系列予測のためのARIMAモデルとLSTMモデルの性能評価を行った。 そして、1種類のセンサからのスパースデータを考慮して、高データレートセンサからの転送学習を行います。 次に,予測したセンサデータを用いて異常検出を行う。 合わせて、これらの2つのアプリケーションドメインにおいて、予測的障害分類を実現し、予測的メンテナンスの道を開く方法を示す。

IoT systems have been facing increasingly sophisticated technical problems due to the growing complexity of these systems and their fast deployment practices. Consequently, IoT managers have to judiciously detect failures (anomalies) in order to reduce their cyber risk and operational cost. While there is a rich literature on anomaly detection in many IoT-based systems, there is no existing work that documents the use of ML models for anomaly detection in digital agriculture and in smart manufacturing systems. These two application domains pose certain salient technical challenges. In agriculture the data is often sparse, due to the vast areas of farms and the requirement to keep the cost of monitoring low. Second, in both domains, there are multiple types of sensors with varying capabilities and costs. The sensor data characteristics change with the operating point of the environment or machines, such as, the RPM of the motor. The inferencing and the anomaly detection processes therefore have to be calibrated for the operating point. In this paper, we analyze data from sensors deployed in an agricultural farm with data from seven different kinds of sensors, and from an advanced manufacturing testbed with vibration sensors. We evaluate the performance of ARIMA and LSTM models for predicting the time series of sensor data. Then, considering the sparse data from one kind of sensor, we perform transfer learning from a high data rate sensor. We then perform anomaly detection using the predicted sensor data. Taken together, we show how in these two application domains, predictive failure classification can be achieved, thus paving the way for predictive maintenance.
翻訳日:2021-02-12 17:32:46 公開日:2021-02-11
# (参考訳) 近接近傍の合成還元に基づく多階級モデルに対する敵対的ポゾニング攻撃と防御 [全文訳有]

Adversarial Poisoning Attacks and Defense for General Multi-Class Models Based On Synthetic Reduced Nearest Neighbors ( http://arxiv.org/abs/2102.05867v1 )

ライセンス: CC0 1.0
Pooya Tavallali, Vahid Behzadan, Peyman Tavallali, Mukesh Singhal(参考訳) 最先端の機械学習モデルは、モデルの完全性を損なうことを目的としたデータ中毒攻撃に対して脆弱です。 しかし、データ中毒攻撃に関する現在の文献は、主に特定の機械学習モデルにのみ適用されるアドホックな技術に焦点を当てている。 さらに、文献にある既存のデータ中毒攻撃はバイナリ分類器か勾配に基づくアルゴリズムに限られている。 これらの制限に対処するため,本論文ではまず,ラベルフリッピングの予算に拘束されたまま,競合者がクラスのクラスタをターゲットとする,データのマルチモダリティに基づく新しいモデルフリーラベルフリッピング攻撃を提案する。 提案する攻撃アルゴリズムの複雑さはデータセットのサイズよりも時間的に線形である。 また、提案された攻撃は、同じ攻撃予算で2回までエラーを増加させることができる。 第二に、SRNN(Synthetic reduced Nearest Neighbor)モデルに基づく新しい防御技術を提案する。 防御技術は、トレーニング手順中にフライでフリップサンプルを検出して除外することができます。 広範囲な実験分析により, (i) 提案手法が複数のモデルの精度を劇的に低下させることを示すとともに, (ii) 提案手法は, 対象モデルの精度を回復する上で, 従来の機械学習モデルよりも有意に優れていることを示す。

State-of-the-art machine learning models are vulnerable to data poisoning attacks whose purpose is to undermine the integrity of the model. However, the current literature on data poisoning attacks is mainly focused on ad hoc techniques that are only applicable to specific machine learning models. Additionally, the existing data poisoning attacks in the literature are limited to either binary classifiers or to gradient-based algorithms. To address these limitations, this paper first proposes a novel model-free label-flipping attack based on the multi-modality of the data, in which the adversary targets the clusters of classes while constrained by a label-flipping budget. The complexity of our proposed attack algorithm is linear in time over the size of the dataset. Also, the proposed attack can increase the error up to two times for the same attack budget. Second, a novel defense technique based on the Synthetic Reduced Nearest Neighbor (SRNN) model is proposed. The defense technique can detect and exclude flipped samples on the fly during the training procedure. Through extensive experimental analysis, we demonstrate that (i) the proposed attack technique can deteriorate the accuracy of several models drastically, and (ii) under the proposed attack, the proposed defense technique significantly outperforms other conventional machine learning models in recovering the accuracy of the targeted model.
翻訳日:2021-02-12 17:17:15 公開日:2021-02-11
# (参考訳) eBayにおける個人化埋め込み型eコマースレコメンデーション [全文訳有]

Personalized Embedding-based e-Commerce Recommendations at eBay ( http://arxiv.org/abs/2102.06156v1 )

ライセンス: CC BY 4.0
Tian Wang, Yuri M. Brovman, Sriganesh Madhvanath(参考訳) レコメンダシステムはeコマース市場の重要な要素であり、消費者が大量の在庫をナビゲートし、必要なものや好きなものを見つけるのを助ける。 本稿では,同じベクトル空間にアイテムやユーザを埋め込むことを学習することで,電子商取引市場におけるパーソナライズされたアイテムレコメンデーションを生成するアプローチを提案する。 大規模市場におけるコールドスタート問題を軽減するため、コンテンツ機能とマルチモーダルオンサイトユーザアクティビティを用いて、アイテムとユーザ埋め込みをそれぞれ計算する。 データアブレーションはオフラインモデルのトレーニングプロセスに組み込まれ、生産システムの堅牢性を向上させます。 eBayのトラフィックから収集されたデータセットを用いたオフライン評価では、Recall@kメトリクスをLavely-Viewed-Item(R VI)メソッドよりも改善することができた。 パーソナライズドレコメンデーションを生成するこのアプローチは、プロダクショントラフィックを提供するためにローンチされ、対応するスケーラブルなエンジニアリングアーキテクチャも提示されている。 初期のA/Bテスト結果から,現在のパーソナライズされたリコメンデーションモジュールと比較すると,提案手法はページインプレッションの90%のリコメンデーションを生成するために,$\sim$6\%のサーフェスレートを増大させることがわかった。

Recommender systems are an essential component of e-commerce marketplaces, helping consumers navigate massive amounts of inventory and find what they need or love. In this paper, we present an approach for generating personalized item recommendations in an e-commerce marketplace by learning to embed items and users in the same vector space. In order to alleviate the considerable cold-start problem present in large marketplaces, item and user embeddings are computed using content features and multi-modal onsite user activity respectively. Data ablation is incorporated into the offline model training process to improve the robustness of the production system. In offline evaluation using a dataset collected from eBay traffic, our approach was able to improve the Recall@k metric over the Recently-Viewed-Item (RVI) method. This approach to generating personalized recommendations has been launched to serve production traffic, and the corresponding scalable engineering architecture is also presented. Initial A/B test results show that compared to the current personalized recommendation module in production, the proposed method increases the surface rate by $\sim$6\% to generate recommendations for 90\% of listing page impressions.
翻訳日:2021-02-12 17:00:05 公開日:2021-02-11
# (参考訳) クリーンクラスタリングによる深層混合学習による音声強調 [全文訳有]

Speech enhancement with mixture-of-deep-expe rts with clean clustering pre-training ( http://arxiv.org/abs/2102.06034v1 )

ライセンス: CC BY 4.0
Shlomo E. Chazan, Jacob Goldberger, Sharon Gannot(参考訳) 本研究では,マイクロホン音声強調のためのディープエキスパート(MoDE)ニューラルネットワークアーキテクチャの混合について述べる。 私たちのアーキテクチャは、深いニューラルネットワーク(DNN)のセットで構成され、それぞれが音素のような異なる音声スペクトルパターンの「専門家」です。 ゲーティングDNNは、音声セグメントが与えられた各専門家の出力に割り当てられた重みである潜在変数を担当します。 専門家は、騒々しい入力からマスクを推定し、最終的なマスクは、ゲーティングDNNによって決定された重量で、専門家の推定の重み付き平均として取得されます。 次に、推定されたマスクに基づいて柔らかいスペクトル減衰を適用し、騒々しい音声信号を強化する。 副産物として、私達はテスト時間の複雑さで減ります。 専門家の専門化により、不慣れなノイズタイプに対する堅牢性が向上します。

In this study we present a mixture of deep experts (MoDE) neural-network architecture for single microphone speech enhancement. Our architecture comprises a set of deep neural networks (DNNs), each of which is an 'expert' in a different speech spectral pattern such as phoneme. A gating DNN is responsible for the latent variables which are the weights assigned to each expert's output given a speech segment. The experts estimate a mask from the noisy input and the final mask is then obtained as a weighted average of the experts' estimates, with the weights determined by the gating DNN. A soft spectral attenuation, based on the estimated mask, is then applied to enhance the noisy speech signal. As a byproduct, we gain reduction at the complexity in test time. We show that the experts specialization allows better robustness to unfamiliar noise types.
翻訳日:2021-02-12 15:43:59 公開日:2021-02-11
# (参考訳) SLS (Single $\ell_1$ Selection): $\ell_1$-norm 選択規則を持つ新しいグリーディアルゴリズム [全文訳有]

SLS (Single $\ell_1$ Selection): a new greedy algorithm with an $\ell_1$-norm selection rule ( http://arxiv.org/abs/2102.06058v1 )

ライセンス: CC BY 4.0
Ramzi Ben Mhenni and S\'ebastien Bourguignon and J\'er\^ome Idier(参考訳) 本稿では,SLS for Single L_1 Selectionという,スパース近似のための新しいグレディアルゴリズムを提案する。 SLSは基本的に、各イテレーションにおける新しいコンポーネントの選択ルールは、残りの変数のL_1ノルムによってペナルティ化される最小二乗最適化問題を解決することに基づいています。 その後、最大振幅の成分が選択されます。 非常に相関性の高い辞書を含む困難なスパース・デコンボリューション問題に対するシミュレーションの結果、解がスパースの場合、一般的なグリーディアルゴリズムとBasis Pursuit Denoisingを上回る方法の効率が明らかになる。

In this paper, we propose a new greedy algorithm for sparse approximation, called SLS for Single L_1 Selection. SLS essentially consists of a greedy forward strategy, where the selection rule of a new component at each iteration is based on solving a least-squares optimization problem, penalized by the L_1 norm of the remaining variables. Then, the component with maximum amplitude is selected. Simulation results on difficult sparse deconvolution problems involving a highly correlated dictionary reveal the efficiency of the method, which outperforms popular greedy algorithms and Basis Pursuit Denoising when the solution is sparse.
翻訳日:2021-02-12 15:33:42 公開日:2021-02-11
# 雑音テキストによる視覚・視覚言語表現学習のスケールアップ

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision ( http://arxiv.org/abs/2102.05918v1 )

ライセンス: Link先を確認
Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc V. Le, Yunhsuan Sung, Zhen Li, Tom Duerig(参考訳) 事前訓練された表現は、多くのNLPおよび知覚タスクにとって重要になっています。 NLPでの表現学習は、人間のアノテーションなしで生のテキストのトレーニングに移行しましたが、視覚と視覚言語の表現は、依然として高価な、または専門家の知識を必要とするキュレーションされたトレーニングデータセットに大きく依存しています。 視覚アプリケーションの場合、表現はImageNetやOpenImagesなどの明示的なクラスラベルを持つデータセットを使用して学習される。 Conceptual Captions、MSCOCO、CLIPなどの視覚言語で人気のデータセットには、すべて、非自明なデータ収集(およびクリーニング)プロセスが含まれます。 このコストのかかるキュレーションプロセスはデータセットのサイズを制限し、トレーニングされたモデルのスケーリングを妨げる。 本論文では,コンセプチュアルキャプションデータセットの高価なフィルタリングや後処理のステップなしで得られる10億以上の画像alt-textペアのノイズの多いデータセットを活用する。 単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的表現と言語表現を対比的損失を用いて整合させることを学ぶ。 コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。 我々の視覚表現は、ImageNetやVTABのような分類タスクに転送されると、強い性能を達成する。 整列されたビジュアルおよび言語表現は、より洗練されたクロスアテンションモデルと比較しても、Flickr30KおよびMSCOCOベンチマークの最新結果も設定します。 表現は、複雑なテキストとテキスト+画像クエリによるクロスモダリティ検索も可能にする。

Pre-trained representations are becoming crucial for many NLP and perception tasks. While representation learning in NLP has transitioned to training on raw text without human annotations, visual and vision-language representations still rely heavily on curated training datasets that are expensive or require expert knowledge. For vision applications, representations are mostly learned using datasets with explicit class labels such as ImageNet or OpenImages. For vision-language, popular datasets like Conceptual Captions, MSCOCO, or CLIP all involve a non-trivial data collection (and cleaning) process. This costly curation process limits the size of datasets and hence hinders the scaling of trained models. In this paper, we leverage a noisy dataset of over one billion image alt-text pairs, obtained without expensive filtering or post-processing steps in the Conceptual Captions dataset. A simple dual-encoder architecture learns to align visual and language representations of the image and text pairs using a contrastive loss. We show that the scale of our corpus can make up for its noise and leads to state-of-the-art representations even with such a simple learning scheme. Our visual representation achieves strong performance when transferred to classification tasks such as ImageNet and VTAB. The aligned visual and language representations also set new state-of-the-art results on Flickr30K and MSCOCO benchmarks, even when compared with more sophisticated cross-attention models. The representations also enable cross-modality search with complex text and text + image queries.
翻訳日:2021-02-12 14:27:17 公開日:2021-02-11
# トラクタブル回路動作の構成アトラス:単純な変換から複雑な情報理論クエリへ

A Compositional Atlas of Tractable Circuit Operations: From Simple Transformations to Complex Information-Theoreti c Queries ( http://arxiv.org/abs/2102.06137v1 )

ライセンス: Link先を確認
Antonio Vergari, YooJung Choi, Anji Liu, Stefano Teso, Guy Van den Broeck(参考訳) 回路表現は、扱いやすい生成モデルや識別モデルを表現するための言語フランカになりつつある。 本稿では、機械学習で一般的に発生するこれらのモデルの複雑な推論シナリオについて、決定木アンサンブルの期待の計算から深層混合モデルの情報理論の分岐まで、回路上のトラクタブルモジュラー操作の観点で表すことができるかを示す。 具体的には、単純な変換の語彙 --sums, product, quotients, powers, logarithms, and exponentials -- の扱いやすさを、それらが操作する回路の十分な構造的制約の観点から特徴付け、これらの特性が満たされない場合に新たなハードネス結果を与える。 これらの操作に基づいて、我々は文献でいくつかの結果を一般化し、新しいトラクタブル推論シナリオを開くトラクタブルモデルに関する推論のための統一されたフレームワークを導出する。

Circuit representations are becoming the lingua franca to express and reason about tractable generative and discriminative models. In this paper, we show how complex inference scenarios for these models that commonly arise in machine learning -- from computing the expectations of decision tree ensembles to information-theoreti c divergences of deep mixture models -- can be represented in terms of tractable modular operations over circuits. Specifically, we characterize the tractability of a vocabulary of simple transformations -- sums, products, quotients, powers, logarithms, and exponentials -- in terms of sufficient structural constraints of the circuits they operate on, and present novel hardness results for the cases in which these properties are not satisfied. Building on these operations, we derive a unified framework for reasoning about tractable models that generalizes several results in the literature and opens up novel tractable inference scenarios.
翻訳日:2021-02-12 14:26:48 公開日:2021-02-11
# 正常化を伴わない高性能大規模画像認識

High-Performance Large-Scale Image Recognition Without Normalization ( http://arxiv.org/abs/2102.06171v1 )

ライセンス: Link先を確認
Andrew Brock, Soham De, Samuel L. Smith, Karen Simonyan(参考訳) バッチ正規化は、ほとんどの画像分類モデルのキーコンポーネントであるが、バッチサイズと例間の相互作用に依存することから生じる多くの望ましくない特性を持っている。 最近の研究では、正規化層なしで深層ResNetのトレーニングに成功しましたが、これらのモデルは最高のバッチ正規化ネットワークのテスト精度と一致しず、大きな学習率や強いデータ拡張に対して不安定であることが多いです。 本研究では,これらの不安定性を克服する適応的勾配クリッピング手法を開発し,より優れた正規化自由ResNetのクラスを設計する。 当社の小型モデルはimagenetのeffernet-b7のテスト精度を最大8.7倍に向上させ、最大のモデルは最新のtop-1精度86.5%を達成した。 さらに,3億のラベル付き画像のデータセットを大規模に事前トレーニングした後,ImageNetを微調整した際のバッチ正規化モデルに比べて,最高のモデルでは89.2%の精度で性能が向上した。 コードはhttps://github.com/d eepmind/ Deepmind-research/tr ee/master/nfnetsで入手できます。

Batch normalization is a key component of most image classification models, but it has many undesirable properties stemming from its dependence on the batch size and interactions between examples. Although recent work has succeeded in training deep ResNets without normalization layers, these models do not match the test accuracies of the best batch-normalized networks, and are often unstable for large learning rates or strong data augmentations. In this work, we develop an adaptive gradient clipping technique which overcomes these instabilities, and design a significantly improved class of Normalizer-Free ResNets. Our smaller models match the test accuracy of an EfficientNet-B7 on ImageNet while being up to 8.7x faster to train, and our largest models attain a new state-of-the-art top-1 accuracy of 86.5%. In addition, Normalizer-Free models attain significantly better performance than their batch-normalized counterparts when finetuning on ImageNet after large-scale pre-training on a dataset of 300 million labeled images, with our best models obtaining an accuracy of 89.2%. Our code is available at https://github.com/d eepmind/ deepmind-research/tr ee/master/nfnets
翻訳日:2021-02-12 14:26:05 公開日:2021-02-11
# プライベート予測セット

Private Prediction Sets ( http://arxiv.org/abs/2102.06202v1 )

ライセンス: Link先を確認
Anastasios N. Angelopoulos and Stephen Bates and Tijana Zrnic and Michael I. Jordan(参考訳) 一連の意思決定を含む現実の環境では、機械学習システムの導入は一般的に信頼性の高い不確実性定量化と個人のプライバシー保護の両方を必要とする。 これら2つのデシラタを共同で扱う枠組みを提案する。 我々のフレームワークは、予測モデルを拡張して不確実な定量化を提供する予測セットを返す手法である共形予測に基づいており、90%のようなユーザ特定確率で真の応答を確実にカバーしている。 プライベートに訓練されたモデルを使用する場合、コンフォーマル予測が結果の予測セットのプライバシー保証をもたらすと期待するかもしれません。 この問題を解決するために,事前学習された予測モデルを取り込んで,微分プライベートな予測集合を出力する手法を開発した。 提案手法は分割共形予測の一般的な手法に準じており,予測集合のサイズを定式化するためにホールドアウトデータを用いるが,民営化された分位分位子サブルーチンを用いてプライバシを保留する。 このサブルーチンは、正しいカバレッジを保証するためにプライバシーを保護するために導入されたノイズを補います。 CIFAR-10, ImageNet, CoronaHackデータセットを用いた実験による評価を行った。

In real-world settings involving consequential decision-making, the deployment of machine learning systems generally requires both reliable uncertainty quantification and protection of individuals' privacy. We present a framework that treats these two desiderata jointly. Our framework is based on conformal prediction, a methodology that augments predictive models to return prediction sets that provide uncertainty quantification -- they provably cover the true response with a user-specified probability, such as 90%. One might hope that when used with privately-trained models, conformal prediction would yield privacy guarantees for the resulting prediction sets; unfortunately this is not the case. To remedy this key problem, we develop a method that takes any pre-trained predictive model and outputs differentially private prediction sets. Our method follows the general approach of split conformal prediction; we use holdout data to calibrate the size of the prediction sets but preserve privacy by using a privatized quantile subroutine. This subroutine compensates for the noise introduced to preserve privacy in order to guarantee correct coverage. We evaluate the method with experiments on the CIFAR-10, ImageNet, and CoronaHack datasets.
翻訳日:2021-02-12 14:25:41 公開日:2021-02-11
# ClipBERT for Video-and-Language Learning via Sparse Sampling (英語)

Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling ( http://arxiv.org/abs/2102.06183v1 )

ライセンス: Link先を確認
Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg, Mohit Bansal, Jingjing Liu(参考訳) ビデオと言語学習への標準的アプローチ(ビデオ質問応答など)は、視覚モデルや言語モデルからのテキスト機能から、オフラインで抽出された密集したビデオ機能から学ぶためのニューラルモデルを決定する。 これらの特徴抽出器は独立して訓練され、通常はターゲットドメインとは異なるタスクで訓練される。 さらに,高精細度ビデオ特徴量の計算過多により,既存手法に直接特徴抽出器を差し込むのが困難(あるいは不可能)であることも多い。 このジレンマの修正のために、ビデオからサンプリングされた短いクリップを1つまたは数つしか使用しないスパースサンプリングを用いて、ビデオと言語タスクのエンドツーエンド学習を安価に行える汎用フレームワーククリップバートを提案する。 6つのデータセットのテキスト-ビデオ検索とビデオ質問の回答に関する実験は、ClipBERTがフルレングスビデオを利用する既存の方法(またはそれと同等)を上回っていることを実証し、わずか数本のサンプルクリップでエンドツーエンドの学習がフルレングスビデオから密に抽出されたオフライン機能を使用することよりも正確であることを示唆しています。 データセット内のビデオは、3秒のジェネリックドメインgifビデオから180秒のyoutube human activityビデオまで、かなり異なるドメインと長さから成り、我々のアプローチの一般化能力を示している。 この成功に繋がる要因を解明するために、包括的アブレーション研究と徹底的な分析が提供される。 コードはhttps://github.com/j ayleicn/ClipBERTで公開されています。

The canonical approach to video-and-language learning (e.g., video question answering) dictates a neural model to learn from offline-extracted dense video features from vision models and text features from language models. These feature extractors are trained independently and usually on tasks different from the target domains, rendering these fixed features sub-optimal for downstream tasks. Moreover, due to the high computational overload of dense video features, it is often difficult (or infeasible) to plug feature extractors directly into existing approaches for easy finetuning. To provide a remedy to this dilemma, we propose a generic framework ClipBERT that enables affordable end-to-end learning for video-and-language tasks, by employing sparse sampling, where only a single or a few sparsely sampled short clips from a video are used at each training step. Experiments on text-to-video retrieval and video question answering on six datasets demonstrate that ClipBERT outperforms (or is on par with) existing methods that exploit full-length videos, suggesting that end-to-end learning with just a few sparsely sampled clips is often more accurate than using densely extracted offline features from full-length videos, proving the proverbial less-is-more principle. Videos in the datasets are from considerably different domains and lengths, ranging from 3-second generic domain GIF videos to 180-second YouTube human activity videos, showing the generalization ability of our approach. Comprehensive ablation studies and thorough analyses are provided to dissect what factors lead to this success. Our code is publicly available at https://github.com/j ayleicn/ClipBERT
翻訳日:2021-02-12 14:25:22 公開日:2021-02-11
# 仮想および実概念ドリフトに対処する:適応的なガウス混合モデル

Tackling Virtual and Real Concept Drifts: An Adaptive Gaussian Mixture Model ( http://arxiv.org/abs/2102.05983v1 )

ライセンス: Link先を確認
Gustavo Oliveira, Leandro Minku and Adriano Oliveira(参考訳) 現実世界のアプリケーションは、時間とともに到着する大量のデータを扱うようになり、一般的にその基盤となるジョイント確率分布、すなわち概念ドリフトの変化を示す。 概念ドリフトは、非条件確率分布 p(x) に影響を与える仮想ドリフトと、条件確率分布 p(y|x) に影響を与える実ドリフトの2つのタイプに分けることができる。 既存の作品は実際の漂流に焦点を当てている。 しかし、実際のドリフトに対処する戦略は、実際のクラスの境界は変わらないため、仮想ドリフトを扱うのに最適ではないかもしれない。 本稿では,仮想ドリフトと実ドリフトの差が分類器の適合性に及ぼす影響を初めて詳細に解析する。 OGMMF-VRD (On-line Gaussian Mixture Model With Noise Filter For Handling Virtual and Real Concept Drifts) と呼ばれるドリフト処理手法を提案する。 7つの合成データセットと3つの実世界データセットによる実験では、OGMMF-VRDは、既存のアプローチと比較して平均精度、G平均、ランタイムの点で最高の結果を得たことが示されています。 さらに、時間の経過とともにその精度はドリフトの存在下でパフォーマンスの低下を少なくした。

Real-world applications have been dealing with large amounts of data that arrive over time and generally present changes in their underlying joint probability distribution, i.e., concept drift. Concept drift can be subdivided into two types: virtual drift, which affects the unconditional probability distribution p(x), and real drift, which affects the conditional probability distribution p(y|x). Existing works focuses on real drift. However, strategies to cope with real drift may not be the best suited for dealing with virtual drift, since the real class boundaries remain unchanged. We provide the first in depth analysis of the differences between the impact of virtual and real drifts on classifiers' suitability. We propose an approach to handle both drifts called On-line Gaussian Mixture Model With Noise Filter For Handling Virtual and Real Concept Drifts (OGMMF-VRD). Experiments with 7 synthetic and 3 real-world datasets show that OGMMF-VRD obtained the best results in terms of average accuracy, G-mean and runtime compared to existing approaches. Moreover, its accuracy over time suffered less performance degradation in the presence of drifts.
翻訳日:2021-02-12 14:23:44 公開日:2021-02-11
# ブラックボックスAIモデルのテストフレームワーク

Testing Framework for Black-box AI Models ( http://arxiv.org/abs/2102.06166v1 )

ライセンス: Link先を確認
Aniya Aggarwal, Samiulla Shaikh, Sandeep Hans, Swastik Haldar, Rema Ananthanarayanan, Diptikalyan Saha(参考訳) 重要な意思決定のためのAIモデルの普及に伴い、そのようなモデルの信頼性の確保は依然として重要な課題です。 本稿では,テキスト,表,時系列データなどのさまざまなモーダルデータに対して,精度,公正性,堅牢性など,さまざまな特性に対して自動テスト生成を実行するAIモデルをテストするためのエンドツーエンド汎用フレームワークを提案する。 我々のツールは産業用AIモデルのテストに使われており、これらのモデルに存在する問題を明らかにするのに非常に効果的でした。 デモビデオリンク: https://youtu.be/984 ucu17yzi

With widespread adoption of AI models for important decision making, ensuring reliability of such models remains an important challenge. In this paper, we present an end-to-end generic framework for testing AI Models which performs automated test generation for different modalities such as text, tabular, and time-series data and across various properties such as accuracy, fairness, and robustness. Our tool has been used for testing industrial AI models and was very effective to uncover issues present in those models. Demo video link: https://youtu.be/984 UCU17YZI
翻訳日:2021-02-12 14:23:02 公開日:2021-02-11
# 時系列分析のための因果推論:問題,方法,評価

Causal Inference for Time series Analysis: Problems, Methods and Evaluation ( http://arxiv.org/abs/2102.05829v1 )

ライセンス: Link先を確認
Raha Moraffah, Paras Sheth, Mansooreh Karami, Anchit Bhattacharya, Qianru Wang, Anique Tahir, Adrienne Raglin, Huan Liu(参考訳) 時系列データは、医学や金融などのいくつかの領域によって生成される時系列観測のコレクションです。 長年にわたり、この種のデータを分析するために分類、予測、クラスタリングといった様々なタスクが提案されてきた。 時系列データは、時間とともに介入の効果を研究するためにも用いられる。 さらに、多くの科学分野では、動的システムと時系列データの因果構造を学ぶことは、科学的な発見において重要な役割を果たす興味深いタスクと考えられている。 介入の効果を推定し、データから因果関係を識別することは因果推論によって行うことができる。 時系列の既存の調査では、分類や予測などの伝統的なタスクについて議論したり、特定のタスクを解決するために提案されたアプローチの詳細を説明したりします。 本稿では,時系列データに対する処理効果推定と因果発見という2つの因果推論タスクに注目し,各タスクにおけるアプローチの総合的なレビューを行う。 さらに、各タスクでよく使われる評価指標とデータセットのリストをキュレートし、詳細な洞察を提供する。 これらのメトリクスとデータセットは、この分野の研究のベンチマークとして役立ちます。

Time series data is a collection of chronological observations which is generated by several domains such as medical and financial fields. Over the years, different tasks such as classification, forecasting, and clustering have been proposed to analyze this type of data. Time series data has been also used to study the effect of interventions over time. Moreover, in many fields of science, learning the causal structure of dynamic systems and time series data is considered an interesting task which plays an important role in scientific discoveries. Estimating the effect of an intervention and identifying the causal relations from the data can be performed via causal inference. Existing surveys on time series discuss traditional tasks such as classification and forecasting or explain the details of the approaches proposed to solve a specific task. In this paper, we focus on two causal inference tasks, i.e., treatment effect estimation and causal discovery for time series data, and provide a comprehensive review of the approaches in each task. Furthermore, we curate a list of commonly used evaluation metrics and datasets for each task and provide in-depth insight. These metrics and datasets can serve as benchmarks for research in the field.
翻訳日:2021-02-12 14:22:32 公開日:2021-02-11
# BoMb-OT:ミニバッチの最適輸送について

BoMb-OT: On Batch of Mini-batches Optimal Transport ( http://arxiv.org/abs/2102.05912v1 )

ライセンス: Link先を確認
Khai Nguyen, Quoc Nguyen, Nhat Ho, Tung Pham, Hung Bui, Dinh Phung, Trung Le(参考訳) ミニバッチ最適輸送(m-OT)は、難解密度の確率測度や、非常に多数の支持率を持つ確率測度を含む実用的な応用で成功している。 m-otはいくつかのスパルサー最適輸送問題を解決し、コストと輸送計画の平均値を返す。 スケーラビリティのアドバンテージにもかかわらず、m-otはアイデンティティ特性を満たさないため、確率測度間の適切な指標ではない。 この問題に対処するため,我々は,最小バッチ最適輸送(BoMb-OT)と呼ばれる,確率測度空間上のよく定義された距離を定式化可能な,最適輸送のための新しいミニバッチ方式を提案する。 さらに、正規化パラメータが無限大になると、m-OT は提案された BoMb-OT のエントロピー正規化バージョンの限界であることを示す。 我々は,新しいミニバッチ方式により,m-OTよりも2つの当初の手段間のよりよい輸送計画を推定できることを示す広範囲な実験を行った。 これは、マッチングおよびカラー転送タスクでBoMb-OTの良好なパフォーマンスにつながります。 さらに,近似ベイズ計算やパラメトリック生成モデルに対する関心パラメータの推定,勾配流による非パラメトリック生成モデルの学習において,bomb-otはm-otよりも客観的な損失をも与えている。

Mini-batch optimal transport (m-OT) has been successfully used in practical applications that involve probability measures with intractable density, or probability measures with a very high number of supports. The m-OT solves several sparser optimal transport problems and then returns the average of their costs and transportation plans. Despite its scalability advantage, m-OT is not a proper metric between probability measures since it does not satisfy the identity property. To address this problem, we propose a novel mini-batching scheme for optimal transport, named Batch of Mini-batches Optimal Transport (BoMb-OT), that can be formulated as a well-defined distance on the space of probability measures. Furthermore, we show that the m-OT is a limit of the entropic regularized version of the proposed BoMb-OT when the regularized parameter goes to infinity. We carry out extensive experiments to show that the new mini-batching scheme can estimate a better transportation plan between two original measures than m-OT. It leads to a favorable performance of BoMb-OT in the matching and color transfer tasks. Furthermore, we observe that BoMb-OT also provides a better objective loss than m-OT for doing approximate Bayesian computation, estimating parameters of interest in parametric generative models, and learning non-parametric generative models with gradient flow.
翻訳日:2021-02-12 14:22:16 公開日:2021-02-11
# 故障データからの公正な学習

Fairness-Aware Learning from Corrupted Data ( http://arxiv.org/abs/2102.06004v1 )

ライセンス: Link先を確認
Nikola Konstantinov, Christoph H. Lampert(参考訳) 機械学習モデルに対する公平性の懸念に対処することは、現実の自動化システムにおける長期的な採用に向けた重要なステップである。 データから公正なモデルをトレーニングするための多くのアプローチが開発されているが、これらの手法に対するデータ破損の影響についてはほとんど分かっていない。 本研究では,任意のデータ操作下での公平性認識学習を検討する。 また,このバイアスの強みは,データ内の保護されていないグループによる学習問題に対して,学習者に対して,精度を低下させることなく,偏りのある分類器を返さなければならないことを示した。 また、2つの自然な学習アルゴリズムが、逆データ操作の精度と公平性の両方で順序-最適保証を達成できることを証明し、これらの硬さに一致する上限を一定要素に設定する。

Addressing fairness concerns about machine learning models is a crucial step towards their long-term adoption in real-world automated systems. While many approaches have been developed for training fair models from data, little is known about the effects of data corruption on these methods. In this work we consider fairness-aware learning under arbitrary data manipulations. We show that an adversary can force any learner to return a biased classifier, with or without degrading accuracy, and that the strength of this bias increases for learning problems with underrepresented protected groups in the data. We also provide upper bounds that match these hardness results up to constant factors, by proving that two natural learning algorithms achieve order-optimal guarantees in terms of both accuracy and fairness under adversarial data manipulations.
翻訳日:2021-02-12 14:21:54 公開日:2021-02-11
# メタトロンプソンサンプリング

Meta-Thompson Sampling ( http://arxiv.org/abs/2102.06129v1 )

ライセンス: Link先を確認
Branislav Kveton, Mikhail Konobeev, Manzil Zaheer, Chih-wei Hsu, Martin Mladenov, Craig Boutilier, and Csaba Szepesvari(参考訳) マルチアームバンディットの効率的な探索は、基本的なオンライン学習問題です。 本研究では,未知の事前分布から引き出された問題インスタンスと対話することで,より深く探索することを学ぶ,トンプソンサンプリングの変種を提案する。 アルゴリズムは事前学習を行い、Meta-TSと呼びます。 Meta-TSの効率的な実装を提案し、ガウス帯で分析します。 我々の分析は,トンプソンサンプリングを後悔するベイズ層の最初の事前依存上界を導出するため,事前およびより幅広い興味を持つメタラーニングの利点を示している。 この結果は、Meta-TSが未知の先行に迅速に適応することを示す経験的評価によって補完される。

Efficient exploration in multi-armed bandits is a fundamental online learning problem. In this work, we propose a variant of Thompson sampling that learns to explore better as it interacts with problem instances drawn from an unknown prior distribution. Our algorithm meta-learns the prior and thus we call it Meta-TS. We propose efficient implementations of Meta-TS and analyze it in Gaussian bandits. Our analysis shows the benefit of meta-learning the prior and is of a broader interest, because we derive the first prior-dependent upper bound on the Bayes regret of Thompson sampling. This result is complemented by empirical evaluation, which shows that Meta-TS quickly adapts to the unknown prior.
翻訳日:2021-02-12 14:21:38 公開日:2021-02-11
# 特徴空間における多様体学習のための擬似超曲面交叉

Quadric hypersurface intersection for manifold learning in feature space ( http://arxiv.org/abs/2102.06186v1 )

ライセンス: Link先を確認
Fedor Pavutnitskiy, Sergei O. Ivanov, Evgeny Abramov, Viacheslav Borovitskiy, Artem Klochkov, Viktor Vialov, Anatolii Zaikovskii, Aleksandr Petiushko(参考訳) データが周囲のユークリッド空間の特定の部分多様体に近いという知識は、いくつかの点で有用である。 例えば、部分多様体から遠く離れた点を外れ値として自動的にマークしたり、その測地線距離を使って点間の類似度を計測したりすることができる。 多様体学習の古典的な問題は、例えば、非常に高い次元でしばしば提起される。 画像の空間や単語の表現の空間についてです 今日、コンピュータビジョンや自然言語処理などの領域で深い表現学習が行われると、この種の多くの問題は、通常数百の順序で、中程度に高い次元の問題に変換される可能性があります。 そこで本研究では,適度な高次元および大規模データセットに適した多様体学習手法を提案する。 多様体は、四次超曲面の交差の形でトレーニングデータから学習される - 単純だが表現力のあるオブジェクト。 テスト時、この多様体は任意の新しい点に対する外れ値を導入し、学習された幾何学的構造を取り入れることで与えられた類似度メートル法を改善するために使うことができる。

The knowledge that data lies close to a particular submanifold of the ambient Euclidean space may be useful in a number of ways. For instance, one may want to automatically mark any point far away from the submanifold as an outlier, or to use its geodesic distance to measure similarity between points. Classical problems for manifold learning are often posed in a very high dimension, e.g. for spaces of images or spaces of representations of words. Today, with deep representation learning on the rise in areas such as computer vision and natural language processing, many problems of this kind may be transformed into problems of moderately high dimension, typically of the order of hundreds. Motivated by this, we propose a manifold learning technique suitable for moderately high dimension and large datasets. The manifold is learned from the training data in the form of an intersection of quadric hypersurfaces -- simple but expressive objects. At test time, this manifold can be used to introduce an outlier score for arbitrary new points and to improve a given similarity metric by incorporating learned geometric structure into it.
翻訳日:2021-02-12 14:21:27 公開日:2021-02-11
# ドライバー同定の畳み込みリカレントニューラルネットワークモデルにおける運転スタイル表現

Driving Style Representation in Convolutional Recurrent Neural Network Model of Driver Identification ( http://arxiv.org/abs/2102.05843v1 )

ライセンス: Link先を確認
Sobhan Moosavi, Pravar D. Mahajan, Srinivasan Parthasarathy, Colleen Saunders-Chukwu, and Rajiv Ramnath(参考訳) 運転スタイルを識別することは、異なるドライバを区別するのに役立つバリエーションをキャプチャするために、ドライバの動作を分析するタスクです。 この作業は、使用ベースの保険、ドライバーコーチング、ドライバーアクション予測、さらには自動運転車の設計など、さまざまなアプリケーションの前提条件となっています。運転スタイルは、これらのアプリケーションに必要な必須情報をエンコードするためです。 本稿では,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)のパワーを組み合わせた,運転スタイルのための高忠実度表現を構築するためのディープニューラルネットワークアーキテクチャD-CRNNを提案する。 CNNを使用して、私たちは軌道(ターンやブレーキングイベントなど)からドライバーの行動の意味的なパターンをキャプチャします。 次に、RNNを使用して運転スタイルをエンコードするセマンティックパターン間の時間依存性を見つけます。 本研究では,実世界の大規模データセットで実施した広範囲な実験を通して,運転スタイル学習によるドライバ識別手法の有効性を実証し,最先端のディープラーニングと非ディープラーニングソリューションとの比較を行った。 これらの実験は、各ドライバの異種軌跡をサンプリングして入力データの事前処理を行い、空間記憶を防止することで、バイアス除去の有用な例を示す。 最後に, 運転者識別における異なる属性の寄与について分析し, エンジンrpm, 速度, 加速度が特徴の最良の組み合わせであることを確認した。

Identifying driving styles is the task of analyzing the behavior of drivers in order to capture variations that will serve to discriminate different drivers from each other. This task has become a prerequisite for a variety of applications, including usage-based insurance, driver coaching, driver action prediction, and even in designing autonomous vehicles; because driving style encodes essential information needed by these applications. In this paper, we present a deep-neural-network architecture, we term D-CRNN, for building high-fidelity representations for driving style, that combine the power of convolutional neural networks (CNN) and recurrent neural networks (RNN). Using CNN, we capture semantic patterns of driver behavior from trajectories (such as a turn or a braking event). We then find temporal dependencies between these semantic patterns using RNN to encode driving style. We demonstrate the effectiveness of these techniques for driver identification by learning driving style through extensive experiments conducted on several large, real-world datasets, and comparing the results with the state-of-the-art deep-learning and non-deep-learning solutions. These experiments also demonstrate a useful example of bias removal, by presenting how we preprocess the input data by sampling dissimilar trajectories for each driver to prevent spatial memorization. Finally, this paper presents an analysis of the contribution of different attributes for driver identification; we find that engine RPM, Speed, and Acceleration are the best combination of features.
翻訳日:2021-02-12 14:21:09 公開日:2021-02-11
# オブジェクトマスク提案のコントラストによる教師なしセマンティックセグメンテーション

Unsupervised Semantic Segmentation by Contrasting Object Mask Proposals ( http://arxiv.org/abs/2102.06191v1 )

ライセンス: Link先を確認
Wouter Van Gansbeke, Simon Vandenhende, Stamatios Georgoulis, Luc Van Gool(参考訳) 監視なしで画像の密集した意味表現を学べることは、コンピュータビジョンの重要な問題である。 しかし、その重要性にもかかわらず、この問題は未解明のままであり、狭い視覚領域を持つ小規模データセットの監視されていないセマンティックセグメンテーションを検討するいくつかの例外がある。 本論文では,従来,監視ケースに活用されてきたデータセットの課題に対処すべく,まず第1の試みを行う。 そこで本研究では, 画素埋め込みを学習するためのコントラスト最適化目標において, 予め規定された2段階のフレームワークを提案する。 これは、プロキシタスクやエンドツーエンドのクラスタリングに依存する既存の作業から大きく逸脱する。 さらに,オブジェクトやその部分に関する情報を含む事前情報を持つことの重要性を議論し,教師なしの方法で事前情報を得るためのいくつかの可能性について議論する。 広範な実験結果から,提案手法は既存手法よりも優れていることがわかった。 まず、学習したピクセルの埋め込みをK-Meansを使って意味群に直接クラスタ化することができる。 第二に、セマンティックセグメンテーションタスクの効果的な教師なし事前トレーニングとして機能する。 特に、PASCALでラベル付き例の1%だけを用いて学習した表現を微調整すると、7.1% mIoUで教師付き ImageNet の事前トレーニングを上回ります。 コードはhttps://github.com/w vangansbeke/Unsuperv ised-Semantic-Segmen tationで入手できる。

Being able to learn dense semantic representations of images without supervision is an important problem in computer vision. However, despite its significance, this problem remains rather unexplored, with a few exceptions that considered unsupervised semantic segmentation on small-scale datasets with a narrow visual domain. In this paper, we make a first attempt to tackle the problem on datasets that have been traditionally utilized for the supervised case. To achieve this, we introduce a novel two-step framework that adopts a predetermined prior in a contrastive optimization objective to learn pixel embeddings. This marks a large deviation from existing works that relied on proxy tasks or end-to-end clustering. Additionally, we argue about the importance of having a prior that contains information about objects, or their parts, and discuss several possibilities to obtain such a prior in an unsupervised manner. Extensive experimental evaluation shows that the proposed method comes with key advantages over existing works. First, the learned pixel embeddings can be directly clustered in semantic groups using K-Means. Second, the method can serve as an effective unsupervised pre-training for the semantic segmentation task. In particular, when fine-tuning the learned representations using just 1% of labeled examples on PASCAL, we outperform supervised ImageNet pre-training by 7.1% mIoU. The code is available at https://github.com/w vangansbeke/Unsuperv ised-Semantic-Segmen tation.
翻訳日:2021-02-12 14:20:45 公開日:2021-02-11
# 内因性および外因性オピニオンダイナミクスの解明:実験的設計アプローチ

Demarcating Endogenous and Exogenous Opinion Dynamics: An Experimental Design Approach ( http://arxiv.org/abs/2102.05954v1 )

ライセンス: Link先を確認
Paramita Koley, Avirup Saha, Sourangshu Bhattacharya, Niloy Ganguly, and Abir De(参考訳) オンラインソーシャルネットワーク(OSN)におけるネットワーク的意見拡散は、ユーザ間の社会的接触の影響によって引き起こされる内在的意見と、ニュースやフィードなどの外部的効果によって形成される外在的意見の2つのジャンルに支配されることが多い。 内因性メッセージと外因性メッセージの正確な分割は、意見モデリングの重要な手がかりとなり、予測性能が向上する。 本稿では,実験的な設計手法に基づく教師なし分類手法の一群をデザインし,平均推定誤差の異なる尺度を最小化するイベントのサブセットを選択することを目的としている。 さらに詳しくは、これらのサブセット選択タスクがNP-Hardであることを最初に示します。 次に、関連する対象関数が弱部分モジュラーであることを示し、保証付き効率的な近似アルゴリズムを鋳造することを可能にする。 最後に、Twitterからクロールされた様々な実世界のデータセットと多様な合成データセットに対する提案の有効性を検証する。 私達の実験はさまざまなサイズの最適部分集合を選ぶことの効果を点検するunsanitizedおよびsanitizedでき事の予測の性能の検証からあります。 各種実験により,本手法は,複数の競合相手に対する意見予測の精度を有意に向上させることが判明した。

The networked opinion diffusion in online social networks (OSN) is often governed by the two genres of opinions - endogenous opinions that are driven by the influence of social contacts among users, and exogenous opinions which are formed by external effects like news, feeds etc. Accurate demarcation of endogenous and exogenous messages offers an important cue to opinion modeling, thereby enhancing its predictive performance. In this paper, we design a suite of unsupervised classification methods based on experimental design approaches, in which, we aim to select the subsets of events which minimize different measures of mean estimation error. In more detail, we first show that these subset selection tasks are NP-Hard. Then we show that the associated objective functions are weakly submodular, which allows us to cast efficient approximation algorithms with guarantees. Finally, we validate the efficacy of our proposal on various real-world datasets crawled from Twitter as well as diverse synthetic datasets. Our experiments range from validating prediction performance on unsanitized and sanitized events to checking the effect of selecting optimal subsets of various sizes. Through various experiments, we have found that our method offers a significant improvement in accuracy in terms of opinion forecasting, against several competitors.
翻訳日:2021-02-12 14:20:22 公開日:2021-02-11
# Doubtのメリット:エッジコンピューティングプラットフォームに対する不確実な認識

The Benefit of the Doubt: Uncertainty Aware Sensing for Edge Computing Platforms ( http://arxiv.org/abs/2102.05956v1 )

ライセンス: Link先を確認
Lorena Qendro, Jagmohan Chauhan, Alberto Gil C. P. Ramos, Cecilia Mascolo(参考訳) ニューラルネットワーク(NN)は、予測の推論を可能にする「信頼性」推定の尺度を欠いている。 特にヒトの健康と健康の分野において重要なことにもかかわらず、資源制約されたデバイスに適用した場合、最先端の不確実性推定技術は計算コストがかかる。 本稿では,組み込みエッジシステム上に配置されたnnsにおける予測不確実性推定のための効率的なフレームワークを提案する。 これらの組込みプラットフォームのエネルギーとレイテンシの要求を満たすため、このフレームワークは1つの前方パスと理論的に証明された正確性を持つ追加の行列乗算に基づいて予測の不確実性を提供するために、ゼロから構築されている。 私たちの目標は、すでに訓練されたディープラーニングモデルを使用して、分類タスクに焦点を当てた推論時にリソース制限されたデバイスで不確実性推定を生成することです。 この枠組みはベイジアンnnsにおける近似推論としてドロップアウトトレーニングを鋳造する理論的発展に基づいている。 ネットワークを介して畳み込み層のカスケードに階層分布を近似し、特に複数のフォワードパスを必要とする不確実性技術と同等なエネルギーと遅延要求の線形増加を要求されるため、実際は不適当であるのに対して、単一実行時の不確実性推定を最小限に抑える。 多層パーセプトロンに基づく従来の作業よりも性能と柔軟性が向上し,不確実性推定が得られることを実証した。 モバイルアプリケーションデータを用いた評価の結果,本手法はロバストで正確な不確かさを推定するだけでなく,システム性能や消費電力(最大28倍)の削減,メモリオーバヘッドの最小維持,精度向上(最大16%)といった最先端手法よりも優れていることが示された。

Neural networks (NNs) lack measures of "reliability" estimation that would enable reasoning over their predictions. Despite the vital importance, especially in areas of human well-being and health, state-of-the-art uncertainty estimation techniques are computationally expensive when applied to resource-constrained devices. We propose an efficient framework for predictive uncertainty estimation in NNs deployed on embedded edge systems with no need for fine-tuning or re-training strategies. To meet the energy and latency requirements of these embedded platforms the framework is built from the ground up to provide predictive uncertainty based only on one forward pass and a negligible amount of additional matrix multiplications with theoretically proven correctness. Our aim is to enable already trained deep learning models to generate uncertainty estimates on resource-limited devices at inference time focusing on classification tasks. This framework is founded on theoretical developments casting dropout training as approximate inference in Bayesian NNs. Our layerwise distribution approximation to the convolution layer cascades through the network, providing uncertainty estimates in one single run which ensures minimal overhead, especially compared with uncertainty techniques that require multiple forwards passes and an equal linear rise in energy and latency requirements making them unsuitable in practice. We demonstrate that it yields better performance and flexibility over previous work based on multilayer perceptrons to obtain uncertainty estimates. Our evaluation with mobile applications datasets shows that our approach not only obtains robust and accurate uncertainty estimations but also outperforms state-of-the-art methods in terms of systems performance, reducing energy consumption (up to 28x), keeping the memory overhead at a minimum while still improving accuracy (up to 16%).
翻訳日:2021-02-12 14:20:00 公開日:2021-02-11
# コンテキストベースの表現によるマルチタスク強化学習

Multi-Task Reinforcement Learning with Context-based Representations ( http://arxiv.org/abs/2102.06177v1 )

ライセンス: Link先を確認
Shagun Sodhani, Amy Zhang, Joelle Pineau(参考訳) シングルタスク学習よりもマルチタスク学習の利点は、タスク間の関係を利用して、1つのタスクのパフォーマンスを改善する能力に依存している。 表象を共有することは、タスク間で情報を共有するための重要なメカニズムであるが、その成功は、タスクの基盤となる構造がどの程度うまく捉えられるかに依存する。 現実の状況では、メタデータやタスクに関する追加情報にアクセスできますが、単一のタスクの設定だけでは、複数のタスクにまたがる関係を知らせる、新たな洞察は提供できません。 このメタデータはマルチタスク学習のパフォーマンス向上に有用だが、効果的に組み込むことは、さらなる課題となる。 知識伝達に対する効率的なアプローチは、複数のコンテキストに依存した構成可能な表現を用いて、タスクのファミリー間で共有されることを仮定する。 このフレームワークでは、メタデータは解釈可能な表現を学習し、どの表現を構成するか、どのように構成するかを伝えるコンテキストを提供するのに役立つ。 提案手法を用いて,50種類のロボット操作タスクからなるマルチタスク・ベンチマークであるMeta-Worldの最先端結果を得る。

The benefit of multi-task learning over single-task learning relies on the ability to use relations across tasks to improve performance on any single task. While sharing representations is an important mechanism to share information across tasks, its success depends on how well the structure underlying the tasks is captured. In some real-world situations, we have access to metadata, or additional information about a task, that may not provide any new insight in the context of a single task setup alone but inform relations across multiple tasks. While this metadata can be useful for improving multi-task learning performance, effectively incorporating it can be an additional challenge. We posit that an efficient approach to knowledge transfer is through the use of multiple context-dependent, composable representations shared across a family of tasks. In this framework, metadata can help to learn interpretable representations and provide the context to inform which representations to compose and how to compose them. We use the proposed approach to obtain state-of-the-art results in Meta-World, a challenging multi-task benchmark consisting of 50 distinct robotic manipulation tasks.
翻訳日:2021-02-12 14:19:35 公開日:2021-02-11
# Langevin Diffusion と Noisy Gradient Diescent の差分プライバシーダイナミクス

Differential Privacy Dynamics of Langevin Diffusion and Noisy Gradient Descent ( http://arxiv.org/abs/2102.05855v1 )

ライセンス: Link先を確認
Rishav Chourasia, Jiayuan Ye, Reza Shokri(参考訳) 我々は,ランジュバン拡散におけるプライバシ損失のダイナミクスをモデル化し,ノイズ勾配降下アルゴリズムに拡張する。 プライバシーの損失は指数関数的に速く収束する。 これは、(r\'enyi)プライバシの損失がトレーニングイテレーションで常に増加する差分プライベート(stochastic)勾配降下アルゴリズムの事前プライバシ解析を大幅に改善する。 差分プライバシーにおける構成に基づく手法とは異なり、我々のプライバシー分析は、トレーニング中のノイズの勾配(またはパラメータ)が敵に明らかにできると仮定しない。 本解析では,アルゴリズムの中間パラメータ分布によるプライバシ損失のダイナミクスを追跡することで,収束によるプライバシ増幅を考慮できる。 当社のプライバシ解析が厳密であることを証明すると同時に,強い凸,滑らか,リプシッツ損失関数のユーティリティ解析も提供しています。

We model the dynamics of privacy loss in Langevin diffusion and extend it to the noisy gradient descent algorithm: we compute a tight bound on R\'enyi differential privacy and the rate of its change throughout the learning process. We prove that the privacy loss converges exponentially fast. This significantly improves the prior privacy analysis of differentially private (stochastic) gradient descent algorithms, where (R\'enyi) privacy loss constantly increases over the training iterations. Unlike composition-based methods in differential privacy, our privacy analysis does not assume that the noisy gradients (or parameters) during the training could be revealed to the adversary. Our analysis tracks the dynamics of privacy loss through the algorithm's intermediate parameter distributions, thus allowing us to account for privacy amplification due to convergence. We prove that our privacy analysis is tight, and also provide a utility analysis for strongly convex, smooth and Lipshitz loss functions.
翻訳日:2021-02-12 14:19:03 公開日:2021-02-11
# ランクへの学習のための規則化による公平性

Fairness Through Regularization for Learning to Rank ( http://arxiv.org/abs/2102.05996v1 )

ライセンス: Link先を確認
Nikola Konstantinov, Christoph H. Lampert(参考訳) 近年のランキング適用の多さを考えると、エンドユーザー間の信頼を高めるためには、自動ランキングシステムに関する公平性の懸念に対処する必要がある。 フェアランキングに関するこれまでの研究は、主にアプリケーション固有のフェアネスの概念に焦点を当てており、しばしばオンライン広告に合わせており、学習をプロセスの一部として考えることはめったにない。 本稿では,二進分類から学習からランク付けコンテキストへ,多数のフェアネス概念を転送する方法を示す。 我々の形式主義は、証明可能な一般化保証を伴う公正目標を組み込む方法の設計を可能にする。 本手法は, モデル品質の損失がほとんどなく, 公平性が大幅に向上できることを実験的に評価した。

Given the abundance of applications of ranking in recent years, addressing fairness concerns around automated ranking systems becomes necessary for increasing the trust among end-users. Previous work on fair ranking has mostly focused on application-specific fairness notions, often tailored to online advertising, and it rarely considers learning as part of the process. In this work, we show how to transfer numerous fairness notions from binary classification to a learning to rank context. Our formalism allows us to design a method for incorporating fairness objectives with provable generalization guarantees. An extensive experimental evaluation shows that our method can improve ranking fairness substantially with no or only little loss of model quality.
翻訳日:2021-02-12 14:18:47 公開日:2021-02-11
# 河川網の極端部からの因果的発見

Causal Discovery of a River Network from its Extremes ( http://arxiv.org/abs/2102.06197v1 )

ライセンス: Link先を確認
Ngoc Mai Tran and Johannes Buck and Claudia Kl\"uppelberg(参考訳) 極限に対する因果推論は、ランダム変数の大きい観測値間の因果関係を発見することを目的とする。 過去数年間、ドナウデータセットをベンチマークとして、Hidden River問題を解決するための多くの方法が提案されてきた。 本稿では,既存の手法より優れたハイデン川問題の解法である,新しい簡単なアルゴリズムである \QTree を提案する。 \QTree\ は有向グラフを返し、ドナウ川とコロラド川下流からの新しいデータでほぼ完全な回復を達成します。 欠落したデータを扱うことができ、自動パラメータチューニング手順を持ち、時間$O(n |V|^2)$で実行し、$n$は観測数、$|V|$はグラフ内のノード数である。 \qtree\ は最大線形ベイズネットワークモデルの質的側面に依存する。

Causal inference for extremes aims to discover cause and effect relations between large observed values of random variables. Over the last years, a number of methods have been proposed for solving the Hidden River Problem, with the Danube data set as benchmark. In this paper, we provide \QTree, a new and simple algorithm to solve the Hidden River Problem that outperforms existing methods. \QTree\ returns a directed graph and achieves almost perfect recovery on the Danube as well as on new data from the Lower Colorado River. It can handle missing data, has an automated parameter tuning procedure, and runs in time $O(n |V|^2)$, where $n$ is the number of observations and $|V|$ the number of nodes in the graph. \QTree\ relies on qualitative aspects of the max-linear Bayesian network model.
翻訳日:2021-02-12 14:18:35 公開日:2021-02-11
# 神経BRDF表現と重要度サンプリング

Neural BRDF Representation and Importance Sampling ( http://arxiv.org/abs/2102.05963v1 )

ライセンス: Link先を確認
Alejandro Sztrajman, Gilles Rainer, Tobias Ritschel, Tim Weyrich(参考訳) 実世界の物質外観の制御されたキャプチャは、高度に現実的な反射率データの集計セットを得る。 しかし実際には、その高いメモリフットプリントは、オリジナルに忠実でありながら、レンダリングに効率的に使用できる表現に圧縮する必要がある。 レンダリング中に効率的なクエリに適さない高忠実度のアレイ圧縮戦略を適用するか、表現力に欠けるコンパクトな分析モデルを適用するかのいずれかによって、外観符号化の以前の作業は、多くの場合、これらの要件の1つを優先しました。 本稿では, BRDFデータをコンパクトなニューラルネットワークで表現し, 高精度な再構成と, 反射率の補間を組み込んだ効率的な実用的なレンダリングを実現する。 BRDFを軽量ネットワークとしてエンコードし、スペクトルハイライトの正確な再構築に不可欠なアダプティブアンギュラサンプリングによるトレーニングスキームを提案します。 さらに,重要サンプリングに適応する新しい手法を提案する。トレーニングされたネットワークを逆転するのではなく,重要サンプリングが知られている解析BRDFのパラメータにマッピング可能な埋め込みを学習する。 複数の実世界のデータセットから得られた異方性および異方性BRDFの符号化結果と、2つの異なる解析モデルにマッピングされた異方性BRDFのサンプリング性能を評価する。

Controlled capture of real-world material appearance yields tabulated sets of highly realistic reflectance data. In practice, however, its high memory footprint requires compressing into a representation that can be used efficiently in rendering while remaining faithful to the original. Previous works in appearance encoding often prioritised one of these requirements at the expense of the other, by either applying high-fidelity array compression strategies not suited for efficient queries during rendering, or by fitting a compact analytic model that lacks expressiveness. We present a compact neural network-based representation of BRDF data that combines high-accuracy reconstruction with efficient practical rendering via built-in interpolation of reflectance. We encode BRDFs as lightweight networks, and propose a training scheme with adaptive angular sampling, critical for the accurate reconstruction of specular highlights. Additionally, we propose a novel approach to make our representation amenable to importance sampling: rather than inverting the trained networks, we learn an embedding that can be mapped to parameters of an analytic BRDF for which importance sampling is known. We evaluate encoding results on isotropic and anisotropic BRDFs from multiple real-world datasets, and importance sampling performance for isotropic BRDFs mapped to two different analytic models.
翻訳日:2021-02-12 14:18:23 公開日:2021-02-11
# 自動符号化深部画像を用いたX線画像中の気胸の探索

Searching for Pneumothorax in X-Ray Images Using Autoencoded Deep Features ( http://arxiv.org/abs/2102.06096v1 )

ライセンス: Link先を確認
Antonio Sze-To, Abtin Riasatian, Hamid R. Tizhoosh(参考訳) 破裂または低下した肺である気胸の迅速な診断と治療は、死亡を避けるために重要です。 気胸は通常、経験豊富な放射線科医による視察を通して胸部x線画像で検出される。 しかし、検出率は極めて低い。 そのため、放射線科医を補助する自動検出システムが必要である。 多くの応用において、ディープラーニング分類器で一般的に報告される高い精度レベルにもかかわらず、多くの高品質のラベル付き画像の欠如と解釈可能性の欠如により、臨床において有用ではない可能性がある。 あるいは、過去のケースのアーカイブを検索してマッチング画像を見つけることは、一致した診断されたケースのメタデータにアクセスすることで、"仮想第2の意見"として機能する可能性がある。 画像検索をトリージング/診断ツールとして使用するためには、胸部x線画像にまず識別子、すなわち深い特徴をタグ付けする必要がある。 そして、クエリーチェストX線画像が与えられた場合、トップk検索画像の多数投票により、より説明しやすい出力が得られる。 画像検索は臨床的により有効であるが、実際の実践に近い規模で検出性能を調査する必要がある。 公開データセットを3つ組み合わせて、550,000以上の胸部x線画像を持つリポジトリを組み立てました。 左胸側,右下肢,胸部全画像の3つの入力を圧縮した胸部X線画像検索用Autoencoding Thorax Net(短いAutoThorax-Net)を開発した。 実験結果から,AutoThorax-Net機能に基づく画像検索により,実世界展開への道筋となる高い識別率が得られることが示された。 194,608画像(気胸,正常)で半自動検索で92%のauc精度を,551,383画像(正常,気胸,その他多くの胸疾患)で完全自動検索で82%のauc精度を得た。

Fast diagnosis and treatment of pneumothorax, a collapsed or dropped lung, is crucial to avoid fatalities. Pneumothorax is typically detected on a chest X-ray image through visual inspection by experienced radiologists. However, the detection rate is quite low. Therefore, there is a strong need for automated detection systems to assist radiologists. Despite the high accuracy levels generally reported for deep learning classifiers in many applications, they may not be useful in clinical practice due to the lack of large number of high-quality labelled images as well as a lack of interpretation possibility. Alternatively, searching in the archive of past cases to find matching images may serve as a 'virtual second opinion' through accessing the metadata of matched evidently diagnosed cases. To use image search as a triaging/diagnosis tool, all chest X-ray images must first be tagged with identifiers, i.e., deep features. Then, given a query chest X-ray image, the majority vote among the top k retrieved images can provide a more explainable output. While image search can be clinically more viable, its detection performance needs to be investigated at a scale closer to real-world practice. We combined 3 public datasets to assemble a repository with more than 550,000 chest X-ray images. We developed the Autoencoding Thorax Net (short AutoThorax-Net) for image search in chest radiographs compressing three inputs: the left chest side, the flipped right side, and the entire chest image. Experimental results show that image search based on AutoThorax-Net features can achieve high identification rates providing a path towards real-world deployment. We achieved 92% AUC accuracy for a semi-automated search in 194,608 images (pneumothorax and normal) and 82% AUC accuracy for fully automated search in 551,383 images (normal, pneumothorax and many other chest diseases).
翻訳日:2021-02-12 14:18:02 公開日:2021-02-11
# ガウス過程帯域におけるLenient RegretとGood-Action Identification

Lenient Regret and Good-Action Identification in Gaussian Process Bandits ( http://arxiv.org/abs/2102.05793v1 )

ライセンス: Link先を確認
Xu Cai, Selwyn Gomes, Jonathan Scarlett(参考訳) 本稿では,一定のしきい値を超える任意の関数値が「十分」であることを示す緩和最適化基準の下でのガウス過程(gp)バンディットの問題について検討する。 理論面では、すべての準最適作用がゼロペナルティを生じさせるような様々な \emph{\lenient regret} の概念を考察し、GP-UCB に対する寛大な後悔と除去アルゴリズムの上限を与え、通常の $O(\sqrt{T})$ 項を回避し(時間的地平線で)関数の最大値に非常に近いズームから得られる。 さらに,これらの上界をアルゴリズムに依存しない下界で補う。 実用面では、既定のしきい値に従って単一の「良いアクション」を見つける問題を検討し、閾値の知識を利用するいくつかの良いアクション識別アルゴリズムを導入する。 このようなアルゴリズムは、標準的な最適化手法よりも高速に良い作用を得られることが実験的に判明した。

In this paper, we study the problem of Gaussian process (GP) bandits under relaxed optimization criteria stating that any function value above a certain threshold is "good enough". On the theoretical side, we study various \emph{\lenient regret} notions in which all near-optimal actions incur zero penalty, and provide upper bounds on the lenient regret for GP-UCB and an elimination algorithm, circumventing the usual $O(\sqrt{T})$ term (with time horizon $T$) resulting from zooming extremely close towards the function maximum. In addition, we complement these upper bounds with algorithm-independen t lower bounds. On the practical side, we consider the problem of finding a single "good action" according to a known pre-specified threshold, and introduce several good-action identification algorithms that exploit knowledge of the threshold. We experimentally find that such algorithms can often find a good action faster than standard optimization-based approaches.
翻訳日:2021-02-12 14:17:31 公開日:2021-02-11
# テキスト圧縮支援トランスエンコーディング

Text Compression-aided Transformer Encoding ( http://arxiv.org/abs/2102.05951v1 )

ライセンス: Link先を確認
Zuchao Li, Zhuosheng Zhang, Hai Zhao, Rui Wang, Kehai Chen, Masao Utiyama, and Eiichiro Sumita(参考訳) テキストエンコーディングは自然言語処理(NLP)において最も重要なステップの1つである。 現在の最先端のTransformerエンコーダにおける自己保持機構により、多くのNLPタスクのパフォーマンスが大幅に改善されている。 Transformerエンコーダは、結果の表現における一般的な情報を効果的にキャプチャすることができるが、バックボーン情報(入力テキストのギストを意味する)は特に焦点を当てていない。 本論文では、トランスフォーマー符号化を強化するための明示的で暗黙的なテキスト圧縮アプローチを提案し、符号化に大きく依存するいくつかの典型的な下流タスクでこのアプローチを使用してモデルを評価する。 明示的なテキスト圧縮アプローチでは、テキスト圧縮に専用モデルを使用しますが、暗黙的なテキスト圧縮アプローチでは、テキスト圧縮を扱うためにメインモデルに追加モジュールを追加するだけです。 バックボーンのソース側融合、ターゲット側融合、および両面融合の3つの統合方法を提案し、バックボーン情報をさまざまな下流タスクのためのトランスフォーマーベースのモデルに統合します。 評価の結果,提案した明示的かつ暗黙的なテキスト圧縮手法は,強いベースラインと比較して結果を改善することがわかった。 したがって、エンコーディングをベースラインモデルと比較すると、テキスト圧縮はエンコーダがより良い言語表現を学ぶのに役立ちます。

Text encoding is one of the most important steps in Natural Language Processing (NLP). It has been done well by the self-attention mechanism in the current state-of-the-art Transformer encoder, which has brought about significant improvements in the performance of many NLP tasks. Though the Transformer encoder may effectively capture general information in its resulting representations, the backbone information, meaning the gist of the input text, is not specifically focused on. In this paper, we propose explicit and implicit text compression approaches to enhance the Transformer encoding and evaluate models using this approach on several typical downstream tasks that rely on the encoding heavily. Our explicit text compression approaches use dedicated models to compress text, while our implicit text compression approach simply adds an additional module to the main model to handle text compression. We propose three ways of integration, namely backbone source-side fusion, target-side fusion, and both-side fusion, to integrate the backbone information into Transformer-based models for various downstream tasks. Our evaluation on benchmark datasets shows that the proposed explicit and implicit text compression approaches improve results in comparison to strong baselines. We therefore conclude, when comparing the encodings to the baseline models, text compression helps the encoders to learn better language representations.
翻訳日:2021-02-12 14:16:44 公開日:2021-02-11
# 理論から実践へ向けた人工知能のメタモデルと枠組み

A Metamodel and Framework for Artificial General Intelligence From Theory to Practice ( http://arxiv.org/abs/2102.06112v1 )

ライセンス: Link先を確認
Hugo Latapie, Ozkan Kilic, Gaowen Liu, Yan Yan, Ramana Kompella, Pei Wang, Kristinn R. Thorisson, Adam Lawrence, Yuhong Sun, Jayanth Srinivasa(参考訳) 本稿では,自律学習と適応性を大幅に向上させるメタモデルに基づく知識表現を提案する。 推論や知識グラフなどを活用したハイブリッド機械学習/シンボリックAIシステムへの関心が高まりつつある一方で、知識の明確な定義と、知識の生成と操作を導くメタモデルの両方が依然として必要であることが分かっています。 本論文で紹介するメタモデルの利点には、シンボル接地問題に対する解決策、累積学習、および連合学習が含まれる。 メタモデルは、時系列分析、コンピュータビジョン、自然言語理解など幅広い問題に適用し、メタモデルは、機械学習から推論エンジンによるグラフネットワーク解析、学習まで、多種多様な学習メカニズムを可能にし、高度に相乗的な方法で相互運用できることを見出した。 我々のメタモデルに基づくプロジェクトは、常に前例のない精度、性能、一般化能力を示してきた。 本稿は、AGIの最先端アプローチ、最近のAGIを意図した研究、グラニュラーコンピューティングコミュニティ、およびAlfred Korzybskiの一般的な意味論に着想を得たものである。 メタモデルの驚くべき結果の1つは、新しいレベルの自律学習と機械学習の最適機能を可能にするだけでなく、人間の認知を改善する方法を理解するための道に光を当てることである。

This paper introduces a new metamodel-based knowledge representation that significantly improves autonomous learning and adaptation. While interest in hybrid machine learning / symbolic AI systems leveraging, for example, reasoning and knowledge graphs, is gaining popularity, we find there remains a need for both a clear definition of knowledge and a metamodel to guide the creation and manipulation of knowledge. Some of the benefits of the metamodel we introduce in this paper include a solution to the symbol grounding problem, cumulative learning, and federated learning. We have applied the metamodel to problems ranging from time series analysis, computer vision, and natural language understanding and have found that the metamodel enables a wide variety of learning mechanisms ranging from machine learning, to graph network analysis and learning by reasoning engines to interoperate in a highly synergistic way. Our metamodel-based projects have consistently exhibited unprecedented accuracy, performance, and ability to generalize. This paper is inspired by the state-of-the-art approaches to AGI, recent AGI-aspiring work, the granular computing community, as well as Alfred Korzybski's general semantics. One surprising consequence of the metamodel is that it not only enables a new level of autonomous learning and optimal functioning for machine intelligences, but may also shed light on a path to better understanding how to improve human cognition.
翻訳日:2021-02-12 14:16:22 公開日:2021-02-11
# ZeroScatter: 散乱メディアによる長距離イメージングとビジョンのためのドメイン転送

ZeroScatter: Domain Transfer for Long Distance Imaging and Vision through Scattering Media ( http://arxiv.org/abs/2102.05847v1 )

ライセンス: Link先を確認
Zheng Shi, Ethan Tseng, Mario Bijelic, Werner Ritter, Felix Heide(参考訳) 雪、雨、霧などの逆の気象条件は、屋外のシナリオにおける人間とコンピュータの両方の視界に課題をもたらす。 これらの環境条件を扱うことは、特に自動運転車、ロボティクス、ドローンなど、安全な意思決定に不可欠である。 しかし今日の監視された画像と視覚のアプローチのほとんどは、これらのデータセットの異常値として濃霧、雪、豪雨など、良質な気象条件に偏った実世界で収集されたトレーニングデータに依存している。 トレーニングデータがなければ、ペアリングデータだけでなく、既存の自動運転車はしばしば良好な条件に制限され、濃霧や雪が検出されると停止します。 本研究では,合成と間接を組み合わせることで,教師付きトレーニングデータの欠如に対処した。 我々は、悪天候下で撮影されたRGBのみのキャプチャーを、晴れた昼間のシーンに変換するドメイン転送手法ZeroScatterを提案する。 ZeroScatterは、モデルベース、テンポラル、マルチビュー、マルチモーダル、および敵対的キューを共同で活用し、無対の偏見のないデータのトレーニングを可能にします。 提案手法は実世界捕捉法を用いて評価し,制御フォグチャンバー測定において2.8dbpsnrで既存の単眼非散乱法を上回った。

Adverse weather conditions, including snow, rain, and fog pose a challenge for both human and computer vision in outdoor scenarios. Handling these environmental conditions is essential for safe decision making, especially in autonomous vehicles, robotics, and drones. Most of today's supervised imaging and vision approaches, however, rely on training data collected in the real world that is biased towards good weather conditions, with dense fog, snow, and heavy rain as outliers in these datasets. Without training data, let alone paired data, existing autonomous vehicles often limit themselves to good conditions and stop when dense fog or snow is detected. In this work, we tackle the lack of supervised training data by combining synthetic and indirect supervision. We present ZeroScatter, a domain transfer method for converting RGB-only captures taken in adverse weather into clear daytime scenes. ZeroScatter exploits model-based, temporal, multi-view, multi-modal, and adversarial cues in a joint fashion, allowing us to train on unpaired, biased data. We assess the proposed method using real-world captures, and the proposed method outperforms existing monocular de-scattering approaches by 2.8 dB PSNR on controlled fog chamber measurements.
翻訳日:2021-02-12 14:15:45 公開日:2021-02-11
# 自動運転における視覚知覚のコーナーケース--検出アプローチに関するガイダンス

Corner Cases for Visual Perception in Automated Driving: Some Guidance on Detection Approaches ( http://arxiv.org/abs/2102.05897v1 )

ライセンス: Link先を確認
Jasmin Breitenstein and Jan-Aike Term\"ohlen and Daniel Lipinski and Tim Fingscheidt(参考訳) 自動運転は、アクティブな研究コミュニティだけでなく、主流メディアのレポートでも大きな関心を集めている。 このようなインテリジェントな車両の視覚的認識は、ディープラーニング技術の進歩によって過去10年間に大きく進歩してきたが、いくつかの課題はまだ残っている。 そのような課題の1つは、コーナーケースの検出です。 運転中に起こる予期せぬ、未知の状況である。 従来の視覚認識方法は、トレーニング中にコーナーケースが目撃されていないため、検出できないことが多い。 したがって、その検出は極めて安全であり、大量の収集データに適用して適切なトレーニングデータを選択することができる。 コーナーケースの信頼性の高い検出は、さらにデータ選択手順を自動化し、自動運転の安全性を高めるだけでなく、新しい技術が公衆に肯定的に受け入れられることにも影響を与える。 本研究では,各レベルの例を拡張して,異なるレベルにおけるコーナーケースの事前の体系化を継続する。 さらに,検出アプローチを異なるカテゴリにグループ化し,コーナーケースレベルとリンクする。 したがって、技術的に検出する方法に関する特定のコーナーケースと基本的なガイドラインを示すための指示を提供します。

Automated driving has become a major topic of interest not only in the active research community but also in mainstream media reports. Visual perception of such intelligent vehicles has experienced large progress in the last decade thanks to advances in deep learning techniques but some challenges still remain. One such challenge is the detection of corner cases. They are unexpected and unknown situations that occur while driving. Conventional visual perception methods are often not able to detect them because corner cases have not been witnessed during training. Hence, their detection is highly safety-critical, and detection methods can be applied to vast amounts of collected data to select suitable training data. A reliable detection of corner cases will not only further automate the data selection procedure and increase safety in autonomous driving but can thereby also affect the public acceptance of the new technology in a positive manner. In this work, we continue a previous systematization of corner cases on different levels by an extended set of examples for each level. Moreover, we group detection approaches into different categories and link them with the corner case levels. Hence, we give directions to showcase specific corner cases and basic guidelines on how to technically detect them.
翻訳日:2021-02-12 14:15:22 公開日:2021-02-11
# HyperPocket: 生成ポイントクラウドの補完

HyperPocket: Generative Point Cloud Completion ( http://arxiv.org/abs/2102.05973v1 )

ライセンス: Link先を確認
Przemys{\l}aw Spurek, Artur Kasymov, Marcin Mazur, Diana Janik, S{\l}awomir Tadeja, {\L}ukasz Struski, Jacek Tabor, Tomasz Trzci\'nski(参考訳) 現代の登録装置で現実のシーンをスキャンすることは、通常、スキャンプロセスと3D閉塞の制限のために不完全な点雲表現を与える。 したがって、そのような部分表現の完成は、多くのコンピュータビジョンアプリケーションにとって基本的な課題である。 既存のアプローチのほとんどは、実際のシナリオとは程遠い、人工的な環境で個々の3dオブジェクトを再構築することを学ぶことによって、この問題を解決しようとしている。 本研究では,ポイントクラウド完成の問題を物体幻覚タスクに再構成する。 そこで、HyperPocketと呼ばれる新しいオートエンコーダベースのアーキテクチャを導入し、遅延表現を解き放ち、結果として完成した3Dポイントクラウドの複数のバリアントを生成することができる。 ポイントクラウド処理を2つの不整合データストリームに分割し、ハイパーネットワークパラダイムを活用して、欠落したオブジェクト部分によって残る、ポケットと呼ばれるスペースを埋める。 その結果、生成された点雲は滑らかなだけでなく、その場面と幾何的に一致している。 本手法は他の最先端モデルと競合する性能を提供し,多くの新規アプリケーションを実現する。

Scanning real-life scenes with modern registration devices typically give incomplete point cloud representations, mostly due to the limitations of the scanning process and 3D occlusions. Therefore, completing such partial representations remains a fundamental challenge of many computer vision applications. Most of the existing approaches aim to solve this problem by learning to reconstruct individual 3D objects in a synthetic setup of an uncluttered environment, which is far from a real-life scenario. In this work, we reformulate the problem of point cloud completion into an object hallucination task. Thus, we introduce a novel autoencoder-based architecture called HyperPocket that disentangles latent representations and, as a result, enables the generation of multiple variants of the completed 3D point clouds. We split point cloud processing into two disjoint data streams and leverage a hypernetwork paradigm to fill the spaces, dubbed pockets, that are left by the missing object parts. As a result, the generated point clouds are not only smooth but also plausible and geometrically consistent with the scene. Our method offers competitive performances to the other state-of-the-art models, and it enables a~plethora of novel applications.
翻訳日:2021-02-12 14:15:05 公開日:2021-02-11
# 局所条件アトラスを用いた3次元曲面マニホールドのモデリング

Modeling 3D Surface Manifolds with a Locally Conditioned Atlas ( http://arxiv.org/abs/2102.05984v1 )

ライセンス: Link先を確認
Przemys{\l}aw Spurek, Sebastian Winczowski, Maciej Zi\k{e}ba, Tomasz Trzci\'nski, Kacper Kania(参考訳) 最近提案された3次元オブジェクト再構成法は,表面を近似した平面パッチの集合であるアトラスを用いたメッシュを表現する。 しかし、実際のシナリオでの彼らの応用は、再構成されたオブジェクトの表面が不連続を含んでいるため、最終メッシュの品質が低下するため、限られている。 これは主に個々のパッチの独立処理によって引き起こされるものであり、本研究では、パッチ頂点周辺の局所的な一貫性を維持することにより、この制限を緩和することを仮定する。 そこで、再生モデルで3Dオブジェクトを階層的に表現するためのフレームワークであるLoCondA(Locally Conditioned Atlas)を紹介します。 第一に、モデルは物体の点雲を球体にマッピングする。 第二に、球面前処理を利用することで、球面上および対象オブジェクト上で局所的に一貫したマッピングを強制する。 このようにして、その球面上のメッシュクワッドをサンプリングし、オブジェクトの多様体に投影することができる。 LoCondAでは、縫合するクワッドを維持しながら、トポロジカルに多様なオブジェクトを生成できる。 提案手法は, コンペティタに匹敵する品質メッシュを生産しながら, 構造的にコヒーレントな再構築を提供する。

Recently proposed 3D object reconstruction methods represent a mesh with an atlas - a set of planar patches approximating the surface. However, their application in a real-world scenario is limited since the surfaces of reconstructed objects contain discontinuities, which degrades the quality of the final mesh. This is mainly caused by independent processing of individual patches, and in this work, we postulate to mitigate this limitation by preserving local consistency around patch vertices. To that end, we introduce a Locally Conditioned Atlas (LoCondA), a framework for representing a 3D object hierarchically in a generative model. Firstly, the model maps a point cloud of an object into a sphere. Secondly, by leveraging a spherical prior, we enforce the mapping to be locally consistent on the sphere and on the target object. This way, we can sample a mesh quad on that sphere and project it back onto the object's manifold. With LoCondA, we can produce topologically diverse objects while maintaining quads to be stitched together. We show that the proposed approach provides structurally coherent reconstructions while producing meshes of quality comparable to the competitors.
翻訳日:2021-02-12 14:14:46 公開日:2021-02-11
# 歯科用cbctにおける歯の3次元識別と分節化の完全自動化法

A fully automated method for 3D individual tooth identification and segmentation in dental CBCT ( http://arxiv.org/abs/2102.06060v1 )

ライセンス: Link先を確認
Tae Jun Jang, Kang Cheol Kim, Hyun Cheol Cho, Jin Keun Seo(参考訳) コーンビームコンピュータ断層撮影(cbct)画像からの3次元(3d)個別歯の高精度・自動分割は,隣接歯とその周辺歯槽骨との分離が困難であるため,課題である。 そこで本研究では,歯科用CBCT画像から3次元個別歯を同定・分別する完全自動化手法を提案する。 提案手法は,深層学習に基づく階層的マルチステップモデルの開発により,前述の困難に対処した。 まず、上下顎パノラマ画像を自動的に生成し、高次元データによる計算複雑性と限られたトレーニングデータセットに関連する次元の呪いを克服する。 得られた2Dパノラマ画像を使用して、2D個々の歯を特定し、3D個々の歯の関心領域(ROI)をキャプチャします。 最後に、ゆるいロースとタイトなロースを用いて、正確な3d個別歯の分割を実現する。 実験結果から, 本法は歯の識別に93.35%のF1スコア, 個々の3次元歯のセグメンテーションに94.79%のDice類似係数を達成できた。 提案手法は, デジタル歯科治療に有効な臨床・実践的枠組みを提供するものである。

Accurate and automatic segmentation of three-dimensional (3D) individual teeth from cone-beam computerized tomography (CBCT) images is a challenging problem because of the difficulty in separating an individual tooth from adjacent teeth and its surrounding alveolar bone. Thus, this paper proposes a fully automated method of identifying and segmenting 3D individual teeth from dental CBCT images. The proposed method addresses the aforementioned difficulty by developing a deep learning-based hierarchical multi-step model. First, it automatically generates upper and lower jaws panoramic images to overcome the computational complexity caused by high-dimensional data and the curse of dimensionality associated with limited training dataset. The obtained 2D panoramic images are then used to identify 2D individual teeth and capture loose- and tight- regions of interest (ROIs) of 3D individual teeth. Finally, accurate 3D individual tooth segmentation is achieved using both loose and tight ROIs. Experimental results showed that the proposed method achieved an F1-score of 93.35% for tooth identification and a Dice similarity coefficient of 94.79% for individual 3D tooth segmentation. The results demonstrate that the proposed method provides an effective clinical and practical framework for digital dentistry.
翻訳日:2021-02-12 14:14:29 公開日:2021-02-11
# Deep Photo Scan:スマートフォンの写真スキャンにおける現実世界の劣化処理のための半教師付き学習

Deep Photo Scan: Semi-supervised learning for dealing with the real-world degradation in smartphone photo scanning ( http://arxiv.org/abs/2102.06120v1 )

ライセンス: Link先を確認
Man M. Ho, Jinjia Zhou(参考訳) 物理的写真はスマートフォンで便利にスキャンでき、デジタル版として永久に保存できるが、スキャンされた写真は正常に復元されない。 1つの解決策は、監視されたディープニューラルネットワークを多くのデジタル写真と対応するスキャンされた写真にトレーニングすることです。 しかし、人間のアノテーションは、限られたトレーニングデータに繋がる膨大なリソースを消費する。 以前の作品では、画像処理技術を使って劣化をシミュレートしてトレーニングペアを作成する。 合成画像は、宇宙空間で完全にスキャンされた写真で作られています。 それでも、実際のレンズのデフォーカス、照明条件、印刷による詳細の喪失、さまざまな写真素材などにより、スマートフォンの写真スキャンの実際の劣化は未解決のままだ。 そこで本研究では,半教師学習に基づくDPS(Deep Photo Scan)を提案する。 まず,DIV2K-SCANデータセットをスマートフォンでスキャンした写真復元のために提案する。 第2に,div2k-scanを用いて,高品質画像を実際のスマートフォンでスキャンしたかのようにデグレードする方法を学習し,非スキャン写真の擬似スキャン写真を生成する。 最後に, 半監督的手法のスキャン・擬似スキャン写真について, 高品質画像 --> 実/擬似スキャン写真 --> 再構成画像というサイクルプロセスで訓練することを提案する。 提案する半教師付きスキームは教師付きエラーと教師なしエラーのバランスを保ちつつ、不完全な擬似入力を制限するよう最適化する。 その結果,提案したDPScanは,スマートフォン写真スキャンにおけるベースラインアーキテクチャ,最先端の学術研究,産業製品よりも定量的に,質的に優れていることがわかった。

Physical photographs now can be conveniently scanned by smartphones and stored forever as a digital version, but the scanned photos are not restored well. One solution is to train a supervised deep neural network on many digital photos and the corresponding scanned photos. However, human annotation costs a huge resource leading to limited training data. Previous works create training pairs by simulating degradation using image processing techniques. Their synthetic images are formed with perfectly scanned photos in latent space. Even so, the real-world degradation in smartphone photo scanning remains unsolved since it is more complicated due to real lens defocus, lighting conditions, losing details via printing, various photo materials, and more. To solve these problems, we propose a Deep Photo Scan (DPScan) based on semi-supervised learning. First, we present the way to produce real-world degradation and provide the DIV2K-SCAN dataset for smartphone-scanned photo restoration. Second, by using DIV2K-SCAN, we adopt the concept of Generative Adversarial Networks to learn how to degrade a high-quality image as if it were scanned by a real smartphone, then generate pseudo-scanned photos for unscanned photos. Finally, we propose to train on the scanned and pseudo-scanned photos representing a semi-supervised approach with a cycle process as: high-quality images --> real-/pseudo-scanned photos --> reconstructed images. The proposed semi-supervised scheme can balance between supervised and unsupervised errors while optimizing to limit imperfect pseudo inputs but still enhance restoration. As a result, the proposed DPScan quantitatively and qualitatively outperforms its baseline architecture, state-of-the-art academic research, and industrial products in smartphone photo scanning.
翻訳日:2021-02-12 14:14:06 公開日:2021-02-11
# スケッチ彩色における逆セグメンテーション損失

Adversarial Segmentation Loss for Sketch Colorization ( http://arxiv.org/abs/2102.06192v1 )

ライセンス: Link先を確認
Samet Hicsonmez, Nermin Samet, Emre Akbas, Pinar Duygulu(参考訳) スケッチやエッジマップからカラー画像を生成する新しい方法を紹介します。 現在の方法は、追加のユーザガイダンスを必要とするか、あるいは"ペア化"翻訳アプローチに制限されている。 セグメンテーション情報はスケッチのカラー化に有用なガイダンスとなるかもしれない。 そこで本研究では,汎用panopticセグメンテーションネットワークが提供する意味的イメージセグメンテーションを活用し,新たな逆損失関数を作成することを提案する。 我々の損失関数は任意のベースラインGANモデルに統合できる。 本手法は,セグメンテーションラベルを含むデータセットに限らず,"不適切な"翻訳タスクのトレーニングを行うことができる。 本手法は, 質的, 量的, ユーザ的分析を用いて, 屋内, 屋外, 子どものイラストレーション画像にまたがる4つの異なるデータセットに対して有効性を示す。 私たちのモデルは、FIDメトリックのベースラインを最大35ポイント改善します。 私たちのコードと事前トレーニングされたモデルは、https://github.com/g iddyyupp/AdvSegLoss. comで参照できます。

We introduce a new method for generating color images from sketches or edge maps. Current methods either require some form of additional user-guidance or are limited to the "paired" translation approach. We argue that segmentation information could provide valuable guidance for sketch colorization. To this end, we propose to leverage semantic image segmentation, as provided by a general purpose panoptic segmentation network, to create an additional adversarial loss function. Our loss function can be integrated to any baseline GAN model. Our method is not limited to datasets that contain segmentation labels, and it can be trained for "unpaired" translation tasks. We show the effectiveness of our method on four different datasets spanning scene level indoor, outdoor, and children book illustration images using qualitative, quantitative and user study analysis. Our model improves its baseline up to 35 points on the FID metric. Our code and pretrained models can be found at https://github.com/g iddyyupp/AdvSegLoss.
翻訳日:2021-02-12 14:13:36 公開日:2021-02-11
# 確率的, 対逆的な線形帯における近接インスタンス・オプティマティとミニマックス・オプティマティクスを同時に実現する

Achieving Near Instance-Optimality and Minimax-Optimality in Stochastic and Adversarial Linear Bandits Simultaneously ( http://arxiv.org/abs/2102.05858v1 )

ライセンス: Link先を確認
Chung-Wei Lee, Haipeng Luo, Chen-Yu Wei, Mengxiao Zhang, Xiaojin Zhang(参考訳) 本研究では,異なる環境に自動的に適応する線形バンディットアルゴリズムを開発した。 新しい損失推定器をインスタンス最適化戦略を特徴付ける最適化問題に差し込むことで、私たちの最初のアルゴリズムは確率的環境でのインスタンス最適化の後悔をほぼ達成するだけでなく、さらに後悔の量である腐敗した環境で動作し、最先端の(Li et al.、2019)はインスタンス最適化も破損量への最適依存も達成しません。 さらに、このアルゴリズムを逆成分と慎重に設計したテストとを併用することにより、我々の第2のアルゴリズムは、完全に逆条件下での最小限の後悔を享受する。 最後に、すべての保証は高い確率で保持されますが、既存のインスタンス最適化保証は期待通りです。

In this work, we develop linear bandit algorithms that automatically adapt to different environments. By plugging a novel loss estimator into the optimization problem that characterizes the instance-optimal strategy, our first algorithm not only achieves nearly instance-optimal regret in stochastic environments, but also works in corrupted environments with additional regret being the amount of corruption, while the state-of-the-art (Li et al., 2019) achieves neither instance-optimality nor the optimal dependence on the corruption amount. Moreover, by equipping this algorithm with an adversarial component and carefully-designed testings, our second algorithm additionally enjoys minimax-optimal regret in completely adversarial environments, which is the first of this kind to our knowledge. Finally, all our guarantees hold with high probability, while existing instance-optimal guarantees only hold in expectation.
翻訳日:2021-02-12 14:12:45 公開日:2021-02-11
# OpinionRank: グラフベースのスペクトルランク付けによる信頼できないエキスパートオピニオンからの基底真理ラベルの抽出

OpinionRank: Extracting Ground Truth Labels from Unreliable Expert Opinions with Graph-Based Spectral Ranking ( http://arxiv.org/abs/2102.05884v1 )

ライセンス: Link先を確認
Glenn Dawson and Robi Polikar(参考訳) 大規模で包括的なデータセットが現代の機械学習で標準になるにつれて、高度なモデルを訓練するための信頼できる信頼できるラベル情報を得るのがますます難しくなっている。 この問題に対処するため、クラウドソーシングは、分散ラベル収集を行うためのポピュラーで安価で効率的なデータマイニングソリューションとして登場した。 しかし、クラウドソーシングされたアノテーションは本質的に信頼できないものであり、ラベルは様々な信頼できない専門知識を持つ匿名のボランティアによって提供される。 さらに悪いことに、Amazon Mechanical Turkのような一般的なプラットフォーム上の一部の参加者は敵対的であり、エンドユーザーの知識なしに意図的にラベル情報を提供する。 ラベル生成プロセスの従来の3つのモデルについて,パラメータ化とそれを解決するモデルベースアプローチについて述べる。 クラウドソースのアノテーションを信頼できるラベルに統合し,教師付きあるいは半教師付き学習を行うための,モデルフリーで解釈可能なグラフベースのスペクトルアルゴリズムである opinionrank を提案する。 実験の結果,より高パラメータ化アルゴリズムと比較した場合, opinionrank は好成績を示した。 opinionrankは、非常に大きなデータセットとラベルソースの数にスケーラブルであり、以前のアプローチに比べて計算リソースが大幅に少ないことも示しています。

As larger and more comprehensive datasets become standard in contemporary machine learning, it becomes increasingly more difficult to obtain reliable, trustworthy label information with which to train sophisticated models. To address this problem, crowdsourcing has emerged as a popular, inexpensive, and efficient data mining solution for performing distributed label collection. However, crowdsourced annotations are inherently untrustworthy, as the labels are provided by anonymous volunteers who may have varying, unreliable expertise. Worse yet, some participants on commonly used platforms such as Amazon Mechanical Turk may be adversarial, and provide intentionally incorrect label information without the end user's knowledge. We discuss three conventional models of the label generation process, describing their parameterizations and the model-based approaches used to solve them. We then propose OpinionRank, a model-free, interpretable, graph-based spectral algorithm for integrating crowdsourced annotations into reliable labels for performing supervised or semi-supervised learning. Our experiments show that OpinionRank performs favorably when compared against more highly parameterized algorithms. We also show that OpinionRank is scalable to very large datasets and numbers of label sources, and requires considerably less computational resources than previous approaches.
翻訳日:2021-02-12 14:12:26 公開日:2021-02-11
# PatchX: 時系列分類のための知的パターンパッチによる深層モデルの説明

PatchX: Explaining Deep Models by Intelligible Pattern Patches for Time-series Classification ( http://arxiv.org/abs/2102.05917v1 )

ライセンス: Link先を確認
Dominique Mercier, Andreas Dengel, Sheraz Ahmed(参考訳) 時系列データの分類はストリーミングデータにとって重要であり、多くの課題がある。 公開データセットの量は急速に増加するが、ディープニューラルネットワークはいくつかの領域でのみ利用される。 伝統的な手法は、深層神経モデルと比較されることが多い。 これらの手法は、解釈可能な結果のため、安全クリティカル、金融、医療分野で好まれる。 しかし,その性能とスケール性は限定的であり,時系列データに隠された概念のため,時系列分類タスクの適切な説明を見つけることは困難である。 完全な時系列を視覚化すると、認識に関する認知的過負荷が発生し、混乱につながる。 したがって、パッチによるデータの処理は、より解釈可能な表現をもたらすと考えています。 本稿では,ディープニューラルネットワークと従来の機械学習アルゴリズムを併用して,解釈可能でスケール可能な時系列分類手法を提案する。 提案手法はまずパッチのきめ細かい分類を行い,次にサンプルレベルの分類を行う。

The classification of time-series data is pivotal for streaming data and comes with many challenges. Although the amount of publicly available datasets increases rapidly, deep neural models are only exploited in a few areas. Traditional methods are still used very often compared to deep neural models. These methods get preferred in safety-critical, financial, or medical fields because of their interpretable results. However, their performance and scale-ability are limited, and finding suitable explanations for time-series classification tasks is challenging due to the concepts hidden in the numerical time-series data. Visualizing complete time-series results in a cognitive overload concerning our perception and leads to confusion. Therefore, we believe that patch-wise processing of the data results in a more interpretable representation. We propose a novel hybrid approach that utilizes deep neural networks and traditional machine learning algorithms to introduce an interpretable and scale-able time-series classification approach. Our method first performs a fine-grained classification for the patches followed by sample level classification.
翻訳日:2021-02-12 14:12:04 公開日:2021-02-11
# AutoScore:臨床イベントの早期予測のための自動警告スコアモデル

AutoScore: An Automated Warning Score Model for the Early Prediction of Clinical Events ( http://arxiv.org/abs/2102.05958v1 )

ライセンス: Link先を確認
Ibrahim Hammoud, Prateek Prasanna, IV Ramakrishnan, Adam Singer, Mark Henry, Henry Thode(参考訳) 臨床劣化のリスクのある患者の早期予測は、医師が介入し、より良い結果に向けて臨床経過を変えるのに役立つ。 精度の要件に加えて、早期の警告システムは、医師が介入するのに十分な時間を与えるのに十分な予測を早めなければならない。 モデル決定の背後にある理由を正当化することができることが臨床で望ましいため、そのようなシステムを構築する際の課題の一つでもある。 本研究は,臨床劣化を示唆する種々の有害な臨床事象の早期予測のための解釈可能なモデルを構築した。 このモデルは2つのデータセットと4つの臨床イベントで評価される。 最初のデータセットは、Stony Brook Hospitalで主に新型コロナウイルス陽性人口で収集されています。 2番目のデータセットはMIMIC IIIデータセットです。 このモデルは、ストーニーブルック病院のデータセットで換気、ICU転送、死亡予測タスクの早期警告スコアを提供し、MIMIC IIIデータセット上での死亡率と血管圧剤の必要性を予測するために訓練された。 我々のモデルはまず各機能を複数の範囲に分割し、次にラッソペナリゼーションを用いたロジスティック回帰を用いて各特徴に対する範囲のサブセットを選択する。 モデルトレーニングは完全に自動化されており、他の早期警告スコアのような専門的な知識は必要ありません。 当モデルとMEWS (Modified Early Warning Score) と, 病院で一般的に使用されるクイックSOFA (qSOFA) を比較した。 本モデルでは, 受信機動作特性曲線 (AUROC) の領域において, より少ない特徴を用いても, 全臨床イベントにおいて, 同様の, より優れた中央値検出時間を持ちながら, これらのモデルよりも優れていることを示す。 MEWSやqSOFAとは異なり、我々のモデルは手動で記録する機能なしで完全に自動化できる。 また, モデルとベースラインのロジスティック回帰モデルを比較することで, モデル性能を改善できることを示した。

Early prediction of patients at risk of clinical deterioration can help physicians intervene and alter their clinical course towards better outcomes. In addition to the accuracy requirement, early warning systems must make the predictions early enough to give physicians enough time to intervene. Interpretability is also one of the challenges when building such systems since being able to justify the reasoning behind model decisions is desirable in clinical practice. In this work, we built an interpretable model for the early prediction of various adverse clinical events indicative of clinical deterioration. The model is evaluated on two datasets and four clinical events. The first dataset is collected in a predominantly COVID-19 positive population at Stony Brook Hospital. The second dataset is the MIMIC III dataset. The model was trained to provide early warning scores for ventilation, ICU transfer, and mortality prediction tasks on the Stony Brook Hospital dataset and to predict mortality and the need for vasopressors on the MIMIC III dataset. Our model first separates each feature into multiple ranges and then uses logistic regression with lasso penalization to select the subset of ranges for each feature. The model training is completely automated and doesn't require expert knowledge like other early warning scores. We compare our model to the Modified Early Warning Score (MEWS) and quick SOFA (qSOFA), commonly used in hospitals. We show that our model outperforms these models in the area under the receiver operating characteristic curve (AUROC) while having a similar or better median detection time on all clinical events, even when using fewer features. Unlike MEWS and qSOFA, our model can be entirely automated without requiring any manually recorded features. We also show that discretization improves model performance by comparing our model to a baseline logistic regression model.
翻訳日:2021-02-12 14:11:50 公開日:2021-02-11
# 畳み込みニューラルネットワークにおける不確実性伝播:技術報告

Uncertainty Propagation in Convolutional Neural Networks: Technical Report ( http://arxiv.org/abs/2102.06064v1 )

ライセンス: Link先を確認
Christos Tzelepis and Ioannis Patras(参考訳) この技術報告では、Convolutional Neural Network (CNN) の典型的なビルディングブロックを通じて、不確実性(与えられた一変数正規確率変数のばらつき)の伝播の問題について研究する。 これには2D畳み込み、完全接続層、平均プール層などの線形操作を行うレイヤや、Rectified Linear Unit (ReLU)のような入力に対して非線形に作用するレイヤが含まれる。 最後に、第一次および第二次モーメントの近似を与えるシグモイド関数と、通常のランダム入力の下でその期待値を近似する二元間エントロピー損失関数について議論する。

In this technical report we study the problem of propagation of uncertainty (in terms of variances of given uni-variate normal random variables) through typical building blocks of a Convolutional Neural Network (CNN). These include layers that perform linear operations, such as 2D convolutions, fully-connected, and average pooling layers, as well as layers that act non-linearly on their input, such as the Rectified Linear Unit (ReLU). Finally, we discuss the sigmoid function, for which we give approximations of its first- and second-order moments, as well as the binary cross-entropy loss function, for which we approximate its expected value under normal random inputs.
翻訳日:2021-02-12 14:10:18 公開日:2021-02-11
# SelfHAR: ラベルなしデータによるセルフトレーニングによるヒューマンアクティビティ認識の改善

SelfHAR: Improving Human Activity Recognition through Self-training with Unlabeled Data ( http://arxiv.org/abs/2102.06073v1 )

ライセンス: Link先を確認
Chi Ian Tang, Ignacio Perez-Pozuelo, Dimitris Spathis, Soren Brage, Nick Wareham and Cecilia Mascolo(参考訳) 機械学習とディープラーニングは、ヒューマンアクティビティ認識を含むモバイルセンシングアプリケーションで大きな約束を示しています。 しかし、実際の環境でのモデルのパフォーマンスは、多種多様な振る舞いをキャプチャする大規模データセットの可用性に大きく依存する。 近年、コンピュータビジョンと自然言語処理の研究では、大量のラベルのないデータを活用することで、最先端の監視モデルと同等のパフォーマンスを実現できることが示されています。 本研究では,ラベルなしのモバイルセンシングデータセットを効果的に活用し,小さなラベル付きデータセットを補完する半教師付きモデルであるselfharを提案する。 本手法では,データ拡張を可能とし,ラベル付きデータセットとラベル付きデータセットの知識を蒸留する教師学習と,入力の歪んだバージョンを予測してロバストな信号レベルの表現を学習するマルチタスク自己スーパービジョンを組み合わせる。 様々なharデータセット上でselfharを評価し,教師付きおよび前回の半教師付きアプローチよりも最先端のパフォーマンスを示し,推論時のモデルパラメータ数と同じf1スコアを最大12%向上させた。 さらに、SelfHARはデータ効率が高く、教師付きアプローチの10倍のラベル付きデータを使用して、同様のパフォーマンスを実現する。 私たちの仕事は、HARデータセットの多様なセットで最先端のパフォーマンスを達成するだけでなく、事前トレーニングタスクが下流のパフォーマンスにどのように影響するかに光を当てます。

Machine learning and deep learning have shown great promise in mobile sensing applications, including Human Activity Recognition. However, the performance of such models in real-world settings largely depends on the availability of large datasets that captures diverse behaviors. Recently, studies in computer vision and natural language processing have shown that leveraging massive amounts of unlabeled data enables performance on par with state-of-the-art supervised models. In this work, we present SelfHAR, a semi-supervised model that effectively learns to leverage unlabeled mobile sensing datasets to complement small labeled datasets. Our approach combines teacher-student self-training, which distills the knowledge of unlabeled and labeled datasets while allowing for data augmentation, and multi-task self-supervision, which learns robust signal-level representations by predicting distorted versions of the input. We evaluated SelfHAR on various HAR datasets and showed state-of-the-art performance over supervised and previous semi-supervised approaches, with up to 12% increase in F1 score using the same number of model parameters at inference. Furthermore, SelfHAR is data-efficient, reaching similar performance using up to 10 times less labeled data compared to supervised approaches. Our work not only achieves state-of-the-art performance in a diverse set of HAR datasets, but also sheds light on how pre-training tasks may affect downstream performance.
翻訳日:2021-02-12 14:10:08 公開日:2021-02-11
# 部分観察可能な交換可能モデリング

Partially Observed Exchangeable Modeling ( http://arxiv.org/abs/2102.06083v1 )

ライセンス: Link先を確認
Yang Li and Junier B. Oliva(参考訳) 多くの機械学習タスクでは、機能間の依存関係のモデリングが基本です。 条件依存を通知するために利用される複数の関連インスタンスがしばしば存在するが、典型的なアプローチは個々のインスタンスに対する条件依存をモデル化するのみである。 本研究では,複数の要素上の非観測次元の条件分布を推定し,関連する部分観察されたインスタンスの集合を取り込む交換可能モデリング(POEx)を部分的に観測する,新しいフレームワークを提案する。 私たちのアプローチは、データ内のインスタンス内(ポイント内の機能を含む)とインスタンス間(セット内の複数のポイントの間)の依存関係を共同でモデル化します。 POExは、ポイントクラウド拡張やマルチショット生成など、既存の多くのタスクと、マルチショットインピーダンスのような新しいタスクを包含する一般的なフレームワークです。 その一般性にもかかわらず、広範な実証的評価は私達のモデルがいろいろな適用を渡る最先端の性能を達成することを示します。

Modeling dependencies among features is fundamental for many machine learning tasks. Although there are often multiple related instances that may be leveraged to inform conditional dependencies, typical approaches only model conditional dependencies over individual instances. In this work, we propose a novel framework, partially observed exchangeable modeling (POEx) that takes in a set of related partially observed instances and infers the conditional distribution for the unobserved dimensions over multiple elements. Our approach jointly models the intra-instance (among features in a point) and inter-instance (among multiple points in a set) dependencies in data. POEx is a general framework that encompasses many existing tasks such as point cloud expansion and few-shot generation, as well as new tasks like few-shot imputation. Despite its generality, extensive empirical evaluations show that our model achieves state-of-the-art performance across a range of applications.
翻訳日:2021-02-12 14:09:44 公開日:2021-02-11
# Defuse: テストの正確性を超えたデバッギングモデルの非制限逆例

Defuse: Harnessing Unrestricted Adversarial Examples for Debugging Models Beyond Test Accuracy ( http://arxiv.org/abs/2102.06162v1 )

ライセンス: Link先を確認
Dylan Slack, Nathalie Rauschmayr, Krishnaram Kenthapadi(参考訳) 典型的には、ホールドアウトテストデータに関する集計統計を計算し、機械学習モデルの一般化を評価する。 しかし、テストデータの統計はしばしばモデルの一般化を誇張しており、デプロイされた機械学習モデルのパフォーマンスは可変であり、信頼できない。 これらの懸念に乗じて,モデルエラーを自動的に検出し,修正する手法を開発した。 本稿では,新しいモデルの誤分類を生成し,これらのエラーをハイレベルなモデルバグに分類し,エラーを効率的にラベル付けして修正する手法であるdefuseを提案する。 誤分類データを生成するために, 生成モデルを用いて, モデルが誤分類した自然発生事例を見つける逆機械学習技術に着想を得たアルゴリズムを提案する。 さらに, 生成モデルが潜在空間に領域を持ち, 誤分類の濃度が高いことも観察した。 これらの領域を誤分類領域と呼び、有用な特性がいくつかあります。 例えば、MNIST分類器の誤分類領域には、モデルが1としてミスするスキニー6のスタイルが含まれている。 また、各リージョンに1つのラベルを割り当てて、低コストなラベル付けを容易にします。 誤分類領域を学習し,この知見を用いて誤りの分類と修正を行う手法を提案する。 実際には、defuseは分類器で新しいエラーを見つけて修正する。 例えば、defuseは、ハイパフォーマンスな交通標識分類器が特定の50km/hの標識を80km/hと間違えていることを示している。 defuseは、テストセットの一般化を維持しながら微調整後のエラーを修正する。

We typically compute aggregate statistics on held-out test data to assess the generalization of machine learning models. However, statistics on test data often overstate model generalization, and thus, the performance of deployed machine learning models can be variable and untrustworthy. Motivated by these concerns, we develop methods to automatically discover and correct model errors beyond those available in the data. We propose Defuse, a method that generates novel model misclassifications, categorizes these errors into high-level model bugs, and efficiently labels and fine-tunes on the errors to correct them. To generate misclassified data, we propose an algorithm inspired by adversarial machine learning techniques that uses a generative model to find naturally occurring instances misclassified by a model. Further, we observe that the generative models have regions in their latent space with higher concentrations of misclassifications. We call these regions misclassification regions and find they have several useful properties. Each region contains a specific type of model bug; for instance, a misclassification region for an MNIST classifier contains a style of skinny 6 that the model mistakes as a 1. We can also assign a single label to each region, facilitating low-cost labeling. We propose a method to learn the misclassification regions and use this insight to both categorize errors and correct them. In practice, Defuse finds and corrects novel errors in classifiers. For example, Defuse shows that a high-performance traffic sign classifier mistakes certain 50km/h signs as 80km/h. Defuse corrects the error after fine-tuning while maintaining generalization on the test set.
翻訳日:2021-02-12 14:09:28 公開日:2021-02-11
# 非偏角モデルからの離散表現

Disentangled Representations from Non-Disentangled Models ( http://arxiv.org/abs/2102.06204v1 )

ライセンス: Link先を確認
Valentin Khrulkov, Leyla Mirvakhabova, Ivan Oseledets, Artem Babenko(参考訳) 不連続表現の構築は、特に教師なしのシナリオでは難しい作業であることが知られている。 監視されていない束縛の支配的なパラダイムは、現在、その潜在空間の変動の異なる要因を分離する生成モデルを訓練することです。 この分離は通常、モデルの目的関数の特定の正規化項によるトレーニングによって実施される。 しかし、これらの用語は、絡み合いと生成品質の間のトレードオフに責任を持つ追加のハイパーパラメータを導入する。 これらのハイパーパラメータのチューニングは、適切な絡み合いに欠かせないが、外部の監視なしに調整する方法は、しばしば不明である。 本稿では,異種表現に対する代替経路について検討する。 そこで,本稿では,これらの表現を学習中の生成モデルから抽出する手法を提案する。 このポストホックなジエンタングルメントのパラダイムは、確立されたジエンタングルメントメトリクス、公平性、抽象的推論タスクの比較によって示されるように、表現を学習するときにほとんど、あるいは全くハイパーパラメーターを使用しない。 コードとモデルはすべて公開されています。

Constructing disentangled representations is known to be a difficult task, especially in the unsupervised scenario. The dominating paradigm of unsupervised disentanglement is currently to train a generative model that separates different factors of variation in its latent space. This separation is typically enforced by training with specific regularization terms in the model's objective function. These terms, however, introduce additional hyperparameters responsible for the trade-off between disentanglement and generation quality. While tuning these hyperparameters is crucial for proper disentanglement, it is often unclear how to tune them without external supervision. This paper investigates an alternative route to disentangled representations. Namely, we propose to extract such representations from the state-of-the-art generative models trained without disentangling terms in their objectives. This paradigm of post hoc disentanglement employs little or no hyperparameters when learning representations while achieving results on par with existing state-of-the-art, as shown by comparison in terms of established disentanglement metrics, fairness, and the abstract reasoning task. All our code and models are publicly available.
翻訳日:2021-02-12 14:09:03 公開日:2021-02-11
# コンビナート最適化のための深層強化学習:セールスマン問題をカバーする

Deep Reinforcement Learning for Combinatorial Optimization: Covering Salesman Problems ( http://arxiv.org/abs/2102.05875v1 )

ライセンス: Link先を確認
Kaiwen Li, Tao Zhang, Rui Wang Yuheng Wang, and Yi Han(参考訳) 本稿では,CSP(Covering Salesman Problem)に関する新たなディープラーニング手法を提案する。 このアプローチでは、CSPの都市位置を入力として、ディープニューラルネットワークモデルがソリューションを直接出力するように設計されている。 指導なしに深層強化学習を用いて訓練される。 具体的には、このモデルでは、マルチヘッドアテンションを適用して構造パターンをキャプチャし、問題の動的パターンを処理するための動的埋め込みを設計する。 モデルが訓練されると、再トレーニングを必要とせずに、さまざまなタイプのCSPタスク(異なるサイズとトポロジ)に一般化できます。 制御された実験を通して、提案手法は望ましい時間の複雑さを示し、最適性の小さなギャップを持つ従来のヒューリスティックな解法よりも20倍以上速く実行される。 さらに、トレーニングと推論の両方の面で組み合わせ最適化のための最新のディープラーニングアプローチを大幅に上回っています。 従来の解法と比較して、このアプローチは、通常大規模で迅速な決定を必要とする、実践上の課題の多くにとって非常に望ましいものである。

This paper introduces a new deep learning approach to approximately solve the Covering Salesman Problem (CSP). In this approach, given the city locations of a CSP as input, a deep neural network model is designed to directly output the solution. It is trained using the deep reinforcement learning without supervision. Specifically, in the model, we apply the Multi-head Attention to capture the structural patterns, and design a dynamic embedding to handle the dynamic patterns of the problem. Once the model is trained, it can generalize to various types of CSP tasks (different sizes and topologies) with no need of re-training. Through controlled experiments, the proposed approach shows desirable time complexity: it runs more than 20 times faster than the traditional heuristic solvers with a tiny gap of optimality. Moreover, it significantly outperforms the current state-of-the-art deep learning approaches for combinatorial optimization in the aspect of both training and inference. In comparison with traditional solvers, this approach is highly desirable for most of the challenging tasks in practice that are usually large-scale and require quick decisions.
翻訳日:2021-02-12 14:08:31 公開日:2021-02-11
# マシンインテリジェンスを使ってコードレビューの要求を優先する

Using Machine Intelligence to Prioritise Code Review Requests ( http://arxiv.org/abs/2102.05916v1 )

ライセンス: Link先を確認
Nishrith Saini and Ricardo Britto(参考訳) Modern Code Review (MCR)は、既存のコードベースとマージする必要がある新しいコード変更をレビューするプロセスである。 開発者として、毎日多くのコードレビューリクエストを受け取り、すなわち、レビュー要求を優先順位付けする必要がある。 手作業によるレビュー要求の優先順位付けは困難で時間を要するプロセスです。 上記の問題に対処するため,我々は,コードレビュー要求の優先順位付けにベイズネットワークを使用するpineappleというツールの開発を目的としたericssonの産業ケーススタディを実施した。 私たちのアプローチ/ツールを検証するために、私たちはそれをEricssonのライブソフトウェア開発プロジェクトにデプロイしました。 我々は, 予測性能, 実現可能性, 有用性を評価することに焦点を当てた。 結果は、パイナップルが有能な予測性能(RMSE = 0.21およびMAE = 0.15)を有することを示している。 さらに、pineappleユーザーの82.6%は、信頼できる結果を提供することで、このツールがコードレビュー要求の優先順位付けをサポートできると信じており、56.5%は、コードレビューのリードタイムを減らすのに役立つと考えている。 今後の研究として, ピネアップルの予測性能, 有用性, 実現可能性について, 縦断調査により検討する。

Modern Code Review (MCR) is the process of reviewing new code changes that need to be merged with an existing codebase. As a developer, one may receive many code review requests every day, i.e., the review requests need to be prioritised. Manually prioritising review requests is a challenging and time-consuming process. To address the above problem, we conducted an industrial case study at Ericsson aiming at developing a tool called Pineapple, which uses a Bayesian Network to prioritise code review requests. To validate our approach/tool, we deployed it in a live software development project at Ericsson, wherein more than 150 developers develop a telecommunication product. We focused on evaluating the predictive performance, feasibility, and usefulness of our approach. The results indicate that Pineapple has competent predictive performance (RMSE = 0.21 and MAE = 0.15). Furthermore, around 82.6% of Pineapple's users believe the tool can support code review request prioritisation by providing reliable results, and around 56.5% of the users believe it helps reducing code review lead time. As future work, we plan to evaluate Pineapple's predictive performance, usefulness, and feasibility through a longitudinal investigation.
翻訳日:2021-02-12 14:08:17 公開日:2021-02-11
# ハイブリッド量子コンピューティング-タブサーチアルゴリズムに注目して--非対称セールスマン問題に関する新しい結果

Focusing on the Hybrid Quantum Computing -- Tabu Search Algorithm: new results on the Asymmetric Salesman Problem ( http://arxiv.org/abs/2102.05919v1 )

ライセンス: Link先を確認
Eneko Osaba, Esther Villar-Rodriguez, Izaskun Oregi and Aitor Moreno-Fernandez-de- Leceta(参考訳) 量子コンピューティングは、現在の科学と技術コミュニティで多くの人気を集めている新興パラダイムである。 量子コンピューティングは、計算の次のフロンティアとして広く考えられており、パフォーマンスと能力の面で大きな制限に苦しんでいる現在のソリューションシステムである開発がまだ始まっています。 これらの障壁を克服するために、研究者や実践者によっていくつかの興味深いアプローチが考案され、量子古典的ハイブリッドアルゴリズムは最もよく使われる解法の一つである。 本研究の目的は,最近提案されたハイブリッド量子コンピューティング - Tabu Search Algorithm の分割問題に対する結果と結果を拡張することである。 そこで本研究では,この手法を非対称トラベルセールスマン問題に適応させることに着目する。 全体として、TSPLIBに属する6つの有名なインスタンスを用いて量子コンピューティング - タブサーチアルゴリズムの性能を評価し、最先端の分解解であるQBSolvと比較した。 さらに、この研究は、量子計算に基づく手法を用いた非対称トラベルセールスマン問題の最初の解決者も想定している。 qcにおけるコミュニティ全体の調査を促進すべく、我々は、さらなるアプリケーションと改善のために、プロジェクトのリポジトリをオープンソースコードとしてリリースした。

Quantum Computing is an emerging paradigm which is gathering a lot of popularity in the current scientific and technological community. Widely conceived as the next frontier of computation, Quantum Computing is still at the dawn of its development being current solving systems suffering from significant limitations in terms of performance and capabilities. Some interesting approaches have been devised by researchers and practitioners in order to overcome these barriers, being quantum-classical hybrid algorithms one of the most often used solving schemes. The main goal of this paper is to extend the results and findings of the recently proposed hybrid Quantum Computing - Tabu Search Algorithm for partitioning problems. To do that, we focus our research on the adaptation of this method to the Asymmetric Traveling Salesman Problem. In overall, we have employed six well-known instances belonging to TSPLIB to assess the performance of Quantum Computing - Tabu Search Algorithm in comparison to QBSolv -- a state-of-the-art decomposing solver. Furthermore, as an additional contribution, this work also supposes the first solver of the Asymmetric Traveling Salesman Problem using a Quantum Computing based method. Aiming to boost whole community's research in QC, we have released the project's repository as open source code for further application and improvements.
翻訳日:2021-02-12 14:07:56 公開日:2021-02-11
# DirectDebug: 機能モデルの自動テストとデバッグ

DirectDebug: Automated Testing and Debugging of Feature Models ( http://arxiv.org/abs/2102.05949v1 )

ライセンス: Link先を確認
Viet-Man Le and Alexander Felfernig and Mathias Uta and David Benavides and Jos\'e Galindo and Thi Ngoc Trang Tran(参考訳) 変数モデル(例えば、特徴モデル)は、ソフトウェアアーティファクトの変数と共通性を表現する一般的な方法である。 このようなモデルは論理表現に変換できるため、品質保証やその他のモデル特性分析の異なる操作が可能になる。 具体的には、複雑でしばしば大規模な機能モデルが欠陥となる可能性がある、すなわち、ソフトウェアアーチファクトの期待される変動特性を表現していない。 本稿では,可変性モデルの自動テストとデバッグを行うための直接診断手法であるdirectdebugを提案する。 このアルゴリズムは、可変モデルの意図しない振る舞いに責任を持つ欠陥制約の自動識別をサポートすることによって、ソフトウェアエンジニアを支援する。 このアプローチは、そのようなモデルの開発とメンテナンスの労力を大幅に削減できます。

Variability models (e.g., feature models) are a common way for the representation of variabilities and commonalities of software artifacts. Such models can be translated to a logical representation and thus allow different operations for quality assurance and other types of model property analysis. Specifically, complex and often large-scale feature models can become faulty, i.e., do not represent the expected variability properties of the underlying software artifact. In this paper, we introduce DirectDebug which is a direct diagnosis approach to the automated testing and debugging of variability models. The algorithm helps software engineers by supporting an automated identification of faulty constraints responsible for an unintended behavior of a variability model. This approach can significantly decrease development and maintenance efforts for such models.
翻訳日:2021-02-12 14:07:37 公開日:2021-02-11
# 計画のための高精度なモデル学習

Sufficiently Accurate Model Learning for Planning ( http://arxiv.org/abs/2102.06099v1 )

ライセンス: Link先を確認
Clark Zhang, Santiago Paternain, Alejandro Ribeiro(参考訳) 動的システムのデータ駆動モデルは、プランナーやコントローラがより正確で正確な動きを提供するのに役立つ。 ほとんどのモデル学習アルゴリズムは、観測データとモデルの予測の間の損失関数を最小化しようとする。 これは、目の前のタスクに関する事前の知識を使って改善することができ、制約の形でエンコードできる。 これは制約のないモデル学習問題を制約のある問題に変える。 これらの制約により、有限容量を持つモデルは、システムの重要な側面に表現力に集中することができる。 これは特定のタスクに適したモデルにつながる可能性がある。 本稿では,制約付きSufficiently Accurateモデル学習手法を導入し,そのような問題の例を示し,近似解がどの程度近いかという定理を示す。 近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、およびモデル学習におけるサンプル数に依存する。

Data driven models of dynamical systems help planners and controllers to provide more precise and accurate motions. Most model learning algorithms will try to minimize a loss function between the observed data and the model's predictions. This can be improved using prior knowledge about the task at hand, which can be encoded in the form of constraints. This turns the unconstrained model learning problem into a constrained one. These constraints allow models with finite capacity to focus their expressive power on important aspects of the system. This can lead to models that are better suited for certain tasks. This paper introduces the constrained Sufficiently Accurate model learning approach, provides examples of such problems, and presents a theorem on how close some approximate solutions can be. The approximate solution quality will depend on the function parameterization, loss and constraint function smoothness, and the number of samples in model learning.
翻訳日:2021-02-12 14:07:27 公開日:2021-02-11
# Cryo-EMにおけるデノボ分子構造モデリングの人工知能の進歩

Artificial Intelligence Advances for De Novo Molecular Structure Modeling in Cryo-EM ( http://arxiv.org/abs/2102.06125v1 )

ライセンス: Link先を確認
Dong Si, Andrew Nakamura, Runbang Tang, Haowen Guan, Jie Hou, Ammaar Firozi, Renzhi Cao, Kyle Hippe, Minglei Zhao(参考訳) 核電子顕微鏡(cryo-EM)は、2017年のノーベル賞によって証明された、大きなタンパク質複合体と分子集合体の構造を決定する主要な実験技術となった。 マクロ分子に関する詳細な構造情報を含む高分解能3次元マップを生成するために、Cryo-EMは大幅に改善されているが、構造モデルを自動的に構築するためにデータを使用する計算方法は、はるかに遅れている。 従来のCryo-EMモデル構築アプローチはテンプレートベースのホモロジーモデリングである。 手動のde novoモデリングは、データベースにテンプレートモデルが見つからない場合、非常に時間がかかる。 近年,機械学習 (ML) と深層学習 (DL) を用いた de novo cryo-EM モデリングは,分子構造モデリングにおいて最も優れた手法である。 ディープラーニングベースのDe novo cryo-EMモデリングは、次世代の分子バイオ医薬品のための印象的な結果と大きな可能性を持つ人工知能の重要なアプリケーションです。 そこで、代表的なML/DLベースのデノボクライオEMモデリング手法を体系的に検討する。 そして,その意義を実践的,方法論的両面から論じる。 また、cryo-emデータ処理ワークフローの背景についても簡単に説明する。 本総説では、デノボ分子構造モデリングのための人工知能(AI)の現代研究の入門ガイドと、この新興分野における今後の方向性について述べる。

Cryo-electron microscopy (cryo-EM) has become a major experimental technology to determine the structures of large protein complexes and molecular assemblies, as evidenced by the 2017 Nobel Prize. Although cryo-EM has been drastically improved to generate high-resolution three-dimensional (3D) maps that contain detailed structural information about macromolecules, the computational methods for using the data to automatically build structure models are lagging far behind. Traditional cryo-EM model building approach is template-based homology modeling. Manual de novo modeling is very time-consuming when no template model could be found in the database. In recent years, de novo cryo-EM modeling using machine learning (ML) and deep learning (DL) has ranked among the top-performing methods in macromolecular structure modeling. Deep-learning-based de novo cryo-EM modeling is an important application of artificial intelligence, with impressive results and great potential for the next generation of molecular biomedicine. Accordingly, we systematically review the representative ML/DL-based de novo cryo-EM modeling methods. And their significances are discussed from both practical and methodological viewpoints. We also briefly describe the background of cryo-EM data processing workflow. Overall, this review provides an introductory guide to modern research on artificial intelligence (AI) for de novo molecular structure modeling and future directions in this emerging field.
翻訳日:2021-02-12 14:07:14 公開日:2021-02-11
# 条件付き局所戦略推論の論理

A Logic for Conditional Local Strategic Reasoning ( http://arxiv.org/abs/2102.06148v1 )

ライセンス: Link先を確認
Valentin Goranko and Fengkui Ju(参考訳) 個人的および集団的目的の追求において行動し、相互作用する合理的エージェントのシステムを考える。 私たちは、自分の目的を達成するために、推論者の能力または期待を評価するために、その目的に基づいて他のエージェントの行動の期待される選択について、エージェント、または外部のオブザーバーの推論を研究し、形式化します。 このような推論を形式化するために、Pauly の Coalition Logic を条件付き戦略推論の新しい3つのモーダル演算子に拡張し、局所条件付き戦略推論の Logic for Local Conditional Strategic Reasoning ConStR を導入する。 我々は,コンカレントゲームモデルにおける新しい条件付き戦略演算子の形式的意味論を提供し,それらの各条件付き二乗法の概念を導入し,各条件付き不変性とヘネシー・ミルナー特性を証明し,それらの表現性について議論し,簡潔に比較する。 最後に,ConStRの基本演算子と全論理に対する公理系を提案する。

We consider systems of rational agents who act and interact in pursuit of their individual and collective objectives. We study and formalise the reasoning of an agent, or of an external observer, about the expected choices of action of the other agents based on their objectives, in order to assess the reasoner's ability, or expectation, to achieve their own objective. To formalize such reasoning we extend Pauly's Coalition Logic with three new modal operators of conditional strategic reasoning, thus introducing the Logic for Local Conditional Strategic Reasoning ConStR. We provide formal semantics for the new conditional strategic operators in concurrent game models, introduce the matching notion of bisimulation for each of them, prove bisimulation invariance and Hennessy-Milner property for each of them, and discuss and compare briefly their expressiveness. Finally, we also propose systems of axioms for each of the basic operators of ConStR and for the full logic.
翻訳日:2021-02-12 14:06:53 公開日:2021-02-11
# 映像中の映像ハイライト検出

Audiovisual Highlight Detection in Videos ( http://arxiv.org/abs/2102.05811v1 )

ライセンス: Link先を確認
Karel Mundnich and Alexandra Fenster and Aparna Khare and Shiva Sundaram(参考訳) 本稿では,非構造化ビデオにおける興味深いイベントが本質的にオーディオビジュアルであるという仮説を検証した。 物体認識とシーン理解のための深い画像表現と、視聴覚影響認識モデルからの表現を組み合わせる。 このセットには、コンテンツ非依存な音声-視覚同期表現とメル周波数ケプストラム係数が含まれ、オーディオの他の本質的特性をキャプチャする。 これらの機能は、モジュラー監視モデルで使用されます。 本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。 映像要約タスクでは,視覚機能が最も多くの情報を持ち,視覚機能を含めて視覚のみの情報よりも改善されていることを示す。 ハイライト検出のタスクをよりよく研究するために、ビデオクリップの小さなサブセットのハイライトアノテーションを使ったパイロット実験を実施し、最高のモデルを微調整します。 その結果,映像要約タスクからハイライト検出タスク用に特別に訓練されたモデルに知識を伝達できることがわかった。

In this paper, we test the hypothesis that interesting events in unstructured videos are inherently audiovisual. We combine deep image representations for object recognition and scene understanding with representations from an audiovisual affect recognition model. To this set, we include content agnostic audio-visual synchrony representations and mel-frequency cepstral coefficients to capture other intrinsic properties of audio. These features are used in a modular supervised model. We present results from two experiments: efficacy study of single features on the task, and an ablation study where we leave one feature out at a time. For the video summarization task, our results indicate that the visual features carry most information, and including audiovisual features improves over visual-only information. To better study the task of highlight detection, we run a pilot experiment with highlights annotations for a small subset of video clips and fine-tune our best model on it. Results indicate that we can transfer knowledge from the video summarization task to a model trained specifically for the task of highlight detection.
翻訳日:2021-02-12 14:05:59 公開日:2021-02-11
# A-NeRF: ニューラルレンダリングによる表面のないヒト3次元ポース精製

A-NeRF: Surface-free Human 3D Pose Refinement via Neural Rendering ( http://arxiv.org/abs/2102.06199v1 )

ライセンス: Link先を確認
Shih-Yang Su, Frank Yu, Michael Zollhoefer and Helge Rhodin(参考訳) ディープラーニングは古典的なモーションキャプチャパイプラインを再構成しましたが、ユーザーの高品質の3Dモデルが利用可能であれば、生成的、分析による合成要素がまだ詳細を回復するために使用されています。 残念ながら、すべてのユーザに対してそのようなモデルを取得することは困難で、時間がかかり、アプリケーションのシナリオが制限される。 本稿では,ユーザの体積体モデルを自己教師あり方式で学習する単眼運動キャプチャのための新しいテスト時間最適化手法を提案する。 この目的のために,本手法では,神経放射場と構音骨格表現の利点を組み合わせる。 提案する骨格組込みは,制約を時間にわたって関連付ける共通参照として機能するので,従来の数十台の校正カメラから必要なカメラビューを1つに減らすことができる。 出発点として、3Dスケルトンポーズを予測するオフ・ザ・シェルフモデルの出力を用いる。 その後、容積体の形状と外観をスクラッチから学習し、初期ポーズ推定を共同で修正する。 我々のアプローチは自己監督的であり、外観、ポーズ、および3D形状のための追加の真実ラベルを必要としない。 本研究では,表面非合成解析を用いた判別的ポーズ推定手法が,純粋に識別的単眼的ポーズ推定手法を上回り,複数の視点によく一般化することを示す。

While deep learning has reshaped the classical motion capture pipeline, generative, analysis-by-synthesi s elements are still in use to recover fine details if a high-quality 3D model of the user is available. Unfortunately, obtaining such a model for every user a priori is challenging, time-consuming, and limits the application scenarios. We propose a novel test-time optimization approach for monocular motion capture that learns a volumetric body model of the user in a self-supervised manner. To this end, our approach combines the advantages of neural radiance fields with an articulated skeleton representation. Our proposed skeleton embedding serves as a common reference that links constraints across time, thereby reducing the number of required camera views from traditionally dozens of calibrated cameras, down to a single uncalibrated one. As a starting point, we employ the output of an off-the-shelf model that predicts the 3D skeleton pose. The volumetric body shape and appearance is then learned from scratch, while jointly refining the initial pose estimate. Our approach is self-supervised and does not require any additional ground truth labels for appearance, pose, or 3D shape. We demonstrate that our novel combination of a discriminative pose estimation technique with surface-free analysis-by-synthesi s outperforms purely discriminative monocular pose estimation approaches and generalizes well to multiple views.
翻訳日:2021-02-12 14:05:24 公開日:2021-02-11
# 不均一データに対するプライバシー保護型自己学習

Privacy-Preserving Self-Taught Federated Learning for Heterogeneous Data ( http://arxiv.org/abs/2102.05883v1 )

ライセンス: Link先を確認
Kai-Fung Chu, Lintao Zhang(参考訳) 多くのアプリケーションシナリオでは、複数の参加者によるマシンラーニングモデルのトレーニングが求められている。 フェデレーテッド・ラーニング(FL)は、各パーティのローカルデータを用いて、データを他人に公開することなく、ディープラーニングモデルのジョイントトレーニングを可能にするために提案された。 様々な種類のFLメソッドの中で、垂直FLは、同じID空間と異なる特徴空間を持つデータソースを処理するカテゴリです。 しかし、既存の垂直FL法は、制限ニューラルネットワーク構造、遅いトレーニング速度などの制限に悩まされ、しばしば比類のないIDを持つデータを利用する能力が欠けている。 本研究では, 分散教師付き深層学習タスクに, 監視されていない特徴抽出技術を用いた, 自己学習型フェデレーションラーニングと呼ばれるFL手法を提案する。 この方法では、潜在変数だけがモデルトレーニングのために他の当事者に送信され、プライバシはアクティベーション、重み、バイアスのデータとパラメータをローカルに保存することで保持される。 提案手法の有効性と効率性を評価するために, 広範な実験を行った。

Many application scenarios call for training a machine learning model among multiple participants. Federated learning (FL) was proposed to enable joint training of a deep learning model using the local data in each party without revealing the data to others. Among various types of FL methods, vertical FL is a category to handle data sources with the same ID space and different feature spaces. However, existing vertical FL methods suffer from limitations such as restrictive neural network structure, slow training speed, and often lack the ability to take advantage of data with unmatched IDs. In this work, we propose an FL method called self-taught federated learning to address the aforementioned issues, which uses unsupervised feature extraction techniques for distributed supervised deep learning tasks. In this method, only latent variables are transmitted to other parties for model training, while privacy is preserved by storing the data and parameters of activations, weights, and biases locally. Extensive experiments are performed to evaluate and demonstrate the validity and efficiency of the proposed method.
翻訳日:2021-02-12 14:04:17 公開日:2021-02-11
# 対実学習におけるロバストな一般化と安全なクエリ・スペシャライゼーション

Robust Generalization and Safe Query-Specialization in Counterfactual Learning to Rank ( http://arxiv.org/abs/2102.05990v1 )

ライセンス: Link先を確認
Harrie Oosterhuis and Maarten de Rijke(参考訳) 既存の対実学習ランキング(LTR)は、文書の特徴に基づいて最適なランキングを予測する特徴ベースモデルの最適化に重点を置いている。 バンディットアルゴリズムに基づくLTR法は、多くの場合、クエリ毎の最適なランキングを記憶する表モデルを最適化する。 これらのモデルには独自の利点とデメリットがある。 機能ベースのモデルは、以前は見えなかったものを含め、多くのクエリで非常に堅牢なパフォーマンスを提供するが、利用可能な機能は、モデルが予測できるランキングを制限することが多い。 対照的に、表モデルは記憶によって任意のランキングに収束することができる。 しかし、記憶はノイズに非常に近いため、多数のユーザインタラクションが利用可能である場合にのみ、表モデルが信頼できるものになる。 安全なときに記憶ベースの最適化を追求した堅牢な反実LTR法を開発できますか? 提案手法は,安全な場合,クエリ毎のメモリ化を追求する,ロバストな特徴ベースの対実的LTR手法であるgenSPECアルゴリズムを導入する。 GENSPECは、すべてのクエリにまたがる堅牢なパフォーマンス、および専門化のための多くの表形式のモデル:単一のクエリで高いパフォーマンスのために最適化された、単一の機能ベースのモデルを最適化する。 GENSPECは、クエリ毎にデプロイするモデルを選択するために、新しい相対的な高信頼境界を使用する。 これにより、GenSPECは、一般化された機能ベースのモデルの堅牢性で、成功した特殊タブラーモデルの高性能を享受します。 その結果,GENSPEC は十分なクリックデータを持つクエリのパフォーマンスを最適に保ちながら,ほとんどノイズのないクエリを堅牢に動作させることが示された。

Existing work in counterfactual Learning to Rank (LTR) has focussed on optimizing feature-based models that predict the optimal ranking based on document features. LTR methods based on bandit algorithms often optimize tabular models that memorize the optimal ranking per query. These types of model have their own advantages and disadvantages. Feature-based models provide very robust performance across many queries, including those previously unseen, however, the available features often limit the rankings the model can predict. In contrast, tabular models can converge on any possible ranking through memorization. However, memorization is extremely prone to noise, which makes tabular models reliable only when large numbers of user interactions are available. Can we develop a robust counterfactual LTR method that pursues memorization-based optimization whenever it is safe to do? We introduce the Generalization and Specialization (GENSPEC) algorithm, a robust feature-based counterfactual LTR method that pursues per-query memorization when it is safe to do so. GENSPEC optimizes a single feature-based model for generalization: robust performance across all queries, and many tabular models for specialization: each optimized for high performance on a single query. GENSPEC uses novel relative high-confidence bounds to choose which model to deploy per query. By doing so, GENSPEC enjoys the high performance of successfully specialized tabular models with the robustness of a generalized feature-based model. Our results show that GENSPEC leads to optimal performance on queries with sufficient click data, while having robust behavior on queries with little or noisy data.
翻訳日:2021-02-12 14:04:01 公開日:2021-02-11
# ラベル差分プライバシーを用いた深層学習について

On Deep Learning with Label Differential Privacy ( http://arxiv.org/abs/2102.06062v1 )

ライセンス: Link先を確認
Badih Ghazi, Noah Golowich, Ravi Kumar, Pasin Manurangsi, Chiyuan Zhang(参考訳) 多くの機械学習アプリケーションでは、トレーニングデータは極めて機密性の高い個人情報を含むことができる。 機密情報を漏らさず、精度を損なわないような大規模な深層モデルの訓練は重要な課題である。 本研究では,ラベルの機密性が考慮され保護されるべきマルチクラス分類設定について検討する。 本稿では,ラベル差分プライバシを用いたディープニューラルネットワークのトレーニングアルゴリズムを提案し,いくつかのデータセットで評価を行う。 Fashion MNIST と CIFAR-10 に対して、我々のアルゴリズムは最先端技術よりもはるかに精度が高く、一部の状況では非プライベートベースラインに近い。 また、難易度の高いCIFAR-100データセットに対する非自明なトレーニング結果も提供する。 本アルゴリズムは, 凸型経験的リスク最小化の設定において, ラベル差分プライバシーを用いたトレーニングの複雑さは次元非依存であり, バニラ差分プライバシーとは対照的であることを示す理論的知見を補完する。

In many machine learning applications, the training data can contain highly sensitive personal information. Training large-scale deep models that are guaranteed not to leak sensitive information while not compromising their accuracy has been a significant challenge. In this work, we study the multi-class classification setting where the labels are considered sensitive and ought to be protected. We propose a new algorithm for training deep neural networks with label differential privacy, and run evaluations on several datasets. For Fashion MNIST and CIFAR-10, we demonstrate that our algorithm achieves significantly higher accuracy than the state-of-the-art, and in some regimes comes close to the non-private baselines. We also provide non-trivial training results for the the challenging CIFAR-100 dataset. We complement our algorithm with theoretical findings showing that in the setting of convex empirical risk minimization, the sample complexity of training with label differential privacy is dimension-independen t, which is in contrast to vanilla differential privacy.
翻訳日:2021-02-12 14:03:12 公開日:2021-02-11
# 変分画像復元のための学習局所正規化

Learning local regularization for variational image restoration ( http://arxiv.org/abs/2102.06155v1 )

ライセンス: Link先を確認
Jean Prost, Antoine Houdard, Andr\'es Almansa and Nicolas Papadakis(参考訳) 本研究では,一般画像復元問題を解決するための局所正規化モデルを学ぶための枠組みを提案する。 この正規化子は、小さな画像パッチに対応する受容フィールドを通して画像を見る完全畳み込みニューラルネットワークで定義される。 レギュラライザーは、Wasserstein生成敵対ネットワークベースのエネルギーを使用して、クリーンパッチと劣化パッチの不対分布間の批判として学習される。 これにより、任意の画像復元問題に組み込むことができる正規化機能が得られます。 フレームワークの効率性は、最終的にアプリケーションのデノイジングとデブラリングに示される。

In this work, we propose a framework to learn a local regularization model for solving general image restoration problems. This regularizer is defined with a fully convolutional neural network that sees the image through a receptive field corresponding to small image patches. The regularizer is then learned as a critic between unpaired distributions of clean and degraded patches using a Wasserstein generative adversarial networks based energy. This yields a regularization function that can be incorporated in any image restoration problem. The efficiency of the framework is finally shown on denoising and deblurring applications.
翻訳日:2021-02-12 14:02:54 公開日:2021-02-11
# 同時拡張・仮想・複合現実遠隔協調システムに関する調査研究

A Survey on Synchronous Augmented, Virtual and Mixed Reality Remote Collaboration Systems ( http://arxiv.org/abs/2102.05998v1 )

ライセンス: Link先を確認
Alexander Sch\"afer, Gerd Reis, Didier Stricker(参考訳) 遠隔コラボレーションシステムは今日の社会、特に身体的距離が推奨される時代において、ますます重要になっている。 産業、研究、個人は、遠隔地における協力とネットワークの困難な課題に直面している。 ビデオと遠隔会議はすでに広まっているが、拡張現実、バーチャル、複合現実のコラボレーションシステムはいまだニッチな技術だ。 本稿では, 同期遠隔協調システムの最近の展開の概要を述べるとともに, 環境, アバター, 相互作用の3つの主成分に分け, 分類法を作成する。 アバター、仮想環境、視覚化スタイル、インタラクションといった特定のトピックに関する簡潔な情報を提供することで、異なる分野で働く研究者を支援するために、既存のシステムの概要を分類する。 この作業の焦点は、遠くからのコラボレーションの同期にある。 100以上の出版物と25の商業システムを含む、合計82の遠隔共同作業システムについて論じている。

Remote collaboration systems have become increasingly important in today's society, especially during times where physical distancing is advised. Industry, research and individuals face the challenging task of collaborating and networking over long distances. While video and teleconferencing are already widespread, collaboration systems in augmented, virtual, and mixed reality are still a niche technology. We provide an overview of recent developments of synchronous remote collaboration systems and create a taxonomy by dividing them into three main components that form such systems: Environment, Avatars, and Interaction. A thorough overview of existing systems is given, categorising their main contributions in order to help researchers working in different fields by providing concise information about specific topics such as avatars, virtual environment, visualisation styles and interaction. The focus of this work is clearly on synchronised collaboration from a distance. A total of 82 unique systems for remote collaboration are discussed, including more than 100 publications and 25 commercial systems.
翻訳日:2021-02-12 14:02:46 公開日:2021-02-11
# スペクトル分離波面操作と視線追跡のための非局所メタサーフェス

Nonlocal metasurfaces for spectrally decoupled wavefront manipulation and eye tracking ( http://arxiv.org/abs/2102.05790v1 )

ライセンス: Link先を確認
Jung-Hwan Song, Jorik van de Groep, Soo Jin Kim, and Mark L. Brongersma(参考訳) 準表面ベースの光学素子は通常、散乱ナノ構造の密集した配列で振幅と位相の空間変化を付与することで光波を操作する。 ナノ構造の高局所および低光学品質要素(Q)モードは、電磁界を準局所的に制御できるため、波面形成に有用である。 しかし、多くの新しいイメージング、センシング、通信、ディスプレイ、および非線形光学アプリケーションは、代わりに、顕著なエネルギー貯蔵と波面上のはるかに高いスペクトル制御を提供するフラットで高Q光学素子を必要とします。 ここでは、異なる波長での光-物質相互作用と完全に分離された光学関数を際立たせる原子間メタサーフェ要素を備えた高Q非局所メタサーフェスを実証します。 眼球追跡におけるこのような平坦な視機能の利用の可能性を示す。 ここでは、通常の眼鏡のペアにパターン化されたメタサーフェは、可視スペクトル全体の世界の乱れのないビューを提供し、近赤外光をカメラにリダイレクトし、目のイメージングを可能にします。

Metasurface-based optical elements typically manipulate light waves by imparting space-variant changes in the amplitude and phase with a dense array of scattering nanostructures. The highly-localized and low optical-quality-fact or (Q) modes of nanostructures are beneficial for wavefront-shaping as they afford quasi-local control over the electromagnetic fields. However, many emerging imaging, sensing, communication, display, and non-linear optics applications instead require flat, high-Q optical elements that provide notable energy storage and a much higher degree of spectral control over the wavefront. Here, we demonstrate high-Q, nonlocal metasurfaces with atomically-thin metasurface elements that offer notably enhanced light-matter interaction and fully-decoupled optical functions at different wavelengths. We illustrate a possible use of such a flat optic in eye tracking for eye-wear. Here, a metasurface patterned on a regular pair of eye-glasses provides an unperturbed view of the world across the visible spectrum and redirects near-infrared light to a camera to allow imaging of the eye.
翻訳日:2021-02-12 14:01:57 公開日:2021-02-11
# 人工ニューラルネットワークを用いた混合状態エンタングルメント分類

Mixed State Entanglement Classification using Artificial Neural Networks ( http://arxiv.org/abs/2102.06053v1 )

ライセンス: Link先を確認
Cillian Harney, Mauro Paternostro, Stefano Pirandola(参考訳) 量子エンタングルメントの分類と定量化の信頼できる方法は、量子技術におけるその利用を理解するために基本的である。 そのような方法の1つは、分離可能ニューラルネットワーク量子状態(SNNS)と呼ばれ、絡み合う性質が明示的にプログラム可能である量子状態のニューラルネットワークに触発されたパラメータ化を用いる。 生成的機械学習手法と組み合わせ、このアングルは、ターゲット量子状態のエンタングルメント特性を推定/測定するために使用できる非常に特定の形態のエンタングルメントの研究を可能にする。 本研究では,多成分混合状態へのsnsの利用を拡張し,複雑に絡み合った量子システムの研究に汎用的かつ効率的なツールを提供する。 本稿では,新しい三成分絡み合い測度の計算や,quditチャネル容量に対する究極上界の近似など,多くの例を通して本手法の有効性を示す。

Reliable methods for the classification and quantification of quantum entanglement are fundamental to understanding its exploitation in quantum technologies. One such method, known as Separable Neural Network Quantum States (SNNS), employs a neural network inspired parameterisation of quantum states whose entanglement properties are explicitly programmable. Combined with generative machine learning methods, this ansatz allows for the study of very specific forms of entanglement which can be used to infer/measure entanglement properties of target quantum states. In this work, we extend the use of SNNS to mixed, multipartite states, providing a versatile and efficient tool for the investigation of intricately entangled quantum systems. We illustrate the effectiveness of our method through a number of examples, such as the computation of novel tripartite entanglement measures, and the approximation of ultimate upper bounds for qudit channel capacities.
翻訳日:2021-02-12 14:01:39 公開日:2021-02-11
# (参考訳) Covid-19のアウトブレイクを解析・予測する機械学習手法の比較分析 [全文訳有]

Comparative Analysis of Machine Learning Approaches to Analyze and Predict the Covid-19 Outbreak ( http://arxiv.org/abs/2102.05960v1 )

ライセンス: CC BY 4.0
Muhammad Naeem, Jian Yu, Muhammad Aamir, Sajjad Ahmad Khan, Olayinka Adeleye, Zardad Khan(参考訳) 背景。 パンデミックの時期を予測することは、公衆衛生のメッセージや医師の意識向上といった予防措置を講じることで、病気の影響を減少させる。 新型コロナウイルスの累積発生率の継続的かつ急速な増加に伴い、さまざまな機械学習(ML)モデルを含む統計および発生予測モデルは、流行の傾向を追跡し、予測するために研究コミュニティによって使用され、また、その拡散と闘い、管理するための適切な戦略を開発しています。 方法。 本稿では,Support Vector Machine,Random Forest,K-Nearest Neighbor,Artificial Neural NetworkなどのMLアプローチの比較分析を行い,疫学領域における新型コロナウイルスの流行を予測する。 まず,自己回帰的分散ラグ(ardl)法を適用し,時系列のcovid-19データセットの短期的および長期的関係を同定しモデル化する。 すなわち、応答変数と各説明時系列変数の間の遅延を独立変数として決定する。 その後、ARDLによって選択された回帰モデルにおいて、その遅延に関する有意な変数が流行の傾向を予測および予測するために使用される。 結果。 モデル精度には、Root Mean Square Error(RMSE)、Mean Absolute Error(MAE)、Mean Absolute Percentage Error(MAPE)などの統計的測定が用いられる。 確認,回収,死亡の最良のモデルに対するMAPEの値は,それぞれ0.407,0.094,0.124であり,精度の高い予測値に該当する。 また,毎日の死亡,回復の予測を15日先取りして計算し,あらゆる面で患者と患者が変動していることを確認した。 その上、結果は進化する短期政策の意思決定を支援するためのMLアルゴリズムの利点を明らかにします。

Background. Forecasting the time of forthcoming pandemic reduces the impact of diseases by taking precautionary steps such as public health messaging and raising the consciousness of doctors. With the continuous and rapid increase in the cumulative incidence of COVID-19, statistical and outbreak prediction models including various machine learning (ML) models are being used by the research community to track and predict the trend of the epidemic, and also in developing appropriate strategies to combat and manage its spread. Methods. In this paper, we present a comparative analysis of various ML approaches including Support Vector Machine, Random Forest, K-Nearest Neighbor and Artificial Neural Network in predicting the COVID-19 outbreak in the epidemiological domain. We first apply the autoregressive distributed lag (ARDL) method to identify and model the short and long-run relationships of the time-series COVID-19 datasets. That is, we determine the lags between a response variable and its respective explanatory time series variables as independent variables. Then, the resulting significant variables concerning their lags are used in the regression model selected by the ARDL for predicting and forecasting the trend of the epidemic. Results. Statistical measures i.e., Root Mean Square Error (RMSE), Mean Absolute Error (MAE) and Mean Absolute Percentage Error (MAPE) are used for model accuracy. The values of MAPE for the best selected models for confirmed, recovered and deaths cases are 0.407, 0.094 and 0.124 respectively, which falls under the category of highly accurate forecasts. In addition, we computed fifteen days ahead forecast for the daily deaths, recover, and confirm patients and the cases fluctuated across time in all aspects. Besides, the results reveal the advantages of ML algorithms for supporting decision making of evolving short term policies.
翻訳日:2021-02-12 14:00:56 公開日:2021-02-11
# (参考訳) バックボーンニューラルネットワークの前処理潜時空間からの最適トランスポートマッピングを用いた移動学習に基づく数ショット分類 [全文訳有]

Transfer learning based few-shot classification using optimal transport mapping from preprocessed latent space of backbone neural network ( http://arxiv.org/abs/2102.05176v2 )

ライセンス: CC BY 4.0
Tom\'a\v{s} Chobola, Daniel Va\v{s}ata, Pavel Kord\'ik(参考訳) MetaDL Challenge 2020は、画像分類タスクを数ショット設定で重視した。 本論文は,大会における2番目に優れた応募について述べる。 メタラーニングアプローチでは,ガウス分布をよりよく追従するために,各クラスに対してバックボーンネットワークによって生成された潜伏空間内のクラス分布を変化させる。 Latent Space Transformアルゴリズムと呼ばれるこの操作の後、クラスの中心はExpectation Maximizationアルゴリズムの反復的な方法でさらに整列され、ラベル付きインスタンス上に頻繁に提供されるラベル付きデータに情報を利用する。 そこで本研究では,シンクホーンアルゴリズムを用いた最適トランスポートマッピングを提案する。 提案手法は,K-Nearest Neighbourアルゴリズムやガウス混合モデルなどを用いて,従来の手法よりも優れていることを示す。

MetaDL Challenge 2020 focused on image classification tasks in few-shot settings. This paper describes second best submission in the competition. Our meta learning approach modifies the distribution of classes in a latent space produced by a backbone network for each class in order to better follow the Gaussian distribution. After this operation which we call Latent Space Transform algorithm, centers of classes are further aligned in an iterative fashion of the Expectation Maximisation algorithm to utilize information in unlabeled data that are often provided on top of few labelled instances. For this task, we utilize optimal transport mapping using the Sinkhorn algorithm. Our experiments show that this approach outperforms previous works as well as other variants of the algorithm, using K-Nearest Neighbour algorithm, Gaussian Mixture Models, etc.
翻訳日:2021-02-12 11:53:26 公開日:2021-02-11
# 単純エージェント・複雑環境:エージェント状態を用いた効率的な強化学習

Simple Agent, Complex Environment: Efficient Reinforcement Learning with Agent State ( http://arxiv.org/abs/2102.05261v2 )

ライセンス: Link先を確認
Shi Dong, Benjamin Van Roy, Zhengyuan Zhou(参考訳) 我々は,エージェント状態ダイナミクスと報酬関数のみの仕様により,任意の環境においてある程度の能力で動作可能な簡易強化学習エージェントを設計した。 エージェントは、各エージェント状態-アクションペアの訪問数と値の推定のみを保持する。 時間差や探索を促進する楽観的なブーストに応じて、値関数はインクリメンタルに更新されます。 エージェントは、この値関数に関して欲張りなアクションを実行します。 エージェント状態とアクションの数において、最適に近い状態を達成するのに要する時間は多項式であり、また、エージェント状態を通してのみ履歴に依存するものからなる参照ポリシークラス内の最良のポリシーの報酬混合時間である。 特に、他の政策や歴史統計に関連付けられた環境状態の数や混合時間に、これ以上依存することはない。 その結果、高次元の相互作用履歴からコンパクトで関連性の高い特徴を抽出する能力を示した(深層)表現学習の潜在的な利点が明らかになった。

We design a simple reinforcement learning agent that, with a specification only of agent state dynamics and a reward function, can operate with some degree of competence in any environment. The agent maintains only visitation counts and value estimates for each agent-state-action pair. The value function is updated incrementally in response to temporal differences and optimistic boosts that encourage exploration. The agent executes actions that are greedy with respect to this value function. We establish a regret bound demonstrating convergence to near-optimal per-period performance, where the time taken to achieve near-optimality is polynomial in the number of agent states and actions, as well as the reward mixing time of the best policy within the reference policy class, which is comprised of those that depend on history only through agent state. Notably, there is no further dependence on the number of environment states or mixing times associated with other policies or statistics of history. Our result sheds light on the potential benefits of (deep) representation learning, which has demonstrated the capability to extract compact and relevant features from high-dimensional interaction histories.
翻訳日:2021-02-12 11:44:09 公開日:2021-02-11
# より多く -- 分類ヘッドを追加して一般化ギャップを絞り込む

More Is More -- Narrowing the Generalization Gap by Adding Classification Heads ( http://arxiv.org/abs/2102.04924v2 )

ライセンス: Link先を確認
Roee Cates, Daphna Weinshall(参考訳) オーバーフィットは、一般的に機械学習、特にディープラーニングにおいて根本的な問題です。 画像の分類におけるオーバーフィットを減らし、一般化を改善するために、回転や反射などの変換群に不変性を用いるものもある。 しかし、全てのオブジェクトが必ずしも同じ不変性を示すわけではないため、ネットワークがデータから有用な不変性を学ぶことが望ましいと考えられる。 そのために、自己監督を動機に、「TransNet」と呼ばれる入力変換に基づく既存のニューラルネットワークモデルのアーキテクチャ強化と、それに適したトレーニングアルゴリズムを紹介します。 私達のモデルは訓練の時間だけに使用し、そして予測のためにpruned、基礎モデルに等価なアーキテクチャで起因します。 そこで,本研究では,基本モデルにおける最後の層の畳み込み核に対してソフト不変性を強制することで実現する一般化の改善を示しながら,各データセットのパフォーマンスを改善できることを示した。 提案手法をサポートするために理論解析を行う。

Overfit is a fundamental problem in machine learning in general, and in deep learning in particular. In order to reduce overfit and improve generalization in the classification of images, some employ invariance to a group of transformations, such as rotations and reflections. However, since not all objects exhibit necessarily the same invariance, it seems desirable to allow the network to learn the useful level of invariance from the data. To this end, motivated by self-supervision, we introduce an architecture enhancement for existing neural network models based on input transformations, termed 'TransNet', together with a training algorithm suitable for it. Our model can be employed during training time only and then pruned for prediction, resulting in an equivalent architecture to the base model. Thus pruned, we show that our model improves performance on various data-sets while exhibiting improved generalization, which is achieved in turn by enforcing soft invariance on the convolutional kernels of the last layer in the base model. Theoretical analysis is provided to support the proposed method.
翻訳日:2021-02-12 11:43:50 公開日:2021-02-11
# パワーローデータストリーム下のカウントミンスケッチに対するベイズ非パラメトリックアプローチ

A Bayesian nonparametric approach to count-min sketch under power-law data streams ( http://arxiv.org/abs/2102.03743v2 )

ライセンス: Link先を確認
Emanuele Dolera, Stefano Favaro, Stefano Peluchetti(参考訳) count-min sketch (cms) は、ランダムハッシュによるデータの圧縮表現を用いて、大きなデータストリーム内のトークンの頻度を推定するランダムデータ構造である。 本論文では、最近のベイズ非パラメトリック(BNP)ビューをCMSに頼って、パワーローデータストリームの下で新しい学習強化CMSを開発する。 ストリーム内のトークンは未知の離散分布から引き出されると仮定し、それ以前に正規化された逆ガウス過程(NIGP)が与えられる。 そして、NIGPの分布特性を用いて、ハッシュデータに基づき、ストリーム内のトークンの周波数の後方分布を計算し、対応するBNP推定を行う。 合成および実データへの応用は,低周波トークンの推定において顕著な性能を達成していることを示す。 これは自然言語処理の文脈において望ましい特徴として知られており、データの力則の振る舞いの文脈では確かに一般的である。

The count-min sketch (CMS) is a randomized data structure that provides estimates of tokens' frequencies in a large data stream using a compressed representation of the data by random hashing. In this paper, we rely on a recent Bayesian nonparametric (BNP) view on the CMS to develop a novel learning-augmented CMS under power-law data streams. We assume that tokens in the stream are drawn from an unknown discrete distribution, which is endowed with a normalized inverse Gaussian process (NIGP) prior. Then, using distributional properties of the NIGP, we compute the posterior distribution of a token's frequency in the stream, given the hashed data, and in turn corresponding BNP estimates. Applications to synthetic and real data show that our approach achieves a remarkable performance in the estimation of low-frequency tokens. This is known to be a desirable feature in the context of natural language processing, where it is indeed common in the context of the power-law behaviour of the data.
翻訳日:2021-02-12 10:12:12 公開日:2021-02-11