このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201222となっている論文です。

PDF登録状況(公開日: 20201222)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 切り離された情報ボトルネック [全文訳有]

Disentangled Information Bottleneck ( http://arxiv.org/abs/2012.07372v3 )

ライセンス: CC0 1.0
Ziqi Pan, Li Niu, Jianfu Zhang, Liqing Zhang(参考訳) 情報ボトルネック(インフォメーションボトルネック、英: information bottleneck、ib)は、ソース確率変数からターゲット確率変数の予測に関連する情報を抽出する手法であり、通常、圧縮と予測条件のバランスをとるibラグランジアンを最適化して実装される。 しかし、IBラグランジアンは最適化が困難であり、ラグランジアン乗算器の値を調整するための複数の試行が必要である。 さらに,IBラグランジアン最適化時に圧縮が強くなるにつれて,予測性能が厳密に低下することを示す。 本稿では,教師付きアンタングリングの観点からIB法を実装した。 具体的には、ターゲット予測性能損失(最大圧縮)を伴わずに、ソースの最大圧縮に一貫した Disentangled Information Bottleneck (DisenIB) を導入する。 理論および実験により,本手法は最大圧縮に一貫性があり,一般化,敵の攻撃に対する頑健性,分散検出,教師付き不一致の点で良好に機能することが示された。

The information bottleneck (IB) method is a technique for extracting information that is relevant for predicting the target random variable from the source random variable, which is typically implemented by optimizing the IB Lagrangian that balances the compression and prediction terms. However, the IB Lagrangian is hard to optimize, and multiple trials for tuning values of Lagrangian multiplier are required. Moreover, we show that the prediction performance strictly decreases as the compression gets stronger during optimizing the IB Lagrangian. In this paper, we implement the IB method from the perspective of supervised disentangling. Specifically, we introduce Disentangled Information Bottleneck (DisenIB) that is consistent on compressing source maximally without target prediction performance loss (maximum compression). Theoretical and experimental results demonstrate that our method is consistent on maximum compression, and performs well in terms of generalization, robustness to adversarial attack, out-of-distribution detection, and supervised disentangling.
翻訳日:2021-05-09 04:49:48 公開日:2020-12-22
# TROJANZOO: 神経バックドアについて知りたかったことすべて(ただし、質問は怖かった)

TROJANZOO: Everything you ever wanted to know about neural backdoors (but were afraid to ask) ( http://arxiv.org/abs/2012.09302v2 )

ライセンス: Link先を確認
Ren Pang, Zheng Zhang, Xiangshan Gao, Zhaohan Xi, Shouling Ji, Peng Cheng, Ting Wang(参考訳) ニューラルネットワークのバックドアは,ディープラーニングシステムのセキュリティに対する主要な脅威のひとつだ。 この主題に関する集中的な研究は、多くの攻撃/防御を生み出し、絶え間ない武器競争を引き起こした。 しかしながら、評価ベンチマークが欠如しているため、多くの重要な疑問が未解決のままである: (i) どの程度効果的か、回避可能か、あるいは移行可能か? (ii) いかに堅牢で、ユーティリティ保存、あるいはジェネリックが異なる防御なのか? (iii) さまざまな要因(モデルアーキテクチャなど)がパフォーマンスにどのように影響しますか? (iv)このような攻撃や防御を行うためのベストプラクティス(最適化戦略など)は何ですか? (v)既存の攻撃・防御をさらに改善できるのか? このギャップを埋めるために、私たちは、神経バックドア攻撃/防御を統一的で総合的で実用的な方法で評価する、最初のオープンソースプラットフォームであるtrojanzooを設計し、実装します。 これにより、12の代表的な攻撃、15の最先端防御、6つの攻撃性能指標、10の防衛ユーティリティメトリクス、および攻撃と防御の相互作用を詳細に分析するための豊富なツールが組み込まれている。 Leveraging TROJANZOO, we conduct a systematic study of existing attacks/defenses, leading to a number of interesting findings: (i) different attacks manifest various trade-offs among multiple desiderata (e.g., effectiveness, evasiveness, and transferability); (ii) one-pixel triggers often suffice; (iii) optimizing trigger patterns and trojan models jointly improves both attack effectiveness and evasiveness; (iv) sanitizing trojan models often introduces new vulnerabilities; (v) most defenses are ineffective against adaptive attacks, but integrating complementary ones significantly enhances defense robustness. このような発見は、ユーザーが適切な防御ソリューションを選択し、神経バックドアに関する今後の研究を促進することを期待する。

Neural backdoors represent one primary threat to the security of deep learning systems. The intensive research on this subject has produced a plethora of attacks/defenses, resulting in a constant arms race. However, due to the lack of evaluation benchmarks, many critical questions remain largely unexplored: (i) How effective, evasive, or transferable are different attacks? (ii) How robust, utility-preserving, or generic are different defenses? (iii) How do various factors (e.g., model architectures) impact their performance? (iv) What are the best practices (e.g., optimization strategies) to operate such attacks/defenses? (v) How can the existing attacks/defenses be further improved? To bridge the gap, we design and implement TROJANZOO, the first open-source platform for evaluating neural backdoor attacks/defenses in a unified, holistic, and practical manner. Thus, it has incorporated 12 representative attacks, 15 state-of-the-art defenses, 6 attack performance metrics, 10 defense utility metrics, as well as rich tools for in-depth analysis of attack-defense interactions. Leveraging TROJANZOO, we conduct a systematic study of existing attacks/defenses, leading to a number of interesting findings: (i) different attacks manifest various trade-offs among multiple desiderata (e.g., effectiveness, evasiveness, and transferability); (ii) one-pixel triggers often suffice; (iii) optimizing trigger patterns and trojan models jointly improves both attack effectiveness and evasiveness; (iv) sanitizing trojan models often introduces new vulnerabilities; (v) most defenses are ineffective against adaptive attacks, but integrating complementary ones significantly enhances defense robustness. We envision that such findings will help users select the right defense solutions and facilitate future research on neural backdoors.
翻訳日:2021-05-03 02:53:39 公開日:2020-12-22
# 自己監督型スケッチ・トゥ・イメージ合成

Self-Supervised Sketch-to-Image Synthesis ( http://arxiv.org/abs/2012.09290v2 )

ライセンス: Link先を確認
Bingchen Liu, Yizhe Zhu, Kunpeng Song, Ahmed Elgammal(参考訳) 色とりどりのリアルなイメージを任意に描いたスケッチから想像することは、我々が模倣したい人間の能力の1つだ。 スケッチと画像のペアを必要とするか、あるいは低量で検出されたエッジをスケッチとして利用する以前の方法とは異なり、exemplar-based sketch-to-image(s2i) 合成タスクを自己教師あり学習方式で研究し、ペアのスケッチデータの必要性を排除した。 そこで本研究では,rgbのみの汎用データセットを効率的に合成するための教師なし手法を提案する。 合成ペアデータを用いて、スケッチやRGB画像からコンテンツやスタイルの特徴を分離する自己教師型オートエンコーダ(AE)を提示し、スケッチに忠実な画像とRGB画像に忠実な画像の両方を合成する。 先行研究では,コンテンツ・スタイルの忠実性を強制するために,サイクル・コンシスタンス損失か注意モジュールのどちらかを採用するが,aeの優れた性能を純粋に自己スーパービジョンで示している。 また,高分解能の合成品質をさらに向上させるため,逆ネットワークを利用して合成画像の詳細を洗練する。 1024*1024解像度に関する大規模な実験は、CelebA-HQおよびWiki-Artデータセット上で提案されたモデルの最先端性能を示す。 さらに,提案したスケッチジェネレータでは,合成画像のスタイル一貫性と意味論的意味の両方を必要とするスタイルミキシングとスタイル転送に有望な性能を示す。 私たちのコードはhttps://github.com/o degeasslbc/Self-Supe rvised-Sketch-to-Ima ge-Synthesis-PyTorch で利用可能です。

Imagining a colored realistic image from an arbitrarily drawn sketch is one of the human capabilities that we eager machines to mimic. Unlike previous methods that either requires the sketch-image pairs or utilize low-quantity detected edges as sketches, we study the exemplar-based sketch-to-image (s2i) synthesis task in a self-supervised learning manner, eliminating the necessity of the paired sketch data. To this end, we first propose an unsupervised method to efficiently synthesize line-sketches for general RGB-only datasets. With the synthetic paired-data, we then present a self-supervised Auto-Encoder (AE) to decouple the content/style features from sketches and RGB-images, and synthesize images that are both content-faithful to the sketches and style-consistent to the RGB-images. While prior works employ either the cycle-consistence loss or dedicated attentional modules to enforce the content/style fidelity, we show AE's superior performance with pure self-supervisions. To further improve the synthesis quality in high resolution, we also leverage an adversarial network to refine the details of synthetic images. Extensive experiments on 1024*1024 resolution demonstrate a new state-of-art-art performance of the proposed model on CelebA-HQ and Wiki-Art datasets. Moreover, with the proposed sketch generator, the model shows a promising performance on style mixing and style transfer, which require synthesized images to be both style-consistent and semantically meaningful. Our code is available on https://github.com/o degeasslbc/Self-Supe rvised-Sketch-to-Ima ge-Synthesis-PyTorch , and please visit https://create.playf orm.io/my-projects?m ode=sketch for an online demo of our model.
翻訳日:2021-05-03 02:44:44 公開日:2020-12-22
# PC-RGNN:3次元物体検出のためのポイントクラウド補完とグラフニューラルネットワーク

PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object Detection ( http://arxiv.org/abs/2012.10412v3 )

ライセンス: Link先を確認
Yanan Zhang, Di Huang, Yunhong Wang(参考訳) LiDARベースの3Dオブジェクト検出は、自律走行にとって重要なタスクであり、現在のアプローチは、遠方および隠蔽された物体のスパースと部分点雲に悩まされている。 本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。 一方,高密度点の高品質な提案と,原構造を保存した全体像を復元する点雲補完モジュールを導入する。 一方、グラフニューラルネットワークモジュールは、局所的グローバルアテンション機構と多スケールのグラフベースのコンテキストアグリゲーションを通じてポイント間の関係を包括的に捉え、エンコードされた特徴を大幅に強化する。 KITTIベンチマークの大規模な実験は、提案手法が従来の最先端のベースラインを顕著なマージンで上回り、その有効性を強調していることを示している。

LiDAR-based 3D object detection is an important task for autonomous driving and current approaches suffer from sparse and partial point clouds of distant and occluded objects. In this paper, we propose a novel two-stage approach, namely PC-RGNN, dealing with such challenges by two specific solutions. On the one hand, we introduce a point cloud completion module to recover high-quality proposals of dense points and entire views with original structures preserved. On the other hand, a graph neural network module is designed, which comprehensively captures relations among points through a local-global attention mechanism as well as multi-scale graph based context aggregation, substantially strengthening encoded features. Extensive experiments on the KITTI benchmark show that the proposed approach outperforms the previous state-of-the-art baselines by remarkable margins, highlighting its effectiveness.
翻訳日:2021-05-01 18:09:57 公開日:2020-12-22
# (参考訳) 新型コロナウイルスのパンデミック:社会経済と健康格差 [全文訳有]

The COVID-19 pandemic: socioeconomic and health disparities ( http://arxiv.org/abs/2012.11399v2 )

ライセンス: CC BY 4.0
Behzad Javaheri(参考訳) 新型コロナウイルス(covid-19)のパンデミックで、世界中の不利なグループが死亡率を高めている。 この相違は、社会経済的および健康関連要因が疾患の結果の不平等を引き起こす可能性を示唆している。 これらの要因をLancet COVID-19の結果に関連付けるために、Lancet COVID-19 Commissionが提供する国別集計データを相関分析した。 社会経済および健康関連変数は、隆起回帰モデルと極端な勾配上昇(XGBoost)モデルを用いて、最上位5カ国の死亡率を予測するために用いられた。 以上の結果から,人口動態や社会的不利に関連する予測因子は,covid-19の死亡率と相関し,xgboostはリッジ回帰よりも良好であった。 総じて,現在のパンデミックの健康影響はウイルス感染の無差別な影響に留まらず,既存の健康と社会経済的不平等に基づいてこれらの予防効果が増幅されることが示唆された。

Disadvantaged groups around the world have suffered and endured higher mortality during the current COVID-19 pandemic. This contrast disparity suggests that socioeconomic and health-related factors may drive inequality in disease outcome. To identify these factors correlated with COVID-19 outcome, country aggregate data provided by the Lancet COVID-19 Commission subjected to correlation analysis. Socioeconomic and health-related variables were used to predict mortality in the top 5 most affected countries using ridge regression and extreme gradient boosting (XGBoost) models. Our data reveal that predictors related to demographics and social disadvantage correlate with COVID-19 mortality per million and that XGBoost performed better than ridge regression. Taken together, our findings suggest that the health consequence of the current pandemic is not just confined to indiscriminate impact of a viral infection but that these preventable effects are amplified based on pre-existing health and socioeconomic inequalities.
翻訳日:2021-04-27 12:49:15 公開日:2020-12-22
# ブラックボックス条件下での進化的多目的最適化を用いた音声認識における無調整逆例生成

Adjust-free adversarial example generation in speech recognition using evolutionary multi-objective optimization under black-box condition ( http://arxiv.org/abs/2012.11138v2 )

ライセンス: Link先を確認
Shoma Ishida, Satoshi Ono(参考訳) 本稿では,自動音声認識システムに対するブラックボックス攻撃手法を提案する。 音声認識のためにニューラルネットワークを攻撃しようとする研究もあるが、これらの手法は、ターゲット音声のタイミングラグに対して生成された対向例の頑健さを考慮しなかった。 提案手法は進化的多目的最適化(EMO)を採用し,ブラックボックスシナリオ下で頑健な逆例を生成する。 実験結果から,提案手法はタイミングラグに対して十分に頑健であり,攻撃者がターゲット音声に対してタイミングを取らなくてもよいような,調整不要な逆例を生成することができた。

This paper proposes a black-box adversarial attack method to automatic speech recognition systems. Some studies have attempted to attack neural networks for speech recognition; however, these methods did not consider the robustness of generated adversarial examples against timing lag with a target speech. The proposed method in this paper adopts Evolutionary Multi-objective Optimization (EMO)that allows it generating robust adversarial examples under black-box scenario. Experimental results showed that the proposed method successfully generated adjust-free adversarial examples, which are sufficiently robust against timing lag so that an attacker does not need to take the timing of playing it against the target speech.
翻訳日:2021-04-27 06:23:50 公開日:2020-12-22
# (参考訳) アルツハイマー病早期予測のための人工知能技術の検討 [全文訳有]

A Review of Artificial Intelligence Technologies for Early Prediction of Alzheimer's Disease ( http://arxiv.org/abs/2101.01781v1 )

ライセンス: CC BY-SA 4.0
Kuo Yang, Emad A. Mohammed(参考訳) アルツハイマー病(英: Alzheimer's Disease、AD)は、記憶と脳機能を破壊する重度の脳疾患である。 ADは慢性的に、進行的に、そして不可逆的に認知の低下と脳の損傷を引き起こす。 早期認知症の信頼性と効果的な評価は, 医用画像技術やコンピュータ支援アルゴリズムに欠かせない研究となっている。 この傾向は、画像分類と自然言語処理におけるディープラーニングの成功を動機とする現代の人工知能(ai)技術に移っている。 本研究の目的は,認知症診断におけるディープラーニングアルゴリズムに関する最新の研究の概要,adの初期段階の診断,および本研究の展望について考察することである。 本稿では、畳み込みニューラルネットワーク(cnn)、リカレントニューラルネットワーク(rnn)、自動画像セグメンテーション、オートエンコーダ、グラフcnn(gcn)、アンサンブル学習、転送学習など、ad診断における現代のaiアルゴリズムのさまざまな応用を紹介する。 提案手法の利点と欠点とその性能について論じる。 結論は、レビュー研究に応用された主な貢献と医用画像前処理技術についてまとめたものである。 最後に,限界と今後の展望について論じる。

Alzheimer's Disease (AD) is a severe brain disorder, destroying memories and brain functions. AD causes chronically, progressively, and irreversibly cognitive declination and brain damages. The reliable and effective evaluation of early dementia has become essential research with medical imaging technologies and computer-aided algorithms. This trend has moved to modern Artificial Intelligence (AI) technologies motivated by deeplearning success in image classification and natural language processing. The purpose of this review is to provide an overview of the latest research involving deep-learning algorithms in evaluating the process of dementia, diagnosing the early stage of AD, and discussing an outlook for this research. This review introduces various applications of modern AI algorithms in AD diagnosis, including Convolutional Neural Network (CNN), Recurrent Neural Network (RNN), Automatic Image Segmentation, Autoencoder, Graph CNN (GCN), Ensemble Learning, and Transfer Learning. The advantages and disadvantages of the proposed methods and their performance are discussed. The conclusion section summarizes the primary contributions and medical imaging preprocessing techniques applied in the reviewed research. Finally, we discuss the limitations and future outlooks.
翻訳日:2021-04-27 04:22:51 公開日:2020-12-22
# (参考訳) パッシブWi-Fiセンシング軌道データの多視点クラスタリング [全文訳有]

Multiple-Perspective Clustering of Passive Wi-Fi Sensing Trajectory Data ( http://arxiv.org/abs/2012.11796v1 )

ライセンス: CC0 1.0
Zann Koh, Yuren Zhou, Billy Pik Lik Lau, Chau Yuen, Bige Tuncer, and Keng Hua Chong(参考訳) 都市環境における人間の時空間的流れに関する情報は、広く応用されている。 現在、このようなデータ収集には多くの異なるアプローチがありますが、分析する標準的なフレームワークがありません。 本稿では,受動的Wi-Fiセンシングにより収集したデータの解析に焦点をあてる。 本研究では,非教師付き機械学習手法であるk-meansクラスタリングと階層的凝集クラスタリング(hac)を用いて,受動型wi-fiスニッフィング法を用いて収集したデータを分析するシステム的アプローチを提案する。 本研究では,データクラスタリングの3つの側面(時間別,個人別,場所別)について検討し,提案手法を5ヶ月以上にわたって収集した実世界データセットに適用して得られた結果を示す。

Information about the spatiotemporal flow of humans within an urban context has a wide plethora of applications. Currently, although there are many different approaches to collect such data, there lacks a standardized framework to analyze it. The focus of this paper is on the analysis of the data collected through passive Wi-Fi sensing, as such passively collected data can have a wide coverage at low cost. We propose a systematic approach by using unsupervised machine learning methods, namely k-means clustering and hierarchical agglomerative clustering (HAC) to analyze data collected through such a passive Wi-Fi sniffing method. We examine three aspects of clustering of the data, namely by time, by person, and by location, and we present the results obtained by applying our proposed approach on a real-world dataset collected over five months.
翻訳日:2021-04-27 03:34:02 公開日:2020-12-22
# (参考訳) APIK:部分微分方程式を用いたアクティブ物理インフォームド・クリグモデル [全文訳有]

APIK: Active Physics-Informed Kriging Model with Partial Differential Equations ( http://arxiv.org/abs/2012.11798v1 )

ライセンス: CC BY 4.0
Jialei Chen, Zhehui Chen, Chuck Zhang, C. F. Jeff Wu(参考訳) kriging(またはgaussian process regression)は、その柔軟性と閉形式予測式のための一般的な機械学習手法である。 しかし, 工学系への適用における重要な課題の1つは, 測定限界や高感度コストのため, 利用可能な測定データが不足している点である。 一方、工学系の物理的知識はしばしば利用可能であり、偏微分方程式(PDE)の形で表される。 本研究はPDEインフォームド・クリギング・モデル(PIK)で,PDE点の集合を通じてPDE情報を導入し,標準クリギング法と同様の後方予測を行う。 提案するpikモデルは線形および非線形pdesの物理知識を組み込むことができる。 そこで本研究では,PDEポイントを設計し,PIKモデルと測定データに基づいてPDE情報を活用する能動PIKフレームワーク(APIK)を提案する。 選択されたPDEポイントは、入力空間全体を探索するだけでなく、予測の不確実性を低減するためにPDE情報が重要となる場所を利用する。 最後にパラメータ推定のための期待最大化アルゴリズムを開発した。 衝撃波ケーススタディとレーザー加熱ケーススタディの2つの合成例において, APIKの有効性を実証した。

Kriging (or Gaussian process regression) is a popular machine learning method for its flexibility and closed-form prediction expressions. However, one of the key challenges in applying kriging to engineering systems is that the available measurement data is scarce due to the measurement limitations and high sensing costs. On the other hand, physical knowledge of the engineering system is often available and represented in the form of partial differential equations (PDEs). We present in this work a PDE Informed Kriging model (PIK), which introduces PDE information via a set of PDE points and conducts posterior prediction similar to the standard kriging method. The proposed PIK model can incorporate physical knowledge from both linear and nonlinear PDEs. To further improve learning performance, we propose an Active PIK framework (APIK) that designs PDE points to leverage the PDE information based on the PIK model and measurement data. The selected PDE points not only explore the whole input space but also exploit the locations where the PDE information is critical in reducing predictive uncertainty. Finally, an expectation-maximiza tion algorithm is developed for parameter estimation. We demonstrate the effectiveness of APIK in two synthetic examples, a shock wave case study, and a laser heating case study.
翻訳日:2021-04-27 03:09:25 公開日:2020-12-22
# (参考訳) To Talk or to work: Flexible Communication Compression for Energy Efficient Federated Learning over Heterogeneous Mobile Edge Devices [全文訳有]

To Talk or to Work: Flexible Communication Compression for Energy Efficient Federated Learning over Heterogeneous Mobile Edge Devices ( http://arxiv.org/abs/2012.11804v1 )

ライセンス: CC BY 4.0
Liang Li, Dian Shi, Ronghui Hou, Hui Li, Miao Pan, Zhu Han(参考訳) 機械学習、無線通信、モバイルハードウェア技術の最近の進歩は、大規模なモバイルエッジデバイス上での連合学習(fl)を可能にすることを約束している。 潜在的なメリットにもかかわらず、flは定期的なグローバル同期と継続的なローカルトレーニングのために、参加デバイスに膨大な通信と計算負荷を課し、バッテリ制約のあるモバイルデバイスに大きな課題を提起している。 本研究では,モバイルエッジネットワーク上でのFLのエネルギー効率向上を目標とし,学習性能を犠牲にすることなく,不均一な参加デバイスに対応する。 そこで我々は,フレキシブルな通信圧縮を実現する収束保証FLアルゴリズムを開発した。 導出収束境界によって導かれる圧縮制御スキームを設計し、長期学習の観点からローカルコンピューティング(ワークリング)と無線通信(トーキング)のエネルギー消費のバランスをとる。 特に、FL参加者が計算および通信環境に適応するために、圧縮パラメータを精巧に選択する。 提案手法の有効性を検証するために, 様々なデータセットを用いて大規模シミュレーションを行い, 提案手法の有効性を実証した。

Recent advances in machine learning, wireless communication, and mobile hardware technologies promisingly enable federated learning (FL) over massive mobile edge devices, which opens new horizons for numerous intelligent mobile applications. Despite the potential benefits, FL imposes huge communication and computation burdens on participating devices due to periodical global synchronization and continuous local training, raising great challenges to battery constrained mobile devices. In this work, we target at improving the energy efficiency of FL over mobile edge networks to accommodate heterogeneous participating devices without sacrificing the learning performance. To this end, we develop a convergence-guarante ed FL algorithm enabling flexible communication compression. Guided by the derived convergence bound, we design a compression control scheme to balance the energy consumption of local computing (i.e., "working") and wireless communication (i.e., "talking") from the long-term learning perspective. In particular, the compression parameters are elaborately chosen for FL participants adapting to their computing and communication environments. Extensive simulations are conducted using various datasets to validate our theoretical analysis, and the results also demonstrate the efficacy of the proposed scheme in energy saving.
翻訳日:2021-04-27 02:26:22 公開日:2020-12-22
# (参考訳) NetReAct: ネットワーク要約のための対話型学習 [全文訳有]

NetReAct: Interactive Learning for Network Summarization ( http://arxiv.org/abs/2012.11821v1 )

ライセンス: CC BY 4.0
Sorour E. Amiri, Bijaya Adhikari, John Wenskovitch, Alexander Rodriguez, Michelle Dowling, Chris North, and B. Aditya Prakash(参考訳) 有用なネットワーク要約を生成することは、センスメイキング、視覚化、圧縮といったいくつかのアプリケーションにおいて、困難で重要な問題である。 しかし、この分野での現在の作業のほとんどは、要約を生成しながら人間のフィードバックを考慮に入れていない。 分析者が文書間の類似性ネットワークを探索するインテリジェンス分析シナリオを考えてみましょう。 アナリストは、反復的なフィードバックによってネットワークサマリーを視覚化することで、自身の合意/不一致を表現できる。 ドキュメント(ノード)を一緒に閉じたり移動したりする。 このフィードバックを使って、ネットワークの要約品質をどのように改善できるでしょうか? 本稿では,テキストコーパスによって引き起こされるネットワークの可視化を支援する対話型ネットワーク要約アルゴリズムであるnetreactを提案する。 NetReActは、人間からのフィードバックと強化学習を組み込んで、ドキュメントネットワークを要約し視覚化する。 2つのデータセットのシナリオを使用して、NetReActが、他の非自明なベースラインよりも隠されたパターンを明らかにする高品質な要約と視覚化を生成することに成功していることを示す。

Generating useful network summaries is a challenging and important problem with several applications like sensemaking, visualization, and compression. However, most of the current work in this space do not take human feedback into account while generating summaries. Consider an intelligence analysis scenario, where the analyst is exploring a similarity network between documents. The analyst can express her agreement/disagreeme nt with the visualization of the network summary via iterative feedback, e.g. closing or moving documents ("nodes") together. How can we use this feedback to improve the network summary quality? In this paper, we present NetReAct, a novel interactive network summarization algorithm which supports the visualization of networks induced by text corpora to perform sensemaking. NetReAct incorporates human feedback with reinforcement learning to summarize and visualize document networks. Using scenarios from two datasets, we show how NetReAct is successful in generating high-quality summaries and visualizations that reveal hidden patterns better than other non-trivial baselines.
翻訳日:2021-04-27 00:54:07 公開日:2020-12-22
# (参考訳) 深層強化学習を用いた密集loraネットワークにおける知的資源配分 [全文訳有]

Intelligent Resource Allocation in Dense LoRa Networks using Deep Reinforcement Learning ( http://arxiv.org/abs/2012.11867v1 )

ライセンス: CC BY 4.0
Inaam Ilahi, Muhammad Usama, Muhammad Omer Farooq, Muhammad Umar Janjua, and Junaid Qadir(参考訳) 今後数年間で期待されるIoTデバイスの数の増加は、消費電力を低く保ちながら、効率的な管理を支援する効率的なアルゴリズムの開発を動機付けている。 本稿では,loradrlを提案し,詳細な性能評価を行う。 LoRaDRLのマルチチャネル方式を提案する。 その結果,提案アルゴリズムは長距離広帯域ネットワーク(LoRaWAN)のパケット配信率(PDR)を大幅に向上するだけでなく,移動端末(ED)を低消費電力でサポートできることを示した。 これまでのほとんどの研究は、ネットワーク容量を改善するために異なるMACプロトコルを提案することに重点を置いていた。 また,LoRaDRLを用いることで,複雑度をゲートウェイに移行した上で,ALOHAと同等の効率を実現できることを示す。 さらに,大規模な周波数ジャミング攻撃によるLoRaDRLの性能試験を行い,環境変化に対する適応性を示す。 また,LoRaDRLの出力により最先端技術の性能が向上し,学習ベース技術と比較してPDRの500%以上の改善が見られた。

The anticipated increase in the count of IoT devices in the coming years motivates the development of efficient algorithms that can help in their effective management while keeping the power consumption low. In this paper, we propose LoRaDRL and provide a detailed performance evaluation. We propose a multi-channel scheme for LoRaDRL. We perform extensive experiments, and our results demonstrate that the proposed algorithm not only significantly improves long-range wide area network (LoRaWAN)'s packet delivery ratio (PDR) but is also able to support mobile end-devices (EDs) while ensuring lower power consumption. Most previous works focus on proposing different MAC protocols for improving the network capacity. We show that through the use of LoRaDRL, we can achieve the same efficiency with ALOHA while moving the complexity from EDs to the gateway thus making the EDs simpler and cheaper. Furthermore, we test the performance of LoRaDRL under large-scale frequency jamming attacks and show its adaptiveness to the changes in the environment. We show that LoRaDRL's output improves the performance of state-of-the-art techniques resulting in some cases an improvement of more than 500% in terms of PDR compared to learning-based techniques.
翻訳日:2021-04-27 00:17:26 公開日:2020-12-22
# (参考訳) 言語モデルファインチューニングの有効性を説明する内在次元性 [全文訳有]

Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning ( http://arxiv.org/abs/2012.13255v1 )

ライセンス: CC BY 4.0
Armen Aghajanyan, Luke Zettlemoyer, Sonal Gupta(参考訳) 事前学習された言語モデルは、非常に幅広い言語理解タスクに対して最先端の結果を生成するように微調整することができるが、このプロセスのダイナミクスは特に低データ構造においてよく理解されていない。 なぜ比較的バニラ勾配勾配アルゴリズム(例えば、強い正規化なしで)を使って、数億から数千というラベル付きサンプルしか持たないデータセット上の数億のパラメータを持つモデルをチューニングできるのか? 本稿では,内在次元のレンズによる微調整を解析することで,この現象を説明するための経験的,理論的直観が得られることを論じる。 実験によって、一般的な事前学習モデルは非常に低い内在次元を持つことが示され、言い換えれば、完全なパラメータ空間のように微調整に有効である低次元のパラメータ化が存在する。 例えば、トレーニング可能なパラメータを200個だけランダムに全空間に投影することで、RoBERTaモデルをチューニングして、MRPCの完全なパラメータパフォーマンスの90%を達成することができます。 さらに,事前学習が内在的な次元を暗黙的に最小化していること,そして,おそらく驚くべきことに,より大きいモデルでは,少なくともその極端な効果を説明するために,一定数の事前学習後の内在的次元が低くなる傾向があることを実証的に示す。 最後に、本質的次元を低次元のタスク表現と圧縮に基づく一般化境界に結びつけ、全パラメータ数に依存しない本質的次元に基づく一般化境界を提供する。

Although pretrained language models can be fine-tuned to produce state-of-the-art results for a very wide range of language understanding tasks, the dynamics of this process are not well understood, especially in the low data regime. Why can we use relatively vanilla gradient descent algorithms (e.g., without strong regularization) to tune a model with hundreds of millions of parameters on datasets with only hundreds or thousands of labeled examples? In this paper, we argue that analyzing fine-tuning through the lens of intrinsic dimension provides us with empirical and theoretical intuitions to explain this remarkable phenomenon. We empirically show that common pre-trained models have a very low intrinsic dimension; in other words, there exists a low dimension reparameterization that is as effective for fine-tuning as the full parameter space. For example, by optimizing only 200 trainable parameters randomly projected back into the full space, we can tune a RoBERTa model to achieve 90\% of the full parameter performance levels on MRPC. Furthermore, we empirically show that pre-training implicitly minimizes intrinsic dimension and, perhaps surprisingly, larger models tend to have lower intrinsic dimension after a fixed number of pre-training updates, at least in part explaining their extreme effectiveness. Lastly, we connect intrinsic dimensionality with low dimensional task representations and compression based generalization bounds to provide intrinsic-dimension- based generalization bounds that are independent of the full parameter count.
翻訳日:2021-04-27 00:02:56 公開日:2020-12-22
# (参考訳) データ不均衡問題の分類と解決方法に関する調査研究 [全文訳有]

A Survey of Methods for Managing the Classification and Solution of Data Imbalance Problem ( http://arxiv.org/abs/2012.11870v1 )

ライセンス: CC BY 4.0
Khan Md. Hasib, Md. Sadiq Iqbal, Faisal Muhammad Shah, Jubayer Al Mahmud, Mahmudul Hasan Popel, Md. Imran Hossain Showrov, Shakil Ahmed, Obaidur Rahman(参考訳) クラス不均衡の問題は、現実世界の多くのアプリケーションに焦点を当てるために広範囲に及んでいる。 このような場合、ほとんどすべての例が majority クラスと呼ばれる1つのクラスとしてラベル付けされるが、他のクラスとしてラベル付けされる例は通常より少ないが、より重要なクラスは minor と呼ばれる。 ここ数年、データサンプリング、コスト感受性分析、遺伝的プログラミングに基づくモデル、バッグング、ブースティングなど、クラス不均衡の問題に関するいくつかの研究が実施されてきた。 しかし,本調査では,2003年,2008年,2010年,2012年,2014年と2019年の24つの関連研究を列挙し,単一・ハイブリッド・アンサンブル方式設計のアーキテクチャに着目し,クラス不均衡の問題を解決する機械学習技術における分類出力の改善の現状について考察した。 本調査では,様々な手法による分類アルゴリズムの統計的解析や,いくつかの実験条件,および異なる研究論文で使用されるデータセットについても述べる。

The problem of class imbalance is extensive for focusing on numerous applications in the real world. In such a situation, nearly all of the examples are labeled as one class called majority class, while far fewer examples are labeled as the other class usually, the more important class is called minority. Over the last few years, several types of research have been carried out on the issue of class imbalance, including data sampling, cost-sensitive analysis, Genetic Programming based models, bagging, boosting, etc. Nevertheless, in this survey paper, we enlisted the 24 related studies in the years 2003, 2008, 2010, 2012 and 2014 to 2019, focusing on the architecture of single, hybrid, and ensemble method design to understand the current status of improving classification output in machine learning techniques to fix problems with class imbalances. This survey paper also includes a statistical analysis of the classification algorithms under various methods and several other experimental conditions, as well as datasets used in different research papers.
翻訳日:2021-04-26 23:50:41 公開日:2020-12-22
# (参考訳) デジタル・ミーオントロジーと倫理 [全文訳有]

Digital me ontology and ethics ( http://arxiv.org/abs/2012.14325v1 )

ライセンス: CC BY 4.0
Ljupco Kocarev and Jasna Koteska(参考訳) 本稿では、デジタルミーと呼ばれるAIエージェントのオントロジーと倫理について述べる。 デジタル・ミーを自律的、意思決定的、学習エージェントとして定義し、個人を表現し、事実上不死の人生を持つ。 デジタルミーは大きな5つのパーソナリティモデルを備えており、意識、自由意志、意図といった強いAIのいくつかの側面のモデルを提供すると仮定されている。 As computer-based personality judgments are more accurate than those made by humans, digital me can judge the personality of the individual represented by the digital me, other individuals' personalities, and other digital me-s. We describe seven ontological qualities of digital me: a) double-layer status of Digital Being versus digital me, b) digital me versus real me, c) mind-digital me and body-digital me, d) digital me versus doppelganger (shadow digital me), e) non-human time concept, f) social quality, g) practical immortality. 我々は、AIの科学と技術の進歩により、2つのデジタルミートしきい値が存在すると主張している。 第1のしきい値は、意識、自由意志、意図のいくつかの(段階的に)形式を持つデジタル私を定義する。 第2のしきい値は、デジタルミーは道徳的学習能力を備えており、原理的には、デジタルミーは人間の倫理に対する理解とは大きく異なる独自の倫理を発達させることができることを示唆している。 最後に,デジタルミートメタ倫理,規範的・適用的倫理,デジタルミートにおける黄金律の実践,およびデジタルミートに対する規範的原則の2つのセット,すなわち連続主義と義務に基づくデジタルミート原理を提案する。

This paper addresses ontology and ethics of an AI agent called digital me. We define digital me as autonomous, decision-making, and learning agent, representing an individual and having practically immortal own life. It is assumed that digital me is equipped with the big-five personality model, ensuring that it provides a model of some aspects of a strong AI: consciousness, free will, and intentionality. As computer-based personality judgments are more accurate than those made by humans, digital me can judge the personality of the individual represented by the digital me, other individuals' personalities, and other digital me-s. We describe seven ontological qualities of digital me: a) double-layer status of Digital Being versus digital me, b) digital me versus real me, c) mind-digital me and body-digital me, d) digital me versus doppelganger (shadow digital me), e) non-human time concept, f) social quality, g) practical immortality. We argue that with the advancement of AI's sciences and technologies, there exist two digital me thresholds. The first threshold defines digital me having some (rudimentarily) form of consciousness, free will, and intentionality. The second threshold assumes that digital me is equipped with moral learning capabilities, implying that, in principle, digital me could develop their own ethics which significantly differs from human's understanding of ethics. Finally we discuss the implications of digital me metaethics, normative and applied ethics, the implementation of the Golden Rule in digital me-s, and we suggest two sets of normative principles for digital me: consequentialist and duty based digital me principles.
翻訳日:2021-04-26 23:33:14 公開日:2020-12-22
# (参考訳) 胸部X線データを用いた胸部気胸自動診断のためのハイブリッドVDVモデル [全文訳有]

A Hybrid VDV Model for Automatic Diagnosis of Pneumothorax using Class-Imbalanced Chest X-rays Dataset ( http://arxiv.org/abs/2012.11911v1 )

ライセンス: CC BY 4.0
Tahira Iqbal, Arslan Shaukat, Usman Akram, Zartasha Mustansar and Yung-Cheol Byun(参考訳) 生命を脅かす疾患である気胸は、迅速かつ効率的に診断する必要がある。 この場合の予後は時間を消費するだけでなく、人間の誤りも生じやすい。 そのため、胸部X線による自動診断が最優先事項である。 現在利用可能な医療画像データセットのほとんどは、クラスバランスの問題を抱えている。 本研究の主なテーマは気胸の自動検出法の提案とともにこの問題を解決することである。 まず、クラス不均衡の問題に対処するための既存のアプローチを比較し、データレベルのアンサンブルを見つけます。 データセットのサブセットのアンサンブル)は他のアプローチよりも優れています。 そこで本研究では,VGG16,VGG-19,DenseN et-121といった3つの畳み込みニューラルネットワークを固定特徴抽出器として用いた,複雑なデータレベルのアンサンブルであるVDVモデルを提案する。 予め定義されたCNNの1つから抽出された各データレベルアンサンブル特徴をベクトルマシン(SVM)分類器に供給し、投票方法を用いて各データレベルアンサンブルから出力を算出する。 3つの異なるCNNアーキテクチャを持つ3つのデータレベルアンサンブルから出力を得ると、再度投票法を用いて最終的な予測を計算する。 提案手法はSIIM ACR Pneumothorax データセットと NIH Chest X-ray データセットのランダムサンプルを用いて検証した。 第1のデータセットでは、受信者動作特性曲線(auc)の下85.17%の領域をリコールする。 第2のデータセットでは、95.0%のAUCで90.9%のリコールがランダムなデータ分割で達成され、85.45%のリコールと77.06%のAUCで患者のデータ分割によって得られる。 RS-NIHの場合,得られた結果は文献による結果と比較して高いが,第1のデータセットでは,このデータセットはPneumothorax分類に使用されていないため,直接比較はできない。

Pneumothorax, a life threatening disease, needs to be diagnosed immediately and efficiently. The prognosis in this case is not only time consuming but also prone to human errors. So an automatic way of accurate diagnosis using chest X-rays is the utmost requirement. To-date, most of the available medical images datasets have class-imbalance issue. The main theme of this study is to solve this problem along with proposing an automated way of detecting pneumothorax. We first compare the existing approaches to tackle the class-imbalance issue and find that data-level-ensemble (i.e. ensemble of subsets of dataset) outperforms other approaches. Thus, we propose a novel framework named as VDV model, which is a complex model-level-ensemble of data-level-ensembles and uses three convolutional neural networks (CNN) including VGG16, VGG-19 and DenseNet-121 as fixed feature extractors. In each data-level-ensemble features extracted from one of the pre-defined CNN are fed to support vector machine (SVM) classifier, and output from each data-level-ensemble is calculated using voting method. Once outputs from the three data-level-ensembles with three different CNN architectures are obtained, then, again, voting method is used to calculate the final prediction. Our proposed framework is tested on SIIM ACR Pneumothorax dataset and Random Sample of NIH Chest X-ray dataset (RS-NIH). For the first dataset, 85.17% Recall with 86.0% Area under the Receiver Operating Characteristic curve (AUC) is attained. For the second dataset, 90.9% Recall with 95.0% AUC is achieved with random split of data while 85.45% recall with 77.06% AUC is obtained with patient-wise split of data. For RS-NIH, the obtained results are higher as compared to previous results from literature However, for first dataset, direct comparison cannot be made, since this dataset has not been used earlier for Pneumothorax classification.
翻訳日:2021-04-26 23:11:27 公開日:2020-12-22
# (参考訳) ディープニューラルネットワークの限界--G. Marcusによるディープラーニング批判的評価の議論 [全文訳有]

Limitations of Deep Neural Networks: a discussion of G. Marcus' critical appraisal of deep learning ( http://arxiv.org/abs/2012.15754v1 )

ライセンス: CC BY 4.0
Stefanos Tsimenidis(参考訳) 深層ニューラルネットワークは、医療画像、半自律車、電子商取引、遺伝学、音声認識、素粒子物理学、実験的芸術、経済予測、環境科学、産業生産、そしてほぼあらゆる分野における幅広い応用において、大きな成果を生んだ人工知能の革命のきっかけとなった。 しかし、この突然の成功は研究コミュニティを酔わせ、深層学習を保証されたよりも高い地位に割り当てる潜在的な落とし穴に彼らを盲目にしたかもしれない。 また、深層学習の弱点を和らげる研究は、深層学習モデルにますます多くの応用方法を見つけるという、低速な成果に焦点を当てている科学者やエンジニアにとって、あまり魅力的ではないように思える。 ゲイリー・マーカスはdeep learning: a critical appraisalと題する論文を書き、マーカスの核となるアイデアについて論じた。 本研究は、深層ニューラルネットワークの限界のいくつかを調査し、将来の研究のための潜在的な経路を指し示し、多くの研究者が保持するメタフィジカルな誤解を解消することを目的としている。

Deep neural networks have triggered a revolution in artificial intelligence, having been applied with great results in medical imaging, semi-autonomous vehicles, ecommerce, genetics research, speech recognition, particle physics, experimental art, economic forecasting, environmental science, industrial manufacturing, and a wide variety of applications in nearly every field. This sudden success, though, may have intoxicated the research community and blinded them to the potential pitfalls of assigning deep learning a higher status than warranted. Also, research directed at alleviating the weaknesses of deep learning may seem less attractive to scientists and engineers, who focus on the low-hanging fruit of finding more and more applications for deep learning models, thus letting short-term benefits hamper long-term scientific progress. Gary Marcus wrote a paper entitled Deep Learning: A Critical Appraisal, and here we discuss Marcus' core ideas, as well as attempt a general assessment of the subject. This study examines some of the limitations of deep neural networks, with the intention of pointing towards potential paths for future research, and of clearing up some metaphysical misconceptions, held by numerous researchers, that may misdirect them.
翻訳日:2021-04-26 22:54:01 公開日:2020-12-22
# (参考訳) ビデオジョブインタビューにおける回答文の自動表示のための階層型推論グラフニューラルネットワーク [全文訳有]

A Hierarchical Reasoning Graph Neural Network for The Automatic Scoring of Answer Transcriptions in Video Job Interviews ( http://arxiv.org/abs/2012.11960v1 )

ライセンス: CC BY 4.0
Kai Chen, Meng Niu, Qingcai Chen(参考訳) 本稿では,非同期ビデオジョブインタビュー(AVI)における自動音声認識(ASR)の書き起こしから,テキストの特徴に基づいて候補者の能力を自動的に評価するタスクに対処する。 重要な課題は、質問と回答間の依存関係関係を構築し、各質問-回答(QA)ペアに対して意味レベルの相互作用を実行する方法である。 しかしながら、AVIにおける最近の研究のほとんどは、質問や回答をより良く表現する方法に焦点を当てているが、依存情報やそれら間の相互作用は無視している。 本研究では,質問応答対の自動評価のための階層型推論グラフニューラルネットワーク(HRGNN)を提案する。 具体的には,質問と回答の文の係り受け情報を取得するために,文レベルの関係グラフニューラルネットワークを構築した。 これらのグラフに基づいて,現在QAセッションの相互作用状態をモデル化するために,意味レベル推論グラフアテンションネットワークを用いる。 最後に,最終予測のための時間的質問応答対を表すゲート再帰単位エンコーダを提案する。 chnat(real-world dataset)で実施した実験結果は,提案モデルがテキストマッチングベースのベンチマークモデルを大幅に上回っていることを確認した。 10個のランダム種子を用いたアブレーション研究と実験結果からも,本モデルの有効性と安定性が示された。

We address the task of automatically scoring the competency of candidates based on textual features, from the automatic speech recognition (ASR) transcriptions in the asynchronous video job interview (AVI). The key challenge is how to construct the dependency relation between questions and answers, and conduct the semantic level interaction for each question-answer (QA) pair. However, most of the recent studies in AVI focus on how to represent questions and answers better, but ignore the dependency information and interaction between them, which is critical for QA evaluation. In this work, we propose a Hierarchical Reasoning Graph Neural Network (HRGNN) for the automatic assessment of question-answer pairs. Specifically, we construct a sentence-level relational graph neural network to capture the dependency information of sentences in or between the question and the answer. Based on these graphs, we employ a semantic-level reasoning graph attention network to model the interaction states of the current QA session. Finally, we propose a gated recurrent unit encoder to represent the temporal question-answer pairs for the final prediction. Empirical results conducted on CHNAT (a real-world dataset) validate that our proposed model significantly outperforms text-matching based benchmark models. Ablation studies and experimental results with 10 random seeds also show the effectiveness and stability of our models.
翻訳日:2021-04-26 22:27:12 公開日:2020-12-22
# (参考訳) 非線形次元還元による教師なし機能データ解析 [全文訳有]

Unsupervised Functional Data Analysis via Nonlinear Dimension Reduction ( http://arxiv.org/abs/2012.11987v1 )

ライセンス: CC BY-SA 4.0
Moritz Herrmann and Fabian Scheipl(参考訳) 近年,次元減少のためのツールとして多様体法が注目されている。 高次元データが実際に低次元の非線形多様体上または近傍にあると仮定すると、これらの手法はいくつかの設定において説得力のある結果を示す。 この多様体の仮定は、しばしば関数データ、すなわち連続的に観測される関数を表すデータにも妥当である。 しかし,最近提案されたグラフデータや画像データに対する多様体法の性能は,関数データの場合,体系的に評価されていない。 また,そのような表現に対して,復元誤差を性能尺度として使用できないため,可逆写像を生じない組込みの品質評価方法については明らかでない。 本研究では,関数型データ設定によって生じる非線形次元低減の課題について記述し,検討する。 まず、機能的データコンテキストで発生する特定の課題を体系的に評価し、表や画像のデータに対していくつかの非線形次元還元法を機能的データに転送し、この設定で多様体法がうまく使えることを示す理論的枠組みを定義します。 第2に,いくつかの機能的データ設定に基づいて,性能評価とチューニング戦略を徹底的かつ体系的に評価し,組込み品質の信頼性判断を阻害する未定の弱点と落とし穴を指摘する。 第3に,競合しない組込みに対して,より客観的に信頼に値する決定を下すためのニュアンス的アプローチを提案する。

In recent years, manifold methods have moved into focus as tools for dimension reduction. Assuming that the high-dimensional data actually lie on or close to a low-dimensional nonlinear manifold, these methods have shown convincing results in several settings. This manifold assumption is often reasonable for functional data, i.e., data representing continuously observed functions, as well. However, the performance of manifold methods recently proposed for tabular or image data has not been systematically assessed in the case of functional data yet. Moreover, it is unclear how to evaluate the quality of learned embeddings that do not yield invertible mappings, since the reconstruction error cannot be used as a performance measure for such representations. In this work, we describe and investigate the specific challenges for nonlinear dimension reduction posed by the functional data setting. The contributions of the paper are three-fold: First of all, we define a theoretical framework which allows to systematically assess specific challenges that arise in the functional data context, transfer several nonlinear dimension reduction methods for tabular and image data to functional data, and show that manifold methods can be used successfully in this setting. Secondly, we subject performance assessment and tuning strategies to a thorough and systematic evaluation based on several different functional data settings and point out some previously undescribed weaknesses and pitfalls which can jeopardize reliable judgment of embedding quality. Thirdly, we propose a nuanced approach to make trustworthy decisions for or against competing nonconforming embeddings more objectively.
翻訳日:2021-04-26 12:46:46 公開日:2020-12-22
# (参考訳) 人間の言語を使わずに言語モデルを事前学習する [全文訳有]

Pre-Training a Language Model Without Human Language ( http://arxiv.org/abs/2012.11995v1 )

ライセンス: CC BY 4.0
Cheng-Han Chiang and Hung-yi Lee(参考訳) 本稿では,事前学習データの本質的な性質が下流の微調整性能に与える影響について検討する。 この目的のために,特定の特徴を持つ複数のコーパス上で異なるトランスフォーマーベースのマスク付き言語モデルを事前訓練し,GLUEベンチマークでそれらの言語モデルを微調整する。 非構造化データで事前トレーニングされたモデルは、ダウンストリームタスクのスクラッチから直接トレーニングされたモデルを上回ることが分かりました。 また,構造化データの事前トレーニングによって,自然言語処理に移行可能なモデル獲得能力が必ずしも得られないことを示す。 驚くべきことに、特定の非人間の言語データに対する事前学習によって、GLUEのパフォーマンスが、他の非英語言語で事前訓練されたパフォーマンスに近くなることがわかった。

In this paper, we study how the intrinsic nature of pre-training data contributes to the fine-tuned downstream performance. To this end, we pre-train different transformer-based masked language models on several corpora with certain features, and we fine-tune those language models on GLUE benchmarks. We find that models pre-trained on unstructured data beat those trained directly from scratch on downstream tasks. Our results also show that pre-training on structured data does not always make the model acquire ability that can be transferred to natural language downstream tasks. To our great astonishment, we uncover that pre-training on certain non-human language data gives GLUE performance close to performance pre-trained on another non-English language.
翻訳日:2021-04-26 12:23:32 公開日:2020-12-22
# (参考訳) QVMixとQVMix-Max: 協調型マルチエージェント強化学習へのアルゴリズムの深い品質価値ファミリーの拡張

QVMix and QVMix-Max: Extending the Deep Quality-Value Family of Algorithms to Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2012.12062v1 )

ライセンス: CC BY 4.0
Pascal Leroy, Damien Ernst, Pierre Geurts, Gilles Louppe, Jonathan Pisane, Matthia Sabatelli(参考訳) 本稿では,協調環境で発生するマルチエージェント強化学習(MARL)問題に対処するために,新しい4つのアルゴリズムを提案する。 すべてのアルゴリズムは、シングルエージェント強化学習問題(SARL)を扱う際に成功した一連の手法であるDeep Quality-Value (DQV)ファミリに基づいている。 DQVアルゴリズムの鍵となる考え方は、状態値関数 $V$ の近似と状態値関数 $Q$ の近似を共同で学習することである。 この原則に従い、分散実行訓練パラダイム(QVMixとQVMix-Max)を用いた集中学習に基づく2つの完全分散MARLアルゴリズム(IQVとIQV-Max)と2つのアルゴリズムを導入することにより、これらのアルゴリズムを一般化する。 我々は,このアルゴリズムを,スタークラフトマルチエージェントチャレンジ(SMAC)環境における最先端のMARL技術と比較した。 QVMix と QVMix-Max を QMIX や MAVEN といった有名な MARL 技術と比較すると,QVMix がテスト環境のいくつかよりも優れていることを示す。 これは、QVMixが$Q$関数の過大評価バイアスに苦しむことによるものであると仮定する。

This paper introduces four new algorithms that can be used for tackling multi-agent reinforcement learning (MARL) problems occurring in cooperative settings. All algorithms are based on the Deep Quality-Value (DQV) family of algorithms, a set of techniques that have proven to be successful when dealing with single-agent reinforcement learning problems (SARL). The key idea of DQV algorithms is to jointly learn an approximation of the state-value function $V$, alongside an approximation of the state-action value function $Q$. We follow this principle and generalise these algorithms by introducing two fully decentralised MARL algorithms (IQV and IQV-Max) and two algorithms that are based on the centralised training with decentralised execution training paradigm (QVMix and QVMix-Max). We compare our algorithms with state-of-the-art MARL techniques on the popular StarCraft Multi-Agent Challenge (SMAC) environment. We show competitive results when QVMix and QVMix-Max are compared to well-known MARL techniques such as QMIX and MAVEN and show that QVMix can even outperform them on some of the tested environments, being the algorithm which performs best overall. We hypothesise that this is due to the fact that QVMix suffers less from the overestimation bias of the $Q$ function.
翻訳日:2021-04-26 12:15:05 公開日:2020-12-22
# (参考訳) イベント駆動クエリの拡張 [全文訳有]

Event-Driven Query Expansion ( http://arxiv.org/abs/2012.12065v1 )

ライセンス: CC BY 4.0
Guy D. Rosin, Ido Guy, Kira Radinsky(参考訳) 相当数のイベント関連クエリがweb検索で発行される。 本稿では,イベントを活用し,クエリ拡張の古典的なタスクを対象とする検索性能の向上を目指す。 まず,関連するイベントを検知してイベント関連クエリを拡張する手法を提案する。 次に、クエリとイベントの両方に意味論的に関連する用語として拡張候補を導出する。 候補を同定するために,同じベクトル空間に単語やイベントを同時に埋め込む新しいメカニズムを利用する。 提案手法は,各種ニュースワイヤTRECデータセットの最先端手法と比較して,クエリ拡張性能を著しく向上することを示す。

A significant number of event-related queries are issued in Web search. In this paper, we seek to improve retrieval performance by leveraging events and specifically target the classic task of query expansion. We propose a method to expand an event-related query by first detecting the events related to it. Then, we derive the candidates for expansion as terms semantically related to both the query and the events. To identify the candidates, we utilize a novel mechanism to simultaneously embed words and events in the same vector space. We show that our proposed method of leveraging events improves query expansion performance significantly compared with state-of-the-art methods on various newswire TREC datasets.
翻訳日:2021-04-26 12:13:58 公開日:2020-12-22
# (参考訳) ディープニューラルネットワークを用いた慢性腎臓病の予測 [全文訳有]

Prediction of Chronic Kidney Disease Using Deep Neural Network ( http://arxiv.org/abs/2012.12089v1 )

ライセンス: CC BY 4.0
Iliyas Ibrahim Iliyas, Isah Rambo Saidu, Ali Baba Dauda, Suleiman Tasiu(参考訳) Deep Neural Network(DNN)は、機械学習研究の焦点になりつつある。 そのアプリケーションは様々な分野に浸透し、複雑で複雑な問題を解決する。 現在、DNNは、がんや糖尿病などの様々な疾患を検出するために、健康画像処理に応用されている。 私たちの健康を脅かすもう1つの病気は腎臓病です。 この病気は私たちが摂取する物質や要素によって広まりつつある。 死は、少なくとも1つの機能する腎臓なしで数日以内に差し迫っており、避けられない。 腎臓機能不全を無視すると、慢性腎臓病が死亡することがある。 慢性腎臓病(CKD)とその症状は軽度で緩やかであり、近年になってようやく認識されるようになった。 ナイジェリアのヨベ州の地方政府であるベイドは、CKDの流行により医療従事者にとって注目の的となっている。 残念ながら、病気を克服するための技術的アプローチはまだ達成されていない。 Bade General Hospitalから10属性の400人の患者をデータセットとして収集した。 DNNモデルを用いてCKDの有無を予測した。 このモデルは98%の精度で製造された。 さらに,ckdの予測に使用される特徴のランキングを提供する上で重要となる特徴を特定し強調した。 その結果、CretriinineとBicarbonateの2つの属性がCKD予測に最も影響していることが判明した。

Deep neural Network (DNN) is becoming a focal point in Machine Learning research. Its application is penetrating into different fields and solving intricate and complex problems. DNN is now been applied in health image processing to detect various ailment such as cancer and diabetes. Another disease that is causing threat to our health is the kidney disease. This disease is becoming prevalent due to substances and elements we intake. Death is imminent and inevitable within few days without at least one functioning kidney. Ignoring the kidney malfunction can cause chronic kidney disease leading to death. Frequently, Chronic Kidney Disease (CKD) and its symptoms are mild and gradual, often go unnoticed for years only to be realized lately. Bade, a Local Government of Yobe state in Nigeria has been a center of attention by medical practitioners due to the prevalence of CKD. Unfortunately, a technical approach in culminating the disease is yet to be attained. We obtained a record of 400 patients with 10 attributes as our dataset from Bade General Hospital. We used DNN model to predict the absence or presence of CKD in the patients. The model produced an accuracy of 98%. Furthermore, we identified and highlighted the Features importance to provide the ranking of the features used in the prediction of the CKD. The outcome revealed that two attributes; Creatinine and Bicarbonate have the highest influence on the CKD prediction.
翻訳日:2021-04-26 11:58:02 公開日:2020-12-22
# (参考訳) 水中画像フィルタリング : 方法, データセット, 評価 [全文訳有]

Underwater image filtering: methods, datasets and evaluation ( http://arxiv.org/abs/2012.12258v1 )

ライセンス: CC BY 4.0
Chau Yi Li, Riccardo Mazzon, Andrea Cavallaro(参考訳) 水中の画像は、色を歪めコントラストを減少させる光の選択的減衰によって劣化する。 分解度は、水の種類、被写体とカメラの間の距離、被写体が有する水面下の深さに依存する。 水中画像フィルタリングは、水中画像で捉えた物体の復元や外観の向上を目的としている。 復元法は実際の劣化を補うが、強調法は認識される画像品質またはコンピュータビジョンアルゴリズムの性能を改善する。 水中画像フィルタリング手法への関心の高まり - 修復と強化の両方に使用される学習ベースのアプローチを含む - と関連する課題は、最先端の総合的なレビューを要求する。 本稿では, 濾過法の設計原理を概観し, 劣化原因を解明するための基礎となる海洋学の背景を再検討する。 各種水型における画像形成モデルと復元結果について検討した。 さらに、ニューラルネットワークのトレーニングと手法評価のためのタスク依存強化手法とカテゴリデータセットを提案する。 最後に,主観評価や品質評価を含む評価戦略について考察する。 我々はこの調査を、最先端の水中フィルタリング手法をホストし、比較を容易にするプラットフォーム(https://puiqe.eecs. qmul.ac.uk/)で補完する。

Underwater images are degraded by the selective attenuation of light that distorts colours and reduces contrast. The degradation extent depends on the water type, the distance between an object and the camera, and the depth under the water surface the object is at. Underwater image filtering aims to restore or to enhance the appearance of objects captured in an underwater image. Restoration methods compensate for the actual degradation, whereas enhancement methods improve either the perceived image quality or the performance of computer vision algorithms. The growing interest in underwater image filtering methods--including learning-based approaches used for both restoration and enhancement--and the associated challenges call for a comprehensive review of the state of the art. In this paper, we review the design principles of filtering methods and revisit the oceanology background that is fundamental to identify the degradation causes. We discuss image formation models and the results of restoration methods in various water types. Furthermore, we present task-dependent enhancement methods and categorise datasets for training neural networks and for method evaluation. Finally, we discuss evaluation strategies, including subjective tests and quality assessment measures. We complement this survey with a platform ( https://puiqe.eecs.q mul.ac.uk/ ), which hosts state-of-the-art underwater filtering methods and facilitates comparisons.
翻訳日:2021-04-26 11:18:54 公開日:2020-12-22
# (参考訳) ランダム化実験設計のための精製境界 [全文訳有]

Refined bounds for randomized experimental design ( http://arxiv.org/abs/2012.15726v1 )

ライセンス: CC BY 4.0
Geovani Rizk and Igor Colin and Albert Thomas and Moez Draief(参考訳) 実験設計は、与えられた基準に対して最適な推定値を得るために、与えられたセットの中からサンプルを選択するアプローチである。 線形回帰の文脈では、いくつかの最適設計が導出され、それぞれ異なる基準である平均二乗誤差、ロバスト性、\emph{etc} と関連づけられている。 そのような設計の計算は一般にNPハード問題であり、サンプル上の確率分布を考慮した凸緩和に依存することができる。 グリージー戦略やラウンドリング手順は注目されているが,最適分布からの直接サンプリングはほとんど研究されていない。 本稿では, e および g の最適設計におけるランダム化戦略に関する理論的保証を提案する。 そこで本研究では,確率行列の固有値に対する新しい濃度不等式を内在次元の洗練されたバージョンを用いて開発し,そのようなランダム化戦略の性能を定量化する。 最後に, 実験による解析の有効性を実証し, 線形包帯の最適腕識別問題に適用したG最適設計に着目する。

Experimental design is an approach for selecting samples among a given set so as to obtain the best estimator for a given criterion. In the context of linear regression, several optimal designs have been derived, each associated with a different criterion: mean square error, robustness, \emph{etc}. Computing such designs is generally an NP-hard problem and one can instead rely on a convex relaxation that considers probability distributions over the samples. Although greedy strategies and rounding procedures have received a lot of attention, straightforward sampling from the optimal distribution has hardly been investigated. In this paper, we propose theoretical guarantees for randomized strategies on E and G-optimal design. To this end, we develop a new concentration inequality for the eigenvalues of random matrices using a refined version of the intrinsic dimension that enables us to quantify the performance of such randomized strategies. Finally, we evidence the validity of our analysis through experiments, with particular attention on the G-optimal design applied to the best arm identification problem for linear bandits.
翻訳日:2021-04-26 10:09:52 公開日:2020-12-22
# (参考訳) 過去の言葉を見よ:事前訓練V&Lモデルのクロスモーダル能力の検証 [全文訳有]

Seeing past words: Testing the cross-modal capabilities of pretrained V&L models ( http://arxiv.org/abs/2012.12352v1 )

ライセンス: CC BY 4.0
Letitia Parcalabescu and Albert Gatt and Anette Frank and Iacer Calixto(参考訳) 我々は,(1) 正しい画像文対を誤ったものと識別する,(2) 画像中のエンティティをカウントする,という2つのタスクにおいて,汎用的な事前学習ビジョンと言語V&Lモデルの推論を行う能力について検討する。 ViLBERT, ViLBERT 12-in-1, LXMERTの3つの事前訓練V&Lモデルを, ゼロショットおよび微調整設定で評価した。 その結果,すべてのモデルが事前学習にタスク(1)を使用しているため,期待どおりに,モデルがタスク(1)をうまく解くことが判明した。 しかしながら、事前訓練されたV&Lモデルはいずれもタスク(2)、カウントプローブを適切に解くことができず、分布外量には一般化できない。 本研究は, 事前学習したV&L表現が, 2つのモダリティを統合する上での期待よりも少ないことを示唆する。 画像文アライメントタスクにおけるLXMERTの結果(およびViLBERT 12-in-1で得られたものより少ない程度)は、このモデルが破滅的な忘れを生じさせる可能性を示唆している。 計数プローブの結果は、全てのモデルがデータセットバイアスの影響を受けており、視覚入力の実体を識別できないことを示す。

We investigate the ability of general-purpose pretrained vision and language V&L models to perform reasoning in two tasks that require multimodal integration: (1) discriminating a correct image-sentence pair from an incorrect one, and (2) counting entities in an image. We evaluate three pretrained V&L models on these tasks: ViLBERT, ViLBERT 12-in-1 and LXMERT, in zero-shot and finetuned settings. Our results show that models solve task (1) very well, as expected, since all models use task (1) for pretraining. However, none of the pretrained V&L models are able to adequately solve task (2), our counting probe, and they cannot generalise to out-of-distribution quantities. Our investigations suggest that pretrained V&L representations are less successful than expected at integrating the two modalities. We propose a number of explanations for these findings: LXMERT's results on the image-sentence alignment task (and to a lesser extent those obtained by ViLBERT 12-in-1) indicate that the model may exhibit catastrophic forgetting. As for our results on the counting probe, we find evidence that all models are impacted by dataset bias, and also fail to individuate entities in the visual input.
翻訳日:2021-04-26 09:32:22 公開日:2020-12-22
# (参考訳) Simple-QE: テキスト簡易化のための自動品質評価の改善 [全文訳有]

Simple-QE: Better Automatic Quality Estimation for Text Simplification ( http://arxiv.org/abs/2012.12382v1 )

ライセンス: CC0 1.0
Reno Kriz, Marianna Apidianaki, Chris Callison-Burch(参考訳) テキスト単純化システムは、より広い読者にとって理解しやすいテキストのバージョンを生成する。 簡易テキストの品質は一般に、人間の参照と比較する指標を用いて推定されるが、取得が困難である。 本稿では,事前要約qe作業から適応した,bertに基づく品質推定(qe)モデルであるsimple-qeを提案する。 単純なQEは人間の参照を必要としないため、モデルはユーザが生成した単純化の質を知らせる必要がある実践的な環境で有用である。 また,本手法を用いて人文テキストの複雑さを正確に予測できることを示す。

Text simplification systems generate versions of texts that are easier to understand for a broader audience. The quality of simplified texts is generally estimated using metrics that compare to human references, which can be difficult to obtain. We propose Simple-QE, a BERT-based quality estimation (QE) model adapted from prior summarization QE work, and show that it correlates well with human quality judgments. Simple-QE does not require human references, which makes the model useful in a practical setting where users would need to be informed about the quality of generated simplifications. We also show that we can adapt this approach to accurately predict the complexity of human-written texts.
翻訳日:2021-04-26 08:49:30 公開日:2020-12-22
# (参考訳) スケーラブルな光学習オペレータ [全文訳有]

Scalable Optical Learning Operator ( http://arxiv.org/abs/2012.12404v1 )

ライセンス: CC BY 4.0
U\u{g}ur Te\u{g}in, Mustafa Y{\i}ld{\i}r{\i}m, \.Ilker O\u{g}uz, Christophe Moser, Demetri Psaltis(参考訳) 今日の重い機械学習タスクは、大規模なデータセットによって加速される。 コンピューティングは、メモリへのデータ転送によって最終的にパフォーマンスが制限されるパワー空腹プロセッサで実行される。 光学は情報通信と処理の強力な手段の1つであり、高速な計算を実現するための光情報処理への関心は高まっている。 本稿では、新型コロナウイルスのX線肺画像の分類や音声認識から、顔画像からの年齢予測に至るまで、多モードファイバの時空間効果に基づく光学コンピューティングフレームワークを実験的に紹介する。 提案フレームワークは,既存のシステムのエネルギースケーリング問題を高速化することなく克服する。 計算エンジンとして空間モードの同時,線形,非線形相互作用を利用した。 数値的および実験的に、ディジタル実装に匹敵する精度で複数の異なるタスクを実行することができることを示した。 この結果から,マルチモードファイバベースコンピュータの性能を再現するためには,強力なスーパーコンピュータが必要であることが示唆された。

Today's heavy machine learning tasks are fueled by large datasets. Computing is performed with power hungry processors whose performance is ultimately limited by the data transfer to and from memory. Optics is one of the powerful means of communicating and processing information and there is intense current interest in optical information processing for realizing high-speed computations. Here we present and experimentally demonstrate an optical computing framework based on spatiotemporal effects in multimode fibers for a range of learning tasks from classifying COVID-19 X-ray lung images and speech recognition to predicting age from face images. The presented framework overcomes the energy scaling problem of existing systems without compromising speed. We leveraged simultaneous, linear, and nonlinear interaction of spatial modes as a computation engine. We numerically and experimentally showed the ability of the method to execute several different tasks with accuracy comparable to a digital implementation. Our results indicate that a powerful supercomputer would be required to duplicate the performance of the multimode fiber-based computer.
翻訳日:2021-04-26 08:41:21 公開日:2020-12-22
# (参考訳) quicktumornet:脳腫瘍の高速自動マルチクラスセグメンテーション [全文訳有]

QuickTumorNet: Fast Automatic Multi-Class Segmentation of Brain Tumors ( http://arxiv.org/abs/2012.12410v1 )

ライセンス: CC BY 4.0
Benjamin Maas, Erfan Zabeh, Soroush Arabshahi(参考訳) 磁気共鳴イメージング(MRI)のような非侵襲的手法は脳腫瘍の診断に広く用いられている。 しかし、3D MRIボリュームから脳腫瘍を手動で分割することは、専門の放射線技師を必要とする時間を要する作業である。 手動セグメンテーションの主観性のため、レート間信頼性が低いため、診断上の相違が生じる可能性がある。 多くの脳腫瘍治療の成功は早期介入に依存するため、早期発見が最重要である。 この文脈では、脳腫瘍の検出と定量化のための効率的で信頼性の高い方法として、脳腫瘍の完全自動分割法が必要である。 本研究では,脳組織型セグメンテーション深層畳み込みニューラルネットワーク(cnn)であるquicknatの修正版を用いて,脳腫瘍セグメンテーションのエンド・ツー・エンドアプローチを提案する。 3種類の腫瘍分類群(髄膜腫,グリオーマ,下垂体)を含む233例のt1強調画像のデータセットを用いて検討した。 我々のモデルであるquicktumornetは、迅速かつ信頼性が高く、正確な脳腫瘍の分画を示し、臨床医の診断と治療に役立てることができた。

Non-invasive techniques such as magnetic resonance imaging (MRI) are widely employed in brain tumor diagnostics. However, manual segmentation of brain tumors from 3D MRI volumes is a time-consuming task that requires trained expert radiologists. Due to the subjectivity of manual segmentation, there is low inter-rater reliability which can result in diagnostic discrepancies. As the success of many brain tumor treatments depends on early intervention, early detection is paramount. In this context, a fully automated segmentation method for brain tumor segmentation is necessary as an efficient and reliable method for brain tumor detection and quantification. In this study, we propose an end-to-end approach for brain tumor segmentation, capitalizing on a modified version of QuickNAT, a brain tissue type segmentation deep convolutional neural network (CNN). Our method was evaluated on a data set of 233 patient's T1 weighted images containing three tumor type classes annotated (meningioma, glioma, and pituitary). Our model, QuickTumorNet, demonstrated fast, reliable, and accurate brain tumor segmentation that can be utilized to assist clinicians in diagnosis and treatment.
翻訳日:2021-04-26 08:23:34 公開日:2020-12-22
# (参考訳) フィルタ問題の解法による確率勾配変動の低減 [全文訳有]

Stochastic Gradient Variance Reduction by Solving a Filtering Problem ( http://arxiv.org/abs/2012.12418v1 )

ライセンス: CC BY 4.0
Xingyi Yang(参考訳) ディープニューラルネットワーク(DNN)は通常、確率勾配降下(SGD)を用いて最適化される。 しかし, 確率的試料を用いた勾配の推定は, ノイズが多く信頼性に乏しい傾向にあり, 勾配のばらつきが大きく, 収束不良がみられた。 本稿では,フィルタ設計の異なる適応フィルタリング問題を解くことにより,局所勾配の一貫した推定を行う効率的な確率最適化アルゴリズムである \textbf{filter gradient decent}~(fgd)を提案する。 本手法は,現在の推定値を高めるために,過去の状態を組み込むことにより,確率勾配勾配のばらつきを低減する。 雑音の勾配方向を補正し、学習の収束を加速することができる。 本稿では,従来の運動量に基づく手法と比較して,数値最適化とニューラルネットワークのトレーニングにおけるフィルタ勾配Descentの有効性を示す。 最善の知識を得るためには,信号処理における勾配推定とフィルタリング問題の類似性を生かして,勾配推定にフィルタリングを統合する実用的なソリューションを最初に提供する。 (https://github.com/ Adamdad/Filter-Gradi ent-Decent)

Deep neural networks (DNN) are typically optimized using stochastic gradient descent (SGD). However, the estimation of the gradient using stochastic samples tends to be noisy and unreliable, resulting in large gradient variance and bad convergence. In this paper, we propose \textbf{Filter Gradient Decent}~(FGD), an efficient stochastic optimization algorithm that makes the consistent estimation of the local gradient by solving an adaptive filtering problem with different design of filters. Our method reduces variance in stochastic gradient descent by incorporating the historical states to enhance the current estimation. It is able to correct noisy gradient direction as well as to accelerate the convergence of learning. We demonstrate the effectiveness of the proposed Filter Gradient Descent on numerical optimization and training neural networks, where it achieves superior and robust performance compared with traditional momentum-based methods. To the best of our knowledge, we are the first to provide a practical solution that integrates filtering into gradient estimation by making the analogy between gradient estimation and filtering problems in signal processing. (The code is provided in https://github.com/A damdad/Filter-Gradie nt-Decent)
翻訳日:2021-04-26 08:15:00 公開日:2020-12-22
# タスク指向対話システムのためのコピー機構を用いたエンティティ認識知識の学習と応答生成

Learning to Retrieve Entity-Aware Knowledge and Generate Responses with Copy Mechanism for Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2012.11937v1 )

ライセンス: Link先を確認
Chao-Hong Tan, Xiaoyu Yang, Zi'ou Zheng, Tianda Li, Yufei Feng, Jia-Chen Gu, Quan Liu, Dan Liu, Zhen-Hua Ling, Xiaodan Zhu(参考訳) 第9回対話システム技術チャレンジ(DSTC 9)のトラック1のように、非構造化知識アクセスによるタスク指向の会話モデリングは、与えられた対話履歴と知識アクセスを生成するシステムを構築することを要求する。 この課題は,(1)知識探索ターン検出,(2)知識選択,(3)知識接地応答生成の3つのサブタスクに分けることができる。 我々は、異なるサブタスクのベースエンコーダとして、事前訓練された言語モデルELECTRAとRoBERTaを使用します。 サブタスク1と2では、ドメインやエンティティといった粗い粒度情報を使用して知識使用量を高める。 サブタスク3では、ダイアログ履歴と選択した知識をより良くエンコードするために潜在変数を使用し、コピー機構と組み合わせた応答を生成します。 一方、モデルの最終出力で有用な後処理戦略が実行され、生成タスクでさらなる知識使用が可能になる。 得られた評価結果に示すように,提案システムは客観的指標より2位,人的指標より4位である。

Task-oriented conversational modeling with unstructured knowledge access, as track 1 of the 9th Dialogue System Technology Challenges (DSTC 9), requests to build a system to generate response given dialogue history and knowledge access. This challenge can be separated into three subtasks, (1) knowledge-seeking turn detection, (2) knowledge selection, and (3) knowledge-grounded response generation. We use pre-trained language models, ELECTRA and RoBERTa, as our base encoder for different subtasks. For subtask 1 and 2, the coarse-grained information like domain and entity are used to enhance knowledge usage. For subtask 3, we use a latent variable to encode dialog history and selected knowledge better and generate responses combined with copy mechanism. Meanwhile, some useful post-processing strategies are performed on the model's final output to make further knowledge usage in the generation task. As shown in released evaluation results, our proposed system ranks second under objective metrics and ranks fourth under human metrics.
翻訳日:2021-04-26 07:50:30 公開日:2020-12-22
# 極値理論による開集合領域適応

Open Set Domain Adaptation by Extreme Value Theory ( http://arxiv.org/abs/2101.02561v1 )

ライセンス: Link先を確認
Yiming Xu, Diego Klabjan(参考訳) 共通のドメイン適応技術では、ソースドメインとターゲットドメインが同じラベル空間を共有していると仮定します。 もしそうでなければ、追加の未知のクラスも適応中にソースドメインとマッチするため、既存のメソッドはうまく動作しない。 本稿では、ソースとターゲットラベル空間が部分的に重複しているだけであり、タスクが未知のクラスが存在する場合、ターゲット不明のクラスを検出してソースドメインと整合しないようにする、という仮定の下で、オープンセット領域適応問題に取り組む。 本稿では,既知のクラスに属するサンプルの確率を示す重み付けと,未知クラス検出のための極値理論を用いてエントロピー分布のテールをモデル化する,ドメイン適応のためのインスタンスレベルの再重み付け戦略を提案する。 従来のドメイン適応データセットを用いた実験では,提案手法が最先端モデルよりも優れていた。

Common domain adaptation techniques assume that the source domain and the target domain share an identical label space, which is problematic since when target samples are unlabeled we have no knowledge on whether the two domains share the same label space. When this is not the case, the existing methods fail to perform well because the additional unknown classes are also matched with the source domain during adaptation. In this paper, we tackle the open set domain adaptation problem under the assumption that the source and the target label spaces only partially overlap, and the task becomes when the unknown classes exist, how to detect the target unknown classes and avoid aligning them with the source domain. We propose to utilize an instance-level reweighting strategy for domain adaptation where the weights indicate the likelihood of a sample belonging to known classes and to model the tail of the entropy distribution with Extreme Value Theory for unknown class detection. Experiments on conventional domain adaptation datasets show that the proposed method outperforms the state-of-the-art models.
翻訳日:2021-04-26 07:50:12 公開日:2020-12-22
# ビデオインフルエンサー:unboxing the mystique

Video Influencers: Unboxing the Mystique ( http://arxiv.org/abs/2012.12311v1 )

ライセンス: Link先を確認
Prashant Rajaram and Puneet Manchanda(参考訳) インフルエンサーマーケティングは、主にカスタムビデオを通じてオーディエンスにリーチするソーシャルメディアスターの人気が高まっているため、顧客へリーチするためのツールとしてますます使われている。 インフルエンサーマーケティングの急速な成長にもかかわらず、インフルエンサービデオの設計と有効性についてはほとんど研究されていない。 YouTubeインフルエンサービデオの公開データを用いて、動画中の広告コンテンツ(テキスト、音声、画像全体)とビデオビュー、対話率、感情の間の重要な関係を特定するために、転送学習がサポートする新しい解釈可能なディープラーニングアーキテクチャを実装した。 従来の特徴工学を回避し,その代わりにポスト解釈を用いることで,解釈可能性と予測能力のトレードオフを回避する。 本研究では,映像要素の注目度の増加に関連のない要因に影響を及ぼす関係をフィルタリングし,現場でテスト可能な映像要素とマーケティング成果との因果関係の確立を容易にする。 重要な発見は、ビデオの最初の30秒におけるブランドの言及は、平均してブランドへの注目度が大幅に高まるが、ビデオに対する感情が大幅に低下していることだ。 我々は、インフルエンサーとブランドの両方のアプローチから学んだことを説明している。

Influencer marketing is being used increasingly as a tool to reach customers because of the growing popularity of social media stars who primarily reach their audience(s) via custom videos. Despite the rapid growth in influencer marketing, there has been little research on the design and effectiveness of influencer videos. Using publicly available data on YouTube influencer videos, we implement novel interpretable deep learning architectures, supported by transfer learning, to identify significant relationships between advertising content in videos (across text, audio, and images) and video views, interaction rates and sentiment. By avoiding ex-ante feature engineering and instead using ex-post interpretation, our approach avoids making a trade-off between interpretability and predictive ability. We filter out relationships that are affected by confounding factors unassociated with an increase in attention to video elements, thus facilitating the generation of plausible causal relationships between video elements and marketing outcomes which can be tested in the field. A key finding is that brand mentions in the first 30 seconds of a video are on average associated with a significant increase in attention to the brand but a significant decrease in sentiment expressed towards the video. We illustrate the learnings from our approach for both influencers and brands.
翻訳日:2021-04-26 07:49:35 公開日:2020-12-22
# これはあなたが探しているTextureではありません! 生成的逆境学習を用いた非熟練者に対する新しい反事実的説明の導入

This is not the Texture you are looking for! Introducing Novel Counterfactual Explanations for Non-Experts using Generative Adversarial Learning ( http://arxiv.org/abs/2012.11905v1 )

ライセンス: Link先を確認
Silvan Mertes, Tobias Huber, Katharina Weitz, Alexander Heimerl, Elisabeth Andr\'e(参考訳) 機械学習の台頭に伴い、人工知能システムによる意思決定を説明する方法の必要性がますます重要になっている。 特に画像分類タスクでは、そのような分類器を説明する多くの最先端ツールが、入力データの重要な領域の視覚的ハイライトに依存している。 対照的に、対実的説明システムでは、分類器が異なる予測を行うように入力画像を変更することで、反実的推論を可能にしようとする。 これにより、反事実説明システムの利用者は、全く異なる種類の説明情報を備えている。 しかし、画像分類器の現実的な反実的説明を生成する方法はまだ稀である。 本研究では, 対角画像から画像への変換技術に基づいて, 対実画像の説明を生成する手法を提案する。 さらに,医療シナリオにインスパイアされたユースケースにおいて,アプローチを評価するためのユーザスタディを実施している。 以上の結果から, 精神モデル, 説明満足度, 信頼感, 感情, 自己効力感に関するアプローチは, LIME と LRP を併用した2つの最先端技術システムよりも有意に良好な結果が得られた。

With the ongoing rise of machine learning, the need for methods for explaining decisions made by artificial intelligence systems is becoming a more and more important topic. Especially for image classification tasks, many state-of-the-art tools to explain such classifiers rely on visual highlighting of important areas of the input data. Contrary, counterfactual explanation systems try to enable a counterfactual reasoning by modifying the input image in a way such that the classifier would have made a different prediction. By doing so, the users of counterfactual explanation systems are equipped with a completely different kind of explanatory information. However, methods for generating realistic counterfactual explanations for image classifiers are still rare. In this work, we present a novel approach to generate such counterfactual image explanations based on adversarial image-to-image translation techniques. Additionally, we conduct a user study to evaluate our approach in a use case which was inspired by a healthcare scenario. Our results show that our approach leads to significantly better results regarding mental models, explanation satisfaction, trust, emotions, and self-efficacy than two state-of-the art systems that work with saliency maps, namely LIME and LRP.
翻訳日:2021-04-26 07:49:17 公開日:2020-12-22
# 未分化の注意:中間層はBERTにとって必要か?

Undivided Attention: Are Intermediate Layers Necessary for BERT? ( http://arxiv.org/abs/2012.11881v1 )

ライセンス: Link先を確認
Sharath Nittur Sridhar, Anthony Sarah(参考訳) 近年,BERTをベースとしたモデルは,読解,自然言語推論,感情分析など,さまざまな自然言語処理(NLP)タスクの解決に極めて成功している。 すべてのBERTベースのアーキテクチャは自己保持ブロックを持ち、続いて基本的なビルディングコンポーネントとして中間層のブロックがある。 しかし、これらの中間層を包含する強い正当性は文献に残っていない。 本研究では,下流タスクのネットワーク性能における中間層の重要性について検討する。 BERT-Baseの中間層数の削減とアーキテクチャの変更により、下流タスクの微調整精度の低下が最小限に抑えられ、パラメータの減少とモデルの訓練時間が短縮されることを示す。 さらに,中央カーネルアライメント(cka)類似度メトリックと探索分類器を用いて,中間層除去が学習自己着脱表現にほとんど影響を与えないことを示す。

In recent times, BERT-based models have been extremely successful in solving a variety of natural language processing (NLP) tasks such as reading comprehension, natural language inference, sentiment analysis, etc. All BERT-based architectures have a self-attention block followed by a block of intermediate layers as the basic building component. However, a strong justification for the inclusion of these intermediate layers remains missing in the literature. In this work we investigate the importance of intermediate layers on the overall network performance of downstream tasks. We show that reducing the number of intermediate layers and modifying the architecture for BERT-Base results in minimal loss in fine-tuning accuracy for downstream tasks while decreasing the number of parameters and training time of the model. Additionally, we use the central kernel alignment (CKA) similarity metric and probing classifiers to demonstrate that removing intermediate layers has little impact on the learned self-attention representations.
翻訳日:2021-04-26 07:48:59 公開日:2020-12-22
# 低リソース医療対話生成のためのグラフ進化メタラーニング

Graph-Evolving Meta-Learning for Low-Resource Medical Dialogue Generation ( http://arxiv.org/abs/2012.11988v1 )

ライセンス: Link先を確認
Shuai Lin, Pan Zhou, Xiaodan Liang, Jianheng Tang, Ruihui Zhao, Ziliang Chen, Liang Lin(参考訳) 構造化された医療知識を持つ人間の医師は、症状に関する患者との会話を通じてのみ、病気を診断することができる。 対照的に、既存の知識ベース対話システムでは、異なる疾患間の相関を捉え、それらの間で共有される診断経験を無視するため、多くの対話インスタンスを学習する必要があることが多い。 この問題に対処するために、我々は、より自然で実用的なパラダイム、すなわち、低リソースの医療対話生成を提案し、ソース疾患からターゲット疾患への診断経験を、適応のための少数のデータで転送することができる。 既往の疾患症状の関係を特徴付けるために、常識知識グラフで大文字化されている。 さらに,新しい疾患の症状相関を推論するためのコモンセンスグラフの進化を学習するグラフ進化メタラーニング(GEML)フレームワークを開発し,多数の対話の必要性を効果的に軽減する。 さらに重要なことに、GEMLは疾患症状グラフを動的に進化させることで、各疾患の症状相関がより多くの診断ケースとともに変化する、あるいは進化する、という現実の課題にも対処する。 CMDDデータセットと新たにコンパイルされた中入データセットの大規模な実験結果から,最先端アプローチに対するアプローチの優位性が確認された。 さらに、GEMLは、豊富な対話に敏感な知識グラフをオンライン形式で生成できるので、知識グラフに基づく他のタスクにも役立ちます。

Human doctors with well-structured medical knowledge can diagnose a disease merely via a few conversations with patients about symptoms. In contrast, existing knowledge-grounded dialogue systems often require a large number of dialogue instances to learn as they fail to capture the correlations between different diseases and neglect the diagnostic experience shared among them. To address this issue, we propose a more natural and practical paradigm, i.e., low-resource medical dialogue generation, which can transfer the diagnostic experience from source diseases to target ones with a handful of data for adaptation. It is capitalized on a commonsense knowledge graph to characterize the prior disease-symptom relations. Besides, we develop a Graph-Evolving Meta-Learning (GEML) framework that learns to evolve the commonsense graph for reasoning disease-symptom correlations in a new disease, which effectively alleviates the needs of a large number of dialogues. More importantly, by dynamically evolving disease-symptom graphs, GEML also well addresses the real-world challenges that the disease-symptom correlations of each disease may vary or evolve along with more diagnostic cases. Extensive experiment results on the CMDD dataset and our newly-collected Chunyu dataset testify the superiority of our approach over state-of-the-art approaches. Besides, our GEML can generate an enriched dialogue-sensitive knowledge graph in an online manner, which could benefit other tasks grounded on knowledge graph.
翻訳日:2021-04-26 07:48:44 公開日:2020-12-22
# 不確かさと劣悪な共同でパンチラインを届ける: 発破した不規則性に基づく感性認識の特徴

Uncertainty and Surprisal Jointly Deliver the Punchline: Exploiting Incongruity-Based Features for Humor Recognition ( http://arxiv.org/abs/2012.12007v1 )

ライセンス: Link先を確認
Yubo Xie, Junze Li, Pearl Pu(参考訳) データ駆動型アプローチを用いたテキスト分類問題として,Humor Recognitionが広く研究されている。 しかし、既存の作品の多くは、ユーモアを理解するための実際のジョークメカニズムを検証していない。 ジョークは、セットアップとパンチラインという2つの異なる要素に分解し、それら間の特別な関係をさらに探ります。 ユーモアの不整合理論に触発されて、セマンティックな不確実性の発達と、観客の期待を混乱させるパンチラインをモデル化する。 ますます強力な言語モデルにより、私たちはGPT-2言語モデルにパンチラインと共にセットアップを供給し、ジョークの不確かさと前提値を計算することができた。 SemEval 2021 Task 7データセットで実験を行うことで、これらの2つの機能は、既存のベースラインと比較して、ジョークを言う能力が優れていることがわかった。

Humor recognition has been widely studied as a text classification problem using data-driven approaches. However, most existing work does not examine the actual joke mechanism to understand humor. We break down any joke into two distinct components: the set-up and the punchline, and further explore the special relationship between them. Inspired by the incongruity theory of humor, we model the set-up as the part developing semantic uncertainty, and the punchline disrupting audience expectations. With increasingly powerful language models, we were able to feed the set-up along with the punchline into the GPT-2 language model, and calculate the uncertainty and surprisal values of the jokes. By conducting experiments on the SemEval 2021 Task 7 dataset, we found that these two features have better capabilities of telling jokes from non-jokes, compared with existing baselines.
翻訳日:2021-04-26 07:48:23 公開日:2020-12-22
# 商品Wi-Fiを用いた被写体非依存型人物画像構築

Subject-independent Human Pose Image Construction with Commodity Wi-Fi ( http://arxiv.org/abs/2012.11812v1 )

ライセンス: Link先を確認
Shuang Zhou, Lingchao Guo, Zhaoming Lu, Xiangming Wen, Wei Zheng, Yiming Wang(参考訳) 近年、コモディティWi-Fiデバイスは人間のポーズ画像、すなわち人間の骨格をカメラのようにきめ細かいものにすることができることが示されている。 既存の論文は、事前のトレーニングサンプルの被験者の画像を作成する際に良い結果が得られる。 しかし、新しい被験者、すなわちトレーニングサンプルにいない被験者については、パフォーマンスが低下する。 本稿では,人間のポーズ画像構築における主題一般化問題の解決に焦点をあてる。 この目的のために、我々は主題をドメインとして定義する。 次に,被写体非依存の特徴を抽出し,人間のポーズ画像に変換するために,ドメイン非依存ニューラルネットワーク(dinn)を設計する。 また,dinnをトレーニングするための新しいトレーニング手法を提案するとともに,ドメイン敵アプローチと比較して,オーバヘッドの再トレーニングを行わない。 プロトタイプシステムを構築し, 実験結果から, 可視・壁面の両方のシナリオにおいて, 商品Wi-Fiを有する被験者の詳細な人物ポーズ画像が構築可能であることを示し, モデルの有効性と対象一般化能力を示す。

Recently, commodity Wi-Fi devices have been shown to be able to construct human pose images, i.e., human skeletons, as fine-grained as cameras. Existing papers achieve good results when constructing the images of subjects who are in the prior training samples. However, the performance drops when it comes to new subjects, i.e., the subjects who are not in the training samples. This paper focuses on solving the subject-generalizati on problem in human pose image construction. To this end, we define the subject as the domain. Then we design a Domain-Independent Neural Network (DINN) to extract subject-independent features and convert them into fine-grained human pose images. We also propose a novel training method to train the DINN and it has no re-training overhead comparing with the domain-adversarial approach. We build a prototype system and experimental results demonstrate that our system can construct fine-grained human pose images of new subjects with commodity Wi-Fi in both the visible and through-wall scenarios, which shows the effectiveness and the subject-generalizati on ability of our model.
翻訳日:2021-04-26 07:47:17 公開日:2020-12-22
# シーン固有のポーズエンコーダは本当に必要か?

Do We Really Need Scene-specific Pose Encoders? ( http://arxiv.org/abs/2012.12014v1 )

ライセンス: Link先を確認
Yoli Shavit and Ron Ferens(参考訳) 視覚的ポーズ回帰モデルは、単一の前方パスを持つクエリ画像からカメラのポーズを推定する。 現在のモデルは、シーン毎にトレーニングされた深層畳み込みネットワークを使用して、画像からポーズエンコーディングを学ぶ。 結果として生じるエンコーディングは通常、ポーズを後退させるために多層パーセプトロンに渡される。 本研究では,ポーズ回帰にシーン固有のポーズエンコーダを必要とせず,視覚的類似性を訓練したエンコーダを代わりに使用できることを提案する。 この仮説をテストするために、我々は複数の完全連結層からなる浅いアーキテクチャを、汎用画像検索モデルから事前に計算されたエンコーディングで学習する。 これらのエンコーディングは、カメラのポーズをリグレッシブするのに十分であるだけでなく、分岐した完全に接続されたアーキテクチャに提供すれば、トレーニングされたモデルは競争力のある結果を達成でき、場合によっては現在の \textit{state-of-the-art} のポーズレグレッシブを超えることさえある。 さらに, 屋外の局地化においては, 提案手法は, 2m以下, 5度以下で連続的に位置決めできる唯一のポーズ回帰器であることを示す。

Visual pose regression models estimate the camera pose from a query image with a single forward pass. Current models learn pose encoding from an image using deep convolutional networks which are trained per scene. The resulting encoding is typically passed to a multi-layer perceptron in order to regress the pose. In this work, we propose that scene-specific pose encoders are not required for pose regression and that encodings trained for visual similarity can be used instead. In order to test our hypothesis, we take a shallow architecture of several fully connected layers and train it with pre-computed encodings from a generic image retrieval model. We find that these encodings are not only sufficient to regress the camera pose, but that, when provided to a branching fully connected architecture, a trained model can achieve competitive results and even surpass current \textit{state-of-the-art} pose regressors in some cases. Moreover, we show that for outdoor localization, the proposed architecture is the only pose regressor, to date, consistently localizing in under 2 meters and 5 degrees.
翻訳日:2021-04-26 07:46:34 公開日:2020-12-22
# turn signal prediction: a federated learning case study

Turn Signal Prediction: A Federated Learning Case Study ( http://arxiv.org/abs/2012.12401v1 )

ライセンス: Link先を確認
Sonal Doomra, Naman Kohli, Shounak Athavale(参考訳) ドライバーは規則や規則に準拠するだけでなく、地元の無口の慣習にも従うからである。 ターン信号(インジケータ)をオン/オフにする場合は、決定的な正解や誤解を持たないようなエチケットである。 車両に内蔵された各種センサモードから生成されたデータからこの振る舞いを学習することは、深層学習に適した候補である。 しかし、federated learningの一番の候補は、あらゆるデータ集約に対するプライバシーの懸念と帯域制限だ。 本稿では,車載制御エリアネットワーク(CAN)信号データを用いた,LSTM(Long Short-term memory)に基づくターン信号予測(on or off)モデルを提案する。 モデルは2つのアプローチでトレーニングされる。1つはデータを集中的に集約し、もう1つは連合した方法で集約する。 中央に訓練されたモデルと連合モデルは、同様のハイパーパラメータ設定下で比較される。 本研究は,自動運転の車内学習におけるフェデレート学習の有効性を実証するものである。

Driving etiquette takes a different flavor for each locality as drivers not only comply with rules/laws but also abide by local unspoken convention. When to have the turn signal (indicator) on/off is one such etiquette which does not have a definitive right or wrong answer. Learning this behavior from the abundance of data generated from various sensor modalities integrated in the vehicle is a suitable candidate for deep learning. But what makes it a prime candidate for Federated Learning are privacy concerns and bandwidth limitations for any data aggregation. This paper presents a long short-term memory (LSTM) based Turn Signal Prediction (on or off) model using vehicle control area network (CAN) signal data. The model is trained using two approaches, one by centrally aggregating the data and the other in a federated manner. Centrally trained models and federated models are compared under similar hyperparameter settings. This research demonstrates the efficacy of federated learning, paving the way for in-vehicle learning of driving etiquette.
翻訳日:2021-04-26 07:46:14 公開日:2020-12-22
# トランスファーブルな名前付きエンティティ認識のための半スーパービジョン分散フレームワーク

Semi-Supervised Disentangled Framework for Transferable Named Entity Recognition ( http://arxiv.org/abs/2012.11805v1 )

ライセンス: Link先を確認
Zhifeng Hao, Di Lv, Zijian Li, Ruichu Cai, Wen Wen, Boyan Xu(参考訳) 非構造化テキスト中の固有名詞を識別するための名前付きエンティティ認識(NER)は、自然言語処理において最も重要かつ基本的なタスクの1つである。 しかし、NERモデルが広く使われているにもかかわらず、大規模なラベル付きデータセットが必要であるため、手動のアノテーションによって重い負担がかかる。 ドメイン適応は、対象ドメインに基づいたモデルの一般化性を高めるために、関連するソースドメインからのリッチなラベル付きデータを利用する、この問題に対する最も有望な解決策の1つである。 しかし、メインストリームのクロスドメインnerモデルは、(1)クロスドメイン転送のための構文情報などのドメイン不変情報を抽出するという2つの課題によってまだ影響を受ける。 2)NERの性能を向上させるため,意味情報などのドメイン固有情報をモデルに統合する。 本研究では、ドメイン不変な潜在変数とドメイン固有な潜在変数を区別するトランスファー可能なnerのための半教師付きフレームワークを提案する。 提案フレームワークでは、ドメイン固有情報とドメイン固有潜在変数をドメイン予測器を用いて統合する。 ドメイン固有およびドメイン不変潜在変数は、3つの相互情報正規化項、すなわちドメイン固有潜在変数と元の埋め込みとの間の相互情報を最大化し、ドメイン不変潜在変数と元の埋め込みとの間の相互情報を最大化し、ドメイン固有およびドメイン不変潜在変数間の相互情報を最小化する。 クロスドメインおよびクロスランガルなNERベンチマークデータセットを用いて、我々のモデルが最先端の性能を得ることができることを示した。

Named entity recognition (NER) for identifying proper nouns in unstructured text is one of the most important and fundamental tasks in natural language processing. However, despite the widespread use of NER models, they still require a large-scale labeled data set, which incurs a heavy burden due to manual annotation. Domain adaptation is one of the most promising solutions to this problem, where rich labeled data from the relevant source domain are utilized to strengthen the generalizability of a model based on the target domain. However, the mainstream cross-domain NER models are still affected by the following two challenges (1) Extracting domain-invariant information such as syntactic information for cross-domain transfer. (2) Integrating domain-specific information such as semantic information into the model to improve the performance of NER. In this study, we present a semi-supervised framework for transferable NER, which disentangles the domain-invariant latent variables and domain-specific latent variables. In the proposed framework, the domain-specific information is integrated with the domain-specific latent variables by using a domain predictor. The domain-specific and domain-invariant latent variables are disentangled using three mutual information regularization terms, i.e., maximizing the mutual information between the domain-specific latent variables and the original embedding, maximizing the mutual information between the domain-invariant latent variables and the original embedding, and minimizing the mutual information between the domain-specific and domain-invariant latent variables. Extensive experiments demonstrated that our model can obtain state-of-the-art performance with cross-domain and cross-lingual NER benchmark data sets.
翻訳日:2021-04-26 07:45:56 公開日:2020-12-22
# パターン探索訓練による小切手テキスト生成

Few-Shot Text Generation with Pattern-Exploiting Training ( http://arxiv.org/abs/2012.11926v1 )

ライセンス: Link先を確認
Timo Schick and Hinrich Sch\"utze(参考訳) 自然言語で単純なタスク記述やプロンプトを備えた事前学習された言語モデルを提供することで、サンプルからの勾配ベースの学習と組み合わせることで、幅広いテキスト分類タスクにおいて印象的な数発の結果が得られる。 本稿では,テキスト生成タスクにおける生成言語モデルの微調整を目的とした,最近提案された数発的手法であるパターン探索訓練(pet)を適用する。 いくつかのテキスト要約と見出し生成データセットにおいて、提案したPETの変種は、少数の設定で強力なベースラインに対して一貫した改善をもたらす。

Providing pretrained language models with simple task descriptions or prompts in natural language yields impressive few-shot results for a wide range of text classification tasks when combined with gradient-based learning from examples. In this paper, we show that the underlying idea can also be applied to text generation tasks: We adapt Pattern-Exploiting Training (PET), a recently proposed few-shot approach, for finetuning generative language models on text generation tasks. On several text summarization and headline generation datasets, our proposed variant of PET gives consistent improvements over a strong baseline in few-shot settings.
翻訳日:2021-04-26 07:45:30 公開日:2020-12-22
# セルフプログレッシブロバストトレーニング

Self-Progressing Robust Training ( http://arxiv.org/abs/2012.11769v1 )

ライセンス: Link先を確認
Minhao Cheng, Pin-Yu Chen, Sijia Liu, Shiyu Chang, Cho-Jui Hsieh, Payel Das(参考訳) 新しい、さらには敵対的環境下でモデルの堅牢性を高めることは、信頼できる機械学習システムを構築するための重要なマイルストーンである。 敵の訓練のような現在の堅牢な訓練手法は「攻撃」(例えば$\ell_{\infty}$-normの有界摂動)を明示的に用いて、敵の堅牢性を改善するためのモデルトレーニング中に敵の例を生成する。 本稿では,異なる視点から,sproutと呼ばれる自己プログレッシブロバストトレーニングと呼ばれる新しいフレームワークを提案する。 モデルトレーニング中、SPROUTは、提案したパラメタライズされたラベル平滑化技術を用いて、段階的にトレーニングラベルの分布を調整する。 また,近距離リスク最小化に基づく一般的な定式化によるSPROUTのモチベーションも行った。 l_inf-norm境界攻撃と様々な不変性テストによる最先端の対向訓練法(PGD-l_infとTRADES)と比較すると、SPROUTは一貫して優れた性能を示し、大規模ニューラルネットワークに対してよりスケーラブルである。 その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。

Enhancing model robustness under new and even adversarial environments is a crucial milestone toward building trustworthy machine learning systems. Current robust training methods such as adversarial training explicitly uses an "attack" (e.g., $\ell_{\infty}$-norm bounded perturbation) to generate adversarial examples during model training for improving adversarial robustness. In this paper, we take a different perspective and propose a new framework called SPROUT, self-progressing robust training. During model training, SPROUT progressively adjusts training label distribution via our proposed parametrized label smoothing technique, making training free of attack generation and more scalable. We also motivate SPROUT using a general formulation based on vicinity risk minimization, which includes many robust training methods as special cases. Compared with state-of-the-art adversarial training methods (PGD-l_inf and TRADES) under l_inf-norm bounded attacks and various invariance tests, SPROUT consistently attains superior performance and is more scalable to large neural networks. Our results shed new light on scalable, effective and attack-independent robust training methods.
翻訳日:2021-04-26 07:45:05 公開日:2020-12-22
# 畳み込みGANを用いた個人用医療データ生成

Differentially Private Synthetic Medical Data Generation using Convolutional GANs ( http://arxiv.org/abs/2012.11774v1 )

ライセンス: Link先を確認
Amirsina Torfi and Edward A. Fox and Chandan K. Reddy(参考訳) ディープラーニングモデルは、画像分類や音声処理など、いくつかのアプリケーション問題において優れた性能を示している。 しかし、健康記録データを使用したディープラーニングモデルを作成するには、この領域で働く研究者にユニークな懸念をもたらす、特定のプライバシー問題に対処する必要がある。 このようなプライベートデータ問題に対処する効果的な方法の1つは、現実的な合成データを生成し、実際に許容できるデータ品質とそれに対応するモデル性能を提供することである。 この課題に取り組むため,我々はr\'enyi differential privacyを用いた合成データ生成のための差分プライベートフレームワークを開発した。 提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの臨界特性の保存を行う。 さらに,本モデルでは,原データに存在する可能性のある時間的情報や特徴相関も捉えることができる。 提案モデルは,教師なしと教師なしの両方で利用可能なベンチマーク医療データセットを使用して,同一のプライバシー予算下で既存の最新モデルを上回ることを実証する。

Deep learning models have demonstrated superior performance in several application problems, such as image classification and speech processing. However, creating a deep learning model using health record data requires addressing certain privacy challenges that bring unique concerns to researchers working in this domain. One effective way to handle such private data issues is to generate realistic synthetic data that can provide practically acceptable data quality and correspondingly the model performance. To tackle this challenge, we develop a differentially private framework for synthetic data generation using R\'enyi differential privacy. Our approach builds on convolutional autoencoders and convolutional generative adversarial networks to preserve some of the critical characteristics of the generated synthetic data. In addition, our model can also capture the temporal information and feature correlations that might be present in the original data. We demonstrate that our model outperforms existing state-of-the-art models under the same privacy budget using several publicly available benchmark medical datasets in both supervised and unsupervised settings.
翻訳日:2021-04-26 07:44:42 公開日:2020-12-22
# 畳み込みネットワークを用いたグラフオートエンコーダ

Graph Autoencoders with Deconvolutional Networks ( http://arxiv.org/abs/2012.11898v1 )

ライセンス: Link先を確認
Jia Li, Tomas Yu, Da-Cheng Juan, Arjun Gopalan, Hong Cheng, Andrew Tomkins(参考訳) 近年の研究では、グラフ畳み込みネットワーク (gcns) がスペクトル領域において \emph{low pass} フィルタとして作用し、平滑化ノード表現を符号化することが示されている。 本稿では,グラフをスムーズなノード表現から再構成するグラフデコンボリューショナルネットワーク(GDN)について考察する。 スペクトル領域の逆フィルタとウェーブレット領域の逆処理層の組み合わせにより,グラフデコンボリューショナルネットワークの設計を動機付け,その逆演算により 'emph{high pass} フィルタが得られ,ノイズを増幅することができる。 提案したGDNに基づいて,まずGCNでスムーズなグラフ表現を符号化し,GDNで正確なグラフ信号を復号するグラフオートエンコーダフレームワークを提案する。 教師なしグラフレベル表現,ソーシャルレコメンデーション,グラフ生成などのタスクにおける提案手法の有効性を実証する。

Recent studies have indicated that Graph Convolutional Networks (GCNs) act as a \emph{low pass} filter in spectral domain and encode smoothed node representations. In this paper, we consider their opposite, namely Graph Deconvolutional Networks (GDNs) that reconstruct graph signals from smoothed node representations. We motivate the design of Graph Deconvolutional Networks via a combination of inverse filters in spectral domain and de-noising layers in wavelet domain, as the inverse operation results in a \emph{high pass} filter and may amplify the noise. Based on the proposed GDN, we further propose a graph autoencoder framework that first encodes smoothed graph representations with GCN and then decodes accurate graph signals with GDN. We demonstrate the effectiveness of the proposed method on several tasks including unsupervised graph-level representation , social recommendation and graph generation
翻訳日:2021-04-26 07:43:59 公開日:2020-12-22
# 脳波信号のてんかん発作検出のためのディープラーニングモデル解釈

Interpreting Deep Learning Models for Epileptic Seizure Detection on EEG signals ( http://arxiv.org/abs/2012.11933v1 )

ライセンス: Link先を確認
Valentin Gabeff, Tomas Teijeiro, Marina Zapater, Leila Cammoun, Sylvain Rheims, Philippe Ryvlin, David Atienza(参考訳) 深層学習(deep learning, dl)は、人工知能に基づく医学的意思決定支援の最先端技術と見なされることが多いが、ニューラルネットワークモデルの解釈が不十分なため、臨床医の信頼度は低いままである。 脳波信号に基づくてんかん発作のオンライン検出の文脈で解釈可能なDLモデルを開発することでこの問題に対処した。 これにより、入力信号の作成、ネットワークアーキテクチャ、およびドメイン知識に沿った出力の処理が条件付けられた。 Specifically, we focused the discussion on three main aspects: 1) how to aggregate the classification results on signal segments provided by the DL model into a larger time scale, at the seizure-level; 2) what are the relevant frequency patterns learned in the first convolutional layer of different models, and their relation with the delta, theta, alpha, beta and gamma frequency bands on which the visual interpretation of EEG is based; and 3) the identification of the signal waveforms with larger contribution towards the ictal class, according to the activation differences highlighted using the DeepLIFT method. その結果、第1層のカーネルサイズは、後処理後の最終的な性能が非常によく似ているにもかかわらず、抽出した特徴の解釈可能性と訓練されたモデルの感度を決定することがわかった。 また,ictal予測の主要な特徴は振幅であり,より複雑な周波数パターンを学ぶためには,患者人口の増加が必要であることが示唆された。 また,f1-scoreを0.873に分類し,90%の発作を検出できた。

While Deep Learning (DL) is often considered the state-of-the art for Artificial Intelligence-based medical decision support, it remains sparsely implemented in clinical practice and poorly trusted by clinicians due to insufficient interpretability of neural network models. We have tackled this issue by developing interpretable DL models in the context of online detection of epileptic seizure, based on EEG signal. This has conditioned the preparation of the input signals, the network architecture, and the post-processing of the output in line with the domain knowledge. Specifically, we focused the discussion on three main aspects: 1) how to aggregate the classification results on signal segments provided by the DL model into a larger time scale, at the seizure-level; 2) what are the relevant frequency patterns learned in the first convolutional layer of different models, and their relation with the delta, theta, alpha, beta and gamma frequency bands on which the visual interpretation of EEG is based; and 3) the identification of the signal waveforms with larger contribution towards the ictal class, according to the activation differences highlighted using the DeepLIFT method. Results show that the kernel size in the first layer determines the interpretability of the extracted features and the sensitivity of the trained models, even though the final performance is very similar after post-processing. Also, we found that amplitude is the main feature leading to an ictal prediction, suggesting that a larger patient population would be required to learn more complex frequency patterns. Still, our methodology was successfully able to generalize patient inter-variability for the majority of the studied population with a classification F1-score of 0.873 and detecting 90% of the seizures.
翻訳日:2021-04-26 07:43:43 公開日:2020-12-22
# オンラインの虐待的言語に直面する--倫理的・人権的な視点から

Confronting Abusive Language Online: A Survey from the Ethical and Human Rights Perspective ( http://arxiv.org/abs/2012.12305v1 )

ライセンス: Link先を確認
Svetlana Kiritchenko, Isar Nejadgholi, Kathleen C. Fraser(参考訳) インターネット上の虐待的なコンテンツが広まると、深刻な心理的・身体的被害につながる可能性がある。 自然言語処理(NLP)研究における重要な取り組みは、ヘイトスピーチの検出、毒性、サイバーいじめなど、乱暴なコンテンツ検出と関連するサブアリーナを通じてこの問題に対処することに集中している。 現在の技術は研究において高い分類性能を達成しているが、この技術の実際の応用は、非表現群のサイレンシングのような意図しない害を引き起こす可能性があることが観察されている。 我々は, プライバシー, 説明責任, 安全と安全, 透明性と説明責任, 公正と非差別, 技術制御, 専門的責任, 人的価値の促進という, 8つの確立した倫理的原則を中心に組織された倫理的課題に焦点をあてた, 自動乱用検出に関する大規模なnlp研究をレビューした。 多くの場合、これらの原則は文脈に依存しているかもしれない状況的倫理規範だけでなく、実際にはプライバシーの権利、差別の自由、表現の自由など、普遍的な人権と結びついている。 我々は、この技術の幅広い社会的影響を検証し、タスクの定式化やデータセットの設計、モデルのトレーニングと評価、アプリケーションデプロイメントまで、アプリケーションライフサイクルのあらゆる段階に倫理的および人権上の考慮をもたらす必要性を強調します。 これらの原則により、我々は、「ナッジ」、「隔離」、価値に敏感なデザイン、反ナラティブ、スタイル移行、AI駆動の公共教育アプリケーションなど、オンライン虐待を検出し、対決する権利を尊重する社会技術ソリューションの機会を特定します。

The pervasiveness of abusive content on the internet can lead to severe psychological and physical harm. Significant effort in Natural Language Processing (NLP) research has been devoted to addressing this problem through abusive content detection and related sub-areas, such as the detection of hate speech, toxicity, cyberbullying, etc. Although current technologies achieve high classification performance in research studies, it has been observed that the real-life application of this technology can cause unintended harms, such as the silencing of under-represented groups. We review a large body of NLP research on automatic abuse detection with a new focus on ethical challenges, organized around eight established ethical principles: privacy, accountability, safety and security, transparency and explainability, fairness and non-discrimination, human control of technology, professional responsibility, and promotion of human values. In many cases, these principles relate not only to situational ethical codes, which may be context-dependent, but are in fact connected to universal human rights, such as the right to privacy, freedom from discrimination, and freedom of expression. We highlight the need to examine the broad social impacts of this technology, and to bring ethical and human rights considerations to every stage of the application life-cycle, from task formulation and dataset design, to model training and evaluation, to application deployment. Guided by these principles, we identify several opportunities for rights-respecting, socio-technical solutions to detect and confront online abuse, including 'nudging', 'quarantining', value sensitive design, counter-narratives, style transfer, and AI-driven public education applications.
翻訳日:2021-04-26 07:42:46 公開日:2020-12-22
# ニューラルネットワークの潜時空間におけるデータ同化

Data Assimilation in the Latent Space of a Neural Network ( http://arxiv.org/abs/2012.12056v1 )

ライセンス: Link先を確認
Maddalena Amendola, Rossella Arcucci, Laetitia Mottet, Cesar Quilodran Casas, Shiwei Fan, Christopher Pain, Paul Linden, Yi-Ke Guo(参考訳) 室内空気質問題に対処するためのモデルを構築する必要がある。 モデルが正確で高速であることから、問題の次元性を減らすために減数次モデリング技術が用いられる。 動的システムを表すモデルの精度は、データ同化技術を用いてセンサーから得られる実データの統合を改善している。 本稿では,データ同化と機械学習を組み合わせた潜在同化という新しい手法を提案する。 畳み込みニューラルネットワークを用いて,問題の次元性を低減し,動的システムのサロゲートモデルを構築するための長期メモリと,実データを取り込むための最適な補間カルマンフィルタを提案する。 室内空間内のCO2濃度を実験的に測定した。 この手法は、例えば、SARS-COV-2のような空気中のウイルスの負荷をリアルタイムで予測するために、CO2濃度にリンクすることで使用できる。

There is an urgent need to build models to tackle Indoor Air Quality issue. Since the model should be accurate and fast, Reduced Order Modelling technique is used to reduce the dimensionality of the problem. The accuracy of the model, that represent a dynamic system, is improved integrating real data coming from sensors using Data Assimilation techniques. In this paper, we formulate a new methodology called Latent Assimilation that combines Data Assimilation and Machine Learning. We use a Convolutional neural network to reduce the dimensionality of the problem, a Long-Short-Term-Memo ry to build a surrogate model of the dynamic system and an Optimal Interpolated Kalman Filter to incorporate real data. Experimental results are provided for CO2 concentration within an indoor space. This methodology can be used for example to predict in real-time the load of virus, such as the SARS-COV-2, in the air by linking it to the concentration of CO2.
翻訳日:2021-04-26 07:41:42 公開日:2020-12-22
# 勾配降下を用いた勾配降下初期化学習

Learning to Initialize Gradient Descent Using Gradient Descent ( http://arxiv.org/abs/2012.12141v1 )

ライセンス: Link先を確認
Kartik Ahuja, Amit Dhurandhar, Kush R. Varshney(参考訳) 非凸最適化問題は解決が困難であり、勾配降下アルゴリズムや変種の成功と計算費用は初期化戦略に大きく依存する。 多くの場合、ランダム初期化は使われるか、初期化規則は問題クラスの性質を利用して慎重に設計される。 手作り初期化規則の単純な代替として,従来のソリューションから「良い」初期化規則を学習するためのアプローチを提案する。 我々は,すべての場合において十分かつ必要となる条件を確立するための理論的保証を提供する。 提案手法は,ブラックボックス機械学習モデルにおける逆例の生成,ポストホック説明の生成,通信スペクトルの割り当てなど,様々な非凸問題に適用し,他の初期化手法よりも一貫した利得を示す。

Non-convex optimization problems are challenging to solve; the success and computational expense of a gradient descent algorithm or variant depend heavily on the initialization strategy. Often, either random initialization is used or initialization rules are carefully designed by exploiting the nature of the problem class. As a simple alternative to hand-crafted initialization rules, we propose an approach for learning "good" initialization rules from previous solutions. We provide theoretical guarantees that establish conditions that are sufficient in all cases and also necessary in some under which our approach performs better than random initialization. We apply our methodology to various non-convex problems such as generating adversarial examples, generating post hoc explanations for black-box machine learning models, and allocating communication spectrum, and show consistent gains over other initialization techniques.
翻訳日:2021-04-26 07:41:29 公開日:2020-12-22
# 分布ロバスト学習のための不偏勾配推定

Unbiased Gradient Estimation for Distributionally Robust Learning ( http://arxiv.org/abs/2012.12367v1 )

ライセンス: Link先を確認
Soumyadip Ghosh and Mark Squillante(参考訳) モデル一般化を改善するために,確率的勾配降下を外的最小化問題に適用する分布的ロバスト学習(drl)に基づく新しいアプローチを検討する。 本アルゴリズムは,マルチレベルモンテカルロランダム化による内部最大化問題の勾配を効率的に推定する。 標準勾配推定器が故障した理由に関する理論的結果を活用して,計算時間と統計分散の基本的なトレードオフを両立する手法の勾配推定器の最適パラメータ化を定式化する。 数値実験により、我々のDRLアプローチは以前の研究よりも大きな利益をもたらすことが示された。

Seeking to improve model generalization, we consider a new approach based on distributionally robust learning (DRL) that applies stochastic gradient descent to the outer minimization problem. Our algorithm efficiently estimates the gradient of the inner maximization problem through multi-level Monte Carlo randomization. Leveraging theoretical results that shed light on why standard gradient estimators fail, we establish the optimal parameterization of the gradient estimators of our approach that balances a fundamental tradeoff between computation time and statistical variance. Numerical experiments demonstrate that our DRL approach yields significant benefits over previous work.
翻訳日:2021-04-26 07:40:48 公開日:2020-12-22
# フラクタル次元一般化尺度

Fractal Dimension Generalization Measure ( http://arxiv.org/abs/2012.12384v1 )

ライセンス: Link先を確認
Valeri Alexiev(参考訳) 機械学習モデルのパフォーマンスに対する堅牢な一般化尺度の開発は、重要かつ困難な課題である。 この分野の最近の多くの研究は、一般化を予測する際のモデル決定境界に焦点を当てている。 本稿では,「深層学習における予測的一般化」の競争の一環として,フラクタル次元の概念を用いて決定境界の複雑さを分析し,その手法に基づく一般化尺度を開発する。

Developing a robust generalization measure for the performance of machine learning models is an important and challenging task. A lot of recent research in the area focuses on the model decision boundary when predicting generalization. In this paper, as part of the "Predicting Generalization in Deep Learning" competition, we analyse the complexity of decision boundaries using the concept of fractal dimension and develop a generalization measure based on that technique.
翻訳日:2021-04-26 07:40:38 公開日:2020-12-22
# ソフトウェア生成点雲からの平面方向の自動抽出システムに向けて

Towards an Automatic System for Extracting Planar Orientations from Software Generated Point Clouds ( http://arxiv.org/abs/2012.11780v1 )

ライセンス: Link先を確認
J. Kissi-Ameyaw, K. McIsaac, X. Wang, G. R. Osinski(参考訳) 地質学における重要な活動は、ストライク、ディップ、ディップ方向などの平面方位測定を用いて地質構造(地表形成トポロジーと岩石ユニット)を特徴付けることである。 一般に、これらの測定は手動で手動で収集され、通常はコンパス/傾斜計とバックボードが手動で地図に記録される。 lidarのような様々なコンピューティング技術や技術がこのプロセスを自動化し、これらの種類の測定のための収集パラダイムを更新するために利用されてきた。 structure from motion (sfm) のような技法は、入力画像から点雲を生成してシーンやオブジェクトを再構築し、デシメットスケールで詳細な再構築を可能にする。 SfM方式の手法は、より多様な環境条件下でのコストとユーザビリティの面での利点を提供する。 本稿では,向き測定の自動化を目的とした,データ取得手法と機械学習に基づくソフトウェアシステムgeostructureを提案する。 ハフ変換などの入力画像に適用した手法を用いて測定を導出するのではなく、再構成された点雲面から直接測定を行う。 マハラノビス距離実装を用いて点雲ノイズを緩和する。 k-アネレスト近傍領域成長アルゴリズムを用いて重要な構造を特徴づけ、平面と通常の方向コサインを用いて最終表面の向きを定量化する。

In geology, a key activity is the characterisation of geological structures (surface formation topology and rock units) using Planar Orientation measurements such as Strike, Dip and Dip Direction. In general these measurements are collected manually using basic equipment; usually a compass/clinometer and a backboard, recorded on a map by hand. Various computing techniques and technologies, such as Lidar, have been utilised in order to automate this process and update the collection paradigm for these types of measurements. Techniques such as Structure from Motion (SfM) reconstruct of scenes and objects by generating a point cloud from input images, with detailed reconstruction possible on the decimetre scale. SfM-type techniques provide advantages in areas of cost and usability in more varied environmental conditions, while sacrificing the extreme levels of data fidelity. Here is presented a methodology of data acquisition and a Machine Learning-based software system: GeoStructure, developed to automate the measurement of orientation measurements. Rather than deriving measurements using a method applied to the input images, such as the Hough Transform, this method takes measurements directly from the reconstructed point cloud surfaces. Point cloud noise is mitigated using a Mahalanobis distance implementation. Significant structure is characterised using a k-nearest neighbour region growing algorithm, and final surface orientations are quantified using the plane, and normal direction cosines.
翻訳日:2021-04-26 07:40:32 公開日:2020-12-22
# ドメイン適応のための意味表現の学習

Learning Disentangled Semantic Representation for Domain Adaptation ( http://arxiv.org/abs/2012.11807v1 )

ライセンス: Link先を確認
Ruichu Cai, Zijian Li, Pengfei Wei, Jie Qiao, Kun Zhang, Zhifeng Hao(参考訳) ドメイン適応は重要だが難しいタスクである。 既存のドメイン適応手法のほとんどは、ドメイン情報と意味情報を絡んで特徴空間上のドメイン不変表現を抽出するのに苦労している。 先行研究であるエンタングル特徴空間と異なり,データの潜在的不連続意味表現(dsr)におけるドメイン不変意味情報を抽出することを目的としている。 DSRでは、データ生成プロセスは2つの独立した変数、すなわちセマンティック潜在変数とドメイン潜在変数によって制御されると仮定する。 この仮定では,データの背後にあるセマンティック潜伏変数とドメイン潜伏変数を再構成するために,変分自動エンコーダを用いる。 さらに,これら2組の潜在変数を分離するために,二重逆ネットワークを考案する。 アンタングル化されたセマンティック潜伏変数は最終的に各ドメインに適応する。 実験により,本モデルがいくつかの領域適応ベンチマークデータセットの最先端性能を示すことが示された。

Domain adaptation is an important but challenging task. Most of the existing domain adaptation methods struggle to extract the domain-invariant representation on the feature space with entangling domain information and semantic information. Different from previous efforts on the entangled feature space, we aim to extract the domain invariant semantic information in the latent disentangled semantic representation (DSR) of the data. In DSR, we assume the data generation process is controlled by two independent sets of variables, i.e., the semantic latent variables and the domain latent variables. Under the above assumption, we employ a variational auto-encoder to reconstruct the semantic latent variables and domain latent variables behind the data. We further devise a dual adversarial network to disentangle these two sets of reconstructed latent variables. The disentangled semantic latent variables are finally adapted across the domains. Experimental studies testify that our model yields state-of-the-art performance on several domain adaptation benchmark datasets.
翻訳日:2021-04-26 07:40:08 公開日:2020-12-22
# dual-encoder bidirectional generative adversarial network for anomaly detection

Dual-encoder Bidirectional Generative Adversarial Networks for Anomaly Detection ( http://arxiv.org/abs/2012.11834v1 )

ライセンス: Link先を確認
Teguh Budianto, Tomohiro Nakai, Kazunori Imoto, Takahiro Takimoto, Kosuke Haruki(参考訳) GAN(Generative Adversarial Network)は、異常検出を含む様々な問題に対して、将来性を示す。 正常なデータサンプルの特徴のみを学習するGANモデルを用いて異常検出を行うと、正常なデータと類似しないデータが異常サンプルとして検出される。 本手法は,ジェネレータと識別器ネットワークを同時にトレーニングする双方向GANアーキテクチャにおいて,デュアルエンコーダを用いて開発する。 本手法は, 正常試料と異常試料との大きな差を伴って, 双方向のGANがサンプルを再現できないという, 悪循環整合性の問題を軽減することを目的としている。 サンプルデータの十分な情報を保存できない場合、悪いサイクル一貫性が発生すると仮定する。 提案手法が正常試料の分布を捉えるのに有効であることを示し,ganモデルにおける異常検出を改善した。 脳磁気共鳴画像異常検出システムへの応用を含む,公開データセットに本手法を適用した実験を報告する。

Generative adversarial networks (GANs) have shown promise for various problems including anomaly detection. When anomaly detection is performed using GAN models that learn only the features of normal data samples, data that are not similar to normal data are detected as abnormal samples. The present approach is developed by employing a dual-encoder in a bidirectional GAN architecture that is trained simultaneously with a generator and a discriminator network. Through the learning mechanism, the proposed method aims to reduce the problem of bad cycle consistency, in which a bidirectional GAN might not be able to reproduce samples with a large difference between normal and abnormal samples. We assume that bad cycle consistency occurs when the method does not preserve enough information of the sample data. We show that our proposed method performs well in capturing the distribution of normal samples, thereby improving anomaly detection on GAN-based models. Experiments are reported in which our method is applied to publicly available datasets, including application to a brain magnetic resonance imaging anomaly detection system.
翻訳日:2021-04-26 07:39:53 公開日:2020-12-22
# 深部CNNと双方向Gated Recurrent Unitを用いたベンガリカプセル生成

Image to Bengali Caption Generation Using Deep CNN and Bidirectional Gated Recurrent Unit ( http://arxiv.org/abs/2012.12139v1 )

ライセンス: Link先を確認
Al Momin Faruk, Hasan Al Faraby, Md. Muzahidul Azad, Md. Riduyan Fedous, Md. Kishor Morol(参考訳) ベンガル語の記述の生成に関する注目すべき研究はほとんどない。 ベンガルでは約2億2300万人が話し、世界で7番目に話されている言語である。 本研究の目的は,ベンガル語における自然言語キャプションを画像から生成するCNNおよび双方向GRUアーキテクチャモデルを提案することである。 ベンガルの人々はこの研究を使って言語障壁を破り、互いの視点をよりよく理解することができる。 また、多くの盲人の日常生活にも役立ちます。 本稿ではエンコーダ・デコーダ法を用いてキャプションを生成する。 inceptonv3image embedded modelと呼ばれる,事前学習された深層畳み込みニューラルネットワーク(dcnn)を解析,分類,アノテーションのためのエンコーダとして使用し,キャプションを生成する。 argmax と beam search はキャプションの最も高い品質を生み出すために使用される。 BNATUREと呼ばれる新しいデータセットは、8000の画像と5つのキャプションからなる。 提案したモデルのトレーニングとテストに使用される。 BLEU-1,BLEU-2,BLEU-3 ,BLEU-4,Meteorはそれぞれ42.6,27.95,23,66,16. 41,28.7であった。

There is very little notable research on generating descriptions of the Bengali language. About 243 million people speak in Bengali, and it is the 7th most spoken language on the planet. The purpose of this research is to propose a CNN and Bidirectional GRU based architecture model that generates natural language captions in the Bengali language from an image. Bengali people can use this research to break the language barrier and better understand each other's perspectives. It will also help many blind people with their everyday lives. This paper used an encoder-decoder approach to generate captions. We used a pre-trained Deep convolutional neural network (DCNN) called InceptonV3image embedding model as the encoder for analysis, classification, and annotation of the dataset's images Bidirectional Gated Recurrent unit (BGRU) layer as the decoder to generate captions. Argmax and Beam search is used to produce the highest possible quality of the captions. A new dataset called BNATURE is used, which comprises 8000 images with five captions per image. It is used for training and testing the proposed model. We obtained BLEU-1, BLEU-2, BLEU-3, BLEU-4 and Meteor is 42.6, 27.95, 23, 66, 16.41, 28.7 respectively.
翻訳日:2021-04-26 07:39:38 公開日:2020-12-22
# FracBNN: フラクショナルアクティベーションを持つFPGA効率の良い2元ニューラルネットワーク

FracBNN: Accurate and FPGA-Efficient Binary Neural Networks with Fractional Activations ( http://arxiv.org/abs/2012.12206v1 )

ライセンス: Link先を確認
Yichi Zhang and Junhao Pan and Xinheng Liu and Hongzheng Chen and Deming Chen and Zhiru Zhang(参考訳) binary neural network (bnns) は1ビットの重みとアクティベーションを持つ。 このようなネットワークはFPGAに適しており、その支配的な計算はビット演算であり、メモリ要求も大幅に削減される。 しかしながら、最先端のコンパクト畳み込みニューラルネットワーク(CNN)モデルと比較して、BNNはImageNetのような現実的なデータセットよりもはるかに精度が低い傾向にある。 さらに、BNNの入力層は、従来は二項化から除外され、大きな精度損失を避けるため、徐々に大きな計算ボトルネックとなっている。 本研究は,BNNの精度を大幅に向上させるために,FracBNNを提案する。 具体的には、2ビットまでの機能を2倍精度で計算するために2倍精度のアクティベーションスキームを用いる。 我々は、新しい温度計エンコーディングを用いて入力層をさらにバイナライズする。 全体として、FracBNNは、すべての畳み込み層が純粋なバイナリMAC操作(BMAC)で計算される従来のBNNの重要な利点を保っている。 我々は、分数活性化をサポートする新しいBNNモデルのためのFPGAベースの効率的なアクセラレータを設計する。 資源制約シナリオ下でのFracBNNの性能を評価するため,組み込みFPGA(Xilinx Ultra96v2)上に最適化されたネットワークアーキテクチャを実装した。 ImageNet上での実験では、FracBNNがMobileNetV2に匹敵する精度を達成し、FPGA上で最もよく知られているBNN設計を上回り、トップ1の精度が28.9%向上し、モデルサイズが2.5倍削減された。 FracBNNは、最近導入されたBNNモデルでも、同じモデルサイズを使用しながら、トップ1の精度が2.4%向上している。 組み込みFPGAデバイス上でFracBNNはリアルタイム画像分類機能を示す。

Binary neural networks (BNNs) have 1-bit weights and activations. Such networks are well suited for FPGAs, as their dominant computations are bitwise arithmetic and the memory requirement is also significantly reduced. However, compared to start-of-the-art compact convolutional neural network (CNN) models, BNNs tend to produce a much lower accuracy on realistic datasets such as ImageNet. In addition, the input layer of BNNs has gradually become a major compute bottleneck, because it is conventionally excluded from binarization to avoid a large accuracy loss. This work proposes FracBNN, which exploits fractional activations to substantially improve the accuracy of BNNs. Specifically, our approach employs a dual-precision activation scheme to compute features with up to two bits, using an additional sparse binary convolution. We further binarize the input layer using a novel thermometer encoding. Overall, FracBNN preserves the key benefits of conventional BNNs, where all convolutional layers are computed in pure binary MAC operations (BMACs). We design an efficient FPGA-based accelerator for our novel BNN model that supports the fractional activations. To evaluate the performance of FracBNN under a resource-constrained scenario, we implement the entire optimized network architecture on an embedded FPGA (Xilinx Ultra96v2). Our experiments on ImageNet show that FracBNN achieves an accuracy comparable to MobileNetV2, surpassing the best-known BNN design on FPGAs with an increase of 28.9% in top-1 accuracy and a 2.5x reduction in model size. FracBNN also outperforms a recently introduced BNN model with an increase of 2.4% in top-1 accuracy while using the same model size. On the embedded FPGA device, FracBNN demonstrates the ability of real-time image classification.
翻訳日:2021-04-26 07:39:14 公開日:2020-12-22
# 不可逆例:ロバストビジョンのためのオブジェクト設計

Unadversarial Examples: Designing Objects for Robust Vision ( http://arxiv.org/abs/2012.12235v1 )

ライセンス: Link先を確認
Hadi Salman, Andrew Ilyas, Logan Engstrom, Sai Vemprala, Aleksander Madry, Ashish Kapoor(参考訳) 本研究では,認識対象の設計に影響を与えることができる現実的コンピュータビジョン設定のクラスについて検討する。 我々は、この能力を活用して、視覚モデルの性能と堅牢性を大幅に改善するフレームワークを開発する。 このフレームワークは、現代の機械学習アルゴリズムの感度を利用して摂動を入力し、"ロバストオブジェクト"すなわち、確実に検出または分類するように明示的に最適化されたオブジェクトを設計する。 本稿では,標準ベンチマークからシミュレーションロボット,実世界実験に至るまで,さまざまな視覚ベースのタスクに対するフレームワークの有効性を実証する。 私たちのコードはhttps://git.io/unadv ersarial.orgで参照できます。

We study a class of realistic computer vision settings wherein one can influence the design of the objects being recognized. We develop a framework that leverages this capability to significantly improve vision models' performance and robustness. This framework exploits the sensitivity of modern machine learning algorithms to input perturbations in order to design "robust objects," i.e., objects that are explicitly optimized to be confidently detected or classified. We demonstrate the efficacy of the framework on a wide variety of vision-based tasks ranging from standard benchmarks, to (in-simulation) robotics, to real-world experiments. Our code can be found at https://git.io/unadv ersarial .
翻訳日:2021-04-26 07:38:45 公開日:2020-12-22
# カーネル近似による大域最小値の探索

Finding Global Minima via Kernel Approximations ( http://arxiv.org/abs/2012.11978v1 )

ライセンス: Link先を確認
Alessandro Rudi and Ulysse Marteau-Ferey and Francis Bach(参考訳) 関数評価のみに基づく滑らかな関数のグローバル最小化を考える。 与えられた精度レベルでの最適関数評価数を達成するアルゴリズムは、通常関数の近似を明示的に構築し、指数関数の実行時間複雑性を持つアルゴリズムで最小化する。 本稿では,近似関数を共同でモデル化し,大域的最小値を求める手法を検討する。 これは正方形滑らかな関数の無限和を使い、多項式和の階層と強い関係を持つ。 再生カーネルヒルベルト空間の最近の表現特性を活用し、無限次元最適化問題は、関数評価の数で時間多項式をサブサンプリングし、得られた最小値について理論的に保証することで解決できる。 n$ のサンプルが与えられると、計算コストは o(n^{3.5})$ であり、空間では $o(n^2)$ であり、大域的最適値への収束率は $o(n^{-m/d + 1/2 + 3/d})$ である。 ソボレフ関数の場合、この速度はほぼ最適であり、より一般的には、提案法は、多くの微分を持つ関数に特に適している。 実際、$m$が$d$の順序にあるとき、大域的な最適値への収束率は次元性の呪いに悩まされない。

We consider the global minimization of smooth functions based solely on function evaluations. Algorithms that achieve the optimal number of function evaluations for a given precision level typically rely on explicitly constructing an approximation of the function which is then minimized with algorithms that have exponential running-time complexity. In this paper, we consider an approach that jointly models the function to approximate and finds a global minimum. This is done by using infinite sums of square smooth functions and has strong links with polynomial sum-of-squares hierarchies. Leveraging recent representation properties of reproducing kernel Hilbert spaces, the infinite-dimensional optimization problem can be solved by subsampling in time polynomial in the number of function evaluations, and with theoretical guarantees on the obtained minimum. Given $n$ samples, the computational cost is $O(n^{3.5})$ in time, $O(n^2)$ in space, and we achieve a convergence rate to the global optimum that is $O(n^{-m/d + 1/2 + 3/d})$ where $m$ is the degree of differentiability of the function and $d$ the number of dimensions. The rate is nearly optimal in the case of Sobolev functions and more generally makes the proposed method particularly suitable for functions that have a large number of derivatives. Indeed, when $m$ is in the order of $d$, the convergence rate to the global optimum does not suffer from the curse of dimensionality, which affects only the worst-case constants (that we track explicitly through the paper).
翻訳日:2021-04-26 07:38:21 公開日:2020-12-22
# Power-SLIC:ダイアグラムに基づくスーパーピクセル生成

Power-SLIC: Diagram-based superpixel generation ( http://arxiv.org/abs/2012.11772v1 )

ライセンス: Link先を確認
Maximilian Fiedler and Andreas Alpers(参考訳) 色や他の低レベル特性のピクセルをグループ化するスーパーピクセルアルゴリズムは、画像分割の前処理にますます使われている。 超画素の計算における一般的な重要な基準は、境界順守、速度、規則性である。 境界順守と正則性は通常矛盾した目標である。 最近のアルゴリズムは境界遵守の改善に重点を置いている。 本稿では,スーパーピクセルの正則性の向上を動機として,Power-Slicと呼ばれる図ベースのスーパーピクセル生成手法を提案する。 BSDS500データセットでは、Power-SLICはコンパクト性と境界精度の点で他の最先端アルゴリズムよりも優れており、その境界付着性はガウスノイズの様々なレベルに対して最も堅牢である。 スピードに関しては、Power-SlicはSLICと競合する。

Superpixel algorithms, which group pixels similar in color and other low-level properties, are increasingly used for pre-processing in image segmentation. Commonly important criteria for the computation of superpixels are boundary adherence, speed, and regularity. Boundary adherence and regularity are typically contradictory goals. Most recent algorithms have focused on improving boundary adherence. Motivated by improving superpixel regularity, we propose a diagram-based superpixel generation method called Power-SLIC. On the BSDS500 data set, Power-SLIC outperforms other state-of-the-art algorithms in terms of compactness and boundary precision, and its boundary adherence is the most robust against varying levels of Gaussian noise. In terms of speed, Power-SLIC is competitive with SLIC.
翻訳日:2021-04-26 07:37:54 公開日:2020-12-22
# COVID-19検出における深部不確実性予測の客観的評価

Objective Evaluation of Deep Uncertainty Predictions for COVID-19 Detection ( http://arxiv.org/abs/2012.11840v1 )

ライセンス: Link先を確認
Hamzeh Asgharnezhad, Afshar Shamsi, Roohallah Alizadehsani, Abbas Khosravi, Saeid Nahavandi, Zahra Alizadeh Sani, and Dipti Srinivasan(参考訳) ディープニューラルネットワーク(DNN)は、医療画像中の新型コロナウイルスの検出に広く応用されている。 既存の研究は主に、正確な点推定を生成するために転送学習やその他のデータ表現戦略を適用している。 これらのネットワークの一般化能力は、小さなデータセットを使用して開発され、予測信頼性を報告できないため、常に疑わしい。 DNN予測に関連する不確実性の定量化は、医療環境における信頼された展開の前提条件である。 胸部X線(CXR)画像を用いた3つの不確実性定量化手法の適用と評価を行った。 新たな不確実性乱雑行列の概念を提案し,不確実性推定の客観的評価のための新しい性能指標を提案する。 総合的な実験により,cxr画像に関連するネットワークが,imagenetなどの自然画像データセットで事前学習されたネットワークよりも優れていることを示した。 定性的かつ定量的な評価は、予測の不確実性推定が正しい予測よりも誤った予測に対して統計的に高いことを明らかにする。 したがって、不確実性定量化手法は、リスク予測を高い不確実性推定でフラグ付けすることができる。 また,アンサンブル法が推論中に不確実性をより確実に捉えることも観察した。

Deep neural networks (DNNs) have been widely applied for detecting COVID-19 in medical images. Existing studies mainly apply transfer learning and other data representation strategies to generate accurate point estimates. The generalization power of these networks is always questionable due to being developed using small datasets and failing to report their predictive confidence. Quantifying uncertainties associated with DNN predictions is a prerequisite for their trusted deployment in medical settings. Here we apply and evaluate three uncertainty quantification techniques for COVID-19 detection using chest X-Ray (CXR) images. The novel concept of uncertainty confusion matrix is proposed and new performance metrics for the objective evaluation of uncertainty estimates are introduced. Through comprehensive experiments, it is shown that networks pertained on CXR images outperform networks pretrained on natural image datasets such as ImageNet. Qualitatively and quantitatively evaluations also reveal that the predictive uncertainty estimates are statistically higher for erroneous predictions than correct predictions. Accordingly, uncertainty quantification methods are capable of flagging risky predictions with high uncertainty estimates. We also observe that ensemble methods more reliably capture uncertainties during the inference.
翻訳日:2021-04-26 07:37:43 公開日:2020-12-22
# 機械学習のための残留マトリックス製品状態

Residual Matrix Product State for Machine Learning ( http://arxiv.org/abs/2012.11841v1 )

ライセンス: Link先を確認
Ye-Ming Meng, Jing Zhang, Peng Zhang, Chao Gao and Shi-Ju Ran(参考訳) 量子物理学から派生したテンソルネットワーク(TN)は、古典的および量子機械学習(ML)において幅広い展望を示している。 しかし、TNと古典MLのための洗練されたニューラルネットワーク(NN)モデルの間には、かなりの精度のギャップがある。 TN MLがNNから技術を借りるなど、どこまで改善できるかはまだ解明されていない。 本稿では, 残留行列積状態 (ResMPS) と残留 NN のアイデアを組み合わせることで, 残留行列積状態 (ResMPS) を提案する。 ResMPSは、その層が「隠された」特徴を出力(例えば、分類)にマッピングするネットワークとして扱うことができ、層の変動パラメータはサンプルの特徴(例えば、画像のピクセル)の関数である。 これは本質的にNNと異なり、レイヤは出力に機能をフォワードにマップする。 ResMPSは、非線形活性化層とドロップアウト層を自然に組み込むことができ、効率、安定性、表現力において最先端のTNモデルより優れている。 さらに、ResMPSは多項式展開の観点から解釈可能であり、因数分解と指数機械が自然に現れる。 私たちの研究は、ニューラルネットワークとテンソルネットワークの接続とハイブリダイゼーションに寄与しています。

Tensor network (TN), which originates from quantum physics, shows broad prospects in classical and quantum machine learning (ML). However, there still exists a considerable gap of accuracy between TN and the sophisticated neural network (NN) models for classical ML. It is still elusive how far TN ML can be improved by, e.g., borrowing the techniques from NN. In this work, we propose the residual matrix product state (ResMPS) by combining the ideas of matrix product state (MPS) and residual NN. ResMPS can be treated as a network where its layers map the "hidden" features to the outputs (e.g., classifications), and the variational parameters of the layers are the functions of the features of samples (e.g., pixels of images). This is essentially different from NN, where the layers map feed-forwardly the features to the output. ResMPS can naturally incorporate with the non-linear activations and dropout layers, and outperforms the state-of-the-art TN models on the efficiency, stability, and expression power. Besides, ResMPS is interpretable from the perspective of polynomial expansion, where the factorization and exponential machines naturally emerge. Our work contributes to connecting and hybridizing neural and tensor networks, which is crucial to understand the working mechanisms further and improve both models' performances.
翻訳日:2021-04-26 07:37:26 公開日:2020-12-22
# 胸部ctを用いたcovid-19分類のための効率的かつ可視化可能な畳み込みニューラルネットワーク

Efficient and Visualizable Convolutional Neural Networks for COVID-19 Classification Using Chest CT ( http://arxiv.org/abs/2012.11860v1 )

ライセンス: Link先を確認
Aksh Garg, Sana Salehi, Marianna La Rocca, Rachael Garner, and Dominique Duncan(参考訳) 2019年の新型コロナウイルス(covid-19)は、2020年12月4日時点で世界で6500万人以上に感染し、世界は社会と経済の崩壊の危機に陥っている。 症例が急速に増加する中、深層学習は有望な診断技術として現れてきた。 しかし、異なる種類のデータと取得プロセスで得られた結果を比較するのは簡単ではないため、covid-19患者を特徴付ける最も正確なモデルを特定することは困難である。 本稿では、新型コロナウイルス診断のための40種類の畳み込みニューラルネットワークアーキテクチャを評価、比較し、新型コロナウイルス診断のためのEfficientNetファミリーを最初に検討した。 efficientnet-b5 は 0.9931+/-0.0021、f1 スコア 0.9931+/-0.0020、感度 0.9952+/-0.0020、特異度 0.9912+/-0.0048 の最良のモデルである。 中間活性化マップと勾配重み付けクラスアクティベーションマッピングは、モデルが基底クラスの不透明さと統合を認識していることの人間の解釈可能な証拠を提供する。

The novel 2019 coronavirus disease (COVID-19) has infected over 65 million people worldwide as of December 4, 2020, pushing the world to the brink of social and economic collapse. With cases rising rapidly, deep learning has emerged as a promising diagnosis technique. However, identifying the most accurate models to characterize COVID-19 patients is challenging because comparing results obtained with different types of data and acquisition processes is non-trivial. In this paper, we evaluated and compared 40 different convolutional neural network architectures for COVID-19 diagnosis, serving as the first to consider the EfficientNet family for COVID-19 diagnosis. EfficientNet-B5 is identified as the best model with an accuracy of 0.9931+/-0.0021, F1 score of 0.9931+/-0.0020, sensitivity of 0.9952+/-0.0020, and specificity of 0.9912+/-0.0048. Intermediate activation maps and Gradient-weighted Class Activation Mappings offer human-interpretable evidence of the model's perception of ground-class opacities and consolidations, hinting towards a promising use-case of artificial intelligence-assiste d radiology tools.
翻訳日:2021-04-26 07:37:03 公開日:2020-12-22
# 工学的ポイントスプレッド関数を用いた画像の深層学習に基づく仮想再焦点

Deep learning-based virtual refocusing of images using an engineered point-spread function ( http://arxiv.org/abs/2012.11892v1 )

ライセンス: Link先を確認
Xilin Yang, Luzhe Huang, Yilin Luo, Yichen Wu, Hongda Wang, Yair Rivenson, and Aydogan Ozcan(参考訳) 本稿では,DH-PSF(Double-helix point-spread function)とカスケードニューラルネットワークによって実現された拡張深度(DOF)上の仮想画像再焦点法を提案する。 このネットワークモデルはW-Netと呼ばれ、2つのカスケードジェネレータと識別器ネットワークペアで構成されている。 第1のジェネレータネットワークは、入力画像をユーザ定義平面に仮想的に再フォーカスし、第2のジェネレータは、出力画像の横分解能を改善して、クロスモダリティ画像変換を行うように学習する。 DH-PSF技術を用いたこのW-Netモデルを用いて、蛍光顕微鏡のDOFを約20倍拡張する。 本手法は,psfsを用いて空間分解能や体積撮像スループットなどの画像性能を向上させるために,深層学習可能な局所顕微鏡のための画像再構成手法の開発に応用できる。

We present a virtual image refocusing method over an extended depth of field (DOF) enabled by cascaded neural networks and a double-helix point-spread function (DH-PSF). This network model, referred to as W-Net, is composed of two cascaded generator and discriminator network pairs. The first generator network learns to virtually refocus an input image onto a user-defined plane, while the second generator learns to perform a cross-modality image transformation, improving the lateral resolution of the output image. Using this W-Net model with DH-PSF engineering, we extend the DOF of a fluorescence microscope by ~20-fold. This approach can be applied to develop deep learning-enabled image reconstruction methods for localization microscopy techniques that utilize engineered PSFs to improve their imaging performance, including spatial resolution and volumetric imaging throughput.
翻訳日:2021-04-26 07:36:41 公開日:2020-12-22
# 磁気共鳴画像を用いた深層学習による脳腫瘍自動分割の可能性の検討

A Feasibility study for Deep learning based automated brain tumor segmentation using Magnetic Resonance Images ( http://arxiv.org/abs/2012.11952v1 )

ライセンス: Link先を確認
Shanaka Ramesh Gunasekara, HNTK Kaldera, Maheshi B. Dissanayake(参考訳) 深層学習アルゴリズムは、医療画像解析、解釈、セグメンテーションにおける人工知能の研究の急速な加速に寄与しており、医学の様々なサブ分野にまたがる潜在的な応用が考えられる。 しかし、実際の要件とモデル展開の実践的課題を評価するため、臨床分野に導入されるのは、これらの応用シナリオを調査する限られた研究のみである。 本研究では,脳腫瘍MR画像の分類と腫瘍の局在化のために,深部畳み込みニューラルネットワーク(CNN)に基づく分類網と高速RCNNに基づく局所化ネットワークを開発した。 Prewittと呼ばれる典型的なエッジ検出アルゴリズムは、腫瘍局在の出力に基づいて、腫瘍セグメンテーションタスクに使用された。 提案した腫瘍セグメンテーションアーキテクチャの全体的な性能を,精度,境界変位誤差(BDE),Diceスコア,信頼区間などの客観的品質パラメータを用いて解析した。 このモデルの主観的品質評価は、医療専門知識の入力を用いたDouble Stimulus Impairment Scale (DSIS)プロトコルに基づいて行われた。 セグメント化されたアウトプットの信頼性レベルは、専門家のそれと同じような範囲にあることが観察されました。 また、神経学者はモデルの出力を高精度なセグメンテーションとして評価しました。

Deep learning algorithms have accounted for the rapid acceleration of research in artificial intelligence in medical image analysis, interpretation, and segmentation with many potential applications across various sub disciplines in medicine. However, only limited number of research which investigates these application scenarios, are deployed into the clinical sector for the evaluation of the real requirement and the practical challenges of the model deployment. In this research, a deep convolutional neural network (CNN) based classification network and Faster RCNN based localization network were developed for brain tumor MR image classification and tumor localization. A typical edge detection algorithm called Prewitt was used for tumor segmentation task, based on the output of the tumor localization. Overall performance of the proposed tumor segmentation architecture, was analyzed using objective quality parameters including Accuracy, Boundary Displacement Error (BDE), Dice score and confidence interval. A subjective quality assessment of the model was conducted based on the Double Stimulus Impairment Scale (DSIS) protocol using the input of medical expertise. It was observed that the confidence level of our segmented output was in a similar range to that of experts. Also, the Neurologists have rated the output of our model as highly accurate segmentation.
翻訳日:2021-04-26 07:36:26 公開日:2020-12-22
# 大規模電子顕微鏡画像のパターン発見のための教師なし学習による潜在特徴表現

Latent Feature Representation via Unsupervised Learning for Pattern Discovery in Massive Electron Microscopy Image Volumes ( http://arxiv.org/abs/2012.12175v1 )

ライセンス: Link先を確認
Gary B Huang and Huei-Fang Yang and Shin-ya Takemura and Pat Rivlin and Stephen M Plaza(参考訳) 本稿では,新しい大規模データセットの探索と解析を容易にする手法を提案する。 特に,データセットにおける意味的類似性を捉える潜在表現を学ぶための教師なしのディープラーニングアプローチを提案する。 中心となるアイデアは、意味的意味を保存するデータ拡張を使用して、特徴表現が互いに近いべき要素の合成例を生成することだ。 動物脳の比較的小さな部分でもテラバイトの画像を要求できるナノスケールの電子顕微鏡データに適用する手法の有用性を実証する。 教師付き手法は既知の関心のあるパターンの予測と識別に使用できるが、データのスケールは、事前性が知られていないパターンの発掘と分析を困難にする。 学習した表現が例によってクエリを可能にする能力を示すので、科学者がデータ中の興味深いパターンに気付くと、一致するパターンで他の場所に表示できる。 また、学習空間におけるデータのクラスタリングは生物学的に意味のある区別と相関することを示した。 最後に、ユーザフレンドリなインタラクティブ分析と興味深い生物学的パターンの発見を容易にする可視化ツールとソフトウェアエコシステムを導入する。 要するに、我々の研究は、EM分析などの領域で生じる大規模なデータセットの理解と発見の新たな道を開く。

We propose a method to facilitate exploration and analysis of new large data sets. In particular, we give an unsupervised deep learning approach to learning a latent representation that captures semantic similarity in the data set. The core idea is to use data augmentations that preserve semantic meaning to generate synthetic examples of elements whose feature representations should be close to one another. We demonstrate the utility of our method applied to nano-scale electron microscopy data, where even relatively small portions of animal brains can require terabytes of image data. Although supervised methods can be used to predict and identify known patterns of interest, the scale of the data makes it difficult to mine and analyze patterns that are not known a priori. We show the ability of our learned representation to enable query by example, so that if a scientist notices an interesting pattern in the data, they can be presented with other locations with matching patterns. We also demonstrate that clustering of data in the learned space correlates with biologically-meaning ful distinctions. Finally, we introduce a visualization tool and software ecosystem to facilitate user-friendly interactive analysis and uncover interesting biological patterns. In short, our work opens possible new avenues in understanding of and discovery in large data sets, arising in domains such as EM analysis.
翻訳日:2021-04-26 07:36:05 公開日:2020-12-22
# ジェネレーティブ・ディバイサル・ネットワークを用いた教師なし領域拡張による病理組織像の不変性に向けて

Towards Histopathological Stain Invariance by Unsupervised Domain Augmentation using Generative Adversarial Networks ( http://arxiv.org/abs/2012.12413v1 )

ライセンス: Link先を確認
Jelica Vasiljevi\'c and Friedrich Feuerhake and C\'edric Wemmert and Thomas Lampert(参考訳) デジタル病理学における教師付き深層学習法の適用はドメインシフトに対する感度によって制限されている。 デジタル病理学は、異なる染色プロトコルで染色された複数の連続した組織部分を評価する一般的な慣行を含む、多くの情報源により、高いばらつきを生じやすい領域である。 各染色のラベルを取得するのは非常に高価で、高いレベルのドメイン知識を必要とするため、時間がかかります。 本稿では,steit invariant supervised convolutional neural networksの学習を容易にする,逆画像から画像への変換に基づく教師なし拡張手法を提案する。 ネットワークを1つの一般的な染色モダリティでトレーニングし、対応するが異なる染色組織構造を含む画像に適用することにより、他の手法よりも大幅に改善されたことを示す。 これらの利点は、7つの異なる染色モード(PAS、Jones H&E、CD68、Sirius Red、CD34、H&E、CD3)における糸球体セグメンテーションの問題と、学習された表現の解析がそれらの染色不変性を示している。

The application of supervised deep learning methods in digital pathology is limited due to their sensitivity to domain shift. Digital Pathology is an area prone to high variability due to many sources, including the common practice of evaluating several consecutive tissue sections stained with different staining protocols. Obtaining labels for each stain is very expensive and time consuming as it requires a high level of domain knowledge. In this article, we propose an unsupervised augmentation approach based on adversarial image-to-image translation, which facilitates the training of stain invariant supervised convolutional neural networks. By training the network on one commonly used staining modality and applying it to images that include corresponding, but differently stained, tissue structures, the presented method demonstrates significant improvements over other approaches. These benefits are illustrated in the problem of glomeruli segmentation in seven different staining modalities (PAS, Jones H&E, CD68, Sirius Red, CD34, H&E and CD3) and analysis of the learned representations demonstrate their stain invariance.
翻訳日:2021-04-26 07:35:45 公開日:2020-12-22
# 物理層におけるルーティングとスペクトルアクセスのためのスケーラブル深層強化学習

Scalable Deep Reinforcement Learning for Routing and Spectrum Access in Physical Layer ( http://arxiv.org/abs/2012.11783v1 )

ライセンス: Link先を確認
Wei Cui and Wei Yu(参考訳) 本稿では,無線アドホックネットワークにおける同時ルーティングとスペクトルアクセスのための新しいスケーラブルな強化学習手法を提案する。 ネットワーク最適化のための強化学習において、ルーティングとスペクトルアクセスは別個のタスクとして取り組まれている。さらに、ネットワーク内の無線リンクは修正され、各送信ノードに対して異なるエージェントがトレーニングされる。 本稿では,物理層内の信号-干渉-余剰雑音比(SINR)について考察し,単一エージェントが各フローに関連付けられたよりスケーラブルなアプローチを提案する。 具体的には、単一のエージェントが各フローのフロンティアノードに沿って移動するとき、すべてのルーティングとスペクトルアクセスを決定する。 エージェントは、将来のボトルネックSINRを新たな報酬定義として利用して、環境の物理層特性に応じて訓練される。 これにより、無線アドホックネットワーク内のノードの地理的位置に基づく、極めて効果的なルーティング戦略が可能になる。 提案した深層強化学習戦略は,リンク間の相互干渉を考慮できる。 スペクトルスロットをインテリジェントに割り当て、ネットワーク全体のルーティング決定をスケーラブルにすることで、干渉を避けることができる。

This paper proposes a novel and scalable reinforcement learning approach for simultaneous routing and spectrum access in wireless ad-hoc networks. In most previous works on reinforcement learning for network optimization, routing and spectrum access are tackled as separate tasks; further, the wireless links in the network are assumed to be fixed, and a different agent is trained for each transmission node -- this limits scalability and generalizability. In this paper, we account for the inherent signal-to-interferen ce-plus-noise ratio (SINR) in the physical layer and propose a more scalable approach in which a single agent is associated with each flow. Specifically, a single agent makes all routing and spectrum access decisions as it moves along the frontier nodes of each flow. The agent is trained according to the physical layer characteristics of the environment using the future bottleneck SINR as a novel reward definition. This allows a highly effective routing strategy based on the geographic locations of the nodes in the wireless ad-hoc network. The proposed deep reinforcement learning strategy is capable of accounting for the mutual interference between the links. It learns to avoid interference by intelligently allocating spectrum slots and making routing decisions for the entire network in a scalable manner.
翻訳日:2021-04-26 07:35:25 公開日:2020-12-22
# 高エネルギー物理データ解析のための量子畳み込みニューラルネットワーク

Quantum Convolutional Neural Networks for High Energy Physics Data Analysis ( http://arxiv.org/abs/2012.12177v1 )

ライセンス: Link先を確認
Samuel Yen-Chi Chen, Tzu-Chieh Wei, Chao Zhang, Haiwang Yu, Shinjae Yoo(参考訳) 本研究では、高エネルギー物理事象の分類のための量子畳み込みニューラルネットワーク(QCNN)を提案する。 提案モデルは,Deep Underground Neutrino Experimentのシミュレーションデータセットを用いて実験を行う。 提案するアーキテクチャは、従来の畳み込みニューラルネットワーク(cnns)よりも、同じ数のパラメータで高速に学習する量子的な利点を示す。 より高速な収束に加えて、QCNNはCNNよりも高いテスト精度を達成する。 実験結果に基づいて、QCNNや他の量子機械学習モデルの高エネルギー物理学および追加の科学分野への応用を研究する上で有望な方向である。

This work presents a quantum convolutional neural network (QCNN) for the classification of high energy physics events. The proposed model is tested using a simulated dataset from the Deep Underground Neutrino Experiment. The proposed architecture demonstrates the quantum advantage of learning faster than the classical convolutional neural networks (CNNs) under a similar number of parameters. In addition to faster convergence, the QCNN achieves greater test accuracy compared to CNNs. Based on experimental results, it is a promising direction to study the application of QCNN and other quantum machine learning models in high energy physics and additional scientific fields.
翻訳日:2021-04-26 07:35:08 公開日:2020-12-22
# ロールガイドマスクを用いたマルチヘッドセルフアテンション

Multi-Head Self-Attention with Role-Guided Masks ( http://arxiv.org/abs/2012.12366v1 )

ライセンス: Link先を確認
Dongsheng Wang and Casper Hansen and Lucas Chaves Lima and Christian Hansen and Maria Maistro and Jakob Grue Simonsen and Christina Lioma(参考訳) 意味のある単語の意味表現を学ぶ技術の現状は、トランスフォーマーモデルとその注意のメカニズムである。 簡単に言えば、注意機構は、繰り返しや畳み込みを許容する入力の特定の部分に従うことを学ぶ。 学習された注意ヘッドのいくつかは言語的に解釈可能な役割を演じることが発見されているが、それらは冗長であるかエラーになりやすい。 本稿では,先行作業における役割を重要視する上での注意を導く手法を提案する。 私たちは、異なるヘッドが異なる役割を演じるようにデザインされるように、入力の特定の部分に頭を拘束するために、役割固有のマスクを定義します。 7つの異なるデータセットを用いたテキスト分類と機械翻訳の実験により,本手法が競合注意ベース,CNN,RNNベースラインより優れていることが示された。

The state of the art in learning meaningful semantic representations of words is the Transformer model and its attention mechanisms. Simply put, the attention mechanisms learn to attend to specific parts of the input dispensing recurrence and convolutions. While some of the learned attention heads have been found to play linguistically interpretable roles, they can be redundant or prone to errors. We propose a method to guide the attention heads towards roles identified in prior work as important. We do this by defining role-specific masks to constrain the heads to attend to specific parts of the input, such that different heads are designed to play different roles. Experiments on text classification and machine translation using 7 different datasets show that our method outperforms competitive attention-based, CNN, and RNN baselines.
翻訳日:2021-04-26 07:34:24 公開日:2020-12-22
# 知識グラフの進化と保存 - ISWS 2019のテクニカルレポート

Knowledge Graphs Evolution and Preservation -- A Technical Report from ISWS 2019 ( http://arxiv.org/abs/2012.11936v1 )

ライセンス: Link先を確認
Nacira Abbas, Kholoud Alghamdi, Mortaza Alinam, Francesca Alloatti, Glenda Amaral, Claudia d'Amato, Luigi Asprino, Martin Beno, Felix Bensmann, Russa Biswas, Ling Cai, Riley Capshaw, Valentina Anita Carriero, Irene Celino, Amine Dadoun, Stefano De Giorgis, Harm Delva, John Domingue, Michel Dumontier, Vincent Emonet, Marieke van Erp, Paola Espinoza Arias, Omaima Fallatah, Sebasti\'an Ferrada, Marc Gallofr\'e Oca\~na, Michalis Georgiou, Genet Asefa Gesese, Frances Gillis-Webber, Francesca Giovannetti, Mar\`ia Granados Buey, Ismail Harrando, Ivan Heibi, Vitor Horta, Laurine Huber, Federico Igne, Mohamad Yaser Jaradeh, Neha Keshan, Aneta Koleva, Bilal Koteich, Kabul Kurniawan, Mengya Liu, Chuangtao Ma, Lientje Maas, Martin Mansfield, Fabio Mariani, Eleonora Marzi, Sepideh Mesbah, Maheshkumar Mistry, Alba Catalina Morales Tirado, Anna Nguyen, Viet Bach Nguyen, Allard Oelen, Valentina Pasqual, Heiko Paulheim, Axel Polleres, Margherita Porena, Jan Portisch, Valentina Presutti, Kader Pustu-Iren, Ariam Rivas Mendez, Soheil Roshankish, Sebastian Rudolph, Harald Sack, Ahmad Sakor, Jaime Salas, Thomas Schleider, Meilin Shi, Gianmarco Spinaci, Chang Sun, Tabea Tietz, Molka Tounsi Dhouib, Alessandro Umbrico, Wouter van den Berg, Weiqin Xu(参考訳) dagstuhl セミナー "knowledge graphs: new directions for knowledge representation on the semantic web" で議論された大きな課題の1つは、報告書で述べられている "public fair knowledge graph of everything: we see the creation of knowledge graphs to capture information about the wholety of a class of entities" である。 [...]この大きな課題は、常識の概念から位置に基づくエンティティまで、"あらゆるもの"の知識グラフを作成できるかどうかを問うことで、さらにこれを拡張します。 この知識グラフは、この膨大な知識を民主化するためのFAIR方式で「一般公開」されるべきである。 リンクされたオープンデータ(LOD)は1つの知識グラフであるが、あらゆるものの公的なFAIR知識グラフ(KG)に最も近い実現(おそらくは唯一のもの)である。 もちろん、LODはオープンおよびFAIR KGに関する研究仮説を実験し評価するためのユニークなテストベッドを提供する。 KGsに関する最も無視されたFAIR問題の1つは、その進化と長期保存である。 我々は、KGsの進化の保存と支援がどのような意味を持ち、これらの問題にどのように対処できるかを理解するために、この問題を調査したい。 明らかに、この問題は異なる視点からアプローチすることができ、新しい理論、オントロジー、メトリクス、戦略、手順などを含む様々なアプローチの開発を必要とする可能性がある。 本論文は,9つの学生チームが共同作業を行い,それぞれが上級研究者の指導を受け,国際セマンティックWeb研究学校(ISWS 2019)に通っていることを報告する。 各チームは、調査の主テーマとして、一連の研究質問によって裏付けられた知識グラフ進化の問題に対して、異なる視点を提供する。 さらに、彼らはKGの保存と進化の作業定義を提供する。

One of the grand challenges discussed during the Dagstuhl Seminar "Knowledge Graphs: New Directions for Knowledge Representation on the Semantic Web" and described in its report is that of a: "Public FAIR Knowledge Graph of Everything: We increasingly see the creation of knowledge graphs that capture information about the entirety of a class of entities. [...] This grand challenge extends this further by asking if we can create a knowledge graph of "everything" ranging from common sense concepts to location based entities. This knowledge graph should be "open to the public" in a FAIR manner democratizing this mass amount of knowledge." Although linked open data (LOD) is one knowledge graph, it is the closest realisation (and probably the only one) to a public FAIR Knowledge Graph (KG) of everything. Surely, LOD provides a unique testbed for experimenting and evaluating research hypotheses on open and FAIR KG. One of the most neglected FAIR issues about KGs is their ongoing evolution and long term preservation. We want to investigate this problem, that is to understand what preserving and supporting the evolution of KGs means and how these problems can be addressed. Clearly, the problem can be approached from different perspectives and may require the development of different approaches, including new theories, ontologies, metrics, strategies, procedures, etc. This document reports a collaborative effort performed by 9 teams of students, each guided by a senior researcher as their mentor, attending the International Semantic Web Research School (ISWS 2019). Each team provides a different perspective to the problem of knowledge graph evolution substantiated by a set of research questions as the main subject of their investigation. In addition, they provide their working definition for KG preservation and evolution.
翻訳日:2021-04-26 07:33:46 公開日:2020-12-22
# Oracle Plannerを使わずに不完全な情報ゲームを学ぶ

Learning to Play Imperfect-Informatio n Games by Imitating an Oracle Planner ( http://arxiv.org/abs/2012.12186v1 )

ライセンス: Link先を確認
Rinu Boney, Alexander Ilin, Juho Kannala, Jarno Sepp\"anen(参考訳) 我々は,同時動作と大規模状態行動空間を備えたマルチプレイヤー不完全な情報ゲームをプレイする学習を検討する。 このような難易度の高いゲームに取り組む以前の試みは、主にモデルフリーの学習方法に重点を置いており、しばしば競合エージェントを作るのに数百年の経験を必要とする。 我々のアプローチはモデルに基づく計画に基づいている。 我々は、まず環境の全状態にアクセス可能な(oracle)プランナーを構築し、次にoracleの知識を(フォロー)エージェントに蒸留し、oracleの選択を模倣して不完全な情報ゲームをプレイするように訓練することで、部分的可観測性の問題に取り組む。 我々は,モンテカルロ木探索による計画が大規模な組合せ行動空間ではうまく機能しないことを示した。 そこで我々は,行動選択のための固定深度木探索と非結合型トンプソンサンプリングによる計画を提案する。 プランナーは衝突ロイヤリストとポンメルマンのゲームで効率的なプレイ戦略を発見でき、数百の戦闘を訓練してそれらを実践するのに成功した。

We consider learning to play multiplayer imperfect-informatio n games with simultaneous moves and large state-action spaces. Previous attempts to tackle such challenging games have largely focused on model-free learning methods, often requiring hundreds of years of experience to produce competitive agents. Our approach is based on model-based planning. We tackle the problem of partial observability by first building an (oracle) planner that has access to the full state of the environment and then distilling the knowledge of the oracle to a (follower) agent which is trained to play the imperfect-informatio n game by imitating the oracle's choices. We experimentally show that planning with naive Monte Carlo tree search does not perform very well in large combinatorial action spaces. We therefore propose planning with a fixed-depth tree search and decoupled Thompson sampling for action selection. We show that the planner is able to discover efficient playing strategies in the games of Clash Royale and Pommerman and the follower policy successfully learns to implement them by training on a few hundred battles.
翻訳日:2021-04-26 07:33:16 公開日:2020-12-22
# 深層q学習によるサブゴール選択による目標推論

Goal Reasoning by Selecting Subgoals with Deep Q-Learning ( http://arxiv.org/abs/2012.12335v1 )

ライセンス: Link先を確認
Carlos N\'u\~nez-Molina, Vladislav Nikolov, Ignacio Vellido, Juan Fern\'andez-Olivares(参考訳) 本研究では,オンライン実行システムのような厳密な制約を伴うシナリオに直面した場合のプランナーの負荷を軽減するために,深いq学習によるサブゴール選択を学習する目標推論手法を提案する。 我々は、CNNベースのゴール選択モジュールを設計し、標準的なゲーム環境上で学習し、異なるゲーム(計画領域)とレベル(計画問題)でテストし、その一般化能力を測定する。 その結果, 満足度の高いプランナと比較すると, いずれの手法も良好な品質のプランを見つけることができるが, 提案手法は計画時間を大幅に短縮する。 我々のアプローチは異なる種類のドメイン(ゲーム)にうまく適用でき、同じゲーム(ドメイン)の新しいレベル(問題)で評価した場合、優れた一般化特性を示します。

In this work we propose a goal reasoning method which learns to select subgoals with Deep Q-Learning in order to decrease the load of a planner when faced with scenarios with tight time restrictions, such as online execution systems. We have designed a CNN-based goal selection module and trained it on a standard video game environment, testing it on different games (planning domains) and levels (planning problems) to measure its generalization abilities. When comparing its performance with a satisfying planner, the results obtained show both approaches are able to find plans of good quality, but our method greatly decreases planning time. We conclude our approach can be successfully applied to different types of domains (games), and shows good generalization properties when evaluated on new levels (problems) of the same game (domain).
翻訳日:2021-04-26 07:32:24 公開日:2020-12-22
# マルチモーダル深層学習によるオンラインビデオ広告効果の予測

Predicting Online Video Advertising Effects with Multimodal Deep Learning ( http://arxiv.org/abs/2012.11851v1 )

ライセンス: Link先を確認
Jun Ikeda, Hiroyuki Seshime, Xueting Wang and Toshihiko Yamasaki(参考訳) ビデオ広告市場の拡大に伴い、ビデオ広告の効果を予測する研究が注目を集めている。 画像広告の効果予測は多く研究されているが、ビデオ広告の予測はいまだにほとんど研究されていない。 本研究では,ビデオ広告のクリックスルー率(CTR)を予測し,CTRを決定する要因を分析する手法を提案する。 本稿では,映像,テキスト,メタデータなどを含むオンラインビデオ広告のマルチモーダル性を生かして,効果を正確に予測するための最適化フレームワークを提案する。 特に、分類と連続という2種類のメタデータは適切に分離され、正規化される。 トレーニングデータがあまりリッチではないため,作業上重要なオーバーフィッティングを回避するために,追加の正規化レイヤが挿入される。 実験結果から,本手法の相関係数は0.695であり,ベースライン (0.487) に比べ有意に向上した。

With expansion of the video advertising market, research to predict the effects of video advertising is getting more attention. Although effect prediction of image advertising has been explored a lot, prediction for video advertising is still challenging with seldom research. In this research, we propose a method for predicting the click through rate (CTR) of video advertisements and analyzing the factors that determine the CTR. In this paper, we demonstrate an optimized framework for accurately predicting the effects by taking advantage of the multimodal nature of online video advertisements including video, text, and metadata features. In particular, the two types of metadata, i.e., categorical and continuous, are properly separated and normalized. To avoid overfitting, which is crucial in our task because the training data are not very rich, additional regularization layers are inserted. Experimental results show that our approach can achieve a correlation coefficient as high as 0.695, which is a significant improvement from the baseline (0.487).
翻訳日:2021-04-26 07:31:39 公開日:2020-12-22
# GuidedStyle:Atribute Knowledge Guided Style Manipulation for Semantic Face Editing (英語)

GuidedStyle: Attribute Knowledge Guided Style Manipulation for Semantic Face Editing ( http://arxiv.org/abs/2012.11856v1 )

ライセンス: Link先を確認
Xianxu Hou, Xiaokang Zhang, Linlin Shen, Zhihui Lai, Jun Wan(参考訳) 非条件生成型逆向ネットワーク(gans)による高品質で視覚的な顔画像の合成には大きな進歩があったが、セマンティックな顔編集を実現するために生成プロセスに対する制御が不足している。 さらに、ターゲット属性を編集しながら、他の顔情報を無修正に保つことは、依然として非常に困難である。 本稿では,画像生成過程を知識ネットワークで導くことによって,StyleGANのセマンティックな顔編集を実現するための新しい学習フレームワークである GuidedStyle を提案する。 さらに,StyleGANジェネレータのアテンション機構により,スタイル操作のための単一層を適応的に選択することができる。 その結果, 笑顔, 眼鏡, 性別, 口ひげ, 毛髪の色など, 様々な属性に沿って不規則で制御可能な編集を行うことができた。 質的および定量的な結果は,他のセマンティックフェース編集法と比較して,本手法の優位性を示すものである。 さらに,本モデルが実物や芸術的な顔編集にも適用可能であることを示し,強力な一般化能力を示す。

Although significant progress has been made in synthesizing high-quality and visually realistic face images by unconditional Generative Adversarial Networks (GANs), there still lacks of control over the generation process in order to achieve semantic face editing. In addition, it remains very challenging to maintain other face information untouched while editing the target attributes. In this paper, we propose a novel learning framework, called GuidedStyle, to achieve semantic face editing on StyleGAN by guiding the image generation process with a knowledge network. Furthermore, we allow an attention mechanism in StyleGAN generator to adaptively select a single layer for style manipulation. As a result, our method is able to perform disentangled and controllable edits along various attributes, including smiling, eyeglasses, gender, mustache and hair color. Both qualitative and quantitative results demonstrate the superiority of our method over other competing methods for semantic face editing. Moreover, we show that our model can be also applied to different types of real and artistic face editing, demonstrating strong generalization ability.
翻訳日:2021-04-26 07:31:23 公開日:2020-12-22
# 6次元ポッド推定のための3次元ポイントツーキーポイント投票ネットワーク

3D Point-to-Keypoint Voting Network for 6D Pose Estimation ( http://arxiv.org/abs/2012.11938v1 )

ライセンス: Link先を確認
Weitong Hua, Jiaxin Guo, Yue Wang and Rong Xiong(参考訳) オブジェクト6Dのポーズ推定は、その幅広いアプリケーション要件と現実世界の複雑さや変化に起因する課題により、コンピュータビジョンの分野で重要な研究トピックである。 ポイント間の空間的関係の特徴を十分に探究することは,特に背景クラッタや部分的咬合の場面において,ポーズ推定性能の向上に寄与すると考える。 しかし、この情報は以前の研究ではRGB画像やRGB-Dデータを使って無視されることが多い。 本稿では,3次元キーポイントの空間構造特性に基づいたRGB-Dデータから6次元ポーズ推定を行うフレームワークを提案する。 剛体の構造情報を完全に活用する3次元キーポイントの投票には,ポイントワイドな特徴埋め込みを採用する。 cnnによってキーポイントを指す方向ベクトルが予測された後、ransac投票を用いて3dキーポイントの座標を計算し、最小二乗法でポーズ変換が容易に得られる。 また、点の空間次元サンプリング戦略を採用し、小さなトレーニングセットで優れた性能が得られるようにした。 提案手法は, LINEMOD と OCCLUSION LINEMOD の2つのベンチマークデータセットで検証する。 実験の結果,本手法は最先端手法よりも優れており,LINEMODデータセットでは98.7\%,OCCLUSION LINEMODデータセットでは52.6\%の精度を実現している。

Object 6D pose estimation is an important research topic in the field of computer vision due to its wide application requirements and the challenges brought by complexity and changes in the real-world. We think fully exploring the characteristics of spatial relationship between points will help to improve the pose estimation performance, especially in the scenes of background clutter and partial occlusion. But this information was usually ignored in previous work using RGB image or RGB-D data. In this paper, we propose a framework for 6D pose estimation from RGB-D data based on spatial structure characteristics of 3D keypoints. We adopt point-wise dense feature embedding to vote for 3D keypoints, which makes full use of the structure information of the rigid body. After the direction vectors pointing to the keypoints are predicted by CNN, we use RANSAC voting to calculate the coordinate of the 3D keypoints, then the pose transformation can be easily obtained by the least square method. In addition, a spatial dimension sampling strategy for points is employed, which makes the method achieve excellent performance on small training sets. The proposed method is verified on two benchmark datasets, LINEMOD and OCCLUSION LINEMOD. The experimental results show that our method outperforms the state-of-the-art approaches, achieves ADD(-S) accuracy of 98.7\% on LINEMOD dataset and 52.6\% on OCCLUSION LINEMOD dataset in real-time.
翻訳日:2021-04-26 07:30:27 公開日:2020-12-22
# BPMSegNetを用いた腕神経叢超音波像の複数症例分割

Multiple Instance Segmentation in Brachial Plexus Ultrasound Image Using BPMSegNet ( http://arxiv.org/abs/2012.12012v1 )

ライセンス: Link先を確認
Yi Ding, Qiqi Yang, Guozheng Wu, Jian Zhang, Zhiguang Qin(参考訳) 神経の構造が画像化や超音波画像の検出に困難であるため、神経の同定は困難である。 それでも, 超音波画像における神経識別は, 局所麻酔の性能を向上させる重要なステップである。 本稿では,超音波画像中の異なる組織(神経,動脈,静脈,筋肉)を同定するために,ブラキアルplexus multi-instance segmentation network (bpmsegnet) と呼ばれるネットワークを提案する。 BPMSegNetには3つの新しいモジュールがある。 1つ目は、異なるスケールでコントラスト特徴を計算する空間的局所コントラスト特徴である。 2つめはセルフアテンションゲートで、フィーチャーマップのチャンネルの重要性を強調するものだ。 3つ目は、フィーチャーピラミッドネットワーク内の転向した畳み込みを伴うスキップ結合の追加である。 提案したBPMSegNetは、構築したUltrasound Brachial Plexus Dataset (UBPD)の実験により評価される。 定量的実験の結果,提案するネットワークは,超音波画像から複数の組織を分離できることがわかった。

The identification of nerve is difficult as structures of nerves are challenging to image and to detect in ultrasound images. Nevertheless, the nerve identification in ultrasound images is a crucial step to improve performance of regional anesthesia. In this paper, a network called Brachial Plexus Multi-instance Segmentation Network (BPMSegNet) is proposed to identify different tissues (nerves, arteries, veins, muscles) in ultrasound images. The BPMSegNet has three novel modules. The first is the spatial local contrast feature, which computes contrast features at different scales. The second one is the self-attention gate, which reweighs the channels in feature maps by their importance. The third is the addition of a skip concatenation with transposed convolution within a feature pyramid network. The proposed BPMSegNet is evaluated by conducting experiments on our constructed Ultrasound Brachial Plexus Dataset (UBPD). Quantitative experimental results show the proposed network can segment multiple tissues from the ultrasound images with a good performance.
翻訳日:2021-04-26 07:30:01 公開日:2020-12-22
# Hebbian主成分分析を用いた畳み込みニューラルネットワークの学習

Training Convolutional Neural Networks With Hebbian Principal Component Analysis ( http://arxiv.org/abs/2012.12229v1 )

ライセンス: Link先を確認
Gabriele Lagani, Giuseppe Amato, Fabrizio Falchi, Claudio Gennaro(参考訳) 近年の研究では、深層畳み込みニューラルネットワークのトレーニングにおいて、生物学的に妥当なヘビーン学習がバックプロパゲーション学習(バックプロップ)と統合できることが示されている。 特に、ニューラルネットワークの下位層または上位層をトレーニングするために、Hebbian Learningを使用することが示されている。 例えば、ヘビー学習は、事前訓練されたディープニューラルネットワークの上位層を再訓練するのに有効であり、w.r.tと同等の精度を達成する。 sgdは、トレーニング期間は少ないが、転校学習の潜在的な応用を示唆している。 本稿では,これらの結果に基づいて,従来のHWTA戦略に代えて,非線形なHebbian principal Component Analysis(HPCA)学習ルールを用いて,これらの設定におけるHebbian学習をさらに改善する。 我々はこの手法をコンピュータビジョンの文脈でテストする。 特にHPCAルールは、CIFAR-10イメージデータセットから関連する特徴を抽出するために、畳み込みニューラルネットワークのトレーニングに使用される。 我々はHPCAの変種をさらに改良し、生物学的に可能な学習アルゴリズムへのさらなる関心を喚起する。

Recent work has shown that biologically plausible Hebbian learning can be integrated with backpropagation learning (backprop), when training deep convolutional neural networks. In particular, it has been shown that Hebbian learning can be used for training the lower or the higher layers of a neural network. For instance, Hebbian learning is effective for re-training the higher layers of a pre-trained deep neural network, achieving comparable accuracy w.r.t. SGD, while requiring fewer training epochs, suggesting potential applications for transfer learning. In this paper we build on these results and we further improve Hebbian learning in these settings, by using a nonlinear Hebbian Principal Component Analysis (HPCA) learning rule, in place of the Hebbian Winner Takes All (HWTA) strategy used in previous work. We test this approach in the context of computer vision. In particular, the HPCA rule is used to train Convolutional Neural Networks in order to extract relevant features from the CIFAR-10 image dataset. The HPCA variant that we explore further improves the previous results, motivating further interest towards biologically plausible learning algorithms.
翻訳日:2021-04-26 07:29:19 公開日:2020-12-22
# time-travel rephotography

Time-Travel Rephotography ( http://arxiv.org/abs/2012.12261v1 )

ライセンス: Link先を確認
Xuan Luo, Xuaner Zhang, Paul Yoo, Ricardo Martin-Brualla, Jason Lawrence, Steven M. Seitz(参考訳) 多くの歴史的人物は、初期のカメラの限界と時間の経過によって歪んだ古い、色あがった、白黒の写真でしか撮影されていない。 この論文は、現代のカメラでタイムトラベルをシミュレートし、有名テーマを再撮影する。 分解,色化,超解像といった独立した操作を施した従来の画像復元フィルタとは異なり,我々はStyleGAN2フレームワークを利用して,古い写真を現代的な高解像度写真の空間に投影し,これらすべての効果を統一されたフレームワークで達成する。 このアプローチのユニークな課題は、低品質のアンティーク写真の多くのアーティファクトではなく、被写体のアイデンティティとポーズを取得することである。 現状の復元フィルタと比較した結果,様々な重要人物にとって大きな改善と説得力のある結果が得られた。

Many historical people are captured only in old, faded, black and white photos, that have been distorted by the limitations of early cameras and the passage of time. This paper simulates traveling back in time with a modern camera to rephotograph famous subjects. Unlike conventional image restoration filters which apply independent operations like denoising, colorization, and superresolution, we leverage the StyleGAN2 framework to project old photos into the space of modern high-resolution photos, achieving all of these effects in a unified framework. A unique challenge with this approach is capturing the identity and pose of the photo's subject and not the many artifacts in low-quality antique photos. Our comparisons to current state-of-the-art restoration filters show significant improvements and compelling results for a variety of important historical people.
翻訳日:2021-04-26 07:28:59 公開日:2020-12-22
# 特徴埋め込みと多様体アライメントの分離によるフレキシブル深層伝達学習

Flexible deep transfer learning by separate feature embeddings and manifold alignment ( http://arxiv.org/abs/2012.12302v1 )

ライセンス: Link先を確認
Samuel Rivera, Joel Klipfel, Deborah Weeks(参考訳) オブジェクト認識は、業界と防衛において重要な存在である。 テクノロジーが変化するにつれて、アルゴリズムは新しい要求とデータに順応しなくてはならない。 新しいモダリティと高解像度センサーは、アルゴリズムの堅牢性を高めることができる。 残念ながら、既存のラベル付きデータセットでトレーニングされたアルゴリズムは、データ分布が一致しないため、直接新しいデータに一般化しない。 トランスファーラーニング (TL) あるいはドメイン適応 (DA) 手法は、既存のラベル付きソースデータから新しいラベル付きターゲットデータセットへ知識を転送する基盤を確立している。 しかし、現在のDAアプローチでは、ソースとターゲットの特徴空間が似ており、大きなドメインシフトや機能空間の変化に悩まされている。 既存のメソッドでは、データは同じモダリティか、共通の機能空間にアライメントできると仮定している。 したがって、ほとんどの手法は視覚的・聴覚的データのような基本的なドメイン変更をサポートするように設計されていない。 潜在低次元空間における領域間距離を最小化しつつ,各領域の特徴抽出を個別に学習することで,この制限を克服する新しいディープラーニングフレームワークを提案する。 このアライメントは、逆行訓練手順とともにデータ多様体を考慮して達成される。 本研究では, 合成, 測定, 衛星画像データセットに対するアブレーション実験を行い, 従来の手法に対するアプローチの有効性を示す。 また,学習を阻害する学習勾配を克服しつつ,ネットワークをトレーニングするための実践的ガイドラインも提供する。

Object recognition is a key enabler across industry and defense. As technology changes, algorithms must keep pace with new requirements and data. New modalities and higher resolution sensors should allow for increased algorithm robustness. Unfortunately, algorithms trained on existing labeled datasets do not directly generalize to new data because the data distributions do not match. Transfer learning (TL) or domain adaptation (DA) methods have established the groundwork for transferring knowledge from existing labeled source data to new unlabeled target datasets. However, current DA approaches assume similar source and target feature spaces and suffer in the case of massive domain shifts or changes in the feature space. Existing methods assume the data are either the same modality, or can be aligned to a common feature space. Therefore, most methods are not designed to support a fundamental domain change such as visual to auditory data. We propose a novel deep learning framework that overcomes this limitation by learning separate feature extractions for each domain while minimizing the distance between the domains in a latent lower-dimensional space. The alignment is achieved by considering the data manifold along with an adversarial training procedure. We demonstrate the effectiveness of the approach versus traditional methods with several ablation experiments on synthetic, measured, and satellite image datasets. We also provide practical guidelines for training the network while overcoming vanishing gradients which inhibit learning in some adversarial training settings.
翻訳日:2021-04-26 07:28:45 公開日:2020-12-22
# 構造化オンラインマップのための階層的再帰注意ネットワーク

Hierarchical Recurrent Attention Networks for Structured Online Maps ( http://arxiv.org/abs/2012.12314v1 )

ライセンス: Link先を確認
Namdar Homayounfar, Wei-Chiu Ma, Shrinidhi Kowshika Lakshmikanth, Raquel Urtasun(参考訳) 本稿では,スパース3次元点雲からのオンライン道路網抽出の問題に対処する。 我々の手法は、アノテータがレーングラフをどのように構築するかにインスパイアされ、まずレーンの数を特定し、それぞれを順番に描画する。 我々は,レーン境界の初期領域に順応する階層的リカレントネットワークを開発し,構造化ポリラインを出力することにより,それらを完全にトレースする。 また,基底真理ポリラインの辺の偏差を測定する新しい微分可能損失関数とその予測法を提案する。 これは頂点上の距離よりも適しており、同値なポリラインを描く多くの方法が存在する。 本手法は90kmの高架道路において有効性を示すとともに, 92\%の適切なトポロジーを回復できることを示す。

In this paper, we tackle the problem of online road network extraction from sparse 3D point clouds. Our method is inspired by how an annotator builds a lane graph, by first identifying how many lanes there are and then drawing each one in turn. We develop a hierarchical recurrent network that attends to initial regions of a lane boundary and traces them out completely by outputting a structured polyline. We also propose a novel differentiable loss function that measures the deviation of the edges of the ground truth polylines and their predictions. This is more suitable than distances on vertices, as there exists many ways to draw equivalent polylines. We demonstrate the effectiveness of our method on a 90 km stretch of highway, and show that we can recover the right topology 92\% of the time.
翻訳日:2021-04-26 07:28:25 公開日:2020-12-22
# ビットエントロピー最大化による深部教師なし画像ハッシュ

Deep Unsupervised Image Hashing by Maximizing Bit Entropy ( http://arxiv.org/abs/2012.12334v1 )

ライセンス: Link先を確認
Yunqiang Li and Jan van Gemert(参考訳) 教師なしハッシュは、高価なアノテーションなしで巨大な画像やビデオコレクションをインデックスする上で重要である。 Hashingは、コンパクトストレージと効率的なセマンティック検索のための短いバイナリコードを学ぶことを目的としている。 我々は,バイナリコードのエントロピーを最大化するbi- half netと呼ばれる教師なしのディープハッシュ層を提案する。 エントロピーは、ビットの可能な値が一様(半半分)に分布する場合に最大となる。 ビットエントロピーを最大化するため、最適化やチューニングが難しいため、損失関数に項を追加することはない。 代わりに、パラメータフリーのネットワーク層を設計し、連続画像の特徴を明示的に強制して最適な半半ビット分布を近似する。 この層は、学習された連続画像特徴と最適半ビット分布との間のワッサーシュタイン距離のペナル化項を最小化する。 flickr25k, nus-wide, cifar-10, mscoco, mnist およびビデオデータセット ucf-101 および hmdb-51 における実験結果から,我々のアプローチはコンパクトコードにつながり,現在の最先端技術と比較できることがわかった。

Unsupervised hashing is important for indexing huge image or video collections without having expensive annotations available. Hashing aims to learn short binary codes for compact storage and efficient semantic retrieval. We propose an unsupervised deep hashing layer called Bi-half Net that maximizes entropy of the binary codes. Entropy is maximal when both possible values of the bit are uniformly (half-half) distributed. To maximize bit entropy, we do not add a term to the loss function as this is difficult to optimize and tune. Instead, we design a new parameter-free network layer to explicitly force continuous image features to approximate the optimal half-half bit distribution. This layer is shown to minimize a penalized term of the Wasserstein distance between the learned continuous image features and the optimal half-half bit distribution. Experimental results on the image datasets Flickr25k, Nus-wide, Cifar-10, Mscoco, Mnist and the video datasets Ucf-101 and Hmdb-51 show that our approach leads to compact codes and compares favorably to the current state-of-the-art.
翻訳日:2021-04-26 07:28:12 公開日:2020-12-22
# 直接ポーズ推定のための構造認識法

A Structure-Aware Method for Direct Pose Estimation ( http://arxiv.org/abs/2012.12360v1 )

ライセンス: Link先を確認
Hunter Blanton, Scott Workman, Nathan Jacobs(参考訳) 単一の画像からカメラのポーズを推定することは、コンピュータビジョンの基本的な問題である。 この課題を解決するための既存の手法は、直接的および間接的な2つのカテゴリに分類される。 posenetのような直接メソッドでは、例えばフィードフォワード畳み込みネットワークを使用して、イメージからレグレッシブポーズを固定関数として設定する。 このような方法は決定論的であり、一定の時間で実行されるため望ましい。 ポーズ回帰の間接的手法はしばしば非決定論的であり、画像検索や仮説サンプリングなど様々な外部依存関係がある。 ネットワークに明示的な3D制約を組み込むために,構造に基づくアプローチから着想を得た直接手法を提案する。 提案手法は他の直接法の望ましい性質を維持しつつ,より低い誤差を一般に達成する。

Estimating camera pose from a single image is a fundamental problem in computer vision. Existing methods for solving this task fall into two distinct categories, which we refer to as direct and indirect. Direct methods, such as PoseNet, regress pose from the image as a fixed function, for example using a feed-forward convolutional network. Such methods are desirable because they are deterministic and run in constant time. Indirect methods for pose regression are often non-deterministic, with various external dependencies such as image retrieval and hypothesis sampling. We propose a direct method that takes inspiration from structure-based approaches to incorporate explicit 3D constraints into the network. Our approach maintains the desirable qualities of other direct methods while achieving much lower error in general.
翻訳日:2021-04-26 07:27:51 公開日:2020-12-22
# fast and furious: 1つの畳み込みネットによるリアルタイムエンドツーエンド3d検出、追跡、モーション予測

Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net ( http://arxiv.org/abs/2012.12395v1 )

ライセンス: Link先を確認
Wenjie Luo, Bin Yang, Raquel Urtasun(参考訳) 本稿では,3次元センサが捉えたデータに基づいて,3次元検出・追跡・動き予測を共同で行うことのできる,新しいディープニューラルネットワークを提案する。 これらのタスクを共同で推論することで、私たちの全体論的アプローチは、範囲内のデータのスパースだけでなく、オクルージョンにもより強固になります。 本手法は,3次元世界における鳥の眼球図上で,空間的・時間的に3次元畳み込みを行い,メモリと計算の両面で非常に効率的である。 北米のいくつかの都市で採取された、新しい大規模データセットに関する実験では、最先端のデータを大きなマージンで上回ることができることが分かりました。 重要なのは、計算を共有することで、すべてのタスクを30ミリ秒で実行できることです。

In this paper we propose a novel deep neural network that is able to jointly reason about 3D detection, tracking and motion forecasting given data captured by a 3D sensor. By jointly reasoning about these tasks, our holistic approach is more robust to occlusion as well as sparse data at range. Our approach performs 3D convolutions across space and time over a bird's eye view representation of the 3D world, which is very efficient in terms of both memory and computation. Our experiments on a new very large scale dataset captured in several north american cities, show that we can outperform the state-of-the-art by a large margin. Importantly, by sharing computation we can perform all tasks in as little as 30 ms.
翻訳日:2021-04-26 07:27:40 公開日:2020-12-22
# 3次元物体検出のためのマルチタスクマルチセンサフュージョン

Multi-Task Multi-Sensor Fusion for 3D Object Detection ( http://arxiv.org/abs/2012.12397v1 )

ライセンス: Link先を確認
Ming Liang, Bin Yang, Yun Chen, Rui Hu, Raquel Urtasun(参考訳) 本稿では,複数の関連タスクを高精度なマルチセンサ3d物体検出に活用する。 この目的に向けて,2次元および3次元オブジェクト検出と地上推定および深度補完を理由として,エンドツーエンドで学習可能なアーキテクチャを提案する。 実験の結果,これらのタスクは相補的であり,様々なレベルで情報を融合することで,ネットワークがよりよい表現を学ぶのに役立つことがわかった。 提案手法は,2D,3D,BEVオブジェクト検出におけるKITTIベンチマークをリアルタイムにリードする。

In this paper we propose to exploit multiple related tasks for accurate multi-sensor 3D object detection. Towards this goal we present an end-to-end learnable architecture that reasons about 2D and 3D object detection as well as ground estimation and depth completion. Our experiments show that all these tasks are complementary and help the network learn better representations by fusing information at various levels. Importantly, our approach leads the KITTI benchmark on 2D, 3D and BEV object detection, while being real time.
翻訳日:2021-04-26 07:27:28 公開日:2020-12-22
# 深度完了のための2次元3次元共同表現の学習

Learning Joint 2D-3D Representations for Depth Completion ( http://arxiv.org/abs/2012.12402v1 )

ライセンス: Link先を確認
Yun Chen, Bin Yang, Ming Liang, Raquel Urtasun(参考訳) 本稿では,RGBDデータからの深度補完問題に取り組む。 この目標に向けて,2dと3dのジョイント特徴を抽出することを学ぶ,単純かつ効果的なニューラルネットワークブロックをデザインする。 具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークで構成され、その出力特性は画像空間に融合する。 提案したブロックを積み重ねることで,複数のレベルで2次元空間と3次元空間の間に完全に融合した階層表現を学習することができる。 我々は,KITTI深度補完ベンチマークにおけるアプローチの有効性を実証し,提案手法が最先端の手法よりも優れていることを示す。

In this paper, we tackle the problem of depth completion from RGBD data. Towards this goal, we design a simple yet effective neural network block that learns to extract joint 2D and 3D features. Specifically, the block consists of two domain-specific sub-networks that apply 2D convolution on image pixels and continuous convolution on 3D points, with their output features fused in image space. We build the depth completion network simply by stacking the proposed block, which has the advantage of learning hierarchical representations that are fully fused between 2D and 3D spaces at multiple levels. We demonstrate the effectiveness of our approach on the challenging KITTI depth completion benchmark and show that our approach outperforms the state-of-the-art.
翻訳日:2021-04-26 07:27:19 公開日:2020-12-22
# 物体検出CNNを用いた光点字認識

Optical Braille Recognition Using Object Detection CNN ( http://arxiv.org/abs/2012.12412v1 )

ライセンス: Link先を確認
Ilya G. Ovodov(参考訳) 本稿では,物体検出畳み込みニューラルネットワークを用いて,点字文字全体を同時に検出する光点字認識手法を提案する。 提案アルゴリズムは,画像および視点歪みに示されるページの変形に対して頑健である。 これは、スマートフォンのカメラで撮影されている点字の認識に役立ちます。 提案アルゴリズムは既存の手法と比較して高い性能と精度を示す。 また,新たに240枚の点字写真を含む「Angelina Braille Images Dataset」を導入する。 提案されたアルゴリズムとデータセットはGitHubで公開されている。

This paper proposes an optical Braille recognition method that uses an object detection convolutional neural network to detect whole Braille characters at once. The proposed algorithm is robust to the deformation of the page shown in the image and perspective distortions. It makes it usable for recognition of Braille texts being shoot on a smartphone camera, including bowed pages and perspective distorted images. The proposed algorithm shows high performance and accuracy compared to existing methods. We also introduce a new "Angelina Braille Images Dataset" containing 240 annotated photos of Braille texts. The proposed algorithm and dataset are available at GitHub.
翻訳日:2021-04-26 07:27:06 公開日:2020-12-22
# 疎結合構造アライメントによる時系列領域適応

Time Series Domain Adaptation via Sparse Associative Structure Alignment ( http://arxiv.org/abs/2012.11797v1 )

ライセンス: Link先を確認
Ruichu Cai, Jiawei Chen, Zijian Li, Wei Chen, Keli Zhang, Junjian Ye, Zhuozhang Li, Xiaoyan Yang, Zhenjie Zhang(参考訳) 時系列データに対するドメイン適応は重要だが、難しい課題である。 この分野の既存の研究のほとんどは、MDDのような制約の助けを借りて、データのドメイン不変表現の学習に基づいている。 しかし、そのようなドメイン不変表現の抽出は、タイムスタンプ間の複雑な依存のため、時系列データに対する非自明なタスクである。 詳しくは、完全依存の時系列において、時間遅れまたはオフセットの小さな変化は、領域不変な抽出の困難をもたらす可能性がある。 幸いにも、因果性の安定性は、データのドメイン不変構造を探求するきっかけになりました。 因果構造の発見の難しさを軽減するため、疎結合構造に緩和し、ドメイン適応のための新しい疎結合構造アライメントモデルを提案する。 まず、オフセットの障害を排除するためのセグメントセットを生成する。 次に,時間遅れを考慮した連想構造時系列データを抽出するために,変数内および変数間注意機構を考案した。 最後に、連想構造アライメントを用いて、ソースドメインからターゲットドメインへの知識の転送を誘導する。 3つの実世界のデータセット上での手法の優れた性能を検証するだけでなく、伝達された知識に関する洞察的な発見も行った。

Domain adaptation on time series data is an important but challenging task. Most of the existing works in this area are based on the learning of the domain-invariant representation of the data with the help of restrictions like MMD. However, such extraction of the domain-invariant representation is a non-trivial task for time series data, due to the complex dependence among the timestamps. In detail, in the fully dependent time series, a small change of the time lags or the offsets may lead to difficulty in the domain invariant extraction. Fortunately, the stability of the causality inspired us to explore the domain invariant structure of the data. To reduce the difficulty in the discovery of causal structure, we relax it to the sparse associative structure and propose a novel sparse associative structure alignment model for domain adaptation. First, we generate the segment set to exclude the obstacle of offsets. Second, the intra-variables and inter-variables sparse attention mechanisms are devised to extract associative structure time-series data with considering time lags. Finally, the associative structure alignment is used to guide the transfer of knowledge from the source domain to the target one. Experimental studies not only verify the good performance of our methods on three real-world datasets but also provide some insightful discoveries on the transferred knowledge.
翻訳日:2021-04-26 07:26:33 公開日:2020-12-22
# 自己模倣の利点学習

Self-Imitation Advantage Learning ( http://arxiv.org/abs/2012.11989v1 )

ライセンス: Link先を確認
Johan Ferret, Olivier Pietquin, Matthieu Geist(参考訳) 自己改善学習(セルフ・イミテーション・ラーニング)とは、期待以上のリターンを示した行動を促す強化学習(Reinforcement Learning, RL)手法である。 本研究は,複数の個別制御タスクにおいて,オンラインアクター批判手法の性能向上を図った。 それでも、主にアクション値に基づくオフポリシーRL法に自己想像を適用することは簡単ではない。 本稿では,ベルマン最適度演算子を改良し,アドバンテージ学習に接続した,非政治的RLのための自己模倣学習の新たな一般化であるSAILを提案する。 重要なことは,本手法は,観測された戻り値と現在の行動値との間に最も楽観的な戻り値を求めることで,スタイルリターンの問題を緩和する。 アーケード学習環境におけるSAILの実証的効果を実演し,ハードな探索ゲームに着目した。

Self-imitation learning is a Reinforcement Learning (RL) method that encourages actions whose returns were higher than expected, which helps in hard exploration and sparse reward problems. It was shown to improve the performance of on-policy actor-critic methods in several discrete control tasks. Nevertheless, applying self-imitation to the mostly action-value based off-policy RL methods is not straightforward. We propose SAIL, a novel generalization of self-imitation learning for off-policy RL, based on a modification of the Bellman optimality operator that we connect to Advantage Learning. Crucially, our method mitigates the problem of stale returns by choosing the most optimistic return estimate between the observed return and the current action-value for self-imitation. We demonstrate the empirical effectiveness of SAIL on the Arcade Learning Environment, with a focus on hard exploration games.
翻訳日:2021-04-26 07:26:14 公開日:2020-12-22
# MetaAugment: サンプル対応データ拡張ポリシー学習

MetaAugment: Sample-Aware Data Augmentation Policy Learning ( http://arxiv.org/abs/2012.12076v1 )

ライセンス: Link先を確認
Fengwei Zhou, Jiawei Li, Chuanlong Xie, Fei Chen, Lanqing Hong, Rui Sun, Zhenguo Li(参考訳) 自動データ拡張は画像認識において優れた性能を示している。 既存の作業は、個々のサンプルのバリエーションを考慮せずに、データセットレベルの拡張ポリシーを検索する。 一方,異なるサンプルに対する異なるポリシーの学習は,計算コストを大幅に向上させる可能性がある。 本稿では,サンプル重み付け問題として定式化することで,サンプル認識データ拡張ポリシーを効率的に学習する。 具体的には、拡張ポリシーネットワークが変換と対応する拡張画像を入力として入力し、タスクネットワークで計算された拡張画像損失を調整するために重みを出力する。 トレーニング段階では、タスクネットワークは強化訓練画像の重み付け損失を最小限に抑え、ポリシーネットワークはメタラーニングによる検証セット上のタスクネットワークの損失を最小限にする。 理論上、訓練手順の収束を証明し、さらに正確な収束率を導出する。 CIFAR-10/100、Omniglot、ImageNetなど、広く使われているベンチマークでは、上位のパフォーマンスが達成されている。

Automated data augmentation has shown superior performance in image recognition. Existing works search for dataset-level augmentation policies without considering individual sample variations, which are likely to be sub-optimal. On the other hand, learning different policies for different samples naively could greatly increase the computing cost. In this paper, we learn a sample-aware data augmentation policy efficiently by formulating it as a sample reweighting problem. Specifically, an augmentation policy network takes a transformation and the corresponding augmented image as inputs, and outputs a weight to adjust the augmented image loss computed by a task network. At training stage, the task network minimizes the weighted losses of augmented training images, while the policy network minimizes the loss of the task network on a validation set via meta-learning. We theoretically prove the convergence of the training procedure and further derive the exact convergence rate. Superior performance is achieved on widely-used benchmarks including CIFAR-10/100, Omniglot, and ImageNet.
翻訳日:2021-04-26 07:25:58 公開日:2020-12-22
# 部分モデル活用による自律的なspmdp環境モデリング

Autonomous sPOMDP Environment Modeling With Partial Model Exploitation ( http://arxiv.org/abs/2012.12203v1 )

ライセンス: Link先を確認
Andrew Wilhelm, Aaron Wilhelm, Garrett Fosdick(参考訳) 環境の状態空間表現は、多くの自律ロボットシステムが効率的かつしばしば最適なソリューション計画のために使用している古典的で強力なツールである。 しかし、これらの表現を高性能で設計するには、自律ロボットのための自律的な状態空間を生成するための効果的で汎用的なツールが必要である。 本稿では,サプライズに基づく部分観測可能なマルコフ決定プロセス(spomdp)を拡張し,様々な環境における長期探査計画性能を実証する新しい状態空間探索アルゴリズムを提案する。 広範なシミュレーション実験により,本モデルでは,学習速度が31~63%向上し,学習速度が31~63%向上し,学習効率と拡張性が大幅に向上することを示す。 以上の結果から,SPOMDPソリューションをより広い環境に拡張する道を開いた。

A state space representation of an environment is a classic and yet powerful tool used by many autonomous robotic systems for efficient and often optimal solution planning. However, designing these representations with high performance is laborious and costly, necessitating an effective and versatile tool for autonomous generation of state spaces for autonomous robots. We present a novel state space exploration algorithm by extending the original surprise-based partially-observable Markov Decision Processes (sPOMDP), and demonstrate its effective long-term exploration planning performance in various environments. Through extensive simulation experiments, we show the proposed model significantly increases efficiency and scalability of the original sPOMDP learning techniques with a range of 31-63% gain in training speed while improving robustness in environments with less deterministic transitions. Our results pave the way for extending sPOMDP solutions to a broader set of environments.
翻訳日:2021-04-26 07:25:35 公開日:2020-12-22
# SSDとHDDの寿命と死:類似性、相違、予測モデル

The Life and Death of SSDs and HDDs: Similarities, Differences, and Prediction Models ( http://arxiv.org/abs/2012.12373v1 )

ライセンス: Link先を確認
Riccardo Pinciroli, Lishan Yang, Jacob Alter, Evgenia Smirni(参考訳) データセンターのダウンタイムは通常、IT機器の故障を中心にしている。 ストレージデバイスは、データセンターで最も頻繁に失敗するコンポーネントです。 本稿では、データセンターの典型的なストレージを構成するハードディスクドライブ(HDD)とソリッドステートドライブ(SSD)の比較研究を行う。 BackBlazeデータセットから同じメーカーから10,000の異なるモデルのHDDの6年間のフィールドデータと,Googleデータセンタから3モデルの3つのモデルの3万のSSDの6年間のフィールドデータを使用して,障害の原因となるワークロード条件を特徴付けるとともに,その根本原因が一般的な期待とは異なっているが,識別が困難であることを示す。 hddの場合、若いドライブと古いドライブは失敗に多くの違いを示さないことが観察される。 代わりに、ヘッドポジショニングに費やされた時間に基づいてドライブを識別することで障害を区別することができる。 SSDでは,乳児死亡率の高さを観察し,乳幼児と非乳幼児の障害の違いを特徴付ける。 いくつかの機械学習故障予測モデルを開発し、精度が驚くほど高く、高いリコール率と低い偽陽性率を実現する。 これらのモデルは単純な予測を超えて、障害につながるワークロード特性の複雑な相互作用を解き放ち、監視された症状から障害の根本原因を特定するのに役立ちます。

Data center downtime typically centers around IT equipment failure. Storage devices are the most frequently failing components in data centers. We present a comparative study of hard disk drives (HDDs) and solid state drives (SSDs) that constitute the typical storage in data centers. Using a six-year field data of 100,000 HDDs of different models from the same manufacturer from the BackBlaze dataset and a six-year field data of 30,000 SSDs of three models from a Google data center, we characterize the workload conditions that lead to failures and illustrate that their root causes differ from common expectation but remain difficult to discern. For the case of HDDs we observe that young and old drives do not present many differences in their failures. Instead, failures may be distinguished by discriminating drives based on the time spent for head positioning. For SSDs, we observe high levels of infant mortality and characterize the differences between infant and non-infant failures. We develop several machine learning failure prediction models that are shown to be surprisingly accurate, achieving high recall and low false positive rates. These models are used beyond simple prediction as they aid us to untangle the complex interaction of workload characteristics that lead to failures and identify failure root causes from monitored symptoms.
翻訳日:2021-04-26 07:25:22 公開日:2020-12-22
# 確率的外乱検出・生成

Probabilistic Outlier Detection and Generation ( http://arxiv.org/abs/2012.12394v1 )

ライセンス: Link先を確認
Stefano Giovanni Rizzo, Linsey Pang, Yixian Chen, Sanjay Chawla(参考訳) 分析的に表現できない確率分布の空間にデータを持ち上げ、そこからニューラルジェネレータを用いてサンプルを描画することで、新たな異常検出・生成法を導入する。 未知の潜伏慣性分布と外れ値分布の混合が与えられると、ワッサースタイン二重オートエンコーダは、異常値と外れ値の検出と生成の両方に使用される。 提案手法はWALDO (Wasserstein Autoencoder for Learning the Distribution of Outliers) と呼ばれ,MNIST, CIFAR10, KDD99などの古典的データセットを用いて検出精度とロバスト性を評価する。 実際の小売販売データセットにおけるアウトラヤ検出の例と、侵入攻撃をシミュレートするためのアウトラヤ生成の例を示す。 しかし、WALDOが使える多くのアプリケーションシナリオを予測します。 私たちの知る限りでは、これは異常検出と生成の両方を一緒に研究する最初の仕事です。

A new method for outlier detection and generation is introduced by lifting data into the space of probability distributions which are not analytically expressible, but from which samples can be drawn using a neural generator. Given a mixture of unknown latent inlier and outlier distributions, a Wasserstein double autoencoder is used to both detect and generate inliers and outliers. The proposed method, named WALDO (Wasserstein Autoencoder for Learning the Distribution of Outliers), is evaluated on classical data sets including MNIST, CIFAR10 and KDD99 for detection accuracy and robustness. We give an example of outlier detection on a real retail sales data set and an example of outlier generation for simulating intrusion attacks. However we foresee many application scenarios where WALDO can be used. To the best of our knowledge this is the first work that studies both outlier detection and generation together.
翻訳日:2021-04-26 07:24:58 公開日:2020-12-22
# ヒューマンルーチンのモデル化:エージェントベースシミュレーションのための社会実践理論の概念化

Modelling Human Routines: Conceptualising Social Practice Theory for Agent-Based Simulation ( http://arxiv.org/abs/2012.11903v1 )

ライセンス: Link先を確認
Rijk Mercuur, Virginia Dignum, Catholijn M. Jonker(参考訳) 当社のルーチンは, 気候変動, 病気の発生, 患者と病院の連携など, 幅広い社会的課題において重要な役割を担っている。 エージェントベースのシミュレーション(abs)を使用して社会的課題におけるルーチンの役割を理解するには、ルーチンを統合するエージェントフレームワークが必要です。 本稿では,文献からの要求を満たすドメインに依存しないソーシャル・プラクティス・エージェント(SoPrA)フレームワークを提案する。 エージェント理論、社会心理学、社会実践理論に関する文献から適切な概念を選択することで、SoPrAはルーチンに関する現在の証拠を正しく描写する。 複数のドメインに適した一貫した、モジュール的でパーシミュネートなフレームワークを作成することで、SoPrAのユーザビリティを高めます。 SoPrAはABS研究者に、ルーチンをシミュレートし、社会システムに対する新たな洞察を得るための概念的で形式的で計算的なフレームワークを提供する。

Our routines play an important role in a wide range of social challenges such as climate change, disease outbreaks and coordinating staff and patients in a hospital. To use agent-based simulations (ABS) to understand the role of routines in social challenges we need an agent framework that integrates routines. This paper provides the domain-independent Social Practice Agent (SoPrA) framework that satisfies requirements from the literature to simulate our routines. By choosing the appropriate concepts from the literature on agent theory, social psychology and social practice theory we ensure SoPrA correctly depicts current evidence on routines. By creating a consistent, modular and parsimonious framework suitable for multiple domains we enhance the usability of SoPrA. SoPrA provides ABS researchers with a conceptual, formal and computational framework to simulate routines and gain new insights into social systems.
翻訳日:2021-04-26 07:24:43 公開日:2020-12-22
# TorchMD:分子シミュレーションのためのディープラーニングフレームワーク

TorchMD: A deep learning framework for molecular simulations ( http://arxiv.org/abs/2012.12106v1 )

ライセンス: Link先を確認
Stefan Doerr, Maciej Majewsk, Adri\`a P\'erez, Andreas Kr\"amer, Cecilia Clementi, Frank Noe, Toni Giorgino and Gianni De Fabritiis(参考訳) 分子動力学シミュレーションは、経験的ポテンシャルに依存する分子の力学的な記述を提供する。 このようなポテンシャルの品質と伝達性は、機械学習アプローチから派生したデータ駆動モデルを活用することで改善することができる。 本稿では,古典的および機械学習的ポテンシャルを混合した分子シミュレーションのためのフレームワークであるtorchmdを提案する。 結合、角度、二面体、レナード・ジョーンズ、クーロン相互作用を含む全ての力計算は、PyTorch配列と演算として表される。 さらにtorchmdは、ニューラルネットワークポテンシャルの学習とシミュレーションを可能にする。 標準のamber全原子シミュレーションを用いて検証を行い、ab-initioポテンシャルを学習し、エンドツーエンドのトレーニングを行い、最後にタンパク質折り畳みのための粗粒モデルを学習しシミュレーションする。 我々はTorchMDが機械学習ポテンシャルの分子シミュレーションを支援する有用なツールセットを提供すると考えている。 コードとデータは \url{github.com/torchmd} で自由に入手できる。

Molecular dynamics simulations provide a mechanistic description of molecules by relying on empirical potentials. The quality and transferability of such potentials can be improved leveraging data-driven models derived with machine learning approaches. Here, we present TorchMD, a framework for molecular simulations with mixed classical and machine learning potentials. All of force computations including bond, angle, dihedral, Lennard-Jones and Coulomb interactions are expressed as PyTorch arrays and operations. Moreover, TorchMD enables learning and simulating neural network potentials. We validate it using standard Amber all-atom simulations, learning an ab-initio potential, performing an end-to-end training and finally learning and simulating a coarse-grained model for protein folding. We believe that TorchMD provides a useful tool-set to support molecular simulations of machine learning potentials. Code and data are freely available at \url{github.com/torchmd}.
翻訳日:2021-04-26 07:24:28 公開日:2020-12-22
# 多様な物体のロバスト把持の最適化による創発的手形態と制御

Emergent Hand Morphology and Control from Optimizing Robust Grasps of Diverse Objects ( http://arxiv.org/abs/2012.12209v1 )

ライセンス: Link先を確認
Xinlei Pan, Animesh Garg, Animashree Anandkumar, Yuke Zhu(参考訳) 自然の進化は、生物の生物学的構造とその感覚運動能力が生存のための環境変化に適応することを示している。 同様に、新しいスキルを変形して獲得する能力は、様々な複雑さのタスクを解決するための具体的エージェントを促進することができる。 本研究では,多様な物体を把握すべく,自然に効果的なハンドデザインが出現するデータ駆動アプローチを提案する。 形態学と制御の協調最適化は、エンボディメントと行動の組み合わせの性能を測定するブラックボックス関数を常に評価する必要があるため、計算上の課題を課す。 本研究では,学習的潜在空間表現による形態素および把持スキルを協調的に設計するベイズ最適化アルゴリズムを開発した。 本研究では, パワー握り, ピンチ握り, 横握りの3種類の人間把持の分類に基づいて把持タスクを設計する。 実験および比較研究を通じて,新しい物体をつかむための堅牢で費用効率の良い手形を発見するためのアプローチの有効性を実証した。

Evolution in nature illustrates that the creatures' biological structure and their sensorimotor skills adapt to the environmental changes for survival. Likewise, the ability to morph and acquire new skills can facilitate an embodied agent to solve tasks of varying complexities. In this work, we introduce a data-driven approach where effective hand designs naturally emerge for the purpose of grasping diverse objects. Jointly optimizing morphology and control imposes computational challenges since it requires constant evaluation of a black-box function that measures the performance of a combination of embodiment and behavior. We develop a novel Bayesian Optimization algorithm that efficiently co-designs the morphology and grasping skills jointly through learned latent-space representations. We design the grasping tasks based on a taxonomy of three human grasp types: power grasp, pinch grasp, and lateral grasp. Through experimentation and comparative study, we demonstrate the effectiveness of our approach in discovering robust and cost-efficient hand morphologies for grasping novel objects.
翻訳日:2021-04-26 07:24:14 公開日:2020-12-22
# マルチエージェントネットワーク制御のための状態追跡を用いた分散Q-Learning

Distributed Q-Learning with State Tracking for Multi-agent Networked Control ( http://arxiv.org/abs/2012.12383v1 )

ライセンス: Link先を確認
Hang Wang, Sen Lin, Hamid Jafarkhani, Junshan Zhang(参考訳) 本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。 既存の結果は、プライバシの懸念や通信上の制約のために大規模システムでは実現不可能なグローバルシステム状態をエージェントが監視できると仮定することが多い。 本研究では,未知のシステムモデルと集中型コーディネータを含まない設定について考察する。 エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。 具体的には、エージェントが地域情報と隣人とのコミュニケーションに基づいて、グローバルステートのローカルな見積を維持できると仮定する。 各ステップにおいて、各エージェントは、ポリシーイテレーションを通じて近似q因子を局所的に解くことで、ローカルなグローバル状態推定を更新する。 政策評価中に減衰した励起ノイズを仮定すると、局所的な推定が真のグローバル状態に収束し、提案した分散STベースのQ-ラーニングアルゴリズムの収束を確立する。 実験により,提案手法が集中型の場合と同等の性能が得られることを示した。

This paper studies distributed Q-learning for Linear Quadratic Regulator (LQR) in a multi-agent network. The existing results often assume that agents can observe the global system state, which may be infeasible in large-scale systems due to privacy concerns or communication constraints. In this work, we consider a setting with unknown system models and no centralized coordinator. We devise a state tracking (ST) based Q-learning algorithm to design optimal controllers for agents. Specifically, we assume that agents maintain local estimates of the global state based on their local information and communications with neighbors. At each step, every agent updates its local global state estimation, based on which it solves an approximate Q-factor locally through policy iteration. Assuming decaying injected excitation noise during the policy evaluation, we prove that the local estimation converges to the true global state, and establish the convergence of the proposed distributed ST-based Q-learning algorithm. The experimental studies corroborate our theoretical results by showing that our proposed method achieves comparable performance with the centralized case.
翻訳日:2021-04-26 07:23:58 公開日:2020-12-22
# ロバスト因果推論における非線形二元最適化問題を解くアルゴリズム

Algorithms for Solving Nonlinear Binary Optimization Problems in Robust Causal Inference ( http://arxiv.org/abs/2012.12130v1 )

ライセンス: Link先を確認
Md Saiful Islam, Md Sarowar Morshed, and Md. Noor-E-Alam(参考訳) 変数間の因果関係の特定は意思決定プロセスにおける重要なステップである。 因果推論にはランダムな実験が必要であるが、研究者や政策立案者は、観測データの広範囲な利用と実験の実施可能性のために、因果仮説をテストするために観察研究をますます利用している。 このマッチング手法は観測データから因果推論を行う最もよく用いられる手法である。 しかし、一対一マッチングにおけるペア割り当てプロセスは、実験者による選択が異なるため、推論の不確実性を引き起こす。 近年, 不確実性に対処するために離散最適化モデルが提案されている。 離散最適化モデルでは頑健な推論が可能であるが、非線形問題を引き起こし、拡張性に欠ける。 本研究では、連続的な結果を伴う観測データから頑健な因果推論テストインスタンスを解くための欲求アルゴリズムを提案する。 非線形二項最適化問題を実現可能性問題として再編成するための一意な枠組みを提案する。 実現可能性定式化の構造を生かして,ロバストなテスト問題を解決するのに効率的な欲望スキームを開発する。 多くの場合、提案アルゴリズムはグローバル最適解を実現する。 3つの実世界のデータセットで実験を行い,提案アルゴリズムの有効性を実証し,その結果を最先端解法と比較した。 実験により,提案手法は計算時間的にも精度が向上し,因果テストでも同様の結果が得られた。 数値実験と複雑性解析の両方により、提案アルゴリズムは、意思決定プロセスにおけるビッグデータのパワーを利用するために必要なスケーラビリティを保証する。

Identifying cause-effect relation among variables is a key step in the decision-making process. While causal inference requires randomized experiments, researchers and policymakers are increasingly using observational studies to test causal hypotheses due to the wide availability of observational data and the infeasibility of experiments. The matching method is the most used technique to make causal inference from observational data. However, the pair assignment process in one-to-one matching creates uncertainty in the inference because of different choices made by the experimenter. Recently, discrete optimization models are proposed to tackle such uncertainty. Although a robust inference is possible with discrete optimization models, they produce nonlinear problems and lack scalability. In this work, we propose greedy algorithms to solve the robust causal inference test instances from observational data with continuous outcomes. We propose a unique framework to reformulate the nonlinear binary optimization problems as feasibility problems. By leveraging the structure of the feasibility formulation, we develop greedy schemes that are efficient in solving robust test problems. In many cases, the proposed algorithms achieve global optimal solution. We perform experiments on three real-world datasets to demonstrate the effectiveness of the proposed algorithms and compare our result with the state-of-the-art solver. Our experiments show that the proposed algorithms significantly outperform the exact method in terms of computation time while achieving the same conclusion for causal tests. Both numerical experiments and complexity analysis demonstrate that the proposed algorithms ensure the scalability required for harnessing the power of big data in the decision-making process.
翻訳日:2021-04-26 07:22:47 公開日:2020-12-22
# SERV-CT : 内視鏡的3D再構成のためのCTからの差分データセット

SERV-CT: A disparity dataset from CT for validation of endoscopic 3D reconstruction ( http://arxiv.org/abs/2012.11779v1 )

ライセンス: Link先を確認
P.J. "Eddie'' Edwards, Dimitris Psychogyios, Stefanie Speidel, Lena Maier-Hein and Danail Stoyanov(参考訳) コンピュータビジョンにおいて、参照データセットはステレオ再構成におけるアルゴリズム開発を促進することに成功している。 外科的なシーンは、明確な隅角の特徴の欠如、高スペックな表面、血と煙の存在など、特定の問題を引き起こす。 一般に入手可能なデータセットはCTおよび幻像または内視鏡視野の比較的小さな領域をカバーする生物学的組織サンプルを用いて作成されている。 我々は,CT(SERV-CT)に基づく立体内視鏡的再構成検証データセットを提案する。 内視鏡と対象血管の両方をctで観察し, 内視鏡の視野内に2例の小型ブタフルトルソキャダバーを配置した。 内視鏡の向きは手動で立体視に合わせられた。 各試料から8対のステレオペアに対して基準偏差と咬合量を算出した。 第2のサンプルでは、RGB表面は滑らかで特徴のない表面のアライメントを支援するために取得された。 繰り返し手動アライメントでは RMS の差は ~2 ピクセル、深さは ~2 mm であった。 基準データセットは、内視鏡画像の大部分と様々な組織タイプをカバーする、対応する校正、相違、深さ及び閉塞を有する内視鏡画像対を含む。 滑らかなスペキュラ面と、深度が著しく変化する画像を含む。 オンラインリポジトリから様々なステレオアルゴリズムの性能を評価した。 アルゴリズムには大きな差異があり、手術用内視鏡画像の課題を浮き彫りにしている。 SERV-CTデータセットは、内視鏡画像の大部分をカバーするスムーズな基準差と深さを持つ外科的応用に、容易に利用できる立体的検証を提供する。 これは既存の資源を十分に補完し、外科的内視鏡的解剖学的再構築アルゴリズムの開発を支援することを期待する。

In computer vision, reference datasets have been highly successful in promoting algorithmic development in stereo reconstruction. Surgical scenes gives rise to specific problems, including the lack of clear corner features, highly specular surfaces and the presence of blood and smoke. Publicly available datasets have been produced using CT and either phantom images or biological tissue samples covering a relatively small region of the endoscope field-of-view. We present a stereo-endoscopic reconstruction validation dataset based on CT (SERV-CT). Two {\it ex vivo} small porcine full torso cadavers were placed within the view of the endoscope with both the endoscope and target anatomy visible in the CT scan. Orientation of the endoscope was manually aligned to the stereoscopic view. Reference disparities and occlusions were calculated for 8 stereo pairs from each sample. For the second sample an RGB surface was acquired to aid alignment of smooth, featureless surfaces. Repeated manual alignments showed an RMS disparity accuracy of ~2 pixels and a depth accuracy of ~2mm. The reference dataset includes endoscope image pairs with corresponding calibration, disparities, depths and occlusions covering the majority of the endoscopic image and a range of tissue types. Smooth specular surfaces and images with significant variation of depth are included. We assessed the performance of various stereo algorithms from online available repositories. There is a significant variation between algorithms, highlighting some of the challenges of surgical endoscopic images. The SERV-CT dataset provides an easy to use stereoscopic validation for surgical applications with smooth reference disparities and depths with coverage over the majority of the endoscopic images. This complements existing resources well and we hope will aid the development of surgical endoscopic anatomical reconstruction algorithms.
翻訳日:2021-04-26 07:22:25 公開日:2020-12-22
# 合成対向ネットワークとSAR-光画像変換を用いたリモートセンシング画像の雲除去

Cloud removal in remote sensing images using generative adversarial networks and SAR-to-optical image translation ( http://arxiv.org/abs/2012.12180v1 )

ライセンス: Link先を確認
Faramarz Naderi Darbaghshahi, Mohammad Reza Mohammadi, Mohsen Soryani(参考訳) 衛星画像はしばしば雲によって汚染される。 雲の除去は、幅広い衛星画像の応用により、多くの注目を集めている。 雲の厚みが増すにつれ、雲を取り除くプロセスはより困難になる。 このような場合、近赤外線や合成開口レーダ(SAR)などの補助画像を用いて再構築することが一般的である。 本研究では,2つの生成逆ネットワーク(GAN)を用いてこの問題を解決する。 第1はSAR画像を光学画像に変換し、第2は前GANの変換画像を使用して雲を除去する。 また,ジェネレータネットワークにおけるバニラU-netの代わりに拡張残差開始ブロック(DRIB)を提案し,L1ロス関数に加えて構造類似度指標(SSIM)を用いる。 拡張畳み込みによるダウンサンプリング数削減と受容場の拡大により,出力画像の品質が向上する。 sen1-2データセットを使って両方のganを訓練し、光学画像に合成雲を追加して曇りの画像を作成した。 復元された画像はPSNRとSSIMで評価する。 提案手法を最先端の深層学習モデルと比較し,SAR-to-optical Translationとクラウド除去部でより正確な結果を得る。

Satellite images are often contaminated by clouds. Cloud removal has received much attention due to the wide range of satellite image applications. As the clouds thicken, the process of removing the clouds becomes more challenging. In such cases, using auxiliary images such as near-infrared or synthetic aperture radar (SAR) for reconstructing is common. In this study, we attempt to solve the problem using two generative adversarial networks (GANs). The first translates SAR images into optical images, and the second removes clouds using the translated images of prior GAN. Also, we propose dilated residual inception blocks (DRIBs) instead of vanilla U-net in the generator networks and use structural similarity index measure (SSIM) in addition to the L1 Loss function. Reducing the number of downsamplings and expanding receptive fields by dilated convolutions increase the quality of output images. We used the SEN1-2 dataset to train and test both GANs, and we made cloudy images by adding synthetic clouds to optical images. The restored images are evaluated with PSNR and SSIM. We compare the proposed method with state-of-the-art deep learning models and achieve more accurate results in both SAR-to-optical translation and cloud removal parts.
翻訳日:2021-04-26 07:21:43 公開日:2020-12-22
# DAGMapper: レーントポロジの発見によるマップの学習

DAGMapper: Learning to Map by Discovering Lane Topology ( http://arxiv.org/abs/2012.12377v1 )

ライセンス: Link先を確認
Namdar Homayounfar, Wei-Chiu Ma, Justin Liang, Xinyu Wu, Jack Fan, Raquel Urtasun(参考訳) 自動運転をスケールするための基本的な課題の1つは、低コストで正確なHDマップを作成することができることである。 このプロセスを自動化しようとする現在の試みは、一般的に単純なシナリオに注目し、フレームごとに独立したマップを見積もるか、あるいは現代の自動運転車に必要な精度を欠いている。 対照的に,本稿では,フォークやマージによるトポロジー変化を含む多くのレーンを有する複雑な高速道路のレーン境界を描くことに焦点を当てる。 この目的に向けて、グラフのノードがレーン境界の局所領域の幾何学的および位相的性質を符号化する有向非巡回グラフィカルモデル(DAG)の推論として問題を定式化する。 我々はレーンのトポロジーを事前に知らないので、各領域のdagトポロジー(つまりノードとエッジ)も推測する。 2つの異なる州における2つの幹線道路における我々のアプローチの有効性を実証し、高い精度とリコールと89%の正しいトポロジーを示す。

One of the fundamental challenges to scale self-driving is being able to create accurate high definition maps (HD maps) with low cost. Current attempts to automate this process typically focus on simple scenarios, estimate independent maps per frame or do not have the level of precision required by modern self driving vehicles. In contrast, in this paper we focus on drawing the lane boundaries of complex highways with many lanes that contain topology changes due to forks and merges. Towards this goal, we formulate the problem as inference in a directed acyclic graphical model (DAG), where the nodes of the graph encode geometric and topological properties of the local regions of the lane boundaries. Since we do not know a priori the topology of the lanes, we also infer the DAG topology (i.e., nodes and edges) for each region. We demonstrate the effectiveness of our approach on two major North American Highways in two different states and show high precision and recall as well as 89% correct topology.
翻訳日:2021-04-26 07:20:59 公開日:2020-12-22
# STaR:ニューラルレンダリングによる剛体物体の自律的追跡と再構成

STaR: Self-supervised Tracking and Reconstruction of Rigid Objects in Motion with Neural Rendering ( http://arxiv.org/abs/2101.01602v1 )

ライセンス: Link先を確認
Wentao Yuan, Zhaoyang Lv, Tanner Schmidt, Steven Lovegrove(参考訳) 本稿では,手動のアノテーションを使わずに,多視点RGBビデオからの厳密な動きを伴う動的シーンの自己教師付き追跡と再構成を行う新しい手法STaRを提案する。 近年の研究では、ニューラルネットワークが、シーンの多くのビューを、ボリュームレンダリングによって観測光線から観測光度値にマップする学習関数に圧縮するタスクにおいて、驚くほど効果的であることが示されている。 残念ながら、これらの手法は、シーン内の任意のオブジェクトが移動したら、予測能力を失う。 本研究では,放射場の神経表現の文脈における物体の剛性運動を明示的にモデル化する。 人為的な監視がなければ、一つの剛体物体を同時に2つの構成部品に分解し、それぞれを独自の神経表現で符号化することで、動的シーンを再構築できることが示される。 2つのニューラルレージアンス場のパラメータと、各フレームに2つのフィールドを整列する一組の剛性ポーズを共同で最適化することで、これを実現できる。 合成と実世界の両方のデータセットにおいて,本手法が空間軸と時間軸の両方で新規性を測定するフォトリアリスティック・ノベルビューを描画できることを実証した。 また,物体の動きのアニメーション化も可能とした。

We present STaR, a novel method that performs Self-supervised Tracking and Reconstruction of dynamic scenes with rigid motion from multi-view RGB videos without any manual annotation. Recent work has shown that neural networks are surprisingly effective at the task of compressing many views of a scene into a learned function which maps from a viewing ray to an observed radiance value via volume rendering. Unfortunately, these methods lose all their predictive power once any object in the scene has moved. In this work, we explicitly model rigid motion of objects in the context of neural representations of radiance fields. We show that without any additional human specified supervision, we can reconstruct a dynamic scene with a single rigid object in motion by simultaneously decomposing it into its two constituent parts and encoding each with its own neural representation. We achieve this by jointly optimizing the parameters of two neural radiance fields and a set of rigid poses which align the two fields at each frame. On both synthetic and real world datasets, we demonstrate that our method can render photorealistic novel views, where novelty is measured on both spatial and temporal axes. Our factored representation furthermore enables animation of unseen object motion.
翻訳日:2021-04-26 07:20:41 公開日:2020-12-22
# 情報漏洩ゲーム:ユーティリティ機能としての情報探索

Information Leakage Games: Exploring Information as a Utility Function ( http://arxiv.org/abs/2012.12060v1 )

ライセンス: Link先を確認
M\'ario S. Alvim, Konstantinos Chatzikokolakis, Yusuke Kawamoto, Catuscia Palamidessi(参考訳) セキュアな情報フローとプライバシに関する一般的な目標は、不要な情報の漏洩に対して効果的な防御を構築することだ。 この目的のためには、潜在的な攻撃とそれらの防御との相互作用を推論できる必要がある。 本稿では,攻撃者や防御者の戦略を情報漏洩の文脈で定式化するゲーム理論フレームワークを提案し,最適な防御手法を開発するための基盤を提供する。 我々のゲームにおける重要な新規性は、それらのユーティリティが情報漏洩によって与えられることだ。 これは、プレイヤーの戦略に関して効用関数が線形である古典的なゲーム理論から大きな逸脱を引き起こす。 したがって,本稿の重要な貢献は情報漏洩ゲームの基礎の確立である。 情報漏洩の特定の概念に依存して,ゲームの主なカテゴリを2つ検討する。 QIFゲームと呼ばれる最初のカテゴリは、量的情報フロー(QIF)の理論のために調整されている。 2つ目は、私たちがDPゲームと呼ぶ、差分プライバシー(DP)に対応するものです。

A common goal in the areas of secure information flow and privacy is to build effective defenses against unwanted leakage of information. To this end, one must be able to reason about potential attacks and their interplay with possible defenses. In this paper we propose a game-theoretic framework to formalize strategies of attacker and defender in the context of information leakage, and provide a basis for developing optimal defense methods. A crucial novelty of our games is that their utility is given by information leakage, which in some cases may behave in a non-linear way. This causes a significant deviation from classic game theory, in which utility functions are linear with respect to players' strategies. Hence, a key contribution of this paper is the establishment of the foundations of information leakage games. We consider two main categories of games, depending on the particular notion of information leakage being captured. The first category, which we call QIF-games, is tailored for the theory of quantitative information flow (QIF). The second one, which we call DP-games, corresponds to differential privacy (DP).
翻訳日:2021-04-26 07:20:21 公開日:2020-12-22
# ガウス過程を持つ地球観測データの学習構造

Learning Structures in Earth Observation Data with Gaussian Processes ( http://arxiv.org/abs/2012.11922v1 )

ライセンス: Link先を確認
Fernando Mateo, Jordi Munoz-Mari, Valero Laparra, Jochem Verrelst, Gustau Camps-Valls(参考訳) ガウス過程(GPs)は、地球科学全般と、過去数年間で生物物理パラメーターの検索において大きな成功を収めてきた。 gpsは多くの関数近似問題を一貫して定式化する固形ベイズフレームワークを構成する。 本稿では,この分野の主要な理論gp開発について概説する。 本稿では,信号特性と雑音特性を尊重する新しいアルゴリズムについて検討し,特徴ランキングを自動的に提供し,関連する不確かさ区間を空間的および時間的モデルに適用可能にする。 これらすべての発展は、地学とリモートセンシングの分野において、一組の図示的な例を通して、局所的およびグローバルなスケールで示される。

Gaussian Processes (GPs) has experienced tremendous success in geoscience in general and for bio-geophysical parameter retrieval in the last years. GPs constitute a solid Bayesian framework to formulate many function approximation problems consistently. This paper reviews the main theoretical GP developments in the field. We review new algorithms that respect the signal and noise characteristics, that provide feature rankings automatically, and that allow applicability of associated uncertainty intervals to transport GP models in space and time. All these developments are illustrated in the field of geoscience and remote sensing at a local and global scales through a set of illustrative examples.
翻訳日:2021-04-26 07:20:07 公開日:2020-12-22
# MailLeak:伝達学習を用いた難読化ロバスト文字抽出

MailLeak: Obfuscation-Robust Character Extraction Using Transfer Learning ( http://arxiv.org/abs/2012.11775v1 )

ライセンス: Link先を確認
Wei Wang, Emily Sallenback, Zeyu Ning, Hugues Nelson Iradukunda, Wenxi Lu, Qingquan Zhang, Ting Zhu(参考訳) 以下の研究は、難読化画像からの文字認識のための新しいアルゴリズムを提示する。 提案手法は,現在の郵便サービスに対する潜在的な脅威の一例である。 本稿では,与えられたアルゴリズムの効率を解析し,その脅威を防止する対策を提案する。

The following work presents a new algorithm for character recognition from obfuscated images. The presented method is an example of a potential threat to current postal services. This paper both analyzes the efficiency of the given algorithm and suggests countermeasures to prevent such threats from occurring.
翻訳日:2021-04-26 07:19:57 公開日:2020-12-22
# ユーザ嗜好予測のためのパーソナライズされた適応型メタ学習

Personalized Adaptive Meta Learning for Cold-start User Preference Prediction ( http://arxiv.org/abs/2012.11842v1 )

ライセンス: Link先を確認
Runsheng Yu, Yu Gong, Xu He, Bo An, Yu Zhu, Qingwen Liu, Wenwu Ou(参考訳) パーソナライズされたユーザの好み予測における一般的な課題は、コールドスタート問題である。 ユーザ-テーマ間インタラクションの欠如により、新しいユーザのログデータから直接学習することは、深刻な過剰フィッティング問題を引き起こす。 近年,コールドスタートのパーソナライズされた嗜好予測は,各ユーザがタスクであり,推奨項目がクラスであり,勾配に基づくメタラーニング手法(MAML)が課題に対処するために活用されている,数発の学習問題であると考える研究が数多く存在する。 しかし、現実世界のアプリケーションでは、ユーザーは均一に配布されない(例えば、異なるユーザーが異なるブラウジング履歴、推奨アイテム、ユーザープロファイルを持つ)。 我々は,多数のユーザが同じユーザ情報を共有しているグループ内のユーザとしてメジャーユーザを定義し,他のユーザがマイナーユーザである,既存のMAMLアプローチがメジャーユーザに適合し,マイナーユーザを無視する傾向にある。 このコールドスタートタスクオーバーフィッティング問題に対処するため,本研究では,メジャーユーザとマイナーユーザの両方に3つの重要なコントリビューションを付与する,パーソナライズされた適応型メタ学習アプローチを提案する。 2)各ユーザに対してよりパーソナライズされた学習率を提供するために,類似したユーザを参照として見つけるための類似性に基づく手法と,高速検索のためのユーザの機能を格納するツリーベース手法を提案する。 3)メモリ使用量を削減するため,メモリ非依存の正規化器を設計し,性能を維持しながら空間の複雑さをさらに一定に抑える。 MovieLens、BookCrossing、および実世界のプロダクションデータセットの実験により、我々の手法は、マイナーユーザとメジャーユーザの両方にとって、最先端の手法を劇的に上回ります。

A common challenge in personalized user preference prediction is the cold-start problem. Due to the lack of user-item interactions, directly learning from the new users' log data causes serious over-fitting problem. Recently, many existing studies regard the cold-start personalized preference prediction as a few-shot learning problem, where each user is the task and recommended items are the classes, and the gradient-based meta learning method (MAML) is leveraged to address this challenge. However, in real-world application, the users are not uniformly distributed (i.e., different users may have different browsing history, recommended items, and user profiles. We define the major users as the users in the groups with large numbers of users sharing similar user information, and other users are the minor users), existing MAML approaches tend to fit the major users and ignore the minor users. To address this cold-start task-overfitting problem, we propose a novel personalized adaptive meta learning approach to consider both the major and the minor users with three key contributions: 1) We are the first to present a personalized adaptive learning rate meta-learning approach to improve the performance of MAML by focusing on both the major and minor users. 2) To provide better personalized learning rates for each user, we introduce a similarity-based method to find similar users as a reference and a tree-based method to store users' features for fast search. 3) To reduce the memory usage, we design a memory agnostic regularizer to further reduce the space complexity to constant while maintain the performance. Experiments on MovieLens, BookCrossing, and real-world production datasets reveal that our method outperforms the state-of-the-art methods dramatically for both the minor and major users.
翻訳日:2021-04-26 07:19:54 公開日:2020-12-22
# Rejection Smplingによる$k$-means++の高速化

Fast and Accurate $k$-means++ via Rejection Sampling ( http://arxiv.org/abs/2012.11891v1 )

ライセンス: Link先を確認
Vincent Cohen-Addad and Silvio Lattanzi and Ashkan Norouzi-Fard and Christian Sohler and Ola Svensson(参考訳) $k$-means++ \cite{arthur2007k} は実装が容易で、優れた理論的保証と強力な経験的性能を持つクラスタリングアルゴリズムである。 広く採用されているにもかかわらず、$k$-means++は大規模なデータセットの処理が遅くなることがあるため、同様の保証でより効率的なアルゴリズムを得ることが自然な問題であった。 本稿では,$k$-means++ シードのための近似線形時間アルゴリズムを提案する。 興味深いことに、我々のアルゴリズムは$k$-means++と同じ理論的保証を取得し、高速な$k$-means++のシード結果を大幅に改善する。 さらに,本アルゴリズムは$k$-means++よりもはるかに高速であり,等価品質の解が得られることを示す。

$k$-means++ \cite{arthur2007k} is a widely used clustering algorithm that is easy to implement, has nice theoretical guarantees and strong empirical performance. Despite its wide adoption, $k$-means++ sometimes suffers from being slow on large data-sets so a natural question has been to obtain more efficient algorithms with similar guarantees. In this paper, we present a near linear time algorithm for $k$-means++ seeding. Interestingly our algorithm obtains the same theoretical guarantees as $k$-means++ and significantly improves earlier results on fast $k$-means++ seeding. Moreover, we show empirically that our algorithm is significantly faster than $k$-means++ and obtains solutions of equivalent quality.
翻訳日:2021-04-26 07:19:23 公開日:2020-12-22
# 予測作業地図を用いた高速ロボットナビゲーション

High-Speed Robot Navigation using Predicted Occupancy Maps ( http://arxiv.org/abs/2012.12142v1 )

ライセンス: Link先を確認
Kapil D. Katyal (1 and 2), Adam Polevoy (1), Joseph Moore (1), Craig Knuth (1), Katie M. Popek (1) ((1) Johns Hopkins University Applied Physics Lab, (2) Dept. of Comp. Sci., Johns Hopkins University)(参考訳) 安全で高速なナビゲーションは、ロボットシステムの現実的な展開を可能にする重要な能力である。 既存のアプローチの大きな制限は、明示的なマッピングと既存のセンサー技術の限られた視野(FOV)に関連する計算ボトルネックである。 本稿では,ロボットがセンサホライズンを超えて広がる空間を高速に予測し,ロバストな計画を行うためのアルゴリズム的手法について検討する。 我々は、人間のアノテートラベルを必要とせず、実世界のデータからトレーニングされた生成ニューラルネットワークを用いてこれを実現する。 さらに,既存の制御アルゴリズムを拡張して予測空間の活用を支援し,衝突のない計画とナビゲーションを高速に向上する。 実験は,マップの予測領域で動作しないコントローラと比較して4m/sで性能が向上したrgbdセンサを用いて,mitのレースカーに基づく物理ロボットを用いて実施した。

Safe and high-speed navigation is a key enabling capability for real world deployment of robotic systems. A significant limitation of existing approaches is the computational bottleneck associated with explicit mapping and the limited field of view (FOV) of existing sensor technologies. In this paper, we study algorithmic approaches that allow the robot to predict spaces extending beyond the sensor horizon for robust planning at high speeds. We accomplish this using a generative neural network trained from real-world data without requiring human annotated labels. Further, we extend our existing control algorithms to support leveraging the predicted spaces to improve collision-free planning and navigation at high speeds. Our experiments are conducted on a physical robot based on the MIT race car using an RGBD sensor where were able to demonstrate improved performance at 4 m/s compared to a controller not operating on predicted regions of the map.
翻訳日:2021-04-26 07:18:48 公開日:2020-12-22
# 主共変量回帰によるサンプルと特徴選択の改善

Improving Sample and Feature Selection with Principal Covariates Regression ( http://arxiv.org/abs/2012.12253v1 )

ライセンス: Link先を確認
Rose K. Cersonsky, Benjamin A. Helfrecht, Edgar A. Engel, Michele Ceriotti(参考訳) 大量の候補の中から最も関連性の高い特徴とサンプルを選択することは、自動データ分析の文脈で非常に頻繁に発生するタスクであり、そこでは、計算性能、そしてしばしばモデルの転送可能性を改善するために使用できる。 ここでは,特徴行列の低ランク近似に基づくcur分解と,最も多様なサンプルの反復的同定と特徴の識別に依存する最遠点サンプリングという,この目的に適用される2つの一般的な部分選択スキームに注目した。 主共変量回帰 (principal covariates regression, pcovr) 法と同じスピリットに従う教師付きコンポーネントを組み込んで, 教師なしのアプローチを修正した。 対象情報を組み込むことで,教師付きタスクにおいて優れた性能を発揮する選択が可能になることを示し,リッジ回帰,カーネルリッジ回帰,スパースカーネル回帰で示す。 また、単純な教師付き学習モデルの側面を取り入れることで、フィードフォワードニューラルネットワークのような複雑なモデルの精度が向上することを示した。 我々は,教師なしタスクの実行時に生じる任意のサブ選択の影響を最小限に抑えるための調整を行う。 本研究では, 化学・材料科学への応用におけるpcov-curとpcov-fpsの選択に関する重要な改善を実証する。

Selecting the most relevant features and samples out of a large set of candidates is a task that occurs very often in the context of automated data analysis, where it can be used to improve the computational performance, and also often the transferability, of a model. Here we focus on two popular sub-selection schemes which have been applied to this end: CUR decomposition, that is based on a low-rank approximation of the feature matrix and Farthest Point Sampling, that relies on the iterative identification of the most diverse samples and discriminating features. We modify these unsupervised approaches, incorporating a supervised component following the same spirit as the Principal Covariates Regression (PCovR) method. We show that incorporating target information provides selections that perform better in supervised tasks, which we demonstrate with ridge regression, kernel ridge regression, and sparse kernel regression. We also show that incorporating aspects of simple supervised learning models can improve the accuracy of more complex models, such as feed-forward neural networks. We present adjustments to minimize the impact that any subselection may incur when performing unsupervised tasks. We demonstrate the significant improvements associated with the use of PCov-CUR and PCov-FPS selections for applications to chemistry and materials science, typically reducing by a factor of two the number of features and samples which are required to achieve a given level of regression accuracy.
翻訳日:2021-04-26 07:18:36 公開日:2020-12-22
# アポトーシス評価における細胞追跡精度測定に適合する非周期配向グラフの限界

Limitation of Acyclic Oriented Graphs Matching as Cell Tracking Accuracy Measure when Evaluating Mitosis ( http://arxiv.org/abs/2012.12084v1 )

ライセンス: Link先を確認
Ye Chen and Yuankai Huo(参考訳) コンピュータビジョンにおけるマルチオブジェクト追跡(MOT)とバイオメディカル画像解析におけるセル追跡(英語版)は、2つの類似した研究分野であり、その共通の目的は、インスタンスレベルのオブジェクト検出/セグメンテーションを達成し、それらのオブジェクトを異なるビデオフレーム間で関連付けることである。 しかし、これらの2つのタスクの大きな違いの1つは、細胞追跡が一般的にMOTタスクでは考慮されていないミトーシス(細胞分裂)の検出も目的としていることである。 したがって、多目的追跡精度(MOTA)、IDスイッチ(IDS)、ID F1スコア(IDF1)などのコンピュータビジョンにおける評価指標を直接使用するのではなく、非巡回指向グラフマッチング(AOGM)が、セルトラッキングの事実上の標準評価指標として使用されている。 しかし, 実験の結果, AOGMは常に有意な機能を示しなかった。 本稿では,シミュレーションおよび実細胞追跡データを用いて,AOGMを用いたミトーシス評価の限界を示す。

Multi-object tracking (MOT) in computer vision and cell tracking in biomedical image analysis are two similar research fields, whose common aim is to achieve instance level object detection/segmentati on and associate such objects across different video frames. However, one major difference between these two tasks is that cell tracking also aim to detect mitosis (cell division), which is typically not considered in MOT tasks. Therefore, the acyclic oriented graphs matching (AOGM) has been used as de facto standard evaluation metrics for cell tracking, rather than directly using the evaluation metrics in computer vision, such as multiple object tracking accuracy (MOTA), ID Switches (IDS), ID F1 Score (IDF1) etc. However, based on our experiments, we realized that AOGM did not always function as expected for mitosis events. In this paper, we exhibit the limitations of evaluating mitosis with AOGM using both simulated and real cell tracking data.
翻訳日:2021-04-26 07:16:53 公開日:2020-12-22
# 定量的t2自由度測定と深層学習による膝軟骨劣化の自動評価のためのオープンソースソフトウェア

Open source software for automatic subregional assessment of knee cartilage degradation using quantitative T2 relaxometry and deep learning ( http://arxiv.org/abs/2012.12406v1 )

ライセンス: Link先を確認
Kevin A. Thomas (1), Dominik Krzemi\'nski (2), {\L}ukasz Kidzi\'nski (3), Rohan Paul (1), Elka B. Rubin (4), Eni Halilaj (5), Marianne S. Black (4) Akshay Chaudhari (1,4), Garry E. Gold (3,4,6), Scott L. Delp (3,6,7) ((1) Department of Biomedical Data Science, Stanford University, California, USA (2) Cardiff University Brain Research Imaging Centre, Cardiff University, United Kingdom (3) Department of Biomedical Engineering, Stanford University, California, USA (4) Department of Radiology, Stanford University, California, USA (5) Department of Mechanical Engineering, Carnegie Mellon University, Pennsylvania, USA (6) Department of Orthopaedic Surgery, Stanford University, California, USA (7) Department of Mechanical Engineering, Stanford University, California, USA)(参考訳) 目的: マルチエコースピンエコー(mese)mriによるt2リラクゼーション値および経時的変化を測定するために, 全自動大腿骨軟骨分割モデルを評価する。 我々はこのモデルと対応するセグメンテーションをオープンソース化した。 方法: MESE MRIから大腿骨軟骨を分離するニューラルネットワークを訓練した。 軟骨は中側,表層深度,前後境界に沿って12の亜領域に分けられた。 筋骨格ラジオロジストのセグメンテーション(Reader 1)とモデルセグメンテーションを用いて, 局所T2値と4年間の変化を算出した。 28枚の画像で比較した。 また、比較のために第2の専門家(Reader 2)によって14枚の画像のサブセットも評価された。 結果: モデルのセグメンテーションは読者1のセグメンテーションと一致し, サイススコアは 0.85 +/- 0.03 であった。 モデルによる各サブリージョンのt2値は、平均スピアマン相関が 0.89、平均平均絶対誤差 (mae) が 1.34ms のリーダー1と一致した。 モデルによる各領域でのt2の4年間の変化は、平均相関が0.80、平均 mae が1.72msでリーダー1と一致した。 モデルは reader 1 と少なくとも reader 2 と同様に、dice score (0.85 vs 0.75) と subregional t2 の点で reader 1 と一致する。 結論: MESE MRI のセグメント化のための高速かつ完全自動モデルを提案する。 分節を用いた軟骨の健康評価は、専門家が互いに同意する限り、専門家のそれと密接に一致する。 これは変形性関節症の研究を加速する可能性がある。

Objective: We evaluate a fully-automated femoral cartilage segmentation model for measuring T2 relaxation values and longitudinal changes using multi-echo spin echo (MESE) MRI. We have open sourced this model and corresponding segmentations. Methods: We trained a neural network to segment femoral cartilage from MESE MRIs. Cartilage was divided into 12 subregions along medial-lateral, superficial-deep, and anterior-central-pos terior boundaries. Subregional T2 values and four-year changes were calculated using a musculoskeletal radiologist's segmentations (Reader 1) and the model's segmentations. These were compared using 28 held out images. A subset of 14 images were also evaluated by a second expert (Reader 2) for comparison. Results: Model segmentations agreed with Reader 1 segmentations with a Dice score of 0.85 +/- 0.03. The model's estimated T2 values for individual subregions agreed with those of Reader 1 with an average Spearman correlation of 0.89 and average mean absolute error (MAE) of 1.34 ms. The model's estimated four-year change in T2 for individual regions agreed with Reader 1 with an average correlation of 0.80 and average MAE of 1.72 ms. The model agreed with Reader 1 at least as closely as Reader 2 agreed with Reader 1 in terms of Dice score (0.85 vs 0.75) and subregional T2 values. Conclusions: We present a fast, fully-automated model for segmentation of MESE MRIs. Assessments of cartilage health using its segmentations agree with those of an expert as closely as experts agree with one another. This has the potential to accelerate osteoarthritis research.
翻訳日:2021-04-26 07:16:32 公開日:2020-12-22
# タンパク質構造の深層多属性グラフ表現学習

Deep Multi-attribute Graph Representation Learning on Protein Structures ( http://arxiv.org/abs/2012.11762v1 )

ライセンス: Link先を確認
Tian Xia, Wei-Shinn Ku(参考訳) 近年,データ構造としてのグラフが注目されている。 幾何学グラフの表現学習は、分子ネットワーク、社会ネットワーク、金融ネットワークを含む多くの分野で大きな成功を収めた。 ノードが残基を表すグラフとしてタンパク質を提示することは自然であり、エッジは残基間の対の相互作用を表す。 しかし、3dタンパク質構造が直接グラフとして研究されることはほとんどない。 1)タンパク質は数千の原子からなる複雑なマクロ分子であり、マイクロ分子よりもモデル化が困難である。 2) タンパク質構造モデリングのための長距離対関係の把握は未検討のままである。 3)タンパク質の異なる特性を一緒に学ぶことに焦点を当てた研究はほとんどない。 以上の課題に対処するため,タンパク質を3次元グラフとして表現し,距離幾何学グラフ表現と2面幾何学グラフ表現を同時に予測する新しいグラフニューラルネットワークアーキテクチャを提案する。 このネットワークはシーケンスから構造への新しいパスを開くので、これは大きな利点となる。 提案手法の有効性を実証し, 4つの異なるデータセットについて広範な実験を行った。

Graphs as a type of data structure have recently attracted significant attention. Representation learning of geometric graphs has achieved great success in many fields including molecular, social, and financial networks. It is natural to present proteins as graphs in which nodes represent the residues and edges represent the pairwise interactions between residues. However, 3D protein structures have rarely been studied as graphs directly. The challenges include: 1) Proteins are complex macromolecules composed of thousands of atoms making them much harder to model than micro-molecules. 2) Capturing the long-range pairwise relations for protein structure modeling remains under-explored. 3) Few studies have focused on learning the different attributes of proteins together. To address the above challenges, we propose a new graph neural network architecture to represent the proteins as 3D graphs and predict both distance geometric graph representation and dihedral geometric graph representation together. This gives a significant advantage because this network opens a new path from the sequence to structure. We conducted extensive experiments on four different datasets and demonstrated the effectiveness of the proposed method.
翻訳日:2021-04-26 07:16:04 公開日:2020-12-22
# 制約付きサンプリングと非凸学習のための確率的勾配ランジュバンアルゴリズム

Projected Stochastic Gradient Langevin Algorithms for Constrained Sampling and Non-Convex Learning ( http://arxiv.org/abs/2012.12137v1 )

ライセンス: Link先を確認
Andrew Lamperski(参考訳) ランゲヴィンアルゴリズムは付加雑音を伴う勾配降下法である。 マルコフ連鎖モンテカルロ(MCMC)のサンプリング、最適化、学習に何十年も使われてきた。 制約のない非凸最適化と学習問題に対する収束特性は近年広く研究されている。 他の研究では、凸コンパクト集合に制限された対数凹分布からサンプリングするランゲヴィンアルゴリズムを検証している。 学習と最適化のために、対流分布は凸損失に対応する。 本稿では,コンパクトな凸制約セットとIID外部データ変数を用いた非凸損失事例の解析を行う。 提案手法は確率勾配ランゲヴィンアルゴリズム (PSGLA) である。 このアルゴリズムは1-wasserstein距離の目標分布から$o(t^{-1/4}(\log t)^{1/2})の偏差が得られることを示す。 最適化と学習のために、アルゴリズムが平均して$\epsilon$-suboptima lな解を達成することを示し、$\epsilon^{-1}$の多項式であり、問題の次元においてわずかに超指数的であることを仮定する。

Langevin algorithms are gradient descent methods with additive noise. They have been used for decades in Markov chain Monte Carlo (MCMC) sampling, optimization, and learning. Their convergence properties for unconstrained non-convex optimization and learning problems have been studied widely in the last few years. Other work has examined projected Langevin algorithms for sampling from log-concave distributions restricted to convex compact sets. For learning and optimization, log-concave distributions correspond to convex losses. In this paper, we analyze the case of non-convex losses with compact convex constraint sets and IID external data variables. We term the resulting method the projected stochastic gradient Langevin algorithm (PSGLA). We show the algorithm achieves a deviation of $O(T^{-1/4}(\log T)^{1/2})$ from its target distribution in 1-Wasserstein distance. For optimization and learning, we show that the algorithm achieves $\epsilon$-suboptima l solutions, on average, provided that it is run for a time that is polynomial in $\epsilon^{-1}$ and slightly super-exponential in the problem dimension.
翻訳日:2021-04-26 07:15:31 公開日:2020-12-22
# プライバシ保証によるプロジェクションフリー帯域最適化

Projection-Free Bandit Optimization with Privacy Guarantees ( http://arxiv.org/abs/2012.12138v1 )

ライセンス: Link先を確認
Alina Ene, Huy L. Nguyen, Adrian Vladu(参考訳) プロジェクションフリー設定における帯域凸最適化問題に対して差分プライベートアルゴリズムを設計する。 この設定は、決定集合が複素幾何学を持つときに重要であり、それへのアクセスは線型最適化オラクルを通してのみ効率的に行われるので、ユークリッド射影は利用できない(例)。 マトロイドポリトープ (matroid polytope, submodular base polytope)。 これはプロジェクションフリーなバンディット最適化のための最初の微分プライベートアルゴリズムであり、実際は$\widetilde{O}(T^{3/4})$のバウンダリは、最もよく知られた非プライベートなプロジェクションフリーアルゴリズム(Garber-Kretzu, AISTATS `20)と、プロジェクションが利用可能であるときの弱い設定(Smith-Thakurta, NeurIPS `13)と一致する。

We design differentially private algorithms for the bandit convex optimization problem in the projection-free setting. This setting is important whenever the decision set has a complex geometry, and access to it is done efficiently only through a linear optimization oracle, hence Euclidean projections are unavailable (e.g. matroid polytope, submodular base polytope). This is the first differentially-priva te algorithm for projection-free bandit optimization, and in fact our bound of $\widetilde{O}(T^{3/4})$ matches the best known non-private projection-free algorithm (Garber-Kretzu, AISTATS `20) and the best known private algorithm, even for the weaker setting when projections are available (Smith-Thakurta, NeurIPS `13).
翻訳日:2021-04-26 07:15:16 公開日:2020-12-22
# 再生可能発電能力向上のための電気自動車車両の自律充電

Autonomous Charging of Electric Vehicle Fleets to Enhance Renewable Generation Dispatchability ( http://arxiv.org/abs/2012.12257v1 )

ライセンス: Link先を確認
Reza Bayani, Saeed D. Manshadi, Guangyi Liu, Yawei Wang, Renchang Dai(参考訳) カリフォルニア州の発電能力の合計19%は太陽光発電で供給されており、数ヶ月でこのエネルギーの10%以上が削減されている。 本研究では、電気自動車の充電調整による再生可能エネルギー削減とシステムの柔軟性向上のための新しいアプローチを示す。 提案した問題は逐次意思決定プロセスであり,他の強化学習法と異なり,学習回数の少ないQ-イテレーションアルゴリズムによって解決される。 提案手法の有効性を検証するために3つの事例研究を行った。 これらのケースには、アグリゲータ負荷追従、ランプサービス、非決定論的PV生成の利用が含まれる。 結果は、この枠組みを通じて、電気自動車は、旅行時間や太陽光発電が事前に不明な確率的なシナリオで充電スケジュールを調整する方法を学ぶことに成功したことを示唆している。

A total 19% of generation capacity in California is offered by PV units and over some months, more than 10% of this energy is curtailed. In this research, a novel approach to reduce renewable generation curtailments and increasing system flexibility by means of electric vehicles' charging coordination is represented. The presented problem is a sequential decision making process, and is solved by fitted Q-iteration algorithm which unlike other reinforcement learning methods, needs fewer episodes of learning. Three case studies are presented to validate the effectiveness of the proposed approach. These cases include aggregator load following, ramp service and utilization of non-deterministic PV generation. The results suggest that through this framework, EVs successfully learn how to adjust their charging schedule in stochastic scenarios where their trip times, as well as solar power generation are unknown beforehand.
翻訳日:2021-04-26 07:14:53 公開日:2020-12-22
# 群集環境におけるグループ対応ロボットナビゲーション

Group-Aware Robot Navigation in Crowded Environments ( http://arxiv.org/abs/2012.12291v1 )

ライセンス: Link先を確認
Kapil Katyal, Yuxiang Gao, Jared Markowitz, I-Jeng Wang, Chien-Ming Huang(参考訳) 人間を意識したロボットナビゲーションは、モバイルロボットが共通の人間環境の人々に多目的支援をもたらす様々なアプリケーションを実現する。 これまでの研究では、歩行者を独立した、意図的な個人としてモデル化することを中心に研究されてきたが、人々は集団で移動する。 本稿では,深層強化学習を用いた動的グループ形成に基づく学習グループ対応ナビゲーションポリシーについて検討する。 シミュレーション実験により,人間集団を無視する基本方針と比較して,ロボットナビゲーション性能の向上(衝突の低減など),社会規範の違反や不快感の最小化,歩行者に対するロボットの動きへの影響の低減などが示された。 本研究は,ソーシャルナビゲーションの開発と,移動ロボットの人間環境への統合に寄与する。

Human-aware robot navigation promises a range of applications in which mobile robots bring versatile assistance to people in common human environments. While prior research has mostly focused on modeling pedestrians as independent, intentional individuals, people move in groups; consequently, it is imperative for mobile robots to respect human groups when navigating around people. This paper explores learning group-aware navigation policies based on dynamic group formation using deep reinforcement learning. Through simulation experiments, we show that group-aware policies, compared to baseline policies that neglect human groups, achieve greater robot navigation performance (e.g., fewer collisions), minimize violation of social norms and discomfort, and reduce the robot's movement impact on pedestrians. Our results contribute to the development of social navigation and the integration of mobile robots into human environments.
翻訳日:2021-04-26 07:14:40 公開日:2020-12-22
# 脳はマクロ的に線形か? 静止状態ダイナミクスのシステム同定

Is the brain macroscopically linear? A system identification of resting state dynamics ( http://arxiv.org/abs/2012.12351v1 )

ライセンス: Link先を確認
Erfan Nozari, Jennifer Stiso, Lorenzo Caciagli, Eli J. Cornblath, Xiaosong He, Maxwell A. Bertolero, Arun S. Mahadevan, George J. Pappas, and Danielle S. Bassett(参考訳) ニューラルダイナミクスの計算モデリングにおける中心的な課題は、精度と単純さのトレードオフである。 個々のニューロンのレベルでは、非線形ダイナミクスは実験的に確立され、ニューロンの機能に必須である。 これにより、全脳力学の正確な計算モデルも非常に非線形でなければならないという暗黙の仮定が成立し、線形モデルは一階近似を与えるかもしれない。 本稿では,システム同定理論を活用し,脳内血液酸素レベル依存性(bold)とマクロ場電位ダイナミクスのレベルにおいて,この仮説を厳密かつデータ駆動的に検討する。 機能的MRI(fMRI)と頭蓋内脳波(iEEG)を用いて,HCP(Human Connectome Project)では700名,RAM(Restoring Active Memory)では122名の被験者を,最先端の線形モデルと非線形モデルファミリを用いてモデル化した。 予測力,計算複雑性,モデルに説明のつかない残差ダイナミクスの程度を用いて,相対モデル適合性を評価する。 予想とは対照的に、線形自動回帰モデルは3つの指標すべてで最高の測定を達成し、正確性と単純さのトレードオフを排除します。 この線形性を理解し, 説明するために, 空間平均化, 時間平均化, 観測ノイズ, 限られたデータサンプルという, 微視的非線形力学の反作用やマスキングが可能な, マクロ神経力学の4つの性質を強調する。 後者の2つは技術的制限であり、将来改善できるが、前2つはマクロな脳活動の集約に固有のものである。 本研究は, 線形モデルの非平行解釈性とともに, 視神経力学の理解を大いに促進し, 神経精神疾患治療のためのモデルに基づく介入の原則設計を行う。

A central challenge in the computational modeling of neural dynamics is the trade-off between accuracy and simplicity. At the level of individual neurons, nonlinear dynamics are both experimentally established and essential for neuronal functioning. An implicit assumption has thus formed that an accurate computational model of whole-brain dynamics must also be highly nonlinear, whereas linear models may provide a first-order approximation. Here, we provide a rigorous and data-driven investigation of this hypothesis at the level of whole-brain blood-oxygen-level-d ependent (BOLD) and macroscopic field potential dynamics by leveraging the theory of system identification. Using functional MRI (fMRI) and intracranial EEG (iEEG), we model the resting state activity of 700 subjects in the Human Connectome Project (HCP) and 122 subjects from the Restoring Active Memory (RAM) project using state-of-the-art linear and nonlinear model families. We assess relative model fit using predictive power, computational complexity, and the extent of residual dynamics unexplained by the model. Contrary to our expectations, linear auto-regressive models achieve the best measures across all three metrics, eliminating the trade-off between accuracy and simplicity. To understand and explain this linearity, we highlight four properties of macroscopic neurodynamics which can counteract or mask microscopic nonlinear dynamics: averaging over space, averaging over time, observation noise, and limited data samples. Whereas the latter two are technological limitations and can improve in the future, the former two are inherent to aggregated macroscopic brain activity. Our results, together with the unparalleled interpretability of linear models, can greatly facilitate our understanding of macroscopic neural dynamics and the principled design of model-based interventions for the treatment of neuropsychiatric disorders.
翻訳日:2021-04-26 07:13:25 公開日:2020-12-22
# 境界値問題に制約されたガウス過程回帰

Gaussian Process Regression constrained by Boundary Value Problems ( http://arxiv.org/abs/2012.11857v1 )

ライセンス: Link先を確認
Mamikon Gulian, Ari Frankel, Laura Swiler(参考訳) 我々は境界値問題に制約されたガウス過程回帰のためのフレームワークを開発した。 この枠組みは、既知の二階微分作用素と境界条件を持つ境界値問題の解を推定するために適用することができるが、ソース項の散乱観測のみが可能である。 溶液の散乱観察は回帰にも用いられる。 この枠組みは、ガウス過程の線形変換と、境界値問題の固有関数におけるスペクトル展開によって与えられるカーネルの使用を組み合わせたものである。 したがって、共分散行列の低ランク性から恩恵を受ける。 その結果, 境界条件制約を伴わない物理インフォームドガウス過程の回帰よりも, より正確かつ安定な解推定法が得られた。

We develop a framework for Gaussian processes regression constrained by boundary value problems. The framework may be applied to infer the solution of a well-posed boundary value problem with a known second-order differential operator and boundary conditions, but for which only scattered observations of the source term are available. Scattered observations of the solution may also be used in the regression. The framework combines co-kriging with the linear transformation of a Gaussian process together with the use of kernels given by spectral expansions in eigenfunctions of the boundary value problem. Thus, it benefits from a reduced-rank property of covariance matrices. We demonstrate that the resulting framework yields more accurate and stable solution inference as compared to physics-informed Gaussian process regression without boundary condition constraints.
翻訳日:2021-04-26 07:12:51 公開日:2020-12-22