このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200601となっている論文です。

PDF登録状況(公開日: 20200601)

TitleAuthorsAbstract論文公表日・翻訳日
# 3Dメッシュ再構築のためのMeshlet Presor

Meshlet Priors for 3D Mesh Reconstruction ( http://arxiv.org/abs/2001.01744v2 )

ライセンス: Link先を確認
Abhishek Badki, Orazio Gallo, Jan Kautz, and Pradeep Sen(参考訳) 未順序でノイズの多い3Dポイントの集合からメッシュを推定することは、慎重に選択された事前処理を必要とする難しい問題である。 滑らかさ調整器のような既存の手作りの先行装置は、ノイズの減衰と局所的な詳細保持の間の望ましくないトレードオフを課している。 最近のディープラーニングアプローチは、データから直接事前学習することで、印象的な結果をもたらす。 しかし、事前はオブジェクトレベルで学習されるため、これらのアルゴリズムはクラス固有であり、オブジェクトのポーズにも敏感である。 ローカルな形状を学習するために使用するメッシュの小さなパッチであるメッシュレットを導入しています。 メッシュレットはローカル機能の辞書として機能するため、ノイズが大きく、サンプルがスパースである場合でも、任意のポーズや見えないクラスからオブジェクトメッシュを再構築するために学習済みの事前を使用することができる。

Estimating a mesh from an unordered set of sparse, noisy 3D points is a challenging problem that requires carefully selected priors. Existing hand-crafted priors, such as smoothness regularizers, impose an undesirable trade-off between attenuating noise and preserving local detail. Recent deep-learning approaches produce impressive results by learning priors directly from the data. However, the priors are learned at the object level, which makes these algorithms class-specific and even sensitive to the pose of the object. We introduce meshlets, small patches of mesh that we use to learn local shape priors. Meshlets act as a dictionary of local features and thus allow to use learned priors to reconstruct object meshes in any pose and from unseen classes, even when the noise is large and the samples sparse.
翻訳日:2023-01-14 02:36:18 公開日:2020-06-01
# Elephant in the Room: NLPの逆例を評価するための評価フレームワーク

Elephant in the Room: An Evaluation Framework for Assessing Adversarial Examples in NLP ( http://arxiv.org/abs/2001.07820v3 )

ライセンス: Link先を確認
Ying Xu, Xu Zhong, Antonio Jose Jimeno Yepes, Jey Han Lau(参考訳) 逆向きの例は、機械学習モデルが一貫して誤分類する小さな摂動によって変換された入力である。 テキストデータの逆例を生成する方法はいくつか提案されているが、これらの逆例の品質を評価することは容易ではない。 そこで本研究では, 自動評価指標と人格評価ガイドラインからなる評価枠組みを提案し, 上記の性質に基づき, 敵例の品質を厳格に評価する。 6つのベンチマーク攻撃法を実験した結果,可読性やコンテンツ保存性に乏しい敵例を生成する方法がいくつか見いだされた。 また,テキスト入力の長さや分類器のアーキテクチャなど,攻撃性能に影響を与える要因が複数あることも確認した。

An adversarial example is an input transformed by small perturbations that machine learning models consistently misclassify. While there are a number of methods proposed to generate adversarial examples for text data, it is not trivial to assess the quality of these adversarial examples, as minor perturbations (such as changing a word in a sentence) can lead to a significant shift in their meaning, readability and classification label. In this paper, we propose an evaluation framework consisting of a set of automatic evaluation metrics and human evaluation guidelines, to rigorously assess the quality of adversarial examples based on the aforementioned properties. We experiment with six benchmark attacking methods and found that some methods generate adversarial examples with poor readability and content preservation. We also learned that multiple factors could influence the attacking performance, such as the length of the text inputs and architecture of the classifiers.
翻訳日:2023-01-07 17:54:25 公開日:2020-06-01
# 時系列解析のための可変グレンジャー因果関係と伝達エントロピー

Variable-lag Granger Causality and Transfer Entropy for Time Series Analysis ( http://arxiv.org/abs/2002.00208v3 )

ライセンス: Link先を確認
Chainarong Amornbunchornvej, Elena Zheleva, and Tanya Berger-Wolf(参考訳) グランガー因果関係(Granger causality)は、時系列データにおける因果推論の基本的な技法であり、社会科学や生物科学で一般的に用いられる。 グランガー因果関係の典型的な運用化は、エフェクト時系列のすべての時点が、他の時系列と固定時間遅延の組み合わせに影響されることを強く仮定する。 固定時間遅延の仮定は転送エントロピーにも存在し、これはグランジャー因果関係の非線形バージョンと考えられている。 しかし、固定時間遅延の仮定は、集団行動、金融市場、多くの自然現象など、多くの応用において成立しない。 この問題に対処するため,一定時間遅延の仮定を緩和し,任意の時間遅延による影響を生じさせるような,可変ラグの因果関係と可変ラグの移動エントロピー,およびグランガーの因果関係と移動エントロピーの一般化を開発した。 さらに,パラメータラグの因果関係と転送エントロピーの関係を推定する手法を提案する。 提案手法では,動的時間ワープ(DTW)の最適整合経路を用いて変動ラグ因果関係を推定する。 我々は,協調した集合行動やその他の実世界のカジュアル推論データセットを研究するアプリケーションに対するアプローチを実証し,提案手法がシミュレーションと実世界の両方のデータセットにおいて,既存の手法よりも優れていることを示す。 我々の手法は時系列解析のあらゆる領域に適用できる。 この作業のソフトウェアは、R-CRANパッケージ、VLTimeCausalityで利用可能である。

Granger causality is a fundamental technique for causal inference in time series data, commonly used in the social and biological sciences. Typical operationalizations of Granger causality make a strong assumption that every time point of the effect time series is influenced by a combination of other time series with a fixed time delay. The assumption of fixed time delay also exists in Transfer Entropy, which is considered to be a non-linear version of Granger causality. However, the assumption of the fixed time delay does not hold in many applications, such as collective behavior, financial markets, and many natural phenomena. To address this issue, we develop Variable-lag Granger causality and Variable-lag Transfer Entropy, generalizations of both Granger causality and Transfer Entropy that relax the assumption of the fixed time delay and allow causes to influence effects with arbitrary time delays. In addition, we propose methods for inferring both variable-lag Granger causality and Transfer Entropy relations. In our approaches, we utilize an optimal warping path of Dynamic Time Warping (DTW) to infer variable-lag causal relations. We demonstrate our approaches on an application for studying coordinated collective behavior and other real-world casual-inference datasets and show that our proposed approaches perform better than several existing methods in both simulated and real-world datasets. Our approaches can be applied in any domain of time series analysis. The software of this work is available in the R-CRAN package: VLTimeCausality.
翻訳日:2023-01-05 00:56:22 公開日:2020-06-01
# HybridCite: コンテキスト対応のCitation Recommendationのためのハイブリッドモデル

HybridCite: A Hybrid Model for Context-Aware Citation Recommendation ( http://arxiv.org/abs/2002.06406v2 )

ライセンス: Link先を確認
Michael F\"arber, Ashwath Sampath(参考訳) 引用レコメンデーションシステムは、完全な論文または引用コンテクストと呼ばれる小さなテキストに対して引用を推奨することを目的としている。 引用文脈に対する引用を推薦するプロセスは局所引用推薦と呼ばれ,本稿の焦点となっている。 まず,埋め込み,トピックモデリング,情報検索技術に基づく引用推薦手法を開発した。 私たちは初めて、私たちの知識を最大限に活用するために、最高のアルゴリズムを半ジェネティックなハイブリッドレコメンデーションシステムに統合します。 我々は,Microsoft Academic Graph (MAG) と MAG と arXiv と ACL を併用したいくつかのデータセットに基づいて,単一アプローチとハイブリッドアプローチをオフラインで評価する。 オンラインのアプローチを評価するためのユーザスタディも実施する。 評価の結果,組込みと情報検索に基づくコンポーネントを含むハイブリッドモデルが,個々のコンポーネントやアルゴリズムを大差で上回っていることがわかった。

Citation recommendation systems aim to recommend citations for either a complete paper or a small portion of text called a citation context. The process of recommending citations for citation contexts is called local citation recommendation and is the focus of this paper. Firstly, we develop citation recommendation approaches based on embeddings, topic modeling, and information retrieval techniques. We combine, for the first time to the best of our knowledge, the best-performing algorithms into a semi-genetic hybrid recommender system for citation recommendation. We evaluate the single approaches and the hybrid approach offline based on several data sets, such as the Microsoft Academic Graph (MAG) and the MAG in combination with arXiv and ACL. We further conduct a user study for evaluating our approaches online. Our evaluation results show that a hybrid model containing embedding and information retrieval-based components outperforms its individual components and further algorithms by a large margin.
翻訳日:2022-12-31 23:22:55 公開日:2020-06-01
# SBERT-WK: BERTに基づく単語モデル分割による文埋め込み手法

SBERT-WK: A Sentence Embedding Method by Dissecting BERT-based Word Models ( http://arxiv.org/abs/2002.06652v2 )

ライセンス: Link先を確認
Bin Wang, C.-C. Jay Kuo(参考訳) 文の埋め込みは、下流のタスクに知識を伝達できるため、自然言語処理(NLP)において重要な研究トピックである。 一方、BERTと呼ばれる文脈化された単語表現は、非常に少数のNLPタスクで最先端のパフォーマンスを達成する。 しかし、BERTベースの単語モデルから高品質な文表現を生成することは、オープンな問題である。 以前の研究では、BERTの異なる層が異なる言語特性を捉えていることが示されている。 これにより、レイヤ間で情報を融合して、より良い文表現を見つけることができます。 本研究では,深層文脈モデルの単語表現の階層的パターンについて検討する。 そこで本研究では,単語表現の空間の幾何学的解析により,bertに基づく単語モデルを解析し,新しい文埋め込み手法を提案する。 SBERT-WK法と呼ばれる。 SBERT-WKではそれ以上の訓練は必要ない。 我々は,SBERT-WKを意味的テキスト類似性と下流教師付きタスクに基づいて評価した。 さらに,詳細な言語分析を行うために,10の文レベル探索タスクを提示する。 実験により、SBERT-WKは最先端の性能を達成することが示された。 私たちのコードは公開されています。

Sentence embedding is an important research topic in natural language processing (NLP) since it can transfer knowledge to downstream tasks. Meanwhile, a contextualized word representation, called BERT, achieves the state-of-the-art performance in quite a few NLP tasks. Yet, it is an open problem to generate a high quality sentence representation from BERT-based word models. It was shown in previous study that different layers of BERT capture different linguistic properties. This allows us to fusion information across layers to find better sentence representation. In this work, we study the layer-wise pattern of the word representation of deep contextualized models. Then, we propose a new sentence embedding method by dissecting BERT-based word models through geometric analysis of the space spanned by the word representation. It is called the SBERT-WK method. No further training is required in SBERT-WK. We evaluate SBERT-WK on semantic textual similarity and downstream supervised tasks. Furthermore, ten sentence-level probing tasks are presented for detailed linguistic analysis. Experiments show that SBERT-WK achieves the state-of-the-art performance. Our codes are publicly available.
翻訳日:2022-12-31 17:49:59 公開日:2020-06-01
# 60ghz 802.11波形による顔認証

Face Verification Using 60~GHz 802.11 waveforms ( http://arxiv.org/abs/2002.11965v2 )

ライセンス: Link先を確認
Eran Hof, Amichai Sanderovich, Evyatar Hemo(参考訳) mmwaveにおける人間の顔レーダの署名に基づくアイデンティティの検証を行った。 レーダーモードで動作するケーブルである802.11ad/yネットワーク用チップセットを使用する。 テストには200人の顔のデータセットが収集された。 予備研究は,手前の設定にオートエンコーダを応用するための有望な結果を示す。

Verification of an identity based on the human face radar signature in mmwave is studied. The chipset for 802.11ad/y networking that is cable of operating in a radar mode is used. A dataset with faces of 200 different persons was collected for the testing. Our preliminary study shows promising results for the application of autoencoder for the setup at hand.
翻訳日:2022-12-28 09:17:28 公開日:2020-06-01
# 低遅延音声データを用いた表現学習と高忠実度音声生成のための誘導逆ニューラルネットワーク

Guided Generative Adversarial Neural Network for Representation Learning and High Fidelity Audio Generation using Fewer Labelled Audio Data ( http://arxiv.org/abs/2003.02836v2 )

ライセンス: Link先を確認
Kazi Nazmul Haque, Rajib Rana, John H. L. Hansen, Bj\"orn Schuller(参考訳) GAN(Generative Adversarial Neural Networks)の最近の改良は、高品質なサンプルを生成するだけでなく、転送学習のための優れた表現を学ぶ能力を示している。 ganに基づく表現学習手法のほとんどは、使用後のシナリオを無視して表現を学習し、一般化能力の向上につながる可能性がある。 しかし、特定のタスクを意図していれば、モデルは冗長になる可能性がある。 例えば、大きな未ラベルのオーディオデータセットがあると仮定し、このデータセットから表現を学び、小さなラベル付きオーディオデータセットの感情認識性能を向上させるために使用したいと思っています。 表現学習訓練中、モデルがポスト感情認識タスクを知らない場合、学習表現における感情関連特性を完全に無視することができる。 これは教師なし表現学習モデルにとって基本的な課題である。 本稿では,新たなGANフレームワークであるガイド生成ニューラルネットワーク(GGAN)を提案することにより,この課題に対処することを目的とする。 実験結果から,ごく少量のラベル付きデータをガイダンスとして用いることで,GANはより優れた表現を学習することがわかった。

Recent improvements in Generative Adversarial Neural Networks (GANs) have shown their ability to generate higher quality samples as well as to learn good representations for transfer learning. Most of the representation learning methods based on GANs learn representations ignoring their post-use scenario, which can lead to increased generalisation ability. However, the model can become redundant if it is intended for a specific task. For example, assume we have a vast unlabelled audio dataset, and we want to learn a representation from this dataset so that it can be used to improve the emotion recognition performance of a small labelled audio dataset. During the representation learning training, if the model does not know the post emotion recognition task, it can completely ignore emotion-related characteristics in the learnt representation. This is a fundamental challenge for any unsupervised representation learning model. In this paper, we aim to address this challenge by proposing a novel GAN framework: Guided Generative Neural Network (GGAN), which guides a GAN to focus on learning desired representations and generating superior quality samples for audio data leveraging fewer labelled samples. Experimental results show that using a very small amount of labelled data as guidance, a GGAN learns significantly better representations.
翻訳日:2022-12-26 06:50:15 公開日:2020-06-01
# 乳房硬化 : 画像診断におけるマルチモーダリティの活用について

BreastScreening: On the Use of Multi-Modality in Medical Imaging Diagnosis ( http://arxiv.org/abs/2004.03500v2 )

ライセンス: Link先を確認
Francisco Maria Calisto, Nuno Jardim Nunes, Jacinto Carlos Nascimento(参考訳) 本稿では,乳房スクリーニングのためのマルチモーダル医用画像ユーザインタフェースの研究開発,設計,および比較開発について述べる。 主な貢献は以下の3つです。 1)乳癌のマルチモーダル診断のための高度なビジュアルインタフェースの設計(BreastScreening) 2)31名の臨床医と566枚の画像を用いた乳癌診断における単変量検診と多変量検診の現場比較 3) 以下の画像における2種類の乳腺病変の可視化 (i)Craniocaudal(CC)とMediolateral oblique(MLO)の両方におけるMammoGraphy(MG) (ii)超音波(us)、及び (III)MRI(MRI) 我々は, 医用画像インタフェースの今後の設計を導くための放射線科医の勧告をまとめる。

This paper describes the field research, design and comparative deployment of a multimodal medical imaging user interface for breast screening. The main contributions described here are threefold: 1) The design of an advanced visual interface for multimodal diagnosis of breast cancer (BreastScreening); 2) Insights from the field comparison of single vs multimodality screening of breast cancer diagnosis with 31 clinicians and 566 images, and 3) The visualization of the two main types of breast lesions in the following image modalities: (i) MammoGraphy (MG) in both Craniocaudal (CC) and Mediolateral oblique (MLO) views; (ii) UltraSound (US); and (iii) Magnetic Resonance Imaging (MRI). We summarize our work with recommendations from the radiologists for guiding the future design of medical imaging interfaces.
翻訳日:2022-12-16 00:59:20 公開日:2020-06-01
# 経済予測のための誤り補正ニューラルネットワークについて

On Error Correction Neural Networks for Economic Forecasting ( http://arxiv.org/abs/2004.05277v2 )

ライセンス: Link先を確認
Mhlasakululeka Mvubu, Emmanuel Kabuga, Christian Plitz, Bubacarr Bah, Ronnie Becker, Hans Georg Zimmermann(参考訳) リカレントニューラルネットワーク(RNN)は、観測時系列データから動的システムの非線形依存を学習するのにより適している。 実際には、これらのシステムを駆動する全ての外部変数は、特に経済予測において、優先順位が分かっていない。 Error Correction Neural Networks (ECNN)と呼ばれるRNNのクラスは、入力変数の不足を補うために設計された。 これは、前のステップのエラーを現在のステップに戻すことで実現します。 ECNNは適切な勾配の計算によってPythonで実装され、株式市場の予測に基づいてテストされる。 予想通り、単純な RNN や LSTM などのハイブリッドモデルを実行し、前処理のノイズを減らした。 後者の直感では、ノイズの除去は情報の喪失につながる可能性がある。

Recurrent neural networks (RNNs) are more suitable for learning non-linear dependencies in dynamical systems from observed time series data. In practice all the external variables driving such systems are not known a priori, especially in economical forecasting. A class of RNNs called Error Correction Neural Networks (ECNNs) was designed to compensate for missing input variables. It does this by feeding back in the current step the error made in the previous step. The ECNN is implemented in Python by the computation of the appropriate gradients and it is tested on stock market predictions. As expected it out performed the simple RNN and LSTM and other hybrid models which involve a de-noising pre-processing step. The intuition for the latter is that de-noising may lead to loss of information.
翻訳日:2022-12-14 10:16:36 公開日:2020-06-01
# 4次元OCTデータを用いた動き予測のための深層学習手法

A Deep Learning Approach for Motion Forecasting Using 4D OCT Data ( http://arxiv.org/abs/2004.10121v2 )

ライセンス: Link先を確認
Marcel Bengs and Nils Gessert and Alexander Schlaefer(参考訳) 特定の対象物の運動を予測することは、対象領域の局在化、手術介入のガイダンス、運動補償など、外科的介入において一般的な問題である。 光コヒーレンストモグラフィー(OCT)は空間分解能と時間分解能の高い画像モダリティである。 近年,2つのボリューム画像に基づくOCTに基づく動き推定において,深層学習が有望な性能を示した。 このアプローチを拡張し、時系列のボリュームを使用することで動きの予測が可能かどうかを調べる。 エンドツーエンド動作予測と推定のための4次元時空間深層学習法を提案する。 組織データセットを用いた5種類の3次元および4次元深層学習法を設計・評価した。 提案手法は, 平均相関係数97.41%の動作予測を実現するとともに, 従来の3次元手法に比べて2.5倍の動作推定性能向上を実現する。

Forecasting motion of a specific target object is a common problem for surgical interventions, e.g. for localization of a target region, guidance for surgical interventions, or motion compensation. Optical coherence tomography (OCT) is an imaging modality with a high spatial and temporal resolution. Recently, deep learning methods have shown promising performance for OCT-based motion estimation based on two volumetric images. We extend this approach and investigate whether using a time series of volumes enables motion forecasting. We propose 4D spatio-temporal deep learning for end-to-end motion forecasting and estimation using a stream of OCT volumes. We design and evaluate five different 3D and 4D deep learning methods using a tissue data set. Our best performing 4D method achieves motion forecasting with an overall average correlation coefficient of 97.41%, while also improving motion estimation performance by a factor of 2.5 compared to a previous 3D approach.
翻訳日:2022-12-11 07:31:54 公開日:2020-06-01
# バッチ正規化推論ネットワークがKLを消滅させる

A Batch Normalized Inference Network Keeps the KL Vanishing Away ( http://arxiv.org/abs/2004.12585v2 )

ライセンス: Link先を確認
Qile Zhu, Jianlin Su, Wei Bi, Xiaojiang Liu, Xiyao Ma, Xiaolin Li and Dapeng Wu(参考訳) 変分オートエンコーダ(VAE)は、補正された変分推論とディープニューラルネットワークを組み合わせたモデルの後部潜伏変数を近似する生成モデルとして広く用いられている。 しかし、強い自己回帰デコーダと組み合わせると、VAEはしばしば「後崩壊」と呼ばれる局所的な最適値に収束する。 以前のアプローチでは、各データポイントに対してkullback leibler divergence (kl) 個人を考慮する。 我々は,データセット全体にわたる分布をklに追従させ,kl分布の期待を正に保ちながら後方崩壊を防止するのに十分であることを解析する。 次に,近似後続パラメータの分布を定式化することにより期待値の下限を設定するための単純かつ効果的な手法であるバッチ正規化vae(bn-vae)を提案する。 新しいモデルコンポーネントを導入したり、目的を変更することなく、我々のアプローチは、後方崩壊を効果的かつ効率的に回避することができる。 さらに,提案したBN-VAEを条件付きVAE(CVAE)に拡張可能であることを示す。 経験的に、我々のアプローチは言語モデリング、テキスト分類、対話生成における強い自己回帰ベースラインを超え、より複雑なアプローチと競合し、VAEとほぼ同じトレーニング時間を維持する。

Variational Autoencoder (VAE) is widely used as a generative model to approximate a model's posterior on latent variables by combining the amortized variational inference and deep neural networks. However, when paired with strong autoregressive decoders, VAE often converges to a degenerated local optimum known as "posterior collapse". Previous approaches consider the Kullback Leibler divergence (KL) individual for each datapoint. We propose to let the KL follow a distribution across the whole dataset, and analyze that it is sufficient to prevent posterior collapse by keeping the expectation of the KL's distribution positive. Then we propose Batch Normalized-VAE (BN-VAE), a simple but effective approach to set a lower bound of the expectation by regularizing the distribution of the approximate posterior's parameters. Without introducing any new model component or modifying the objective, our approach can avoid the posterior collapse effectively and efficiently. We further show that the proposed BN-VAE can be extended to conditional VAE (CVAE). Empirically, our approach surpasses strong autoregressive baselines on language modeling, text classification and dialogue generation, and rivals more complex approaches while keeping almost the same training time as VAE.
翻訳日:2022-12-09 04:28:55 公開日:2020-06-01
# 3DCNNによる位相コントラスト顕微鏡における空間時間ミオトーシスの検出

Spatial-Temporal Mitosis Detection in Phase-Contrast Microscopy via Likelihood Map Estimation by 3DCNN ( http://arxiv.org/abs/2004.12531v2 )

ライセンス: Link先を確認
Kazuya Nishimura, Ryoma Bise(参考訳) 時間経過型位相コントラスト顕微鏡におけるmit自動検出法により,細胞挙動解析に関する多くの情報が得られるため,いくつかのmitosis検出法が提案されている。 しかし、これらの方法には2つの問題がある。 1) 密着した状態では複数の有糸分裂を検出できない。 2) 注釈付きフレームの前後では, 有糸分裂細胞の出現と類似しているため, アノテーションギャップは考慮されていない。 本稿では,3dcnnによる時空間的確率マップを推定することにより,候補系列における複数のmitosisイベントを検出し,人間のアノテーションギャップを軽減できる新しいmitosis検出法を提案する。 このトレーニングでは, 地上の真実と推定のギャップの大きさによって, 損失は徐々に減少する。 これはアノテーションのギャップを軽減する。 提案手法は,4つの異なる条件下でデータを含む難易度データセットを用いて,f1-スコアで比較した手法を上回った。

Automated mitotic detection in time-lapse phasecontrast microscopy provides us much information for cell behavior analysis, and thus several mitosis detection methods have been proposed. However, these methods still have two problems; 1) they cannot detect multiple mitosis events when there are closely placed. 2) they do not consider the annotation gaps, which may occur since the appearances of mitosis cells are very similar before and after the annotated frame. In this paper, we propose a novel mitosis detection method that can detect multiple mitosis events in a candidate sequence and mitigate the human annotation gap via estimating a spatiotemporal likelihood map by 3DCNN. In this training, the loss gradually decreases with the gap size between ground truth and estimation. This mitigates the annotation gaps. Our method outperformed the compared methods in terms of F1- score using a challenging dataset that contains the data under four different conditions.
翻訳日:2022-12-09 04:26:08 公開日:2020-06-01
# Speak to your Parser: 自然言語フィードバックによるインタラクティブテキストからSQL

Speak to your Parser: Interactive Text-to-SQL with Natural Language Feedback ( http://arxiv.org/abs/2005.02539v2 )

ライセンス: Link先を確認
Ahmed Elgohary, Saghar Hosseini, Ahmed Hassan Awadallah(参考訳) 自然言語フィードバックによる意味的パース補正の課題について検討する。 自然言語の発話が与えられた場合、ほとんどの意味解析システムは、発話を対応する論理形式にマッピングするワンショット翻訳として問題を引き起こす。 本稿では,人間がよりインタラクティブにシステムと対話できるシナリオについて検討し,初期発話の不正確な解釈を生成する際に,自由形式の自然言語フィードバックを提供することによってシステムを修正する。 我々は、自然言語からSQLシステムへの変換と構築、SPLASH、発話のデータセット、誤ったSQL解釈、それに対応する自然言語フィードバックに焦点を当てる。 補正作業における様々な参照モデルを比較し,このようなリッチなフィードバックを組み込むことで,自然言語相互作用の柔軟性を維持しつつ,総合的な意味解析精度を大幅に向上できることを示す。 人間の補正精度は81.5%と見積もっているが、我々の最良のモデルは25.1%しか達成していない。 SPLASHはhttps://aka.ms/Splash_dataset.comで公開されている。

We study the task of semantic parse correction with natural language feedback. Given a natural language utterance, most semantic parsing systems pose the problem as one-shot translation where the utterance is mapped to a corresponding logical form. In this paper, we investigate a more interactive scenario where humans can further interact with the system by providing free-form natural language feedback to correct the system when it generates an inaccurate interpretation of an initial utterance. We focus on natural language to SQL systems and construct, SPLASH, a dataset of utterances, incorrect SQL interpretations and the corresponding natural language feedback. We compare various reference models for the correction task and show that incorporating such a rich form of feedback can significantly improve the overall semantic parsing accuracy while retaining the flexibility of natural language interaction. While we estimated human correction accuracy is 81.5%, our best model achieves only 25.1%, which leaves a large gap for improvement in future research. SPLASH is publicly available at https://aka.ms/Splash_dataset.
翻訳日:2022-12-06 14:06:57 公開日:2020-06-01
# bi3d:バイナリ分類によるステレオ深度推定

Bi3D: Stereo Depth Estimation via Binary Classifications ( http://arxiv.org/abs/2005.07274v2 )

ライセンス: Link先を確認
Abhishek Badki, Alejandro Troccoli, Kihwan Kim, Jan Kautz, Pradeep Sen, Orazio Gallo(参考訳) ステレオベースの深度推定はコンピュータビジョンの基盤であり、最先端の手法がリアルタイムで正確な結果をもたらす。 しかし、自律ナビゲーションのようないくつかのアプリケーションでは、レイテンシの低い精度の交換が有用である。 本稿では,一連のバイナリ分類を用いて深度を推定する手法であるBi3Dを提案する。 既存のステレオメソッドのように、オブジェクトが特定の深さで$d$かどうかをテストするのではなく、$d$よりも近いか遠くにあると分類する。 この特性は、精度とレイテンシをバランスさせる強力なメカニズムを提供する。 厳密な時間予算が与えられると、bi3dは数ミリ秒で与えられた距離より近い物体を検知したり、任意に粗い量子化で深さを推定したりできる。 bi3dはまた、量子化レベルを割り当てて連続深度を得ることもできるが、特定の深さ範囲で処理することができる。 標準的なステレオ(すなわち全範囲の連続的な深さ)では、我々の手法は最先端の細かな調整されたステレオ手法に近いか同等である。

Stereo-based depth estimation is a cornerstone of computer vision, with state-of-the-art methods delivering accurate results in real time. For several applications such as autonomous navigation, however, it may be useful to trade accuracy for lower latency. We present Bi3D, a method that estimates depth via a series of binary classifications. Rather than testing if objects are at a particular depth $D$, as existing stereo methods do, it classifies them as being closer or farther than $D$. This property offers a powerful mechanism to balance accuracy and latency. Given a strict time budget, Bi3D can detect objects closer than a given distance in as little as a few milliseconds, or estimate depth with arbitrarily coarse quantization, with complexity linear with the number of quantization levels. Bi3D can also use the allotted quantization levels to get continuous depth, but in a specific depth range. For standard stereo (i.e., continuous depth on the whole range), our method is close to or on par with state-of-the-art, finely tuned stereo methods.
翻訳日:2022-12-03 05:33:13 公開日:2020-06-01
# ニューラルコラボレーティブフィルタリングとマトリックス因子化の再検討

Neural Collaborative Filtering vs. Matrix Factorization Revisited ( http://arxiv.org/abs/2005.09683v2 )

ライセンス: Link先を確認
Steffen Rendle, Walid Krichene, Li Zhang, John Anderson(参考訳) 埋め込みベースのモデルは、コラボレーションフィルタリングにおける10年以上の最先端技術である。 伝統的に、ドット積または高次同値は、例えば行列分解において、2つ以上の埋め込みを結合するために用いられる。 近年では多層パーセプトロン(mlp)を用いてドット生成物を学習した類似性に置き換えることが提案されている。 この手法はしばしばニューラルコラボレーティブ・フィルタリング(NCF)と呼ばれる。 本研究では,MLPを用いて類似性を学習したNCF論文の実験を再考する。 まず, 適切なハイパーパラメータ選択により, 単純なドット積が学習した類似性を大幅に上回ることを示す。 第二に、mlp は理論上任意の関数を近似することができるが、mlp を持つ点積を学ぶことは非自明である。 最後に,MDPをベースとした類似性を適用した場合の実践的問題について議論し,実運用環境での項目推薦にMLPがあまりにも高価であることを示す。 我々は、mlpはコンビネータの組み込みとして使用すべきであり、dot製品はより良いデフォルト選択であるかもしれないと結論づけた。

Embedding based models have been the state of the art in collaborative filtering for over a decade. Traditionally, the dot product or higher order equivalents have been used to combine two or more embeddings, e.g., most notably in matrix factorization. In recent years, it was suggested to replace the dot product with a learned similarity e.g. using a multilayer perceptron (MLP). This approach is often referred to as neural collaborative filtering (NCF). In this work, we revisit the experiments of the NCF paper that popularized learned similarities using MLPs. First, we show that with a proper hyperparameter selection, a simple dot product substantially outperforms the proposed learned similarities. Second, while a MLP can in theory approximate any function, we show that it is non-trivial to learn a dot product with an MLP. Finally, we discuss practical issues that arise when applying MLP based similarities and show that MLPs are too costly to use for item recommendation in production environments while dot products allow to apply very efficient retrieval algorithms. We conclude that MLPs should be used with care as embedding combiner and that dot products might be a better default choice.
翻訳日:2022-12-01 13:38:45 公開日:2020-06-01
# MVStylizer:携帯電話用エッジ支援型ビデオフォトリアリスティックスタイル転送システム

MVStylizer: An Efficient Edge-Assisted Video Photorealistic Style Transfer System for Mobile Phones ( http://arxiv.org/abs/2005.11630v2 )

ライセンス: Link先を確認
Ang Li, Chunpeng Wu, Yiran Chen, Bin Ni(参考訳) 最近の研究は、画像が望ましいスタイルに変換されることを示す画像のニューラルスタイルの転送の実現に大きな進歩をもたらした。 多くのユーザーは携帯電話を使って日々の生活を記録し、撮影した画像やビデオを他のユーザーと編集して共有する。 しかし、ビデオに既存のスタイル転送アプローチを直接適用すること、すなわちビデオフレームのスタイルをフレーム単位で転送することは、非常に多くの計算資源を必要とする。 携帯電話で動画のスタイル転送を行うのは技術的には不可能である。 この課題に対処するため,携帯電話用エッジ支援型フォトリアリスティックビデオ転送システムであるMVStylizerを提案する。 フレーム毎にスタイライゼーションを行う代わりに、エッジサーバ上の事前訓練されたディープニューラルネットワーク(dnn)で元のビデオのキーフレームのみを処理し、残りのスタイライゼーション中間フレームは携帯電話の光フローベースのフレーム補間アルゴリズムによって生成される。 メタ平滑化モジュールは、任意の解像度にスタイリングされたフレームを同時にアップスケールし、これらのアップスケールされたフレームのスタイル転送関連歪みを取り除く。 さらに,エッジサーバ上でのDNNモデルの性能を継続的に向上するために,モバイルクライアントからの収集データとクラウドサーバ上のグローバルDNNモデルとの同期により,エッジサーバ上での各DNNモデルをトレーニングし続けるためのフェデレート学習方式を採用した。 このようなスキームは、様々なモバイルクライアントから収集したデータの多様性を効果的に活用し、システム性能を効率的に改善する。 我々の実験は、MVStylizerが1920$\times$1080ビデオの75.5$\times$スピードアップを達成しながら、最先端の手法と比較して、より優れた視覚的品質のスタイリングビデオを生成することができることを示した。

Recent research has made great progress in realizing neural style transfer of images, which denotes transforming an image to a desired style. Many users start to use their mobile phones to record their daily life, and then edit and share the captured images and videos with other users. However, directly applying existing style transfer approaches on videos, i.e., transferring the style of a video frame by frame, requires an extremely large amount of computation resources. It is still technically unaffordable to perform style transfer of videos on mobile phones. To address this challenge, we propose MVStylizer, an efficient edge-assisted photorealistic video style transfer system for mobile phones. Instead of performing stylization frame by frame, only key frames in the original video are processed by a pre-trained deep neural network (DNN) on edge servers, while the rest of stylized intermediate frames are generated by our designed optical-flow-based frame interpolation algorithm on mobile phones. A meta-smoothing module is also proposed to simultaneously upscale a stylized frame to arbitrary resolution and remove style transfer related distortions in these upscaled frames. In addition, for the sake of continuously enhancing the performance of the DNN model on the edge server, we adopt a federated learning scheme to keep retraining each DNN model on the edge server with collected data from mobile clients and syncing with a global DNN model on the cloud server. Such a scheme effectively leverages the diversity of collected data from various mobile clients and efficiently improves the system performance. Our experiments demonstrate that MVStylizer can generate stylized videos with an even better visual quality compared to the state-of-the-art method while achieving 75.5$\times$ speedup for 1920$\times$1080 videos.
翻訳日:2022-11-29 13:32:29 公開日:2020-06-01
# ODEN: ニューラルネットワークを用いた正規微分方程式の解法

ODEN: A Framework to Solve Ordinary Differential Equations using Artificial Neural Networks ( http://arxiv.org/abs/2005.14090v2 )

ライセンス: Link先を確認
Liam L.H. Lau and Denis Werth(参考訳) フィードフォワードニューラルネットワークを用いた常微分方程式の解法を詳細に検討する。 ニューラルネットワークの性能を評価するのに適した標準指標として,正確な解の知識を必要としない特定の損失関数を証明する。 ニューラルネットワークは、トレーニング領域内の継続的ソリューションの近似に熟練していることが示されている。 ニューラルネットワークが従来の標準数値技術より優れていることを示す。 訓練は徹底的に検討され、3つの普遍的な段階が見つかる。 (i)事前の接尾辞の調整 (二)曲率フィッティング、及び (iii)微調整段階。 この手法の主な制限は、適切なニューラルネットワークアーキテクチャを見つけるための非自明なタスクと、効率的な最適化のためのニューラルネットワークハイパーパラメータの選択である。 しかし、微分方程式の複雑性に合致する最適なアーキテクチャを観測する。 ユーザフレンドリで適応可能なオープンソースコード(ODE$\mathcal{N}$)がGitHubで提供されている。

We explore in detail a method to solve ordinary differential equations using feedforward neural networks. We prove a specific loss function, which does not require knowledge of the exact solution, to be a suitable standard metric to evaluate neural networks' performance. Neural networks are shown to be proficient at approximating continuous solutions within their training domains. We illustrate neural networks' ability to outperform traditional standard numerical techniques. Training is thoroughly examined and three universal phases are found: (i) a prior tangent adjustment, (ii) a curvature fitting, and (iii) a fine-tuning stage. The main limitation of the method is the nontrivial task of finding the appropriate neural network architecture and the choice of neural network hyperparameters for efficient optimization. However, we observe an optimal architecture that matches the complexity of the differential equation. A user-friendly and adaptable open-source code (ODE$\mathcal{N}$) is provided on GitHub.
翻訳日:2022-11-27 05:53:43 公開日:2020-06-01
# 脳波に基づく音声認識システム改善のための制約付き変分オートエンコーダ

Constrained Variational Autoencoder for improving EEG based Speech Recognition Systems ( http://arxiv.org/abs/2006.02902v1 )

ライセンス: Link先を確認
Gautam Krishna, Co Tran, Mason Carnahan, Ahmed Tewfik(参考訳) 本稿では,より意味のある脳波特徴を生の脳波特徴から生成し,脳波に基づく音声認識システムの性能を向上させることができる新しい制約付き損失関数を備えたリカレントニューラルネットワーク(RNN)ベースの変動型オートエンコーダ(VAE)モデルを提案する。 そこで本研究では,本モデルを用いて脳波特徴量から生成した脳波機能を用いて学習・テストを行う連続音声認識システムにおいて,連続音声認識のための30個の一意文からなる限定英語語彙と,孤立音声認識のための2つの一意文からなる英語語彙について,実験結果を示す。 我々は,脳波を用いた連続音声認識システムの性能向上のために,著者らが最近導入した他の手法と比較し,同じデータセットを用いてトレーニングおよびテストを行った場合,語彙サイズが増大するにつれて,本手法がそれらの手法よりも優れていることを示した。 本稿では,自動音声認識 (asr) 実験でのみ結果を示すが,制約付き損失関数を有するvaeモデルは,他の様々な脳波型ブレイン・コンピュータ・インタフェース (bci) アプリケーションにも拡張可能である。

In this paper we introduce a recurrent neural network (RNN) based variational autoencoder (VAE) model with a new constrained loss function that can generate more meaningful electroencephalography (EEG) features from raw EEG features to improve the performance of EEG based speech recognition systems. We demonstrate that both continuous and isolated speech recognition systems trained and tested using EEG features generated from raw EEG features using our VAE model results in improved performance and we demonstrate our results for a limited English vocabulary consisting of 30 unique sentences for continuous speech recognition and for an English vocabulary consisting of 2 unique sentences for isolated speech recognition. We compare our method with another recently introduced method described by authors in [1] to improve the performance of EEG based continuous speech recognition systems and we demonstrate that our method outperforms their method as vocabulary size increases when trained and tested using the same data set. Even though we demonstrate results only for automatic speech recognition (ASR) experiments in this paper, the proposed VAE model with constrained loss function can be extended to a variety of other EEG based brain computer interface (BCI) applications.
翻訳日:2022-11-26 07:56:35 公開日:2020-06-01
# オンライン量子状態学習のためのより実践的で適応的なアルゴリズム

More Practical and Adaptive Algorithms for Online Quantum State Learning ( http://arxiv.org/abs/2006.01013v1 )

ライセンス: Link先を確認
Yifang Chen, Xin Wang(参考訳) オンライン量子状態学習はaaronson et al. (2018)によって最近提案された問題であり、学習者は状態と騒がしい結果の所定の測定値に基づいてn$-qubitの量子状態を逐次予測する。 以前の研究では、アルゴリズムは一般に最悪のケースで最適であるが、より単純な場合やより実用的な場合においてより厳密な境界を達成できない。 本稿では,量子状態のオンライン学習を促進するアルゴリズムを開発した。 まず,Tallis-2エントロピーを用いた正規化Follow-the-Leader (RFTL) 法により,最大階数$M$のT$測定値に対して,最大階数$O(\sqrt{MT})$の総損失が得られることを示す。 この後悔の束縛は、低ランクの測定を利用するキュービットの数ではなく、最大で$M$の計測にのみ依存する。 第二に、隠れた状態の損失に応じて後悔を達成できる古典的な調整学習率スケジュールに基づくパラメータフリーアルゴリズムを提案する。 これらより適応的な境界に加えて、taris-2エントロピーアルゴリズムを持つrftlは、従来の研究では実現不可能であった、短期量子コンピューティングデバイス上で効率的に実装できることも示します。

Online quantum state learning is a recently proposed problem by Aaronson et al. (2018), where the learner sequentially predicts $n$-qubit quantum states based on given measurements on states and noisy outcomes. In the previous work, the algorithms are worst-case optimal in general but fail in achieving tighter bounds in certain simpler or more practical cases. In this paper, we develop algorithms to advance the online learning of quantum states. First, we show that Regularized Follow-the-Leader (RFTL) method with Tallis-2 entropy can achieve an $O(\sqrt{MT})$ total loss with perfect hindsight on the first $T$ measurements with maximum rank $M$. This regret bound depends only on the maximum rank $M$ of measurements rather than the number of qubits, which takes advantage of low-rank measurements. Second, we propose a parameter-free algorithm based on a classical adjusting learning rate schedule that can achieve a regret depending on the loss of best states in hindsight, which takes advantage of low noisy outcomes. Besides these more adaptive bounds, we also show that our RFTL with Tallis-2 entropy algorithm can be implemented efficiently on near-term quantum computing devices, which is not achievable in previous works.
翻訳日:2022-11-26 07:53:46 公開日:2020-06-01
# 解釈可能な確率的ブロック影響モデル--同系コミュニティ間の社会的影響を測定する

Interpretable Stochastic Block Influence Model: measuring social influence among homophilous communities ( http://arxiv.org/abs/2006.01028v1 )

ライセンス: Link先を確認
Yan Leng, Tara Sowrirajan, Alex Pentland(参考訳) ネットワーク上の意思決定は、ホモフィリーと社会的影響の両方によって説明できる。 ホモフィリーは類似した特徴を持つ共同体の形成を促進するが、社会的な影響はコミュニティ内とコミュニティ間で起こる。 社会的影響は役割理論によって説明できるが、これは個人の影響が役割や関心の行動に依存することを示している。 これらの社会科学理論を運用するために,同情的なコミュニティを実証的に同定し,コミュニティ構造を用いて特定の意思決定プロセスに影響を与える「ルール」を捕捉する。 本稿では,確率的ブロック影響モデル(Stochastic Block Influence Model)という生成モデルを提案する。 本手法の性能評価と解釈可能性を示すため,インド村におけるマイクロファイナンスの導入決定について検討した。 個人はコミュニティ内でリンクを形成する傾向にあるが、コミュニティ間には強い肯定的・否定的な社会的影響があり、弱い結びつき理論を支持している。 さらに,共有特性を持つコミュニティは,肯定的な影響に結びついていることが判明した。 対照的に、重複の少ないコミュニティは否定的な影響に結びついている。 本フレームワークは,意思決定コミュニティの基盤となる影響を定量化し,情報拡散,バイラルマーケティング,技術導入を促進する上で有用なツールである。

Decision-making on networks can be explained by both homophily and social influence. While homophily drives the formation of communities with similar characteristics, social influence occurs both within and between communities. Social influence can be reasoned through role theory, which indicates that the influences among individuals depend on their roles and the behavior of interest. To operationalize these social science theories, we empirically identify the homophilous communities and use the community structures to capture the "roles", which affect the particular decision-making processes. We propose a generative model named Stochastic Block Influence Model and jointly analyze both the network formation and the behavioral influence within and between different empirically-identified communities. To evaluate the performance and demonstrate the interpretability of our method, we study the adoption decisions of microfinance in an Indian village. We show that although individuals tend to form links within communities, there are strong positive and negative social influences between communities, supporting the weak tie theory. Moreover, we find that communities with shared characteristics are associated with positive influence. In contrast, the communities with a lack of overlap are associated with negative influence. Our framework facilitates the quantification of the influences underlying decision communities and is thus a useful tool for driving information diffusion, viral marketing, and technology adoptions.
翻訳日:2022-11-26 07:53:22 公開日:2020-06-01
# SOT-MRAMを用いたニューロモルフィックアーキテクチャのためのSigmoidal Neuron

SOT-MRAM based Sigmoidal Neuron for Neuromorphic Architectures ( http://arxiv.org/abs/2006.01238v1 )

ライセンス: Link先を確認
Brendan Reidy and Ramtin Zand(参考訳) 本稿では、スピン軌道トルク(SOT)磁気抵抗性ランダムアクセスメモリ(MRAM)デバイス固有の物理特性を活用し、ニューロモルフィックアーキテクチャにおけるシグモダルニューロンを実現する。 提案するsot-mram系ニューロンの性能比較により、74倍および12倍のパワー領域積値の低減が得られた。 大規模設計における提案するニューロンの機能を検証するため,SPICE回路シミュレーションツールを用いたMNISTパターン認識用784x16x10 SOT-MRAMベースのマルチプレイヤーパーセプトロン(MLP)を実装した。 その結果,SOT-MRAMをベースとしたMLPは,GPU上に実装された理想的な二項化MLPアーキテクチャに匹敵する精度を達成でき,処理速度の桁数増加を実現することができた。

In this paper, the intrinsic physical characteristics of spin-orbit torque (SOT) magnetoresistive random-access memory (MRAM) devices are leveraged to realize sigmoidal neurons in neuromorphic architectures. Performance comparisons with the previous power- and area-efficient sigmoidal neuron circuits exhibit 74x and 12x reduction in power-area-product values for the proposed SOT-MRAM based neuron. To verify the functionally of the proposed neuron within larger scale designs, we have implemented a circuit realization of a 784x16x10 SOT-MRAM based multiplayer perceptron (MLP) for MNIST pattern recognition application using SPICE circuit simulation tool. The results obtained exhibit that the proposed SOT-MRAM based MLP can achieve accuracies comparable to an ideal binarized MLP architecture implemented on GPU, while realizing orders of magnitude increase in processing speed.
翻訳日:2022-11-26 07:52:38 公開日:2020-06-01
# 感性分類のための次元性低減:最も顕著で分離可能な特徴に進化する

Dimensionality Reduction for Sentiment Classification: Evolving for the Most Prominent and Separable Features ( http://arxiv.org/abs/2006.04680v1 )

ライセンス: Link先を確認
Aftab Anjum, Mazharul Islam, Lin Wang(参考訳) 感情分類において、膨大なテキストデータ、その膨大な次元、および固有のノイズは、機械学習分類器が高レベルで複雑な抽象化を抽出することが極めて困難である。 データをスパース化し、統計的に重要なものにするためには、次元削減技術が必要である。 しかし、既存の次元削減技術では、コンポーネントの数を手動で設定する必要があるため、最も顕著な特徴が失われ、分類器の性能が低下する。 我々の先行研究、すなわち項存在数(tpc)と項存在比(tpr)は、分離不能な特徴を拒絶する効果的な技術であることが証明されている。 しかし、最も顕著で分離可能な機能は、正と負のタグ付けされた文書の間で高い分布があるにもかかわらず、初期機能セットから削除される可能性がある。 そこで本研究では,2次元化手法であるSentiment Term Presence Count(SentiTPC)とSentiment Term Presence Ratio(SentiTPR)を新たに提案した。 これらの手法は、SentiTPCの項存在差とSentiTPRの分布差の比率を考慮して特徴を否定する。 また,本手法は全分布情報を解析する。 大規模な実験結果から,提案手法は特徴量を大幅に削減し,分類性能を著しく向上させることを示した。

In sentiment classification, the enormous amount of textual data, its immense dimensionality, and inherent noise make it extremely difficult for machine learning classifiers to extract high-level and complex abstractions. In order to make the data less sparse and more statistically significant, the dimensionality reduction techniques are needed. But in the existing dimensionality reduction techniques, the number of components needs to be set manually which results in loss of the most prominent features, thus reducing the performance of the classifiers. Our prior work, i.e., Term Presence Count (TPC) and Term Presence Ratio (TPR) have proven to be effective techniques as they reject the less separable features. However, the most prominent and separable features might still get removed from the initial feature set despite having higher distributions among positive and negative tagged documents. To overcome this problem, we have proposed a new framework that consists of two-dimensionality reduction techniques i.e., Sentiment Term Presence Count (SentiTPC) and Sentiment Term Presence Ratio (SentiTPR). These techniques reject the features by considering term presence difference for SentiTPC and ratio of the distribution distinction for SentiTPR. Additionally, these methods also analyze the total distribution information. Extensive experimental results exhibit that the proposed framework reduces the feature dimension by a large scale, and thus significantly improve the classification performance.
翻訳日:2022-11-26 07:52:23 公開日:2020-06-01
# 決定木誘導の証明可能保証:不可知の設定

Provable guarantees for decision tree induction: the agnostic setting ( http://arxiv.org/abs/2006.00743v1 )

ライセンス: Link先を確認
Guy Blanc and Jane Lange and Li-Yang Tan(参考訳) 我々は、広く採用され、実証的に成功した「トップダウン決定木学習ヒューリスティックス」の性能に関する証明可能な保証を与える。 それまでの研究は実現可能な設定に焦点を合わせてきたが、より現実的で挑戦的な設定を考える。 すべての単調関数~$f$ とパラメータ$s\in \mathbb{n}$ に対して、これらのヒューリスティックは、$s^{\tilde{o}((\log s)/\varepsilon^2)} の大きさの決定木を構築し、エラー$\le \mathsf{opt}_s + \varepsilon$ を達成する。 従来、このような保証はいかなるアルゴリズムでも実現可能ではなく、トップダウンヒューリスティックスに基づくものではないことが分かっていた。 我々は、ほぼ一致する$s^{\tilde{\omega}(\log s)}$の下限でアルゴリズム保証を補完する。

We give strengthened provable guarantees on the performance of widely employed and empirically successful {\sl top-down decision tree learning heuristics}. While prior works have focused on the realizable setting, we consider the more realistic and challenging {\sl agnostic} setting. We show that for all monotone functions~$f$ and parameters $s\in \mathbb{N}$, these heuristics construct a decision tree of size $s^{\tilde{O}((\log s)/\varepsilon^2)}$ that achieves error $\le \mathsf{opt}_s + \varepsilon$, where $\mathsf{opt}_s$ denotes the error of the optimal size-$s$ decision tree for $f$. Previously, such a guarantee was not known to be achievable by any algorithm, even one that is not based on top-down heuristics. We complement our algorithmic guarantee with a near-matching $s^{\tilde{\Omega}(\log s)}$ lower bound.
翻訳日:2022-11-26 07:51:13 公開日:2020-06-01
# ステレオによる深度推定のための深度学習手法の検討

A Survey on Deep Learning Techniques for Stereo-based Depth Estimation ( http://arxiv.org/abs/2006.02535v1 )

ライセンス: Link先を確認
Hamid Laga, Laurent Valentin Jospin, Farid Boussaid, Mohammed Bennamoun(参考訳) RGB画像から深度を推定することは長年にわたり不適切な問題であり、コンピュータビジョン、グラフィックス、機械学習コミュニティによって何十年も調査されてきた。 既存の技術の中で、ステレオマッチングは人間の双眼鏡システムとの強いつながりから、文献の中で最も広く使われている1つである。 伝統的に、ステレオベースの深度推定は、複数の画像にまたがる手作りの特徴をマッチングすることで対処されてきた。 膨大な研究にもかかわらず、これらの伝統的な技術は、高度に質感のある領域、大きな均一な領域、および咬合の存在に苦しむ。 様々な2Dおよび3D視覚問題の解決に成功し、ステレオベースの深度推定のためのディープラーニングがコミュニティから関心を集め、2014年から2019年の間に150以上の論文が出版された。 この新世代の手法は、自律運転や拡張現実といった応用を可能にするために、パフォーマンスの大きな飛躍を見せている。 本稿では,この新たなかつ継続的な研究分野の包括的調査を行い,最も一般的に使用されているパイプラインを要約するとともに,そのメリットと限界について論じる。 これまでに達成されたことを振り返って、深度推定研究のための深度学習に基づくステレオの今後について予測する。

Estimating depth from RGB images is a long-standing ill-posed problem, which has been explored for decades by the computer vision, graphics, and machine learning communities. Among the existing techniques, stereo matching remains one of the most widely used in the literature due to its strong connection to the human binocular system. Traditionally, stereo-based depth estimation has been addressed through matching hand-crafted features across multiple images. Despite the extensive amount of research, these traditional techniques still suffer in the presence of highly textured areas, large uniform regions, and occlusions. Motivated by their growing success in solving various 2D and 3D vision problems, deep learning for stereo-based depth estimation has attracted growing interest from the community, with more than 150 papers published in this area between 2014 and 2019. This new generation of methods has demonstrated a significant leap in performance, enabling applications such as autonomous driving and augmented reality. In this article, we provide a comprehensive survey of this new and continuously growing field of research, summarize the most commonly used pipelines, and discuss their benefits and limitations. In retrospect of what has been achieved so far, we also conjecture what the future may hold for deep learning-based stereo for depth estimation research.
翻訳日:2022-11-26 07:44:02 公開日:2020-06-01
# 最適因果エントロピー原理(BoCSE)によるブールネットワークと関数のデータ駆動学習

Data-Driven Learning of Boolean Networks and Functions by Optimal Causation Entropy Principle (BoCSE) ( http://arxiv.org/abs/2006.01023v1 )

ライセンス: Link先を確認
Jie Sun, Abd AlRahman AlMomani, Erik Bollt(参考訳) ブール関数とネットワークは複雑な生物学的システムのモデリングと分析に一般的に用いられており、このパラダイムは医療分野や金融業界など、データサイエンスや意思決定の他の重要な分野と非常に関係がある。 データからブールネットワークとブール関数の自動学習は、ブルート力アプローチが指数関数的に複雑になるような、推定すべき未知数(ネットワーク構造と関数の両方を含む)が多数あるため、難しい課題である。 本稿では,従来の手法よりもはるかに効率的であることを示す新しい情報理論手法を考案する。 最近開発された最適因果エントロピー原理(oCSE)に基づいて、直接接続と間接接続を区別するネットワークを正しく推論できることを証明し、さらにノードの進化状態から観測されたデータに基づいてブールネットワーク(構造と関数の両方を含む)を推論する効率的なアルゴリズムを開発した。 本稿では,この手法をBoolean optimal causation entropy (BoCSE) と呼ぶ。 さらに、プロセスを説明するための一連の機能を選択することも可能で、これはネットワーク化されたブール関数還元順序モデルとして記述できるステートメントである。 本手法は,(1)尿路疾患の診断,(2)心臓SPECT診断,(3)ゲームTic-Tac-Toeにおける情報的位置,(4)デフォルト状態におけるローンのリスク因果性分析などの実例において,特徴選択に重点を置いている。 提案手法は全例において有効かつ効率的である。

Boolean functions and networks are commonly used in the modeling and analysis of complex biological systems, and this paradigm is highly relevant in other important areas in data science and decision making, such as in the medical field and in the finance industry. Automated learning of a Boolean network and Boolean functions, from data, is a challenging task due in part to the large number of unknowns (including both the structure of the network and the functions) to be estimated, for which a brute force approach would be exponentially complex. In this paper we develop a new information theoretic methodology that we show to be significantly more efficient than previous approaches. Building on the recently developed optimal causation entropy principle (oCSE), that we proved can correctly infer networks distinguishing between direct versus indirect connections, we develop here an efficient algorithm that furthermore infers a Boolean network (including both its structure and function) based on data observed from the evolving states at nodes. We call this new inference method, Boolean optimal causation entropy (BoCSE), which we will show that our method is both computationally efficient and also resilient to noise. Furthermore, it allows for selection of a set of features that best explains the process, a statement that can be described as a networked Boolean function reduced order model. We highlight our method to the feature selection in several real-world examples: (1) diagnosis of urinary diseases, (2) Cardiac SPECT diagnosis, (3) informative positions in the game Tic-Tac-Toe, and (4) risk causality analysis of loans in default status. Our proposed method is effective and efficient in all examples.
翻訳日:2022-11-26 07:43:42 公開日:2020-06-01
# 2成分ガウス混合モデルによる最大確率推定のための一様収束率

Uniform Convergence Rates for Maximum Likelihood Estimation under Two-Component Gaussian Mixture Models ( http://arxiv.org/abs/2006.00704v1 )

ライセンス: Link先を確認
Tudor Manole, Nhat Ho(参考訳) 不等分散を持つ2成分位置スケールガウス混合モデルにおけるパラメータ推定のための最大度推定値と最小値下限に対する一様収束率を導出する。 混合成分の混合割合は, 既知, 固定されていると仮定するが, 混合成分の分離仮定は行わない。 相転移は、混合物の平衡の有無に応じて最適なパラメータ推定速度に存在することが示されている。 解析の鍵となるのは, 多項式等式と不等式が解集合の速度を増加させるような, 位置スケールのガウス混合モデルのパラメータ間の依存性について, 注意深く検討することである。 シミュレーション研究は、この研究の理論的発見を説明する。

We derive uniform convergence rates for the maximum likelihood estimator and minimax lower bounds for parameter estimation in two-component location-scale Gaussian mixture models with unequal variances. We assume the mixing proportions of the mixture are known and fixed, but make no separation assumption on the underlying mixture components. A phase transition is shown to exist in the optimal parameter estimation rate, depending on whether or not the mixture is balanced. Key to our analysis is a careful study of the dependence between the parameters of location-scale Gaussian mixture models, as captured through systems of polynomial equalities and inequalities whose solution set drives the rates we obtain. A simulation study illustrates the theoretical findings of this work.
翻訳日:2022-11-26 07:42:57 公開日:2020-06-01
# G-IDS:ジェネレーティブ・ディバイザ・ネットワークを用いた侵入検知システム

G-IDS: Generative Adversarial Networks Assisted Intrusion Detection System ( http://arxiv.org/abs/2006.00676v1 )

ライセンス: Link先を確認
Md Hasan Shahriar, Nur Imtiazul Haque, Mohammad Ashiqur Rahman, and Miguel Alonso Jr(参考訳) サイバー物理システム(CPS)とモノのインターネット(IoT)の境界線は、ハイブリッドシステム上で共通のプラットフォームを導入するために、日に日に集まっている。 さらに、人工知能(AI)とCPSの組み合わせは、新たな技術進歩の次元を生み出している。 こうした接続性と信頼性は、攻撃者がサイバー攻撃を開始するための膨大なスペースを生み出している。 これらの攻撃から防御するために、侵入検知システム(ids)が広く使われている。 しかし、新しいCPS技術は、不均衡でサンプルデータの欠如に悩まされ、IDSのトレーニングが困難になる。 本稿では、ganが合成サンプルを生成し、元のサンプルと共にidをトレーニングする、g-ids(generative adversarial network)ベースの侵入検知システムを提案する。 G-IDSはデータの不均衡や欠落の問題も解決している。 NSL KDD-99データセットを用いて新しいCPSのためのネットワークセキュリティデータセットをモデル化し、異なるメトリクスを用いて提案モデルの性能を評価する。 提案したG-IDSモデルは,スタンドアロンのIDSよりも,トレーニングプロセス中の攻撃検出とモデルの安定化に優れていた。

The boundaries of cyber-physical systems (CPS) and the Internet of Things (IoT) are converging together day by day to introduce a common platform on hybrid systems. Moreover, the combination of artificial intelligence (AI) with CPS creates a new dimension of technological advancement. All these connectivity and dependability are creating massive space for the attackers to launch cyber attacks. To defend against these attacks, intrusion detection system (IDS) has been widely used. However, emerging CPS technologies suffer from imbalanced and missing sample data, which makes the training of IDS difficult. In this paper, we propose a generative adversarial network (GAN) based intrusion detection system (G-IDS), where GAN generates synthetic samples, and IDS gets trained on them along with the original ones. G-IDS also fixes the difficulties of imbalanced or missing data problems. We model a network security dataset for an emerging CPS using NSL KDD-99 dataset and evaluate our proposed model's performance using different metrics. We find that our proposed G-IDS model performs much better in attack detection and model stabilization during the training process than a standalone IDS.
翻訳日:2022-11-26 07:42:45 公開日:2020-06-01
# 化学反応におけるマルチスケールモデリングと機械学習

When Machine Learning Meets Multiscale Modeling in Chemical Reactions ( http://arxiv.org/abs/2006.00700v1 )

ライセンス: Link先を確認
Wuyue Yang, Liangrong Peng, Yi Zhu, Liu Hong(参考訳) 化学反応の本質的な複雑さと非線形性のため、従来の機械学習アルゴリズムの直接的な応用は多くの困難に直面している。 本研究では,生物学的背景を持つ2つの具体例を通して,マルチスケールモデリングの重要なアイデアが機械学習の計算コストの低減にどのように役立つか,また,機械学習アルゴリズムが時間スケール分離システムにおいてモデル削減を自動的に行うかを示す。 本研究は,化学反応研究における機械学習アルゴリズムとマルチスケールモデリングの統合の必要性と有効性を強調した。

Due to the intrinsic complexity and nonlinearity of chemical reactions, direct applications of traditional machine learning algorithms may face with many difficulties. In this study, through two concrete examples with biological background, we illustrate how the key ideas of multiscale modeling can help to reduce the computational cost of machine learning a lot, as well as how machine learning algorithms perform model reduction automatically in a time-scale separated system. Our study highlights the necessity and effectiveness of an integration of machine learning algorithms and multiscale modeling during the study of chemical reactions.
翻訳日:2022-11-26 07:42:28 公開日:2020-06-01
# 拡張レンジ電気自動車のエネルギー管理のための物理モデルを用いたオンラインベイジアンフレームワーク

A Physics Model-Guided Online Bayesian Framework for Energy Management of Extended Range Electric Delivery Vehicles ( http://arxiv.org/abs/2006.00795v1 )

ライセンス: Link先を確認
Pengyue Wang, Yan Li, Shashi Shekhar and William F. Northrop(参考訳) ハイブリッド電気自動車 (HEV) と拡張レンジ電気自動車 (EREV) の最適化型エネルギー管理戦略 (EMS) による燃費の増大は、輸送分野において活発な研究領域となっている。 しかし、将来の旅行に関する知識が乏しく、大規模展開には計算コストがかかるため、現行のEREVに最適化ベースのEMSを適用することは困難である。 その結果、過去のほとんどの研究は、標準的な運転サイクルや過去の実際の運転サイクルから記録された高解像度データで検証されている。 本稿では,2方向の車両間接続機能を備えた配送車両群において使用される,利用ルールに基づくemsを改善する。 物理モデルに基づくオンラインベイズフレームワークについて記述し,最終マイルのパッケージ配信に使用されるEREVの多数の使用済み駆動サンプルについて検証した。 このフレームワークにはデータベース、前処理モジュール、車両モデル、オンラインベイズアルゴリズムモジュールが含まれる。 従来の0.2Hzの解像度トリップデータを入力として使用し、エンジン制御ロジックに更新されたパラメータを出力し、次のトリップでの燃料消費を減らす。 この研究の重要な貢献は、使用中のEREVの燃料使用削減の即時解決策を提供するフレームワークである。 このフレームワークは、実際のルートで動作する現実のEREV配達車両でも実証された。 その結果、155回の実輸送でテスト車両の燃料使用量を平均12.8%削減した。 このフレームワークは、乗用車、トランジットバス、その他の日々の旅行に類似した職業用車両を含む、他のerevアプリケーションにも拡張可能である。

Increasing the fuel economy of hybrid electric vehicles (HEVs) and extended range electric vehicles (EREVs) through optimization-based energy management strategies (EMS) has been an active research area in transportation. However, it is difficult to apply optimization-based EMS to current in-use EREVs because insufficient knowledge is known about future trips, and because such methods are computationally expensive for large-scale deployment. As a result, most past research has been validated on standard driving cycles or on recorded high-resolution data from past real driving cycles. This paper improves an in-use rule-based EMS that is used in a delivery vehicle fleet equipped with two-way vehicle-to-cloud connectivity. A physics model-guided online Bayesian framework is described and validated on large number of in-use driving samples of EREVs used for last-mile package delivery. The framework includes: a database, a preprocessing module, a vehicle model and an online Bayesian algorithm module. It uses historical 0.2 Hz resolution trip data as input and outputs an updated parameter to the engine control logic on the vehicle to reduce fuel consumption on the next trip. The key contribution of this work is a framework that provides an immediate solution for fuel use reduction of in-use EREVs. The framework was also demonstrated on real-world EREVs delivery vehicles operating on actual routes. The results show an average of 12.8% fuel use reduction among tested vehicles for 155 real delivery trips. The presented framework is extendable to other EREV applications including passenger vehicles, transit buses, and other vocational vehicles whose trips are similar day-to-day.
翻訳日:2022-11-26 07:42:19 公開日:2020-06-01
# 学生評価のための顔画像からの心拍数推定:EDBB実験

Heart Rate Estimation from Face Videos for Student Assessment: Experiments on edBB ( http://arxiv.org/abs/2006.00825v1 )

ライセンス: Link先を確認
Javier Hernandez-Ortega, Roberto Daza, Aythami Morales, Julian Fierrez, Ruben Tolosana(参考訳) 本研究では,学生評価のための顔映像から心拍数を推定する。 この情報は、時間とともに彼らの状態を追跡するだけでなく、注意レベルや不正な試みによって引き起こされるストレスの有無などの他のデータも推定する上で非常に価値があるかもしれない。 近年,遠隔教育における学生行動モデリングプラットフォームであるedBBplatが,本研究1で検討されている。 このプラットフォームでは、RGBや近赤外線カメラ、マイク、脳波バンド、マウス、スマートウォッチ、キーボードなど、生体情報や行動データをキャプチャする一連のセンサーから、いくつかの信号をキャプチャすることができる。 本研究の実験的枠組みでは,rgbおよび近赤外ビデオシーケンスに着目し,遠隔フォトプレチモグラフィを用いて心拍数推定を行う。 実験には、eラーニングに関連する一連のタスクを完了させる25人の異なる学生の行動と生理学的データが含まれている。 提案した顔の心拍数推定手法は,スマートウォッチが提供する心拍数と比較し,将来のeラーニングアプリケーションへの展開について非常に有望な結果を得た。

In this study we estimate the heart rate from face videos for student assessment. This information could be very valuable to track their status along time and also to estimate other data such as their attention level or the presence of stress that may be caused by cheating attempts. The recent edBBplat, a platform for student behavior modelling in remote education, is considered in this study1. This platform permits to capture several signals from a set of sensors that capture biometric and behavioral data: RGB and near infrared cameras, microphone, EEG band, mouse, smartwatch, and keyboard, among others. In the experimental framework of this study, we focus on the RGB and near-infrared video sequences for performing heart rate estimation applying remote photoplethysmography techniques. The experiments include behavioral and physiological data from 25 different students completing a collection of tasks related to e-learning. Our proposed face heart rate estimation approach is compared with the heart rate provided by the smartwatch, achieving very promising results for its future deployment in e-learning applications.
翻訳日:2022-11-26 07:41:53 公開日:2020-06-01
# 音響表現とasr仮説を組み合わせたストリーミング言語識別

Streaming Language Identification using Combination of Acoustic Representations and ASR Hypotheses ( http://arxiv.org/abs/2006.00703v1 )

ライセンス: Link先を確認
Chander Chandak, Zeynab Raeesy, Ariya Rastrow, Yuzong Liu, Xiangyang Huang, Siyu Wang, Dong Kwon Joo, Roland Maas(参考訳) 本稿では,音声アシスタントのための多言語音声クエリをサポートするために,高精度な低レイテンシ言語識別システムを構築するためのモデリングとアーキテクチャ手法を提案する。 多言語音声認識の一般的なアプローチは、複数の単言語ASRシステムを並列に実行し、入力言語を検出する言語識別(LID)コンポーネントに依存することである。 従来、LIDは入力言語を検出するための音響のみの情報に依存していた。 本研究では,音響のみの特徴を用いたモデルと比較して,音響レベルの表現とASR仮説に基づく埋め込みを学習・組み合わせることで,識別誤り率を最大50%低減する手法を提案する。 さらに,処理コストとレイテンシを低減するため,入力クエリの終了まで複数のASRシステムを実行する必要性を軽減し,システムが所定の信頼レベルに達する早期に音声言語を特定するために,ストリーミングアーキテクチャを利用する。 提案するストリーミングランタイムアーキテクチャと組み合わされた音響とテキストの蓋を組み合わせると、平均1500msの早期識別が発話の50%以上となり、ほぼ精度が低下することはない。 また,教師モデルとして新たに提案したモデルアーキテクチャを用いて,半教師付き学習(SSL)技術を適用した。

This paper presents our modeling and architecture approaches for building a highly accurate low-latency language identification system to support multilingual spoken queries for voice assistants. A common approach to solve multilingual speech recognition is to run multiple monolingual ASR systems in parallel and rely on a language identification (LID) component that detects the input language. Conventionally, LID relies on acoustic only information to detect input language. We propose an approach that learns and combines acoustic level representations with embeddings estimated on ASR hypotheses resulting in up to 50% relative reduction of identification error rate, compared to a model that uses acoustic only features. Furthermore, to reduce the processing cost and latency, we exploit a streaming architecture to identify the spoken language early when the system reaches a predetermined confidence level, alleviating the need to run multiple ASR systems until the end of input query. The combined acoustic and text LID, coupled with our proposed streaming runtime architecture, results in an average of 1500ms early identification for more than 50% of utterances, with almost no degradation in accuracy. We also show improved results by adopting a semi-supervised learning (SSL) technique using the newly proposed model architecture as a teacher model.
翻訳日:2022-11-26 07:35:53 公開日:2020-06-01
# エソスによる影響:オンライン討論における論評の説得力について

Influence via Ethos: On the Persuasive Power of Reputation in Deliberation Online ( http://arxiv.org/abs/2006.00707v1 )

ライセンス: Link先を確認
Emaad Manzoor, George H. Chen, Dokyun Lee, Michael D. Smith(参考訳) オンライン上の個人間の審議は、投票、購入、寄付、その他の重要なオフライン行動を促進する意見を形成する上で重要な役割を果たす。 しかし、オンライン上での説得による意見転換の要因はほとんど未定のままである。 本研究は、100万人以上の討論の7年間のパネルを用いて、説得の成功の明示的な指標を含む議論プラットフォームを用いて、個人の「発言」である$\textit{ethos}$の説得力を調べている。 本研究では,過去の討論会の尺度から評価尺度を構築し,二重機械学習フレームワークにおける言語ニューラルモデルを用いた非構造化議論テキストの制御により,評価の因果効果を判断する。 その結果,個人の評価は,議論の妥当性,強み,提示以上の説得率に有意な影響を与えていることがわかった。 私たちの設定では、評価ポイントを10つ増やせば、プラットフォーム平均よりも31%の確率で説得が成功するという結果が得られます。 また,認知的過負荷下のヒューリスティックな情報処理に評価の説得力を与える理論モデルと一致して,評価の影響を議論内容の特性によって緩和することを示した。 公的・私的な組織における議論的意思決定を促進するプラットフォームに対する経営上の意味について論じる。

Deliberation among individuals online plays a key role in shaping the opinions that drive votes, purchases, donations and other critical offline behavior. Yet, the determinants of opinion-change via persuasion in deliberation online remain largely unexplored. Our research examines the persuasive power of $\textit{ethos}$ -- an individual's "reputation" -- using a 7-year panel of over a million debates from an argumentation platform containing explicit indicators of successful persuasion. We identify the causal effect of reputation on persuasion by constructing an instrument for reputation from a measure of past debate competition, and by controlling for unstructured argument text using neural models of language in the double machine-learning framework. We find that an individual's reputation significantly impacts their persuasion rate above and beyond the validity, strength and presentation of their arguments. In our setting, we find that having 10 additional reputation points causes a 31% increase in the probability of successful persuasion over the platform average. We also find that the impact of reputation is moderated by characteristics of the argument content, in a manner consistent with a theoretical model that attributes the persuasive power of reputation to heuristic information-processing under cognitive overload. We discuss managerial implications for platforms that facilitate deliberative decision-making for public and private organizations online.
翻訳日:2022-11-26 07:35:34 公開日:2020-06-01
# 単言語音声認識を使わずにコード変更音声を認識する学習

Learning to Recognize Code-switched Speech Without Forgetting Monolingual Speech Recognition ( http://arxiv.org/abs/2006.00782v1 )

ライセンス: Link先を確認
Sanket Shah, Basil Abraham, Gurunath Reddy M, Sunayana Sitaram, Vikas Joshi(参考訳) 近年,コード切替音声の自動音声認識(ASR)が大幅に進歩し,多くの言語ペアにおけるコード切替データセットの精度が向上している。 符号切替音声は、1つの言語または両方の言語で単言語音声と共起する。 本稿では,符号切替音声におけるasrモデルの微調整が,単言語音声の性能を損なうことを示す。 コードスイッチングのためのモデルを最適化すると同時に、モノリンガルのパフォーマンスが犠牲にならないようにする必要性を指摘する。 モノリンガルモデルは、新しいモデルを再トレーニングすることができない何千時間ものスピーチでトレーニングすることができる。 単言語モデルにしかアクセスできず、トレーニングされたデータを持たない場合、コードスイッチングASRにLearning Forgetting(LWF)フレームワークを使用することを提案する。 コード切替テストと単言語テストの両方でうまく機能するこのフレームワークを使用してモデルをトレーニングできることを示す。 単言語学習データにもアクセスできる場合、単言語精度を犠牲にすることなく、コードスイッチングのための微調整モデルの正規化戦略を提案する。 単一言語およびコードスイッチテストセットにおける単語誤り率(wer)の改善を,プールデータと単純な微調整を用いたベースラインと比較して報告する。

Recently, there has been significant progress made in Automatic Speech Recognition (ASR) of code-switched speech, leading to gains in accuracy on code-switched datasets in many language pairs. Code-switched speech co-occurs with monolingual speech in one or both languages being mixed. In this work, we show that fine-tuning ASR models on code-switched speech harms performance on monolingual speech. We point out the need to optimize models for code-switching while also ensuring that monolingual performance is not sacrificed. Monolingual models may be trained on thousands of hours of speech which may not be available for re-training a new model. We propose using the Learning Without Forgetting (LWF) framework for code-switched ASR when we only have access to a monolingual model and do not have the data it was trained on. We show that it is possible to train models using this framework that perform well on both code-switched and monolingual test sets. In cases where we have access to monolingual training data as well, we propose regularization strategies for fine-tuning models for code-switching without sacrificing monolingual accuracy. We report improvements in Word Error Rate (WER) in monolingual and code-switched test sets compared to baselines that use pooled data and simple fine-tuning.
翻訳日:2022-11-26 07:35:10 公開日:2020-06-01
# 新型コロナ:ソーシャルメディアの再開に関する感情分析

COVID-19: Social Media Sentiment Analysis on Reopening ( http://arxiv.org/abs/2006.00804v1 )

ライセンス: Link先を確認
Mohammed Emtiaz Ahmed, Md Rafiqul Islam Rabin, Farah Naz Chowdhury(参考訳) 新型コロナウイルス(COVID-19)パンデミックは、2020年のソーシャルメディアプラットフォームで最も話題になっているトピックだ。 新型コロナウイルス(COVID-19)に関するさまざまな問題について、ツイッターなどのソーシャルメディアを使って意見を表明し、情報を共有している。 本稿では,再オープンをテーマとした米国における人々の感情と感情について検討する。 分析のためにソーシャルメディアプラットフォームであるtwitterを選択し、感情的な視点、感情的な視点、そして再オープンに向けた言葉の引き金となるツイートを調査します。 新型コロナウイルス(COVID-19)パンデミックの間、研究者はロックダウンと自宅滞在に関するさまざまなソーシャルメディアデータセットを分析した。 しかし,本分析では特に,再開に対する世論の感情を分析することに興味がある。 私たちの大きな発見は、すべての州が3月にロックダウンに移行したとき、人々は恐怖の圧倒的な感情を示しました。 これは事実かも知れませんが、この再開段階の陽性例がロックダウン状況と比較して増加しているためです。 全体として、人々は再開の状況に対する否定的な感情を減らします。

The novel coronavirus (COVID-19) pandemic is the most talked topic in social media platforms in 2020. People are using social media such as Twitter to express their opinion and share information on a number of issues related to the COVID-19 in this stay at home order. In this paper, we investigate the sentiment and emotion of peoples in the United States on the subject of reopening. We choose the social media platform Twitter for our analysis and study the Tweets to discover the sentimental perspective, emotional perspective, and triggering words towards the reopening. During this COVID-19 pandemic, researchers have made some analysis on various social media dataset regarding lockdown and stay at home. However, in our analysis, we are particularly interested to analyse public sentiment on reopening. Our major finding is that when all states resorted to lockdown in March, people showed dominant emotion of fear, but as reopening starts people have less fear. While this may be true, due to this reopening phase daily positive cases are rising compared to the lockdown situation. Overall, people have a less negative sentiment towards the situation of reopening.
翻訳日:2022-11-26 07:34:49 公開日:2020-06-01
# 深層学習による心血管造影におけるX線照射頻度の低減

Reducing the X-ray radiation exposure frequency in cardio-angiography via deep-learning based video interpolation ( http://arxiv.org/abs/2006.00781v1 )

ライセンス: Link先を確認
Xiao-Lei Yin, Dong-Xue Liang, Lu Wang, Jing Qiu, Zhi-Yun Yang, Jun-Hui Xing, Jian-Zeng Dong and Zhao-Yuan Ma(参考訳) 心臓冠動脈造影は、心臓外科手術中の医師を支援する主要な技術である。 x線照射により、医師はカテーテルを通して造影剤を注入し、冠動脈の位置と状態をリアルタイムで決定する。 高フレームレートで冠動脈造影ビデオを得るには、医師はX線の露出頻度と強度を高める必要がある。 これにより、患者と外科医の両方に対するx線障害が必然的に増大する。 本研究では,深層学習に基づくビデオ補間アルゴリズムを用いて,冠動脈造影ビデオの補間を行う。 さらに,95,039個のトリプレット画像を含む新しい冠動脈造影画像データセットを構築し,ビデオ補間ネットワークモデルの再訓練を行った。 再訓練されたネットワークを用いて低フレームレート冠動脈造影ビデオから高フレームレート冠動脈造影ビデオを合成する。 これらの合成ビデオフレームの平均ピーク信号対ノイズ比(PSNR)は34dBに達する。 ビデオフレーム補間アルゴリズムを用いて, 連続的かつ明瞭な高フレーム速度冠動脈造影ビデオの合成が可能であった。 この技術により、医師は冠動脈造影中のX線被曝頻度と強度を著しく低減することができる。

Cardiac coronary angiography is a major technology to assist doctors during cardiac interventional surgeries. Under the exposure of X-ray radiation, doctors inject contrast agents through catheters to determine the position and status of coronary vessels in real time. To get a coronary angiography video with a high frame rate, the doctor needs to increase the exposure frequency and intensity of the X-ray. This will inevitably increase the X-ray harm to both patients and surgeons. In this work, we innovatively utilize a deep-learning based video interpolation algorithm to interpolate coronary angiography videos. Moreover, we establish a new coronary angiography image dataset ,which contains 95,039 triplets images to retrain the video interpolation network model. Using the retrained network we synthesize high frame rate coronary angiography video from the low frame rate coronary angiography video. The average peak signal to noise ratio(PSNR) of those synthesized video frames reaches 34dB. Extensive experiment results demonstrate the feasibility of using the video frame interpolation algorithm to synthesize continuous and clear high frame rate coronary angiography video. With the help of this technology, doctors can significantly reduce exposure frequency and intensity of the X-ray during coronary angiography.
翻訳日:2022-11-26 07:34:13 公開日:2020-06-01
# 3次元ライダーマッピング相対精度自動評価アルゴリズム

3D Lidar Mapping Relative Accuracy Automatic Evaluation Algorithm ( http://arxiv.org/abs/2006.00857v1 )

ライセンス: Link先を確認
Guibin Chen, Jiong Deng, Dongze Huang, Shuo Zhang(参考訳) 3dlidarに基づくhd(high definition)マップは、自動運転車のローカライズ、計画、意思決定、知覚などにおいて重要な役割を果たす。 SLAM(Simultaneous Localization and Mapping)に関連する多くの3次元ライダーマッピング技術がHDマップ構築に使われ、精度が向上する。 3次元ライダーマッピングの精度を評価するために、最も一般的な方法はポーズの基底真理を使って推定されたポーズと基底真理の誤差を計算するが、自動運転車の実際のライダーマッピングではポーズの基底真理を得るのがとても難しい。 本論文では,3次元ライダーマッピングにより構築したhdマップの精度を自動的に評価する相対精度評価アルゴリズムを提案する。 点雲マップにおけるゴーストの度合いを定量的に検出する方法は、直線を走行する光の原理と光が不透明な物体を貫通できないという事実を活かして、間接的に精度を反映するように設計されている。 実験の結果,提案手法は0.1m等の設定しきい値よりも精度が低い悪質なポーズを自動的にかつ効率的に検出し,推定されたすべてのポーズにおける悪質ポーズ率p_badを算出し,最終精度指標p_acc = 1 - p_badを得ることができた。

HD (High Definition) map based on 3D lidar plays a vital role in autonomous vehicle localization, planning, decision-making, perception, etc. Many 3D lidar mapping technologies related to SLAM (Simultaneous Localization and Mapping) are used in HD map construction to ensure its high accuracy. To evaluate the accuracy of 3D lidar mapping, the most common methods use ground truth of poses to calculate the error between estimated poses and ground truth, however it's usually so difficult to get the ground truth of poses in the actual lidar mapping for autonomous vehicle. In this paper, we proposed a relative accuracy evaluation algorithm that can automatically evaluate the accuracy of HD map built by 3D lidar mapping without ground truth. A method for detecting the degree of ghosting in point cloud map quantitatively is designed to reflect the accuracy indirectly, which takes advantage of the principle of light traveling in a straight line and the fact that light can not penetrate opaque objects. Our experimental results confirm that the proposed evaluation algorithm can automatically and efficiently detect the bad poses whose accuracy are less than the set threshold such as 0.1m, then calculate the bad poses percentage P_bad in all estimated poses to obtain the final accuracy metric P_acc = 1 - P_bad.
翻訳日:2022-11-26 07:33:18 公開日:2020-06-01
# 頭蓋骨欠損修復と頭蓋インプラント設計のためのオンラインプラットフォーム

An Online Platform for Automatic Skull Defect Restoration and Cranial Implant Design ( http://arxiv.org/abs/2006.00980v1 )

ライセンス: Link先を確認
Jianning Li, Antonio Pepe, Christina Gsaxner, Jan Egger(参考訳) 頭蓋形成術における共通課題である頭蓋内インプラント設計のための完全自動システムを提案する。 現在、このシステムはStudierfenster (http://studierfenster.tugraz.at/)に統合されている。 深層学習アルゴリズムによって強化されたシステムは、頭蓋骨の欠落部分(すなわち頭蓋骨形状完了)を自動的に復元し、完成頭蓋骨から欠損頭蓋骨を差し引いて所望のインプラントを生成する。 生成されたインプラントはSTereoLithography (.stl)形式で、システムのブラウザインターフェースから直接ダウンロードすることができる。 そして、インプラントモデルを3Dプリンタに送信して、ロコインプラントの製造を行う。 さらに、標準フォーマットのおかげで、ユーザは必要に応じて別のアプリケーションにモデルをロードして後処理することができる。 このような自動頭蓋インプラント設計システムは、頭蓋骨欠損修復(例えば頭蓋形成術)に関連する手術の現在のルーチンを改善するために臨床実践に統合することができる。 本システムは現在, 教育・研究のみを対象としているが, 迅速な患者固有のインプラント設計のための添加物製造の応用と見なすことができる。

We introduce a fully automatic system for cranial implant design, a common task in cranioplasty operations. The system is currently integrated in Studierfenster (http://studierfenster.tugraz.at/), an online, cloud-based medical image processing platform for medical imaging applications. Enhanced by deep learning algorithms, the system automatically restores the missing part of a skull (i.e., skull shape completion) and generates the desired implant by subtracting the defective skull from the completed skull. The generated implant can be downloaded in the STereoLithography (.stl) format directly via the browser interface of the system. The implant model can then be sent to a 3D printer for in loco implant manufacturing. Furthermore, thanks to the standard format, the user can thereafter load the model into another application for post-processing whenever necessary. Such an automatic cranial implant design system can be integrated into the clinical practice to improve the current routine for surgeries related to skull defect repair (e.g., cranioplasty). Our system, although currently intended for educational and research use only, can be seen as an application of additive manufacturing for fast, patient-specific implant design.
翻訳日:2022-11-26 07:32:55 公開日:2020-06-01
# PlenoptiSign: Plenoptic Imagingのための光学設計ツール

PlenoptiSign: an optical design tool for plenoptic imaging ( http://arxiv.org/abs/2006.01015v1 )

ライセンス: Link先を確認
Christopher Hahne, Amar Aggoun(参考訳) plenoptic imagingは、単一の単眼対物レンズと、画像センサに取り付けられたマイクロレンズの配列によって、光場を捉えることができる。 ライトフィールドの深度平面の距離は、取得前にははっきりしない。 最近の研究では、サンプリングされた深度位置はシステムの光学部品のパラメータに依存することが示されている。 本稿では,これらの発見をPythonソフトウェアパッケージとして実装したPlenoptiSignについて述べる。

Plenoptic imaging enables a light-field to be captured by a single monocular objective lens and an array of micro lenses attached to an image sensor. Metric distances of the light-field's depth planes remain unapparent prior to acquisition. Recent research showed that sampled depth locations rely on the parameters of the system's optical components. This paper presents PlenoptiSign, which implements these findings as a Python software package to help assist in an experimental or prototyping stage of a plenoptic system.
翻訳日:2022-11-26 07:32:36 公開日:2020-06-01
# モータースポーツにおけるAIを活用したセマンティックキャラクタ認識の実装

Implementing AI-powered semantic character recognition in motor racing sports ( http://arxiv.org/abs/2006.00904v1 )

ライセンス: Link先を確認
Jose David Fern\'andez Rodr\'iguez, David Daniel Albarrac\'in Molina, Jes\'us Hormigo Cebolla(参考訳) しばしば、モーターレース番組のテレビプロデューサーは、視覚とテキストのメディアをオーバーレイし、ドライバーの名前、位置、写真などドライバーに関するオンスクリーンのコンテキストを提供する。 通常は、人間のプロデューサーが画面上のドライバーを視覚的に識別し、それぞれのドライバーに関連するコンテキストメディアを手動でタグ付けし、カメラマンや他のテレビプロデューサーとコーディネートして、コンテキストメディアがスクリーン上にある間にレーサーをショットに留める。 この労働集約的で高度に専用なプロセスは、主に静的オーバーレイに適しており、短いショットで多数のドライバーのコンテキスト情報を同時にオーバーレイすることが困難である。 本稿では,これらのタスクをほとんど自動化し,人間の介入なしに画面上でのドライバの動作を,ディープラーニングを用いて動的にオーバーレイするシステムを提案する。 このシステムは単なる理論ではなく、フォーミュラEレースのテレビ製作会社によるライブレース中にすでに実装が展開されている。 実装中に直面する課題を提示し,その影響について考察する。 さらに、この新しい技術開発の将来的応用とロードマップについても紹介する。

Oftentimes TV producers of motor-racing programs overlay visual and textual media to provide on-screen context about drivers, such as a driver's name, position or photo. Typically this is accomplished by a human producer who visually identifies the drivers on screen, manually toggling the contextual media associated to each one and coordinating with cameramen and other TV producers to keep the racer in the shot while the contextual media is on screen. This labor-intensive and highly dedicated process is mostly suited to static overlays and makes it difficult to overlay contextual information about many drivers at the same time in short shots. This paper presents a system that largely automates these tasks and enables dynamic overlays using deep learning to track the drivers as they move on screen, without human intervention. This system is not merely theoretical, but an implementation has already been deployed during live races by a TV production company at Formula E races. We present the challenges faced during the implementation and discuss the implications. Additionally, we cover future applications and roadmap of this new technological development.
翻訳日:2022-11-26 07:26:32 公開日:2020-06-01
# ロバストな顔関係検証のための多視点深部特徴

Multi-view Deep Features for Robust Facial Kinship Verification ( http://arxiv.org/abs/2006.01315v1 )

ライセンス: Link先を確認
Oualid Laiadi and Abdelmalik Ouamane and Abdelhamid Benakcha and Abdelmalik Taleb-Ahmed and Abdenour Hadid(参考訳) 顔画像の自動親和性検証は、機械学習コミュニティにおける新たな研究トピックである。 本稿では,多視点深度特徴に基づく効果的な顔特徴抽出モデルを提案する。 そこで本研究では,VGG-F,VGG-M,VGG-S,VGG-Faceの各モデルの8つの特徴層(FC6,FC7層)を用いて,クラス共分散正規化(MSIDA+WCCN)法を組み込んだ多線形側情報に基づく識別分析の訓練を行った。 さらに,wccn法統合に基づくメトリクス学習手法が,単純なスコアリングコサイン類似性(ssc)法をいかに改善するかを示す。 我々は、rfiw'20 コンペティションにおいて 8 つの深い特徴の結合を用いて ssc 法を用いた。 したがって、計量学習法におけるWCCNの統合は、深い特徴重みによってもたらされるクラス内変動効果を減少させる。 本研究では,4つの親子関係(父子,父子,母子,母子)を用いて,KinFaceW-IとKinFaceW-IIデータベースという2つの親子関係のベンチマークを行った。 そこで提案したMSIDA+WCCN法は,KinFaceW-IデータベースとKinFaceW-IIデータベースでそれぞれ12.80%,14.65%のSSC法を改善した。 得られた結果は、ディープラーニングに依存するものを含む、いくつかの現代的な方法と正に比較される。

Automatic kinship verification from facial images is an emerging research topic in machine learning community. In this paper, we proposed an effective facial features extraction model based on multi-view deep features. Thus, we used four pre-trained deep learning models using eight features layers (FC6 and FC7 layers of each VGG-F, VGG-M, VGG-S and VGG-Face models) to train the proposed Multilinear Side-Information based Discriminant Analysis integrating Within Class Covariance Normalization (MSIDA+WCCN) method. Furthermore, we show that how can metric learning methods based on WCCN method integration improves the Simple Scoring Cosine similarity (SSC) method. We refer that we used the SSC method in RFIW'20 competition using the eight deep features concatenation. Thus, the integration of WCCN in the metric learning methods decreases the intra-class variations effect introduced by the deep features weights. We evaluate our proposed method on two kinship benchmarks namely KinFaceW-I and KinFaceW-II databases using four Parent-Child relations (Father-Son, Father-Daughter, Mother-Son and Mother-Daughter). Thus, the proposed MSIDA+WCCN method improves the SSC method with 12.80% and 14.65% on KinFaceW-I and KinFaceW-II databases, respectively. The results obtained are positively compared with some modern methods, including those that rely on deep learning.
翻訳日:2022-11-26 07:26:02 公開日:2020-06-01
# オンライン談話における文脈分離器を用いたサルカズム検出

Sarcasm Detection using Context Separators in Online Discourse ( http://arxiv.org/abs/2006.00850v1 )

ライセンス: Link先を確認
Kartikey Pant and Tanvi Dadu(参考訳) サルカズム(Sarcasm)は、意味が暗黙的に伝えられる複雑な言語である。 畳み込み式であるため、サルカズムの検出は明らかな問題である。 サルカズム認識の難しさには、日常的なコミュニケーションにおける誤解など多くの落とし穴があり、自動サルカズム検出に焦点が当てられている。 Figurative Language Processing (FigLang 2020)ワークショップの第2版では、sarcasm検出の共有タスクが2つのデータセットをリリースした。 本研究では,RoBERTa_largeを用いて両方のデータセットの皮肉を検出する。 さらに,3種類の入力 - Response-only, Context-Response, Context-Response (Separated) を用いた文脈単語埋め込みモデルの性能向上における文脈の重要性を主張する。 提案アーキテクチャは両方のデータセットに対して競合的に動作することを示す。 また,redditデータセットのf1-scoreでは,コンテキストとターゲット応答の分離トークンの追加により5.13%の改善が見られた。

Sarcasm is an intricate form of speech, where meaning is conveyed implicitly. Being a convoluted form of expression, detecting sarcasm is an assiduous problem. The difficulty in recognition of sarcasm has many pitfalls, including misunderstandings in everyday communications, which leads us to an increasing focus on automated sarcasm detection. In the second edition of the Figurative Language Processing (FigLang 2020) workshop, the shared task of sarcasm detection released two datasets, containing responses along with their context sampled from Twitter and Reddit. In this work, we use RoBERTa_large to detect sarcasm in both the datasets. We further assert the importance of context in improving the performance of contextual word embedding based models by using three different types of inputs - Response-only, Context-Response, and Context-Response (Separated). We show that our proposed architecture performs competitively for both the datasets. We also show that the addition of a separation token between context and target response results in an improvement of 5.13% in the F1-score in the Reddit dataset.
翻訳日:2022-11-26 07:25:17 公開日:2020-06-01
# 会話型ソーシャルメディアテキストにおける開示のモデル化と支援のためのBERTベースのアンサンブル

BERT-based Ensembles for Modeling Disclosure and Support in Conversational Social Media Text ( http://arxiv.org/abs/2006.01222v1 )

ライセンス: Link先を確認
Tanvi Dadu, Kartikey Pant and Radhika Mamidi(参考訳) 人間の会話の開始と保持の方法を理解することへの関心が高まっている。 会話に対する感情的な理解は、話者が感情を使って状況やお互いに反応する方法の問題に焦点を当てている。 cl-aff共有タスクでは、オーガナイザがget it #offmychestデータセットをリリースした。このデータセットには、カジュアルな会話や告白的な会話からのredditコメントが含まれており、開示とサポート性の特徴がラベル付けされている。 本稿では,RoBERTa と ALBERT を用いた文脈適応型単語埋め込みを用いた予測アンサンブルモデルを提案する。 私たちのモデルは、すべての考慮されたメトリクスでベースモデルよりも優れており、f1スコアで3〜%$の改善を達成しています。 さらに,データセットへの影響を新たな特徴付けしながら,統計的分析を行い,所定のデータセットに対する深い洞察を概説する。

There is a growing interest in understanding how humans initiate and hold conversations. The affective understanding of conversations focuses on the problem of how speakers use emotions to react to a situation and to each other. In the CL-Aff Shared Task, the organizers released Get it #OffMyChest dataset, which contains Reddit comments from casual and confessional conversations, labeled for their disclosure and supportiveness characteristics. In this paper, we introduce a predictive ensemble model exploiting the finetuned contextualized word embeddings, RoBERTa and ALBERT. We show that our model outperforms the base models in all considered metrics, achieving an improvement of $3\%$ in the F1 score. We further conduct statistical analysis and outline deeper insights into the given dataset while providing a new characterization of impact for the dataset.
翻訳日:2022-11-26 07:24:43 公開日:2020-06-01
# NEMA:大規模ネットワーク管理データベースの自動統合

NEMA: Automatic Integration of Large Network Management Databases ( http://arxiv.org/abs/2006.01294v1 )

ライセンス: Link先を確認
Fubao Wu, Han Hee Song, Jiangtao Yin, Lixin Gao, Mario Baldi, Narendra Anand(参考訳) ネットワーク管理は、故障分析、障害予測、パフォーマンス監視、改善のいずれにおいても、一般的に異なるソースからの大量のデータを必要とする。 これらのソースを効果的に統合し管理するには、スキーマやオントロジー間のセマンティックマッチを自動的に見つけることが重要です。 既存のデータベースマッチングのアプローチは主に2つのカテゴリに分類される。 ひとつは、フィールド名、データ型、制約、スキーマ構造などのスキーマプロパティに基づいたスキーマレベルのマッチングに焦点を当てている。 ネットワーク管理データベースには、異なる部門やグループから大量のテーブル(例えば、ネットワーク製品、インシデント、セキュリティアラート、ログ)が含まれており、不均一なフィールド名やスキーマ特性を持っている。 これらのスキーマプロパティと一致させることは信頼できない。 他のカテゴリは、大規模ネットワーク管理データベースのマッチングには適用できない汎用文字列類似技術を用いたインスタンスレベルのマッチングに基づいている。 本稿では,大規模なNEMA(Network MAnagement Database)のインスタンスレベルマッチングを効果的に利用するためのマッチング手法を開発した。 我々は数値場と非数値場の両方のマッチングメトリックとスコアを設計し、これらのフィールドをマッチングするためのアルゴリズムを提案する。 大規模ネットワーク管理データベースにおいて,地上真理フィールドペアを用いた実験を行い,nemaの有効性と効率を評価した。 1,458のフィールドを持つ大規模データベースにおける測定結果から,nemaの精度は最大95%であることがわかった。 2%-10%の精度と5x-14xの高速化を実現している。

Network management, whether for malfunction analysis, failure prediction, performance monitoring and improvement, generally involves large amounts of data from different sources. To effectively integrate and manage these sources, automatically finding semantic matches among their schemas or ontologies is crucial. Existing approaches on database matching mainly fall into two categories. One focuses on the schema-level matching based on schema properties such as field names, data types, constraints and schema structures. Network management databases contain massive tables (e.g., network products, incidents, security alert and logs) from different departments and groups with nonuniform field names and schema characteristics. It is not reliable to match them by those schema properties. The other category is based on the instance-level matching using general string similarity techniques, which are not applicable for the matching of large network management databases. In this paper, we develop a matching technique for large NEtwork MAnagement databases (NEMA) deploying instance-level matching for effective data integration and connection. We design matching metrics and scores for both numerical and non-numerical fields and propose algorithms for matching these fields. The effectiveness and efficiency of NEMA are evaluated by conducting experiments based on ground truth field pairs in large network management databases. Our measurement on large databases with 1,458 fields, each of which contains over 10 million records, reveals that the accuracies of NEMA are up to 95%. It achieves 2%-10% higher accuracy and 5x-14x speedup over baseline methods.
翻訳日:2022-11-26 07:24:29 公開日:2020-06-01
# hiv治療における患者維持のための機械学習システム

A Machine Learning System for Retaining Patients in HIV Care ( http://arxiv.org/abs/2006.04944v1 )

ライセンス: Link先を確認
Avishek Kumar, Arthi Ramachandran, Adolfo De Unanue, Christina Sung, Joe Walsh, John Schneider, Jessica Ridgway, Stephanie Masiello Schuette, Jeff Lauritsen, Rayid Ghani(参考訳) 医療におけるHIV (PLWH) の保有は、新型ウイルスの感染を予防し、PLWHが正常で健康な寿命を維持できる上で最重要である。 HIVプロバイダとの定期的なアポイントメントを維持し、毎日薬を服用することは極めて困難である。 plwhの51%は薬に固執せず、最終的には医療から離脱する。 個人をケアに再リンクする現在の方法は(患者が退院した後)反応性があり、あまり効果がない。 我々は,シカゴ大学HIVクリニックとシカゴ公衆衛生省の医療費の削減に最もリスクがある人を予測するシステムについて述べる。 モデルは、リソース制約下での予測性能、時間の安定性、公平性に基づいて選択された。 本システムは,臨床現場におけるポイント・オブ・ケア・システムや,都市レベルでの定期的な介入を支援するバッチ予測システムとして適用可能である。 本モデルでは,臨床モデルのベースラインよりも3倍,都市全体モデルのベースラインより2.3倍高い性能を示した。 コードはgithubでリリースされており、この方法、特にフェアネスにフォーカスすることで、hivの流行を抑制するために、他のクリニックや公衆衛生機関に採用されることを願っています。

Retaining persons living with HIV (PLWH) in medical care is paramount to preventing new transmissions of the virus and allowing PLWH to live normal and healthy lifespans. Maintaining regular appointments with an HIV provider and taking medication daily for a lifetime is exceedingly difficult. 51% of PLWH are non-adherent with their medications and eventually drop out of medical care. Current methods of re-linking individuals to care are reactive (after a patient has dropped-out) and hence not very effective. We describe our system to predict who is most at risk to drop-out-of-care for use by the University of Chicago HIV clinic and the Chicago Department of Public Health. Models were selected based on their predictive performance under resource constraints, stability over time, as well as fairness. Our system is applicable as a point-of-care system in a clinical setting as well as a batch prediction system to support regular interventions at the city level. Our model performs 3x better than the baseline for the clinical model and 2.3x better than baseline for the city-wide model. The code has been released on github and we hope this methodology, particularly our focus on fairness, will be adopted by other clinics and public health agencies in order to curb the HIV epidemic.
翻訳日:2022-11-26 07:24:07 公開日:2020-06-01
# 境界下最適区間計画の再検討

Revisiting Bounded-Suboptimal Safe Interval Path Planning ( http://arxiv.org/abs/2006.01195v1 )

ライセンス: Link先を確認
Konstantin Yakovlev, Anton Andreychuk, Roni Stern(参考訳) 安全インターバル経路計画(SIPP)は動的障害物の存在下で経路を見つけるための強力なアルゴリズムである。 sippは最適な解を返す。 しかし、ロボットの経路計画などのSIPPの実践的応用の多くは、計画時間短縮のために最適性をトレードオフしたい。 本稿では,有界な準最適SIPPを構築するための様々な方法を検討し,その長所と短所について議論する。 sippの異なる有界-準最適バージョンを実験的に比較する。 普遍的な勝者はいないが、結果は各メソッドがいつ使われるべきかについての洞察を提供する。

Safe-interval path planning (SIPP) is a powerful algorithm for finding a path in the presence of dynamic obstacles. SIPP returns provably optimal solutions. However, in many practical applications of SIPP such as path planning for robots, one would like to trade-off optimality for shorter planning time. In this paper we explore different ways to build a bounded-suboptimal SIPP and discuss their pros and cons. We compare the different bounded-suboptimal versions of SIPP experimentally. While there is no universal winner, the results provide insights into when each method should be used.
翻訳日:2022-11-26 07:16:48 公開日:2020-06-01
# ディープラーニングを用いたHDマップの自動構築とラベル付け

Automatic Building and Labeling of HD Maps with Deep Learning ( http://arxiv.org/abs/2006.00644v1 )

ライセンス: Link先を確認
Mahdi Elhousni, Yecheng Lyu, Ziming Zhang, Xinming Huang(参考訳) 自動運転車がますます普及している世界では、この新しいテクノロジーに十分なインフラを作ることが不可欠だ。 これにはHDマップを正確かつ効率的に構築・ラベル付けすることが含まれる。 今日では、hdマップを作成するプロセスには多くの人間の入力が必要です。 本稿では,生センサデータからラベル付きHDマップを生成する新しい手法を提案する。 実験車両から収集したデータを用いて,いくつかの都市シナリオで提案手法を実装しテストした。 その結果,提案手法により高精度なHDマップを作成できることがわかった。 このアプローチは、HDマップの構築とラベル付けのプロセスを高速化する。

In a world where autonomous driving cars are becoming increasingly more common, creating an adequate infrastructure for this new technology is essential. This includes building and labeling high-definition (HD) maps accurately and efficiently. Today, the process of creating HD maps requires a lot of human input, which takes time and is prone to errors. In this paper, we propose a novel method capable of generating labelled HD maps from raw sensor data. We implemented and tested our methods on several urban scenarios using data collected from our test vehicle. The results show that the pro-posed deep learning based method can produce highly accurate HD maps. This approach speeds up the process of building and labeling HD maps, which can make meaningful contribution to the deployment of autonomous vehicle.
翻訳日:2022-11-26 07:16:39 公開日:2020-06-01
# 画像調和のための前景対応意味表現

Foreground-aware Semantic Representations for Image Harmonization ( http://arxiv.org/abs/2006.00809v1 )

ライセンス: Link先を確認
Konstantin Sofiiuk, Polina Popenova and Anton Konushin(参考訳) 画像調和は写真編集において重要なステップであり、前景の外観を調整して背景との整合性を持たせることで合成画像の視覚的整合性を実現する。 コンポジットを調和させるための以前のアプローチは、エンコーダ-デコーダネットワークをスクラッチからトレーニングすることに基づいているため、ニューラルネットワークがオブジェクトの高レベル表現を学ぶことが困難になる。 本稿では,事前学習型分類ネットワークによって学習された高レベルの特徴空間を利用する新しいアーキテクチャを提案する。 我々は既存のエンコーダ-デコーダアーキテクチャと事前訓練された前景対応深層高解像度ネットワークの組み合わせとしてモデルを作成する。 既存の画像調和ベンチマークにおいて提案手法を広範に評価し,MSEとPSNRの指標から新たな最先端の手法を構築した。 コードとトレーニングされたモデルは \url{https://github.com/saic-vul/image_harmonization} で入手できる。

Image harmonization is an important step in photo editing to achieve visual consistency in composite images by adjusting the appearances of foreground to make it compatible with background. Previous approaches to harmonize composites are based on training of encoder-decoder networks from scratch, which makes it challenging for a neural network to learn a high-level representation of objects. We propose a novel architecture to utilize the space of high-level features learned by a pre-trained classification network. We create our models as a combination of existing encoder-decoder architectures and a pre-trained foreground-aware deep high-resolution network. We extensively evaluate the proposed method on existing image harmonization benchmark and set up a new state-of-the-art in terms of MSE and PSNR metrics. The code and trained models are available at \url{https://github.com/saic-vul/image_harmonization}.
翻訳日:2022-11-26 07:15:17 公開日:2020-06-01
# LFTag: 低空間周波数でスケーラブルなビジュアルフィデューシャルシステム

LFTag: A Scalable Visual Fiducial System with Low Spatial Frequency ( http://arxiv.org/abs/2006.00842v1 )

ライセンス: Link先を確認
Ben Wang(参考訳) 視覚画像システムは多くのロボティクスの重要なコンポーネントであり、6-DOF単眼の相対的なポーズ推定とターゲット同定のためのAR/VRアプリケーションである。 本稿では,空間周波数制約内のデータ密度を最適化するトポロジカル検出と相対位置データ符号化に基づく視覚情報処理システム LFTag を提案する。 このマーカーは、ロバストな幾何学的およびトポロジカルな偽陽性の拒絶と組み合わせて、すべてのマーカービットをデータとして使用できる回転曖昧性を解決するために構築されている。 従来の四角形マーカー( AprilTag)とトポロジカルマーカー( TopoTag)をシミュレーションで比較した場合,提案するフィデューシャルシステム( LFTag)は辞書のサイズと範囲に大きな進歩をもたらす。 LFTag 3x3 は AprilTag 25h9 の辞書サイズ 546 倍、LFTag 4x4 は AprilTag 41h12 の辞書サイズ 126 倍、同時に長い検出範囲を達成している。 LFTag 3x3は、同じ辞書サイズでTopoTag 4x4の検出範囲を2倍以上にする。

Visual fiducial systems are a key component of many robotics and AR/VR applications for 6-DOF monocular relative pose estimation and target identification. This paper presents LFTag, a visual fiducial system based on topological detection and relative position data encoding which optimizes data density within spatial frequency constraints. The marker is constructed to resolve rotational ambiguity, which combined with the robust geometric and topological false positive rejection, allows all marker bits to be used for data. When compared to existing state-of-the-art square binary markers (AprilTag) and topological markers (TopoTag) in simulation, the proposed fiducial system (LFTag) offers significant advances in dictionary size and range. LFTag 3x3 achieves 546 times the dictionary size of AprilTag 25h9 and LFTag 4x4 achieves 126 thousand times the dictionary size of AprilTag 41h12 while simultaneously achieving longer detection range. LFTag 3x3 also achieves more than twice the detection range of TopoTag 4x4 at the same dictionary size.
翻訳日:2022-11-26 07:14:50 公開日:2020-06-01
# グリーンで高速な依存性解析のための蒸留ニューラルネットワーク

Distilling Neural Networks for Greener and Faster Dependency Parsing ( http://arxiv.org/abs/2006.00844v1 )

ライセンス: Link先を確認
Mark Anderson, Carlos G\'omez-Rodr\'iguez(参考訳) 自然言語処理研究の炭素フットプリントは、大規模で非効率的なニューラルネットワークの実装に依存しているため、近年増加している。 蒸留は、大きなモデルから小さなモデルへの知識を付与しようとするネットワーク圧縮技術である。 教師・学生蒸留法を用いて,精度と解析速度に関して最先端のパフォーマンスを得るバイアフィン依存型パーサーの効率を向上させる(dozat and manning, 2017)。 元のモデルのトレーニング可能なパラメータの20%まで蒸留すると、推論時にCPU(GPU)のベースラインモデルよりも2.30倍 (1.19倍)高速でありながら、UASとLASの両方で平均$\sim$1の減少しか観測できない。 また,木バンクの80%まで圧縮した場合,若干の性能向上が観察された。 最後に、蒸留により、ペン・ツリーバンクで最速の近代的なパーサーよりも速いだけでなく、より正確なパーサーを得る。

The carbon footprint of natural language processing research has been increasing in recent years due to its reliance on large and inefficient neural network implementations. Distillation is a network compression technique which attempts to impart knowledge from a large model to a smaller one. We use teacher-student distillation to improve the efficiency of the Biaffine dependency parser which obtains state-of-the-art performance with respect to accuracy and parsing speed (Dozat and Manning, 2017). When distilling to 20\% of the original model's trainable parameters, we only observe an average decrease of $\sim$1 point for both UAS and LAS across a number of diverse Universal Dependency treebanks while being 2.30x (1.19x) faster than the baseline model on CPU (GPU) at inference time. We also observe a small increase in performance when compressing to 80\% for some treebanks. Finally, through distillation we attain a parser which is not only faster but also more accurate than the fastest modern parser on the Penn Treebank.
翻訳日:2022-11-26 07:08:18 公開日:2020-06-01
# 毒性検出:コンテキストは本当に重要か?

Toxicity Detection: Does Context Really Matter? ( http://arxiv.org/abs/2006.00998v1 )

ライセンス: Link先を確認
John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos(参考訳) モデレーションはオンラインの健全な議論を促進するのに不可欠である。 いくつかの‘毒性’検出データセットとモデルが公開されているが、その多くは投稿のコンテキストを無視し、コメントが独立して判断されたと暗黙的に仮定している。 この仮定を2つの質問に焦点をあてて検討する。 (a)人間の判断には文脈が影響し、 (b)コンディショニングは毒性検出システムの性能を向上させるか? 我々はウィキペディアの会話を実験し、文脈の概念をスレッド内の前の記事と議論タイトルに限定した。 文脈は、ポストの知覚された毒性を増幅または緩和できる。 さらに、手動でラベル付けされたポストの小さいが重要なサブセット(実験の5%)は、アノテータがコンテキストを持っていなければ、反対の毒性ラベルを持つことになる。 驚くべきことに、コンテクストが毒性分類器の性能を実際に向上させる証拠も見つからず、様々な分類器とメカニズムを試してコンテクストを意識させている。 これは、コンテキストにアノテートされたコメントのより大きなデータセットの必要性を示している。 コードとデータを公開しています。

Moderation is crucial to promoting healthy on-line discussions. Although several `toxicity' detection datasets and models have been published, most of them ignore the context of the posts, implicitly assuming that comments maybe judged independently. We investigate this assumption by focusing on two questions: (a) does context affect the human judgement, and (b) does conditioning on context improve performance of toxicity detection systems? We experiment with Wikipedia conversations, limiting the notion of context to the previous post in the thread and the discussion title. We find that context can both amplify or mitigate the perceived toxicity of posts. Moreover, a small but significant subset of manually labeled posts (5% in one of our experiments) end up having the opposite toxicity labels if the annotators are not provided with context. Surprisingly, we also find no evidence that context actually improves the performance of toxicity classifiers, having tried a range of classifiers and mechanisms to make them context aware. This points to the need for larger datasets of comments annotated in context. We make our code and data publicly available.
翻訳日:2022-11-26 07:07:41 公開日:2020-06-01
# 42はサブタイリング指向音声翻訳におけるあらゆることへの答えか?

Is 42 the Answer to Everything in Subtitling-oriented Speech Translation? ( http://arxiv.org/abs/2006.01080v1 )

ライセンス: Link先を確認
Alina Karakanta, Matteo Negri, Marco Turchi(参考訳) 大量のオーディオヴィジュアルコンテンツが毎日利用できるようになる中、サブトタイリングは情報の拡散においてますます重要になっている。 ニューラル機械翻訳(NMT)は、オーディオヴィジュアルコンテンツを翻訳する過程を高速化するが、ソース言語を翻訳し、テキストを適切な字幕に分割するためには、大きな手作業が必要である。 タイミングとセグメンテーションの観点から適切な字幕を作成することは、音声に含まれる情報(発話時間、自然なポーズ)に大きく依存する。 本研究では,音声翻訳(ST)をサブタイピングに適用する2つの手法について検討する。 a) 直接のエンドツーエンドと b) 古典的なカスケードアプローチ。 本稿では,生成した字幕の空間的および時間的置換制約への適合性を改善するために,ソース言語音声へのアクセスの利点について論じるとともに,字幕指向STの場合,長さがすべてに対する答えではないことを示す。

Subtitling is becoming increasingly important for disseminating information, given the enormous amounts of audiovisual content becoming available daily. Although Neural Machine Translation (NMT) can speed up the process of translating audiovisual content, large manual effort is still required for transcribing the source language, and for spotting and segmenting the text into proper subtitles. Creating proper subtitles in terms of timing and segmentation highly depends on information present in the audio (utterance duration, natural pauses). In this work, we explore two methods for applying Speech Translation (ST) to subtitling: a) a direct end-to-end and b) a classical cascade approach. We discuss the benefit of having access to the source language speech for improving the conformity of the generated subtitles to the spatial and temporal subtitling constraints and show that length is not the answer to everything in the case of subtitling-oriented ST.
翻訳日:2022-11-26 07:07:11 公開日:2020-06-01
# NSTM: Bloombergのリアルタイムクエリ駆動ニュース概要

NSTM: Real-Time Query-Driven News Overview Composition at Bloomberg ( http://arxiv.org/abs/2006.01117v1 )

ライセンス: Link先を確認
Joshua Bambrick, Minjie Xu, Andy Almonte, Igor Malioutov, Guim Perarnau, Vittorio Selo and Iat Chong Chan(参考訳) 世界中の数十万の情報源からの何百万ものニュース記事が毎日ニュースアグリゲータに載っている。 このような量のニュースを仮定すると、ほとんど不可能な課題だ。 例えば、ブルームバーグの英国に関するニュースを検索する読者は、通常の日に1万記事を見つけることになる。 米アップルは1日当たり約1800件のニュース記事を掲載している。 私たちは、大量のニュースを短く簡単に吸収できるような、新しい種類の要約エンジンが必要であることに気付きました。 このシステムはノイズや重複をフィルターして、企業や国、市場に関する重要なニュースを識別し要約する。 ユーザクエリが与えられた場合、BloombergのソリューションであるKey News Themes(NSTM)は、最先端のセマンティッククラスタリング技術と新しい要約手法を活用して、包括的かつ簡潔なダイジェストを生成し、ニュース消費プロセスを劇的に単純化する。 NSTMは世界中の数十万の読者が利用でき、毎日数千のリクエストを秒以下のレイテンシで処理できる。 ACL 2020ではNSTMのデモを紹介する。

Millions of news articles from hundreds of thousands of sources around the globe appear in news aggregators every day. Consuming such a volume of news presents an almost insurmountable challenge. For example, a reader searching on Bloomberg's system for news about the U.K. would find 10,000 articles on a typical day. Apple Inc., the world's most journalistically covered company, garners around 1,800 news articles a day. We realized that a new kind of summarization engine was needed, one that would condense large volumes of news into short, easy to absorb points. The system would filter out noise and duplicates to identify and summarize key news about companies, countries or markets. When given a user query, Bloomberg's solution, Key News Themes (or NSTM), leverages state-of-the-art semantic clustering techniques and novel summarization methods to produce comprehensive, yet concise, digests to dramatically simplify the news consumption process. NSTM is available to hundreds of thousands of readers around the world and serves thousands of requests daily with sub-second latency. At ACL 2020, we will present a demo of NSTM.
翻訳日:2022-11-26 07:06:56 公開日:2020-06-01
# 拡張機能付き音声要約のための効果的な文脈言語モデリングフレームワーク

An Effective Contextual Language Modeling Framework for Speech Summarization with Augmented Features ( http://arxiv.org/abs/2006.01189v1 )

ライセンス: Link先を確認
Shi-Yan Weng, Tien-Hong Lo, Berlin Chen(参考訳) 音声情報に付随する膨大なマルチメディアが,効率的な自動要約手法の開発を急務に進めている。 この目的のために,教師付きディープニューラルネットワークを用いた音声要約手法の急速な進歩が見られた。 近年,BERT(Bidirectional Encoder Representations from Transformers)モデルが提案され,質問応答や言語理解など多くの自然言語処理(NLP)タスクにおいて記録的な成功を収めている。 この観点から,本稿では,少なくとも3倍のコントリビューションを達成しつつ,最先端のBERTに基づく音声要約モデルのコンテキスト化と強化を行う。 まず,不完全な自動音声認識(ASR)による負の効果を軽減するために,信頼度スコアを文表現に組み込むことを検討した。 また,文位置や逆文書頻度(IDF)統計などの構造的・言語的特徴を付加したBERTから得られた文の埋め込みも強化した。 最後に,提案手法の有効性をベンチマークデータセット上で検証し,いくつかの古典的音声要約法と比較した。

Tremendous amounts of multimedia associated with speech information are driving an urgent need to develop efficient and effective automatic summarization methods. To this end, we have seen rapid progress in applying supervised deep neural network-based methods to extractive speech summarization. More recently, the Bidirectional Encoder Representations from Transformers (BERT) model was proposed and has achieved record-breaking success on many natural language processing (NLP) tasks such as question answering and language understanding. In view of this, we in this paper contextualize and enhance the state-of-the-art BERT-based model for speech summarization, while its contributions are at least three-fold. First, we explore the incorporation of confidence scores into sentence representations to see if such an attempt could help alleviate the negative effects caused by imperfect automatic speech recognition (ASR). Secondly, we also augment the sentence embeddings obtained from BERT with extra structural and linguistic features, such as sentence position and inverse document frequency (IDF) statistics. Finally, we validate the effectiveness of our proposed method on a benchmark dataset, in comparison to several classic and celebrated speech summarization methods.
翻訳日:2022-11-26 07:06:21 公開日:2020-06-01
# ProTECTIII多施設臨床試験のCTデータを用いた外傷性脳病変に対する2次元画像分割アルゴリズムの比較検討

A comparative study of 2D image segmentation algorithms for traumatic brain lesions using CT data from the ProTECTIII multicenter clinical trial ( http://arxiv.org/abs/2006.01263v1 )

ライセンス: Link先を確認
Shruti Jadon, Owen P. Leary, Ian Pan, Tyler J. Harder, David W. Wright, Lisa H. Merck, Derek L. Merck(参考訳) 医療画像の自動分割は、臨床医や機械学習研究者にも広く関心がある。 セグメンテーションの目的は、医療画像内の関心領域の可視化と定量化の効率と簡易性を高めることである。 非造影頭CT(non-contrast head Computed tomography)から脳病変の分画を自動化する試みにおいて特に困難であることが証明された、画像内の多パラメータ不均一性のため、画像分割は難しい課題である。 本研究では,中等度から重度の外傷性脳損傷(tbi)後に発見された出血性病変の異なる表現型を分割するために,複数のディープラーニングアーキテクチャを実験した。 内皮内出血(IPH)、硬膜下血腫(SDH)、硬膜外血腫(EDH)、外傷性腸重積などがある。 UNet++ 2D Architecture with Focal Tversky Loss Functionを用いたDice Coefficient1の最適スコア0.94を達成でき、心室中出血症例ではUNet 2D with Binary Cross-Entropy Loss Function (IPH) を用いて0.85から上昇した。 また,同じ設定で,軸外出血例と外傷性重傷の場合,それぞれ0.90,0.86のdice係数スコアを得ることができた。

Automated segmentation of medical imaging is of broad interest to clinicians and machine learning researchers alike. The goal of segmentation is to increase efficiency and simplicity of visualization and quantification of regions of interest within a medical image. Image segmentation is a difficult task because of multiparametric heterogeneity within the images, an obstacle that has proven especially challenging in efforts to automate the segmentation of brain lesions from non-contrast head computed tomography (CT). In this research, we have experimented with multiple available deep learning architectures to segment different phenotypes of hemorrhagic lesions found after moderate to severe traumatic brain injury (TBI). These include: intraparenchymal hemorrhage (IPH), subdural hematoma (SDH), epidural hematoma (EDH), and traumatic contusions. We were able to achieve an optimal Dice Coefficient1 score of 0.94 using UNet++ 2D Architecture with Focal Tversky Loss Function, an increase from 0.85 using UNet 2D with Binary Cross-Entropy Loss Function in intraparenchymal hemorrhage (IPH) cases. Furthermore, using the same setting, we were able to achieve the Dice Coefficient score of 0.90 and 0.86 in cases of Extra-Axial bleeds and Traumatic contusions, respectively.
翻訳日:2022-11-26 06:59:29 公開日:2020-06-01
# 眼球運動バイオメトリックス:2004年から2019年までの文献分析

Eye Movements Biometrics: A Bibliometric Analysis from 2004 to 2019 ( http://arxiv.org/abs/2006.01310v1 )

ライセンス: Link先を確認
Antonio Ricardo Alexandre Brasil and Jefferson Oliveira Andrade and Karin Satie Komati(参考訳) 眼球運動に基づく人物識別は、抗スプーフィング耐性であり、継続的な認証に有用であるため、ますます注目を集めている。 したがって、研究者は著者、雑誌、会議、機関など、この分野で誰と何に関係があるかを知ることが重要である。 本稿では,バイオメトリックスを用いた眼球運動バイオメトリックス分野の包括的定量的概観について述べる。 すべてのデータと分析は2004年から2019年にかけて出版された英語で書かれた文書に基づいている。 スコパスは情報検索に使われた。 この研究は、時間的進化、主著者、最も引用された論文、主著誌、コンペティション、コラボレーションネットワークに焦点を当てた。

Person identification based on eye movements is getting more and more attention, as it is anti-spoofing resistant and can be useful for continuous authentication. Therefore, it is noteworthy for researchers to know who and what is relevant in the field, including authors, journals, conferences, and institutions. This paper presents a comprehensive quantitative overview of the field of eye movement biometrics using a bibliometric approach. All data and analyses are based on documents written in English published between 2004 and 2019. Scopus was used to perform information retrieval. This research focused on temporal evolution, leading authors, most cited papers, leading journals, competitions and collaboration networks.
翻訳日:2022-11-26 06:59:02 公開日:2020-06-01
# ディープラーニングによる逆チューリングテストにおけるコンピュータの騙し

Deceiving computers in Reverse Turing Test through Deep Learning ( http://arxiv.org/abs/2006.11373v1 )

ライセンス: Link先を確認
Jimut Bahan Pal(参考訳) コンピュータがユーザーを人間かどうかをテストするチューリングテストの逆行を経ることなく、人間は日々の生活で働くことがますます難しくなってきている。 今日、ほとんどのウェブサイトやサービスプロバイダは、ウェブサイトがクロールされているかどうかを、サイトから貴重な情報を抽出する自動化ボットによってチェックするプロセスを持っている。 この過程で、ボットはDeep Learningの技術を使ってこれらのテストを解読し、不要な自動でデータにアクセスし、スパムを投稿することで迷惑を発生させる。 人間はCAPTCHAを解読しようとすると、ほぼ毎日かなりの時間を費やします。 本研究の目的は,CAPTCHAのテキストとして広く使用されているCAPTCHAのサブセットの使用が,人間の顧客を検証するための信頼性の高いプロセスであるかどうかを確認することである。 各CAPTCHAのプリプロセッシングステップに焦点をあて、二分強度で変換し、混乱を可能な限り除去し、可能な限り多くのCAPTCHAを正しくラベル付けする様々なモデルを開発した。 我々はまた、人間が既存のCAPTCHAを解くのが簡単で、ボットが同じことをするのが難しくなるように、人間を検証するプロセスを改善する方法をいくつか提案した。

It is increasingly becoming difficult for human beings to work on their day to day life without going through the process of reverse Turing test, where the Computers tests the users to be humans or not. Almost every website and service providers today have the process of checking whether their website is being crawled or not by automated bots which could extract valuable information from their site. In the process the bots are getting more intelligent by the use of Deep Learning techniques to decipher those tests and gain unwanted automated access to data while create nuisance by posting spam. Humans spend a considerable amount of time almost every day when trying to decipher CAPTCHAs. The aim of this investigation is to check whether the use of a subset of commonly used CAPTCHAs, known as the text CAPTCHA is a reliable process for verifying their human customers. We mainly focused on the preprocessing step for every CAPTCHA which converts them in binary intensity and removes the confusion as much as possible and developed various models to correctly label as many CAPTCHAs as possible. We also suggested some ways to improve the process of verifying the humans which makes it easy for humans to solve the existing CAPTCHAs and difficult for bots to do the same.
翻訳日:2022-11-26 06:58:23 公開日:2020-06-01
# 効率的なEUD解析

Efficient EUD Parsing ( http://arxiv.org/abs/2006.00838v1 )

ライセンス: Link先を確認
Mathieu Dehouck, Mark Anderson and Carlos G\'omez-Rodr\'iguez(参考訳) 我々は、iwpt 2020において、eud共有タスクのためにfastparseチームからシステム提案を行う。 私たちは効率に焦点を当ててその仕事に携わった。 そのため、トレーニングコストと推論効率を考えました。 私たちのモデルは、蒸留された神経依存パーサと、UD木をEUDグラフに投影するルールベースのシステムの組み合わせです。 ELASの平均値は74.04で、総合で4位にランクインした。

We present the system submission from the FASTPARSE team for the EUD Shared Task at IWPT 2020. We engaged with the task by focusing on efficiency. For this we considered training costs and inference efficiency. Our models are a combination of distilled neural dependency parsers and a rule-based system that projects UD trees into EUD graphs. We obtained an average ELAS of 74.04 for our official submission, ranking 4th overall.
翻訳日:2022-11-26 06:56:48 公開日:2020-06-01
# アナログアンサンブルデータ同化と変分オートエンコーダを用いたアナログ構築法

Analog ensemble data assimilation and a method for constructing analogs with variational autoencoders ( http://arxiv.org/abs/2006.01101v1 )

ライセンス: Link先を確認
Ian Grooms(参考訳) 予測平均のアナログを用いて、アンサンブル最適補間(EnOI)法やアンサンブル変分法(EnVar)法で使用する摂動のアンサンブルを生成する。 変分オートエンコーダ(VAE、機械学習)を用いた新しいアナログ構築法を提案する。 カタログ(AnEnOI)からのアナログと構築されたアナログ(cAnEnOI)を用いたアナログ手法を,標準的なEnOIとアンサンブル正方形根フィルタを用いて,マルチスケールのLorenz-`96モデルのコンテキストで検証した。 微少なカタログからのアナログの使用は、カタログサイズの増加による限界改善により、EnOIの性能を向上させることが示されている。 構築されたアナログ(cAnEnOI)を用いた手法は,全アンサンブル正方形根フィルタと同様に動作し,幅広いチューニングパラメータに対して堅牢であることがわかった。

It is proposed to use analogs of the forecast mean to generate an ensemble of perturbations for use in ensemble optimal interpolation (EnOI) or ensemble variational (EnVar) methods. A new method of constructing analogs using variational autoencoders (VAEs; a machine learning method) is proposed. The resulting analog methods using analogs from a catalog (AnEnOI), and using constructed analogs (cAnEnOI), are tested in the context of a multiscale Lorenz-`96 model, with standard EnOI and an ensemble square root filter for comparison. The use of analogs from a modestly-sized catalog is shown to improve the performance of EnOI, with limited marginal improvements resulting from increases in the catalog size. The method using constructed analogs (cAnEnOI) is found to perform as well as a full ensemble square root filter, and to be robust over a wide range of tuning parameters.
翻訳日:2022-11-26 06:50:49 公開日:2020-06-01
# レグレッションエンリッチメントサーフェス : 仮想薬物スクリーニングモデルのための簡易解析手法

Regression Enrichment Surfaces: a Simple Analysis Technique for Virtual Drug Screening Models ( http://arxiv.org/abs/2006.01171v1 )

ライセンス: Link先を確認
Austin Clyde, Xiaotian Duan, Rick Stevens(参考訳) 本稿では,仮想薬物スクリーニングタスクにおけるモデルの性能を理解する新しい手法を提案する。 ほとんどの仮想スクリーニング問題はランキングと分類の混合として存在するが、モデルは通常、カットオフとランキングのどちらかを選択する必要がある問題を示す回帰モデルとして訓練される。 我々の手法であるRegressive Enrichment Surfaces (RES) は仮想スクリーニングの目的に基づいており、可能な限り多くの最高の治療を検知する。 仮想スクリーニング性能指標の歴史とRESの背景にある考え方を概説する。 私たちは、pythonパッケージと結果の実装と解釈方法の詳細を提供します。

We present a new method for understanding the performance of a model in virtual drug screening tasks. While most virtual screening problems present as a mix between ranking and classification, the models are typically trained as regression models presenting a problem requiring either a choice of a cutoff or ranking measure. Our method, regression enrichment surfaces (RES), is based on the goal of virtual screening: to detect as many of the top-performing treatments as possible. We outline history of virtual screening performance measures and the idea behind RES. We offer a python package and details on how to implement and interpret the results.
翻訳日:2022-11-26 06:50:30 公開日:2020-06-01
# 畳み込みおよび空間的トランスフォーマーネットワークによる教師なしスパースビューバックプロジェクション

Unsupervised Sparse-view Backprojection via Convolutional and Spatial Transformer Networks ( http://arxiv.org/abs/2006.01658v1 )

ライセンス: Link先を確認
Xueqing Liu, Paul Sajda(参考訳) 多くのイメージング技術はトモグラフィー再構成に依存しており、射影数が有限であれば多次元逆問題を解く必要がある。 バックプロジェクションは、トモグラフィー再構成のための一般的なアルゴリズムのクラスであるが、通常、投影角が疎い場合や、センサ特性が均一でない場合は、画像再構成が貧弱になる。 この逆問題を解くために、いくつかのディープラーニングベースのアルゴリズムが開発され、限られた数の投影を用いて画像を再構成している。 しかし、これらのアルゴリズムは、良い性能を得るためには、通常、地平線(すなわち再構成画像の例)の例を必要とする。 本稿では,非教師付きスパースビューバックジェクションアルゴリズムを提案する。 このアルゴリズムは、ジェネレータ-プロジェクタフレームワークの2つのモジュールから成り、畳み込みニューラルネットワークと空間トランスフォーマーネットワークである。 胸部CT画像を用いて本アルゴリズムの評価を行った。 提案アルゴリズムは, 投影角度が非常に小さい場合や, センサ特性が異なる場合などにおいて, 後方投影のフィルタ性能を著しく向上することを示す。 我々のアプローチは、時間やサンプリングの制約によりスパースや非均一なプロジェクションを取得できる医療画像やその他の画像モダリティ(レーダーなど)に実践的な応用がある。

Many imaging technologies rely on tomographic reconstruction, which requires solving a multidimensional inverse problem given a finite number of projections. Backprojection is a popular class of algorithm for tomographic reconstruction, however it typically results in poor image reconstructions when the projection angles are sparse and/or if the sensors characteristics are not uniform. Several deep learning based algorithms have been developed to solve this inverse problem and reconstruct the image using a limited number of projections. However these algorithms typically require examples of the ground-truth (i.e. examples of reconstructed images) to yield good performance. In this paper, we introduce an unsupervised sparse-view backprojection algorithm, which does not require ground-truth. The algorithm consists of two modules in a generator-projector framework; a convolutional neural network and a spatial transformer network. We evaluated our algorithm using computed tomography (CT) images of the human chest. We show that our algorithm significantly out-performs filtered backprojection when the projection angles are very sparse, as well as when the sensor characteristics vary for different angles. Our approach has practical applications for medical imaging and other imaging modalities (e.g. radar) where sparse and/or non-uniform projections may be acquired due to time or sampling constraints.
翻訳日:2022-11-26 06:49:41 公開日:2020-06-01
# 小児wbMRIにおける生成モデルの利用

Using Generative Models for Pediatric wbMRI ( http://arxiv.org/abs/2006.00727v1 )

ライセンス: Link先を確認
Alex Chang, Vinith M. Suriyakumar, Abhishek Moturu, Nipaporn Tewattanarat, Andrea Doria, Anna Goldenberg(参考訳) 早期がんの検出は良好な予後の鍵であり、特に小児科における頻繁な検査を必要とする。 全身核磁気共鳴イメージング(wbMRI)は、いくつかの確立されたスクリーニングプロトコルの重要な部分であり、幼少期からスクリーニングを開始する。 これまで、機械学習(ML)は、成人がん患者を舞台にwbMRI画像に使われてきた。 成長に伴う骨信号の変化, 運動やコンプライアンスの制限, 陽性例の稀さなどにより, 小児科ではこのようなツールの使用は不可能である。 トロント市にある小児病棟のwbmriデータを用いたgans(generative adversarial network)を用いたwbmri画像の品質評価を行った。 我々は、Frchet Inception Distance(FID)測定値、Domain Frchet Distance(DFD)測定値、および放射線学仲間とのブラインドテストを用いて評価を行った。 我々は,StyleGAN2が3つの指標すべてに対して,wbMRI画像を生成する上で最高のパフォーマンスを提供することを示した。

Early detection of cancer is key to a good prognosis and requires frequent testing, especially in pediatrics. Whole-body magnetic resonance imaging (wbMRI) is an essential part of several well-established screening protocols, with screening starting in early childhood. To date, machine learning (ML) has been used on wbMRI images to stage adult cancer patients. It is not possible to use such tools in pediatrics due to the changing bone signal throughout growth, the difficulty of obtaining these images in young children due to movement and limited compliance, and the rarity of positive cases. We evaluate the quality of wbMRI images generated using generative adversarial networks (GANs) trained on wbMRI data from The Hospital for Sick Children in Toronto. We use the Frchet Inception Distance (FID) metric, Domain Frchet Distance (DFD), and blind tests with a radiology fellow for evaluation. We demonstrate that StyleGAN2 provides the best performance in generating wbMRI images with respect to all three metrics.
翻訳日:2022-11-26 06:48:56 公開日:2020-06-01
# 高速画像レーディングのための残留スクイーズ・アンド・エクスシテーションネットワーク

Residual Squeeze-and-Excitation Network for Fast Image Deraining ( http://arxiv.org/abs/2006.00757v1 )

ライセンス: Link先を確認
Jun Fu and Jianfeng Xu and Kazuyuki Tasaka and Zhibo Chen(参考訳) 画像レーダ処理は,画像の視覚品質を著しく低下させるだけでなく,高レベルの視覚タスクのパフォーマンスにも大きな影響を与えるため,重要な画像処理タスクである。 従来の方法では、異なるリカレントニューラルネットワークを介して雨のストリークを徐々に除去する。 しかし,これらの手法では降雨のない画像が効果的に得られない。 本稿では, 高速な画像デライニングと, 最先端の手法に比べて優れたデライニング性能を実現するために, RSENと呼ばれる残差圧縮・励起ネットワークを提案する。 具体的には、RSENは軽量なエンコーダデコーダアーキテクチャを採用し、1段階で雨除去を行う。 さらに, エンコーダとデコーダは, 特徴抽出のコアとして, 階層的特徴を生成するための残差ブロックと, その結果の階層的特徴をチャネル的に強化するシャープ・アンド・エキサイザブロックを新たに導入した。 実験結果から,本手法は計算複雑性を著しく低減するだけでなく,最先端の手法に比べて劣化性能を著しく向上させることができることがわかった。

Image deraining is an important image processing task as rain streaks not only severely degrade the visual quality of images but also significantly affect the performance of high-level vision tasks. Traditional methods progressively remove rain streaks via different recurrent neural networks. However, these methods fail to yield plausible rain-free images in an efficient manner. In this paper, we propose a residual squeeze-and-excitation network called RSEN for fast image deraining as well as superior deraining performance compared with state-of-the-art approaches. Specifically, RSEN adopts a lightweight encoder-decoder architecture to conduct rain removal in one stage. Besides, both encoder and decoder adopt a novel residual squeeze-and-excitation block as the core of feature extraction, which contains a residual block for producing hierarchical features, followed by a squeeze-and-excitation block for channel-wisely enhancing the resulted hierarchical features. Experimental results demonstrate that our method can not only considerably reduce the computational complexity but also significantly improve the deraining performance compared with state-of-the-art methods.
翻訳日:2022-11-26 06:48:39 公開日:2020-06-01
# 多変量フィードバック制御によるディスプレイ広告における動的入札戦略

Dynamic Bidding Strategies with Multivariate Feedback Control for Multiple Goals in Display Advertising ( http://arxiv.org/abs/2007.00426v1 )

ライセンス: Link先を確認
Michael Tashman, Jiayi Xie, John Hoffman, Lee Winikor, Rouzbeh Gerami(参考訳) リアルタイム入札(rtb)ディスプレイ広告(英: real-time bidding)は、数ミリ秒以内のオークションでディスプレイ広告インベントリを購入する方法である。 RTBキャンペーンのパフォーマンスは、一般的に一連のキーパフォーマンス指標(KPI)で測定される。 RTBキャンペーンは理想的にはすべてのKPIに適合するべきであるが、一つのKPIの改善は他のKPIに対して有害な影響を及ぼすため、同時改善は非常に困難である。 本稿では,PIDに基づくフィードバック制御システムを用いて,複数のKPIを同時に制御する手法を提案する。 PIDコントローラモジュールの出力と、内部ビジネスニーズに対する各KPIの重要性を定量化するメトリックの両方に基づいて、各KPIの制御スコアを生成する。 定期的な間隔で、このアルゴリズム - シーケンシャル制御 - は、改善の必要性が最も大きいkpiを選択する。 このようにして、我々のアルゴリズムは、その現在の状態に対して最大の限界改善を求めることができる。 複数の制御方法は各KPIに関連付けることができ、局所最適を避けるために、同時にあるいは確率的に選択することができる。 オフライン広告入札シミュレーションとライブトラフィックのテストの両方において,提案手法は複数のkpiを同時に制御し,それぞれを目標に導くのに有効であることがわかった。

Real-Time Bidding (RTB) display advertising is a method for purchasing display advertising inventory in auctions that occur within milliseconds. The performance of RTB campaigns is generally measured with a series of Key Performance Indicators (KPIs) - measurements used to ensure that the campaign is cost-effective and that it is purchasing valuable inventory. While an RTB campaign should ideally meet all KPIs, simultaneous improvement tends to be very challenging, as an improvement to any one KPI risks a detrimental effect toward the others. Here we present an approach to simultaneously controlling multiple KPIs with a PID-based feedback-control system. This method generates a control score for each KPI, based on both the output of a PID controller module and a metric that quantifies the importance of each KPI for internal business needs. On regular intervals, this algorithm - Sequential Control - will choose the KPI with the greatest overall need for improvement. In this way, our algorithm is able to continually seek the greatest marginal improvements to its current state. Multiple methods of control can be associated with each KPI, and can be triggered either simultaneously or chosen stochastically, in order to avoid local optima. In both offline ad bidding simulations and testing on live traffic, our methods proved to be effective in simultaneously controlling multiple KPIs, and bringing them toward their respective goals.
翻訳日:2022-11-26 06:42:34 公開日:2020-06-01
# 希少事象を伴う大規模データのロジスティック回帰

Logistic Regression for Massive Data with Rare Events ( http://arxiv.org/abs/2006.00683v1 )

ライセンス: Link先を確認
HaiYing Wang(参考訳) 本稿では,レアイベントデータに対する二項ロジスティック回帰(不均衡データ)について検討し,イベント数(一クラスの観測値,しばしばケースと呼ばれる)はノベント数(他のクラスの観測値,しばしばコントロールと呼ばれる)よりもかなり小さい。 まず,未知パラメータの最大確率推定器(mle)の漸近分布を導出し,全データサンプルサイズの逆数ではなく事象数の逆数で漸近分散収束がゼロとなることを示す。 これは、まれなイベントデータで利用可能な情報が、完全なデータサンプルサイズではなく、イベントの数であることを示している。 さらに,非事象のごく一部をアンダーサンプリングすることで得られたアンダーサンプリング推定器が全データmleと同一の漸近分布を持つことを証明した。 この手法は計算コストやデータ収集コストを大幅に削減する可能性があるため、レアイベントデータに対するアンダーサンプリングノベツの利点を示す。 希少事象データを解析するもう一つの一般的な実践は、計算コストの高いイベントをオーバーサンプリング(複製)することである。 この手法はパラメータ推定の面で効率が低下する可能性を示す。

This paper studies binary logistic regression for rare events data, or imbalanced data, where the number of events (observations in one class, often called cases) is significantly smaller than the number of nonevents (observations in the other class, often called controls). We first derive the asymptotic distribution of the maximum likelihood estimator (MLE) of the unknown parameter, which shows that the asymptotic variance convergences to zero in a rate of the inverse of the number of the events instead of the inverse of the full data sample size. This indicates that the available information in rare events data is at the scale of the number of events instead of the full data sample size. Furthermore, we prove that under-sampling a small proportion of the nonevents, the resulting under-sampled estimator may have identical asymptotic distribution to the full data MLE. This demonstrates the advantage of under-sampling nonevents for rare events data, because this procedure may significantly reduce the computation and/or data collection costs. Another common practice in analyzing rare events data is to over-sample (replicate) the events, which has a higher computational cost. We show that this procedure may even result in efficiency loss in terms of parameter estimation.
翻訳日:2022-11-26 06:42:11 公開日:2020-06-01
# 低リソース分類のための概念マッチング

Concept Matching for Low-Resource Classification ( http://arxiv.org/abs/2006.00937v1 )

ライセンス: Link先を確認
Federico Errica, Ludovic Denoyer, Bora Edizel, Fabio Petroni, Vassilis Plachouras, Fabrizio Silvestri, Sebastian Riedel(参考訳) 非常に少ないトレーニングデータが存在する場合の分類課題に取り組むためのモデルを提案する。 この目的のために、入力空間におけるマッチングの確率を計算する理論的に健全なメカニズムと正確なマッチングの概念を近似する。 重要なのは、モデルが手元のタスクに関連する入力要素にフォーカスすることを学ぶことだ。トレーニングデータの強調された部分を活用することで、エラーブースティング技術が学習プロセスを導く。 実際には、入力の関連部分に関連するエラーを所定の因子によって増大させる。 テキスト分類タスクにおける顕著な結果は、バランスの取れたケースとアンバランスなケースの両方において提案手法の利点を裏付けるものである。 さらに、重みを検査することで、モデルが何を学んだかについての洞察を集めることが可能である。

We propose a model to tackle classification tasks in the presence of very little training data. To this aim, we approximate the notion of exact match with a theoretically sound mechanism that computes a probability of matching in the input space. Importantly, the model learns to focus on elements of the input that are relevant for the task at hand; by leveraging highlighted portions of the training data, an error boosting technique guides the learning process. In practice, it increases the error associated with relevant parts of the input by a given factor. Remarkable results on text classification tasks confirm the benefits of the proposed approach in both balanced and unbalanced cases, thus being of practical use when labeling new examples is expensive. In addition, by inspecting its weights, it is often possible to gather insights on what the model has learned.
翻訳日:2022-11-26 06:40:59 公開日:2020-06-01
# 双曲空間における半監督的階層的薬物埋め込み

Semi-Supervised Hierarchical Drug Embedding in Hyperbolic Space ( http://arxiv.org/abs/2006.00986v1 )

ライセンス: Link先を確認
Ke Yu, Shyam Visweswaran, Kayhan Batmanghelich(参考訳) 正確な薬物表現の学習は、薬物の再配置や薬物副作用の予測などのタスクに不可欠である。 薬物階層は、同じ臓器に作用し、同じ疾患を治療し、同じ生物学的標的に結合する薬物をまとめる木のような構造において、薬物関係に関する人間の知識をコードする貴重な情報源である。 しかし、薬物表現の学習におけるその有用性はまだ研究されておらず、現在説明されている薬物表現は、新しい分子を薬物階層に配置することができない。 そこで我々は,(1) 薬物および薬物様分子の分子構造から推定される基礎的な化学文法(unsupervised) と(2) 承認薬物の専門家による階層構造にコード化される階層的関係(supervised) という,2つの情報源を組み込んだ半監督薬の埋め込みを開発する。 我々は,多変量オートエンコーダ(vae)フレームワークを用いて分子の化学構造をコードし,知識に基づく薬物薬物類似性を用いて双曲空間における薬物のクラスタリングを誘導する。 双曲空間は階層的な概念を符号化することができる。 量的および質的結果は、学習された薬物の埋め込みが化学構造を正確に再現し、薬物間の階層的関係を誘導できることを支持している。 さらに, 類似物質を埋め込み空間から取り出すことにより, 新規分子の薬理学的性質を推定する。 学習した薬物の埋め込みは、既存の薬物の新しい用途を見つけ、副作用を発見できることを示した。 両タスクのベースラインを著しく上回ることを示す。

Learning accurate drug representation is essential for tasks such as computational drug repositioning and prediction of drug side-effects. A drug hierarchy is a valuable source that encodes human knowledge of drug relations in a tree-like structure where drugs that act on the same organs, treat the same disease, or bind to the same biological target are grouped together. However, its utility in learning drug representations has not yet been explored, and currently described drug representations cannot place novel molecules in a drug hierarchy. Here, we develop a semi-supervised drug embedding that incorporates two sources of information: (1) underlying chemical grammar that is inferred from molecular structures of drugs and drug-like molecules (unsupervised), and (2) hierarchical relations that are encoded in an expert-crafted hierarchy of approved drugs (supervised). We use the Variational Auto-Encoder (VAE) framework to encode the chemical structures of molecules and use the knowledge-based drug-drug similarity to induce the clustering of drugs in hyperbolic space. The hyperbolic space is amenable for encoding hierarchical concepts. Both quantitative and qualitative results support that the learned drug embedding can accurately reproduce the chemical structure and induce the hierarchical relations among drugs. Furthermore, our approach can infer the pharmacological properties of novel molecules by retrieving similar drugs from the embedding space. We demonstrate that the learned drug embedding can be used to find new uses for existing drugs and to discover side-effects. We show that it significantly outperforms baselines in both tasks.
翻訳日:2022-11-26 06:40:44 公開日:2020-06-01
# 補足学習とベイズデータ同化による腫瘍学の精度向上

Reinforcement learning and Bayesian data assimilation for model-informed precision dosing in oncology ( http://arxiv.org/abs/2006.01061v1 )

ライセンス: Link先を確認
Corinna Maier, Niklas Hartung, Charlotte Kloft, Wilhelm Huisinga, and Jana de Wiljes(参考訳) 治療薬/バイオマーカーモニタリングを用いたMIPDは、薬物療法の有効性と安全性を大幅に改善する機会を提供する。 現在の戦略はモデルインフォームドドッキングテーブルで構成されている。 しかし、これらのアプローチは不確実性の定量化を欠き、利用可能な患者固有の情報の一部しか考慮しない。 抗がん剤化学療法における線量制限副作用である好中球減少を抑制するためにベイズデータ同化(DA)および/または強化学習(RL)を用いたMIPDの新しい3つのアプローチを提案する。 これらのアプローチは、既存のアプローチと比較して、致命的グレード4と治療下グレード0ニュートロピーの出現を著しく減少させる可能性がある。 さらに, 線量決定を誘導する患者因子を同定することにより, RLがさらなる知見を得ることができることを示す。 その柔軟性のため、DA-RLと組み合わせたアプローチは簡単に拡張でき、複数のエンドポイントや患者が報告した結果を統合することができ、将来のパーソナライズされた治療法に重要なメリットを期待できる。

Model-informed precision dosing (MIPD) using therapeutic drug/biomarker monitoring offers the opportunity to significantly improve the efficacy and safety of drug therapies. Current strategies comprise model-informed dosing tables or are based on maximum a-posteriori estimates. These approaches, however, lack a quantification of uncertainty and/or consider only part of the available patient-specific information. We propose three novel approaches for MIPD employing Bayesian data assimilation (DA) and/or reinforcement learning (RL) to control neutropenia, the major dose-limiting side effect in anticancer chemotherapy. These approaches have the potential to substantially reduce the incidence of life-threatening grade 4 and subtherapeutic grade 0 neutropenia compared to existing approaches. We further show that RL allows to gain further insights by identifying patient factors that drive dose decisions. Due to its flexibility, the proposed combined DA-RL approach can easily be extended to integrate multiple endpoints or patient-reported outcomes, thereby promising important benefits for future personalized therapies.
翻訳日:2022-11-26 06:40:05 公開日:2020-06-01
# 画像とビデオの音声記述のための転写強化共同埋め込み

Transcription-Enriched Joint Embeddings for Spoken Descriptions of Images and Videos ( http://arxiv.org/abs/2006.00785v1 )

ライセンス: Link先を確認
Benet Oriol, Jordi Luque, Ferran Diego and Xavier Giro-i-Nieto(参考訳) 本研究では,画像と音声,テキストの3つの同時モダリティを組み合わせることで,ユニークな埋め込み表現を訓練するための効果的な手法を提案する。 提案手法は,話し言葉と画像手がかりのみで訓練された埋め込み空間を創出するベースラインシステムから逸脱する。 epic-kitchen と places の音声キャプションデータセットを用いた実験では,音声の音声書き起こしが学習過程に役立ち,より優れた埋め込み表現を得ることができた。 三進言語, 画像, 単語は, テキスト3次モダリティやテキストがタスクに存在しない場合でも, 画像や音声検索などのタスクに埋め込まれた点をよりよく推定し, 性能の向上を示す。

In this work, we propose an effective approach for training unique embedding representations by combining three simultaneous modalities: image and spoken and textual narratives. The proposed methodology departs from a baseline system that spawns a embedding space trained with only spoken narratives and image cues. Our experiments on the EPIC-Kitchen and Places Audio Caption datasets show that introducing the human-generated textual transcriptions of the spoken narratives helps to the training procedure yielding to get better embedding representations. The triad speech, image and words allows for a better estimate of the point embedding and show an improving of the performance within tasks like image and speech retrieval, even when text third modality, text, is not present in the task.
翻訳日:2022-11-26 06:32:43 公開日:2020-06-01
# 深層学習フレームワークを用いたデジタル建築床計画におけるシンボルスポッティング

Symbol Spotting on Digital Architectural Floor Plans Using a Deep Learning-based Framework ( http://arxiv.org/abs/2006.00684v1 )

ライセンス: Link先を確認
Alireza Rezvanifar, Melissa Cote, Alexandra Branzan Albu(参考訳) 本稿では、ディープラーニング(DL)ベースのフレームワークを用いた実世界のデジタル建築フロアプランのシンボルスポッティングに焦点を当てる。 従来のオン・ザ・フライのシンボルスポッティング手法では、図式表記のばらつき、すなわちクラス内シンボルの類似性の低さという意味的課題に対処できない。 現実世界の計画の特徴である隠蔽と乱雑の存在と、ほとんど自明なものから非常に複雑なものまで様々にグラフィカルなシンボルの複雑さは、既存のスポッティング手法にも問題を引き起こす。 本稿では、最近のDLの進歩を活用し、You-Only-Look-Once(YOLO)アーキテクチャに基づいたオブジェクト検出フレームワークを適用することで、上記の問題に対処する。 タイルに基づくトレーニング戦略を提案し,床全体の計画やアスペクト比,データ拡張などと比較して,シンボルの相対的小ささに関連するdlベースの物体検出ネットワークに関する多くの問題を回避した。 実世界のフロアプランにおける実験により, ヘビーオクルージョンやクラッタの存在下でも, クラス内類似度が低く, グラフィカルな複雑度も低い建築シンボルを検出できることが証明された。 SESYDデータセットのさらなる実験により、提案手法は様々な劣化やノイズレベルに対処し、他のシンボルスポッティング法より優れていることを確認した。

This papers focuses on symbol spotting on real-world digital architectural floor plans with a deep learning (DL)-based framework. Traditional on-the-fly symbol spotting methods are unable to address the semantic challenge of graphical notation variability, i.e. low intra-class symbol similarity, an issue that is particularly important in architectural floor plan analysis. The presence of occlusion and clutter, characteristic of real-world plans, along with a varying graphical symbol complexity from almost trivial to highly complex, also pose challenges to existing spotting methods. In this paper, we address all of the above issues by leveraging recent advances in DL and adapting an object detection framework based on the You-Only-Look-Once (YOLO) architecture. We propose a training strategy based on tiles, avoiding many issues particular to DL-based object detection networks related to the relative small size of symbols compared to entire floor plans, aspect ratios, and data augmentation. Experiments on real-world floor plans demonstrate that our method successfully detects architectural symbols with low intra-class similarity and of variable graphical complexity, even in the presence of heavy occlusion and clutter. Additional experiments on the public SESYD dataset confirm that our proposed approach can deal with various degradation and noise levels and outperforms other symbol spotting methods.
翻訳日:2022-11-26 06:32:28 公開日:2020-06-01
# goodpoint: キーポイント検出と説明の教師なし学習

GoodPoint: unsupervised learning of keypoint detection and description ( http://arxiv.org/abs/2006.01030v1 )

ライセンス: Link先を確認
Anatoly Belikov and Alexey Potapov(参考訳) 本稿では,キーポイント検出器とディスクリプタの教師なし学習のための新しいアルゴリズムを提案する。 トレーニング手順は画像のホモグラフィック変換を使用する。 提案するモデルでは,点を検知し,変換された画像のペアに記述子を生成することにより,識別や繰り返し検出が容易になる。 トレーニングされたモデルは、比較の容易さのためにSuperPointアーキテクチャに従っており、HPatchesデータセットの自然画像に類似したパフォーマンス、Fundus Image Registration Datasetの網膜画像に類似したパフォーマンスを示す。 HPatchesや他のデータセットについても、モデル品質をよりよく推定するためにカバレッジが計算された。

This paper introduces a new algorithm for unsupervised learning of keypoint detectors and descriptors, which demonstrates fast convergence and good performance across different datasets. The training procedure uses homographic transformation of images. The proposed model learns to detect points and generate descriptors on pairs of transformed images, which are easy for it to distinguish and repeatedly detect. The trained model follows SuperPoint architecture for ease of comparison, and demonstrates similar performance on natural images from HPatches dataset, and better performance on retina images from Fundus Image Registration Dataset, which contain low number of corner-like features. For HPatches and other datasets, coverage was also computed to provide better estimation of model quality.
翻訳日:2022-11-26 06:31:42 公開日:2020-06-01
# DPDnet: 深層カメラを用いた深層学習によるロバストな人検知装置

DPDnet: A Robust People Detector using Deep Learning with an Overhead Depth Camera ( http://arxiv.org/abs/2006.01053v1 )

ライセンス: Link先を確認
David Fuentes-Jimenez, Roberto Martin-Lopez, Cristina Losada-Gutierrez, David Casillas-Perez, Javier Macias-Guarasa, Daniel Pizarro, Carlos A.Luna(参考訳) 本稿では,1つのオーバーヘッド深度画像から複数の人物を高い信頼性で検出する深層学習に基づく手法を提案する。 DPDnetと呼ばれるニューラルネットワークは、残層に基づく2つの完全畳み込みエンコーダデコーダニューラルブロックに基づいている。 メインブロックは、深度画像を入力として、画像中の検出された人物をガウス的分布で表現した画素毎の信頼度マップを生成する。 精細ブロックは、主ブロックからの深度画像と出力とを組み合わせて、信頼性マップを精細化する。 両方のブロックは、深度画像と頭部位置ラベルを使用してエンドツーエンドで同時に訓練される。 実験の結果、PDNetは最先端の手法よりも優れており、3つの公開データセットで99%以上のアキュラシーを達成している。 さらに,提案手法の計算複雑性は現場の人数とは独立であり,従来のGPUを用いてリアルタイムに実行可能である。

In this paper we propose a method based on deep learning that detects multiple people from a single overhead depth image with high reliability. Our neural network, called DPDnet, is based on two fully-convolutional encoder-decoder neural blocks based on residual layers. The Main Block takes a depth image as input and generates a pixel-wise confidence map, where each detected person in the image is represented by a Gaussian-like distribution. The refinement block combines the depth image and the output from the main block, to refine the confidence map. Both blocks are simultaneously trained end-to-end using depth images and head position labels. The experimental work shows that DPDNet outperforms state-of-the-art methods, with accuracies greater than 99% in three different publicly available datasets, without retraining not fine-tuning. In addition, the computational complexity of our proposal is independent of the number of people in the scene and runs in real time using conventional GPUs.
翻訳日:2022-11-26 06:30:56 公開日:2020-06-01
# bwcnn: リアルタイム畳み込みニューラルネットワークアプローチであるblink to word

BWCNN: Blink to Word, a Real-Time Convolutional Neural Network Approach ( http://arxiv.org/abs/2006.01232v1 )

ライセンス: Link先を確認
Albara Ah Ramli, Rex Liu, Rahul Krishnamoorthy, Vishal I B, Xiaoxiao Wang, Ilias Tagkopoulos, and Xin Liu(参考訳) 筋萎縮性側索硬化症(Amyotrophic lateral sclerosis、ALS)は、脳と脊髄の進行性神経変性疾患であり、運動機能の麻痺を引き起こす。 患者は、コミュニケーションに使用できる点滅能力を維持している。 ここでは,リアルタイムのIoT(Internet-of-Things)デバイス上で動作する,視線リンクによる外界との通信を行う人工知能(AI)システムを提案する。 このシステムは、畳み込みニューラルネットワーク(CNN)を使用して、一連のオープンおよびクローズドステートとして定義される点滅パターンを見つける。 各パターンは、患者の意図を示す単語の集合にマッピングされる。 ResNet, SqueezeNet, DenseNet, InceptionV3などのConvolutional Networkアーキテクチャの精度とレイテンシのトレードオフについて検討し, その性能評価を行った。 InceptionV3アーキテクチャは、特定のタスクをハイパーパラメータで微調整した後、99.20%と94msのレイテンシで最高のパフォーマンスを実現した。 本研究は, 患者の生活の質を改善する臨床システムに, ディープラーニングアーキテクチャの最新の進歩を適応させることが可能であることを示す。

Amyotrophic lateral sclerosis (ALS) is a progressive neurodegenerative disease of the brain and the spinal cord, which leads to paralysis of motor functions. Patients retain their ability to blink, which can be used for communication. Here, We present an Artificial Intelligence (AI) system that uses eye-blinks to communicate with the outside world, running on real-time Internet-of-Things (IoT) devices. The system uses a Convolutional Neural Network (CNN) to find the blinking pattern, which is defined as a series of Open and Closed states. Each pattern is mapped to a collection of words that manifest the patient's intent. To investigate the best trade-off between accuracy and latency, we investigated several Convolutional Network architectures, such as ResNet, SqueezeNet, DenseNet, and InceptionV3, and evaluated their performance. We found that the InceptionV3 architecture, after hyper-parameter fine-tuning on the specific task led to the best performance with an accuracy of 99.20% and 94ms latency. This work demonstrates how the latest advances in deep learning architectures can be adapted for clinical systems that ameliorate the patient's quality of life regardless of the point-of-care.
翻訳日:2022-11-26 06:30:41 公開日:2020-06-01
# 幼児期音声認識における語彙競合のニューラルネットワークモデル

A Neural Network Model of Lexical Competition during Infant Spoken Word Recognition ( http://arxiv.org/abs/2006.00999v1 )

ライセンス: Link先を確認
Mihaela Duta and Kim Plunkett(参考訳) 視覚の世界研究では、関連項目や関連しない項目を含む目標抽象視覚文脈で単語を聞くと、幼児と大人は、意味的および視覚的関連項目に移行する前に、一時的に音韻的関連項目に視線を向ける。 本稿では,動的に展開する音韻表現を処理し,それらを静的内部意味と視覚表現にマッピングするニューラルネットワークモデルを提案する。 このモデルは実際のコーパスから派生した表現に基づいて訓練され、意味的/視覚的嗜好よりもこの初期の音韻学をシミュレートする。 本研究は, 音声単語の漸進的展開は, 意味的および視覚的に関連しない単語に対して, 音韻学的競合相手の過渡的嗜好を考慮に入れる上で十分である, という仮説を支持する。 ボトムアップ方式で動的にマッピングされた音韻表現は、視覚世界課題で報告された初期の音韻嗜好効果を捉えている。 このような試行で後に観察される意味的視覚的嗜好は、意味的または視覚的システムからトップダウンのフィードバックを必要としない。

Visual world studies show that upon hearing a word in a target-absent visual context containing related and unrelated items, toddlers and adults briefly direct their gaze towards phonologically related items, before shifting towards semantically and visually related ones. We present a neural network model that processes dynamic unfolding phonological representations and maps them to static internal semantic and visual representations. The model, trained on representations derived from real corpora, simulates this early phonological over semantic/visual preference. Our results support the hypothesis that incremental unfolding of a spoken word is in itself sufficient to account for the transient preference for phonological competitors over both unrelated and semantically and visually related ones. Phonological representations mapped dynamically in a bottom-up fashion to semantic-visual representations capture the early phonological preference effects reported in a visual world task. The semantic-visual preference observed later in such a trial does not require top-down feedback from a semantic or visual system.
翻訳日:2022-11-26 06:30:21 公開日:2020-06-01
# 連続環境における時間差学習

Temporal-Differential Learning in Continuous Environments ( http://arxiv.org/abs/2006.00997v1 )

ライセンス: Link先を確認
Tao Bian and Zhong-Ping Jiang(参考訳) 本稿では,時間差分法として知られる新しい強化学習法を提案する。 従来の時間微分学習法と比較して,連続環境における新しいrl手法の開発において重要な役割を担っている。 特に、連続時間最小二乗政策評価(CT-LSPE)と連続時間時間時間微分(CT-TD)学習法を開発した。 提案した時間差分学習手法の有効性を示す理論的および実証的な証拠が提供される。

In this paper, a new reinforcement learning (RL) method known as the method of temporal differential is introduced. Compared to the traditional temporal-difference learning method, it plays a crucial role in developing novel RL techniques for continuous environments. In particular, the continuous-time least squares policy evaluation (CT-LSPE) and the continuous-time temporal-differential (CT-TD) learning methods are developed. Both theoretical and empirical evidences are provided to demonstrate the effectiveness of the proposed temporal-differential learning methodology.
翻訳日:2022-11-26 06:30:01 公開日:2020-06-01
# 動的残差アダプタを用いた潜在ドメイン学習

Latent Domain Learning with Dynamic Residual Adapters ( http://arxiv.org/abs/2006.00996v1 )

ライセンス: Link先を確認
Lucas Deecke, Timothy Hospedales, Hakan Bilen(参考訳) ディープニューラルネットワークの現実的な欠点は、単一のタスクとドメインへの特殊化である。 ドメイン適応とマルチドメイン学習の最近の技術は、よりドメインに依存しない特徴の学習を可能にするが、その成功はドメインラベルの存在に依存し、通常、手動のアノテーションとデータセットの慎重なキュレーションを必要とする。 ドメインアノテーションにアクセスせずに、複数のドメインからデータを学ぶことです。 このシナリオでは、標準モデルのトレーニングは大きなドメインの過剰フィットにつながるが、小さなドメインは無視する。 我々はこの制限を動的残差アダプタ(適応ゲーティング機構)によって解決し、近年のスタイル転送技術に触発された拡張戦略と組み合わせる。 提案手法は,複数の潜在ドメインを含む画像分類タスクについて検討し,これらにまたがってロバストな性能を得る能力を示す。 動的残留アダプタは、はるかに大きなキャパシティを持つオフザシェルフネットワークを著しく上回り、エンドツーエンドで既存のアーキテクチャとシームレスに組み込むことができる。

A practical shortcoming of deep neural networks is their specialization to a single task and domain. While recent techniques in domain adaptation and multi-domain learning enable the learning of more domain-agnostic features, their success relies on the presence of domain labels, typically requiring manual annotation and careful curation of datasets. Here we focus on a less explored, but more realistic case: learning from data from multiple domains, without access to domain annotations. In this scenario, standard model training leads to the overfitting of large domains, while disregarding smaller ones. We address this limitation via dynamic residual adapters, an adaptive gating mechanism that helps account for latent domains, coupled with an augmentation strategy inspired by recent style transfer techniques. Our proposed approach is examined on image classification tasks containing multiple latent domains, and we showcase its ability to obtain robust performance across these. Dynamic residual adapters significantly outperform off-the-shelf networks with much larger capacity, and can be incorporated seamlessly with existing architectures in an end-to-end manner.
翻訳日:2022-11-26 06:24:18 公開日:2020-06-01
# 価値目標回帰を用いたモデルベース強化学習

Model-Based Reinforcement Learning with Value-Targeted Regression ( http://arxiv.org/abs/2006.01107v1 )

ライセンス: Link先を確認
Alex Ayoub, Zeyu Jia, Csaba Szepesvari, Mengdi Wang and Lin F. Yang(参考訳) 本稿では,後悔最小化のためのモデルベース強化学習(RL)について検討する。 ここでは、遷移モデル $P$ が既知のモデルの族 $\mathcal{P}$ に属する有限水平エピソード RL に焦点を当て、その特別な場合として、$\mathcal{P}$ のモデルが線型混合の形式を取る。 本稿では, 最適化原理に基づくモデルベースRLアルゴリズムを提案する。 各エピソードにおいて, 収集したデータと '一貫性' なモデルの集合を構築する。 一貫性の基準は、モデルが遷移に沿って見積もる最後の値によって決定される \emph{values} を予測するタスクに負う全二乗誤差に基づいている。 次に、構築したモデルセットで楽観的な計画問題を解くことで次の値関数を選択する。 線形混合の特別な場合において、後悔境界は $\tilde{\mathcal{O}}(d\sqrt{H^{3}T})$ となり、ここでは$H$, $T$, $d$ はそれぞれ水平線、ステップの総数、次元が $\theta$ となる。 特に、この後悔境界は状態や行動の総数とは独立であり、下限の$\Omega(\sqrt{HdT})$に近い。 一般模型群 $\mathcal{P}$ に対して、後悔境界はRussso & Van Roy (2014) によって提唱されたいわゆるエルダー次元の概念を用いて導出される。

This paper studies model-based reinforcement learning (RL) for regret minimization. We focus on finite-horizon episodic RL where the transition model $P$ belongs to a known family of models $\mathcal{P}$, a special case of which is when models in $\mathcal{P}$ take the form of linear mixtures: $P_{\theta} = \sum_{i=1}^{d} \theta_{i}P_{i}$. We propose a model based RL algorithm that is based on optimism principle: In each episode, the set of models that are `consistent' with the data collected is constructed. The criterion of consistency is based on the total squared error of that the model incurs on the task of predicting \emph{values} as determined by the last value estimate along the transitions. The next value function is then chosen by solving the optimistic planning problem with the constructed set of models. We derive a bound on the regret, which, in the special case of linear mixtures, the regret bound takes the form $\tilde{\mathcal{O}}(d\sqrt{H^{3}T})$, where $H$, $T$ and $d$ are the horizon, total number of steps and dimension of $\theta$, respectively. In particular, this regret bound is independent of the total number of states or actions, and is close to a lower bound $\Omega(\sqrt{HdT})$. For a general model family $\mathcal{P}$, the regret bound is derived using the notion of the so-called Eluder dimension proposed by Russo & Van Roy (2014).
翻訳日:2022-11-26 06:23:00 公開日:2020-06-01
# 多段階転送学習と選択過程への応用

Multi-Stage Transfer Learning with an Application to Selection Process ( http://arxiv.org/abs/2006.01276v1 )

ライセンス: Link先を確認
Andre Mendes, Julian Togelius, Leandro dos Santos Coelho(参考訳) 多段階プロセスでは、決定は順序付けられた段階の順序で行われる。 それらの多くは二重ファンネル問題の構造を持ち、サンプルのサイズが1段階からもう1段階に減少すると、情報は増加する。 関連する例として、応募者が地位、賞、授賞を申請する選考プロセスがある。 各段階において、より多くの応募者が評価され、フィルタリングされ、残りの段階からより多くの情報が収集される。 最後の段階では、意思決定者はすべての利用可能な情報を使って最終決定を行う。 各ステージの分類器を訓練するには、初期における低次元性や後期のサンプルサイズが小さいため過度に適合しないため、実行不可能となる。 本研究では,初期段階に訓練された単純な分類器からの知識を活用し,後期段階における分類器の性能を向上させることを目的とした,多段階間転送学習(msgtl)手法を提案する。 大きなデータセットでトレーニングされた単純なニューラルネットワークから重みを転送することで、小さなサンプルサイズのために過度に適合することなく、後期の複雑なニューラルネットワークを微調整することができる。 単純な確率写像を用いて,知識保存と微調整とのトレードオフを制御できることを示す。 実世界のデータを用いた実験は,移動学習や正規化の最先端手法よりも優れていることを示す。

In multi-stage processes, decisions happen in an ordered sequence of stages. Many of them have the structure of dual funnel problem: as the sample size decreases from one stage to the other, the information increases. A related example is a selection process, where applicants apply for a position, prize, or grant. In each stage, more applicants are evaluated and filtered out, and from the remaining ones, more information is collected. In the last stage, decision-makers use all available information to make their final decision. To train a classifier for each stage becomes impracticable as they can underfit due to the low dimensionality in early stages or overfit due to the small sample size in the latter stages. In this work, we proposed a \textit{Multi-StaGe Transfer Learning} (MSGTL) approach that uses knowledge from simple classifiers trained in early stages to improve the performance of classifiers in the latter stages. By transferring weights from simpler neural networks trained in larger datasets, we able to fine-tune more complex neural networks in the latter stages without overfitting due to the small sample size. We show that it is possible to control the trade-off between conserving knowledge and fine-tuning using a simple probabilistic map. Experiments using real-world data demonstrate the efficacy of our approach as it outperforms other state-of-the-art methods for transfer learning and regularization.
翻訳日:2022-11-26 06:22:14 公開日:2020-06-01
# 集合から多重集合へ:確率的整数部分モジュラーモデルに対する確率的変分推論

From Sets to Multisets: Provable Variational Inference for Probabilistic Integer Submodular Models ( http://arxiv.org/abs/2006.01293v1 )

ライセンス: Link先を確認
Aytunc Sahin, Yatao Bian, Joachim M. Buhmann, Andreas Krause(参考訳) サブモジュラー機能は機械学習とデータマイニングで広く研究されている。 特に、整数格子(整数部分モジュラ関数)上の部分モジュラ関数の最適化は、この領域は、マルチラベルグラフ切断、予算割り当て、離散割り当てによる収益の最大化など、多くの実用的な問題設定と自然に関係しているため、近年多くの関心を集めている。 対照的に、確率的モデリングにおけるこれらの関数の使用は、驚くほど注目されていない。 本稿では,整数部分モジュラ関数に対する連続的なdr-submodular拡張である一般化多線形拡張を提案する。 この拡張の中心的性質を研究し,整数部分モジュラー関数を通じて定義される新しい確率モデルを定式化する。 そこで,これらのモデルの近似推論を行うブロック座標アルゴリズムを提案する。 最後に,整数サブモジュラー目的を持つ実世界のソーシャルコネクショングラフデータセット上での有効性と有効性を示す。

Submodular functions have been studied extensively in machine learning and data mining. In particular, the optimization of submodular functions over the integer lattice (integer submodular functions) has recently attracted much interest, because this domain relates naturally to many practical problem settings, such as multilabel graph cut, budget allocation and revenue maximization with discrete assignments. In contrast, the use of these functions for probabilistic modeling has received surprisingly little attention so far. In this work, we firstly propose the Generalized Multilinear Extension, a continuous DR-submodular extension for integer submodular functions. We study central properties of this extension and formulate a new probabilistic model which is defined through integer submodular functions. Then, we introduce a block-coordinate ascent algorithm to perform approximate inference for those class of models. Finally, we demonstrate its effectiveness and viability on several real-world social connection graph datasets with integer submodular objectives.
翻訳日:2022-11-26 06:21:37 公開日:2020-06-01
# 拡張型電気輸送車両の強化学習に基づくエネルギー管理システムに対する敵対的攻撃

Adversarial Attacks on Reinforcement Learning based Energy Management Systems of Extended Range Electric Delivery Vehicles ( http://arxiv.org/abs/2006.00817v1 )

ライセンス: Link先を確認
Pengyue Wang, Yan Li, Shashi Shekhar and William F. Northrop(参考訳) コンピュータビジョンの領域では、まず、逆の例が研究され、元の入力画像に注意深くデザインされた「ノイズ」を追加することにより、人間が区別できない摂動画像は、よく訓練された分類器を容易に騙すことができる。 近年、研究者らは、画像入力と類似した手法を用いて、ビデオゲームの深層強化学習(DRL)エージェントを誤認できることを示した。 しかし、DRLはインテリジェント交通システム分野ではますます普及しているが、特にイメージを入力として捉えないアルゴリズムに対する敵攻撃の影響についてはほとんど研究されていない。 本研究では, DRLをベースとした長距離電気自動車のエネルギー管理システムの性能を著しく低下させるために, 敵の例を高速に生成する手法について検討した。 摂動入力は低次元の状態表現であり、異なる種類のノルムで定量化された元の入力に近い。 我々の研究は、現実の輸送システムにdrlエージェントを適用するためには、サイバー攻撃の形の敵対的な例を慎重に検討すべきであることを示している。

Adversarial examples are firstly investigated in the area of computer vision: by adding some carefully designed ''noise'' to the original input image, the perturbed image that cannot be distinguished from the original one by human, can fool a well-trained classifier easily. In recent years, researchers also demonstrated that adversarial examples can mislead deep reinforcement learning (DRL) agents on playing video games using image inputs with similar methods. However, although DRL has been more and more popular in the area of intelligent transportation systems, there is little research investigating the impacts of adversarial attacks on them, especially for algorithms that do not take images as inputs. In this work, we investigated several fast methods to generate adversarial examples to significantly degrade the performance of a well-trained DRL- based energy management system of an extended range electric delivery vehicle. The perturbed inputs are low-dimensional state representations and close to the original inputs quantified by different kinds of norms. Our work shows that, to apply DRL agents on real-world transportation systems, adversarial examples in the form of cyber-attack should be considered carefully, especially for applications that may lead to serious safety issues.
翻訳日:2022-11-26 06:14:36 公開日:2020-06-01
# 太いデータ分析におけるキー変数検出のための組み合わせ手法

A Combined Approach To Detect Key Variables In Thick Data Analytics ( http://arxiv.org/abs/2006.00864v1 )

ライセンス: Link先を確認
Giovanni Antonelli, Rosa Arboretti Giancristofaro, Riccardo Ceccato, Paolo Centomo, Luca Pegoraro, Luigi Salmaso and Marco Zecca(参考訳) 機械学習における戦略課題の1つは、応答の予測因子として重要な変数のみを選択することである。 本稿では,最も情報に富む変数のみを特定することを目的として,候補予測変数に対する置換テストの適用を前提とした手法を提案する。 いくつかの工業的問題はそのようなアプローチの恩恵を受ける可能性があり、化学分析の分野への応用を示す。 提案されたアプローチとlassoの比較が行われ、これは文献で利用可能な機能選択の最も一般的な選択肢の1つである。

In machine learning one of the strategic tasks is the selection of only significant variables as predictors for the response(s). In this paper an approach is proposed which consists in the application of permutation tests on the candidate predictor variables in the aim of identifying only the most informative ones. Several industrial problems may benefit from such an approach, and an application in the field of chemical analysis is presented. A comparison is carried out between the approach proposed and Lasso, that is one of the most common alternatives for feature selection available in the literature.
翻訳日:2022-11-26 06:14:17 公開日:2020-06-01
# 住宅エネルギー消費パターンの最適クラスタリング構造選択のための能力質問の利用

Using competency questions to select optimal clustering structures for residential energy consumption patterns ( http://arxiv.org/abs/2006.00934v1 )

ライセンス: Link先を確認
Wiebke Toussaint, Deshendran Moodley(参考訳) クラスタ分析の間、専門家とビジュアル分析はしばしば最適なクラスタリング構造を特定するために頼りにされます。 このプロセスはアドホックで主観的で再現が難しい傾向にある。 本研究は、住宅用エネルギー消費部門におけるクラスタリングアプリケーションのコンテキスト固有の評価のために、専門家の知識とアプリケーション要件を形式化するために、能力的疑問をいかに利用できるかを示す。

During cluster analysis domain experts and visual analysis are frequently relied on to identify the optimal clustering structure. This process tends to be adhoc, subjective and difficult to reproduce. This work shows how competency questions can be used to formalise expert knowledge and application requirements for context specific evaluation of a clustering application in the residential energy consumption sector.
翻訳日:2022-11-26 06:13:03 公開日:2020-06-01
# Wasserstein Constraintを用いたロバスト強化学習

Robust Reinforcement Learning with Wasserstein Constraint ( http://arxiv.org/abs/2006.00945v1 )

ライセンス: Link先を確認
Linfang Hou, Liang Pang, Xin Hong, Yanyan Lan, Zhiming Ma, Dawei Yin(参考訳) ロバスト強化学習は、環境力学にある程度頑健な最適な政策を見つけることを目的としている。 既存の学習アルゴリズムは、通常、現在の状態を乱したり、システムの力学(すなわち遷移確率)に定量化された堅牢性を欠いたヒューリスティックな方法で環境パラメータをシミュレートすることで、ロバスト性を実現する。 この問題を解決するために、ワッサーシュタイン距離を利用して参照遷移カーネルの障害を測定する。 ワッサースタイン距離では、遷移核の乱れを状態乱れ、すなわち無限次元最適化問題を有限次元リスク認識問題に還元することができる。 最適なロバストポリシーの存在を示し,摂動に対する感度解析を行い,新しいロバスト学習アルゴリズム--wasserstein robust advantage actor-critic algorithm (wraac) を設計した。 提案アルゴリズムの有効性はCart-Pole環境で検証する。

Robust Reinforcement Learning aims to find the optimal policy with some extent of robustness to environmental dynamics. Existing learning algorithms usually enable the robustness through disturbing the current state or simulating environmental parameters in a heuristic way, which lack quantified robustness to the system dynamics (i.e. transition probability). To overcome this issue, we leverage Wasserstein distance to measure the disturbance to the reference transition kernel. With Wasserstein distance, we are able to connect transition kernel disturbance to the state disturbance, i.e. reduce an infinite-dimensional optimization problem to a finite-dimensional risk-aware problem. Through the derived risk-aware optimal Bellman equation, we show the existence of optimal robust policies, provide a sensitivity analysis for the perturbations, and then design a novel robust learning algorithm--Wasserstein Robust Advantage Actor-Critic algorithm (WRAAC). The effectiveness of the proposed algorithm is verified in the Cart-Pole environment.
翻訳日:2022-11-26 06:12:58 公開日:2020-06-01
# 文選択のための文脈ベース変換器モデル

Context-based Transformer Models for Answer Sentence Selection ( http://arxiv.org/abs/2006.01285v1 )

ライセンス: Link先を確認
Ivano Lauriola and Alessandro Moschitti(参考訳) 質問回答システムの設計における重要な課題は、質問に関連する文書から回答を含む(または構成する)文を選択することである。 これまでのほとんどの研究では、モデルが追加の文脈情報も効果的にエンコードするほど強力ではないため、目的の文を使ってスコアを計算しただけであった。 本稿では,文選択作業における文脈情報の役割を解析し,局所的・グローバル的な2種類の文脈を利用するTransformerベースのアーキテクチャを提案する。 前者は暗黙の参照を解決するために文を含む段落を、後者は候補文を含む全文書を記述し、内容に基づく情報を提供する。 3つの異なるベンチマークの結果から,Transformerモデルにおけるローカルコンテキストとグローバルコンテキストの組み合わせは,解答文選択の精度を著しく向上させることが示された。

An important task for the design of Question Answering systems is the selection of the sentence containing (or constituting) the answer from documents relevant to the asked question. Most previous work has only used the target sentence to compute its score with the question as the models were not powerful enough to also effectively encode additional contextual information. In this paper, we analyze the role of the contextual information in the sentence selection task, proposing a Transformer based architecture that leverages two types of contexts, local and global. The former describes the paragraph containing the sentence, aiming at solving implicit references, whereas the latter describes the entire document containing the candidate sentence, providing content-based information. The results on three different benchmarks show that the combination of local and global contexts in a Transformer model significantly improves the accuracy in Answer Sentence Selection.
翻訳日:2022-11-26 06:06:39 公開日:2020-06-01
# 敵攻撃に対する第2次防衛

Second-Order Provable Defenses against Adversarial Attacks ( http://arxiv.org/abs/2006.00731v1 )

ライセンス: Link先を確認
Sahil Singla, Soheil Feizi(参考訳) 堅牢性証明は、与えられた入力から分類器(またはその下限)の判定境界までの最小距離である。 証明書値よりも桁違いに小さい入力摂動に対して、分類出力は確実に変化しない。 非凸最適化を解く必要があるため、ニューラルネットワークの堅牢性証明を正確に計算することは難しい。 本稿では,2段階の異なる活性化関数を持つニューラルネットワークに対して,計算効率のよいロバスト性証明を提供する。 まず、ネットワークのHessianの固有値が有界であれば、凸最適化を用いて、$l_2$ノルムのロバスト性証明を効率的に計算できることを示す。 第二に、深層ネットワークの曲率に計算効率の良い微分可能上界を導出する。 また,ネットワークのトレーニング中の正規化用語として曲率バウンドを用いて,認証されたロバスト性を高める。 これらの結果をまとめると、提案した {\bf C}urvature-based {\bf R}obustness {\bf C}ertificate (CRC) と {\bf C}urvature-based {\bf R}obust {\bf T}raining (CRT) が導かれる。 その結果,crtはインターバルバウンド伝播 (ibp) に基づくトレーニングよりも高い精度を保証できることがわかった。 認証されたロバスト精度は69.79\%, 57.78\%, 53.19\%, ibpベースでは44.96\%, 44.74\%, 44.66\%であった。

A robustness certificate is the minimum distance of a given input to the decision boundary of the classifier (or its lower bound). For {\it any} input perturbations with a magnitude smaller than the certificate value, the classification output will provably remain unchanged. Exactly computing the robustness certificates for neural networks is difficult since it requires solving a non-convex optimization. In this paper, we provide computationally-efficient robustness certificates for neural networks with differentiable activation functions in two steps. First, we show that if the eigenvalues of the Hessian of the network are bounded, we can compute a robustness certificate in the $l_2$ norm efficiently using convex optimization. Second, we derive a computationally-efficient differentiable upper bound on the curvature of a deep network. We also use the curvature bound as a regularization term during the training of the network to boost its certified robustness. Putting these results together leads to our proposed {\bf C}urvature-based {\bf R}obustness {\bf C}ertificate (CRC) and {\bf C}urvature-based {\bf R}obust {\bf T}raining (CRT). Our numerical results show that CRT leads to significantly higher certified robust accuracy compared to interval-bound propagation (IBP) based training. We achieve certified robust accuracy 69.79\%, 57.78\% and 53.19\% while IBP-based methods achieve 44.96\%, 44.74\% and 44.66\% on 2,3 and 4 layer networks respectively on the MNIST-dataset.
翻訳日:2022-11-26 06:03:49 公開日:2020-06-01
# マルチラベル映画ジャンル分類のためのマルチモーダルアプローチ

A multimodal approach for multi-label movie genre classification ( http://arxiv.org/abs/2006.00654v1 )

ライセンス: Link先を確認
Rafael B. Mangolin, Rodolfo M. Pereira, Alceu S. Britto Jr., Carlos N. Silla Jr., Val\'eria D. Feltrim, Diego Bertolini and Yandre M. G. Costa(参考訳) 映画ジャンルの分類は難しい課題であり、研究者の注目を集めている。 本稿では,映画ジャンルのマルチラベル分類について,マルチモーダルな方法で論じる。 そこで我々は,映画データベースから152,622本の映画タイトルから撮影したトレーラービデオクリップ,サブタイトル,シナプス,映画のポスターからなるデータセットを作成した。 データセットは注意深く管理され、整理され、この研究の貢献として利用可能になった。 データセットの各映画は18のジャンルのラベルによってラベル付けされた。 我々はこれらのデータから,メル周波数ケプストラム係数,統計スペクトル記述子,分光図付き局所バイナリパターン,長短項記憶,畳み込みニューラルネットワークなど,様々な種類の記述子を用いて特徴を抽出した。 記述子は、BinaryRelevanceやML-kNNといった異なる分類器を用いて評価された。 また,異なる分類器/特徴の組み合わせの性能について,後期融合戦略を用いて検討し,奨励的な結果を得た。 f-scoreメトリックに基づいて, lstmを用いて作成した分類器と, 映画トレーラーフレーム上でcnnを用いて作成した分類器の融合により, 我々の最良値である0.628が得られた。 AUC-PRメートル法を考えると、それらの表現を組み合わせることで0.673の最良の結果が得られたが、字幕から作成したLSTMに基づく分類器が使用された。 これらの結果は、この分野における異なる情報ソースに基づく分類器間の相補性の存在を裏付けるものである。 私たちが知る限り、映画ジャンル分類を行うためのマルチメディア情報ソースの多様性の観点から開発された最も包括的な研究である。

Movie genre classification is a challenging task that has increasingly attracted the attention of researchers. In this paper, we addressed the multi-label classification of the movie genres in a multimodal way. For this purpose, we created a dataset composed of trailer video clips, subtitles, synopses, and movie posters taken from 152,622 movie titles from The Movie Database. The dataset was carefully curated and organized, and it was also made available as a contribution of this work. Each movie of the dataset was labeled according to a set of eighteen genre labels. We extracted features from these data using different kinds of descriptors, namely Mel Frequency Cepstral Coefficients, Statistical Spectrum Descriptor , Local Binary Pattern with spectrograms, Long-Short Term Memory, and Convolutional Neural Networks. The descriptors were evaluated using different classifiers, such as BinaryRelevance and ML-kNN. We have also investigated the performance of the combination of different classifiers/features using a late fusion strategy, which obtained encouraging results. Based on the F-Score metric, our best result, 0.628, was obtained by the fusion of a classifier created using LSTM on the synopses, and a classifier created using CNN on movie trailer frames. When considering the AUC-PR metric, the best result, 0.673, was also achieved by combining those representations, but in addition, a classifier based on LSTM created from the subtitles was used. These results corroborate the existence of complementarity among classifiers based on different sources of information in this field of application. As far as we know, this is the most comprehensive study developed in terms of the diversity of multimedia sources of information to perform movie genre classification.
翻訳日:2022-11-26 05:56:53 公開日:2020-06-01
# ディープニューラルネットワーク(OVNNI)量子化のための1つのVersus

One Versus all for deep Neural Network Incertitude (OVNNI) quantification ( http://arxiv.org/abs/2006.00954v1 )

ライセンス: Link先を確認
Gianni Franchi, Andrei Bursuc, Emanuel Aldea, Severine Dubuisson, Isabelle Bloch(参考訳) ディープニューラルネットワーク(DNN)は強力な学習モデルであるが、結果が常に信頼できるとは限らない。 これは、現代のDNNが一般的に未分類であり、彼らの疫学的な不確実性を特徴づけることができないためである。 本研究では,データの認識的不確かさを簡易に定量化する新しい手法を提案する。 本手法は,1つのクラス対他のクラス(OVA)を分類するために訓練されたDNNのアンサンブルの予測と,オール対オール(AVA)分類を実行するために訓練された標準DNNの予測とを混合する。 一方、ベース分類器のスコアに対するAVA DNNによって提供される調整により、よりきめ細かいクラス間分離が可能となる。 一方, 2種類の分類器は, 相互にod(out-of-distribution, out-distribution, out-distribution, out-distribution, out-distribution) サンプルの検出を強制する。 提案手法は,複数のデータセットやアーキテクチャにまたがるOODデータの定量化において,ハイパーパラメータチューニングの少ない技術性能を実現する。

Deep neural networks (DNNs) are powerful learning models yet their results are not always reliable. This is due to the fact that modern DNNs are usually uncalibrated and we cannot characterize their epistemic uncertainty. In this work, we propose a new technique to quantify the epistemic uncertainty of data easily. This method consists in mixing the predictions of an ensemble of DNNs trained to classify One class vs All the other classes (OVA) with predictions from a standard DNN trained to perform All vs All (AVA) classification. On the one hand, the adjustment provided by the AVA DNN to the score of the base classifiers allows for a more fine-grained inter-class separation. On the other hand, the two types of classifiers enforce mutually their detection of out-of-distribution (OOD) samples, circumventing entirely the requirement of using such samples during training. Our method achieves state of the art performance in quantifying OOD data across multiple datasets and architectures while requiring little hyper-parameter tuning.
翻訳日:2022-11-26 05:56:25 公開日:2020-06-01
# 畳み込みニューラルネットワークを用いた拡散強調MRIにおける前立腺癌検出のためのデータ拡張戦略に関する総合的研究

A Comprehensive Study of Data Augmentation Strategies for Prostate Cancer Detection in Diffusion-weighted MRI using Convolutional Neural Networks ( http://arxiv.org/abs/2006.01693v1 )

ライセンス: Link先を確認
Ruqian Hao, Khashayar Namdar, Lin Liu, Masoom A. Haider, Farzad Khalvati(参考訳) データ拡張とは、限られた量の利用可能なデータと戦ってモデル一般化を改善し、サンプル分布を真の分布にプッシュすることを目的としている技術群を指す。 深層学習の文脈において様々なコンピュータビジョンタスクに対して,様々な拡張戦略とその組み合わせが検討されているが,医用画像領域における特定の研究は稀であり,我々の知る限り,前立腺がん検出における深層学習モデルの性能に対する様々な拡張手法の効果を探求する研究は行われていない。 本研究は,217例の拡散強調磁気共鳴画像訓練データセットに対して,最も頻繁に用いられる5つの拡張法(ランダム回転,水平フリップ,垂直フリップ,ランダム作物,翻訳)を静的に適用し,各方法が前立腺癌検出精度に与える影響を評価した。 拡張アルゴリズムは各データチャネルに独立して適用され、浅い部分と深い畳み込みニューラルネットワーク(CNN)は5つの拡張セットで個別にトレーニングされた。 患者95名を対象に,受信者動作特性(roc)曲線 (auc) 下の領域を用いて, 患者102名による検証セットを用いて, 訓練したcnnの性能評価を行った。 浅層ネットワークは, 回転法で得られた2次元スライスベースauc0.85で, ディープネットワークを上回った。

Data augmentation refers to a group of techniques whose goal is to battle limited amount of available data to improve model generalization and push sample distribution toward the true distribution. While different augmentation strategies and their combinations have been investigated for various computer vision tasks in the context of deep learning, a specific work in the domain of medical imaging is rare and to the best of our knowledge, there has been no dedicated work on exploring the effects of various augmentation methods on the performance of deep learning models in prostate cancer detection. In this work, we have statically applied five most frequently used augmentation techniques (random rotation, horizontal flip, vertical flip, random crop, and translation) to prostate Diffusion-weighted Magnetic Resonance Imaging training dataset of 217 patients separately and evaluated the effect of each method on the accuracy of prostate cancer detection. The augmentation algorithms were applied independently to each data channel and a shallow as well as a deep Convolutional Neural Network (CNN) were trained on the five augmented sets separately. We used Area Under Receiver Operating Characteristic (ROC) curve (AUC) to evaluate the performance of the trained CNNs on a separate test set of 95 patients, using a validation set of 102 patients for finetuning. The shallow network outperformed the deep network with the best 2D slice-based AUC of 0.85 obtained by the rotation method.
翻訳日:2022-11-26 05:55:40 公開日:2020-06-01
# 注意語埋め込み

Attention Word Embedding ( http://arxiv.org/abs/2006.00988v1 )

ライセンス: Link先を確認
Shashank Sonkar, Andrew E. Waters, Richard G. Baraniuk(参考訳) 単語埋め込みモデルは意味的にリッチな単語のベクトル表現を学習し、自然処理言語(nlp)モデルを初期化するために広く使われている。 word2vecのcbow(continuous bag-of-words)モデルは、与えられた単語を文にマスキングしてベクトル埋め込みを学び、他の単語を文脈として予測する。 CBOWの制限は、ある単語が他の単語よりも高い予測値を持つため、予測を行う際の文脈語を等しく重み付けることである。 我々は,cbowモデルにアテンション機構を統合するaweモデルを導入することで,この非効率性に取り組む。 また,サブワード情報を組み込んだAWE-Sを提案する。 AWEとAWE-Sは、様々な単語類似性データセットとNLPモデルの初期化に使用する場合の両方において、最先端の単語埋め込みモデルよりも優れていることを示す。

Word embedding models learn semantically rich vector representations of words and are widely used to initialize natural processing language (NLP) models. The popular continuous bag-of-words (CBOW) model of word2vec learns a vector embedding by masking a given word in a sentence and then using the other words as a context to predict it. A limitation of CBOW is that it equally weights the context words when making a prediction, which is inefficient, since some words have higher predictive value than others. We tackle this inefficiency by introducing the Attention Word Embedding (AWE) model, which integrates the attention mechanism into the CBOW model. We also propose AWE-S, which incorporates subword information. We demonstrate that AWE and AWE-S outperform the state-of-the-art word embedding models both on a variety of word similarity datasets and when used for initialization of NLP models.
翻訳日:2022-11-26 05:54:36 公開日:2020-06-01
# ハイブリッド改良されたドキュメントレベルの埋め込み(hid)

Hybrid Improved Document-level Embedding (HIDE) ( http://arxiv.org/abs/2006.01203v1 )

ライセンス: Link先を確認
Satanik Mitra and Mamata Jenamani(参考訳) 近年,感情分析において単語埋め込みが重要な役割を担っている。 単語埋め込みの生成は巨大なコーパスを必要とするため、多くのアプリケーションは事前学習された埋め込みを使用する。 この成功にもかかわらず、単語の埋め込みは、単語の感情情報、文脈情報、音声タグの一部、ドメイン固有の情報など、ある種の欠点に悩まされている。 本稿では,グラブやword2vecといった既存の単語埋め込みにドメイン情報,音声情報の一部,感情情報を組み込んだ,ドキュメントレベルの組込みのハイブリッド化を提案する。 改良された単語埋め込みをドキュメントレベルの埋め込みに組み合わせる。 さらに、Latent Semantic Analysis (LSA) は文書をベクトルとして表現するために使われている。 HIDEはLSAと文書レベルの埋め込みを組み合わせて生成され、改良された単語埋め込みから計算される。 我々は、6つの異なるデータセットでHIDEをテストし、GloVeやWord2Vecといった既存の事前訓練された単語ベクトルの精度を大幅に改善した。 さらに、既存の2つの文書レベルの感情分析手法と比較する。 HIDEは既存のシステムよりも優れている。

In recent times, word embeddings are taking a significant role in sentiment analysis. As the generation of word embeddings needs huge corpora, many applications use pretrained embeddings. In spite of the success, word embeddings suffers from certain drawbacks such as it does not capture sentiment information of a word, contextual information in terms of parts of speech tags and domain-specific information. In this work we propose HIDE a Hybrid Improved Document level Embedding which incorporates domain information, parts of speech information and sentiment information into existing word embeddings such as GloVe and Word2Vec. It combine improved word embeddings into document level embeddings. Further, Latent Semantic Analysis (LSA) has been used to represent documents as a vectors. HIDE is generated, combining LSA and document level embeddings, which is computed from improved word embeddings. We test HIDE with six different datasets and shown considerable improvement over the accuracy of existing pretrained word vectors such as GloVe and Word2Vec. We further compare our work with two existing document level sentiment analysis approaches. HIDE performs better than existing systems.
翻訳日:2022-11-26 05:54:19 公開日:2020-06-01
# 正規化のための有効性尺度:形式的特性と実験結果

An Effectiveness Metric for Ordinal Classification: Formal Properties and Experimental Results ( http://arxiv.org/abs/2006.01245v1 )

ライセンス: Link先を確認
Enrique Amig\'o, Julio Gonzalo, Stefano Mizzaro, Jorge Carrillo-de-Albornoz(参考訳) 通常の分類タスクでは、アイテムは感情分析においてポジティブ、中立、ネガティブといった相対的な順序を持つクラスに割り当てられなければならない。 注目すべきは、順序付けタスクに対する最も一般的な評価指標は、関連する情報(例えば、各クラスの精度/リコールは相対的な順序を無視する)を無視したり、追加情報(平均誤差はクラス間の絶対距離を仮定する)を仮定する。 本稿では,計測理論と情報理論に根ざした順序分類のための新しい指標,近接性評価尺度を提案する。 NLP共有タスクの合成データとデータの両方に対する理論的解析と実験結果から,提案手法が従来のタスクから品質面を同時に捉えていることが示唆された。 さらに、いくつかの一般的な分類(nominal scale)とエラー最小化(interval scale)のメトリクスを、インスタンス化される測定尺度によって一般化する。

In Ordinal Classification tasks, items have to be assigned to classes that have a relative ordering, such as positive, neutral, negative in sentiment analysis. Remarkably, the most popular evaluation metrics for ordinal classification tasks either ignore relevant information (for instance, precision/recall on each of the classes ignores their relative ordering) or assume additional information (for instance, Mean Average Error assumes absolute distances between classes). In this paper we propose a new metric for Ordinal Classification, Closeness Evaluation Measure, that is rooted on Measurement Theory and Information Theory. Our theoretical analysis and experimental results over both synthetic data and data from NLP shared tasks indicate that the proposed metric captures quality aspects from different traditional tasks simultaneously. In addition, it generalizes some popular classification (nominal scale) and error minimization (interval scale) metrics, depending on the measurement scale in which it is instantiated.
翻訳日:2022-11-26 05:54:04 公開日:2020-06-01
# 高次元不確かさ定量化のための半教師付きディープラーニング

Semi-supervised deep learning for high-dimensional uncertainty quantification ( http://arxiv.org/abs/2006.01010v1 )

ライセンス: Link先を確認
Zequn Wang and Mingyang Li(参考訳) 従来の不確実性定量化法は、次元性の呪いによる高次元問題を扱う能力に欠ける。 本稿では,次元削減と信頼性解析のための半教師付き学習フレームワークを提案する。 オートエンコーダはまず、高次元空間を識別可能な故障面を含む低次元の潜在空間にマッピングするために採用される。 次に、ディープフィードフォワードニューラルネットワーク(DFN)を用いてマッピング関係を学習し、潜在空間を再構成し、ガウス過程(GP)モデリング技術を用いて変換された極限状態関数の代理モデルを構築する。 DFNの訓練過程において、実際の潜伏空間と再構成された潜伏空間との差を半教師付き学習により最小化し、精度を確保する。 DFNの損失関数の定義にはラベル付きサンプルとラベルなしサンプルの両方が使用される。 dfnのトレーニングには進化的アルゴリズムが採用され、提案手法に基づく不確実性定量化と信頼性解析にモンテカルロシミュレーション法が用いられる。 その効果は数学的例によって示される。

Conventional uncertainty quantification methods usually lacks the capability of dealing with high-dimensional problems due to the curse of dimensionality. This paper presents a semi-supervised learning framework for dimension reduction and reliability analysis. An autoencoder is first adopted for mapping the high-dimensional space into a low-dimensional latent space, which contains a distinguishable failure surface. Then a deep feedforward neural network (DFN) is utilized to learn the mapping relationship and reconstruct the latent space, while the Gaussian process (GP) modeling technique is used to build the surrogate model of the transformed limit state function. During the training process of the DFN, the discrepancy between the actual and reconstructed latent space is minimized through semi-supervised learning for ensuring the accuracy. Both labeled and unlabeled samples are utilized for defining the loss function of the DFN. Evolutionary algorithm is adopted to train the DFN, then the Monte Carlo simulation method is used for uncertainty quantification and reliability analysis based on the proposed framework. The effectiveness is demonstrated through a mathematical example.
翻訳日:2022-11-26 05:47:21 公開日:2020-06-01
# 二重畳み込みニューラルネットワークを用いたリモートセンシング画像のマルチスケールクラウド検出

Multi-scale Cloud Detection in Remote Sensing Images using a Dual Convolutional Neural Network ( http://arxiv.org/abs/2006.00836v1 )

ライセンス: Link先を確認
Markku Luotamo, Sari Mets\"am\"aki, Arto Klami(参考訳) 畳み込みニューラルネットワーク(cnn)による意味セグメンテーションは,リモートセンシング画像の画素レベル分類における最先端技術である。 しかし、大きな画像を処理するには、通常、小さなパッチで画像を分析する必要があるため、大きな空間的範囲を持つ特徴は、雲のマスキングのようなタスクで問題を引き起こす。 大規模衛星画像の計算要件を低減しつつ、より広い空間的特徴量をサポートするため、2つのカスケードcnnモデルコンポーネントによるアンサンプとフルレゾリューション画像を順次処理するアーキテクチャを提案する。 最初のコンポーネントは、内部のクラウド領域のパッチと、クラウドの境界領域のパッチを区別する。 さらなるセグメンテーションを必要とするクラウドあいまいなエッジパッチの場合、フレームワークは計算をきめ細かいモデルコンポーネントに委譲する。 このアーキテクチャを,土地利用アプリケーションにおける最小の偽陰性に対してアノテートされた,完全なSentinel-2マルチスペクトル画像のクラウド検出データセットに適用する。 この特定のタスクとデータについて,パッチの適用により,cnnベースラインよりも画素精度が16\%向上した。

Semantic segmentation by convolutional neural networks (CNN) has advanced the state of the art in pixel-level classification of remote sensing images. However, processing large images typically requires analyzing the image in small patches, and hence features that have large spatial extent still cause challenges in tasks such as cloud masking. To support a wider scale of spatial features while simultaneously reducing computational requirements for large satellite images, we propose an architecture of two cascaded CNN model components successively processing undersampled and full resolution images. The first component distinguishes between patches in the inner cloud area from patches at the cloud's boundary region. For the cloud-ambiguous edge patches requiring further segmentation, the framework then delegates computation to a fine-grained model component. We apply the architecture to a cloud detection dataset of complete Sentinel-2 multispectral images, approximately annotated for minimal false negatives in a land use application. On this specific task and data, we achieve a 16\% relative improvement in pixel accuracy over a CNN baseline based on patching.
翻訳日:2022-11-26 05:47:05 公開日:2020-06-01
# 質問応答による予測エージェントの創発的セマンティクスの探索

Probing Emergent Semantics in Predictive Agents via Question Answering ( http://arxiv.org/abs/2006.01016v1 )

ライセンス: Link先を確認
Abhishek Das, Federico Carnevale, Hamza Merzic, Laura Rimell, Rosalia Schneider, Josh Abramson, Alden Hung, Arun Ahuja, Stephen Clark, Gregory Wayne, Felix Hill(参考訳) 近年の研究では、予測モデリングがエージェントに環境に関する豊富な知識を与え、複雑な環境で振る舞う能力を改善する方法が示されている。 我々は,これらのエージェントが生み出す表現をデコードし理解するための一般的なパラダイムとして,我々の手法を2つの最近の予測モデル-行動条件CPC(Guo et al., 2018)とSimCore(Gregor et al., 2019)に適用する。 対象物,色,形状,空間的構成を揃えた視覚豊かな3次元環境において,これらの予測対象を持つエージェントを訓練した後,質問応答デコーダからエージェントへの勾配を逆伝播することなく,内部状態表現を合成(英語)質問で探索する。 このように調査された異なるエージェントのパフォーマンスは、物理的環境からオブジェクト、特性、空間的関係に関する情報を、事実的かつ一見構成的にエンコードすることを学ぶことを明らかにしている。 我々のアプローチは直感的であり、つまり、連続ベクトルの検査とは対照的に、人間がモデルの応答を容易に解釈でき、モデルに依存しない、すなわちあらゆるモデリングアプローチに適用できる。 エージェントが学習する対象、量、特性、関係の暗黙の知識を明らかにすることで、より強力な予測学習目標の設計と開発を促進することができる。

Recent work has shown how predictive modeling can endow agents with rich knowledge of their surroundings, improving their ability to act in complex environments. We propose question-answering as a general paradigm to decode and understand the representations that such agents develop, applying our method to two recent approaches to predictive modeling -action-conditional CPC (Guo et al., 2018) and SimCore (Gregor et al., 2019). After training agents with these predictive objectives in a visually-rich, 3D environment with an assortment of objects, colors, shapes, and spatial configurations, we probe their internal state representations with synthetic (English) questions, without backpropagating gradients from the question-answering decoder into the agent. The performance of different agents when probed this way reveals that they learn to encode factual, and seemingly compositional, information about objects, properties and spatial relations from their physical environment. Our approach is intuitive, i.e. humans can easily interpret responses of the model as opposed to inspecting continuous vectors, and model-agnostic, i.e. applicable to any modeling approach. By revealing the implicit knowledge of objects, quantities, properties and relations acquired by agents as they learn, question-conditional agent probing can stimulate the design and development of stronger predictive learning objectives.
翻訳日:2022-11-26 05:46:48 公開日:2020-06-01
# PlanGAN: スパースリワードと複数目標によるモデルベースプランニング

PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals ( http://arxiv.org/abs/2006.00900v1 )

ライセンス: Link先を確認
Henry Charlesworth and Giovanni Montana(参考訳) スパース報酬による学習は、強化学習(RL)において重要な課題であり、特に、複数の異なる目標を達成することができる政策を訓練することを目的としている。 これまで、マルチゴールでスパースな報酬環境を扱うための最も成功したアプローチは、モデルフリーなRLアルゴリズムである。 本研究では,スパース報酬を伴う環境におけるマルチゴールタスクの解決に特化して設計されたモデルベースアルゴリズムであるPlanGANを提案する。 本手法は,エージェントが収集した経験の軌跡に,その軌跡中に観測された目標を達成するための有用な情報が含まれていることに基づく。 これを用いて、条件生成モデル(GAN)のアンサンブルを訓練し、エージェントを現在の状態から特定の目標に向かって導く可塑性軌道を生成する。 次に, 期待する経路を新しい計画アルゴリズムに組み合わせ, 目標を可能な限り効率的に達成する。 planganのパフォーマンスは、後見体験リプレイを含むモデルフリーの強化学習ベースラインと比較して、多くのロボットナビゲーション/操作タスクでテストされてきた。 本研究は,PlanGANが4~8倍の効率で,同等の性能を達成できることを示唆する。

Learning with sparse rewards remains a significant challenge in reinforcement learning (RL), especially when the aim is to train a policy capable of achieving multiple different goals. To date, the most successful approaches for dealing with multi-goal, sparse reward environments have been model-free RL algorithms. In this work we propose PlanGAN, a model-based algorithm specifically designed for solving multi-goal tasks in environments with sparse rewards. Our method builds on the fact that any trajectory of experience collected by an agent contains useful information about how to achieve the goals observed during that trajectory. We use this to train an ensemble of conditional generative models (GANs) to generate plausible trajectories that lead the agent from its current state towards a specified goal. We then combine these imagined trajectories into a novel planning algorithm in order to achieve the desired goal as efficiently as possible. The performance of PlanGAN has been tested on a number of robotic navigation/manipulation tasks in comparison with a range of model-free reinforcement learning baselines, including Hindsight Experience Replay. Our studies indicate that PlanGAN can achieve comparable performance whilst being around 4-8 times more sample efficient.
翻訳日:2022-11-26 05:46:16 公開日:2020-06-01
# 1次攻撃法による対人ロバストネスの実証評価の再考

Rethinking Empirical Evaluation of Adversarial Robustness Using First-Order Attack Methods ( http://arxiv.org/abs/2006.01304v1 )

ライセンス: Link先を確認
Kyungmi Lee, Anantha P. Chandrakasan(参考訳) 実証実験では, 対向的強靭性の指標として広く用いられている境界1次攻撃法に対して, 対向的精度の過大評価につながる3つの症例を同定した。 いずれの場合においても,ゼロに近い数値不安定性や非微分可能性といった不正確な勾配計算のソースに対処するか,二階情報の近似化による反復攻撃に対するバックプロパゲーションの総数を削減する補償手法を提案する。 これらの補償方法は、より正確な経験的評価基準のために、既存の攻撃方法と組み合わせることができる。 これら3つのケースの影響を,ベンチマークモデルのキャパシティやロバスト性のための正規化手法といった実用的関心の例で示す。 全体として、従来の訓練されたディープニューラルネットワークにおいても、頑健さを示さない過度に推定された敵の精度が一般的であることを示し、保証された境界のない経験的評価を使用することの注意点を強調した。

We identify three common cases that lead to overestimation of adversarial accuracy against bounded first-order attack methods, which is popularly used as a proxy for adversarial robustness in empirical studies. For each case, we propose compensation methods that either address sources of inaccurate gradient computation, such as numerical instability near zero and non-differentiability, or reduce the total number of back-propagations for iterative attacks by approximating second-order information. These compensation methods can be combined with existing attack methods for a more precise empirical evaluation metric. We illustrate the impact of these three cases with examples of practical interest, such as benchmarking model capacity and regularization techniques for robustness. Overall, our work shows that overestimated adversarial accuracy that is not indicative of robustness is prevalent even for conventionally trained deep neural networks, and highlights cautions of using empirical evaluation without guaranteed bounds.
翻訳日:2022-11-26 05:45:45 公開日:2020-06-01