このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200729となっている論文です。

PDF登録状況(公開日: 20200729)

TitleAuthorsAbstract論文公表日・翻訳日
# 言語情報に基づくテキスト複雑性分類:eslの知的指導への応用

Text Complexity Classification Based on Linguistic Information: Application to Intelligent Tutoring of ESL ( http://arxiv.org/abs/2001.01863v7 )

ライセンス: Link先を確認
M. Zakaria Kurdi(参考訳) 本研究の目的は,英語を第二言語(ESL)学習者として教える文脈内で,テキストの複雑さを識別できる分類器を構築することである。 言語学習者が英語のレベルに適したテキストを提示するために、与えられたテキストの音韻論的、形態学的、語彙的、構文的、解約的、心理的複雑さを記述できる一連の特徴を同定した。 ESLの専門家によって既に3つの難易度に分類されていた6171テキストのコーパスを用いて、5つの機械学習アルゴリズムを用いて異なる実験を行った。 その結果, 言語学的特徴は総合的分類性能(F-Score = 0.97)に優れていた。 スケーラビリティ評価は、そのような分類器が実際のアプリケーションで使用できるかどうかをテストするために行われ、例えば、検索エンジンやwebスクレイピングモジュールにプラグインできる。 この評価では、テストセット内のテキストはトレーニングセットと異なるだけでなく、異なるタイプのテキスト(eslテキストと子どもたちがテキストを読むこと)である。 分類器の全体的な性能は著しく低下したが(f-score = 0.65)、混乱行列は分類誤差のほとんどがクラス2とクラス3(中間レベルクラス)の間にあり、システムはクラス1とクラス4のテキストの分類において堅牢な性能を示している。 この挙動は、2つのコーパスの分類基準の違いによって説明できる。 その結果,実世界のアプリケーションにおいて,そのような分類器のユーザビリティを確認した。

The goal of this work is to build a classifier that can identify text complexity within the context of teaching reading to English as a Second Language (ESL) learners. To present language learners with texts that are suitable to their level of English, a set of features that can describe the phonological, morphological, lexical, syntactic, discursive, and psychological complexity of a given text were identified. Using a corpus of 6171 texts, which had already been classified into three different levels of difficulty by ESL experts, different experiments were conducted with five machine learning algorithms. The results showed that the adopted linguistic features provide a good overall classification performance (F-Score = 0.97). A scalability evaluation was conducted to test if such a classifier could be used within real applications, where it can be, for example, plugged into a search engine or a web-scraping module. In this evaluation, the texts in the test set are not only different from those from the training set but also of different types (ESL texts vs. children reading texts). Although the overall performance of the classifier decreased significantly (F-Score = 0.65), the confusion matrix shows that most of the classification errors are between the classes two and three (the middle-level classes) and that the system has a robust performance in categorizing texts of class one and four. This behavior can be explained by the difference in classification criteria between the two corpora. Hence, the observed results confirm the usability of such a classifier within a real-world application.
翻訳日:2023-01-13 20:45:04 公開日:2020-07-29
# デコーダ側情報を用いた深部画像圧縮

Deep Image Compression using Decoder Side Information ( http://arxiv.org/abs/2001.04753v2 )

ライセンス: Link先を確認
Sharon Ayzik and Shai Avidan(参考訳) 本稿では,デコーダにのみ使用可能な,サイド情報に依存するディープイメージ圧縮ニューラルネットワークを提案する。 我々は,エンコーダに利用可能な画像とデコーダに利用可能な画像が相関しているという仮定に基づいて,これらの相関関係をトレーニング段階でネットワークに学習させる。 そして、実行時に、デコーダ側がデコーダ側画像について何も知らずに入力画像をエンコードし、デコーダに送信する。 そして、デコーダは、符号化された入力画像と側情報画像を用いて元の画像を再構成する。 この問題は情報理論における分散ソース符号化(Distributed Source Coding in Information Theory)として知られている。 提案アルゴリズムを複数の画像圧縮アルゴリズムと比較し,デコーダのみの側情報の追加が結果を改善することを示す。 私たちのコードはhttps://github.com/ayziksha/dsinで公開されています。

We present a Deep Image Compression neural network that relies on side information, which is only available to the decoder. We base our algorithm on the assumption that the image available to the encoder and the image available to the decoder are correlated, and we let the network learn these correlations in the training phase. Then, at run time, the encoder side encodes the input image without knowing anything about the decoder side image and sends it to the decoder. The decoder then uses the encoded input image and the side information image to reconstruct the original image. This problem is known as Distributed Source Coding in Information Theory, and we discuss several use cases for this technology. We compare our algorithm to several image compression algorithms and show that adding decoder-only side information does indeed improve results. Our code is publicly available at https://github.com/ayziksha/DSIN.
翻訳日:2023-01-11 13:18:10 公開日:2020-07-29
# GANHopper: 教師なし画像変換のためのマルチホップGAN

GANHopper: Multi-Hop GAN for Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2002.10102v5 )

ライセンス: Link先を確認
Wallace Lira, Johannes Merz, Daniel Ritchie, Daniel Cohen-Or, Hao Zhang(参考訳) GANHopperは、複数のホップを通して2つの領域間で画像を徐々に変換する教師なしのイメージ・ツー・イメージ翻訳ネットワークである。 翻訳を直接実行する代わりに、入力ドメインからの画像間の重み付けされたハイブリッドに類似した、ネットワーク間の画像を生成する必要がある。 我々のネットワークは、2つのドメインの未ペア画像のみをトレーニングしています。 全てのホップは、各方向に沿って1つの発電機を使用して製造される。 標準サイクル整合性および対向損失に加えて, 発電機が生成する中間画像を, 所定のホップ数に基づいて重み付けした重み付きハイブリッドとして分類する, 新しいハイブリッド判別器を導入する。 また、各ホップの大きさを制約するために滑らかな項を追加し、さらに翻訳を規則化する。 以前の方法と比較してganhopperは、ドメイン固有の画像特徴と幾何学的バリエーションを含む画像翻訳に優れ、一般的なカラースキームのようなドメイン固有の特徴も保持している。

We introduce GANHopper, an unsupervised image-to-image translation network that transforms images gradually between two domains, through multiple hops. Instead of executing translation directly, we steer the translation by requiring the network to produce in-between images that resemble weighted hybrids between images from the input domains. Our network is trained on unpaired images from the two domains only, without any in-between images. All hops are produced using a single generator along each direction. In addition to the standard cycle-consistency and adversarial losses, we introduce a new hybrid discriminator, which is trained to classify the intermediate images produced by the generator as weighted hybrids, with weights based on a predetermined hop count. We also add a smoothness term to constrain the magnitude of each hop, further regularizing the translation. Compared to previous methods, GANHopper excels at image translations involving domain-specific image features and geometric variations while also preserving non-domain-specific features such as general color schemes.
翻訳日:2022-12-29 04:06:52 公開日:2020-07-29
# DNNの学習ダイナミクス探索におけるレイヤワイドコンディショニング解析

Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of DNNs ( http://arxiv.org/abs/2002.10801v3 )

ライセンス: Link先を確認
Lei Huang, Jie Qin, Li Liu, Fan Zhu, Ling Shao(参考訳) 条件付け解析は、その曲率行列のスペクトルを探索することで最適化対象の景観を明らかにする。 これは線形モデルの理論上よく研究されている。 この分析を深層ニューラルネットワーク(DNN)に拡張し,その学習力学を解明する。 そこで本研究では,各層に対する最適化の展望を独立して検討する,層別コンディショニング解析を提案する。 このような分析は、ほぼ実際に成り立つ穏やかな仮定の下で理論的に支持される。 分析の結果,バッチ正規化(BN)はトレーニングを安定させるが,学習に有害な影響を与える局所的最小値の誤った印象を与える場合があることがわかった。 さらに, BN が最適化問題の階層的条件付けを改善することを実験的に検討した。 最後に、非常に深い残差ネットワークの最後の線形層は、不条件な振る舞いを示す。 この問題を解決するために、最後の線形層の前にBN層を1つだけ追加し、元の残差ネットワークと事前活性化残差ネットワークの性能を改善する。

Conditioning analysis uncovers the landscape of an optimization objective by exploring the spectrum of its curvature matrix. This has been well explored theoretically for linear models. We extend this analysis to deep neural networks (DNNs) in order to investigate their learning dynamics. To this end, we propose layer-wise conditioning analysis, which explores the optimization landscape with respect to each layer independently. Such an analysis is theoretically supported under mild assumptions that approximately hold in practice. Based on our analysis, we show that batch normalization (BN) can stabilize the training, but sometimes result in the false impression of a local minimum, which has detrimental effects on the learning. Besides, we experimentally observe that BN can improve the layer-wise conditioning of the optimization problem. Finally, we find that the last linear layer of a very deep residual network displays ill-conditioned behavior. We solve this problem by only adding one BN layer before the last linear layer, which achieves improved performance over the original and pre-activation residual networks.
翻訳日:2022-12-28 21:01:38 公開日:2020-07-29
# ハイパースペクトル画像の特徴抽出:浅部から深部への進化(概観とツールボックス)

Feature Extraction for Hyperspectral Imagery: The Evolution from Shallow to Deep (Overview and Toolbox) ( http://arxiv.org/abs/2003.02822v4 )

ライセンス: Link先を確認
Behnood Rasti, Danfeng Hong, Renlong Hang, Pedram Ghamisi, Xudong Kang, Jocelyn Chanussot, Jon Atli Benediktsson(参考訳) ハイパースペクトル画像は、何百もの(狭い)スペクトルチャネル(次元またはバンドとも呼ばれる)を通して詳細なスペクトル情報を提供し、様々な興味のある材料を正確に分類することができる。 このようなデータの次元性の向上により、データ情報の内容を大幅に改善することが可能になるが、ハイパースペクトル画像の正確な解析には従来の手法(いわゆる次元性の呪い)に挑戦する。 ハイパースペクトルコミュニティにおける活発な研究分野としての特徴抽出は、この問題に対処し、データ表現と分類に適した情報的特徴を抽出するために数十年にわたる研究を通じて進化した。 特徴抽出の進歩は、画像と信号処理の普及と機械(深層)学習という2つの分野の研究に触発され、浅層・深層技術という2つのタイプの特徴抽出アプローチがもたらされた。 本稿では,ハイパースペクトル画像の特徴抽出手法の進歩を概説し,最先端技術に関する技術的概要を提供し,学生,研究者,上級研究者など様々なレベルの研究者にとって有用なエントリポイントを提供し,この課題に対する新たな調査を希望する。 より詳しくは、超スペクトル特徴抽出とその超スペクトル画像分類への応用に特化した、浅層(教師付きかつ教師なしの両方)と深層特徴抽出アプローチに関する鳥の目視(bird's eye view)を提供する。 さらに,15の高度な手法と,その方法論的基礎を分類精度の観点から比較した。 さらに、コードとライブラリはhttps://github.com/BehnoodRasti/HyFTech-Hyperspectral-Shallow-Deep-Feature-Extraction-Toolboxで共有されている。

Hyperspectral images provide detailed spectral information through hundreds of (narrow) spectral channels (also known as dimensionality or bands) with continuous spectral information that can accurately classify diverse materials of interest. The increased dimensionality of such data makes it possible to significantly improve data information content but provides a challenge to the conventional techniques (the so-called curse of dimensionality) for accurate analysis of hyperspectral images. Feature extraction, as a vibrant field of research in the hyperspectral community, evolved through decades of research to address this issue and extract informative features suitable for data representation and classification. The advances in feature extraction have been inspired by two fields of research, including the popularization of image and signal processing as well as machine (deep) learning, leading to two types of feature extraction approaches named shallow and deep techniques. This article outlines the advances in feature extraction approaches for hyperspectral imagery by providing a technical overview of the state-of-the-art techniques, providing useful entry points for researchers at different levels, including students, researchers, and senior researchers, willing to explore novel investigations on this challenging topic. In more detail, this paper provides a bird's eye view over shallow (both supervised and unsupervised) and deep feature extraction approaches specifically dedicated to the topic of hyperspectral feature extraction and its application on hyperspectral image classification. Additionally, this paper compares 15 advanced techniques with an emphasis on their methodological foundations in terms of classification accuracies. Furthermore, the codes and libraries are shared at https://github.com/BehnoodRasti/HyFTech-Hyperspectral-Shallow-Deep-Feature-Extraction-Toolbox.
翻訳日:2022-12-26 06:59:59 公開日:2020-07-29
# アドホックカメラネットワークによる3次元飛行軌跡の再構成

Reconstruction of 3D flight trajectories from ad-hoc camera networks ( http://arxiv.org/abs/2003.04784v2 )

ライセンス: Link先を確認
Jingtong Li, Jesse Murray, Dorina Ismaili, Konrad Schindler, Cenek Albl(参考訳) 本研究では, 回転シャッター歪みを特徴とし, 視点が不明なカメラで撮影した映像のみから, 空飛ぶロボットシステムの3次元軌道を再構築する手法を提案する。 我々のアプローチは、安価で容易に配備できる装置を用いて、動的に飛来する目標の堅牢かつ正確な外部追跡を可能にする。 弱制約環境にもかかわらず,近年のコンピュータビジョンの発展により,非同期型,非共役型消費者カメラネットワークから3dの軌跡を再構成することが可能となり,現実のフィールド実験で提案手法を検証することが可能となった。 差分GNSSナビゲーションからcm精度のグラウンドトルースを含むデータとともにコードを利用可能にしています。

We present a method to reconstruct the 3D trajectory of an airborne robotic system only from videos recorded with cameras that are unsynchronized, may feature rolling shutter distortion, and whose viewpoints are unknown. Our approach enables robust and accurate outside-in tracking of dynamically flying targets, with cheap and easy-to-deploy equipment. We show that, in spite of the weakly constrained setting, recent developments in computer vision make it possible to reconstruct trajectories in 3D from unsynchronized, uncalibrated networks of consumer cameras, and validate the proposed method in a realistic field experiment. We make our code available along with the data, including cm-accurate ground-truth from differential GNSS navigation.
翻訳日:2022-12-24 21:38:34 公開日:2020-07-29
# オントロジによるクエリはいつ効率的か?

When is Ontology-Mediated Querying Efficient? ( http://arxiv.org/abs/2003.07800v2 )

ライセンス: Link先を確認
Pablo Barcelo, Cristina Feier, Carsten Lutz, Andreas Pieris(参考訳) オントロジーによるクエリでは、記述論理(DL)オントロジーは、クエリに対するより完全な回答をもたらすドメイン知識で不完全なデータを統合するために使用される。 しかし、関係データベースに対するオントロジーによるクエリ(OMQ)の評価は、計算的に困難である。 これにより、OMQ評価が効率的で、複合複雑性や固定パラメータのトラクタでトラクタブルであるという意味で、疑問が持ち上がる。 本稿では,複数の重要かつ広く使用されているDLをベースとしたオントロジー型クエリ言語について,実際のクエリとして結合クエリの結合を用いて検討する。 底面の概念で拡張されたDL ELHIに対して、固定パラメータ抽出可能なOMQのクラスの特性を提供する。 ドメインと範囲の制限とボトムコンセプト(逆役割の使用を制限する)によって拡張されたその断片elは、複合複雑性で扱いやすいomqのクラスの特徴付けを提供する。 どちらの結果も、有界木幅の OMQ と等価であり、パラメータ化複雑性理論からの合理的な仮定に基づいている。 それらは、関係データベース上の連結クエリの扱いやすいクラスに対するgroheの独創的な特徴付けに似ている。 さらに、与えられたOMQが有界木幅のOMQと等価かどうかを決定するメタ問題の複雑さについて検討し、使用したDLに応じてNPから2ExpTimeまでの完全な結果を提供する。 また,機能的役割を有するメンバーを含むDL-Liteファミリーについても検討した。

In ontology-mediated querying, description logic (DL) ontologies are used to enrich incomplete data with domain knowledge which results in more complete answers to queries. However, the evaluation of ontology-mediated queries (OMQs) over relational databases is computationally hard. This raises the question when OMQ evaluation is efficient, in the sense of being tractable in combined complexity or fixed-parameter tractable. We study this question for a range of ontology-mediated query languages based on several important and widely-used DLs, using unions of conjunctive queries as the actual queries. For the DL ELHI extended with the bottom concept, we provide a characterization of the classes of OMQs that are fixed-parameter tractable. For its fragment EL extended with domain and range restrictions and the bottom concept (which restricts the use of inverse roles), we provide a characterization of the classes of OMQs that are tractable in combined complexity. Both results are in terms of equivalence to OMQs of bounded tree width and rest on a reasonable assumption from parameterized complexity theory. They are similar in spirit to Grohe's seminal characterization of the tractable classes of conjunctive queries over relational databases. We further study the complexity of the meta problem of deciding whether a given OMQ is equivalent to an OMQ of bounded tree width, providing several completeness results that range from NP to 2ExpTime, depending on the DL used. We also consider the DL-Lite family of DLs, including members that admit functional roles.
翻訳日:2022-12-22 21:38:41 公開日:2020-07-29
# 相互情報最大化による教師なし階層グラフ表現学習

Unsupervised Hierarchical Graph Representation Learning by Mutual Information Maximization ( http://arxiv.org/abs/2003.08420v3 )

ライセンス: Link先を確認
Fei Ding, Xiaohong Zhang, Justin Sybrandt, Ilya Safro(参考訳) グラフニューラルネットワーク(GNN)に基づくグラフ表現学習は、ノードやグラフ分類などの下流タスクのパフォーマンスを大幅に向上させることができる。 しかし、一般的なgnnモデルはノード情報を階層的に集約せず、多くのグラフの重要な高次構造的特徴を見逃すことができる。 階層的なアグリゲーションにより、グラフ表現を説明できる。 さらに、教師付きグラフ表現学習にはラベル付きデータが必要である。 そこで,これらの問題に対処するために,教師なしグラフ表現学習法である教師なし階層グラフ表現 (unsupervised hierarchical graph representation, uhgr) を提案する。 本手法は,「ローカル」表現と「グローバル」表現の相互情報を最大化することに焦点を当て,ラベル付きデータなしでノード埋め込みやグラフ埋め込みを学習する。 提案手法の有効性を示すために,学習ノードとグラフ埋め込みを用いたノード分類とグラフ分類を行った。 提案手法は,いくつかのベンチマークにおいて,最先端の教師付き手法と同等の結果が得られることを示す。 さらに,階層表現を可視化することで,有意義かつ解釈可能なクラスタをキャプチャできることを示す。

Graph representation learning based on graph neural networks (GNNs) can greatly improve the performance of downstream tasks, such as node and graph classification. However, the general GNN models do not aggregate node information in a hierarchical manner, and can miss key higher-order structural features of many graphs. The hierarchical aggregation also enables the graph representations to be explainable. In addition, supervised graph representation learning requires labeled data, which is expensive and error-prone. To address these issues, we present an unsupervised graph representation learning method, Unsupervised Hierarchical Graph Representation (UHGR), which can generate hierarchical representations of graphs. Our method focuses on maximizing mutual information between "local" and high-level "global" representations, which enables us to learn the node embeddings and graph embeddings without any labeled data. To demonstrate the effectiveness of the proposed method, we perform the node and graph classification using the learned node and graph embeddings. The results show that the proposed method achieves comparable results to state-of-the-art supervised methods on several benchmarks. In addition, our visualization of hierarchical representations indicates that our method can capture meaningful and interpretable clusters.
翻訳日:2022-12-22 09:50:19 公開日:2020-07-29
# in-およびout-distributionのadversarial robustnessは説明可能性を改善する

Adversarial Robustness on In- and Out-Distribution Improves Explainability ( http://arxiv.org/abs/2003.09461v2 )

ライセンス: Link先を確認
Maximilian Augustin, Alexander Meinke, Matthias Hein(参考訳) ニューラルネットワークは、画像分類に大きな改善をもたらしたが、逆境の変化や、分散サンプルに対する信頼性の低い不確実性推定、監視不能なブラックボックス決定といった問題に苦しめられている。 本研究では,ロバストネスのトレーニング手法であるRATIOを提案し,アウト・ディストリビューションの信頼性と信頼性を評価できるロバストネスモデルを提案する。 RATIOは、対人訓練と類似した生成特性を持ち、視覚的反事実がクラス固有の特徴を生み出す。 悪意あるトレーニングはクリーンな精度を低くするが、比率はcifar10で最先端の$l_2$-adversarial robustnessを達成し、クリーンな正確性を維持する。

Neural networks have led to major improvements in image classification but suffer from being non-robust to adversarial changes, unreliable uncertainty estimates on out-distribution samples and their inscrutable black-box decisions. In this work we propose RATIO, a training procedure for Robustness via Adversarial Training on In- and Out-distribution, which leads to robust models with reliable and robust confidence estimates on the out-distribution. RATIO has similar generative properties to adversarial training so that visual counterfactuals produce class specific features. While adversarial training comes at the price of lower clean accuracy, RATIO achieves state-of-the-art $l_2$-adversarial robustness on CIFAR10 and maintains better clean accuracy.
翻訳日:2022-12-21 21:59:52 公開日:2020-07-29
# 変分オートエンコーダのための潜在空間の属性に基づく正規化

Attribute-based Regularization of Latent Spaces for Variational Auto-Encoders ( http://arxiv.org/abs/2004.05485v3 )

ライセンス: Link先を確認
Ashis Pati, Alexander Lerch(参考訳) 深層生成モデルを用いたデータ属性の選択的操作は研究の活発な領域である。 本稿では,変分オートエンコーダ(VAE)の潜時空間を,連続値の異なる属性を明示的に符号化する新しい手法を提案する。 これは属性の正規化損失を使用して、属性値と属性が符号化される次元の潜在符号との単調な関係を強制する。 したがって、トレーニング後、モデルは対応する正規化次元の潜在コードを変更するだけで属性を操作することができる。 複数の定量的・定性的な実験から得られた結果から,提案手法は画像領域と記号的音楽領域にまたがる幅広いデータ属性を効果的に操作できる不整合かつ解釈可能な潜在空間を導出することが示された。

Selective manipulation of data attributes using deep generative models is an active area of research. In this paper, we present a novel method to structure the latent space of a Variational Auto-Encoder (VAE) to encode different continuous-valued attributes explicitly. This is accomplished by using an attribute regularization loss which enforces a monotonic relationship between the attribute values and the latent code of the dimension along which the attribute is to be encoded. Consequently, post-training, the model can be used to manipulate the attribute by simply changing the latent code of the corresponding regularized dimension. The results obtained from several quantitative and qualitative experiments show that the proposed method leads to disentangled and interpretable latent spaces that can be used to effectively manipulate a wide range of data attributes spanning image and symbolic music domains.
翻訳日:2022-12-14 10:18:06 公開日:2020-07-29
# 女性は家族、男性、経済を心配する:COVID-19に対する感情反応の性差

Women worry about family, men about the economy: Gender differences in emotional responses to COVID-19 ( http://arxiv.org/abs/2004.08202v2 )

ライセンス: Link先を確認
Isabelle van der Vegt, Bennett Kleinberg(参考訳) 新型コロナウイルスのパンデミックをめぐる重要な課題の1つは、人々のメンタルヘルスに対する有害な影響に対処することだ。 適切な介入を設計し、最も危険な人々の関心事を特定するには、テキストデータから懸念、懸念、感情的な反応を抽出する手法が必要である。 我々は、現在進行中のcovid-19状況に関する不安に対する男女差と文書長の影響について検討する。 私たちの発見は 一 短いテキストは、より長いテキストほど、心理的プロセスについての十分な洞察を提供しない。 私たちはさらに 二 感情的反応に関する話題における男女差 女性は愛する人々や深刻な健康上の懸念を心配し、男性は経済や社会への影響に没頭した。 本稿は、他所で見られる言語における一般的な性差の理解を深め、現在の特異な状況がこれらの効果を増幅していることを示す。 この論文は、ツイートサイズのデータに制限があるため、より高品質なデータセットを要求することで締めくくります。

Among the critical challenges around the COVID-19 pandemic is dealing with the potentially detrimental effects on people's mental health. Designing appropriate interventions and identifying the concerns of those most at risk requires methods that can extract worries, concerns and emotional responses from text data. We examine gender differences and the effect of document length on worries about the ongoing COVID-19 situation. Our findings suggest that i) short texts do not offer as adequate insights into psychological processes as longer texts. We further find ii) marked gender differences in topics concerning emotional responses. Women worried more about their loved ones and severe health concerns while men were more occupied with effects on the economy and society. This paper adds to the understanding of general gender differences in language found elsewhere, and shows that the current unique circumstances likely amplified these effects. We close this paper with a call for more high-quality datasets due to the limitations of Tweet-sized data.
翻訳日:2022-12-12 13:34:33 公開日:2020-07-29
# EAO-SLAM:アンサンブルデータアソシエーションに基づく単分子半次元オブジェクトSLAM

EAO-SLAM: Monocular Semi-Dense Object SLAM Based on Ensemble Data Association ( http://arxiv.org/abs/2004.12730v2 )

ライセンス: Link先を確認
Yanmin Wu, Yunzhou Zhang, Delong Zhu, Yonghui Feng, Sonya Coleman and Dermot Kerr(参考訳) オブジェクトレベルのデータアソシエーションとポーズ推定は、堅牢で正確なアルゴリズムがないために未解決のままであるセマンティックSLAMにおいて、基本的な役割を果たす。 本研究では,パラメトリックおよび非パラメトリック統計テストを統合するためのアンサンブルデータアソシエイト戦略を提案する。 本手法は, 異なる統計特性を生かして, 異なる測定値の情報を効果的に集約し, データのロバスト性や精度を大幅に向上させることができる。 そこで本研究では, 提案手法を用いて, 推定結果の最適性を向上させるために, アウトリアーズロバスト・センタロイド・スケール推定アルゴリズムとオブジェクトポーズ初期化アルゴリズムを開発した, 高精度な物体ポーズ推定フレームワークを提案する。 さらに,モノクラーカメラを用いた半高密度あるいは軽量なオブジェクト指向マップを作成できるSLAMシステムを構築した。 大規模な実験は3つの公開データセットと実際のシナリオで実施されている。 その結果,本手法は精度とロバスト性において最先端技術よりも優れていた。 ソースコードはhttps://github.com/yanmin-wu/eao-slam。

Object-level data association and pose estimation play a fundamental role in semantic SLAM, which remain unsolved due to the lack of robust and accurate algorithms. In this work, we propose an ensemble data associate strategy for integrating the parametric and nonparametric statistic tests. By exploiting the nature of different statistics, our method can effectively aggregate the information of different measurements, and thus significantly improve the robustness and accuracy of data association. We then present an accurate object pose estimation framework, in which an outliers-robust centroid and scale estimation algorithm and an object pose initialization algorithm are developed to help improve the optimality of pose estimation results. Furthermore, we build a SLAM system that can generate semi-dense or lightweight object-oriented maps with a monocular camera. Extensive experiments are conducted on three publicly available datasets and a real scenario. The results show that our approach significantly outperforms state-of-the-art techniques in accuracy and robustness. The source code is available on: https://github.com/yanmin-wu/EAO-SLAM.
翻訳日:2022-12-09 05:58:43 公開日:2020-07-29
# 偏光人体形状とポーズデータセット

Polarization Human Shape and Pose Dataset ( http://arxiv.org/abs/2004.14899v2 )

ライセンス: Link先を確認
Shihao Zou, Xinxin Zuo, Yiming Qian, Sen Wang, Chuan Guo, Chi Xu, Minglun Gong, and Li Cheng(参考訳) 偏光画像は、物体のリッチな幾何学的手がかりを保存する偏光反射光を捉えることができることが知られており、興味のある物体の詳細な表面の正常を再構築する最近の応用の動機となっている。 一方,単色画像からの人間の形状推定の最近のブレークスルーに触発されて,偏光カメラからの幾何学的手がかりが人体の詳細な形状を推定できるかどうかという新たな疑問について検討する。 これにより、さまざまな人の形とポーズの偏光画像データセットであるphspd(polarization human shape and pose dataset)がキュレーションされました。

Polarization images are known to be able to capture polarized reflected lights that preserve rich geometric cues of an object, which has motivated its recent applications in reconstructing detailed surface normal of the objects of interest. Meanwhile, inspired by the recent breakthroughs in human shape estimation from a single color image, we attempt to investigate the new question of whether the geometric cues from polarization camera could be leveraged in estimating detailed human body shapes. This has led to the curation of Polarization Human Shape and Pose Dataset (PHSPD), our home-grown polarization image dataset of various human shapes and poses.
翻訳日:2022-12-08 05:09:25 公開日:2020-07-29
# グラフ上のスペクトルバイアスランダムウォークを用いた学習表現

Learning Representations using Spectral-Biased Random Walks on Graphs ( http://arxiv.org/abs/2005.09752v2 )

ライセンス: Link先を確認
Charu Sharma, Jatin Chauhan, Manohar Kaul(参考訳) いくつかの最先端のニューラルグラフ埋め込み法は、計算の容易さ、複雑な局所グラフ特性の取得の単純さ、スケーラビリティ、解釈可能性から、短いランダムウォーク(確率過程)に基づいている。 本研究では, この確率過程における確率バイアスが, プロセスによって選択されたノードの品質にどの程度影響するかを研究することに関心がある。 特に、偏りのある歩行は、ある確率で、現在のノードの近傍に類似した構造を持つノードへの移動を好んでいる。 我々は、この近傍を正規化ラプラシアン行列として表されるノードの近傍部分グラフのスペクトルに基づく確率測度として簡潔に捉えた。 本稿では,新しいワッサースタイン正規化項を用いた段落ベクトルモデルの利用を提案する。 提案手法は,様々な実世界データセットにおける最先端のノード埋め込み手法に対するアプローチを実証的に評価し,提案手法がリンク予測とノード分類タスクの両方において既存の手法を大幅に改善できることを実証する。

Several state-of-the-art neural graph embedding methods are based on short random walks (stochastic processes) because of their ease of computation, simplicity in capturing complex local graph properties, scalability, and interpretibility. In this work, we are interested in studying how much a probabilistic bias in this stochastic process affects the quality of the nodes picked by the process. In particular, our biased walk, with a certain probability, favors movement towards nodes whose neighborhoods bear a structural resemblance to the current node's neighborhood. We succinctly capture this neighborhood as a probability measure based on the spectrum of the node's neighborhood subgraph represented as a normalized laplacian matrix. We propose the use of a paragraph vector model with a novel Wasserstein regularization term. We empirically evaluate our approach against several state-of-the-art node embedding techniques on a wide variety of real-world datasets and demonstrate that our proposed method significantly improves upon existing methods on both link prediction and node classification tasks.
翻訳日:2022-12-01 13:51:46 公開日:2020-07-29
# インドとパキスタンのソーシャルメディアにおける分極の計算分析

A Computational Analysis of Polarization on Indian and Pakistani Social Media ( http://arxiv.org/abs/2005.09803v2 )

ライセンス: Link先を確認
Aman Tyagi, Anjalie Field, Priyank Lathwal, Yulia Tsvetkov, Kathleen M. Carley(参考訳) 2019年2月14日から2019年3月4日まで、カシミールのプルワマでテロ攻撃が続き、報復的な空爆が続き、インドとパキスタンの緊張が高まった。 本稿では,これらのイベントにおいて,特にインドとパキスタンの政治家の立場に着目して,twitter上でのメッセージの分断について検討する。 我々はハッシュタグの共起に焦点をあてたラベル伝搬技術を用いて、偏りのあるツイートやユーザーを見つける。 分析の結果、インドの与党(bjp)の政治家は二極化ハッシュタグを使い、他の政党の政治家よりも紛争のエスカレーションを要求した。 私たちの研究は、インドとパキスタンの緊張がtwitter上でいかに高まるかに関する最初の分析を提供し、偏光メッセージを研究するためのフレームワークを提供します。

Between February 14, 2019 and March 4, 2019, a terrorist attack in Pulwama, Kashmir followed by retaliatory airstrikes led to rising tensions between India and Pakistan, two nuclear-armed countries. In this work, we examine polarizing messaging on Twitter during these events, particularly focusing on the positions of Indian and Pakistani politicians. We use a label propagation technique focused on hashtag co-occurrences to find polarizing tweets and users. Our analysis reveals that politicians in the ruling political party in India (BJP) used polarized hashtags and called for escalation of conflict more so than politicians from other parties. Our work offers the first analysis of how escalating tensions between India and Pakistan manifest on Twitter and provides a framework for studying polarizing messages.
翻訳日:2022-12-01 05:48:34 公開日:2020-07-29
# ソフトウェアクラウドソーシングにおけるタスク多様性のパターンと効果に関する研究

Study on Patterns and Effect of Task Diversity in Software Crowdsourcing ( http://arxiv.org/abs/2006.00871v2 )

ライセンス: Link先を確認
Denisse Martinez Mejorado, Razieh Saremi, Ye Yang, and Jose E. Ramirez-Marquez(参考訳) コンテキスト: ソフトウェアクラウドソーシングの成功は、安定したタスクの供給とアクティブなワーカープールに依存する。 既存の分析によると、ソフトウェアクラウドソーシング市場での平均タスク失敗率は15.7%である。 目標: 本研究の目的は,ソフトウェアクラウドソーシングの成功と効率を向上させるために,ソフトウェアクラウドソーシングプラットフォームのタスク多様性のパターンと効果を実証的に調査することである。 方法: 課題多様性モデルを提案し, 課題多様性を計測・分析するためのアプローチを開発し, 特に, 類似タスクをグループ化し, 競争レベルに基づいてランク付けし, それらのレベルを区別する支配的属性を特定し, 課題多様性が課題成功と作業者パフォーマンスに与える影響をクラウドソーシングプラットフォームで調査する。 この実証的研究は、ソフトウェアクラウドソーシングプラットフォームのトップコーダーから1年以上の実際のデータに基づいて実施されている。 結果: 競争水準の異なる主な要因は, 金銭的賞金とタスクの複雑さであることがわかった。 これらの支配的な特性に基づいて、ワーカーの振る舞いの観点から3つのタスクの多様性パターン(構成)を発見した。 本研究は,1)懸賞構成への対応が,プラットフォームにおけるタスク密度と作業者の信頼性の最高レベルを提供することを支持する。 2) 褒美や複雑さに対する反応は,高いレベルの信頼に値する労働者を惹きつける。 3) 評価設定に対する過度な応答は、高いタスク安定性と、あまり類似しないタスクに対するプラットフォーム内の障害比率を低下させる。

Context: The success of software crowdsourcing depends on steady tasks supply and active worker pool. Existing analysis reveals an average task failure ratio of 15.7% in software crowdsourcing market. Goal: The objective of this study is to empirically investigate patterns and effect of task diversity in software crowdsourcing platform in order to improve the success and efficiency of software crowdsourcing. Method: We propose a conceptual task diversity model, and develop an approach to measuring and analyzing task diversity.More specifically, this includes grouping similar tasks, ranking them based on their competition level and identifying the dominant attributes that distinguish among these levels, and then studying the impact of task diversity on task success and worker performance in crowdsourcing platform. The empirical study is conducted on more than one year's real-world data from TopCoder, the leading software crowdsourcing platform. Results: We identified that monetary prize and task complexity are the dominant attributes that differentiate among different competition levels. Based on these dominant attributes, we found three task diversity patterns (configurations) from workers behavior perspective: responsive to prize, responsive to prize and complexity and over responsive to prize. This study supports that1) responsive to prize configuration provides highest level of task density and workers' reliability in a platform; 2) responsive to prize and complexity configuration leads to attracting high level of trustworthy workers; 3) over responsive to prize configuration results in highest task stability and the lowest failure ratio in the platform for not high similar tasks.
翻訳日:2022-11-26 23:57:59 公開日:2020-07-29
# 小さなスパース行列に対する良いピボット

Good pivots for small sparse matrices ( http://arxiv.org/abs/2006.01623v2 )

ライセンス: Link先を確認
Manuel Kauers, Jakob Moosbauer(参考訳) 8 \times 8$までのスパース行列に対しては、ガウス除去におけるピボット選択の最適選択を決定する。 人気のピボット選択戦略によって選択されたピボットよりもわずかに優れていることが分かり、改善の余地がある。 次に、機械学習を使ってピボット選択戦略を作成し、それが古典的な戦略よりも小さな改善につながることを見出します。

For sparse matrices up to size $8 \times 8$, we determine optimal choices for pivot selection in Gaussian elimination. It turns out that they are slightly better than the pivots chosen by a popular pivot selection strategy, so there is some room for improvement. We then create a pivot selection strategy using machine learning and find that it indeed leads to a small improvement compared to the classical strategy.
翻訳日:2022-11-26 01:14:01 公開日:2020-07-29
# 認知の共通モデルを実装するアーキテクチャのための分析概念記憶の特徴付け

Characterizing an Analogical Concept Memory for Architectures Implementing the Common Model of Cognition ( http://arxiv.org/abs/2006.01962v3 )

ライセンス: Link先を確認
Shiwali Mohan, Matt Klenk, Matthew Shreve, Kent Evans, Aaron Ang, John Maxwell(参考訳) 認知の共通モデル(Soar、ACT-R、Sigma)を実装するアーキテクチャは、認知モデリングや複雑な知的エージェントの設計において顕著な位置を占めている。 本稿では,これらのアーキテクチャにアナログ処理の計算モデルがどのように導入され,インタラクティブに得られた例から概念獲得を可能にするかを検討する。 宣言型長期記憶のシステムを強化する新しいsoarの類似概念記憶を提案する。 本稿では,対話型タスク学習 (ITL) と組込み言語処理 (ELP) のコンテキストに埋め込まれた概念学習の課題について考察する。 提案したメモリに実装されたアナログ学習手法は,環境における概念認識だけでなく,行動選択においても有用である,多様な概念を迅速に学習できることを実証する。 提案手法は,実装された認知システムであるtextsc{Aileen} でインスタンス化され,シミュレーションロボット領域で評価されている。

Architectures that implement the Common Model of Cognition - Soar, ACT-R, and Sigma - have a prominent place in research on cognitive modeling as well as on designing complex intelligent agents. In this paper, we explore how computational models of analogical processing can be brought into these architectures to enable concept acquisition from examples obtained interactively. We propose a new analogical concept memory for Soar that augments its current system of declarative long-term memories. We frame the problem of concept learning as embedded within the larger context of interactive task learning (ITL) and embodied language processing (ELP). We demonstrate that the analogical learning methods implemented in the proposed memory can quickly learn a diverse types of novel concepts that are useful not only in recognition of a concept in the environment but also in action selection. Our approach has been instantiated in an implemented cognitive system \textsc{Aileen} and evaluated on a simulated robotic domain.
翻訳日:2022-11-26 01:05:33 公開日:2020-07-29
# 凸モデルと01損失モデル間の逆例の移動可能性について

On the transferability of adversarial examples between convex and 01 loss models ( http://arxiv.org/abs/2006.07800v2 )

ライセンス: Link先を確認
Yunzhe Xue, Meiyan Xie, Usman Roshan(参考訳) 01損失は、外れ値が存在する場合の凸損失モデルとは異なる、より正確な境界を与える。 境界の差は、01損失と凸モデルの間の非伝達可能な逆例に変換できるだろうか? 本稿では,線形01損失と凸(ヒンジ)損失モデル,および符号活性化を伴う二重層ニューラルネットワークとsigoidアクティベーションに対する01損失とロジスティック損失との相反例の伝達可能性について検討した。 まず,白箱逆転例は,凸モデルと01損失モデルと,凸モデルと01損失モデルの間で効果的に移動しないことを示す。 この非伝達性の結果、凸代替ブラックボックス攻撃は凸モデルよりも01損失に対して効果が低いことがわかった。 興味深いことに、01損失代用モデル攻撃が凸モデルと01損失モデルの両方で効果がないことも示している。 例えば、アウトリアーの存在が01と凸損失モデルの間に異なる決定境界を生じさせ、それが変換不能な敵を生み出すことを直感的に示す。 実際、MNIST上では、CIFAR10やImageNetよりも、01の損失と凸モデルの間の敵の移動が容易に行える。 両層ニューラルネットワークにおいて,01損失の不連続性によって逆転が不可能になることを示す。 我々は、CIFAR10の機能はMNISTによく似ており、トランスファービリティが向上していないことを認識しており、アウトレーヤによる異なるバウンダリが非トランスファービリティの原因である可能性が高いことを示唆している。 この非透過性により、01損失の2層符号活性化ネットワークは、単純な畳み込みネットワークと同程度の堅牢性が得られることを示す。

The 01 loss gives different and more accurate boundaries than convex loss models in the presence of outliers. Could the difference of boundaries translate to adversarial examples that are non-transferable between 01 loss and convex models? We explore this empirically in this paper by studying transferability of adversarial examples between linear 01 loss and convex (hinge) loss models, and between dual layer neural networks with sign activation and 01 loss vs sigmoid activation and logistic loss. We first show that white box adversarial examples do not transfer effectively between convex and 01 loss and between 01 loss models compared to between convex models. As a result of this non-transferability we see that convex substitute model black box attacks are less effective on 01 loss than convex models. Interestingly we also see that 01 loss substitute model attacks are ineffective on both convex and 01 loss models mostly likely due to the non-uniqueness of 01 loss models. We show intuitively by example how the presence of outliers can cause different decision boundaries between 01 and convex loss models which in turn produces adversaries that are non-transferable. Indeed we see on MNIST that adversaries transfer between 01 loss and convex models more easily than on CIFAR10 and ImageNet which are likely to contain outliers. We show intuitively by example how the non-continuity of 01 loss makes adversaries non-transferable in a dual layer neural network. We discretize CIFAR10 features to be more like MNIST and find that it does not improve transferability, thus suggesting that different boundaries due to outliers are more likely the cause of non-transferability. As a result of this non-transferability we show that our dual layer sign activation network with 01 loss can attain robustness on par with simple convolutional networks.
翻訳日:2022-11-21 09:50:56 公開日:2020-07-29
# 深層学習による胸部X線画像におけるCOVID-19検出

COVID-CXNet: Detecting COVID-19 in Frontal Chest X-ray Images using Deep Learning ( http://arxiv.org/abs/2006.13807v2 )

ライセンス: Link先を確認
Arman Haghanifar, Mahdiyar Molahasani Majdabadi, Younhee Choi, S. Deivalakshmi, Seokbum Ko(参考訳) 新型コロナウイルスの感染を検査する主要な臨床観察の1つは、胸部X線画像の撮影である。 ほとんどの患者において、胸部X線は、新型コロナウイルス(COVID-19)肺炎の結果である凝固などの異常を含む。 本研究では,大データセットの深部畳み込みニューラルネットワークを用いて,このタイプの肺炎の画像特徴を効率的に検出する研究を行った。 文献で事前学習されたネットワークの多くと並んで,単純なモデルが意思決定の無関係な特徴に注目していることが実証された。 本稿では,各種ソースからの胸部X線画像を多数収集し,最大の公開データセットを作成する。 最後に、トランスファーラーニングパラダイムを用いて、よく知られたCheXNetモデルをCOVID-CXNetの開発に活用する。 この強力なモデルは、正確な位置決めと関連する意味のある特徴に基づいて、新型コロナウイルスの肺炎を検出することができる。 covid-cxnetは、完全に自動化され、堅牢なcovid-19検出システムへの一歩だ。

One of the primary clinical observations for screening the infectious by the novel coronavirus is capturing a chest x-ray image. In most of the patients, a chest x-ray contains abnormalities, such as consolidation, which are the results of COVID-19 viral pneumonia. In this study, research is conducted on efficiently detecting imaging features of this type of pneumonia using deep convolutional neural networks in a large dataset. It is demonstrated that simple models, alongside the majority of pretrained networks in the literature, focus on irrelevant features for decision-making. In this paper, numerous chest x-ray images from various sources are collected, and the largest publicly accessible dataset is prepared. Finally, using the transfer learning paradigm, the well-known CheXNet model is utilized for developing COVID-CXNet. This powerful model is capable of detecting the novel coronavirus pneumonia based on relevant and meaningful features with precise localization. COVID-CXNet is a step towards a fully automated and robust COVID-19 detection system.
翻訳日:2022-11-20 20:47:12 公開日:2020-07-29
# ディープラーニングのエンジニアリング、NeurIPS 2019、VancouverでのScienceのポストワークホップレポート

Post-Workshop Report on Science meets Engineering in Deep Learning, NeurIPS 2019, Vancouver ( http://arxiv.org/abs/2007.13483v2 )

ライセンス: Link先を確認
Levent Sagun, Caglar Gulcehre, Adriana Romero, Negar Rostamzadeh, Stefano Sarao Mannelli(参考訳) Science meets Engineering in Deep Learningは、NeurIPS 2019のワークショップの一部としてバンクーバーで開催された。 ワークショップのオーガナイザとして,新たなトピックを分離し,イベントを通じて提示されたテーマを繰り返すために,次のレポートを作成しました。 ディープラーニングは、最近の大きな成功にもかかわらず、アートとエンジニアリングの複雑な混合であり続けることができる。 ワークショップは、作業中の問題の対照的な課題に対処するために、ボード全体から人々を集めることを目的としていた。 ワークショップの呼びかけの一環として、アーキテクチャ、データ、最適化の相互依存に特に注意が向けられ、十分に理解されていない設計とパフォーマンスの複雑さの巨大な風景が生まれました。 今年の目標は、コミュニティの次の方向性を強調することでした。 i) モデルやアルゴリズムを改善する方法における障害を特定すること。 (二)科学的、潜在的に理論的に理解したいという一般的な傾向を特定し、 三 再現性と結論の堅牢性を確保しつつ、謎の根源を解明し特定することを目的とする科学的実験及び実験プロトコルの厳密な設計 イベントにおいて、これらのトピックが出現し、広く議論され、私たちの期待に合致し、これらの方向における新しい研究の道を開いた。 レンズを通してテキストが自然に偏っていることは認識していますが、ここではワークショップの結果を公平に強調する試みについて紹介します。

Science meets Engineering in Deep Learning took place in Vancouver as part of the Workshop section of NeurIPS 2019. As organizers of the workshop, we created the following report in an attempt to isolate emerging topics and recurring themes that have been presented throughout the event. Deep learning can still be a complex mix of art and engineering despite its tremendous success in recent years. The workshop aimed at gathering people across the board to address seemingly contrasting challenges in the problems they are working on. As part of the call for the workshop, particular attention has been given to the interdependence of architecture, data, and optimization that gives rise to an enormous landscape of design and performance intricacies that are not well-understood. This year, our goal was to emphasize the following directions in our community: (i) identify obstacles in the way to better models and algorithms; (ii) identify the general trends from which we would like to build scientific and potentially theoretical understanding; and (iii) the rigorous design of scientific experiments and experimental protocols whose purpose is to resolve and pinpoint the origin of mysteries while ensuring reproducibility and robustness of conclusions. In the event, these topics emerged and were broadly discussed, matching our expectations and paving the way for new studies in these directions. While we acknowledge that the text is naturally biased as it comes through our lens, here we present an attempt to do a fair job of highlighting the outcome of the workshop.
翻訳日:2022-11-17 02:54:41 公開日:2020-07-29
# 顔検出器は防汚できるのか? マルチチャネル顔検出器による顔提示アタック検出

Can Your Face Detector Do Anti-spoofing? Face Presentation Attack Detection with a Multi-Channel Face Detector ( http://arxiv.org/abs/2006.16836v2 )

ライセンス: Link先を確認
Anjith George and Sebastien Marcel(参考訳) 典型的な顔認識パイプラインでは、顔検出器のタスクは、顔領域をローカライズすることである。 しかし、顔検出器は顔の活気によらず、顔のように見える領域を位置決めするので、システム全体が提示攻撃の影響を受けやすい。 本研究では,顔検出装置のタスクを再構成して実際の顔を検出することにより,プレゼンテーション攻撃の脅威を排除する。 このタスクは可視光画像だけでは難しいかもしれませんが、色、深さ、赤外線チャンネルなどのオフシェルフデバイスから利用可能なマルチチャネル情報を利用して、マルチチャネル顔検出器を設計します。 提案システムは、別個のプレゼンテーション攻撃検出モジュールの必要性を回避し、計算オーバーヘッドを伴わずに実際にシステムに信頼性を持たせることができる。 主なアイデアは、PADタスクのために異なるチャネルから得られる共同表現で、単一ステージのオブジェクト検出フレームワークを活用することである。 我々は,提案フレームワークの有効性を示すために,多チャンネルwmcaデータセットにおいて,多種多様な攻撃を含む手法を評価した。

In a typical face recognition pipeline, the task of the face detector is to localize the face region. However, the face detector localizes regions that look like a face, irrespective of the liveliness of the face, which makes the entire system susceptible to presentation attacks. In this work, we try to reformulate the task of the face detector to detect real faces, thus eliminating the threat of presentation attacks. While this task could be challenging with visible spectrum images alone, we leverage the multi-channel information available from off the shelf devices (such as color, depth, and infrared channels) to design a multi-channel face detector. The proposed system can be used as a live-face detector obviating the need for a separate presentation attack detection module, making the system reliable in practice without any additional computational overhead. The main idea is to leverage a single-stage object detection framework, with a joint representation obtained from different channels for the PAD task. We have evaluated our approach in the multi-channel WMCA dataset containing a wide variety of attacks to show the effectiveness of the proposed framework.
翻訳日:2022-11-15 05:56:58 公開日:2020-07-29
# マスクする必要のないものをマスクするな:パーサーフリーの仮想トライオン

Do Not Mask What You Do Not Need to Mask: a Parser-Free Virtual Try-On ( http://arxiv.org/abs/2007.02721v2 )

ライセンス: Link先を確認
Thibaut Issenhuth and J\'er\'emie Mary and Cl\'ement Calauz\`enes(参考訳) 2Dバーチャル・トライ・オン・タスクは、オンラインショッピングへの直接的な応用だけでなく、本来的で非適応的な科学的課題についても研究コミュニティから大きな関心を集めている。 この作業には, 布の反り, 画像合成, 合成など, 極めて困難な作業である, 人物像にホップ布のイメージを装着する必要がある。 仮想的な試着を監督されたタスクにキャストするのは難しい。利用可能なデータセットは、一対の写真(衣服、服を着ている人)で構成されている。 したがって,人体の布が変われば,地道へのアクセスが不可能になる。 最先端のモデルは、人間のパーサーとポーズ推定器の両方で人の布情報をマスキングすることでこれを解決する。 そして、画像合成モジュールを訓練して、マスクされた人物画像と布画像とから人物画像を再構成する。 この手順にはいくつかの注意点がある: 第一に、人間のパーサーはエラーを起こしやすい; 第二に、コストのかかる前処理のステップであり、推論時にも適用する必要がある; 最後に、マスクが手やアクセサリーなどの保持すべき情報をカバーしているため、タスクを難しくする。 本稿では,教師が最初の課題(布の交換)に焦点を合わせる前に,標準的な方法(再構築)で指導される新しい学生-教員パラダイムを提案する。 生徒はさらに、相手の損失から学習し、実際の画像の分布に従うようにプッシュする。 そのため、生徒は教師に隠された情報を利用する。 敵の損失なしで訓練された学生は、この情報を使用しない。 また、人間のパーサーとポーズ推定器の両方を推論時に取り除くことで、リアルタイムの仮想試行を実現することができる。

The 2D virtual try-on task has recently attracted a great interest from the research community, for its direct potential applications in online shopping as well as for its inherent and non-addressed scientific challenges. This task requires fitting an in-shop cloth image on the image of a person, which is highly challenging because it involves cloth warping, image compositing, and synthesizing. Casting virtual try-on into a supervised task faces a difficulty: available datasets are composed of pairs of pictures (cloth, person wearing the cloth). Thus, we have no access to ground-truth when the cloth on the person changes. State-of-the-art models solve this by masking the cloth information on the person with both a human parser and a pose estimator. Then, image synthesis modules are trained to reconstruct the person image from the masked person image and the cloth image. This procedure has several caveats: firstly, human parsers are prone to errors; secondly, it is a costly pre-processing step, which also has to be applied at inference time; finally, it makes the task harder than it is since the mask covers information that should be kept such as hands or accessories. In this paper, we propose a novel student-teacher paradigm where the teacher is trained in the standard way (reconstruction) before guiding the student to focus on the initial task (changing the cloth). The student additionally learns from an adversarial loss, which pushes it to follow the distribution of the real images. Consequently, the student exploits information that is masked to the teacher. A student trained without the adversarial loss would not use this information. Also, getting rid of both human parser and pose estimator at inference time allows obtaining a real-time virtual try-on.
翻訳日:2022-11-14 05:19:55 公開日:2020-07-29
# 単純複素数に基づくマニフォールド上の画像間の点対応

Simplicial Complex based Point Correspondence between Images warped onto Manifolds ( http://arxiv.org/abs/2007.02381v3 )

ライセンス: Link先を確認
Charu Sharma and Manohar Kaul(参考訳) 近年、多様体(例えば、全方向球面画像)上に投影される反動画像の可用性が向上し、高次割当て手法の成功と相まって、投射による反動画像の高次マッチングアルゴリズムの探索への関心が高まっている。 現在、これらの3d画像を平面グラフ/ハイパーグラフマッチング法で「平坦化」する手法がいくつか存在するが、それでも深刻な歪みやその他の望ましくないアーティファクトに苦しむため、不正確なマッチングとなる。 あるいは、現在の平面法は、多様体に歪んだ画像上の点に効果的に一致するように、自明に拡張することはできない。 したがって、これらの歪んだ画像のマッチングは、非常に難しい課題である。 本稿では,グラフの高次類似体である2つのグラフ誘導単体複体の間の全単射写像の探索として,代入問題を提起する。 本稿では, 単純錯体の各p-骨格に一致する制約付き二次代入問題(QAP)を提案する。 提案手法の精度とロバスト性は, 合成および実世界の球面/歪んだ(投影)画像と, 既知の接地構造対応画像の両方に示される。 我々は、既存の最先端の球面マッチング手法を、さまざまなデータセットで大幅に上回っている。

Recent increase in the availability of warped images projected onto a manifold (e.g., omnidirectional spherical images), coupled with the success of higher-order assignment methods, has sparked an interest in the search for improved higher-order matching algorithms on warped images due to projection. Although currently, several existing methods "flatten" such 3D images to use planar graph / hypergraph matching methods, they still suffer from severe distortions and other undesired artifacts, which result in inaccurate matching. Alternatively, current planar methods cannot be trivially extended to effectively match points on images warped onto manifolds. Hence, matching on these warped images persists as a formidable challenge. In this paper, we pose the assignment problem as finding a bijective map between two graph induced simplicial complexes, which are higher-order analogues of graphs. We propose a constrained quadratic assignment problem (QAP) that matches each p-skeleton of the simplicial complexes, iterating from the highest to the lowest dimension. The accuracy and robustness of our approach are illustrated on both synthetic and real-world spherical / warped (projected) images with known ground-truth correspondences. We significantly outperform existing state-of-the-art spherical matching methods on a diverse set of datasets.
翻訳日:2022-11-13 07:53:55 公開日:2020-07-29
# 乳がん診断のための2次元畳み込みニューラルネットワークの分類

Classification with 2-D Convolutional Neural Networks for breast cancer diagnosis ( http://arxiv.org/abs/2007.03218v2 )

ライセンス: Link先を確認
Anuraganand Sharma, Dinesh Kumar(参考訳) 乳癌は女性にとって最も多いがんである。 臨床記録のあるがん/非がん患者の分類は、許容できる診断試験のために高い感度と特異性を必要とする。 しかし、最先端の分類モデルである畳み込みニューラルネットワーク(CNN)は、1次元形式で表現される臨床データでは利用できない。 cnnは、画像データなどの隣接要素と何らかの相関を示す2次元行列の組に取り組むよう設計されている。 逆に、時系列データを除く1次元ベクトルの集合として表現されたデータ例は、cnnでは使用できないが、ニューラルネットワークやランダムフォレストといった他の分類モデルでは使用できない。 我々は,1次元データベクトルをCNNで処理するフィールド間で適切な相関関係を持つ2次元グラフィカル画像に変換する,データラングリングの新たな前処理手法を提案する。 我々はウィスコンシン原乳がん(WBC)とウィスコンシン診断乳がん(WDBC)のデータセットを用いて検査を行った。 我々の知る限り、この研究は非時系列データに対する画像データ変換の非イメージに関する新しい試みである。 VGGnet-16を使用してCNNで処理された変換データは、WBCデータセットの競合結果を示し、WDBCデータセットの他の既知のメソッドよりも優れている。

Breast cancer is the most common cancer in women. Classification of cancer/non-cancer patients with clinical records requires high sensitivity and specificity for an acceptable diagnosis test. The state-of-the-art classification model - Convolutional Neural Network (CNN), however, cannot be used with clinical data that are represented in 1-D format. CNN has been designed to work on a set of 2-D matrices whose elements show some correlation with neighboring elements such as in image data. Conversely, the data examples represented as a set of 1-D vectors -- apart from the time series data -- cannot be used with CNN, but with other classification models such as Artificial Neural Networks or RandomForest. We have proposed some novel preprocessing methods of data wrangling that transform a 1-D data vector, to a 2-D graphical image with appropriate correlations among the fields to be processed on CNN. We tested our methods on Wisconsin Original Breast Cancer (WBC) and Wisconsin Diagnostic Breast Cancer (WDBC) datasets. To our knowledge, this work is novel on non-image to image data transformation for the non-time series data. The transformed data processed with CNN using VGGnet-16 shows competitive results for the WBC dataset and outperforms other known methods for the WDBC dataset.
翻訳日:2022-11-12 19:49:43 公開日:2020-07-29
# COCO-FUNIT:コンテンツコンディション型エンコーダによる非教師なし画像翻訳

COCO-FUNIT: Few-Shot Unsupervised Image Translation with a Content Conditioned Style Encoder ( http://arxiv.org/abs/2007.07431v3 )

ライセンス: Link先を確認
Kuniaki Saito, Kate Saenko, Ming-Yu Liu(参考訳) 教師なし画像画像変換は、マッピングを明示的に監督することなく、与えられたドメイン内の画像と異なるドメイン内の類似画像とのマッピングを学習することを目的としている。 少数の教師なし画像から画像への変換は、推論時に提供される未監視ドメインの例画像を活用して、モデルを未監視ドメインに一般化する試みである。 目覚ましい成功を収める一方で、既存の写真から画像への変換モデルでは、コンテンツ損失問題(content loss problem)と呼ばれる未認識領域の外観を模倣しながら、入力画像の構造を保存することが困難である。 これは、入力とサンプル画像のオブジェクトのポーズが非常に異なる場合、特に深刻である。 この問題に対処するために,入力画像に条件づけられたサンプル画像のスタイル埋め込みを計算し,constant style biasと呼ばれる新しいモジュールを新たに導入するcoco-funitを提案する。 実験による検証と最新技術との比較により,本モデルはコンテンツ損失問題に対する有効性を示す。 コードと事前トレーニングされたモデルについては、https://nvlabs.github.io/coco-funit/をご覧ください。

Unsupervised image-to-image translation intends to learn a mapping of an image in a given domain to an analogous image in a different domain, without explicit supervision of the mapping. Few-shot unsupervised image-to-image translation further attempts to generalize the model to an unseen domain by leveraging example images of the unseen domain provided at inference time. While remarkably successful, existing few-shot image-to-image translation models find it difficult to preserve the structure of the input image while emulating the appearance of the unseen domain, which we refer to as the content loss problem. This is particularly severe when the poses of the objects in the input and example images are very different. To address the issue, we propose a new few-shot image translation model, COCO-FUNIT, which computes the style embedding of the example images conditioned on the input image and a new module called the constant style bias. Through extensive experimental validations with comparison to the state-of-the-art, our model shows effectiveness in addressing the content loss problem. For code and pretrained models, please check out https://nvlabs.github.io/COCO-FUNIT/ .
翻訳日:2022-11-10 05:44:11 公開日:2020-07-29
# 知識のないトランスファーラーニング:スカースデータと限られたリソースを用いたブラックボックス機械学習モデルの再プログラミング

Transfer Learning without Knowing: Reprogramming Black-box Machine Learning Models with Scarce Data and Limited Resources ( http://arxiv.org/abs/2007.08714v2 )

ライセンス: Link先を確認
Yun-Yun Tsai and Pin-Yu Chen and Tsung-Yi Ho(参考訳) 現在の伝達学習法は主に、トレーニング済みのモデルをターゲットドメインデータで微調整することに基づいている。 本稿では,データ摂動によるモデル予測を操作可能な機械学習(ML)の技術によって動機付けられ,特にデータ不足や制約のあるリソースの少ないシナリオにおいて,トレーニングされたブラックボックスMLモデル(例えば,予測APIやプロプライエタリソフトウェア)を再利用する,新たなアプローチであるブラックボックス逆プログラム(BAR)を提案する。 その根拠は、高性能だが未知のMLモデルを利用して、トランスファーラーニングの学習能力を得ることである。 ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARはモデルアーキテクチャやパラメータの変更を知らずに、入力出力応答のみに基づいてブラックボックスMLモデルを書き換えることができる。 さらに重要なことは、自閉症スペクトラム障害分類、糖尿病網膜症検出、メラノーマ検出タスクに関する限られた医療データ設定において、BARは最先端の手法より優れ、ターゲットMLモデルの完全な知識を必要とするバニラ対逆プログラミング手法に匹敵する性能を得る。 BARはまた、ベースライン転送学習アプローチをかなりのマージンで上回り、コスト効率のよい手段とトランスファー学習のための新たな洞察を示す。

Current transfer learning methods are mainly based on finetuning a pretrained model with target-domain data. Motivated by the techniques from adversarial machine learning (ML) that are capable of manipulating the model prediction via data perturbations, in this paper we propose a novel approach, black-box adversarial reprogramming (BAR), that repurposes a well-trained black-box ML model (e.g., a prediction API or a proprietary software) for solving different ML tasks, especially in the scenario with scarce data and constrained resources. The rationale lies in exploiting high-performance but unknown ML models to gain learning capability for transfer learning. Using zeroth order optimization and multi-label mapping techniques, BAR can reprogram a black-box ML model solely based on its input-output responses without knowing the model architecture or changing any parameter. More importantly, in the limited medical data setting, on autism spectrum disorder classification, diabetic retinopathy detection, and melanoma detection tasks, BAR outperforms state-of-the-art methods and yields comparable performance to the vanilla adversarial reprogramming method requiring complete knowledge of the target ML model. BAR also outperforms baseline transfer learning approaches by a significant margin, demonstrating cost-effective means and new insights for transfer learning.
翻訳日:2022-11-09 12:55:47 公開日:2020-07-29
# 古典的および深部キーポイント検出器とディスクリプタ法の比較

On the Comparison of Classic and Deep Keypoint Detector and Descriptor Methods ( http://arxiv.org/abs/2007.10000v2 )

ライセンス: Link先を確認
Kristijan Bartol and David Bojani\'c and Tomislav Pribani\'c and Tomislav Petkovi\'c and Yago Diez Donoso and Joaquim Salvi Mas(参考訳) 本研究の目的は,従来の手作りおよびディープキーポイント検出器とディスクリプタ法の性能比較を行うことである。 特に, SIFT, SURF, ORB, FAST, BRISK, MSER, HARRIS, KAZE, akaZE, AGAST, GFTT, FREAK, BRIEF, RootSIFT の古典的アルゴリズムを考える。 さらに,最近の2つのディープ検出器・ディスクリプタモデルLF-NetとSuperPointの性能解析を行った。 我々のベンチマークはHPSequencesデータセットに依存しており、様々な幾何学的および照明的変化の下で実・多彩な画像を提供する。 我々は,キーポイント検証,画像マッチング,キーポイント検索の3つの評価タスクにおける性能解析を行った。 その結果、古典的なアプローチと深いアプローチはいまだに同等であり、いくつかの古典的な検出器と記述子の組み合わせは事前訓練された深層モデルよりも優れていた。 テストされた実装の実行時間に関しては、スーパーポイントモデルが最も速く、orbがそれに続く。 ソースコードは \url{https://github.com/kristijanbartol/keypoint-algorithms-benchmark} で公開されている。

The purpose of this study is to give a performance comparison between several classic hand-crafted and deep key-point detector and descriptor methods. In particular, we consider the following classical algorithms: SIFT, SURF, ORB, FAST, BRISK, MSER, HARRIS, KAZE, AKAZE, AGAST, GFTT, FREAK, BRIEF and RootSIFT, where a subset of all combinations is paired into detector-descriptor pipelines. Additionally, we analyze the performance of two recent and perspective deep detector-descriptor models, LF-Net and SuperPoint. Our benchmark relies on the HPSequences dataset that provides real and diverse images under various geometric and illumination changes. We analyze the performance on three evaluation tasks: keypoint verification, image matching and keypoint retrieval. The results show that certain classic and deep approaches are still comparable, with some classic detector-descriptor combinations overperforming pretrained deep models. In terms of the execution times of tested implementations, SuperPoint model is the fastest, followed by ORB. The source code is published on \url{https://github.com/kristijanbartol/keypoint-algorithms-benchmark}.
翻訳日:2022-11-08 13:59:22 公開日:2020-07-29
# 敵攻撃に対するロバスト追跡

Robust Tracking against Adversarial Attacks ( http://arxiv.org/abs/2007.09919v2 )

ライセンス: Link先を確認
Shuai Jia, Chao Ma, Yibing Song, and Xiaokang Yang(参考訳) 深層畳み込みニューラルネットワーク(deep convolutional neural network, cnns)は、逆攻撃に対して脆弱であるが、逆攻撃に対して堅牢な深層追跡アルゴリズムを構築するための努力は少ない。 敵の攻撃と防御に関する最近の研究は、主に1つの画像に存在する。 本研究は,まず,ビデオシーケンス上に敵の例を生成し,敵の攻撃に対するロバスト性を向上する試みである。 この目的のために,推定された追跡結果のフレームごとに軽量な摂動を生成する場合の時間運動を考慮した。 一方,映像の時間的摂動を副次的な例として加え,追跡性能を著しく低下させる。 一方,入力列からの摂動を逐次推定し,その性能回復効果を解消することを学ぶ。 提案手法を最先端のディープトラッキングアルゴリズムに適用する。 ベンチマークデータセットの大規模な評価は、我々の防衛手法が敵攻撃による大きな性能低下を除去するだけでなく、ディープトラッカーが敵攻撃を受けていない場合のさらなる性能向上も達成していることを示している。

While deep convolutional neural networks (CNNs) are vulnerable to adversarial attacks, considerably few efforts have been paid to construct robust deep tracking algorithms against adversarial attacks. Current studies on adversarial attack and defense mainly reside in a single image. In this work, we first attempt to generate adversarial examples on top of video sequences to improve the tracking robustness against adversarial attacks. To this end, we take temporal motion into consideration when generating lightweight perturbations over the estimated tracking results frame-by-frame. On one hand, we add the temporal perturbations into the original video sequences as adversarial examples to greatly degrade the tracking performance. On the other hand, we sequentially estimate the perturbations from input sequences and learn to eliminate their effect for performance restoration. We apply the proposed adversarial attack and defense approaches to state-of-the-art deep tracking algorithms. Extensive evaluations on the benchmark datasets demonstrate that our defense method not only eliminates the large performance drops caused by adversarial attacks, but also achieves additional performance gains when deep trackers are not under adversarial attacks.
翻訳日:2022-11-08 13:48:42 公開日:2020-07-29
# 画像から蚊の解剖を抽出するための深層ニューラルネットワークに基づく枠組み

A Framework based on Deep Neural Networks to Extract Anatomy of Mosquitoes from Images ( http://arxiv.org/abs/2007.11052v2 )

ライセンス: Link先を確認
Mona Minakshi, Pratool Bharti, Tanvir Bhuiyan, Sherzod Kariev, Sriram Chellappan(参考訳) マスク領域に基づく畳み込みニューラルネットワーク(mask r-cnn)に基づいて,蚊の解剖学的成分(胸部,翼,腹部,脚)を画像から自動的に検出・分離する枠組みを設計した。 訓練データセットは、フロリダで捕獲された9種の蚊のスマートフォン画像1500枚で構成されていた。 提案手法では,まず蚊の画像中の解剖学的成分を検出する。 次に,抽出した解剖学的成分の局所化と分類を行い,同時にニューラルネットワークアーキテクチャの分岐を加えて,解剖学的成分のみを含む画素を分割する。 評価結果は良好である。 一般性を評価するため,蚊の画像のみを用いて訓練したBumblebee画像のアーキテクチャを検証した。 また,特に羽の抽出において良好な結果が得られた。 本稿では, 公衆衛生, 分類学, 市民科学における実践的手法について述べる。

We design a framework based on Mask Region-based Convolutional Neural Network (Mask R-CNN) to automatically detect and separately extract anatomical components of mosquitoes - thorax, wings, abdomen and legs from images. Our training dataset consisted of 1500 smartphone images of nine mosquito species trapped in Florida. In the proposed technique, the first step is to detect anatomical components within a mosquito image. Then, we localize and classify the extracted anatomical components, while simultaneously adding a branch in the neural network architecture to segment pixels containing only the anatomical components. Evaluation results are favorable. To evaluate generality, we test our architecture trained only with mosquito images on bumblebee images. We again reveal favorable results, particularly in extracting wings. Our techniques in this paper have practical applications in public health, taxonomy and citizen-science efforts.
翻訳日:2022-11-08 05:14:42 公開日:2020-07-29
# 骨格に基づく運動評価法の包括的考察

A Comprehensive Review of Skeleton-based Movement Assessment Methods ( http://arxiv.org/abs/2007.10737v3 )

ライセンス: Link先を確認
Tal Hakim(参考訳) 近年の3Dカメラの普及とコンピュータビジョンアルゴリズムの大幅な改善により、自動運動評価ソリューションの研究が加速された。 このようなソリューションは、安価な機器と専用ソフトウェアを使って、家庭で実装できる。 本稿では,動作評価タスクを二次課題に分割し,なぜ必要なのか,どのように対処できるかを説明する。 本稿では,最近のスケルトン動画の自動移動評価手法について,目的,特徴,動き領域,アルゴリズム的アプローチで比較した。 また,このトピックに関する研究の現状について,高いレベルで議論する。

The raising availability of 3D cameras and dramatic improvement of computer vision algorithms in the recent decade, accelerated the research of automatic movement assessment solutions. Such solutions can be implemented at home, using affordable equipment and dedicated software. In this paper, we divide the movement assessment task into secondary tasks and explain why they are needed and how they can be addressed. We review the recent solutions for automatic movement assessment from skeleton videos, comparing them by their objectives, features, movement domains and algorithmic approaches. In addition, we discuss the status of the research on this topic in a high level.
翻訳日:2022-11-08 04:55:48 公開日:2020-07-29
# 船体運動軌跡予測の教師なし手法

The Unsupervised Method of Vessel Movement Trajectory Prediction ( http://arxiv.org/abs/2007.13712v3 )

ライセンス: Link先を確認
Chih-Wei Chen, Charles Harrison, and Hsin-Hsiung Huang(参考訳) 実世界のアプリケーションシナリオでは、海上航行者およびセキュリティアナリストが、所定の時間内における自動識別システム(ais)データに基づいて、海上における船舶移動軌跡を予測することが重要である。 本稿では,ポイント間の時間差,テスト対象と予測対象の前方位置と後方位置とのスケール誤差距離,および時空角度からなる3次元空間におけるデータを表現する,教師なしの船舶移動軌跡予測手法を提案する。 表現特徴空間は、局所経路予測によく適合する候補の集合に次点の探索範囲を縮小し、精度を向上させる。 多くの統計的学習法や深層学習法とは異なり、クラスタリングに基づく軌道再構成法は計算コストのかかるモデルトレーニングを必要としない。 これにより、トレーニングセットを使わずに、リアルタイムの信頼性と正確な予測が可能になる。 以上の結果から,最も正確な予測軌道は真の血管経路であることがわかった。

In real-world application scenarios, it is crucial for marine navigators and security analysts to predict vessel movement trajectories at sea based on the Automated Identification System (AIS) data in a given time span. This article presents an unsupervised method of ship movement trajectory prediction which represents the data in a three-dimensional space which consists of time difference between points, the scaled error distance between the tested and its predicted forward and backward locations, and the space-time angle. The representation feature space reduces the search scope for the next point to a collection of candidates which fit the local path prediction well, and therefore improve the accuracy. Unlike most statistical learning or deep learning methods, the proposed clustering-based trajectory reconstruction method does not require computationally expensive model training. This makes real-time reliable and accurate prediction feasible without using a training set. Our results show that the most prediction trajectories accurately consist of the true vessel paths.
翻訳日:2022-11-06 09:14:47 公開日:2020-07-29
# 受動果実葉におけるブラウンスポット病の深層学習による検出

A Deep Learning-based Detector for Brown Spot Disease in Passion Fruit Plant Leaves ( http://arxiv.org/abs/2007.14103v2 )

ライセンス: Link先を確認
Andrew Katumba, Moses Bomera, Cosmas Mwikirize, Gorret Namulondo, Mary Gorret Ajero, Idd Ramathani, Olivia Nakayima, Grace Nakabonge, Dorothy Okello, Jonathan Serugunda(参考訳) 害虫や病気はウガンダや東アフリカ全般の果物農家にとって重要な課題である。 利回りが減少し、損失が増加するにつれて、投資の損失につながる。 国内では、情熱的な果物農家を含む農家の大多数が低所得世帯の小株主であり、これらの課題に対処できる十分な情報や手段を持っていない。 情熱的な果実は、彼らの作物の健康に関する必要な知識がなければ、短い成熟期と高い市場価値を持つため、これらの農家の幸福を向上する可能性があるが、農家はすぐに状況を逆転させることはできない。 この研究のために、我々はウガンダ国立作物研究所(NaCRRI)と共同で、有能にラベル付けされた果物の葉と果実のデータセットを開発しました。 我々は,その拡張サービスをウガンダの5つの地区の画像収集に利用した。このデータセットは,機械学習の最先端技術,特にディープラーニングにおいて,情熱的な果実植物の健康状態を正確に判定し,正の診断を行うための大規模オブジェクト検出・分類技術を用いており,本研究は2つの主要な病気(ウイルス)と褐色斑点(真菌)の疾患に焦点を当てている。

Pests and diseases pose a key challenge to passion fruit farmers across Uganda and East Africa in general. They lead to loss of investment as yields reduce and losses increases. As the majority of the farmers, including passion fruit farmers, in the country are smallholder farmers from low-income households, they do not have the sufficient information and means to combat these challenges. While, passion fruits have the potential to improve the well-being of these farmers as they have a short maturity period and high market value , without the required knowledge about the health of their crops, farmers cannot intervene promptly to turn the situation around. For this work, we have partnered with the Uganda National Crop Research Institute (NaCRRI) to develop a dataset of expertly labelled passion fruit plant leaves and fruits, both diseased and healthy. We have made use of their extension service to collect images from 5 districts in Uganda, With the dataset in place, we are employing state-of-the-art techniques in machine learning, and specifically deep learning, techniques at scale for object detection and classification to correctly determine the health status of passion fruit plants and provide an accurate diagnosis for positive detections.This work focuses on two major diseases woodiness (viral) and brown spot (fungal) diseases.
翻訳日:2022-11-06 02:29:26 公開日:2020-07-29
# 対照的な自己監督学習のデミスティフィケーション:不変性、拡張性、データセットバイアス

Demystifying Contrastive Self-Supervised Learning: Invariances, Augmentations and Dataset Biases ( http://arxiv.org/abs/2007.13916v2 )

ライセンス: Link先を確認
Senthil Purushwalkam, Abhinav Gupta(参考訳) 自己教師付き表現学習アプローチは、最近、オブジェクト検出や画像分類といった下流タスクにおいて、教師付き学習アプローチを超越した。 やや不思議なことに、最近のパフォーマンス向上は、各イメージと拡張バージョンを単一のクラスのサンプルとして扱う、インスタンス分類モデルのトレーニングによるものだ。 本研究では,まず,これらの利得をデミストする定量的実験を行う。 我々は,MOCO や PIRL のようなアプローチがオクルージョン不変表現を学習することを示した。 しかし、オブジェクト認識の重要なコンポーネントであるビューポイントとカテゴリインスタンス不変性は捉えられません。 第2に,imagenet のようなクリーンなオブジェクト中心のトレーニングデータセットへのアクセスにより,これらのアプローチがさらに向上することを示す。 最後に、非構造化ビデオを利用して、高い視点不変性を持つ表現を学習する手法を提案する。 以上の結果から, 学習した表現は, 同一データ上で訓練されたMOCOv2よりも, 符号化した不変性や下流画像の分類やセマンティックセグメンテーションにおける性能に優れていた。

Self-supervised representation learning approaches have recently surpassed their supervised learning counterparts on downstream tasks like object detection and image classification. Somewhat mysteriously the recent gains in performance come from training instance classification models, treating each image and it's augmented versions as samples of a single class. In this work, we first present quantitative experiments to demystify these gains. We demonstrate that approaches like MOCO and PIRL learn occlusion-invariant representations. However, they fail to capture viewpoint and category instance invariance which are crucial components for object recognition. Second, we demonstrate that these approaches obtain further gains from access to a clean object-centric training dataset like Imagenet. Finally, we propose an approach to leverage unstructured videos to learn representations that possess higher viewpoint invariance. Our results show that the learned representations outperform MOCOv2 trained on the same data in terms of invariances encoded and the performance on downstream image classification and semantic segmentation tasks.
翻訳日:2022-11-06 02:18:30 公開日:2020-07-29
# カメラによるピアノ楽譜識別

Camera-Based Piano Sheet Music Identification ( http://arxiv.org/abs/2007.14579v1 )

ライセンス: Link先を確認
Daniel Yang and TJ Tsai(参考訳) 本稿では,ピアノシート音楽画像の大規模検索手法を提案する。 本研究は従来の楽譜検索研究とは2つの点で異なる。 まず,imslpデータセット全体のソロピアノシート楽譜を検索可能なデータベースとして用いることにより,従来の研究よりもはるかに大きなスケールでこの問題を調査した。 第2に,シート音楽の携帯電話イメージを入力クエリとして使用することで,実用的なユーザ対応アプリケーションを実現する。 シート音楽検索において,従来提案されていたフィンガープリント法は,リアルタイムアプリケーションには遅すぎることを示し,その欠点を診断する。 本稿では,動的n-gramフィンガープリントと呼ばれる新しいハッシュ方式を提案する。 imslpデータを用いた実験において,提案手法は平均逆ランク 0.85 と平均実行時間 0.98 秒 を達成する。

This paper presents a method for large-scale retrieval of piano sheet music images. Our work differs from previous studies on sheet music retrieval in two ways. First, we investigate the problem at a much larger scale than previous studies, using all solo piano sheet music images in the entire IMSLP dataset as a searchable database. Second, we use cell phone images of sheet music as our input queries, which lends itself to a practical, user-facing application. We show that a previously proposed fingerprinting method for sheet music retrieval is far too slow for a real-time application, and we diagnose its shortcomings. We propose a novel hashing scheme called dynamic n-gram fingerprinting that significantly reduces runtime while simultaneously boosting retrieval accuracy. In experiments on IMSLP data, our proposed method achieves a mean reciprocal rank of 0.85 and an average runtime of 0.98 seconds per query.
翻訳日:2022-11-05 21:08:53 公開日:2020-07-29
# 過度の外乱拒否に対する遷移ミスマッチ補償を用いたモジュラートランスファー学習

Modular Transfer Learning with Transition Mismatch Compensation for Excessive Disturbance Rejection ( http://arxiv.org/abs/2007.14646v1 )

ライセンス: Link先を確認
Tianming Wang, Wenjie Lu, Huan Yu, Dikai Liu(参考訳) 浅瀬の水中ロボットは通常強い波力に悩まされ、しばしばロボットの制御制約を超えることがある。 学習ベースコントローラは乱れ拒絶制御に適しているが、過度の乱れはマルコフ決定過程(MDP)や部分観測可能なマルコフ決定過程(PMMDP)の状態遷移に大きく影響を与える。 また,対象システムの純粋な学習手順は,探索行動や予測不可能なシステム変動に遭遇する可能性があり,事前モデルのトレーニングのみでは,対象システムからのモデルミスマッチに対処できないことが多い。 本稿では,動的モデルミスマッチ下での水中ロボットの過剰な外乱拒絶に対する制御ポリシーを適用可能な移動学習フレームワークを提案する。 一般制御ポリシ(GCP)とオンライン外乱識別モデル(ODI)で構成される学習ポリシーのモジュールネットワークが適用される。 gcpはまず、さまざまな外乱波形でトレーニングされる。 その後、ODIはシステムの過去の状態とアクションを使用してGCPへの入力として提供される障害波形を(システム状態とともに)予測する。 トランスフォーメーション・ミスマッチ補償(TMC)を用いたトランスフォーメーション強化学習アルゴリズムを開発し、ソースとターゲットタスクの2つの動的モデルによって予測されるトランジションのミスマッチを最小化することにより、追加の補償ポリシーを学習する。 本研究では, ロボットシステムの実験モデルを用いて, TMCが障害を回避し, ロボットの安定化を図り, サンプル効率を向上できることをシミュレーションで実証した。

Underwater robots in shallow waters usually suffer from strong wave forces, which may frequently exceed robot's control constraints. Learning-based controllers are suitable for disturbance rejection control, but the excessive disturbances heavily affect the state transition in Markov Decision Process (MDP) or Partially Observable Markov Decision Process (POMDP). Also, pure learning procedures on targeted system may encounter damaging exploratory actions or unpredictable system variations, and training exclusively on a prior model usually cannot address model mismatch from the targeted system. In this paper, we propose a transfer learning framework that adapts a control policy for excessive disturbance rejection of an underwater robot under dynamics model mismatch. A modular network of learning policies is applied, composed of a Generalized Control Policy (GCP) and an Online Disturbance Identification Model (ODI). GCP is first trained over a wide array of disturbance waveforms. ODI then learns to use past states and actions of the system to predict the disturbance waveforms which are provided as input to GCP (along with the system state). A transfer reinforcement learning algorithm using Transition Mismatch Compensation (TMC) is developed based on the modular architecture, that learns an additional compensatory policy through minimizing mismatch of transitions predicted by the two dynamics models of the source and target tasks. We demonstrated on a pose regulation task in simulation that TMC is able to successfully reject the disturbances and stabilize the robot under an empirical model of the robot system, meanwhile improve sample efficiency.
翻訳日:2022-11-05 21:08:39 公開日:2020-07-29
# 楽器分類における敵対的ホワイトボックス攻撃

End-to-End Adversarial White Box Attacks on Music Instrument Classification ( http://arxiv.org/abs/2007.14714v1 )

ライセンス: Link先を確認
Katharina Prinz (1) and Arthur Flexer (1) ((1) Johannes Kepler University Linz)(参考訳) 入力データの小さな逆摂動は、機械学習システムの性能を劇的に変化させ、そのようなシステムの妥当性に挑戦することができる。 本稿では,楽器分類システムにおいて,スペクトルではなく音声波形に直接摂動を付加できる最初のエンドツーエンドの敵攻撃について述べる。 我々の攻撃は、乱数ベースラインに近い精度を低減できると同時に、摂動をほとんど知覚できない状態に保ち、所望の機器に誤分類を生じさせることができる。

Small adversarial perturbations of input data are able to drastically change performance of machine learning systems, thereby challenging the validity of such systems. We present the very first end-to-end adversarial attacks on a music instrument classification system allowing to add perturbations directly to audio waveforms instead of spectrograms. Our attacks are able to reduce the accuracy close to a random baseline while at the same time keeping perturbations almost imperceptible and producing misclassifications to any desired instrument.
翻訳日:2022-11-05 21:08:12 公開日:2020-07-29
# dMelodies: ディスタングル学習のための音楽データセット

dMelodies: A Music Dataset for Disentanglement Learning ( http://arxiv.org/abs/2007.15067v1 )

ライセンス: Link先を確認
Ashis Pati, Siddharth Gururani, Alexander Lerch(参考訳) 与えられたデータの変動の要因を解消することに焦点を当てた表現学習は、機械学習において重要な研究領域となっている。 しかしながら、この分野の研究のほとんどはコンピュータビジョンの領域からのデータセットに依存しており、音楽に拡張することは容易ではない。 本稿では,不連続問題に取り組む研究者が多様な領域におけるアルゴリズムの有効性を示すための新しいシンボリック・ミュージック・データセットを提案する。 これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。 この目的のために,2バーのモノフォニック・メロディからなるデータセットを作成し,各メロディは順序,分類,二分型にまたがる9つの潜在因子のユニークな組み合わせの結果である。 データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。 さらに,このデータセット上で人気のある教師なし不連続化アルゴリズムを用いたベンチマーク実験を行い,画像ベースのデータセットで得られた結果と比較する。

Representation learning focused on disentangling the underlying factors of variation in given data has become an important area of research in machine learning. However, most of the studies in this area have relied on datasets from the computer vision domain and thus, have not been readily extended to music. In this paper, we present a new symbolic music dataset that will help researchers working on disentanglement problems demonstrate the efficacy of their algorithms on diverse domains. This will also provide a means for evaluating algorithms specifically designed for music. To this end, we create a dataset comprising of 2-bar monophonic melodies where each melody is the result of a unique combination of nine latent factors that span ordinal, categorical, and binary types. The dataset is large enough (approx. 1.3 million data points) to train and test deep networks for disentanglement learning. In addition, we present benchmarking experiments using popular unsupervised disentanglement algorithms on this dataset and compare the results with those obtained on an image-based dataset.
翻訳日:2022-11-05 21:08:03 公開日:2020-07-29
# 極Kカテゴリー標本問題

Extreme-K categorical samples problem ( http://arxiv.org/abs/2007.15039v1 )

ライセンス: Link先を確認
Elizabeth Chou, Catie McVey, Yin-Chen Hsieh, Sabrina Enriquez, Fushing Hsieh(参考訳) ヒストグラムを基礎として,極値のサンプル問題に基づくカテゴリー探索データ解析(CEDA)を開発し,その普遍的適用性を4つの1次元分類データセットで示す。 CEDAの最終的な目標は、データ駆動の2つの計算タスクを実行することで、データの情報コンテンツを検出することである。 1) 人口の広い範囲のパターンを発見するためのプラットフォームとして,k$人口の樹形を確立すること。 2) 各幾何パターンの信頼性を評価する。 CEDAの発展において、各人口はカテゴリ比の行ベクトルを得る。 データマトリックスの行軸について,双対クラスタリング木構造を構築するための重み付きバージョンに対してユークリッド距離の長所と短所について論じる。 選択の基準は、このバイナリクラスタリングツリーによってフレーム化されたカラムブロックの均一度に依存する。 各ツリーリーフ(人口)はバイナリコードシーケンスでエンコードされるので、ツリーベースのパターンである。 信頼性を評価するために,行列模倣のアンサンブルを生成するために,列方向の多項ランダム性を採用する。 観察されたパターンの信頼性は、ツリーアンサンブル内の再発率である。 高い信頼性は決定論的パターンを意味する。 CEDAの4つの応用は、極端な$Kのサンプル問題の4つの重要な側面を照らす。

With histograms as its foundation, we develop Categorical Exploratory Data Analysis (CEDA) under the extreme-$K$ sample problem, and illustrate its universal applicability through four 1D categorical datasets. Given a sizable $K$, CEDA's ultimate goal amounts to discover by data's information content via carrying out two data-driven computational tasks: 1) establish a tree geometry upon $K$ populations as a platform for discovering a wide spectrum of patterns among populations; 2) evaluate each geometric pattern's reliability. In CEDA developments, each population gives rise to a row vector of categories proportions. Upon the data matrix's row-axis, we discuss the pros and cons of Euclidean distance against its weighted version for building a binary clustering tree geometry. The criterion of choice rests on degrees of uniformness in column-blocks framed by this binary clustering tree. Each tree-leaf (population) is then encoded with a binary code sequence, so is tree-based pattern. For evaluating reliability, we adopt row-wise multinomial randomness to generate an ensemble of matrix mimicries, so an ensemble of mimicked binary trees. Reliability of any observed pattern is its recurrence rate within the tree ensemble. A high reliability value means a deterministic pattern. Our four applications of CEDA illuminate four significant aspects of extreme-$K$ sample problems.
翻訳日:2022-11-05 21:04:25 公開日:2020-07-29
# 惑星科学のための機械学習の統合:次の10年の展望

Integrating Machine Learning for Planetary Science: Perspectives for the Next Decade ( http://arxiv.org/abs/2007.15129v1 )

ライセンス: Link先を確認
Abigail R. Azari, John B. Biersteker, Ryan M. Dewey, Gary Doran, Emily J. Forsberg, Camilla D. K. Harris, Hannah R. Kerner, Katherine A. Skinner, Andy W. Smith, Rashied Amini, Saverio Cambioni, Victoria Da Poian, Tadhg M. Garton, Michael D. Himes, Sarah Millholland, Suranga Ruhunusiri(参考訳) 機械学習(ml)メソッドは、構築能力を拡大し、大規模なデータセットから洞察を引き出すことができます。 惑星観測量の増大にもかかわらず、我々の分野は他の科学と比較してMLの応用例は少ない。 これらの方法を支援するために,惑星科学におけるデータ豊富な未来を育成するための10の勧告を提案する。

Machine learning (ML) methods can expand our ability to construct, and draw insight from large datasets. Despite the increasing volume of planetary observations, our field has seen few applications of ML in comparison to other sciences. To support these methods, we propose ten recommendations for bolstering a data-rich future in planetary science.
翻訳日:2022-11-05 21:04:07 公開日:2020-07-29
# 新しい文脈における伝達可能なプッシュ操作スキルの学習

Learning Transferable Push Manipulation Skills in Novel Contexts ( http://arxiv.org/abs/2007.14755v1 )

ライセンス: Link先を確認
Rhys Howard and Claudio Zito(参考訳) 本稿では、新しい文脈に適用可能なプッシュ操作のための転送可能な前方モデル学習と、重要な情報が得られる場合の予測品質の向上について述べる。 我々は,ロボットが新たな文脈においても物理的インタラクションの結果を予測することができるような,プッシュインタラクションのためのパラメトリックな内部モデルを学ぶことを提案する。 プッシュアクションが望ましい場合、人間は新しい物体に指を置く場所を特定することで、物体の予測可能な動きを生成することができる。 学習を2つの部分に分解することで、同じ行動を達成する。 まず,ロボットプッシャー,オブジェクト,環境間の幾何学的関係を表現するために,局所接触モデルの集合を学習する。 そして、パラメトリックな局所運動モデルを学び、これらの接触がプッシュを通してどのように変化するかを予測する。 接触モデルと運動モデルのセットは、私たちの内部モデルを表します。 物理パラメータ上の分布の形状を調整することで,内部モデルの応答を変化させる。 均一分布は、新しい文脈(すなわちバイアスのない予測器)に関する情報が得られない場合、粗い推定をもたらす。 より正確な予測器は、特定の環境/対象対(例えば、低摩擦/高質量)、すなわちバイアス予測器に対して学習することができる。 本手法の有効性は,先駆的な3dxロボットが新たな物体のプッシュ結果を予測するために必要となるシミュレーション環境において示され,実ロボットの概念実証を提供する。 様々な条件下で2つの物体(立方体とシリンダー)を合計24,000回の押圧で訓練し、様々な形状、大きさ、物理パラメータを含む6つの物体を合計14,400回の押圧結果で試験する。 その結果,偏りや偏りのない予測器は,慎重に調整された物理シミュレータの結果と一致して予測を確実に生成できることがわかった。

This paper is concerned with learning transferable forward models for push manipulation that can be applying to novel contexts and how to improve the quality of prediction when critical information is available. We propose to learn a parametric internal model for push interactions that, similar for humans, enables a robot to predict the outcome of a physical interaction even in novel contexts. Given a desired push action, humans are capable to identify where to place their finger on a new object so to produce a predictable motion of the object. We achieve the same behaviour by factorising the learning into two parts. First, we learn a set of local contact models to represent the geometrical relations between the robot pusher, the object, and the environment. Then we learn a set of parametric local motion models to predict how these contacts change throughout a push. The set of contact and motion models represent our internal model. By adjusting the shapes of the distributions over the physical parameters, we modify the internal model's response. Uniform distributions yield to coarse estimates when no information is available about the novel context (i.e. unbiased predictor). A more accurate predictor can be learned for a specific environment/object pair (e.g. low friction/high mass), i.e. biased predictor. The effectiveness of our approach is shown in a simulated environment in which a Pioneer 3-DX robot needs to predict a push outcome for a novel object, and we provide a proof of concept on a real robot. We train on 2 objects (a cube and a cylinder) for a total of 24,000 pushes in various conditions, and test on 6 objects encompassing a variety of shapes, sizes, and physical parameters for a total of 14,400 predicted push outcomes. Our results show that both biased and unbiased predictors can reliably produce predictions in line with the outcomes of a carefully tuned physics simulator.
翻訳日:2022-11-05 21:04:02 公開日:2020-07-29
# RFIフラッグングのためのスーパービジョンニューラルネットワーク

Supervised Neural Networks for RFI Flagging ( http://arxiv.org/abs/2007.14996v1 )

ライセンス: Link先を確認
Kyle Harrison, Amit Kumar Mishra(参考訳) ニューラルネットワーク(nn)に基づく手法を、後相関、後平衡時間/周波数データにおける電波干渉(rfi)の検出に適用する。 この作業のために、キャリブレーション完了RFIを使用する一方で、データセットのインポスト校正が削減される。 実測データをフラグ付けするための2つの機械学習アプローチを,既存のRFIフラグ付け技術であるAOFlaggerを用いて実証した。 各分極の大きさと位相を特徴として、各時間/周波数サンプルを用いてネットワークを完全接続した単一層を訓練できることが示されている。 この方法では、ベースライン毎のアブーリアンフラッグマップを高い精度で予測でき、リコールが 0.69、精度が 0.83、精度が anf1-score が 0.75 であった。

Neural network (NN) based methods are applied to the detection of radio frequency interference (RFI) in post-correlation,post-calibration time/frequency data. While calibration doesaffect RFI for the sake of this work a reduced dataset inpost-calibration is used. Two machine learning approachesfor flagging real measurement data are demonstrated usingthe existing RFI flagging technique AOFlagger as a groundtruth. It is shown that a single layer fully connects networkcan be trained using each time/frequency sample individuallywith the magnitude and phase of each polarization and Stokesvisibilities as features. This method was able to predict aBoolean flag map for each baseline to a high degree of accuracy achieving a Recall of 0.69 and Precision of 0.83 and anF1-Score of 0.75.
翻訳日:2022-11-05 21:03:34 公開日:2020-07-29
# 受動振動抑制のためのメタモデルと逆設計

Metamodel Based Forward and Inverse Design for Passive Vibration Suppression ( http://arxiv.org/abs/2007.15038v1 )

ライセンス: Link先を確認
Amir Behjat, Manaswin Oddiraju, Mohammad Ali Attarzadeh, Mostafa Nouh, Souma Chowdhury(参考訳) 周期的メタマテリアルは、同じ単位細胞の自己複製鎖ではなく、異なる構造ブロック(細胞)から構成される構造系のクラスを表す。 したがって、周期的なセル構造系を最適化することは、純粋に高忠実な構造最適化アプローチを用いて解決が難しい高次元問題を提示する。 特殊な分析モデリングとメタモデルに基づく最適化は、より扱いやすい代替ソリューションアプローチを提供する。 そこで本稿では,1次元メタマテリアルシステム,すなわちドリル弦に適用する設計自動化フレームワークを提案する。 ドリルストリングは、長手棒の外面に取り付けられた一様でないリングの集合からなる。 したがって、結果として得られるシステムは、細胞を表す各リング/gapを持つ非周期1dメタマテリアルとして認識できる。 1Dシステムであるにもかかわらず、複数のDoF(例えば、ねじれ、軸運動、横運動)の同時考慮は、重要な計算課題を引き起こす。 そのため、ドリル弦の周波数応答を解析的に決定するために、転送行列法(TMM)を用いる。 ニューラルネットワークのスイート(ANN)は、周波数応答をモデル化するために、TMMサンプル(評価毎の分スケールコンピューティングコスト)に基づいて訓練される。 annベースの最適化は、連続する共鳴ピーク間のギャップの制約を受ける質量を最小化し、このギャップを第2のケースで最小化し、ベースラインよりも重要な改善をもたらす。 さらに新しい貢献は、所望の非共鳴周波数範囲に対して最小質量の1次元メタマテリアル設計を瞬時に生成できる逆モデリング手法の開発によってもたらされる。 これは可逆ニューラルネットワークを用いて実現され、結果は前方解と有望な一致を示す。

Aperiodic metamaterials represent a class of structural systems that are composed of different building blocks (cells), instead of a self-repeating chain of the same unit cells. Optimizing aperiodic cellular structural systems thus presents high-dimensional problems that are challenging to solve using purely high-fidelity structural optimization approaches. Specialized analytical modeling along with metamodel based optimization can provide a more tractable alternative solution approach. To this end, this paper presents a design automation framework applied to a 1D metamaterial system, namely a drill string, where vibration suppression is of utmost importance. The drill string comprises a set of nonuniform rings attached to the outer surface of a longitudinal rod. As such, the resultant system can now be perceived as an aperiodic 1D metamaterial with each ring/gap representing a cell. Despite being a 1D system, the simultaneous consideration of multiple DoF (i.e., torsional, axial, and lateral motions) poses significant computational challenges. Therefore, a transfer matrix method (TMM) is employed to analytically determine the frequency response of the drill string. A suite of neural networks (ANN) is trained on TMM samples (which present minute-scale computing costs per evaluation), to model the frequency response. ANN-based optimization is then performed to minimize mass subject to constraints on the gap between consecutive resonance peaks in one case, and minimizing this gap in the second case, leading to crucial improvements over baselines. Further novel contribution occurs through the development of an inverse modeling approach that can instantaneously produce the 1D metamaterial design with minimum mass for a given desired non-resonant frequency range. This is accomplished by using invertible neural networks, and results show promising alignment with forward solutions.
翻訳日:2022-11-05 21:03:19 公開日:2020-07-29
# Proof of Learning (PoLe): ブロックチェーン上の合意構築によるマシンラーニングの強化

Proof of Learning (PoLe): Empowering Machine Learning with Consensus Building on Blockchains ( http://arxiv.org/abs/2007.15145v1 )

ライセンス: Link先を確認
Yixiao Lan, Yuan Liu, Boyang Li(参考訳) 深層学習(DL)の進歩、特に最近のネットワークの自動設計の発展は、計算コストで前例のない性能向上をもたらした。 一方、ブロックチェーンシステムは、分散参加者からのProof-of-Work(PoW)コンセンサスを構築するために、実用的な目的を達成することができない大量の計算を定期的に実行する。 本稿では,ニューラルネットワーク(NN)の最適化に向けて,コンセンサスに費やした計算を指示する,新しいコンセンサスメカニズムであるProof of Learning(PoLe)を提案する。 このメカニズムでは、トレーニング/テストデータをブロックチェーンネットワーク全体(BCN)にリリースし、コンセンサスノードがデータ上でNNモデルをトレーニングする。 BCNのコンセンサスがNNモデルの有効性を判断すると、ブロックチェーンに新たなブロックが追加される。 我々は,PoLeプロトコルとProof of Work(PoW)を実験的に比較し,PoLeがより安定したブロック生成率を実現し,より効率的なトランザクション処理を実現することを示す。 また、線形NN層として簡単に実装可能な、新しい不正防止機構であるセキュアマッピング層(SML)も導入する。 経験的評価は、SMLが予測性能に対して少ないコストで不正ノードを検出できることを示している。

The progress of deep learning (DL), especially the recent development of automatic design of networks, has brought unprecedented performance gains at heavy computational cost. On the other hand, blockchain systems routinely perform a huge amount of computation that does not achieve practical purposes in order to build Proof-of-Work (PoW) consensus from decentralized participants. In this paper, we propose a new consensus mechanism, Proof of Learning (PoLe), which directs the computation spent for consensus toward optimization of neural networks (NN). In our mechanism, the training/testing data are released to the entire blockchain network (BCN) and the consensus nodes train NN models on the data, which serves as the proof of learning. When the consensus on the BCN considers a NN model to be valid, a new block is appended to the blockchain. We experimentally compare the PoLe protocol with Proof of Work (PoW) and show that PoLe can achieve a more stable block generation rate, which leads to more efficient transaction processing. We also introduce a novel cheating prevention mechanism, Secure Mapping Layer (SML), which can be straightforwardly implemented as a linear NN layer. Empirical evaluation shows that SML can detect cheating nodes at small cost to the predictive performance.
翻訳日:2022-11-05 21:02:22 公開日:2020-07-29
# 機械学習を用いたcovid-19患者の死亡リスク予測のための早期警告ツール

An early warning tool for predicting mortality risk of COVID-19 patients using machine learning ( http://arxiv.org/abs/2007.15559v1 )

ライセンス: Link先を確認
Muhammad E. H. Chowdhury, Tawsifur Rahman, Amith Khandakar, Somaya Al-Madeed, Susu M. Zughaier, Suhail A. R. Doi, Hanadi Hassen, Mohammad T. Islam(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、世界の医療サービスに極端な圧力を与えている。 迅速かつ信頼性の高い早期臨床評価は、死亡率を減らすために資源を割り当て、優先順位付けするのに役立つ。 本研究は,2020年1月10日から2月18日にかけて,東寺病院(中国)に入院した375人の新型コロナウイルス陽性患者を対象に実施した。 患者の死亡を予測するための重要なバイオマーカーを機械学習ツールを用いて, デモグラフィー的, 臨床的特徴, および患者成績について検討した。 新型コロナウイルス患者の死亡リスクを予測するノモグラムを開発した。 入院時に得られた乳酸脱水素酵素,好中球 (%), リンパ球 (%), 高感度C-反応性蛋白, 年齢を, マルチツリーXGBoostモデルによる死の予測因子として同定した。 導出用ノモグラムの曲線下領域 (auc) はそれぞれ0.961および0.991であった。 総合スコア(LNLCA)を対応する死亡確率で算出した。 低リスク群,中リスク群,高リスク群,lnlcaカットオフ値10.4名,12.65名,死亡確率5%未満,5%から50%以下,50%以上に分けた。 予後モデル、ノモグラム、lnlcaスコアは、新型コロナウイルス患者の高い死亡リスクを早期に検出するのに役立つ。

COVID-19 pandemic has created an extreme pressure on the global healthcare services. Fast, reliable and early clinical assessment of the severity of the disease can help in allocating and prioritizing resources to reduce mortality. In order to study the important blood biomarkers for predicting disease mortality, a retrospective study was conducted on 375 COVID-19 positive patients admitted to Tongji Hospital (China) from January 10 to February 18, 2020. Demographic and clinical characteristics, and patient outcomes were investigated using machine learning tools to identify key biomarkers to predict the mortality of individual patient. A nomogram was developed for predicting the mortality risk among COVID-19 patients. Lactate dehydrogenase, neutrophils (%), lymphocyte (%), high sensitive C-reactive protein, and age - acquired at hospital admission were identified as key predictors of death by multi-tree XGBoost model. The area under curve (AUC) of the nomogram for the derivation and validation cohort were 0.961 and 0.991, respectively. An integrated score (LNLCA) was calculated with the corresponding death probability. COVID-19 patients were divided into three subgroups: low-, moderate- and high-risk groups using LNLCA cut-off values of 10.4 and 12.65 with the death probability less than 5%, 5% to 50%, and above 50%, respectively. The prognostic model, nomogram and LNLCA score can help in early detection of high mortality risk of COVID-19 patients, which will help doctors to improve the management of patient stratification.
翻訳日:2022-11-05 21:01:59 公開日:2020-07-29
# youtubeビデオにおける抑うつ検出による視聴者のメンタルヘルス評価

Assessing Viewer's Mental Health by Detecting Depression in YouTube Videos ( http://arxiv.org/abs/2008.07280v1 )

ライセンス: Link先を確認
Shanya Sharma and Manan Dey(参考訳) うつ病は世界有数のメンタルヘルス問題の一つであり、自殺の原因の1つであり、家族や社会に大きな経済的負担を課すことが証明されている。 そこで本研究では,映像の書き起こしを通じてキャプチャしたyoutubeビデオのコンテンツに対して,機械学習手法を適用した効果を検証し,動画が抑うつ性であるか,あるいは抑うつ性トリガーであるかを判定する。 モデルでは,83%の精度で抑うつ性映像を検出できる。 また,ビデオに投稿されたコメントに基づいて,コメントのces-dスコアを計算して分類を検証する実生活評価手法を提案する。 この作業は、un sdg 3.4と大きく一致した健康と健康を確保するという国連の持続可能な目標に大きく合致する。

Depression is one of the most prevalent mental health issues around the world, proving to be one of the leading causes of suicide and placing large economic burdens on families and society. In this paper, we develop and test the efficacy of machine learning techniques applied to the content of YouTube videos captured through their transcripts and determine if the videos are depressive or have a depressing trigger. Our model can detect depressive videos with an accuracy of 83%. We also introduce a real-life evaluation technique to validate our classification based on the comments posted on a video by calculating the CES-D scores of the comments. This work conforms greatly with the UN Sustainable Goal of ensuring Good Health and Well Being with major conformity with section UN SDG 3.4.
翻訳日:2022-11-05 21:01:33 公開日:2020-07-29
# 学習参照による位相検索の解法

Solving Phase Retrieval with a Learned Reference ( http://arxiv.org/abs/2007.14621v1 )

ライセンス: Link先を確認
Rakib Hyder, Zikui Cai, and M. Salman Asif(参考訳) フーリエ位相探索は、フーリエ係数の振幅測定から画像の回復を扱う古典的な問題である。 従来の手法では、未知画像の構造に関する事前知識を活用し、反復的(連続的な)最小化によってこの問題を解決する。 フーリエ測定におけるシフトとフリップに関する本質的な曖昧さは、この問題を特に困難にしている。 本稿では,フーリエ振幅の測定を行う前に,信号に既知の(学習された)参照が付加されることを仮定する。 本手法はホログラフィーに参照信号を追加する原理に着想を得たものである。 信号を復元するために,反復位相検索法を未ロールネットワークとして実装する。 その後、バックプロパゲーションを使用して、一定数のフェーズ検索イテレーションの最適な再構築を提供するリファレンスを学習します。 異なる条件下で様々なデータセット上で多数のシミュレーションを行い, 学習基準とアンロールネットワークを用いた位相探索手法が, 固定(小)計算コストでほぼ完全回復することを示した。 本手法を標準フーリエ位相検索法と比較し,学習基準を用いて有意な性能向上を観測した。

Fourier phase retrieval is a classical problem that deals with the recovery of an image from the amplitude measurements of its Fourier coefficients. Conventional methods solve this problem via iterative (alternating) minimization by leveraging some prior knowledge about the structure of the unknown image. The inherent ambiguities about shift and flip in the Fourier measurements make this problem especially difficult; and most of the existing methods use several random restarts with different permutations. In this paper, we assume that a known (learned) reference is added to the signal before capturing the Fourier amplitude measurements. Our method is inspired by the principle of adding a reference signal in holography. To recover the signal, we implement an iterative phase retrieval method as an unrolled network. Then we use back propagation to learn the reference that provides us the best reconstruction for a fixed number of phase retrieval iterations. We performed a number of simulations on a variety of datasets under different conditions and found that our proposed method for phase retrieval via unrolled network and learned reference provides near-perfect recovery at fixed (small) computational cost. We compared our method with standard Fourier phase retrieval methods and observed significant performance enhancement using the learned reference.
翻訳日:2022-11-05 20:56:10 公開日:2020-07-29
# TR-GAN : 網膜動脈・静脈分類におけるトリプルト損失GANのトポロジーランキング

TR-GAN: Topology Ranking GAN with Triplet Loss for Retinal Artery/Vein Classification ( http://arxiv.org/abs/2007.14852v1 )

ライセンス: Link先を確認
Wenting Chen, Shuang Yu, Junde Wu, Kai Ma, Cheng Bian, Chunyan Chu, Linlin Shen, Yefeng Zheng(参考訳) 網膜動脈/静脈(A/V)分類は、様々な心血管および脳疾患の潜在的なリスクに関連する網膜血管の定量的解析の基礎となる。 従来のグラフベース手法のa/v分類性能向上に有効なトポロジカル接続関係は,深層学習に基づく手法では活用されていない。 本稿では,分割動脈と静脈のトポロジ接続性を向上し,さらにA/V分類性能を向上させるために,TR-GAN(Topology Ranking Generative Adversarial Network)を提案する。 順序回帰に基づくトポロジーランキング判別器を提案し,接地面のトポロジー接続レベル,生成されたa/vマスク,故意にシャッフルマスクをランク付けする。 ランキング損失はさらに発電機にバックプロパガンダされ、より良い接続されたA/Vマスクを生成する。 さらに,三重項損失を有するトポロジー保存モジュールも提案し,高次トポロジー特性を抽出し,予測したA/Vマスクと接地トラスとの間の特徴距離を狭める。 提案フレームワークは,予測されたA/Vマスクのトポロジ的接続性を効果的に向上し,公開されているAV-DRIVEデータセット上で最先端のA/V分類性能を実現する。

Retinal artery/vein (A/V) classification lays the foundation for the quantitative analysis of retinal vessels, which is associated with potential risks of various cardiovascular and cerebral diseases. The topological connection relationship, which has been proved effective in improving the A/V classification performance for the conventional graph based method, has not been exploited by the deep learning based method. In this paper, we propose a Topology Ranking Generative Adversarial Network (TR-GAN) to improve the topology connectivity of the segmented arteries and veins, and further to boost the A/V classification performance. A topology ranking discriminator based on ordinal regression is proposed to rank the topological connectivity level of the ground-truth, the generated A/V mask and the intentionally shuffled mask. The ranking loss is further back-propagated to the generator to generate better connected A/V masks. In addition, a topology preserving module with triplet loss is also proposed to extract the high-level topological features and further to narrow the feature distance between the predicted A/V mask and the ground-truth. The proposed framework effectively increases the topological connectivity of the predicted A/V masks and achieves state-of-the-art A/V classification performance on the publicly available AV-DRIVE dataset.
翻訳日:2022-11-05 20:55:50 公開日:2020-07-29
# 胸部x線を用いた結核検診 : ディープラーニング, 分節化, 可視化

Reliable Tuberculosis Detection using Chest X-ray with Deep Learning, Segmentation and Visualization ( http://arxiv.org/abs/2007.14895v1 )

ライセンス: Link先を確認
Tawsifur Rahman, Amith Khandakar, Muhammad Abdul Kadir, Khandaker R. Islam, Khandaker F. Islam, Rashid Mazhar, Tahir Hamid, Mohammad T. Islam, Zaid B. Mahbub, Mohamed Arselene Ayari, Muhammad E. H. Chowdhury(参考訳) 結核(英: tuberculosis、TB)は、細菌感染による慢性肺疾患であり、死因の上位10の1つである。 TBの正確な検出と早期検出は極めて重要であり、そうでなければ生命を脅かす可能性がある。 本研究では,胸部x線画像から画像前処理,データ拡張,画像分割,ディープラーニング分類技術を用いて確実にtbを検出した。 いくつかの公開データベースを用いて700TBの感染と3500の正常な胸部X線画像のデータベースを構築した。 9つの異なるCNN(ResNet18、ResNet50、ResNet101、ChexNet、InceptionV3、Vgg19、DenseNet201、SqueezeNet、MobileNet)は、事前訓練された初期重みからの学習に使用され、TBおよび非TBの正常ケースの分類のために訓練され、検証され、テストされた。 2つの異なるu-netモデルを用いたx線画像のセグメンテーション, x線画像を用いた分類, 肺画像のセグメンテーションの3つの実験を行った。 X線画像による結核検出の精度,精度,感度,F1スコア,特異度はそれぞれ97.07 %,97.34 %,97.07 %,97.14 %,97.36 %であった。 しかしながら、X線画像全体の分類と精度、精度、感度、F1スコア、特異性は99.9%、99.91%、99.9%、99.52%よりも優れていた。 また, 肺の分節領域からCNNが学習し, 高い検出精度が得られることを確認するために, 可視化技術を用いた。 提案手法は, 結核の早期診断に有用である。

Tuberculosis (TB) is a chronic lung disease that occurs due to bacterial infection and is one of the top 10 leading causes of death. Accurate and early detection of TB is very important, otherwise, it could be life-threatening. In this work, we have detected TB reliably from the chest X-ray images using image pre-processing, data augmentation, image segmentation, and deep-learning classification techniques. Several public databases were used to create a database of 700 TB infected and 3500 normal chest X-ray images for this study. Nine different deep CNNs (ResNet18, ResNet50, ResNet101, ChexNet, InceptionV3, Vgg19, DenseNet201, SqueezeNet, and MobileNet), which were used for transfer learning from their pre-trained initial weights and trained, validated and tested for classifying TB and non-TB normal cases. Three different experiments were carried out in this work: segmentation of X-ray images using two different U-net models, classification using X-ray images, and segmented lung images. The accuracy, precision, sensitivity, F1-score, specificity in the detection of tuberculosis using X-ray images were 97.07 %, 97.34 %, 97.07 %, 97.14 % and 97.36 % respectively. However, segmented lungs for the classification outperformed than whole X-ray image-based classification and accuracy, precision, sensitivity, F1-score, specificity were 99.9 %, 99.91 %, 99.9 %, 99.9 %, and 99.52 % respectively. The paper also used a visualization technique to confirm that CNN learns dominantly from the segmented lung regions results in higher detection accuracy. The proposed method with state-of-the-art performance can be useful in the computer-aided faster diagnosis of tuberculosis.
翻訳日:2022-11-05 20:54:59 公開日:2020-07-29
# オンライン顔クラスタリングによる映画解析のための動的文字グラフ

Dynamic Character Graph via Online Face Clustering for Movie Analysis ( http://arxiv.org/abs/2007.14913v1 )

ライセンス: Link先を確認
Prakhar Kulshreshtha and Tanaya Guha(参考訳) 自動映画コンテンツ分析への効果的なアプローチは、キャラクターのネットワーク(graph)を構築することである。 既存の作業は通常、メタデータやスクリプト、手動アノテーションを使ってコンテンツを要約するために静的な文字グラフを構築する。 文字相互作用の時間的進化を捉える動的文字グラフを構築するための教師なしアプローチを提案する。 これを文字相互作用グラフ(CIG)と呼ぶ。 私たちのアプローチには2つの要素があります (i)ビデオストリームのキャラクタが現れるのを検知するオンライン顔クラスタリングアルゴリズム (II) 得られたクラスタの時間的ダイナミクスを用いたCIGの同時生成。 本稿では,CIGの物語構造(行為)セグメンテーションと主要キャラクタ検索という2つの映画解析タスクにおける有用性を示す。 5000本以上のフェーストラックを含む全編映画について評価した結果,提案手法が両課題とも優れた性能を達成していることがわかった。

An effective approach to automated movie content analysis involves building a network (graph) of its characters. Existing work usually builds a static character graph to summarize the content using metadata, scripts or manual annotations. We propose an unsupervised approach to building a dynamic character graph that captures the temporal evolution of character interaction. We refer to this as the character interaction graph(CIG). Our approach has two components:(i) an online face clustering algorithm that discovers the characters in the video stream as they appear, and (ii) simultaneous creation of a CIG using the temporal dynamics of the resulting clusters. We demonstrate the usefulness of the CIG for two movie analysis tasks: narrative structure (acts) segmentation, and major character retrieval. Our evaluation on full-length movies containing more than 5000 face tracks shows that the proposed approach achieves superior performance for both the tasks.
翻訳日:2022-11-05 20:54:25 公開日:2020-07-29
# フルサンプリングトレーニングデータのない圧縮型MRIにおけるニューラルネットワークによる再構成

Neural Network-based Reconstruction in Compressed Sensing MRI Without Fully-sampled Training Data ( http://arxiv.org/abs/2007.14979v1 )

ライセンス: Link先を確認
Alan Q. Wang, Adrian V. Dalca, and Mert R. Sabuncu(参考訳) Compressed Sensing MRI (CS-MRI)は、アンダーサンプルMRI画像の再構成において、スキャン時間を短縮する可能性を示している。 古典的手法は、高価な反復最適化手法を用いて、正規化された最小二乗のコスト関数を最小化する。 近年,ニューラルネットワークで反復を展開することにより,古典的手法の反復的性質をモデル化するディープラーニングモデルが開発されている。 優れた性能を示す一方で、これらの方法には大量の地中画像が必要であり、不特定データに対するロバストでないことが示されている。 本稿では,古典的最適化手法で広く用いられている損失関数を適用し,教師なし方式で未整備の再構成ネットワークを訓練する新しい手法を検討する。 この戦略は,従来の最適化解法に比べて損失が小さく,計算コストも低く,教師付きモデルよりも頑健であることを示す。 コードはhttps://github.com/alanqrwang/HQSNetで入手できる。

Compressed Sensing MRI (CS-MRI) has shown promise in reconstructing under-sampled MR images, offering the potential to reduce scan times. Classical techniques minimize a regularized least-squares cost function using an expensive iterative optimization procedure. Recently, deep learning models have been developed that model the iterative nature of classical techniques by unrolling iterations in a neural network. While exhibiting superior performance, these methods require large quantities of ground-truth images and have shown to be non-robust to unseen data. In this paper, we explore a novel strategy to train an unrolled reconstruction network in an unsupervised fashion by adopting a loss function widely-used in classical optimization schemes. We demonstrate that this strategy achieves lower loss and is computationally cheap compared to classical optimization solvers while also exhibiting superior robustness compared to supervised models. Code is available at https://github.com/alanqrwang/HQSNet.
翻訳日:2022-11-05 20:54:11 公開日:2020-07-29
# 幾何学的制約を用いた深部キーポイントカメラポース推定

Deep Keypoint-Based Camera Pose Estimation with Geometric Constraints ( http://arxiv.org/abs/2007.15122v1 )

ライセンス: Link先を確認
You-Yi Jau, Rui Zhu, Hao Su, Manmohan Chandraker(参考訳) 連続するフレームから相対カメラのポーズを推定することは、手作りの特徴とサンプリングに基づくアウトリア拒絶からなる古典的手法が10年以上にわたって支配的な選択肢であった視覚計測(VO)と同時位置決めマッピング(SLAM)の基本的な問題である。 複数の作業がこれらのモジュールを学習ベースのモジュールに置き換えることを提案しているが、ほとんどは従来の方法ほど正確で堅牢で一般化していない。 本稿では,幾何学的ポーズ対象を直接最適化しつつ,検出,特徴抽出,マッチング,外乱除去のための学習可能なモジュールからなるエンドツーエンドのトレーニング可能なフレームワークを設計する。 定量的および定性的に,ポーズ推定性能が従来のパイプラインと同等に達成可能であることを示す。 さらに、パイプラインの重要なコンポーネントが大幅に改善される可能性があるため、エンドツーエンドのトレーニングによって、既存の学習ベースの方法と比較して、見当たらないデータセットの一般化性が向上します。

Estimating relative camera poses from consecutive frames is a fundamental problem in visual odometry (VO) and simultaneous localization and mapping (SLAM), where classic methods consisting of hand-crafted features and sampling-based outlier rejection have been a dominant choice for over a decade. Although multiple works propose to replace these modules with learning-based counterparts, most have not yet been as accurate, robust and generalizable as conventional methods. In this paper, we design an end-to-end trainable framework consisting of learnable modules for detection, feature extraction, matching and outlier rejection, while directly optimizing for the geometric pose objective. We show both quantitatively and qualitatively that pose estimation performance may be achieved on par with the classic pipeline. Moreover, we are able to show by end-to-end training, the key components of the pipeline could be significantly improved, which leads to better generalizability to unseen datasets compared to existing learning-based methods.
翻訳日:2022-11-05 20:52:51 公開日:2020-07-29
# SATによる最適決定セットの計算

Computing Optimal Decision Sets with SAT ( http://arxiv.org/abs/2007.15140v1 )

ライセンス: Link先を確認
Jinqiang Yu, Alexey Ignatiev, Peter J. Stuckey, Pierre Le Bodic(参考訳) 機械学習が意思決定の助けになるようになれば、これらの決定は説明可能である必要がある。 おそらく最も説明可能な機械学習モデルは、決定ルールを使用する。 本稿では,無秩序なルールを持つモデルである決定集合に着目し,各予測を単一規則で説明する。 人間が容易に理解できるように、これらのルールは簡潔でなければならない。 初期の最適決定セットの作成作業は、まずルールの数を最小化し、次にリテラルの数を最小化するが、結果となるルールは、しばしば非常に大きい。 ここでは、リテラルの観点で設定された決定の総サイズを、よりよい尺度として検討する。 したがって、多くのリテラルを必要とする小さなルールセットに動かされるわけではありません。 実験的リスクを最小化する最小サイズ決定セットを決定するための最初のアプローチを提案し、その上で、サイズと精度を交換するスパース代替案について検討する。 最適解を見つけることによって、最良のヒューリスティックな方法とほぼ同等に正確であるが、はるかに簡潔で説明しやすい決定集合分類器を構築することができる。

As machine learning is increasingly used to help make decisions, there is a demand for these decisions to be explainable. Arguably, the most explainable machine learning models use decision rules. This paper focuses on decision sets, a type of model with unordered rules, which explains each prediction with a single rule. In order to be easy for humans to understand, these rules must be concise. Earlier work on generating optimal decision sets first minimizes the number of rules, and then minimizes the number of literals, but the resulting rules can often be very large. Here we consider a better measure, namely the total size of the decision set in terms of literals. So we are not driven to a small set of rules which require a large number of literals. We provide the first approach to determine minimum-size decision sets that achieve minimum empirical risk and then investigate sparse alternatives where we trade accuracy for size. By finding optimal solutions we show we can build decision set classifiers that are almost as accurate as the best heuristic methods, but far more concise, and hence more explainable.
翻訳日:2022-11-05 20:46:36 公開日:2020-07-29
# 相関構造の改善による機械学習研究と量子モンテカルロシミュレーションへの応用

Machine-Learning Study using Improved Correlation Configuration and Application to Quantum Monte Carlo Simulation ( http://arxiv.org/abs/2007.15477v1 )

ライセンス: Link先を確認
Yusuke Tomita, Kenta Shiina, Yutaka Okabe, Hwee Kuan Lee(参考訳) スピンモデルの位相分類に関する機械学習研究では,正規相関配置の代替として, fortuin-kasteleyn表現に基づく相関配置の推定器の改良を用いた。 古典的スピンモデルの位相は改良された推定器を用いて分類され、ループアルゴリズムを用いて量子モンテカルロシミュレーションにも適用される。 正方格子上のスピン1/2量子XYモデルのベレジンスキー-コステリッツ-Thouless(BKT)遷移を分析する。 機械学習手法を用いて,量子XYモデルのBKT相と常磁性相を分類する。 量子XYモデルの分類は,古典的XYモデルのトレーニングデータを用いて行うことができることを示す。

We use the Fortuin-Kasteleyn representation based improved estimator of the correlation configuration as an alternative to the ordinary correlation configuration in the machine-learning study of the phase classification of spin models. The phases of classical spin models are classified using the improved estimators, and the method is also applied to the quantum Monte Carlo simulation using the loop algorithm. We analyze the Berezinskii-Kosterlitz-Thouless (BKT) transition of the spin 1/2 quantum XY model on the square lattice. We classify the BKT phase and the paramagnetic phase of the quantum XY model using the machine-learning approach. We show that the classification of the quantum XY model can be performed by using the training data of the classical XY model.
翻訳日:2022-11-05 20:46:05 公開日:2020-07-29
# 低リソース言語のための教師なし音響モデルにおける言語間知識の活用

Exploiting Cross-Lingual Knowledge in Unsupervised Acoustic Modeling for Low-Resource Languages ( http://arxiv.org/abs/2007.15074v1 )

ライセンス: Link先を確認
Siyuan Feng(参考訳) (要約の短縮版) 本論文は,非書き起こし音声データのみを利用可能と仮定したゼロリソースシナリオにおける自動音声認識(asr)のための教師なし音響モデル(uam)の検討について述べる。 UAMは、ASR技術開発におけるデータ不足の一般的な問題に対処する上で重要であるだけでなく、言語保護、言語習得、病理学的言語評価など、多くの非主流アプリケーションに必須である。 本研究は2つの研究課題に焦点をあてる。 最初の問題は、与えられた言語における基本的な(サブワードレベルの)音声ユニットの教師なし発見に関するものである。 ゼロリソース条件下では、音声単位は言語的方向や制約を必要とせず、音響信号からのみ推測することができる。 第2の問題は教師なしサブワードモデリングと呼ばれる。 本質的には、フレームレベルの特徴表現は、転写されていない音声から学ぶ必要がある。 学習された特徴表現はサブワード単位発見の基礎である。 言語的に差別的で、非言語的要因に頑健であることが望まれる。 特にサブワード単位の発見とモデリングにおける言語間知識の広範な利用が本研究の焦点となっている。

(Short version of Abstract) This thesis describes an investigation on unsupervised acoustic modeling (UAM) for automatic speech recognition (ASR) in the zero-resource scenario, where only untranscribed speech data is assumed to be available. UAM is not only important in addressing the general problem of data scarcity in ASR technology development but also essential to many non-mainstream applications, for examples, language protection, language acquisition and pathological speech assessment. The present study is focused on two research problems. The first problem concerns unsupervised discovery of basic (subword level) speech units in a given language. Under the zero-resource condition, the speech units could be inferred only from the acoustic signals, without requiring or involving any linguistic direction and/or constraints. The second problem is referred to as unsupervised subword modeling. In its essence a frame-level feature representation needs to be learned from untranscribed speech. The learned feature representation is the basis of subword unit discovery. It is desired to be linguistically discriminative and robust to non-linguistic factors. Particularly extensive use of cross-lingual knowledge in subword unit discovery and modeling is a focus of this research.
翻訳日:2022-11-05 20:45:00 公開日:2020-07-29
# saliency re-identification によるオンライン視覚位置認識

Online Visual Place Recognition via Saliency Re-identification ( http://arxiv.org/abs/2007.14549v1 )

ライセンス: Link先を確認
Han Wang, Chen Wang and Lihua Xie(参考訳) 視覚的同時位置決めとマッピング(SLAM)の重要な構成要素として、位置認識はロボットナビゲーションと自律運転に不可欠である。 既存の手法では、視覚的な位置認識を特徴マッチングとして定式化し、自律運転やクリーニングロボットなど、限られた計算能力を持つ多くのロボットアプリケーションにとって計算コストがかかる。 人間は、他の人よりも魅力的で興味深い、またはランドマークを記憶することで常に場所を認識しているという事実に触発されて、視覚的な場所認識をサラエンシー再同定として定式化する。 一方,全操作が要素単位となる周波数領域において,サリエンシ検出と再同定の両方を行うように提案する。 実験の結果,提案手法は最新の特徴量に基づく手法よりも高い競争精度と高速性を達成できることがわかった。 提案手法はhttps://github.com/wh2007 20041/SRLCD.gitで公開されている。

As an essential component of visual simultaneous localization and mapping (SLAM), place recognition is crucial for robot navigation and autonomous driving. Existing methods often formulate visual place recognition as feature matching, which is computationally expensive for many robotic applications with limited computing power, e.g., autonomous driving and cleaning robot. Inspired by the fact that human beings always recognize a place by remembering salient regions or landmarks that are more attractive or interesting than others, we formulate visual place recognition as saliency re-identification. In the meanwhile, we propose to perform both saliency detection and re-identification in frequency domain, in which all operations become element-wise. The experiments show that our proposed method achieves competitive accuracy and much higher speed than the state-of-the-art feature-based methods. The proposed method is open-sourced and available at https://github.com/wh200720041/SRLCD.git.
翻訳日:2022-11-05 20:44:44 公開日:2020-07-29
# 高密度rgb再構成による赤外線画像の3次元融合と消火ロボットへの応用

3D Fusion of Infrared Images with Dense RGB Reconstruction from Multiple Views -- with Application to Fire-fighting Robots ( http://arxiv.org/abs/2007.14606v1 )

ライセンス: Link先を確認
Yuncong Chen and Will Warren(参考訳) このプロジェクトは赤外線とRGB画像を統合し、複数のビューから再構成された密集した3D環境モデルを生成する。 得られた3Dマップには、熱とRGBの情報の両方が含まれており、犠牲者と活動的な消防エリアを識別するためのロボット消火アプリケーションで使用できる。

This project integrates infrared and RGB imagery to produce dense 3D environment models reconstructed from multiple views. The resulting 3D map contains both thermal and RGB information which can be used in robotic fire-fighting applications to identify victims and active fire areas.
翻訳日:2022-11-05 20:43:50 公開日:2020-07-29
# 幾何に基づくビジュアルオドメトリー法における補正と誤りモデルの同時学習

Simultaneously Learning Corrections and Error Models for Geometry-based Visual Odometry Methods ( http://arxiv.org/abs/2007.14943v1 )

ライセンス: Link先を確認
Andrea De Maio and Simon Lacroix(参考訳) 本稿では,従来の視覚オドメトリパイプラインを補完して精度を高め,不確実性モデルと推定を関連付けるために,深層学習手法が利用できるという考えを育む。 本研究では,視覚計測プロセスに固有のバイアスを忠実に学習・補償することができ,確率的損失関数に関連付けられた学習アーキテクチャが,残差の完全共分散行列を共同で推定し,プロセスの不整合性を捉える誤差モデルを定義することができることを示す。 自律走行画像列の実験は、視覚計測を同時に改善し、その出力に関連する誤差を推定する可能性を評価する。

This paper fosters the idea that deep learning methods can be used to complement classical visual odometry pipelines to improve their accuracy and to associate uncertainty models to their estimations. We show that the biases inherent to the visual odometry process can be faithfully learned and compensated for, and that a learning architecture associated with a probabilistic loss function can jointly estimate a full covariance matrix of the residual errors, defining an error model capturing the heteroscedasticity of the process. Experiments on autonomous driving image sequences assess the possibility to concurrently improve visual odometry and estimate an error associated with its outputs.
翻訳日:2022-11-05 20:37:27 公開日:2020-07-29
# unselfie:自撮り写真を野生の中立的なポートレートに翻訳する

Unselfie: Translating Selfies to Neutral-pose Portraits in the Wild ( http://arxiv.org/abs/2007.15068v1 )

ライセンス: Link先を確認
Liqian Ma, Zhe Lin, Connelly Barnes, Alexei A. Efros, Jingwan Lu(参考訳) スマートフォンが普及しているため、自分や「自分」の写真を撮るのが一般的である。 このような写真は、特殊な機器やサードパーティのカメラマンを必要としないため、撮影に便利である。 しかし、自撮りでは、人間の腕の長さなどの制約が身体を不自然に見せることが多い。 この問題に対処するために、自撮り写真を中立的な肖像画に自動的に変換する新しい写真変換である$\textit{unselfie}$を導入する。 これを実現するために,まず非ペアデータセットを収集し,自己教師付き学習のためのペアトレーニングデータを合成する方法を提案する。 次に、写真に$\textit{unselfie}$を付けるために、3段階のパイプラインを提案し、まずターゲットの中立的なポーズを見つけ、身体のテクスチャを塗り、最後に背景の人物を精製して合成します。 適切な目標中性姿勢を得るため,提案手法により,提案課題を容易にし,ユーザが好む最良候補を選べる複数の中性候補結果を生成することができる新しい最寄りポーズ探索モジュールを提案する。 質的かつ定量的な評価は、代替案よりもパイプラインが優れていることを示している。

Due to the ubiquity of smartphones, it is popular to take photos of one's self, or "selfies." Such photos are convenient to take, because they do not require specialized equipment or a third-party photographer. However, in selfies, constraints such as human arm length often make the body pose look unnatural. To address this issue, we introduce $\textit{unselfie}$, a novel photographic transformation that automatically translates a selfie into a neutral-pose portrait. To achieve this, we first collect an unpaired dataset, and introduce a way to synthesize paired training data for self-supervised learning. Then, to $\textit{unselfie}$ a photo, we propose a new three-stage pipeline, where we first find a target neutral pose, inpaint the body texture, and finally refine and composite the person on the background. To obtain a suitable target neutral pose, we propose a novel nearest pose search module that makes the reposing task easier and enables the generation of multiple neutral-pose results among which users can choose the best one they like. Qualitative and quantitative evaluations show the superiority of our pipeline over alternatives.
翻訳日:2022-11-05 20:37:15 公開日:2020-07-29
# 複数画像融合による単一画像雲検出

Single Image Cloud Detection via Multi-Image Fusion ( http://arxiv.org/abs/2007.15144v1 )

ライセンス: Link先を確認
Scott Workman, M. Usman Rafique, Hunter Blanton, Connor Greenwell, Nathan Jacobs(参考訳) 雲、雪、影などのリモートセンシングによってキャプチャされた画像のアーティファクトは、セマンティックセグメンテーションやオブジェクト検出など、さまざまなタスクの課題を提示している。 このようなアーティファクトを特定するアルゴリズムを開発する上での大きな課題は、注釈付きトレーニングデータを集めるコストである。 本研究では,マルチイメージ融合の最近の進歩を,単一イメージクラウド検出のブートストラップに活用する方法について検討する。 画像品質の推定に最適化されたネットワークは暗黙的に雲の検出を学習する。 このアプローチのトレーニングと評価をサポートするために,sentinel-2画像の大規模なデータセットと,ランドカバー用のピクセル単位のセマンティクスラベリングを収集した。 各種実験により,アノテートしたトレーニングデータの必要性を低減し,クラウド検出性能を向上させることを実証した。

Artifacts in imagery captured by remote sensing, such as clouds, snow, and shadows, present challenges for various tasks, including semantic segmentation and object detection. A primary challenge in developing algorithms for identifying such artifacts is the cost of collecting annotated training data. In this work, we explore how recent advances in multi-image fusion can be leveraged to bootstrap single image cloud detection. We demonstrate that a network optimized to estimate image quality also implicitly learns to detect clouds. To support the training and evaluation of our approach, we collect a large dataset of Sentinel-2 images along with a per-pixel semantic labelling for land cover. Through various experiments, we demonstrate that our method reduces the need for annotated training data and improves cloud detection performance.
翻訳日:2022-11-05 20:36:23 公開日:2020-07-29
# 深部ニューラルネットワークを用いたロボット支援手術ビデオにおけるロボットツールの検出と位置推定

Detection and Localization of Robotic Tools in Robot-Assisted Surgery Videos Using Deep Neural Networks for Region Proposal and Detection ( http://arxiv.org/abs/2008.00936v1 )

ライセンス: Link先を確認
Duygu Sarikaya, Jason J. Corso and Khurshid A. Guru(参考訳) ロボット支援手術(RAS)ビデオの映像理解は活発な研究分野である。 外科医のジェスチャーとスキルレベルをモデル化することは興味深い問題である。 得られた洞察は、効果的なスキル獲得、客観的スキル評価、リアルタイムフィードバック、人間とロボットの協調手術に応用できる。 我々は、厳密なコンピュータビジョンアプローチと近年のディープラーニングの進歩を利用して、RASビデオ理解におけるツール検出と局所化の解法を提案する。 本稿では,マルチモーダル畳み込みニューラルネットワークを用いたRASビデオにおけるツールの高速検出とローカライズのためのアーキテクチャを提案する。 我々の知る限り、このアプローチは、RASビデオにツール検出とローカライゼーションのためのディープニューラルネットワークを最初に組み込むものだ。 本アーキテクチャでは,画像と時間的動きの融合による目的性と位置の同時予測を行うために,地域提案ネットワーク(RPN)とオブジェクト検出のためのマルチモーダル2ストリーム畳み込みネットワークを適用している。 平均精度 (ap) は91%であり, 平均計算時間は0.1秒であったことから, 従来の医用画像撮影法よりも優れており, 精度と効率にrpnを用いることの利点も強調した。 また、RASビデオ理解のための新しいデータセットATLAS Dioneを導入する。 我々のデータセットは、Roswell Park Cancer Institute (RPCI)(ニューヨーク州バッファロー)の10人の外科医がdaVinci surgery System (dVSS R )で6種類の異なる手術作業をこなすビデオデータを提供する。

Video understanding of robot-assisted surgery (RAS) videos is an active research area. Modeling the gestures and skill level of surgeons presents an interesting problem. The insights drawn may be applied in effective skill acquisition, objective skill assessment, real-time feedback, and human-robot collaborative surgeries. We propose a solution to the tool detection and localization open problem in RAS video understanding, using a strictly computer vision approach and the recent advances of deep learning. We propose an architecture using multimodal convolutional neural networks for fast detection and localization of tools in RAS videos. To our knowledge, this approach will be the first to incorporate deep neural networks for tool detection and localization in RAS videos. Our architecture applies a Region Proposal Network (RPN), and a multi-modal two stream convolutional network for object detection, to jointly predict objectness and localization on a fusion of image and temporal motion cues. Our results with an Average Precision (AP) of 91% and a mean computation time of 0.1 seconds per test frame detection indicate that our study is superior to conventionally used methods for medical imaging while also emphasizing the benefits of using RPN for precision and efficiency. We also introduce a new dataset, ATLAS Dione, for RAS video understanding. Our dataset provides video data of ten surgeons from Roswell Park Cancer Institute (RPCI) (Buffalo, NY) performing six different surgical tasks on the daVinci Surgical System (dVSS R ) with annotations of robotic tools per frame.
翻訳日:2022-11-05 20:36:09 公開日:2020-07-29
# ニューラルネットワーク用超伝導ナノワイヤスパイク素子

A superconducting nanowire spiking element for neural networks ( http://arxiv.org/abs/2007.15101v1 )

ライセンス: Link先を確認
Emily Toomey, Ken Segall, Matteo Castellani, Marco Colangelo, Nancy Lynch, and Karl K. Berggren(参考訳) 従来のvon neumannコンピューティングの限界が見えてくるにつれ、低消費電力スパイクを使って大量の情報を伝える脳の能力は、代替アーキテクチャのインスピレーションの源となっている。 これらの大規模ニューラルネットワークの成功の鍵は、スケーラブルで、従来の制御エレクトロニクスと容易に接続できる、電力効率のよいスパイク要素である。 本研究では,10aJ程度のパルスエネルギーを有する超伝導ナノワイヤから作製したスパイキング素子について述べる。 本装置は、屈折周期や発射閾値などの生体ニューロンの本質的特性を再現することを示した。 デバイスパラメータを実験的に測定したシミュレーションにより,ナノワイヤベースのネットワークが画像認識における推論にどのように使われるかを示し,ナノワイヤスイッチングの確率的性質は生物過程のモデル化や確率性に依存する応用に活用できることを示した。

As the limits of traditional von Neumann computing come into view, the brain's ability to communicate vast quantities of information using low-power spikes has become an increasing source of inspiration for alternative architectures. Key to the success of these largescale neural networks is a power-efficient spiking element that is scalable and easily interfaced with traditional control electronics. In this work, we present a spiking element fabricated from superconducting nanowires that has pulse energies on the order of ~10 aJ. We demonstrate that the device reproduces essential characteristics of biological neurons, such as a refractory period and a firing threshold. Through simulations using experimentally measured device parameters, we show how nanowire-based networks may be used for inference in image recognition, and that the probabilistic nature of nanowire switching may be exploited for modeling biological processes and for applications that rely on stochasticity.
翻訳日:2022-11-05 20:35:45 公開日:2020-07-29
# シンボリックモデルチェックによるベイズ推定

Bayesian Inference by Symbolic Model Checking ( http://arxiv.org/abs/2007.15071v1 )

ライセンス: Link先を確認
Bahare Salmani and Joost-Pieter Katoen(参考訳) 本稿では,離散マルコフ連鎖の確率的モデルチェック手法をベイズネットワークの推論に適用する。 ベイズネットワークから木のようなマルコフ連鎖への簡単な変換を行い、推論を計算可能確率に還元する。 Stormモデルチェッカー上でのプロトタイプ実装を用いることで、マルチ端末BDD(MTBDD)のようなシンボリックデータ構造がベイズネットワークベンチマーク上での推論に非常に有効であることを示す。 我々は,AI推論ツールのスケーラブルなシンボル技術である確率論的意味決定図とvtreeを用いた推論と比較した。

This paper applies probabilistic model checking techniques for discrete Markov chains to inference in Bayesian networks. We present a simple translation from Bayesian networks into tree-like Markov chains such that inference can be reduced to computing reachability probabilities. Using a prototypical implementation on top of the Storm model checker, we show that symbolic data structures such as multi-terminal BDDs (MTBDDs) are very effective to perform inference on large Bayesian network benchmarks. We compare our result to inference using probabilistic sentential decision diagrams and vtrees, a scalable symbolic technique in AI inference tools.
翻訳日:2022-11-05 20:35:13 公開日:2020-07-29
# 動的GCN:骨格に基づく行動認識のための文脈強化トポロジー学習

Dynamic GCN: Context-enriched Topology Learning for Skeleton-based Action Recognition ( http://arxiv.org/abs/2007.14690v1 )

ライセンス: Link先を確認
Fanfan Ye and Shiliang Pu and Qiaoyong Zhong and Chao Li and Di Xie and Huiming Tang(参考訳) グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識の課題への関心が高まっている。 鍵となるのは、骨格トポロジー情報をエンコードするグラフ構造の設計にある。 本稿では,新しい畳み込みニューラルネットワークであるContextencoding Network(CeN)を導入し,骨格トポロジを自動的に学習する動的GCNを提案する。 特に、2つのジョイント間の依存性を学ぶ場合、他のジョイントからコンテキスト的な特徴がグローバルに組み込まれます。 CeNは非常に軽量だが効果的であり、グラフ畳み込み層に埋め込むことができる。 複数のCeN対応グラフ畳み込み層を積み重ねることで、動的GCNを構築する。 特に、CeNの利点として、異なる入力サンプルと様々な深さのグラフ畳み込み層に対して動的グラフトポロジーが構築される。 さらに、3つの代替コンテキストモデリングアーキテクチャがよく研究されており、グラフトポロジ学習の今後の研究の指針となる可能性がある。 cenはベースラインモデルにわずか7%のフロップをもたらし、dynamic gcnは2\times$~4\times$のフラップを既存のメソッドよりも少ないパフォーマンスで達成する。 NTU-RGB+D, NTU-RGB+D 120, Skeleton-Kineticsの3つの大規模ベンチマークにおいて, 静的な身体接続と運動のモダリティを更に組み合わせることで, 最先端の性能を実現する。

Graph Convolutional Networks (GCNs) have attracted increasing interests for the task of skeleton-based action recognition. The key lies in the design of the graph structure, which encodes skeleton topology information. In this paper, we propose Dynamic GCN, in which a novel convolutional neural network named Contextencoding Network (CeN) is introduced to learn skeleton topology automatically. In particular, when learning the dependency between two joints, contextual features from the rest joints are incorporated in a global manner. CeN is extremely lightweight yet effective, and can be embedded into a graph convolutional layer. By stacking multiple CeN-enabled graph convolutional layers, we build Dynamic GCN. Notably, as a merit of CeN, dynamic graph topologies are constructed for different input samples as well as graph convolutional layers of various depths. Besides, three alternative context modeling architectures are well explored, which may serve as a guideline for future research on graph topology learning. CeN brings only ~7% extra FLOPs for the baseline model, and Dynamic GCN achieves better performance with $2\times$~$4\times$ fewer FLOPs than existing methods. By further combining static physical body connections and motion modalities, we achieve state-of-the-art performance on three large-scale benchmarks, namely NTU-RGB+D, NTU-RGB+D 120 and Skeleton-Kinetics.
翻訳日:2022-11-05 20:28:08 公開日:2020-07-29
# SipMask: 高速画像とビデオインスタンスセグメンテーションのための空間情報保存

SipMask: Spatial Information Preservation for Fast Image and Video Instance Segmentation ( http://arxiv.org/abs/2007.14772v1 )

ライセンス: Link先を確認
Jiale Cao, Rao Muhammad Anwer, Hisham Cholakkal, Fahad Shahbaz Khan, Yanwei Pang, Ling Shao(参考訳) シングルステージインスタンスのセグメンテーションアプローチは最近、そのスピードとシンプルさのために人気を集めているが、2段階の方法と比べても精度は遅れている。 本稿では,インスタンスのマスク予測を検出されたバウンディングボックスの異なるサブリージョンに分離することにより,インスタンス固有の空間情報を保持する高速単段インスタンスセグメンテーション手法であるsipmaskを提案する。 我々の主な貢献は,境界ボックス内の各部分領域ごとに空間係数を分離して生成し,マスク予測を改善する新しい軽量空間保存モジュールである。 また、空間的に隣接したインスタンスの正確なデライン化も可能である。 さらに,マスクアライメント重み付け損失と特徴アライメントスキームを導入し,マスク予測と物体検出との相関性を高める。 COCO test-devでは、SipMaskは既存のシングルステージメソッドよりも優れています。 最先端のシングルステージTensorMaskと比較して、SipMaskは4倍のスピードアップを提供しながら1.0%(マスクAP)の絶対ゲインを得る。 リアルタイム機能に関しては、SipMaskはTitan Xpと同等の速度で動作しながら、同様の設定で、YOLACTを3.0%(マスクAP)という絶対的なパフォーマンスで上回ります。 また、リアルタイムビデオインスタンスセグメンテーションのためのSipMaskの評価を行い、YouTube-VISデータセット上で有望な結果を得た。 ソースコードはhttps://github.com/JialeCao001/SipMaskで入手できる。

Single-stage instance segmentation approaches have recently gained popularity due to their speed and simplicity, but are still lagging behind in accuracy, compared to two-stage methods. We propose a fast single-stage instance segmentation method, called SipMask, that preserves instance-specific spatial information by separating mask prediction of an instance to different sub-regions of a detected bounding-box. Our main contribution is a novel light-weight spatial preservation (SP) module that generates a separate set of spatial coefficients for each sub-region within a bounding-box, leading to improved mask predictions. It also enables accurate delineation of spatially adjacent instances. Further, we introduce a mask alignment weighting loss and a feature alignment scheme to better correlate mask prediction with object detection. On COCO test-dev, our SipMask outperforms the existing single-stage methods. Compared to the state-of-the-art single-stage TensorMask, SipMask obtains an absolute gain of 1.0% (mask AP), while providing a four-fold speedup. In terms of real-time capabilities, SipMask outperforms YOLACT with an absolute gain of 3.0% (mask AP) under similar settings, while operating at comparable speed on a Titan Xp. We also evaluate our SipMask for real-time video instance segmentation, achieving promising results on YouTube-VIS dataset. The source code is available at https://github.com/JialeCao001/SipMask.
翻訳日:2022-11-05 20:27:44 公開日:2020-07-29
# Face2Face:RGBビデオのリアルタイムキャプチャと再現

Face2Face: Real-time Face Capture and Reenactment of RGB Videos ( http://arxiv.org/abs/2007.14808v1 )

ライセンス: Link先を確認
Justus Thies and Michael Zollh\"ofer and Marc Stamminger and Christian Theobalt and Matthias Nie{\ss}ner(参考訳) モノクラーターゲットビデオシーケンス(YouTubeビデオなど)のリアルタイムな顔再現のための新しいアプローチであるFace2Faceを提示する。 ソースシーケンスは、コモディティのウェブカメラでライブ撮影された単眼ビデオストリームでもある。 我々のゴールは、ソースアクターによるターゲットビデオの表情をアニメーション化し、操作された出力ビデオを再レンダリングすることである。 そこで本研究では,非剛性モデルを用いたバンドルによる単眼映像からの顔認証の復元について,まず検討する。 実行時,ソースとターゲットの両方の動画の表情を,高濃度フォトメトリック一貫性尺度を用いて追跡する。 その後、ソースとターゲット間の高速かつ効率的な変形移動により再生する。 再ターゲット表現に最も適した口内は、ターゲットシーケンスから取り出され、正確に適合するように反動される。 最後に,実世界の照明とシームレスに融合するように,対応する映像ストリームの上に合成された対象の顔を再レンダリングする。 われわれは,YouTubeビデオがリアルタイムに再現されるライブセットアップで本手法を実演する。

We present Face2Face, a novel approach for real-time facial reenactment of a monocular target video sequence (e.g., Youtube video). The source sequence is also a monocular video stream, captured live with a commodity webcam. Our goal is to animate the facial expressions of the target video by a source actor and re-render the manipulated output video in a photo-realistic fashion. To this end, we first address the under-constrained problem of facial identity recovery from monocular video by non-rigid model-based bundling. At run time, we track facial expressions of both source and target video using a dense photometric consistency measure. Reenactment is then achieved by fast and efficient deformation transfer between source and target. The mouth interior that best matches the re-targeted expression is retrieved from the target sequence and warped to produce an accurate fit. Finally, we convincingly re-render the synthesized target face on top of the corresponding video stream such that it seamlessly blends with the real-world illumination. We demonstrate our method in a live setup, where Youtube videos are reenacted in real time.
翻訳日:2022-11-05 20:27:19 公開日:2020-07-29
# マルチレータ・コンセンサス・モデリングによる難治性緑内障の分類

Difficulty-aware Glaucoma Classification with Multi-Rater Consensus Modeling ( http://arxiv.org/abs/2007.14848v1 )

ライセンス: Link先を確認
Shuang Yu, Hong-Yu Zhou, Kai Ma, Cheng Bian, Chunyan Chu, Hanruo Liu, Yefeng Zheng(参考訳) 医用画像は一般に複数の専門家によってラベル付けされる。 個々の画像に関する専門家間の合意や意見の相違は、画像のグレード性や難易度を反映している。 しかし、モデルトレーニングに使用する場合、最終接地ラベルのみを使用し、画像が容易かつハードなケースであることに関して、生のマルチレート評価に含まれる重要な情報を捨てる。 本稿では,緑内障分類タスクの深層学習モデル性能を向上させるために,生のマルチレータグレーディングを活用することを目的とする。 具体的には、入力画像に対する最も感度の高い、最も特異な、バランスのとれた結果を予測するために、マルチブランチモデル構造を提案する。 感度分枝と特異分枝がコンセンサスラベルと反対のコンセンサスラベルの一貫性のある結果を生成するように促すため、コンセンサスロスを提案し、2つの分枝の出力を制限する。 一方、両枝の予測結果の整合性/整合性は、画像が容易かつ硬いケースであることを示し、さらに、平衡融合枝がハードケースに集中するように促すために利用される。 最終接地ラベルでのみトレーニングされたモデルと比較して,マルチレートコンセンサス情報を用いた提案手法は優れた性能を達成し,予測を行う際に個々の入力画像の難易度を推定できる。

Medical images are generally labeled by multiple experts before the final ground-truth labels are determined. Consensus or disagreement among experts regarding individual images reflects the gradeability and difficulty levels of the image. However, when being used for model training, only the final ground-truth label is utilized, while the critical information contained in the raw multi-rater gradings regarding the image being an easy/hard case is discarded. In this paper, we aim to take advantage of the raw multi-rater gradings to improve the deep learning model performance for the glaucoma classification task. Specifically, a multi-branch model structure is proposed to predict the most sensitive, most specifical and a balanced fused result for the input images. In order to encourage the sensitivity branch and specificity branch to generate consistent results for consensus labels and opposite results for disagreement labels, a consensus loss is proposed to constrain the output of the two branches. Meanwhile, the consistency/inconsistency between the prediction results of the two branches implies the image being an easy/hard case, which is further utilized to encourage the balanced fusion branch to concentrate more on the hard cases. Compared with models trained only with the final ground-truth labels, the proposed method using multi-rater consensus information has achieved superior performance, and it is also able to estimate the difficulty levels of individual input images when making the prediction.
翻訳日:2022-11-05 20:26:49 公開日:2020-07-29
# MessyTable: 複数のカメラビューにおけるインスタンスアソシエーション

MessyTable: Instance Association in Multiple Camera Views ( http://arxiv.org/abs/2007.14878v1 )

ライセンス: Link先を確認
Zhongang Cai, Junzhe Zhang, Daxuan Ren, Cunjun Yu, Haiyu Zhao, Shuai Yi, Chai Kiat Yeo, Chen Change Loy(参考訳) 複数のカメラビューから取得した乱雑なテーブルを備えた多数のシーンを特徴とする、興味深く挑戦的なデータセットを提示する。 このデータセットの各シーンは非常に複雑で、複数のオブジェクトインスタンスが含まれており、同じ、積み上げられ、他のインスタンスによって隠蔽される。 主要な課題は、すべてのビューのRGBイメージが与えられたすべてのインスタンスを関連付けることです。 一見単純なタスクは、オブジェクトアソシエーションで優れたパフォーマンスを仮定する多くの一般的なメソッドやヒューリスティックに驚くほど失敗する。 このデータセットは、微妙な外観の違いのマイニング、文脈に基づく推論、および連想を確立するための幾何学的手がかりと融合する既存の手法に挑戦する。 いくつかの一般的なベースラインで興味深い発見を報告し、このデータセットが新たな問題を誘発し、現実のインスタンス関連問題に対処するためにより堅牢な定式化を触媒する方法について論じる。 プロジェクトページ: $\href{https://caizhongang.github.io/projects/MessyTable/}{\text{MessyTable}}$

We present an interesting and challenging dataset that features a large number of scenes with messy tables captured from multiple camera views. Each scene in this dataset is highly complex, containing multiple object instances that could be identical, stacked and occluded by other instances. The key challenge is to associate all instances given the RGB image of all views. The seemingly simple task surprisingly fails many popular methods or heuristics that we assume good performance in object association. The dataset challenges existing methods in mining subtle appearance differences, reasoning based on contexts, and fusing appearance with geometric cues for establishing an association. We report interesting findings with some popular baselines, and discuss how this dataset could help inspire new problems and catalyse more robust formulations to tackle real-world instance association problems. Project page: $\href{https://caizhongang.github.io/projects/MessyTable/}{\text{MessyTable}}$
翻訳日:2022-11-05 20:26:24 公開日:2020-07-29
# 高次元におけるひずみ線形回帰

Truncated Linear Regression in High Dimensions ( http://arxiv.org/abs/2007.14539v1 )

ライセンス: Link先を確認
Constantinos Daskalakis, Dhruv Rohatgi, Manolis Zampetakis(参考訳) 標準線形回帰と同様に、truncated linear regression において、従属変数が $y_i= A_i^{\rm T} \cdot x^* + \eta_i$, where $x^*$ is some fixed unknown vector of interest and $\eta_i$ is independent noise となるような観測へのアクセスが与えられるが、従属変数 $y_i$ が従属変数 $S \subset \mathbb{R}$ にある場合のみ観察される。 目標は、$A_i$とノイズ分布に関するいくつかの好ましい条件の下で$x^*$を回復することである。 我々は,$k$-sparse $n$-dimensional vectors $x^*$ from $m$ truncated sample という計算量的かつ統計的に効率的な方法が存在することを証明し,$o(\sqrt{(k \log n)/m})$ の最適な$\ell_2$ 再構成誤差を得る。 提案手法は, 計算効率と情報理論上, 圧縮センシングの最適アルゴリズムであり, 測定飽和効果から生じる可能性がある。 我々の結果は、トラルニケーションに対応するLASSO最適化問題の自然な適応を解くための確率勾配 Descent (SGD) アルゴリズムの統計的および計算学的解析から導かれる。 これにより、(1)データの低次元性のために正規化が不要な[daskalakis et al. 2018]と(2)停止の欠如により目的関数が単純である(2)[wainright 2009]という2つの作業が一般化される。 止血と高次元の両方を同時に扱うため、既存のものを一般化するだけでなく、独立した関心事であると信じている新しい技術を開発する。

As in standard linear regression, in truncated linear regression, we are given access to observations $(A_i, y_i)_i$ whose dependent variable equals $y_i= A_i^{\rm T} \cdot x^* + \eta_i$, where $x^*$ is some fixed unknown vector of interest and $\eta_i$ is independent noise; except we are only given an observation if its dependent variable $y_i$ lies in some "truncation set" $S \subset \mathbb{R}$. The goal is to recover $x^*$ under some favorable conditions on the $A_i$'s and the noise distribution. We prove that there exists a computationally and statistically efficient method for recovering $k$-sparse $n$-dimensional vectors $x^*$ from $m$ truncated samples, which attains an optimal $\ell_2$ reconstruction error of $O(\sqrt{(k \log n)/m})$. As a corollary, our guarantees imply a computationally efficient and information-theoretically optimal algorithm for compressed sensing with truncation, which may arise from measurement saturation effects. Our result follows from a statistical and computational analysis of the Stochastic Gradient Descent (SGD) algorithm for solving a natural adaptation of the LASSO optimization problem that accommodates truncation. This generalizes the works of both: (1) [Daskalakis et al. 2018], where no regularization is needed due to the low-dimensionality of the data, and (2) [Wainright 2009], where the objective function is simple due to the absence of truncation. In order to deal with both truncation and high-dimensionality at the same time, we develop new techniques that not only generalize the existing ones but we believe are of independent interest.
翻訳日:2022-11-05 20:21:06 公開日:2020-07-29
# マルチクラス安全データセットアグリゲーションを用いた自動運転車のための効率的なエンドツーエンドディープラーニングサンプル

Sample Efficient Interactive End-to-End Deep Learning for Self-Driving Cars with Selective Multi-Class Safe Dataset Aggregation ( http://arxiv.org/abs/2007.14671v1 )

ライセンス: Link先を確認
Yunus Bicer, Ali Alizadeh, Nazim Kemal Ure, Ahmetcan Erdogan, and Orkun Kizilirmak(参考訳) 本研究の目的は,各呼び出しから専門家ドライバーのポリシーに注意深い分析を行うことで,サンプルから抽出した情報の価値を高めることを目的とする,自動運転車のための効率的なエンドツーエンドディープラーニング手法を開発することである。 エンドツーエンドの模倣学習は、自動運転車のポリシーを計算する一般的な方法である。 標準的なアプローチは、専門家のポリシーから入力(カメライメージ)と出力(操舵角など)のペアを収集し、深層ニューラルネットワークをこのデータに適合させて運転ポリシーを学ぶことに依存している。 このアプローチには過去にいくつかの成功例があったが、優れたポリシを学ぶには、エキスパートドライバからの多くのサンプルが必要になる可能性がある。 本研究では,現在学習しているポリシーを異なる軌道クラスに自動的に分割するSafe Dateset Aggregation(Safe DAgger)アプローチに基づく新しいフレームワークを開発し,各ステップで弱い性能を持つ軌道セグメントやクラスを同定する。 性能の弱い軌道セグメントが特定されると、サンプリングアルゴリズムはこれらのセグメントのみに専門家ポリシーを呼び出すことに集中し、収束率を向上させる。 シミュレーションの結果,提案手法は標準のSafe DAggerアルゴリズムと比較して,同じ量のサンプルを専門家から使用しながら,高い性能が得られることがわかった。

The objective of this paper is to develop a sample efficient end-to-end deep learning method for self-driving cars, where we attempt to increase the value of the information extracted from samples, through careful analysis obtained from each call to expert driver\'s policy. End-to-end imitation learning is a popular method for computing self-driving car policies. The standard approach relies on collecting pairs of inputs (camera images) and outputs (steering angle, etc.) from an expert policy and fitting a deep neural network to this data to learn the driving policy. Although this approach had some successful demonstrations in the past, learning a good policy might require a lot of samples from the expert driver, which might be resource-consuming. In this work, we develop a novel framework based on the Safe Dateset Aggregation (safe DAgger) approach, where the current learned policy is automatically segmented into different trajectory classes, and the algorithm identifies trajectory segments or classes with the weak performance at each step. Once the trajectory segments with weak performance identified, the sampling algorithm focuses on calling the expert policy only on these segments, which improves the convergence rate. The presented simulation results show that the proposed approach can yield significantly better performance compared to the standard Safe DAgger algorithm while using the same amount of samples from the expert.
翻訳日:2022-11-05 20:20:23 公開日:2020-07-29
# 英語・ベンガル語混合データのためのPOSタグの開発

Development of POS tagger for English-Bengali Code-Mixed data ( http://arxiv.org/abs/2007.14576v1 )

ライセンス: Link先を確認
Tathagata Raha, Sainik Kumar Mahata, Dipankar Das, Sivaji Bandyopadhyay(参考訳) コードミキシングテキストは、ソーシャルメディアの出現により近年広く普及している。 これらのテキストは2つの言語を組み合わせて文を定式化するので、自然言語処理に関する様々な研究問題が発生する。 本稿では,コードミキシングテキストの音声タグ付け部分という,そのような問題の1つを探索する。 ベンガル語の単語がローマ字で書かれた英語とベンガル語の混成データをタグ付けするシステムを構築した。 当社のアプローチは、まずは英語とベンガル語の混成ツイートの収集とクリーニングです。 これらのツイートは、システム構築のための開発データセットとして使用されました。 提案されたシステムはモジュール化されたアプローチで、まず個々のトークンをそれぞれの言語にタグ付けし、その後異なる言語(私たちの場合は英語とベンガル語)向けに設計されたposタグに渡す。 2つのシステムによって与えられたタグは後に結合され、最終結果はユニバーサルposタグセットにマッピングされる。 100個のPOSタグ付きコード混在文を用いて, 精度75.29%を返却した。

Code-mixed texts are widespread nowadays due to the advent of social media. Since these texts combine two languages to formulate a sentence, it gives rise to various research problems related to Natural Language Processing. In this paper, we try to excavate one such problem, namely, Parts of Speech tagging of code-mixed texts. We have built a system that can POS tag English-Bengali code-mixed data where the Bengali words were written in Roman script. Our approach initially involves the collection and cleaning of English-Bengali code-mixed tweets. These tweets were used as a development dataset for building our system. The proposed system is a modular approach that starts by tagging individual tokens with their respective languages and then passes them to different POS taggers, designed for different languages (English and Bengali, in our case). Tags given by the two systems are later joined together and the final result is then mapped to a universal POS tag set. Our system was checked using 100 manually POS tagged code-mixed sentences and it returned an accuracy of 75.29%
翻訳日:2022-11-05 20:19:58 公開日:2020-07-29
# Stanza Python NLPライブラリーにおける生物医学および臨床英語モデルパッケージ

Biomedical and Clinical English Model Packages in the Stanza Python NLP Library ( http://arxiv.org/abs/2007.14640v1 )

ライセンス: Link先を確認
Yuhao Zhang, Yuhui Zhang, Peng Qi, Christopher D. Manning, Curtis P. Langlotz(参考訳) 我々は,Stanza Python NLPライブラリの生物医学的および臨床的英語モデルパッケージを紹介する。 これらのパッケージは、Stanzaの完全なニューラルネットワークアーキテクチャと幅広いオープンデータセットと、大規模で教師なしのバイオメディカルおよび臨床テキストデータを組み合わせることで、正確な構文解析と名前付きエンティティ認識機能を提供する。 我々は,我々のパッケージが構文解析と命名されたエンティティ認識性能を,最先端の結果と同等あるいは同等に達成できることを示す。 さらに、GPUアクセラレーションが利用可能である場合、これらのモデルが既存のツールキットと比較して速度を損なわないことを示し、StanzaのPythonインターフェースで簡単にダウンロードおよび使用できるようにする。 私たちのパッケージのデモは以下の通りです。

We introduce biomedical and clinical English model packages for the Stanza Python NLP library. These packages offer accurate syntactic analysis and named entity recognition capabilities for biomedical and clinical text, by combining Stanza's fully neural architecture with a wide variety of open datasets as well as large-scale unsupervised biomedical and clinical text data. We show via extensive experiments that our packages achieve syntactic analysis and named entity recognition performance that is on par with or surpasses state-of-the-art results. We further show that these models do not compromise speed compared to existing toolkits when GPU acceleration is available, and are made easy to download and use with Stanza's Python interface. A demonstration of our packages is available at: http://stanza.run/bio.
翻訳日:2022-11-05 20:19:41 公開日:2020-07-29
# #brexit: 立ち去るか、残るか? 姿勢検出におけるユーザコミュニティの役割とダイアクロニック進化

#Brexit: Leave or Remain? The Role of User's Community and Diachronic Evolution on Stance Detection ( http://arxiv.org/abs/2007.14936v1 )

ライセンス: Link先を確認
Mirko Lai and Viviana Patti and Giancarlo Ruffo and Paolo Rosso(参考訳) 近年、オンライン討論の中でユーザーが想定する姿勢の分類に注目が集まっている。 社会的研究は、社会的コミュニティがユーザーの意見に影響を与える可能性があることを強調している。 さらに、議論中に記録できるユーザの意見シフトダイナミクスに光を当てることができるため、姿勢は二元論的な観点から研究されるべきである。 ブレグジット・ブレグジット・ブレグジットに関する英国の政治議論を分析し、スタンス検出のための新しいアプローチとアノテーション・スキーマを提案し、ソーシャル・ネットワーク・コミュニティとダイハロニカル・スタンスの進化に関連する機能の役割について調査することを目的としている。 分類実験により,このような特徴は姿勢検出に非常に有用な手がかりとなることが示された。

Interest has grown around the classification of stance that users assume within online debates in recent years. Stance has been usually addressed by considering users posts in isolation, while social studies highlight that social communities may contribute to influence users' opinion. Furthermore, stance should be studied in a diachronic perspective, since it could help to shed light on users' opinion shift dynamics that can be recorded during the debate. We analyzed the political discussion in UK about the BREXIT referendum on Twitter, proposing a novel approach and annotation schema for stance detection, with the main aim of investigating the role of features related to social network community and diachronic stance evolution. Classification experiments show that such features provide very useful clues for detecting stance.
翻訳日:2022-11-05 20:19:26 公開日:2020-07-29
# 言語横断テキスト分類のための自己学習におけるアドバイザリトレーニングの活用

Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text Classification ( http://arxiv.org/abs/2007.15072v1 )

ライセンス: Link先を確認
Xin Dong, Yaxin Zhu, Yupeng Zhang, Zuohui Fu, Dongkuan Xu, Sen Yang, Gerard de Melo(参考訳) クロスリンガルテキスト分類では、ある言語からのラベル付きデータを活用して、完全に異なる言語に適用可能なテキスト分類モデルをトレーニングしようとする。 最近の多言語表現モデルは、これを実現するのをずっと容易にした。 それでも、そうするときに無視される言語の間には、微妙な違いがあるかもしれない。 これに対処するために,ラベル保存入力摂動に対する最大損失を最小限に抑える,半教師付き逆訓練プロセスを提案する。 得られたモデルが教師として機能し、さらに敵対的な訓練に使用できるラベルのない対象言語サンプルのラベルを誘導し、段階的にターゲット言語に適応できるようにします。 様々な言語に対する文書分類や意図分類において, 高いベースラインを持つものと比較して, 有効性が著しく向上している。

In cross-lingual text classification, one seeks to exploit labeled data from one language to train a text classification model that can then be applied to a completely different language. Recent multilingual representation models have made it much easier to achieve this. Still, there may still be subtle differences between languages that are neglected when doing so. To address this, we present a semi-supervised adversarial training process that minimizes the maximal loss for label-preserving input perturbations. The resulting model then serves as a teacher to induce labels for unlabeled target language samples that can be used during further adversarial training, allowing us to gradually adapt our model to the target language. Compared with a number of strong baselines, we observe significant gains in effectiveness on document and intent classification for a diverse set of languages.
翻訳日:2022-11-05 20:19:13 公開日:2020-07-29
# 多目的組合せ最適化のためのベイズ選好推論

Bayesian preference elicitation for multiobjective combinatorial optimization ( http://arxiv.org/abs/2007.14778v1 )

ライセンス: Link先を確認
Nadjet Bourdache, Patrice Perny and Olivier Spanjaard(参考訳) 本稿では,DM(Decision Maker)のノイズ応答に対処できる新たなインクリメンタルな選好推論手法を提案する。 コントリビューションの原点は、組合せ的な選択肢の集合を含む多目的決定問題において、好ましい解を決定するためのベイズ的アプローチを提案することである。 dm の選好はパラメータが不明な集約関数によって表現され、パラメータ空間上の密度関数によってその不確実性が表現されると仮定する。 対比較クエリは、この不確実性を低減するために使用される(ベイズ修正による)。 クエリ選択戦略は、列と制約生成メソッドを必要とする変数と制約の組合せ集合を持つ混合整数線形プログラムの解に基づいている。 このアプローチの実用性を示す数値試験が提供されている。

We introduce a new incremental preference elicitation procedure able to deal with noisy responses of a Decision Maker (DM). The originality of the contribution is to propose a Bayesian approach for determining a preferred solution in a multiobjective decision problem involving a combinatorial set of alternatives. We assume that the preferences of the DM are represented by an aggregation function whose parameters are unknown and that the uncertainty about them is represented by a density function on the parameter space. Pairwise comparison queries are used to reduce this uncertainty (by Bayesian revision). The query selection strategy is based on the solution of a mixed integer linear program with a combinatorial set of variables and constraints, which requires to use columns and constraints generation methods. Numerical tests are provided to show the practicability of the approach.
翻訳日:2022-11-05 20:19:01 公開日:2020-07-29
# Chained-Tracker-- Chaining Paired Attentive Regression Results for End-to-End Joint Multiple-Object Detection and Tracking

Chained-Tracker: Chaining Paired Attentive Regression Results for End-to-End Joint Multiple-Object Detection and Tracking ( http://arxiv.org/abs/2007.14557v1 )

ライセンス: Link先を確認
Jinlong Peng, Changan Wang, Fangbin Wan, Yang Wu, Yabiao Wang, Ying Tai, Chengjie Wang, Jilin Li, Feiyue Huang, Yanwei Fu(参考訳) 既存のMultiple-Object Tracking (MOT) 手法は、オブジェクト検出、特徴抽出、データアソシエーションを別々に行うためのトラッキング・バイ・ディテクト・パラダイムに従うか、あるいは3つのサブタスクのうち2つを統合して部分的にエンドツーエンドのソリューションを形成する。 この3つのサブタスクをすべてエンドツーエンドのソリューション(私たちの知る限りでは最初のもの)に統合するシンプルなオンラインモデルであるChained-Tracker(CTracker)を提案する。 重なり合うノードから推定される、ペア境界ボックスの回帰結果をチェーンし、各ノードが隣接する2つのフレームをカバーする。 ペアレグレッションは、オブジェクトアテンション(検出モジュールで作成)とアイデンティティアテンション(ID検証モジュールで保証)によって注意される。 チェーン構造とペアの注意回帰という2つの大きな特徴により、ctrackerはシンプルで高速で効果的になり、mot16とmot17チャレンジデータセット(それぞれ67.6と66.6)に新しいmotaレコードを設定する。 CTrackerのソースコードは、github.com/pjl1995/CTrackerにある。

Existing Multiple-Object Tracking (MOT) methods either follow the tracking-by-detection paradigm to conduct object detection, feature extraction and data association separately, or have two of the three subtasks integrated to form a partially end-to-end solution. Going beyond these sub-optimal frameworks, we propose a simple online model named Chained-Tracker (CTracker), which naturally integrates all the three subtasks into an end-to-end solution (the first as far as we know). It chains paired bounding boxes regression results estimated from overlapping nodes, of which each node covers two adjacent frames. The paired regression is made attentive by object-attention (brought by a detection module) and identity-attention (ensured by an ID verification module). The two major novelties: chained structure and paired attentive regression, make CTracker simple, fast and effective, setting new MOTA records on MOT16 and MOT17 challenge datasets (67.6 and 66.6, respectively), without relying on any extra training data. The source code of CTracker can be found at: github.com/pjl1995/CTracker.
翻訳日:2022-11-05 20:18:49 公開日:2020-07-29
# サブマップと非方向連結グラフに基づくSLAMマップ復元アルゴリズム

A SLAM Map Restoration Algorithm Based on Submaps and an Undirected Connected Graph ( http://arxiv.org/abs/2007.14592v1 )

ライセンス: Link先を確認
Zongqian Zhan (1), Wenjie Jian (1), Yihui Li (1), Xin Wang (2) and Yang Yue (1) ((1) School of Geodesy and Geomatics, Wuhan University, China, (2) Leibniz University Hannover Institute of Geodesy)(参考訳) 多くの視覚的同時ローカライゼーションとマッピング(SLAM)システムは正確で堅牢であり、屋内と地上の両方のデータセット上でリアルタイムのパフォーマンス性能を持つ。 しかし,無人航空機(UAV)に搭載されたカメラで捉えたフレームの撮影には,UAVの飛行高度の制御が困難であり,環境の影響を受けやすいため,このような手法が問題となる。 トラッキングスレッドは、追跡が失われる前に、次の新しいフレームと生成されたマップの間の接続を検査することで、オンライン作業を続けます。 単眼視のSLAMに基づいて、追跡が失われた後、多くのアプリケーションにおいて欠落したマップ問題を解決するために、対応する無方向連結グラフを介してサブマップを逐次マージすることにより、UAVデータセットの完全なグローバルマップを再構築する手法を提案する。 具体的には、初期化プロセスから追跡が失われる場所まで、サブマップを繰り返し生成し、これらのサブマップをノードとして、共通のマップポイントをエッジとして、対応する無方向連結グラフを構築する。 共通のマップポイントは bag-of-words (bow) メソッドによって決定され、間接連結グラフでオンラインマップと接続されるとサブマップがマージされる。 提案手法の性能を実証するため,本研究ではuavデータセットの性能を最初に検討し,いくつかのトラッキング障害の場合,マッピングの完全性が現在の主流slam法よりも有意に良好であることを実験的に示した。

Many visual simultaneous localization and mapping (SLAM) systems have been shown to be accurate and robust, and have real-time performance capabilities on both indoor and ground datasets. However, these methods can be problematic when dealing with aerial frames captured by a camera mounted on an unmanned aerial vehicle (UAV) because the flight height of the UAV can be difficult to control and is easily affected by the environment.To cope with the case of lost tracking, many visual SLAM systems employ a relocalization strategy. This involves the tracking thread continuing the online working by inspecting the connections between the subsequent new frames and the generated map before the tracking was lost. To solve the missing map problem, which is an issue in many applications , after the tracking is lost, based on monocular visual SLAM, we present a method of reconstructing a complete global map of UAV datasets by sequentially merging the submaps via the corresponding undirected connected graph. Specifically, submaps are repeatedly generated, from the initialization process to the place where the tracking is lost, and a corresponding undirected connected graph is built by considering these submaps as nodes and the common map points within two submaps as edges. The common map points are then determined by the bag-of-words (BoW) method, and the submaps are merged if they are found to be connected with the online map in the undirect connected graph. To demonstrate the performance of the proposed method, we first investigated the performance on a UAV dataset, and the experimental results showed that, in the case of several tracking failures, the integrity of the mapping was significantly better than that of the current mainstream SLAM method.
翻訳日:2022-11-05 20:18:22 公開日:2020-07-29
# 地域標準化を用いた顔面領域の翻訳

Translate the Facial Regions You Like Using Region-Wise Normalization ( http://arxiv.org/abs/2007.14615v1 )

ライセンス: Link先を確認
Wenshuang Liu, Wenting Chen, Linlin Shen(参考訳) GAN(Generative Adversarial Networks)ベースの技術は、画像合成と顔翻訳の性能を大幅に向上させたが、地域ベースの符号化と翻訳を提供する文献は少ない。 本稿では,領域レベル顔翻訳のための領域ワイド正規化フレームワークを提案する。 リージョンごとのスタイルは利用可能なアプローチで符号化されるが、いわゆるRINブロックを構築し、リージョンごとの機能マップに個別にスタイルを注入し、畳み込みやアップサンプリングのためにそれらを融合させる。 これにより、異なる領域の形状やテクスチャを様々なターゲットスタイルに翻訳することができる。 また,翻訳過程における領域間の推論を著しく低減する領域マッチング損失も提案されている。 morph, rafd, celebamask-hqの3つの公開データセットに関する広範な実験から, stargan, sean, funitのような最先端の手法に対して,我々のアプローチは大幅に改善されていることが示唆された。 我々のアプローチは翻訳対象地域を正確に制御する上でさらに有利である。 これにより、領域レベルの表現変化とステップバイステップメイクを実現することができる。 ビデオのデモはhttps://youtu.be/cerqsbzxafkで見ることができる。

Though GAN (Generative Adversarial Networks) based technique has greatly advanced the performance of image synthesis and face translation, only few works available in literature provide region based style encoding and translation. We propose in this paper a region-wise normalization framework, for region level face translation. While per-region style is encoded using available approach, we build a so called RIN (region-wise normalization) block to individually inject the styles into per-region feature maps and then fuse them for following convolution and upsampling. Both shape and texture of different regions can thus be translated to various target styles. A region matching loss has also been proposed to significantly reduce the inference between regions during the translation process. Extensive experiments on three publicly available datasets, i.e. Morph, RaFD and CelebAMask-HQ, suggest that our approach demonstrate a large improvement over state-of-the-art methods like StarGAN, SEAN and FUNIT. Our approach has further advantages in precise control of the regions to be translated. As a result, region level expression changes and step by step make up can be achieved. The video demo is available at https://youtu.be/ceRqsbzXAfk.
翻訳日:2022-11-05 20:17:52 公開日:2020-07-29
# Music FaderNets:低レベル特徴モデリングによる高レベル特徴に基づく制御可能な音楽生成

Music FaderNets: Controllable Music Generation Based On High-Level Features via Low-Level Feature Modelling ( http://arxiv.org/abs/2007.15474v1 )

ライセンス: Link先を確認
Hao Hao Tan, Dorien Herremans(参考訳) 高レベルの音楽的性質(感情など)はしばしば抽象的で主観的であり、定量化が難しい。 これらの困難を考えると、ラベルの不足や、人間の注釈付きラベルの主観性(そしてそれゆえ大きなばらつき)のため、教師付き学習技術で良い特徴表現を学ぶことは容易ではない。 本稿では,まず,数量化可能な低レベル属性をモデル化することで,限られたデータ量で高レベルな特徴表現を学習できるフレームワークを提案する。 提案するフレームワークを Music FaderNets と呼び,低レベル属性を特徴不整合と潜時正規化技術により分離した「滑りフェーダ」で連続的に操作できることに着想を得た。 ハイレベルな特徴は、ガウス混合変分オートエンコーダ(gm-vaes)を用いた半教師付きクラスタリングを通じて低レベル表現から推測される。 Arousal を高次特徴の例として用いて、我々のモデルの「ファダーズ」はアンタングル化され、線形に変化し、生成された出力音楽の低次特性をモデル化する。 さらに,本モデルでは,覚醒と対応する低レベル属性(リズムと音符密度)の固有関係を学習し,トレーニングセットの1%がラベル付けされていることを実証した。 最後に、学習された高レベルな特徴表現を用いて、様々な覚醒状態におけるスタイル転送タスクにおける我々のフレームワークの応用について検討する。 本手法の有効性は主観的聴取テストによって検証される。

High-level musical qualities (such as emotion) are often abstract, subjective, and hard to quantify. Given these difficulties, it is not easy to learn good feature representations with supervised learning techniques, either because of the insufficiency of labels, or the subjectiveness (and hence large variance) in human-annotated labels. In this paper, we present a framework that can learn high-level feature representations with a limited amount of data, by first modelling their corresponding quantifiable low-level attributes. We refer to our proposed framework as Music FaderNets, which is inspired by the fact that low-level attributes can be continuously manipulated by separate "sliding faders" through feature disentanglement and latent regularization techniques. High-level features are then inferred from the low-level representations through semi-supervised clustering using Gaussian Mixture Variational Autoencoders (GM-VAEs). Using arousal as an example of a high-level feature, we show that the "faders" of our model are disentangled and change linearly w.r.t. the modelled low-level attributes of the generated output music. Furthermore, we demonstrate that the model successfully learns the intrinsic relationship between arousal and its corresponding low-level attributes (rhythm and note density), with only 1% of the training set being labelled. Finally, using the learnt high-level feature representations, we explore the application of our framework in style transfer tasks across different arousal states. The effectiveness of this approach is verified through a subjective listening test.
翻訳日:2022-11-05 20:11:55 公開日:2020-07-29
# 低複雑性CNNを用いた空間分解能適応映像圧縮

Video compression with low complexity CNN-based spatial resolution adaptation ( http://arxiv.org/abs/2007.14726v1 )

ライセンス: Link先を確認
Di Ma, Fan Zhang and David R. Bull(参考訳) 近年,デコーダでの符号化と超解像の前に,空間分解能適応をビデオ圧縮に組み込むことで,全体の符号化性能を向上させることが実証されている。 畳み込みニューラルネットワーク(convolutional neural networks, convolutional neural networks, cnns)は、解像度アップサンプリングを行うために使用される。 しかし、このアプローチはcnnベースのスーパーレゾリューションの雇用のためにデコーダでは高い複雑さに苦しむ。 本稿では,エンコーダとデコーダ間の複雑性の柔軟な割り当てを支援する新しいフレームワークを提案する。 このアプローチでは、エンコーダでのビデオダウンサンプリングにcnnモデルを使用し、lanczos3フィルタを使用してデコーダの完全な解像度を再構築する。 提案手法はHEVC HM 16.20ソフトウェアに統合され、全内部構成を用いてJVET UHDテストシーケンスで評価された。 実験の結果,従来のhevc hmに比べてビットレートが10%以上削減され,エンコーダ(29%)とデコーダ(10%)の両方での計算複雑性が低下する可能性が示された。

It has recently been demonstrated that spatial resolution adaptation can be integrated within video compression to improve overall coding performance by spatially down-sampling before encoding and super-resolving at the decoder. Significant improvements have been reported when convolutional neural networks (CNNs) were used to perform the resolution up-sampling. However, this approach suffers from high complexity at the decoder due to the employment of CNN-based super-resolution. In this paper, a novel framework is proposed which supports the flexible allocation of complexity between the encoder and decoder. This approach employs a CNN model for video down-sampling at the encoder and uses a Lanczos3 filter to reconstruct full resolution at the decoder. The proposed method was integrated into the HEVC HM 16.20 software and evaluated on JVET UHD test sequences using the All Intra configuration. The experimental results demonstrate the potential of the proposed approach, with significant bitrate savings (more than 10%) over the original HEVC HM, coupled with reduced computational complexity at both encoder (29%) and decoder (10%).
翻訳日:2022-11-05 20:10:40 公開日:2020-07-29
# コミューンティ:結束した社会コミュニティの予測のための深層学習システム

CommuNety: A Deep Learning System for the Prediction of Cohesive Social Communities ( http://arxiv.org/abs/2007.14741v1 )

ライセンス: Link先を確認
Syed Afaq Ali Shah, Weifeng Deng, Jianxin Li, Muhammad Aamir Cheema, Abdul Bais(参考訳) 多数のユーザーからなるソーシャルメディアの効果的なマイニングは難しい課題だ。 従来のアプローチは、このタスクを達成するために、ユーザに関連するテキストデータの解析に依存している。 しかしテキストデータには、ソーシャルユーザとその関連グループに関する重要な情報がない。 本稿では,画像を用いた結束型ソーシャルネットワーク予測のための深層学習システムであるCommuNetyを提案する。 提案するディープラーニングモデルは階層型cnnアーキテクチャで構成され,各凝集ネットワークに関する記述的特徴を学習する。 また,画像中の人物の存在を定量化する新しい顔共起頻度アルゴリズムと,予測したソーシャルネットワークにおける個人間の関係の強さを分析する新しい写真ランキング法を提案する。 提案手法をPIPAデータセット上で広範囲に評価し,最先端手法との比較を行った。 実験により,異なる個人間の関係の予測とコミュニティの結束性について,提案手法の優れた性能を示す。

Effective mining of social media, which consists of a large number of users is a challenging task. Traditional approaches rely on the analysis of text data related to users to accomplish this task. However, text data lacks significant information about the social users and their associated groups. In this paper, we propose CommuNety, a deep learning system for the prediction of cohesive social networks using images. The proposed deep learning model consists of hierarchical CNN architecture to learn descriptive features related to each cohesive network. The paper also proposes a novel Face Co-occurrence Frequency algorithm to quantify existence of people in images, and a novel photo ranking method to analyze the strength of relationship between different individuals in a predicted social network. We extensively evaluate the proposed technique on PIPA dataset and compare with state-of-the-art methods. Our experimental results demonstrate the superior performance of the proposed technique for the prediction of relationship between different individuals and the cohesiveness of communities.
翻訳日:2022-11-05 20:09:51 公開日:2020-07-29
# PDCOVIDNet:胸部X線画像から新型コロナウイルスを検出する並列拡散畳み込みニューラルネットワークアーキテクチャ

PDCOVIDNet: A Parallel-Dilated Convolutional Neural Network Architecture for Detecting COVID-19 from Chest X-Ray Images ( http://arxiv.org/abs/2007.14777v1 )

ライセンス: Link先を確認
Nihad Karim Chowdhury, Md. Muhtadir Rahman, Muhammad Ashad Kabir(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、世界保健システムの繁栄を著しく損ない続けている。 このパンデミックに対処するには、感染した患者の効果的なスクリーニング技術が不可欠である。 胸部X線画像による放射線学的評価が重要なスクリーニング手法であることは間違いない。 初期の研究では、患者の胸部X線像が異常を示しており、COVID-19に感染した患者には自然なことが判明した。 本稿では,胸部x線画像からcnn(parallel-dilated convolutional neural network)ベースのcovidnet(pdcovidnet)と呼ばれる検出システムを提案する。 まず, 市販の胸部X線収集装置をプリロードし, 拡張し, 提案手法により分類した。 並行型の拡散拡散速度は、PDCOVIDNetを用いて新型コロナウイルス検出のための放射線学的特徴を抽出する原理の証明を示す。 そこで我々は,新型コロナウイルス感染に関連する重要な構成要素の理解を深めるための2つの可視化手法を用いて,本手法を支援した。 どちらの可視化手法も、最終畳み込み層の特徴マップに関連する所定の画像カテゴリの勾配を計算し、クラス判別領域を作成する。 実験では,2,905個の胸部x線像を用いて3例(covid-19,正常,ウイルス性肺炎など)を観察し,本手法が疑われる疾患に関連するより重要な特徴を抽出したことを確認した。 実験の結果,提案手法は精度,精度,リコール,F1のスコアが96.58%,96.58%,96.59%,96.58%,そして96.58%に向上した。

The COVID-19 pandemic continues to severely undermine the prosperity of the global health system. To combat this pandemic, effective screening techniques for infected patients are indispensable. There is no doubt that the use of chest X-ray images for radiological assessment is one of the essential screening techniques. Some of the early studies revealed that the patient's chest X-ray images showed abnormalities, which is natural for patients infected with COVID-19. In this paper, we proposed a parallel-dilated convolutional neural network (CNN) based COVID-19 detection system from chest x-ray images, named as Parallel-Dilated COVIDNet (PDCOVIDNet). First, the publicly available chest X-ray collection fully preloaded and enhanced, and then classified by the proposed method. Differing convolution dilation rate in a parallel form demonstrates the proof-of-principle for using PDCOVIDNet to extract radiological features for COVID-19 detection. Accordingly, we have assisted our method with two visualization methods, which are specifically designed to increase understanding of the key components associated with COVID-19 infection. Both visualization methods compute gradients for a given image category related to feature maps of the last convolutional layer to create a class-discriminative region. In our experiment, we used a total of 2,905 chest X-ray images, comprising three cases (such as COVID-19, normal, and viral pneumonia), and empirical evaluations revealed that the proposed method extracted more significant features expeditiously related to the suspected disease. The experimental results demonstrate that our proposed method significantly improves performance metrics: accuracy, precision, recall, and F1 scores reach 96.58%, 96.58%, 96.59%, and 96.58%, respectively, which is comparable or enhanced compared with the state-of-the-art methods.
翻訳日:2022-11-05 20:09:39 公開日:2020-07-29
# グラフのコード要求の視覚的な仕様化

Advancing Visual Specification of Code Requirements for Graphs ( http://arxiv.org/abs/2007.14958v1 )

ライセンス: Link先を確認
Dewi Yokelson(参考訳) 人文科学の研究者たちは現在、ビッグデータの世界を探索している。 彼らは、pythonやrなどのプログラミング言語と対応するライブラリを使用して、大きなデータセットを操作し、まったく新しい洞察を見つけ始めている。 現存する大きなハードルのひとつは、これらのデータの視覚化をプロジェクトに取り込むことだ。 フォーマルなトレーニングを受けた人たちでさえ、ビジュアライゼーションライブラリの使い方を学ぶのは難しいでしょう。 しかしこれらの視覚化は、他の研究者だけでなく一般大衆にもテーマを認識し、結果を伝達するためにも不可欠である。 本稿では,機械学習を用いた有意義なデータの可視化に焦点をあてる。 ユーザーがコード要件を視覚的に指定することで、人文科学研究者が視覚化をプログラムする方法を学ぶための障壁を低くすることができる。 ニューラルネットワークと光学キャラクタ認識を組み合わせたハイブリッドモデルを用いて,可視化のためのコードを生成する。

Researchers in the humanities are among the many who are now exploring the world of big data. They have begun to use programming languages like Python or R and their corresponding libraries to manipulate large data sets and discover brand new insights. One of the major hurdles that still exists is incorporating visualizations of this data into their projects. Visualization libraries can be difficult to learn how to use, even for those with formal training. Yet these visualizations are crucial for recognizing themes and communicating results to not only other researchers, but also the general public. This paper focuses on producing meaningful visualizations of data using machine learning. We allow the user to visually specify their code requirements in order to lower the barrier for humanities researchers to learn how to program visualizations. We use a hybrid model, combining a neural network and optical character recognition to generate the code to create the visualization.
翻訳日:2022-11-05 20:08:56 公開日:2020-07-29
# 感情追跡:多レベル予測誤差ダイナミクスに基づく本質的動機付け

Tracking Emotions: Intrinsic Motivation Grounded on Multi-Level Prediction Error Dynamics ( http://arxiv.org/abs/2007.14632v1 )

ライセンス: Link先を確認
Guido Schillaci and Alejandra Ciria and Bruno Lara(参考訳) 認知エージェントは、学習すべき情報と、この知識を得るための目標をどのように選択するかを決定するのか? 認知エージェントは、あらゆる行動を実行する動機付けが必要である。 目標達成に向けての進捗率と期待率の差が生じると感情が生じることを議論する。 したがって、予測誤差のダイナミクスの追跡は感情と密接な関係がある。 本稿では, 予測エラーダイナミクスの追跡により, 新たな体験を求めることができるが, 再現可能な予測エラーを発生させる要因に制約され, 予測エラーダイナミクスの多段階監視を通じて, 目標選択と活用と探索のバランスを調節する本質的なモチベーションアーキテクチャを提案する。 この新しいアーキテクチャは探索ノイズを変調し、学習システム全体のパフォーマンスのダイナミクスに応じて計算資源を活用する。 さらに、ゴール選択の時間的ダイナミクスに対する可能な解決策を確立する。 実験の結果,本アーキテクチャは探索ノイズや目標が固定され,欲求戦略が適用されるという本質的な動機づけアプローチよりも優れていたことが示唆された。

How do cognitive agents decide what is the relevant information to learn and how goals are selected to gain this knowledge? Cognitive agents need to be motivated to perform any action. We discuss that emotions arise when differences between expected and actual rates of progress towards a goal are experienced. Therefore, the tracking of prediction error dynamics has a tight relationship with emotions. Here, we suggest that the tracking of prediction error dynamics allows an artificial agent to be intrinsically motivated to seek new experiences but constrained to those that generate reducible prediction error.We present an intrinsic motivation architecture that generates behaviors towards self-generated and dynamic goals and that regulates goal selection and the balance between exploitation and exploration through multi-level monitoring of prediction error dynamics. This new architecture modulates exploration noise and leverages computational resources according to the dynamics of the overall performance of the learning system. Additionally, it establishes a possible solution to the temporal dynamics of goal selection. The results of the experiments presented here suggest that this architecture outperforms intrinsic motivation approaches where exploratory noise and goals are fixed and a greedy strategy is applied.
翻訳日:2022-11-05 20:02:25 公開日:2020-07-29
# 確率論的学習手法と確率的判断をグラフ理論で結びつける

Connecting actuarial judgment to probabilistic learning techniques with graph theory ( http://arxiv.org/abs/2007.15475v1 )

ライセンス: Link先を確認
Roland R. Ramsahai(参考訳) グラフィックモデルは、医療専門家システムから自然言語処理まで幅広い用途で使われている。 それらの人気は、高次元モデルにおいて計算集約的な推論を行うための効率的なアルゴリズムを持つ変数間の複雑な相互依存の直感的な表現であるからである。 フォーマリズムは、非生命保険請求データのモデリングにおける応用に非常に有用である、と論じられている。 また, この手法の利点を活かすために, 現在のアクチュアリモデルを用いてグラフィカルに表現できることが示されている。 テレマティクスやその他の動的アクチュエーターデータを用いた確率的学習のためのグラフィカルモデルの可能性を示すため、フレームワーク内でより一般的なモデルが提案されている。 この議論は、モデルの直感的な性質が分析に質的知識や時間的判断を取り入れることを可能にすることも示している。

Graphical models have been widely used in applications ranging from medical expert systems to natural language processing. Their popularity partly arises since they are intuitive representations of complex inter-dependencies among variables with efficient algorithms for performing computationally intensive inference in high-dimensional models. It is argued that the formalism is very useful for applications in the modelling of non-life insurance claims data. It is also shown that actuarial models in current practice can be expressed graphically to exploit the advantages of the approach. More general models are proposed within the framework to demonstrate the potential use of graphical models for probabilistic learning with telematics and other dynamic actuarial data. The discussion also demonstrates throughout that the intuitive nature of the models allows the inclusion of qualitative knowledge or actuarial judgment in analyses.
翻訳日:2022-11-05 20:01:46 公開日:2020-07-29
# 制約付きマルチアームバンド問題に対する指数に基づく決定論的漸近的最適アルゴリズム

An Index-based Deterministic Asymptotically Optimal Algorithm for Constrained Multi-armed Bandit Problems ( http://arxiv.org/abs/2007.14550v1 )

ライセンス: Link先を確認
Hyeong Soo Chang(参考訳) 制約付き多腕バンディットのモデルについて,構成上,指数に基づく決定論的漸近的最適アルゴリズムが存在することを示す。 最適性は、最適実現可能なアームを無限の地平線上で選択する確率の収束によって達成される。 このアルゴリズムはlocationlli et al.の"anytime parameter-free thresholding"アルゴリズムに基づいており、最適値が知られていると仮定している。 我々は、T が地平線の大きさであり、A がバンドイットの腕の集合であるような 1-O(|A|Te^{-T}) として与えられる漸近最適性の確率に制限される有限時間を与える。 次に, 最適値を推定する一般形式におけるアルゴリズムの緩和変換を考察し, 十分大きな t を例とした後のアルゴリズムの漸近的最適性について論じる。

For the model of constrained multi-armed bandit, we show that by construction there exists an index-based deterministic asymptotically optimal algorithm. The optimality is achieved by the convergence of the probability of choosing an optimal feasible arm to one over infinite horizon. The algorithm is built upon Locatelli et al.'s "anytime parameter-free thresholding" algorithm under the assumption that the optimal value is known. We provide a finite-time bound to the probability of the asymptotic optimality given as 1-O(|A|Te^{-T}) where T is the horizon size and A is the set of the arms in the bandit. We then study a relaxed-version of the algorithm in a general form that estimates the optimal value and discuss the asymptotic optimality of the algorithm after a sufficiently large T with examples.
翻訳日:2022-11-05 20:01:31 公開日:2020-07-29
# Von Neumann-Algebra-Valuedのカーネル平均埋め込み

Kernel Mean Embeddings of Von Neumann-Algebra-Valued Measures ( http://arxiv.org/abs/2007.14698v1 )

ライセンス: Link先を確認
Yuka Hashimoto, Isao Ishikawa, Masahiro Ikeda, Fuyuta Komura, Yoshinobu Kawahara(参考訳) カーネル平均埋め込み(英: Kernel mean embedded, KME)は、データに対する確率測度を分析する強力なツールである。 本稿では、kmeをフォン・ノイマン・アルゲブラ値測度(英語版)(von neumann-algebra-valued measures)の内部積と距離を提供する核ヒルベルト加群(英語版)(rkhms)に一般化する。 Von Neumann-algebra-valued measure は、例えば、多変量分布における変数の任意のペア間の関係や、量子力学に対する正の作用素値測度を符号化することができる。 これにより、変数間の高次相互作用を明示的に反映した確率論的解析を行い、量子力学の問題に機械学習フレームワークを適用する方法を提供する。 また,既存のKMEのインジェクティビティとRKHSの普遍性がRKHMに一般化されることを示し,既存のKMEの多くの有用な特徴が一般化KMEに残っていることを確認した。 そして,本手法の実証的性能について,実世界の合成データを用いて検討した。

Kernel mean embedding (KME) is a powerful tool to analyze probability measures for data, where the measures are conventionally embedded into a reproducing kernel Hilbert space (RKHS). In this paper, we generalize KME to that of von Neumann-algebra-valued measures into reproducing kernel Hilbert modules (RKHMs), which provides an inner product and distance between von Neumann-algebra-valued measures. Von Neumann-algebra-valued measures can, for example, encode relations between arbitrary pairs of variables in a multivariate distribution or positive operator-valued measures for quantum mechanics. Thus, this allows us to perform probabilistic analyses explicitly reflected with higher-order interactions among variables, and provides a way of applying machine learning frameworks to problems in quantum mechanics. We also show that the injectivity of the existing KME and the universality of RKHS are generalized to RKHM, which confirms many useful features of the existing KME remain in our generalized KME. And, we investigate the empirical performance of our methods using synthetic and real-world data.
翻訳日:2022-11-05 20:01:07 公開日:2020-07-29
# 非正規化変分ベイズ

Unnormalized Variational Bayes ( http://arxiv.org/abs/2007.15130v1 )

ライセンス: Link先を確認
Saeed Saremi(参考訳) 非正規化密度を近似するために経験ベイと変分ベイを統一する。 非正規化された変分ベイズ (UVB) という名前のこのフレームワークは、確率変数 $Y=X+N(0,\sigma^2 I_d)$ の潜在変数モデルを定式化し、変分オートエンコーダによって計算されたエビデンスローバウンダ (ELBO) を用いて、Y$のエネルギー関数のパラメトリゼーションを行い、経験的ベイズ最小二乗推定器で$X$を推定する。 この興味深い設定では、ノイズ入力に対するELBOの$\textit{gradient}$がエネルギー関数の学習において中心的な役割を果たす。 実験的に、UVBは神経経験的ベイズ(DEEN)で実施したMPPによるパラメトリゼーションよりもエネルギー関数を近似する能力が高いことを示した。 特に$\sigma=1$では,UVBとDEENの違いが視覚的かつ質的になる。 この高レベルのノイズに対して、$Y$の分布は非常にスムーズであり、高速混合のLangevin MCMCサンプルラを使って、様々なスタイルのMNISTクラスを再起動することなく、シングルランで$-$でトラバースできることを示します。 トレーニングされたモデルのエンコーダ/デコーダを探索し、UVB $\neq$ VAEを確認する。

We unify empirical Bayes and variational Bayes for approximating unnormalized densities. This framework, named unnormalized variational Bayes (UVB), is based on formulating a latent variable model for the random variable $Y=X+N(0,\sigma^2 I_d)$ and using the evidence lower bound (ELBO), computed by a variational autoencoder, as a parametrization of the energy function of $Y$ which is then used to estimate $X$ with the empirical Bayes least-squares estimator. In this intriguing setup, the $\textit{gradient}$ of the ELBO with respect to noisy inputs plays the central role in learning the energy function. Empirically, we demonstrate that UVB has a higher capacity to approximate energy functions than the parametrization with MLPs as done in neural empirical Bayes (DEEN). We especially showcase $\sigma=1$, where the differences between UVB and DEEN become visible and qualitative in the denoising experiments. For this high level of noise, the distribution of $Y$ is very smoothed and we demonstrate that one can traverse in a single run $-$ without a restart $-$ all MNIST classes in a variety of styles via walk-jump sampling with a fast-mixing Langevin MCMC sampler. We finish by probing the encoder/decoder of the trained models and confirm UVB $\neq$ VAE.
翻訳日:2022-11-05 19:54:35 公開日:2020-07-29
# 比較と選択:マルチエージェント強化学習によるビデオ要約

Compare and Select: Video Summarization with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2007.14552v1 )

ライセンス: Link先を確認
Tianyu Liu(参考訳) ビデオ要約は、長いビデオから簡潔なビデオ要約を生成し、より良いユーザー視聴体験を実現することを目的としている。 主観性のため、ビデオ要約のための純粋に教師付き手法はアノテーションから固有の誤りをもたらす可能性がある。 主観性問題を解決するために,一般ユーザ要約プロセスについて検討する。 一般ユーザーは、通常ビデオ全体を見て、面白いクリップを比較し、いくつかのクリップを選択して最終的な要約を作る。 一般ユーザ行動に触発されて,複数の逐次意思決定プロセスとして要約プロセスを定式化し,マルチエージェント強化学習に基づく比較選択ネットワーク(cosnet)を提案する。 各エージェントはビデオクリップに集中し、イテレーション中のフォーカスを常に変更し、すべてのエージェントの最終フォーカスクリップが要約を形成する。 比較ネットワークは、エージェントに、クリップからの視覚的特徴と過去のラウンドからの時系列的特徴を提供する一方、エージェントの選択ネットワークはそのフォーカスクリップの変更について決定を行う。 特別に設計された無監督報酬と監督報酬は、それぞれ地域とグローバルの部分を含む政策の進展に寄与する。 2つのベンチマークデータセットの大規模な実験により、CoSNetは教師なし報酬で最先端の教師なしメソッドを上回り、完全な報酬でほとんどの教師なしメソッドを上回ります。

Video summarization aims at generating concise video summaries from the lengthy videos, to achieve better user watching experience. Due to the subjectivity, purely supervised methods for video summarization may bring the inherent errors from the annotations. To solve the subjectivity problem, we study the general user summarization process. General users usually watch the whole video, compare interesting clips and select some clips to form a final summary. Inspired by the general user behaviours, we formulate the summarization process as multiple sequential decision-making processes, and propose Comparison-Selection Network (CoSNet) based on multi-agent reinforcement learning. Each agent focuses on a video clip and constantly changes its focus during the iterations, and the final focus clips of all agents form the summary. The comparison network provides the agent with the visual feature from clips and the chronological feature from the past round, while the selection network of the agent makes decisions on the change of its focus clip. The specially designed unsupervised reward and supervised reward together contribute to the policy advancement, each containing local and global parts. Extensive experiments on two benchmark datasets show that CoSNet outperforms state-of-the-art unsupervised methods with the unsupervised reward and surpasses most supervised methods with the complete reward.
翻訳日:2022-11-05 19:52:43 公開日:2020-07-29
# 糖尿病網膜症診断と不確実性定量化のためのハイブリッドディープラーニングガウスプロセス

Hybrid Deep Learning Gaussian Process for Diabetic Retinopathy Diagnosis and Uncertainty Quantification ( http://arxiv.org/abs/2007.14994v1 )

ライセンス: Link先を確認
Santiago Toledo-Cort\'es, Melissa De La Pava, Oscar Perd\'omo, and Fabio A. Gonz\'alez(参考訳) 糖尿病網膜症(英: Diabetic Retinopathy, DR)は、糖尿病の微小血管合併症の1つである。 畳み込みニューラルネットワークに基づく計算モデルは、眼底画像を用いたdrの自動検出のための技術状態を表す。 現在の作業のほとんどは、この問題をバイナリ分類タスクとして扱っている。 しかし、予測のグレード推定と定量化を含む不確実性は、モデルの堅牢性を高める可能性がある。 本稿では,dr診断と不確実性定量化のためのハイブリッド深層学習・ゲージ処理法を提案する。 この方法は、ディープラーニングの表現力と、ガウス過程モデルの小さなデータセットから一般化する能力を組み合わせる。 その結果,予測の不確実性定量化は診断支援ツールとしての手法の解釈可能性を向上させることが示された。 実験を再現するソースコードはhttps://github.com/stoledoc/DLGP-DR-Diagnosisで公開されている。

Diabetic Retinopathy (DR) is one of the microvascular complications of Diabetes Mellitus, which remains as one of the leading causes of blindness worldwide. Computational models based on Convolutional Neural Networks represent the state of the art for the automatic detection of DR using eye fundus images. Most of the current work address this problem as a binary classification task. However, including the grade estimation and quantification of predictions uncertainty can potentially increase the robustness of the model. In this paper, a hybrid Deep Learning-Gaussian process method for DR diagnosis and uncertainty quantification is presented. This method combines the representational power of deep learning, with the ability to generalize from small datasets of Gaussian process models. The results show that uncertainty quantification in the predictions improves the interpretability of the method as a diagnostic support tool. The source code to replicate the experiments is publicly available at https://github.com/stoledoc/DLGP-DR-Diagnosis.
翻訳日:2022-11-05 19:52:22 公開日:2020-07-29
# ディープニューラルネットワークによる完全動的推論

Fully Dynamic Inference with Deep Neural Networks ( http://arxiv.org/abs/2007.15151v1 )

ライセンス: Link先を確認
Wenhan Xia, Hongxu Yin, Xiaoliang Dai, Niraj K. Jha(参考訳) 現代のディープニューラルネットワークは、マルチレベル抽象化を通じてタスク関連情報を抽出する、強力で広く適用可能なモデルである。 しかし、クロスドメインの成功は計算コスト、高メモリ帯域幅、長期の推論遅延を犠牲にして達成されることが多く、エッジサイド推論や自動運転車のようなリソース制約のある時間に敏感なシナリオでの展開を妨げる。 近年,高効率深層ニューラルネットワーク構築のための手法が開発され,モデルサイズを削減して実世界の展開が実現可能になっているが,計算効率とタスク精度を最大化するために,入力特性をインテンス単位で完全に活用していない。 特に、既存のほとんどのメソッドでは、全ての入力を同一に処理するワンサイズ・オールアプローチが一般的である。 異なる画像に異なる特徴埋め込みを正しく分類する必要があるという事実に動機づけられ、階層的推論ダイナミクスを備えた深い畳み込みニューラルネットワークと、個々の畳み込みフィルタ/チャネルを付与する完全にダイナミックなパラダイムを提案する。 Layer-Net(L-Net)とChannel-Net(C-Net)と呼ばれる2つのコンパクトネットワークは、どのレイヤやフィルタ/チャネルが冗長であるかをインスタンス毎に予測する。 L-NetとC-Netは、タスク精度を最大化するために保持された計算出力をスケールする方法を学ぶ。 L-NetとC-NetをLC-Netと呼ばれる共同設計フレームワークに統合することにより、効率と分類精度の両面で最先端の動的フレームワークを一貫して上回ります。 CIFAR-10データセットでは、LC-Netは最大11.9$\times$より少ない浮動小数点演算(FLOP)と、他の動的推論手法と比較して最大3.3%高い精度が得られる。 ImageNetデータセットでは、LC-Netは最大1.4$\times$ FLOPsを減らし、Top-1の精度は他の方法よりも4.6%高い。

Modern deep neural networks are powerful and widely applicable models that extract task-relevant information through multi-level abstraction. Their cross-domain success, however, is often achieved at the expense of computational cost, high memory bandwidth, and long inference latency, which prevents their deployment in resource-constrained and time-sensitive scenarios, such as edge-side inference and self-driving cars. While recently developed methods for creating efficient deep neural networks are making their real-world deployment more feasible by reducing model size, they do not fully exploit input properties on a per-instance basis to maximize computational efficiency and task accuracy. In particular, most existing methods typically use a one-size-fits-all approach that identically processes all inputs. Motivated by the fact that different images require different feature embeddings to be accurately classified, we propose a fully dynamic paradigm that imparts deep convolutional neural networks with hierarchical inference dynamics at the level of layers and individual convolutional filters/channels. Two compact networks, called Layer-Net (L-Net) and Channel-Net (C-Net), predict on a per-instance basis which layers or filters/channels are redundant and therefore should be skipped. L-Net and C-Net also learn how to scale retained computation outputs to maximize task accuracy. By integrating L-Net and C-Net into a joint design framework, called LC-Net, we consistently outperform state-of-the-art dynamic frameworks with respect to both efficiency and classification accuracy. On the CIFAR-10 dataset, LC-Net results in up to 11.9$\times$ fewer floating-point operations (FLOPs) and up to 3.3% higher accuracy compared to other dynamic inference methods. On the ImageNet dataset, LC-Net achieves up to 1.4$\times$ fewer FLOPs and up to 4.6% higher Top-1 accuracy than the other methods.
翻訳日:2022-11-05 19:51:53 公開日:2020-07-29
# 二次代入問題に対するメタヒューリスティックアルゴリズムの性能解析

Performance Analysis of Meta-heuristic Algorithms for a Quadratic Assignment Problem ( http://arxiv.org/abs/2007.14885v1 )

ライセンス: Link先を確認
Zohreh Raziei, Reza Tavakkoli-Moghaddam, Siavash Tabrizian(参考訳) 二次代入問題(英: quadratic assignment problem、qap)は、np-ハードのクラスに属する組合せ最適化問題である。 したがって、小さな例であっても多項式時間で解くことは困難である。 そこでQAPの研究は,この問題を克服する手法の獲得に重点を置いている。 ヒューリスティックスとメタヒューリスティックスアルゴリズムはこの問題の一般的な解法である。 本稿では,QAPの解法に異なるメタヒューリスティックアルゴリズムを適用するための比較研究の1つである。 メタヒューリスティックアルゴリズムを分類する最も一般的なアプローチの1つは,(1)局所検索改善メタヒューリスティックス,(2)グローバル検索ベースメタヒューリスティックスなどの検索戦略に基づいている。 遺伝的アルゴリズム(ga)、粒子群最適化(pso)、ハイブリッドga-pso(ga-pso)、grey wolf optimization(gwo)、harmony search algorithm(has)、simed annealing(sa)からなるメタヒューリスティックスによる局所的および大域的探索(eaとsiの両方)の比較性能である。 また、改良ヒューリスティックアルゴリズム(すなわち2-Opt)を他のアルゴリズムと比較する。 PSO, GWO, 2-Opt のアルゴリズムを改良し, 評価のための他のアルゴリズムと比較した。 これらのアルゴリズムの利点を解析するために、8つの異なる要因が提示される。 これらの要因をすべて考慮し、テストは異なるサイズのQAPライブラリ(QAPLIB)の6つのテスト問題で実施される。 この論文のもう1つの貢献は、各アルゴリズムの強い収束条件を新しい方法で測定することである。

A quadratic assignment problem (QAP) is a combinatorial optimization problem that belongs to the class of NP-hard ones. So, it is difficult to solve in the polynomial time even for small instances. Research on the QAP has thus focused on obtaining a method to overcome this problem. Heuristics and meta-heuristics algorithm are prevalent solution methods for this problem. This paper is one of comparative studies to apply different metaheuristic algorithms for solving the QAP. One of the most popular approaches for categorizing meta-heuristic algorithms is based on a search strategy, including (1) local search improvement meta-heuristics and (2) global search-based meta-heuristics. The matter that distinguishes this paper from the other is the comparative performance of local and global search (both EA and SI), in which meta-heuristics that consist of genetic algorithm (GA), particle swarm optimization (PSO), hybrid GA-PSO, grey wolf optimization (GWO), harmony search algorithm (HAS) and simulated annealing (SA). Also, one improvement heuristic algorithm (ie, 2-Opt) is used to compare with others. The PSO, GWO and 2-Opt algorithms are improved to achieve the better comparison toward the other algorithms for evaluation. In order to analysis the comparative advantage of these algorithms, eight different factors are presented. By taking into account all these factors, the test is implemented in six test problems of the QAP Library (QAPLIB) from different sizes. Another contribution of this paper is to measure a strong convergence condition for each algorithm in a new way.
翻訳日:2022-11-05 19:50:59 公開日:2020-07-29
# 人工知能を用いたクレジットカード取引における不正検出手法

Approaches to Fraud Detection on Credit Card Transactions Using Artificial Intelligence Methods ( http://arxiv.org/abs/2007.14622v1 )

ライセンス: Link先を確認
Yusuf Yazici(参考訳) クレジットカード詐欺は世界のほぼすべての産業で進行中の問題であり、毎年何百万ドルもの資金を世界経済に投入している。 そのため、業界ではこうした不正行為を検出するために、完成または進行中の研究が数多く行われている。 これらの研究は一般的にルールベースまたは新しい人工知能アプローチを使用して、適切なソリューションを見つける。 本論文の最終的な目標は,人工知能と機械学習技術を用いた不正検出に対する最先端のアプローチを要約することである。 要約しながら、不均衡データセット、リアルタイム作業シナリオ、ほぼすべての研究が直面する機能工学的課題などの一般的な問題を分類し、それらを解決する一般的なアプローチを特定します。 不均衡なデータセット問題は、不正取引の回数が不正取引よりもはるかに多いのに対して、適切な特徴工学を適用することは、業界から得られる特徴が限られており、特徴工学の手法を適用してデータセットを改革することが重要であるためである。 また、限られた期間におけるクレジットカード取引の回数が非常に多いため、リアルタイムシナリオへの検知システムの適用も課題である。 さらに,各研究において評価指標と機械学習手法の差異について検討する。

Credit card fraud is an ongoing problem for almost all industries in the world, and it raises millions of dollars to the global economy each year. Therefore, there is a number of research either completed or proceeding in order to detect these kinds of frauds in the industry. These researches generally use rule-based or novel artificial intelligence approaches to find eligible solutions. The ultimate goal of this paper is to summarize state-of-the-art approaches to fraud detection using artificial intelligence and machine learning techniques. While summarizing, we will categorize the common problems such as imbalanced dataset, real time working scenarios, and feature engineering challenges that almost all research works encounter, and identify general approaches to solve them. The imbalanced dataset problem occurs because the number of legitimate transactions is much higher than the fraudulent ones whereas applying the right feature engineering is substantial as the features obtained from the industries are limited, and applying feature engineering methods and reforming the dataset is crucial. Also, adapting the detection system to real time scenarios is a challenge since the number of credit card transactions in a limited time period is very high. In addition, we will discuss how evaluation metrics and machine learning methods differentiate among each research.
翻訳日:2022-11-05 19:44:47 公開日:2020-07-29
# 潜在分布学習を用いた最適輸送ganの一般化特性

Generalization Properties of Optimal Transport GANs with Latent Distribution Learning ( http://arxiv.org/abs/2007.14641v1 )

ライセンス: Link先を確認
Giulia Luise, Massimiliano Pontil and Carlo Ciliberto(参考訳) Generative Adversarial Networks (GAN) フレームワークは、確率マッチングと現実的なサンプル生成のための確立されたパラダイムである。 近年、これらのモデルの理論的性質の研究に注目が集まっているが、主要なビルディングブロックの完全な理論的理解はいまだに欠けている。 本研究は, 識別器として最適輸送指標を用いた生成モデルに着目し, 潜在分布とプッシュフォワードマップ(ジェネレータ)の複雑さの相互作用が, 統計的およびモデリング的視点からの性能に与える影響について検討する。 本分析により,我々は,GANパラダイム内での潜伏分布とプッシュフォワードマップの学習を提唱した。 これはサンプルの複雑さの点で大きな利点をもたらすことを証明します。

The Generative Adversarial Networks (GAN) framework is a well-established paradigm for probability matching and realistic sample generation. While recent attention has been devoted to studying the theoretical properties of such models, a full theoretical understanding of the main building blocks is still missing. Focusing on generative models with Optimal Transport metrics as discriminators, in this work we study how the interplay between the latent distribution and the complexity of the pushforward map (generator) affects performance, from both statistical and modelling perspectives. Motivated by our analysis, we advocate learning the latent distribution as well as the pushforward map within the GAN paradigm. We prove that this can lead to significant advantages in terms of sample complexity.
翻訳日:2022-11-05 19:44:20 公開日:2020-07-29
# 層融合によるディープニューラルネットワークの圧縮

Compressing Deep Neural Networks via Layer Fusion ( http://arxiv.org/abs/2007.14917v1 )

ライセンス: Link先を確認
James O' Neill, Greg Ver Steeg and Aram Galstyan(参考訳) 本稿では,モデル圧縮手法である \textit{layer fusion} を提案する。 レイヤフュージョンは、競合性能を維持しながら、計算オーバーヘッドの少ない元のネットワークのレイヤ数を著しく削減することができる。 CIFAR-10の実験から、様々なディープ畳み込みニューラルネットワークは、層融合によって反復的に再訓練された場合、元のネットワークの2倍の精度で3.33の圧縮比まで保持できることがわかった。 事前学習されたトランスフォーマーモデルが使用されるwikitext-2言語モデリングデータセットでの実験では、元のネットワークの5つのパープレキシティポイント内に留まらず、元のサイズの20\%のネットワークに繋がる圧縮を実現する。 また,十分に多くの再トレーニングステップを踏むことで,既存のネットワークと比較して,他の確立された圧縮技術が競合性能を達成できることがわかった。 一般に, 圧縮量が増加するにつれて, 性能の明らかな変曲点が観察され, 指数関数的に低下する前に達成できる圧縮量の限界が示唆される。

This paper proposes \textit{layer fusion} - a model compression technique that discovers which weights to combine and then fuses weights of similar fully-connected, convolutional and attention layers. Layer fusion can significantly reduce the number of layers of the original network with little additional computation overhead, while maintaining competitive performance. From experiments on CIFAR-10, we find that various deep convolution neural networks can remain within 2\% accuracy points of the original networks up to a compression ratio of 3.33 when iteratively retrained with layer fusion. For experiments on the WikiText-2 language modelling dataset where pretrained transformer models are used, we achieve compression that leads to a network that is 20\% of its original size while being within 5 perplexity points of the original network. We also find that other well-established compression techniques can achieve competitive performance when compared to their original networks given a sufficient number of retraining steps. Generally, we observe a clear inflection point in performance as the amount of compression increases, suggesting a bound on the amount of compression that can be achieved before an exponential degradation in performance.
翻訳日:2022-11-05 19:42:40 公開日:2020-07-29
# fibonacci と k-置換型再帰的特徴除去

Fibonacci and k-Subsecting Recursive Feature Elimination ( http://arxiv.org/abs/2007.14920v1 )

ライセンス: Link先を確認
Dariusz Brzezinski(参考訳) 特徴選択は、分類アルゴリズムの高速化、モデルの理解性の向上、学習精度の向上といった、データマイニングのタスクである。 しかし、予測精度の点で最適である特徴のサブセットを見つけることは、通常計算的に難解である。 この問題に対するヒューリスティックなアプローチとして、再帰的特徴除去(RFE)アルゴリズムはデータマイニングの実践者からかなりの関心を集めている。 本稿では,RFEにインスパイアされた2つの新しいアルゴリズムであるFibonacciとk-Subsecting Recursive Feature Eliminationを提案する。 提案アルゴリズムは28個の高次元データセット上で RFE と実験的に比較し,タンパク質データバンクの3次元電子密度マップを用いた実例で評価した。 その結果、Fibonacci と k-Subsecting Recursive Feature Elimination は、標準的な RFE よりもはるかに高速に機能の小さなサブセットを選択できると同時に、同等な予測性能を実現することができることがわかった。

Feature selection is a data mining task with the potential of speeding up classification algorithms, enhancing model comprehensibility, and improving learning accuracy. However, finding a subset of features that is optimal in terms of predictive accuracy is usually computationally intractable. Out of several heuristic approaches to dealing with this problem, the Recursive Feature Elimination (RFE) algorithm has received considerable interest from data mining practitioners. In this paper, we propose two novel algorithms inspired by RFE, called Fibonacci- and k-Subsecting Recursive Feature Elimination, which remove features in logarithmic steps, probing the wrapped classifier more densely for the more promising feature subsets. The proposed algorithms are experimentally compared against RFE on 28 highly multidimensional datasets and evaluated in a practical case study involving 3D electron density maps from the Protein Data Bank. The results show that Fibonacci and k-Subsecting Recursive Feature Elimination are capable of selecting a smaller subset of features much faster than standard RFE, while achieving comparable predictive performance.
翻訳日:2022-11-05 19:42:21 公開日:2020-07-29
# ログデータを用いた機械学習サイバーディフェンスの逆ロバスト性

Adversarial Robustness for Machine Learning Cyber Defenses Using Log Data ( http://arxiv.org/abs/2007.14983v1 )

ライセンス: Link先を確認
Kai Steverson, Jonathan Mullin, Metin Ahiskali(参考訳) サイバー防衛に機械学習を適用することへの関心はますます高まっている。 有望なアプローチの1つは、疑わしい行動のログデータを分析するために自然言語処理技術を適用することである。 自然な疑問は、これらのシステムが敵の攻撃に対してどれほど頑丈かである。 高度な攻撃に対する防衛は、サイバー防衛に特に関心がある。 本稿では,特にログデータに着目した機械学習サイバーディフェンスの敵意的堅牢性を評価するためのテストフレームワークを開発する。 我々のフレームワークは、深層強化学習と逆自然言語処理の技法を用いる。 我々は、公開データセットを使用してフレームワークを検証するとともに、敵攻撃がターゲットシステムに対して成功し、潜在的な脆弱性を明らかにする。 我々は,異なるレベルのドロップアウト正規化の影響を分析するためにフレームワークを適用し,より高いドロップアウトレベルが堅牢性を高めることを発見した。 さらに90%の脱落確率は、高いマージンで高いロバスト性を示しており、これは敵の攻撃に対して適切に防御するためには、異常に高い脱落率が必要であることを示唆している。

There has been considerable and growing interest in applying machine learning for cyber defenses. One promising approach has been to apply natural language processing techniques to analyze logs data for suspicious behavior. A natural question arises to how robust these systems are to adversarial attacks. Defense against sophisticated attack is of particular concern for cyber defenses. In this paper, we develop a testing framework to evaluate adversarial robustness of machine learning cyber defenses, particularly those focused on log data. Our framework uses techniques from deep reinforcement learning and adversarial natural language processing. We validate our framework using a publicly available dataset and demonstrate that our adversarial attack does succeed against the target systems, revealing a potential vulnerability. We apply our framework to analyze the influence of different levels of dropout regularization and find that higher dropout levels increases robustness. Moreover 90% dropout probability exhibited the highest level of robustness by a significant margin, which suggests unusually high dropout may be necessary to properly protect against adversarial attacks.
翻訳日:2022-11-05 19:42:02 公開日:2020-07-29
# テキストによるメンタルヘルスのための面接の分類-アートの現状を振り返る

Text-based classification of interviews for mental health -- juxtaposing the state of the art ( http://arxiv.org/abs/2008.01543v1 )

ライセンス: Link先を確認
Joppe Valentijn Wouts(参考訳) 現在、精神疾患の分類のための技術の現状は、音声に基づく分類に基づいている。 本論文は,この課題に対するアートテキスト分類ネットワークの設計と評価を目的としている。 この仮説は、よく設計されたテキストベースのアプローチは、最先端のオーディオベースのアプローチと強く競合する。 オランダの自然言語モデルは、事前訓練された単言語NLPモデルの不足によって制限されている。 本稿では,RoBERTa[15]アーキテクチャを拡張した新しいオランダ語モデルであるbelabBERTを紹介する。 belabBERTは、大規模なオランダ語コーパス(+32GB)のWebクロードテキストで訓練されている。 この論文の後、テキストベースの分類の強さを評価し、簡単な探索を行い、フレームワークをハイブリッドテキストとオーディオベースの分類に拡張する。 このハイブリッドフレームワークの目標は、非常に基本的なオーディオ分類ネットワークとのハイブリダイゼーションの原則を示すことである。 全体的な目標は、新しいテキストベースの分類が既に強力なスタンドアロンソリューションであることを証明することによって、ハイブリッド精神医学の病気分類の基礎を作ることである。

Currently, the state of the art for classification of psychiatric illness is based on audio-based classification. This thesis aims to design and evaluate a state of the art text classification network on this challenge. The hypothesis is that a well designed text-based approach poses a strong competition against the state-of-the-art audio based approaches. Dutch natural language models are being limited by the scarcity of pre-trained monolingual NLP models, as a result Dutch natural language models have a low capture of long range semantic dependencies over sentences. For this issue, this thesis presents belabBERT, a new Dutch language model extending the RoBERTa[15] architecture. belabBERT is trained on a large Dutch corpus (+32GB) of web crawled texts. After this thesis evaluates the strength of text-based classification, a brief exploration is done, extending the framework to a hybrid text- and audio-based classification. The goal of this hybrid framework is to show the principle of hybridisation with a very basic audio-classification network. The overall goal is to create the foundations for a hybrid psychiatric illness classification, by proving that the new text-based classification is already a strong stand-alone solution.
翻訳日:2022-11-05 19:36:21 公開日:2020-07-29
# CNNの理にかなわない有効性について

On the unreasonable effectiveness of CNNs ( http://arxiv.org/abs/2007.14745v1 )

ライセンス: Link先を確認
Andreas Hauptmann and Jonas Adler(参考訳) 畳み込みニューラルネットワーク(cnn)を用いた深層学習法は、事実上全ての画像問題、特に不適切で複雑な画像モデルを用いた画像再構成タスクにうまく適用されている。 画像と画像の問題を解決するためのベースラインCNNの能力に上限を付けるために、我々は広く使われている標準オフザシェルフネットワークアーキテクチャ(U-Net)をノイズデータからのXOR復号の「逆問題」に適用し、許容可能な結果を示した。

Deep learning methods using convolutional neural networks (CNN) have been successfully applied to virtually all imaging problems, and particularly in image reconstruction tasks with ill-posed and complicated imaging models. In an attempt to put upper bounds on the capability of baseline CNNs for solving image-to-image problems we applied a widely used standard off-the-shelf network architecture (U-Net) to the "inverse problem" of XOR decryption from noisy data and show acceptable results.
翻訳日:2022-11-05 19:35:41 公開日:2020-07-29
# 視覚言語ナビゲーションのためのオブジェクト・アンド・アクション認識モデル

Object-and-Action Aware Model for Visual Language Navigation ( http://arxiv.org/abs/2007.14626v1 )

ライセンス: Link先を確認
Yuankai Qi, Zizheng Pan, Shengping Zhang, Anton van den Hengel, Qi Wu(参考訳) 視覚・言語ナビゲーション(vln)は、比較的一般的な自然言語命令を可視環境に基づいてロボットエージェントアクションに変換する必要があるという点でユニークなものである。 これは、非常に異なる2種類の自然言語情報から値を取り出す必要がある。 1つはオブジェクト記述(例:'table'、'door')で、それぞれがエージェントが環境に見える項目を見つけて次のアクションを決定するためのヒントとして提示され、もう1つはアクション仕様(例:'go straight'、'turn left')であり、ロボットは視覚の知覚に頼らずに次の動きを直接予測することができる。 しかし、既存の手法のほとんどは、命令エンコーディング中にこれらの情報を区別するためにほとんど注意を払っておらず、テキストオブジェクト/アクションエンコーディングと候補視点の視覚知覚/方向特徴のマッチングを混合している。 本稿では,これら2種類の自然言語を個別に処理するオブジェクト・アンド・アクション・アウェア・モデル(OAAM)を提案する。 これにより、各プロセスは、オブジェクト中心/アクション中心の命令と、対応する視覚知覚/アクション指向を柔軟に一致させることができる。 しかし、上述の解が原因の1つの側面は、指示書に記載された物体が2つ以上の候補視点の方向に観察できるため、OAAMは次の行動として最短経路の視点を予測できないということである。 この問題に対処するために,地上の真理経路から逸脱した軌道をペナルティ化する,単純かつ効果的な経路損失を設計する。 実験の結果,提案モデルの有効性と経路損失,R2Rデータセットの50% SPLスコアとR4Rデータセットの40% CLSスコアとの組合せが,従来よりも優れていることが示された。

Vision-and-Language Navigation (VLN) is unique in that it requires turning relatively general natural-language instructions into robot agent actions, on the basis of the visible environment. This requires to extract value from two very different types of natural-language information. The first is object description (e.g., 'table', 'door'), each presenting as a tip for the agent to determine the next action by finding the item visible in the environment, and the second is action specification (e.g., 'go straight', 'turn left') which allows the robot to directly predict the next movements without relying on visual perceptions. However, most existing methods pay few attention to distinguish these information from each other during instruction encoding and mix together the matching between textual object/action encoding and visual perception/orientation features of candidate viewpoints. In this paper, we propose an Object-and-Action Aware Model (OAAM) that processes these two different forms of natural language based instruction separately. This enables each process to match object-centered/action-centered instruction to their own counterpart visual perception/action orientation flexibly. However, one side-issue caused by above solution is that an object mentioned in instructions may be observed in the direction of two or more candidate viewpoints, thus the OAAM may not predict the viewpoint on the shortest path as the next action. To handle this problem, we design a simple but effective path loss to penalize trajectories deviating from the ground truth path. Experimental results demonstrate the effectiveness of the proposed model and path loss, and the superiority of their combination with a 50% SPL score on the R2R dataset and a 40% CLS score on the R4R dataset in unseen environments, outperforming the previous state-of-the-art.
翻訳日:2022-11-05 19:35:30 公開日:2020-07-29
# コンテキストテキストによるビデオキャプションの強化

Enriching Video Captions With Contextual Text ( http://arxiv.org/abs/2007.14682v1 )

ライセンス: Link先を確認
Philipp Rimle, Pelin Dogan, Markus Gross(参考訳) ビデオコンテンツの理解と、文脈によるキャプションの生成は、重要かつ困難なタスクである。 コンテクストのない一般的なビデオキャプションを生成する従来の手法とは異なり、我々のアーキテクチャは関連するテキストデータから抽出した情報を注入することでキャプションを文脈的に表現する。 本稿では,視覚的入力に基づいて映像キャプションを生成するエンドツーエンドのシーケンス・ツー・シーケンスモデルを提案し,コンテキストテキストから名前や場所などの関連知識を抽出する。 従来のアプローチとは対照的に、テキストの事前処理は行わず、モデルがそれに参加することを直接学ばせます。 視覚的入力によって導かれるこのモデルは、ポインタ生成ネットワークを介してコンテキストテキストから単語をコピーすることができ、より特定のビデオキャプションを生成することができる。 我々は,ニュースビデオデータセット上での競合性能を示し,アブレーション研究を通じて,モデルアーキテクチャにおける個々の設計選択だけでなく,文脈的映像キャプションの有効性を検証する。

Understanding video content and generating caption with context is an important and challenging task. Unlike prior methods that typically attempt to generate generic video captions without context, our architecture contextualizes captioning by infusing extracted information from relevant text data. We propose an end-to-end sequence-to-sequence model which generates video captions based on visual input, and mines relevant knowledge such as names and locations from contextual text. In contrast to previous approaches, we do not preprocess the text further, and let the model directly learn to attend over it. Guided by the visual input, the model is able to copy words from the contextual text via a pointer-generator network, allowing to produce more specific video captions. We show competitive performance on the News Video Dataset and, through ablation studies, validate the efficacy of contextual video captioning as well as individual design choices in our model architecture.
翻訳日:2022-11-05 19:34:57 公開日:2020-07-29
# 語彙依存の復活:神経語彙化pcfgs

The Return of Lexical Dependencies: Neural Lexicalized PCFGs ( http://arxiv.org/abs/2007.15135v1 )

ライセンス: Link先を確認
Hao Zhu, Yonatan Bisk, Graham Neubig(参考訳) 本稿では、語彙依存のモデル化による文法誘導のための$\textit{context free grammar (CFG) に基づく手法を実証する。 これは、最も一般的な文法帰納法とは対照的で、$\textit{either}$ Composinitions $\textit{or}$Dependencyの発見に重点を置いている。 これら2つの異なる構文形式(例えばレキシカル化PCFG)を結婚する以前のアプローチは、スパーシリティに悩まされ、教師なし文法誘導には適さない。 しかし,本研究では,レキシカル化PCFGのニューラルモデルを提案する。 実験により、この統一されたフレームワークは、いずれかの形式だけをモデリングする場合よりも両方の表現に強い結果をもたらすことが示されている。 コードはhttps://github.com/neulab/neural-lpcfgで入手できる。

In this paper we demonstrate that $\textit{context free grammar (CFG) based methods for grammar induction benefit from modeling lexical dependencies}$. This contrasts to the most popular current methods for grammar induction, which focus on discovering $\textit{either}$ constituents $\textit{or}$ dependencies. Previous approaches to marry these two disparate syntactic formalisms (e.g. lexicalized PCFGs) have been plagued by sparsity, making them unsuitable for unsupervised grammar induction. However, in this work, we present novel neural models of lexicalized PCFGs which allow us to overcome sparsity problems and effectively induce both constituents and dependencies within a single model. Experiments demonstrate that this unified framework results in stronger results on both representations than achieved when modeling either formalism alone. Code is available at https://github.com/neulab/neural-lpcfg.
翻訳日:2022-11-05 19:34:41 公開日:2020-07-29
# ブラジル・ポルトガル臨床ノートによる複数ICD-10符号の予測

Predicting Multiple ICD-10 Codes from Brazilian-Portuguese Clinical Notes ( http://arxiv.org/abs/2008.01515v1 )

ライセンス: Link先を確認
Arthur D. Reys, Danilo Silva, Daniel Severo, Saulo Pedro, Marcia M. de Souza e S\'a, Guilherme A. C. Salgado(参考訳) 電子臨床記録からのICDコーディングは、手作業で、時間がかかり、高価なプロセスである。 しかし、コードの割り当ては請求目的とデータベース組織にとって重要なタスクである。 多くの研究が機械学習技術を用いて自由テキストから自動ICDコーディングの問題を研究しているが、ほとんどの研究は英語、特にMIMIC-III公開データセットで記録を使用している。 本研究はブラジルのポルトガル語臨床ノートを用いたデータセットの結果を示す。 本研究では,ロジスティック回帰モデル,畳み込みニューラルネットワーク(cnn),ゲートリカレントユニットニューラルネットワーク,注意付きcnn(cnn-att)を開発し最適化し,icd符号の予測を行う。 また,同じ家系のモデルや芸術の状況において,先行研究よりも優れるmime-iiiデータセットについて報告する。 MIMIC-IIIと比較すると、ブラジルのポルトガル語のデータセットは1文書あたりの単語がはるかに少ない。 このデータセットで利用可能な追加ドキュメントの結合を実験し、パフォーマンスを大幅に向上させる。 CNN-Attモデルでは,MIMIC-IIIでは平均0.537点,追加文書では0.485点のマイクロ平均F1スコアが得られた。

ICD coding from electronic clinical records is a manual, time-consuming and expensive process. Code assignment is, however, an important task for billing purposes and database organization. While many works have studied the problem of automated ICD coding from free text using machine learning techniques, most use records in the English language, especially from the MIMIC-III public dataset. This work presents results for a dataset with Brazilian Portuguese clinical notes. We develop and optimize a Logistic Regression model, a Convolutional Neural Network (CNN), a Gated Recurrent Unit Neural Network and a CNN with Attention (CNN-Att) for prediction of diagnosis ICD codes. We also report our results for the MIMIC-III dataset, which outperform previous work among models of the same families, as well as the state of the art. Compared to MIMIC-III, the Brazilian Portuguese dataset contains far fewer words per document, when only discharge summaries are used. We experiment concatenating additional documents available in this dataset, achieving a great boost in performance. The CNN-Att model achieves the best results on both datasets, with micro-averaged F1 score of 0.537 on MIMIC-III and 0.485 on our dataset with additional documents.
翻訳日:2022-11-05 19:34:25 公開日:2020-07-29
# 文脈オートコンプリートによる高速構造化臨床文書化

Fast, Structured Clinical Documentation via Contextual Autocomplete ( http://arxiv.org/abs/2007.15153v1 )

ライセンス: Link先を確認
Divya Gopinath, Monica Agrawal, Luke Murray, Steven Horng, David Karger, David Sontag(参考訳) 本稿では,半構造化臨床文書の迅速な作成を容易にするために,学習された自己補完機構を用いたシステムを提案する。 医師が非構造化医療データと構造化医療データの両方の特徴を利用してノートを作成するとき、関連する臨床概念を動的に提案する。 アーキテクチャを浅いニューラルネットワークに制限することで、これらの提案をリアルタイムで行うことができます。 さらに,このアルゴリズムをメモ作成に利用することで,医師や患者,将来的なアルゴリズムに対して,医用語彙から抽出した臨床概念のクリーンラベルを自動注釈化し,より構造化され,読みやすくする。 私たちの知る限り、このシステムは、実病院に配備された臨床ノートのための機械学習ベースの文書作成ユーティリティであり、実環境において臨床概念のキーストローク負担を67%削減します。

We present a system that uses a learned autocompletion mechanism to facilitate rapid creation of semi-structured clinical documentation. We dynamically suggest relevant clinical concepts as a doctor drafts a note by leveraging features from both unstructured and structured medical data. By constraining our architecture to shallow neural networks, we are able to make these suggestions in real time. Furthermore, as our algorithm is used to write a note, we can automatically annotate the documentation with clean labels of clinical concepts drawn from medical vocabularies, making notes more structured and readable for physicians, patients, and future algorithms. To our knowledge, this system is the only machine learning-based documentation utility for clinical notes deployed in a live hospital setting, and it reduces keystroke burden of clinical concepts by 67% in real environments.
翻訳日:2022-11-05 19:26:40 公開日:2020-07-29
# データ品質管理における解釈可能な機械学習の利用について

On the Use of Interpretable Machine Learning for the Management of Data Quality ( http://arxiv.org/abs/2007.14677v1 )

ライセンス: Link先を確認
Anna Karanika, Panagiotis Oikonomou, Kostas Kolomvatsos, Christos Anagnostopoulos(参考訳) データ品質は、意思決定をサポートするために分析を要求するアプリケーションにとって重要な問題です。 多数のデバイスがデータ交換や処理を行うことができるIoT(Internet of Things)に注力する場合、それは非常に重要になります。 IoTデバイスは、収集されたデータを報告するためにエッジコンピューティング(EC)ノードに接続されているため、IoTだけでなく、ネットワークの端にもデータ品質を確保する必要があります。 本稿では,特定の問題に焦点をあて,解釈可能な機械学習を用いて,データ処理アクティビティをベースとした重要な機能を実現することを提案する。 当社の目標は、少なくとも収集したデータセットで重要と検出された機能に対して、データ品質を確保することです。 我々は、選択された特徴がデータセットの残りと最も高い相関関係を示していることに注意しなければならない。 学習モデルに解釈可能性を持たせるための複数の方法論に注目し,最終決定にアンサンブル方式を採用する。 提案手法では,最終結果のタイムリーな検索と,適切な特徴の選択が可能である。 広範なシミュレーションによりモデルを評価し, 数値実験を行った。 本研究の目的は, 様々な実験シナリオにおいて, その性能を明らかにすることであり, そのメカニズムで採用されるパラメータの集合を多様に生成することである。

Data quality is a significant issue for any application that requests for analytics to support decision making. It becomes very important when we focus on Internet of Things (IoT) where numerous devices can interact to exchange and process data. IoT devices are connected to Edge Computing (EC) nodes to report the collected data, thus, we have to secure data quality not only at the IoT but also at the edge of the network. In this paper, we focus on the specific problem and propose the use of interpretable machine learning to deliver the features that are important to be based for any data processing activity. Our aim is to secure data quality, at least, for those features that are detected as significant in the collected datasets. We have to notice that the selected features depict the highest correlation with the remaining in every dataset, thus, they can be adopted for dimensionality reduction. We focus on multiple methodologies for having interpretability in our learning models and adopt an ensemble scheme for the final decision. Our scheme is capable of timely retrieving the final result and efficiently select the appropriate features. We evaluate our model through extensive simulations and present numerical results. Our aim is to reveal its performance under various experimental scenarios that we create varying a set of parameters adopted in our mechanism.
翻訳日:2022-11-05 19:26:26 公開日:2020-07-29
# 言語モデル事前学習を用いたピアノ楽譜の作曲家スタイル分類

Composer Style Classification of Piano Sheet Music Images Using Language Model Pretraining ( http://arxiv.org/abs/2007.14587v1 )

ライセンス: Link先を確認
TJ Tsai and Kevin Ji(参考訳) 本稿では,ピアノ楽譜の作曲スタイル分類について述べる。 作曲家分類タスクに対する以前のアプローチは、データの不足によって制限されている。 本研究では,(1)記号的な音楽形式ではなく生の楽譜をベースとした問題を再キャストし,(2)ラベルのないデータに基づいてトレーニング可能なアプローチを提案する。 本手法では,まず楽譜画像からbootleg特徴表現に基づく音楽的「単語」の列に変換し,そのシーケンスをテキスト分類器に入力する。 まず,ラベルなしデータに対して言語モデルをトレーニングし,事前学習した言語モデル重みで分類器を初期化し,少量のラベル付きデータで分類器を微調整することにより,分類器の性能を大幅に向上させることができることを示す。 IMSLPのすべてのピアノ楽譜画像に対して,AWD-LSTM,GPT-2,RoBERTa言語モデルを訓練する。 CNN や LSTM モデルよりも優れたトランスフォーマーベースアーキテクチャが得られ、事前学習により9ウェイ分類タスクにおいて GPT-2 モデルの分類精度が 46\% から 70\% に向上する。 訓練されたモデルは、ピアノ楽譜を作曲スタイルを特徴付ける特徴空間に投影する特徴抽出器としても使用できる。

This paper studies composer style classification of piano sheet music images. Previous approaches to the composer classification task have been limited by a scarcity of data. We address this issue in two ways: (1) we recast the problem to be based on raw sheet music images rather than a symbolic music format, and (2) we propose an approach that can be trained on unlabeled data. Our approach first converts the sheet music image into a sequence of musical "words" based on the bootleg feature representation, and then feeds the sequence into a text classifier. We show that it is possible to significantly improve classifier performance by first training a language model on a set of unlabeled data, initializing the classifier with the pretrained language model weights, and then finetuning the classifier on a small amount of labeled data. We train AWD-LSTM, GPT-2, and RoBERTa language models on all piano sheet music images in IMSLP. We find that transformer-based architectures outperform CNN and LSTM models, and pretraining boosts classification accuracy for the GPT-2 model from 46\% to 70\% on a 9-way classification task. The trained model can also be used as a feature extractor that projects piano sheet music into a feature space that characterizes compositional style.
翻訳日:2022-11-05 19:25:35 公開日:2020-07-29
# 画像復元のための正則化深層行列因子化モデル

A regularized deep matrix factorized model of matrix completion for image restoration ( http://arxiv.org/abs/2007.14581v1 )

ライセンス: Link先を確認
Zhemin Li, Zhi-Qin John Xu, Tao Luo, Hongxia Wang(参考訳) これは、画像復元にマトリックス補完を使用する重要なアプローチである。 行列の完備化に関する以前の研究は、核ノルムの制約や行列因子化成分の次元の制限など、回収された行列に明示的な制約を課すことで、低位の性質に焦点をあてている。 近年,ディープリニアニューラルネットワークは行列完全度において低ランクに対して暗黙のバイアスを持つことが示唆されている。 しかし、低位は自然画像の本質的特徴を反映するには不十分である。 したがって、低ランクの制約のみを持つアルゴリズムは、画像復元をうまく行うことができない。 本研究では,画像復元のための正規化Deep Matrix Factorized (RDMF)モデルを提案する。 本稿では,RDMFモデルの有効性を実験的に検証し,本手法が一般的な例,特にごく少数の観測結果からの復元に有効であることを示す。 我々の研究は、ディープラーニングの暗黙のバイアスと明示的な正規化を組み合わせることで、他の逆問題を解くためのより一般的な枠組みに光を当てている。

It has been an important approach of using matrix completion to perform image restoration. Most previous works on matrix completion focus on the low-rank property by imposing explicit constraints on the recovered matrix, such as the constraint of the nuclear norm or limiting the dimension of the matrix factorization component. Recently, theoretical works suggest that deep linear neural network has an implicit bias towards low rank on matrix completion. However, low rank is not adequate to reflect the intrinsic characteristics of a natural image. Thus, algorithms with only the constraint of low rank are insufficient to perform image restoration well. In this work, we propose a Regularized Deep Matrix Factorized (RDMF) model for image restoration, which utilizes the implicit bias of the low rank of deep neural networks and the explicit bias of total variation. We demonstrate the effectiveness of our RDMF model with extensive experiments, in which our method surpasses the state of art models in common examples, especially for the restoration from very few observations. Our work sheds light on a more general framework for solving other inverse problems by combining the implicit bias of deep learning with explicit regularization.
翻訳日:2022-11-05 19:25:13 公開日:2020-07-29
# fmriバイオマーカー解析のためのプール正規化グラフニューラルネットワーク

Pooling Regularized Graph Neural Network for fMRI Biomarker Analysis ( http://arxiv.org/abs/2007.14589v1 )

ライセンス: Link先を確認
Xiaoxiao Li, Yuan Zhou, Nicha C. Dvornek, Muhan Zhang, Juntang Zhuang, Pamela Ventola, and James S Duncan(参考訳) 特定の脳領域が特定の神経疾患と関連しているかを理解することは、神経画像研究の重要な領域である。 正常領域を特定するための有望なアプローチは、グラフニューラルネットワーク(GNN)を使用して、機能的磁気共鳴イメージング(fMRI)によって構築された脳ネットワークなどのグラフ構造化データを解析することができる。 本稿では,障害に関連する神経学的脳バイオマーカーを決定するために,新しい領域選択機構を備えた解釈可能なGNNフレームワークを提案する。 具体的には,有意な利害領域(ROI)を強調した新たな正規化プール層を設計し,プール層によって計算されたノードプーリングスコアに基づいて,どのROIが重要かを推測する。 提案するフレームワークであるPooling Regularized-GNN (PR-GNN)は、適切なROI選択を促進し、個別またはグループレベルのパターンを維持する柔軟性を提供する。 本稿では,バイオポイント自閉症スペクトラム障害 (ASD) fMRIデータセットにPR-GNNフレームワークを適用した。 ハイパーパラメータの異なる選択を調査し,pr-gnnが分類精度でベースライン法を上回っていることを示す。 サルエントroi検出の結果,前回のasd用神経画像由来バイオマーカーと高い相関を示した。

Understanding how certain brain regions relate to a specific neurological disorder has been an important area of neuroimaging research. A promising approach to identify the salient regions is using Graph Neural Networks (GNNs), which can be used to analyze graph structured data, e.g. brain networks constructed by functional magnetic resonance imaging (fMRI). We propose an interpretable GNN framework with a novel salient region selection mechanism to determine neurological brain biomarkers associated with disorders. Specifically, we design novel regularized pooling layers that highlight salient regions of interests (ROIs) so that we can infer which ROIs are important to identify a certain disease based on the node pooling scores calculated by the pooling layers. Our proposed framework, Pooling Regularized-GNN (PR-GNN), encourages reasonable ROI-selection and provides flexibility to preserve either individual- or group-level patterns. We apply the PR-GNN framework on a Biopoint Autism Spectral Disorder (ASD) fMRI dataset. We investigate different choices of the hyperparameters and show that PR-GNN outperforms baseline methods in terms of classification accuracy. The salient ROI detection results show high correspondence with the previous neuroimaging-derived biomarkers for ASD.
翻訳日:2022-11-05 19:24:52 公開日:2020-07-29
# 手動ジェスチャー認識と転写学習のためのフォースミオグラフィーベンチマークデータ

Force myography benchmark data for hand gesture recognition and transfer learning ( http://arxiv.org/abs/2007.14918v1 )

ライセンス: Link先を確認
Thomas Buhl Andersen, R\'ogvi Eliasen, Mikkel Jarlund, Bin Yang(参考訳) ハンドジェスチャ認識タスクでは,近年,フォースミオグラフィーが注目されている。 しかし、ベンチマークデータは公開されておらず、既存の研究のほとんどは、カスタムハードウェアとさまざまなジェスチャーセットで独自のデータを収集している。 これにより、さまざまなアルゴリズムを比較する能力と、まず自分でデータを収集する必要なしに研究を行う能力が制限される。 我々は,この分野のさらなる比較と,この分野への参入を容易にすることを目的として,18のユニークなジェスチャーをカバーする20人の人から市販のセンサ設定を用いて,ベンチマークデータセットを収集することにより,この分野の発展に寄与する。 そこで本研究では,複数の人物からのデータを取り込むことでジェスチャー認識精度を向上させる方法を示す。 これはまた、データセットが、転送学習アルゴリズムの研究を容易にするベンチマークデータセットとして機能できることも示している。

Force myography has recently gained increasing attention for hand gesture recognition tasks. However, there is a lack of publicly available benchmark data, with most existing studies collecting their own data often with custom hardware and for varying sets of gestures. This limits the ability to compare various algorithms, as well as the possibility for research to be done without first needing to collect data oneself. We contribute to the advancement of this field by making accessible a benchmark dataset collected using a commercially available sensor setup from 20 persons covering 18 unique gestures, in the hope of allowing further comparison of results as well as easier entry into this field of research. We illustrate one use-case for such data, showing how we can improve gesture recognition accuracy by utilising transfer learning to incorporate data from multiple other persons. This also illustrates that the dataset can serve as a benchmark dataset to facilitate research on transfer learning algorithms.
翻訳日:2022-11-05 19:24:11 公開日:2020-07-29