このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200423となっている論文です。

PDF登録状況(公開日: 20200423)

TitleAuthorsAbstract論文公表日・翻訳日
# 集団散逸下における少数体系の量子同期

Quantum synchronization of few-body systems under collective dissipation ( http://arxiv.org/abs/2001.01940v2 )

ライセンス: Link先を確認
G. Karpat, \.I. Yal\c{c}{\i}nkaya, B. \c{C}akmak(参考訳) 熱散逸環境に接する2レベルシステムにおける環境誘起同期現象について検討する。 まず,二つの粒子間の同期が生じる条件について議論する。 すなわち, 環境温度, 粒子間の直接相互作用, 飛散の集電率を制御する距離といった, 反同期化の出現に及ぼす各種モデルパラメータの影響を解析する。 次に、3つの2レベル原子からなる系を拡張し、異なる粒子対間の相互同期を研究する。 注目すべきことに、このケースでは、原子の異なる空間配置に由来するリッチな同期ダイナミクスが観察される。 特に2つの原子の場合と対照的に、3つの原子が近接している場合、フラストレーションにより全ての粒子対に反同期の出現が妨げられることを示す。

We explore the environment-induced synchronization phenomenon in two-level systems in contact with a thermal dissipative environment. We first discuss the conditions under which synchronization emerges between a pair of two-level particles. That is, we analyze the impact of various model parameters on the emergence of (anti-)synchronization such as the environment temperature, the direct interaction between the particles, and the distance between them controlling the collectivity of the dissipation. We then enlarge the system to be composed of three two-level atoms to study the mutual synchronization between different particle pairs. Remarkably, we observe in this case a rich synchronization dynamics which stems from different possible spatial configurations of the atoms. Particularly, in sharp contrast with the two-atom case, we show that when the three atoms are in close proximity, appearance of anti-synchronization can be obstructed across all particle pairs due to frustration.
翻訳日:2023-01-13 21:01:57 公開日:2020-04-23
# センサノイズによるプログラム型ランダム変動発生加速器

Efficient Programmable Random Variate Generation Accelerator from Sensor Noise ( http://arxiv.org/abs/2001.05400v2 )

ライセンス: Link先を確認
James Timothy Meech and Phillip Stanley-Marbell(参考訳) 本稿では,制御環境における物理過程のサンプリングに基づく非一様乱数生成法を提案する。 モンテカルロシミュレーションの速度を2倍にしながら,不定形ガウスのモンテカルロ積分の誤差を1068倍に低減する手法の1つの概念実証実装を実証する。 物理プロセスの供給電圧と温度は、乱数生成器の平均および標準偏差がドリフトすることを防ぐために制御されなければならないことを示す。

We introduce a method for non-uniform random number generation based on sampling a physical process in a controlled environment. We demonstrate one proof-of-concept implementation of the method that reduces the error of Monte Carlo integration of a univariate Gaussian by 1068 times while doubling the speed of the Monte Carlo simulation. We show that the supply voltage and temperature of the physical process must be controlled to prevent the mean and standard deviation of the random number generator from drifting.
翻訳日:2023-01-12 23:41:42 公開日:2020-04-23
# 機械式電気生理モデルの校正における不一致の検討

Considering discrepancy when calibrating a mechanistic electrophysiology model ( http://arxiv.org/abs/2001.04230v2 )

ライセンス: Link先を確認
Chon Lok Lei, Sanmitra Ghosh, Dominic G. Whittaker, Yasser Aboelkassem, Kylie A. Beattie, Chris D. Cantwell, Tammo Delhaas, Charles Houston, Gustavo Montes Novaes, Alexander V. Panfilov, Pras Pathmanathan, Marina Riabiz, Rodrigo Weber dos Santos, John Walmsley, Keith Worden, Gary R. Mirams and Richard D. Wilkinson(参考訳) 不確実性定量化(uq)は、数理モデルとシミュレーションを用いて意思決定を行う上で重要なステップである。 心臓シミュレーションの分野は、モデル入力の不確かさとそれが出力や予測にどのように伝播するかを特徴付けるUQ手法を探求し、採用し始めている。 この視点では、モデル構造や方程式自体における不確実性という予測において、重要で未定な不確実性の源に注意を向けます。 不完全なモデルと現実の違いはモデルの不一致と呼ばれ、この相違の大きさや結果についてはしばしば不確実である。 ここでは,イオンチャネルにおけるモデル校正と作用電位スケールにおける不一致の影響の2つの例を示す。 さらに,ガウス過程 (GP) と自己回帰移動平均 (ARMA) モデルを用いて差分をモデル化し,異なる手法を用いてイオンチャネルモデルの校正および検証を行う際に,この差を考慮し,それぞれのアプローチの利点と欠点を強調する。 最後に、今後の作業に関する提案と問合せ行を提供する。

Uncertainty quantification (UQ) is a vital step in using mathematical models and simulations to take decisions. The field of cardiac simulation has begun to explore and adopt UQ methods to characterise uncertainty in model inputs and how that propagates through to outputs or predictions. In this perspective piece we draw attention to an important and under-addressed source of uncertainty in our predictions -- that of uncertainty in the model structure or the equations themselves. The difference between imperfect models and reality is termed model discrepancy, and we are often uncertain as to the size and consequences of this discrepancy. Here we provide two examples of the consequences of discrepancy when calibrating models at the ion channel and action potential scales. Furthermore, we attempt to account for this discrepancy when calibrating and validating an ion channel model using different methods, based on modelling the discrepancy using Gaussian processes (GPs) and autoregressive-moving-average (ARMA) models, then highlight the advantages and shortcomings of each approach. Finally, suggestions and lines of enquiry for future work are provided.
翻訳日:2023-01-11 23:52:43 公開日:2020-04-23
# 入力ビームプロファイル形成による2光子絡み合い次元の増大

Increasing two-photon entangled dimensions by shaping input beam profiles ( http://arxiv.org/abs/2001.04717v2 )

ライセンス: Link先を確認
Shilong Liu, Yingwen Zhang, Chen Yang, Shikai Liu, Zheng Ge, Yinhai Li, Yan Li, Zhiyuan Zhou, Guangcan Guo, Baosen Shi(参考訳) 高次元軌道角運動量(OAM)自由度(DOF)に絡み合った光子対は、量子情報処理の能力向上の可能な情報源として広く見なされている。 したがって、oam dof において高次元の極大絡み合い状態を生成する必要性は非常に望ましい。 本研究では,ポンプビームプロファイルの修正により,自発的パラメトリック・ダウンコンバージョンにより発生した絡み合った光子対のより広範でフラットなoamスペクトル,すなわちより大きなスパイラル帯域(sb)を生成する簡易な方法を示す。 実験および理論的に検討した結果,oam検出に用いる単一モードファイバのモードプロファイルとほぼ逆の指数型ポンププロファイルがガウス型ポンプと比較してはるかに大きなsbが得られることがわかった。

Photon pair entangled in high dimensional orbital angular momentum (OAM) degree of freedom (DOF) has been widely regarded as a possible source in improving the capacity of quantum information processing. The need for the generation of a high dimensional maximally entangled state in the OAM DOF is therefore much desired. In this work, we demonstrate a simple method to generate a broader and flatter OAM spectrum, i.e. a larger spiral bandwidth (SB), of entangled photon pairs generated through spontaneous parametric down-conversion by modifying the pump beam profile. By investigating both experimentally and theoretically, we have found that an exponential pump profile that is roughly the inverse of the mode profiles of the single-mode fibers used for OAM detection will provide a much larger SB when compared to a Gaussian shaped pump.
翻訳日:2023-01-11 13:35:50 公開日:2020-04-23
# 半教師対象検出のための提案学習

Proposal Learning for Semi-Supervised Object Detection ( http://arxiv.org/abs/2001.05086v2 )

ライセンス: Link先を確認
Peng Tang, Chetan Ramaiah, Yan Wang, Ran Xu, Caiming Xiong(参考訳) 本稿では,ラベル付きデータとラベルなしデータの両方をトレーニングすることにより,提案対象検出器(すなわち2段階対象検出器)の性能を高めるための半教師対象検出に焦点をあてる。 しかし、基底の真理ラベルが利用できないため、ラベルのないデータで物体検出器を訓練するのは非自明である。 そこで本稿では,ラベル付きデータとラベルなしデータの両方から提案特徴と予測を学習するための提案学習手法を提案する。 このアプローチは,自己管理型提案学習モジュールと一貫性に基づく提案学習モジュールで構成される。 自己監督型提案学習モジュールでは,提案する位置損失とコントラスト的損失をそれぞれ提示し,コンテキスト認識とノイズロバストな提案特徴を学習する。 整合性に基づく提案学習モジュールでは、制約ボックスの分類と回帰予測の両方に整合性損失を適用し、ノイズロバストな提案特徴と予測を学習する。 私たちのアプローチには次のようなメリットがあります。 1) 提案書の学習手順で提供すべきコンテキスト情報を増やすこと。 2 ノイズキャンセリング機能及びノイズロバスト物体検出のための一貫性の強制 3) 汎用かつ高性能な半教師付きオブジェクト検出フレームワークを構築し, バックボーンアーキテクチャの異なる提案型オブジェクト検出装置に容易に適用できる。 COCOデータセット上で、ラベル付きおよびラベルなしのデータすべてを用いて実験が行われる。 その結果,本手法は完全教師付きベースラインの性能を継続的に改善することを示した。 特に, データ蒸留法と組み合わせることで, 総教師ベースラインおよびデータ蒸留ベースラインと比較して平均で約2.0%, 0.9%改善する。

In this paper, we focus on semi-supervised object detection to boost performance of proposal-based object detectors (a.k.a. two-stage object detectors) by training on both labeled and unlabeled data. However, it is non-trivial to train object detectors on unlabeled data due to the unavailability of ground truth labels. To address this problem, we present a proposal learning approach to learn proposal features and predictions from both labeled and unlabeled data. The approach consists of a self-supervised proposal learning module and a consistency-based proposal learning module. In the self-supervised proposal learning module, we present a proposal location loss and a contrastive loss to learn context-aware and noise-robust proposal features respectively. In the consistency-based proposal learning module, we apply consistency losses to both bounding box classification and regression predictions of proposals to learn noise-robust proposal features and predictions. Our approach enjoys the following benefits: 1) encouraging more context information to delivered in the proposals learning procedure; 2) noisy proposal features and enforcing consistency to allow noise-robust object detection; 3) building a general and high-performance semi-supervised object detection framework, which can be easily adapted to proposal-based object detectors with different backbone architectures. Experiments are conducted on the COCO dataset with all available labeled and unlabeled data. Results demonstrate that our approach consistently improves the performance of fully-supervised baselines. In particular, after combining with data distillation, our approach improves AP by about 2.0% and 0.9% on average compared to fully-supervised baselines and data distillation baselines respectively.
翻訳日:2023-01-11 06:32:11 公開日:2020-04-23
# ディープメトリック学習のための対称合成

Symmetrical Synthesis for Deep Metric Learning ( http://arxiv.org/abs/2001.11658v3 )

ライセンス: Link先を確認
Geonmo Gu, Byungsoo Ko(参考訳) deep metric learningは、データポイント間の意味的類似性情報を含む埋め込みを学ぶことを目的としている。 組込み性を向上させるため, 合成硬質試料の合成法が提案されている。 既存の合成ハードサンプル生成法は、オートエンコーダや生成逆ネットワークを採用しているが、ハイパーパラメータが増え、最適化が難しく、トレーニング速度が遅くなる。 本稿では,これらの問題に対して対称合成と呼ばれる新しい合成硬質試料生成法を提案する。 同じクラスから2つの特徴点が与えられた場合、提案手法はまず対称性の軸として互いに合成点を生成する。 第二に、原点と合成点内でハードネガティブペアマイニングを行い、メトリック学習損失を計算するためのより有意義なネガティブペアを選択する。 提案手法は,ネットワーク変更なしに既存のメトリック学習損失に対して,ハイパーパラメータフリーかつプラグアンドプレイである。 提案手法は, クラスタリングや画像検索タスクにおいて, 各種損失関数に対して既存の手法よりも優れていることを示す。 私たちの実装は公開されています。

Deep metric learning aims to learn embeddings that contain semantic similarity information among data points. To learn better embeddings, methods to generate synthetic hard samples have been proposed. Existing methods of synthetic hard sample generation are adopting autoencoders or generative adversarial networks, but this leads to more hyper-parameters, harder optimization, and slower training speed. In this paper, we address these problems by proposing a novel method of synthetic hard sample generation called symmetrical synthesis. Given two original feature points from the same class, the proposed method firstly generates synthetic points with each other as an axis of symmetry. Secondly, it performs hard negative pair mining within the original and synthetic points to select a more informative negative pair for computing the metric learning loss. Our proposed method is hyper-parameter free and plug-and-play for existing metric learning losses without network modification. We demonstrate the superiority of our proposed method over existing methods for a variety of loss functions on clustering and image retrieval tasks. Our implementations is publicly available.
翻訳日:2023-01-05 06:46:12 公開日:2020-04-23
# 埋め込み拡張:深層メトリック学習のための埋め込み空間の強化

Embedding Expansion: Augmentation in Embedding Space for Deep Metric Learning ( http://arxiv.org/abs/2003.02546v3 )

ライセンス: Link先を確認
Byungsoo Ko, Geonmo Gu(参考訳) 画像検索とクラスタリングのために,サンプルのペア間の距離測定を学習した。 ペアベースのメトリック学習損失の顕著な成功により、近年の研究では、生成した合成点をメトリクス学習損失の強化と一般化に利用することを提案している。 しかし、これらの方法はメインネットワークと並行して追加の生成ネットワークを必要とするため、モデルサイズが大きくなり、トレーニング速度が遅くなり、最適化が難しくなる可能性がある。 一方、クエリ拡張やデータベース拡張といった後処理技術では、追加の意味情報を得るために特徴点の組み合わせを提案している。 本稿では,クエリ拡張とデータベース拡張に触発されて,組込み拡張と呼ばれる,ペアベースのメトリック学習損失に対する組込み空間における拡張手法を提案する。 提案手法は,拡張情報を含む合成点を特徴点の組み合わせで生成し,最も有意な特徴表現で学習するためにハードネガティブペアマイニングを行う。 シンプルさと柔軟性のため、モデルのサイズ、トレーニング速度、最適化の難しさに影響を与えずに、既存のメトリック学習損失に使用できる。 最後に、埋め込み拡張と代表的メトリック学習損失の組み合わせは、画像検索とクラスタリングタスクの両方において、最先端の損失と以前のサンプル生成方法を上回る。 実装は公開されている。

Learning the distance metric between pairs of samples has been studied for image retrieval and clustering. With the remarkable success of pair-based metric learning losses, recent works have proposed the use of generated synthetic points on metric learning losses for augmentation and generalization. However, these methods require additional generative networks along with the main network, which can lead to a larger model size, slower training speed, and harder optimization. Meanwhile, post-processing techniques, such as query expansion and database augmentation, have proposed the combination of feature points to obtain additional semantic information. In this paper, inspired by query expansion and database augmentation, we propose an augmentation method in an embedding space for pair-based metric learning losses, called embedding expansion. The proposed method generates synthetic points containing augmented information by a combination of feature points and performs hard negative pair mining to learn with the most informative feature representations. Because of its simplicity and flexibility, it can be used for existing metric learning losses without affecting model size, training speed, or optimization difficulty. Finally, the combination of embedding expansion and representative metric learning losses outperforms the state-of-the-art losses and previous sample generation methods in both image retrieval and clustering tasks. The implementation is publicly available.
翻訳日:2022-12-26 07:00:54 公開日:2020-04-23
# 意味ラベリングのための自己構築型グラフ畳み込みネットワーク

Self-Constructing Graph Convolutional Networks for Semantic Labeling ( http://arxiv.org/abs/2003.06932v2 )

ライセンス: Link先を確認
Qinghui Liu, Michael Kampffmeyer, Robert Jenssen, Arnt-B{\o}rre Salberg(参考訳) グラフニューラルネットワーク(GNN)は多くの分野で注目を集めている。 しかしながら、先行グラフの欠如により、意味的ラベリングの使用は制限されている。 本稿では,学習可能な潜伏変数を用いて埋め込みを生成し,手動で構築した事前知識グラフに頼ることなく,入力機能から直接基礎となるグラフを自己構築する,自己構築型グラフ(Self-Constructing Graph,SCG)を提案する。 SCGは、空中画像中の複雑な形状の物体から、最適化された非局所コンテキストグラフを自動的に取得することができる。 最適化されたグラフ再構成項とkullback-leibler divergence regularization項からなる適応対角拡大法と変分下限を用いてscgを最適化する。 提案するscgの有効性と柔軟性を,isprs vaihingenデータセットとモデルscg-netを用いて実証し,f1-scoreのパラメータ低減と,pure-cnnベースの作業と比較して計算コストの低減により比較検討した。 私たちのコードはもうすぐ公開されるでしょう。

Graph Neural Networks (GNNs) have received increasing attention in many fields. However, due to the lack of prior graphs, their use for semantic labeling has been limited. Here, we propose a novel architecture called the Self-Constructing Graph (SCG), which makes use of learnable latent variables to generate embeddings and to self-construct the underlying graphs directly from the input features without relying on manually built prior knowledge graphs. SCG can automatically obtain optimized non-local context graphs from complex-shaped objects in aerial imagery. We optimize SCG via an adaptive diagonal enhancement method and a variational lower bound that consists of a customized graph reconstruction term and a Kullback-Leibler divergence regularization term. We demonstrate the effectiveness and flexibility of the proposed SCG on the publicly available ISPRS Vaihingen dataset and our model SCG-Net achieves competitive results in terms of F1-score with much fewer parameters and at a lower computational cost compared to related pure-CNN based work. Our code will be made public soon.
翻訳日:2022-12-23 09:04:37 公開日:2020-04-23
# Stanza: 多くのヒューマン言語のためのPython自然言語処理ツールキット

Stanza: A Python Natural Language Processing Toolkit for Many Human Languages ( http://arxiv.org/abs/2003.07082v2 )

ライセンス: Link先を確認
Peng Qi, Yuhao Zhang, Yuhui Zhang, Jason Bolton, Christopher D. Manning(参考訳) 我々は66の言語をサポートするオープンソースのpython自然言語処理ツールキットであるstanzaを紹介する。 既存の広く使われているツールキットと比較して、Stanzaは、トークン化、マルチワードトークン拡張、補題化、音声と形態的特徴タグ付け、依存性解析、名前付きエンティティ認識を含む、テキスト分析のための言語に依存しない完全なニューラルネットワークを備えている。 我々は、Universal Dependencies Treebanksなどの多言語コーパスを含む合計112のデータセットでStanzaをトレーニングし、同じニューラルネットワークが十分に一般化し、テスト対象のすべての言語で競合性能を達成することを示す。 さらに、Stanzaは広く使われているJava Stanford CoreNLPソフトウェアにネイティブのPythonインターフェイスが含まれており、コア参照の解決や関係抽出といった他のタスクをカバーする機能をさらに拡張している。 66言語用のソースコード、ドキュメンテーション、事前訓練済みモデルはhttps://stanfordnlp.github.io/stanza.comで入手できる。

We introduce Stanza, an open-source Python natural language processing toolkit supporting 66 human languages. Compared to existing widely used toolkits, Stanza features a language-agnostic fully neural pipeline for text analysis, including tokenization, multi-word token expansion, lemmatization, part-of-speech and morphological feature tagging, dependency parsing, and named entity recognition. We have trained Stanza on a total of 112 datasets, including the Universal Dependencies treebanks and other multilingual corpora, and show that the same neural architecture generalizes well and achieves competitive performance on all languages tested. Additionally, Stanza includes a native Python interface to the widely used Java Stanford CoreNLP software, which further extends its functionality to cover other tasks such as coreference resolution and relation extraction. Source code, documentation, and pretrained models for 66 languages are available at https://stanfordnlp.github.io/stanza.
翻訳日:2022-12-23 03:13:36 公開日:2020-04-23
# 画像超解像のためのデータ拡張の再考:包括的分析と新しい戦略

Rethinking Data Augmentation for Image Super-resolution: A Comprehensive Analysis and a New Strategy ( http://arxiv.org/abs/2004.00448v2 )

ライセンス: Link先を確認
Jaejun Yoo, Namhyuk Ahn, Kyung-Ah Sohn(参考訳) データ拡張はディープネットワークの性能を改善する効果的な方法である。 残念ながら、現在の手法は主に高レベルの視覚タスク(例えば分類)のために開発されており、低レベルの視覚タスク(例えば画像復元)のために研究されているものはほとんどない。 本稿では,超解像課題に適用された既存の拡張手法を包括的に分析する。 空間的関係が極めて重要である画像復元において,画素を破棄あるいは操作する手法が画像復元を妨げすぎることが判明した。 そこで本研究では,低解像度のパッチをカットし,対応する高解像度の画像領域に貼り付けるCutBlurを提案する。 cutblurの重要な直観は、モデルが「方法」だけでなく「どこで」イメージを超解くかを学習できるようにすることである。 そうすることで、各ピクセルに超解像度を適用することを盲目的に学習する代わりに、モデルは「どれだけ」理解することができる。 提案手法は, モデルサイズが大きく, 実環境下でデータ収集を行う場合において, 様々なシナリオにおける性能を, 一貫して, 著しく向上させる。 また,本手法は,デノベーションや圧縮アーティファクトの除去など,他の低レベル視覚タスクを改善していることを示す。

Data augmentation is an effective way to improve the performance of deep networks. Unfortunately, current methods are mostly developed for high-level vision tasks (e.g., classification) and few are studied for low-level vision tasks (e.g., image restoration). In this paper, we provide a comprehensive analysis of the existing augmentation methods applied to the super-resolution task. We find that the methods discarding or manipulating the pixels or features too much hamper the image restoration, where the spatial relationship is very important. Based on our analyses, we propose CutBlur that cuts a low-resolution patch and pastes it to the corresponding high-resolution image region and vice versa. The key intuition of CutBlur is to enable a model to learn not only "how" but also "where" to super-resolve an image. By doing so, the model can understand "how much", instead of blindly learning to apply super-resolution to every given pixel. Our method consistently and significantly improves the performance across various scenarios, especially when the model size is big and the data is collected under real-world environments. We also show that our method improves other low-level vision tasks, such as denoising and compression artifact removal.
翻訳日:2022-12-17 19:21:58 公開日:2020-04-23
# 法的判断予測のための紛らわしい法律記事の区別

Distinguish Confusing Law Articles for Legal Judgment Prediction ( http://arxiv.org/abs/2004.02557v3 )

ライセンス: Link先を確認
Nuo Xu, Pinghui Wang, Long Chen, Li Pan, Xiaoyan Wang, Junzhou Zhao(参考訳) 法的判断予測(英: legal judgment prediction、ljp)とは、訴訟の事実を記述したテキストから判断結果を自動的に予測する作業であり、司法支援システムや一般向けの便利なサービスにおいて優れた可能性を持っている。 実際には、類似の法律に適用される訴訟は容易に誤解されるため、混乱する告発が頻繁に行われる。 この問題に対処するため、既存の手法はドメインの専門家に大きく依存しており、異なる法体系における適用を妨げる。 本稿では, LJP の課題を解決するために, エンドツーエンドモデル LADAN を提案する。 そこで本研究では, 規則記事間の微妙な差異を自動的に学習し, 学習した差異を十分に活用し, 事実記述から説得力のある特徴を抽出する新しい注意機構を設計するグラフニューラルネットワークを提案する。 実世界のデータセットで行った実験は、我々のLADNの優位性を示している。

Legal Judgment Prediction (LJP) is the task of automatically predicting a law case's judgment results given a text describing its facts, which has excellent prospects in judicial assistance systems and convenient services for the public. In practice, confusing charges are frequent, because law cases applicable to similar law articles are easily misjudged. For addressing this issue, the existing method relies heavily on domain experts, which hinders its application in different law systems. In this paper, we present an end-to-end model, LADAN, to solve the task of LJP. To distinguish confusing charges, we propose a novel graph neural network to automatically learn subtle differences between confusing law articles and design a novel attention mechanism that fully exploits the learned differences to extract compelling discriminative features from fact descriptions attentively. Experiments conducted on real-world datasets demonstrate the superiority of our LADAN.
翻訳日:2022-12-16 05:36:31 公開日:2020-04-23
# 衛星によるケニア北部の家畜の牧畜状況の予測

Satellite-based Prediction of Forage Conditions for Livestock in Northern Kenya ( http://arxiv.org/abs/2004.04081v2 )

ライセンス: Link先を確認
Andrew Hobbs, Stacey Svetlichnaya(参考訳) 本稿では,地上の専門家による飼料品質のラベル付き衛星画像の最初のデータセットを紹介し,コンピュータビジョン手法を干ばつ保険に適用するための概念実証を行う。 また,データセット上で正確な機械学習モデルをクラウドソースするために使用される協調ベンチマークツールの結果を示す。 本手法は,北ケニアの保険プログラムにおいて既存の技術よりも著しく優れており,干ばつへの曝露が深刻で気候変動により悪化している牧畜業者にとって,コンピュータビジョンに基づくアプローチが大きな利益をもたらす可能性が示唆されている。

This paper introduces the first dataset of satellite images labeled with forage quality by on-the-ground experts and provides proof of concept for applying computer vision methods to index-based drought insurance. We also present the results of a collaborative benchmark tool used to crowdsource an accurate machine learning model on the dataset. Our methods significantly outperform the existing technology for an insurance program in Northern Kenya, suggesting that a computer vision-based approach could substantially benefit pastoralists, whose exposure to droughts is severe and worsening with climate change.
翻訳日:2022-12-15 09:11:57 公開日:2020-04-23
# ロールアウェア報酬分解によるマルチエージェントタスク指向のダイアログポリシ学習

Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward Decomposition ( http://arxiv.org/abs/2004.03809v2 )

ライセンス: Link先を確認
Ryuichi Takanobu, Runze Liang, Minlie Huang(参考訳) 多くの研究が強化学習をダイアログポリシーのトレーニングに応用し、近年は大きな期待が持たれている。 一般的なアプローチの1つは、強化学習アルゴリズムのために多数のシミュレーションユーザエクスペリエンスを取得するためにユーザシミュレータを使用することである。 しかし,現実的なユーザシミュレータのモデリングは難しい。 ルールベースのシミュレータは複雑なタスクに対して重いドメイン知識を必要とし、データ駆動シミュレータはかなりのデータを必要とし、シミュレータの評価方法さえも不明である。 ユーザシミュレータを事前に明示的に構築することを避けるために,システムとユーザの両方をダイアログエージェントとして扱うマルチエージェントダイアログポリシ学習を提案する。 2人のエージェントが互いに対話し、同時に学習される。 この方法はアクター・クリティカル・フレームワークを使用して事前学習とスケーラビリティの向上を容易にする。 また,タスク指向ダイアログにおける各エージェントの役割固有のドメイン知識を統合するために,役割認識報酬分解のためのハイブリッドバリューネットワークを提案する。 その結果,本手法はシステムポリシとユーザポリシを同時に構築することができ,対話的インタラクションによって2つのエージェントが高いタスク成功率を達成することができた。

Many studies have applied reinforcement learning to train a dialog policy and show great promise these years. One common approach is to employ a user simulator to obtain a large number of simulated user experiences for reinforcement learning algorithms. However, modeling a realistic user simulator is challenging. A rule-based simulator requires heavy domain expertise for complex tasks, and a data-driven simulator requires considerable data and it is even unclear how to evaluate a simulator. To avoid explicitly building a user simulator beforehand, we propose Multi-Agent Dialog Policy Learning, which regards both the system and the user as the dialog agents. Two agents interact with each other and are jointly learned simultaneously. The method uses the actor-critic framework to facilitate pretraining and improve scalability. We also propose Hybrid Value Network for the role-aware reward decomposition to integrate role-specific domain knowledge of each agent in the task-oriented dialog. Results show that our method can successfully build a system policy and a user policy simultaneously, and two agents can achieve a high task success rate through conversational interaction.
翻訳日:2022-12-15 08:11:04 公開日:2020-04-23
# In Search of Life: Learning from Synthetic Data to Detection Vital Signs in Videos

In Search of Life: Learning from Synthetic Data to Detect Vital Signs in Videos ( http://arxiv.org/abs/2004.07691v2 )

ライセンス: Link先を確認
Florin Condrea, Victor-Andrei Ivan, Marius Leordeanu(参考訳) 心臓や呼吸率などのビデオにおけるバイタルサインを自動的に検出することは、コンピュータビジョンにおける課題であり、医療分野における重要な応用である。 このタスクに取り組む上で重要な課題の1つは、十分な教師付きトレーニングデータの不足であり、強力なディープニューラルネットワークの使用を著しく制限する。 本稿では、この制限を、純粋に合成されたデータから赤外線熱領域におけるバイタルサインを検出するために、再帰的な深層ニューラルネットワークを訓練する、新しいディープラーニングアプローチを通じて解決する。 最も驚きなのは、我々の新しい合成トレーニングデータ生成法が一般的であり、比較的単純であり、医学領域の知識がほとんどないことです。 さらに,本システムは,人間のアノテーションを必要としない純粋に自動で訓練されており,各時点の呼吸や心臓の強度を予測し,例えば呼吸の場合の鼻領域など,与えられたタスクに最も関係のある関心領域を検出することを学習している。 提案システムの有効性を最近のLCASデータセットで検証し,最新結果を得た。

Automatically detecting vital signs in videos, such as the estimation of heart and respiration rates, is a challenging research problem in computer vision with important applications in the medical field. One of the key difficulties in tackling this task is the lack of sufficient supervised training data, which severely limits the use of powerful deep neural networks. In this paper we address this limitation through a novel deep learning approach, in which a recurrent deep neural network is trained to detect vital signs in the infrared thermal domain from purely synthetic data. What is most surprising is that our novel method for synthetic training data generation is general, relatively simple and uses almost no prior medical domain knowledge. Moreover, our system, which is trained in a purely automatic manner and needs no human annotation, also learns to predict the respiration or heart intensity signal for each moment in time and to detect the region of interest that is most relevant for the given task, e.g. the nose area in the case of respiration. We test the effectiveness of our proposed system on the recent LCAS dataset and obtain state-of-the-art results.
翻訳日:2022-12-12 21:29:09 公開日:2020-04-23
# AD-Cluster: ドメイン適応型人物再識別のための識別クラスタリング

AD-Cluster: Augmented Discriminative Clustering for Domain Adaptive Person Re-identification ( http://arxiv.org/abs/2004.08787v2 )

ライセンス: Link先を確認
Yunpeng Zhai (1), Shijian Lu (2), Qixiang Ye (3,5), Xuebo Shan (1), Jie Chen (1,5), Rongrong Ji (4,5) and Yonghong Tian (1,5) ((1) Peking University, (2) Nanyang Technological University, (3) University of Chinese Academy of Sciences, (4) Xiamen University, (5) Peng Cheng Laboratory)(参考訳) ドメイン適応型人物再識別(re-ID)は、特に対象ドメインの人物の身元が不明な場合に難しい課題である。 既存の手法では、画像スタイルの転送やドメイン間の特徴分布の整合化によってこの問題に対処しようとするが、対象ドメインの豊富なラベル付きサンプルは十分に活用されていない。 本稿では、対象ドメイン内の人物クラスタを推定・拡張し、拡張クラスタを用いた再IDモデルの識別能力を強制する新しい拡張識別クラスタリング(AD-Cluster)手法を提案する。 AD-Clusterは反復密度に基づくクラスタリング、適応型サンプル拡張、識別的特徴学習によって訓練されている。 サンプル空間内のクラスタ内多様性を最大化することを目的としたイメージジェネレータとフィーチャーエンコーダを学習し、反対のmin-max方法で特徴空間内のクラスタ内距離を最小化する。 最後に、AD-Clusterはサンプルクラスタの多様性を高め、re-IDモデルの識別能力を大幅に向上させる。 Market-1501 と DukeMTMC-reID の広範な実験により、AD-Cluster は最先端の最先端を大きなマージンで上回ることを示した。

Domain adaptive person re-identification (re-ID) is a challenging task, especially when person identities in target domains are unknown. Existing methods attempt to address this challenge by transferring image styles or aligning feature distributions across domains, whereas the rich unlabeled samples in target domains are not sufficiently exploited. This paper presents a novel augmented discriminative clustering (AD-Cluster) technique that estimates and augments person clusters in target domains and enforces the discrimination ability of re-ID models with the augmented clusters. AD-Cluster is trained by iterative density-based clustering, adaptive sample augmentation, and discriminative feature learning. It learns an image generator and a feature encoder which aim to maximize the intra-cluster diversity in the sample space and minimize the intra-cluster distance in the feature space in an adversarial min-max manner. Finally, AD-Cluster increases the diversity of sample clusters and improves the discrimination capability of re-ID models greatly. Extensive experiments over Market-1501 and DukeMTMC-reID show that AD-Cluster outperforms the state-of-the-art with large margins.
翻訳日:2022-12-12 00:23:29 公開日:2020-04-23
# 述語論理における典型性と確率に関する考察

Reasoning about Typicality and Probabilities in Preferential Description Logics ( http://arxiv.org/abs/2004.09507v2 )

ライセンス: Link先を確認
Laura Giordano, Valentina Gliozzi, Antonio Lieto, Nicola Olivetti, Gian Luca Pozzato(参考訳) 本論文では,標準記述論理の非単調拡張として,標準記述論理を典型的作用素 t を用いて記述し,知識ベースを t(c) v d の形に包含して拡張し,その直感的意味から正規/定型的 cs も ds であることを示す。 この拡張は、優先モデルに基づく有理閉包の概念に対応する最小限のモデル意味論に基づいている。 我々は優先記述論理の基礎となる基本的な概念を思い出す。 また,2つの優先的セマンティクスの拡張について述べる。一方,コモンセンスの概念の組み合わせの問題に対処する分散セマンティクスをベースとした確率的拡張について考察する一方で,有理的クロージャのセマンティクスの強化や,いわゆる財産相続問題の阻止を回避する構築について考察する。

In this work we describe preferential Description Logics of typicality, a nonmonotonic extension of standard Description Logics by means of a typicality operator T allowing to extend a knowledge base with inclusions of the form T(C) v D, whose intuitive meaning is that normally/typically Cs are also Ds. This extension is based on a minimal model semantics corresponding to a notion of rational closure, built upon preferential models. We recall the basic concepts underlying preferential Description Logics. We also present two extensions of the preferential semantics: on the one hand, we consider probabilistic extensions, based on a distributed semantics that is suitable for tackling the problem of commonsense concept combination, on the other hand, we consider other strengthening of the rational closure semantics and construction to avoid the so-called blocking of property inheritance problem.
翻訳日:2022-12-11 18:37:14 公開日:2020-04-23
# 第1回農業ビジョンチャレンジ : 方法と成果

The 1st Agriculture-Vision Challenge: Methods and Results ( http://arxiv.org/abs/2004.09754v2 )

ライセンス: Link先を確認
Mang Tik Chiu, Xingqian Xu, Kai Wang, Jennifer Hobbs, Naira Hovakimyan, Thomas S. Huang, Honghui Shi, Yunchao Wei, Zilong Huang, Alexander Schwing, Robert Brunner, Ivan Dozier, Wyatt Dozier, Karen Ghandilyan, David Wilson, Hyunseong Park, Junhee Kim, Sungho Kim, Qinghui Liu, Michael C. Kampffmeyer, Robert Jenssen, Arnt B. Salberg, Alexandre Barbosa, Rodrigo Trevisan, Bingchen Zhao, Shaozuo Yu, Siwei Yang, Yin Wang, Hao Sheng, Xiao Chen, Jingyi Su, Ram Rajagopal, Andrew Ng, Van Thong Huynh, Soo-Hyung Kim, In-Seop Na, Ujjwal Baid, Shubham Innani, Prasad Dutande, Bhakti Baheti, Sanjay Talbar, Jianyu Tang(参考訳) 第1回農業ビジョンチャレンジは,航空画像から農業パターン認識のための新規かつ効果的なアルゴリズム,特に課題データセットに関連する意味セグメンテーションタスクの開発を奨励することを目的としている。 各国から約57チームが参加し、航空農業のセマンティクスセグメンテーションにおける最先端の成果を競う。 農業ビジョンチャレンジデータセットは21,061枚の空中およびマルチスペクトルの農地画像からなる。 本稿では,この課題における注目すべき方法と結果について概説する。 当社の提出サーバとleaderboardは,この課題データセットとタスクに興味を持つ研究者に対して,今後もオープンになる予定です。

The first Agriculture-Vision Challenge aims to encourage research in developing novel and effective algorithms for agricultural pattern recognition from aerial images, especially for the semantic segmentation task associated with our challenge dataset. Around 57 participating teams from various countries compete to achieve state-of-the-art in aerial agriculture semantic segmentation. The Agriculture-Vision Challenge Dataset was employed, which comprises of 21,061 aerial and multi-spectral farmland images. This paper provides a summary of notable methods and results in the challenge. Our submission server and leaderboard will continue to open for researchers that are interested in this challenge dataset and task; the link can be found here.
翻訳日:2022-12-11 06:39:43 公開日:2020-04-23
# LRTD:手術ワークフロー認識のための長期時間依存に基づくアクティブラーニング

LRTD: Long-Range Temporal Dependency based Active Learning for Surgical Workflow Recognition ( http://arxiv.org/abs/2004.09845v2 )

ライセンス: Link先を確認
Xueying Shi, Yueming Jin, Qi Dou, Pheng-Ann Heng(参考訳) ビデオにおける自動手術ワークフロー認識は、コンピュータ支援およびロボット支援手術を開発する上で、基本的には基本的な問題である。 既存のディープラーニングのアプローチは、大規模なラベル付きデータセットに大きく依存し、手術ビデオの分析において顕著なパフォーマンスを達成している。 残念なことに、このアノテーションは外科医のドメイン知識を必要とするため、多くは利用できない。 本稿では,費用対効果の高い手術映像解析のための新しい能動的学習法を提案する。 具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。 次にクリップ内の依存関係全体を表すために、クリップ内依存性スコアを定式化します。 非ラベルデータプールのクリップ間でスコアをランク付けすることで、アノテーションに弱い依存関係のあるクリップを選択します。 大規模手術ビデオデータセット (cholec80) 上で, 手術ワークフロー認識タスクを実行し, そのアプローチを検証する。 LRTDに基づく選択戦略を用いることで、他の最先端のアクティブな学習方法よりも優れている。 サンプルの最大50%しか使用していないため、本手法はフルデータトレーニングのパフォーマンスを上回ることができる。

Automatic surgical workflow recognition in video is an essentially fundamental yet challenging problem for developing computer-assisted and robotic-assisted surgery. Existing approaches with deep learning have achieved remarkable performance on analysis of surgical videos, however, heavily relying on large-scale labelled datasets. Unfortunately, the annotation is not often available in abundance, because it requires the domain knowledge of surgeons. In this paper, we propose a novel active learning method for cost-effective surgical video analysis. Specifically, we propose a non-local recurrent convolutional network (NL-RCNet), which introduces non-local block to capture the long-range temporal dependency (LRTD) among continuous frames. We then formulate an intra-clip dependency score to represent the overall dependency within this clip. By ranking scores among clips in unlabelled data pool, we select the clips with weak dependencies to annotate, which indicates the most informative ones to better benefit network training. We validate our approach on a large surgical video dataset (Cholec80) by performing surgical workflow recognition task. By using our LRTD based selection strategy, we can outperform other state-of-the-art active learning methods. Using only up to 50% of samples, our approach can exceed the performance of full-data training.
翻訳日:2022-12-11 05:44:32 公開日:2020-04-23
# OL4EL: リソース制約のある異種エッジ上でのエッジクラウド協調学習のためのオンライン学習

OL4EL: Online Learning for Edge-cloud Collaborative Learning on Heterogeneous Edges with Resource Constraints ( http://arxiv.org/abs/2004.10387v2 )

ライセンス: Link先を確認
Qing Han, Shusen Yang, Xuebin Ren, Cong Zhao, Jingqi Zhang, Xinyu Yang(参考訳) ネットワークエッジにおける分散機械学習(ML)は、データプロバイダのネットワーク帯域幅とプライバシの両方を保護できる有望なパラダイムである。 しかし、エッジサーバ(またはエッジ)上の不均一で限られた計算と通信リソースは、分散MLに大きな課題をもたらし、エッジラーニング(エッジクラウド協調機械学習)の新しいパラダイムを定式化する。 本稿では,資源制約のあるヘテロジニアスエッジ上でのエッジ学習(EL)を効果的に行うための'学習する'フレームワークを提案する。 elの性能とエッジサーバのリソース消費のトレードオフを達成するためのオンライン最適化問題として,まず,協調戦略の動的決定(エッジサーバにおける局所イテレーションの割り当てと,協調学習プロセス中のクラウド上のグローバル集約)をモデル化した。 そこで我々は,予算限定のマルチアームバンディットモデルに基づく,EL(Online Learning for EL)フレームワークを提案する。 OL4ELは同期と非同期の両方の学習パターンをサポートし、教師なしと教師なしの両方の学習タスクに使用できる。 OL4ELの性能を評価するため,実世界のテストベッド実験とドッカーコンテナに基づく広範囲なシミュレーションを行い,Support Vector MachineとK-meansを併用例として検討した。 実験の結果,OL4ELは,学習性能と資源消費のトレードオフの観点から,最先端のELと他の協調MLアプローチを著しく上回ることがわかった。

Distributed machine learning (ML) at network edge is a promising paradigm that can preserve both network bandwidth and privacy of data providers. However, heterogeneous and limited computation and communication resources on edge servers (or edges) pose great challenges on distributed ML and formulate a new paradigm of Edge Learning (i.e. edge-cloud collaborative machine learning). In this article, we propose a novel framework of 'learning to learn' for effective Edge Learning (EL) on heterogeneous edges with resource constraints. We first model the dynamic determination of collaboration strategy (i.e. the allocation of local iterations at edge servers and global aggregations on the Cloud during collaborative learning process) as an online optimization problem to achieve the tradeoff between the performance of EL and the resource consumption of edge servers. Then, we propose an Online Learning for EL (OL4EL) framework based on the budget-limited multi-armed bandit model. OL4EL supports both synchronous and asynchronous learning patterns, and can be used for both supervised and unsupervised learning tasks. To evaluate the performance of OL4EL, we conducted both real-world testbed experiments and extensive simulations based on docker containers, where both Support Vector Machine and K-means were considered as use cases. Experimental results demonstrate that OL4EL significantly outperforms state-of-the-art EL and other collaborative ML approaches in terms of the trade-off between learning performance and resource consumption.
翻訳日:2022-12-10 17:49:27 公開日:2020-04-23
# フェデレーション学習における勾配漏洩攻撃評価の枠組み

A Framework for Evaluating Gradient Leakage Attacks in Federated Learning ( http://arxiv.org/abs/2004.10397v2 )

ライセンス: Link先を確認
Wenqi Wei, Ling Liu, Margaret Loper, Ka-Ho Chow, Mehmet Emre Gursoy, Stacey Truex and Yanzhao Wu(参考訳) Federated Learning(FL)は、クライアント(エッジデバイス)のネットワークと協調的なモデルトレーニングのための、新興の分散機械学習フレームワークである。 FLは、クライアントが機密データをローカルデバイスに保持し、ローカルトレーニングパラメータのアップデートのみをフェデレーションサーバと共有できるようにすることで、デフォルトのクライアントプライバシを提供する。 しかし、最近の研究では、クライアントからフェデレーションサーバにローカルパラメータの更新を共有しても、グラデーションリーク攻撃の影響を受け、トレーニングデータに関するクライアントのプライバシーを侵害する可能性があることが示されている。 本稿では,クライアントプライバシ漏洩攻撃のさまざまな形態の評価と比較を行うための原則的枠組みを提案する。 まず,ローカルトレーニングからの共有パラメータ更新(局所勾配や重み付け更新ベクトルなど)を単純に解析することにより,敵がプライベートなローカルトレーニングデータを再構築できることを示す形式的および実験的分析を行う。 次に,連合学習におけるハイパーパラメータ構成の違いと,攻撃アルゴリズムの設定の違いが攻撃効果と攻撃コストにどのように影響するかを分析する。 また,通信効率のよいFLプロトコルを用いてクライアントのプライバシー漏洩攻撃の有効性を,異なる勾配圧縮比で測定し,評価し,解析する。 私たちの実験には、フェデレーション学習や攻撃緩和のための理論的基盤の開発において、さまざまな形のクライアントプライバシリークの脅威を深く理解するための体系的攻撃評価フレームワークを提供することの重要性を強調する予備的緩和戦略も含まれています。

Federated learning (FL) is an emerging distributed machine learning framework for collaborative model training with a network of clients (edge devices). FL offers default client privacy by allowing clients to keep their sensitive data on local devices and to only share local training parameter updates with the federated server. However, recent studies have shown that even sharing local parameter updates from a client to the federated server may be susceptible to gradient leakage attacks and intrude the client privacy regarding its training data. In this paper, we present a principled framework for evaluating and comparing different forms of client privacy leakage attacks. We first provide formal and experimental analysis to show how adversaries can reconstruct the private local training data by simply analyzing the shared parameter update from local training (e.g., local gradient or weight update vector). We then analyze how different hyperparameter configurations in federated learning and different settings of the attack algorithm may impact on both attack effectiveness and attack cost. Our framework also measures, evaluates, and analyzes the effectiveness of client privacy leakage attacks under different gradient compression ratios when using communication efficient FL protocols. Our experiments also include some preliminary mitigation strategies to highlight the importance of providing a systematic attack evaluation framework towards an in-depth understanding of the various forms of client privacy leakage threats in federated learning and developing theoretical foundations for attack mitigation.
翻訳日:2022-12-10 17:49:01 公開日:2020-04-23
# AutoEG: オフポリティ深い強化学習のための自動経験グラフト

AutoEG: Automated Experience Grafting for Off-Policy Deep Reinforcement Learning ( http://arxiv.org/abs/2004.10698v2 )

ライセンス: Link先を確認
Keting Lu, Shiqi Zhang, Xiaoping Chen(参考訳) 深層強化学習(RL)アルゴリズムは、学習ポリシーの品質を保証するために、しばしば禁止的な相互作用経験を必要とする。 この制限は、初期の学習段階において、エージェントが多くの低品質の試行から多くを学べないため、学習率が低いことによる。 この制限に対処することに焦点を当てて、本論文は2つの貢献をする。 まず、経験的グラフティング(EG)と呼ばれるアルゴリズムを開発し、RLエージェントが経験的プールから数少ない高品質な軌道のセグメントを再編成し、品質を維持しながら多くの合成軌道を生成する。 第2に,移植に基づく学習戦略の調整を自動学習するAutoEGエージェントを,EG上に構築する。 6つのロボット制御環境から収集した結果は、標準的なディープRLアルゴリズム(DDPG)と比較して、AutoEGが学習プロセスの速度を少なくとも30%向上することを示している。

Deep reinforcement learning (RL) algorithms frequently require prohibitive interaction experience to ensure the quality of learned policies. The limitation is partly because the agent cannot learn much from the many low-quality trials in early learning phase, which results in low learning rate. Focusing on addressing this limitation, this paper makes a twofold contribution. First, we develop an algorithm, called Experience Grafting (EG), to enable RL agents to reorganize segments of the few high-quality trajectories from the experience pool to generate many synthetic trajectories while retaining the quality. Second, building on EG, we further develop an AutoEG agent that automatically learns to adjust the grafting-based learning strategy. Results collected from a set of six robotic control environments show that, in comparison to a standard deep RL algorithm (DDPG), AutoEG increases the speed of learning process by at least 30%.
翻訳日:2022-12-10 17:22:03 公開日:2020-04-23
# 確率的心房活動マップと不確かな伝導速度に対するガウス過程多様体補間

Gaussian Process Manifold Interpolation for Probabilistic Atrial Activation Maps and Uncertain Conduction Velocity ( http://arxiv.org/abs/2004.10586v2 )

ライセンス: Link先を確認
Sam Coveney, Cesare Corrado, Caroline H Roney, Daniel O'Hare, Steven E Williams, Mark D O'Neill, Steven A Niederer, Richard H Clayton, Jeremy E Oakley, Richard D Wilkinson(参考訳) 心房細動の患者では、局所活性化時間(LAT)マップが患者の病態を特徴付けるために日常的に使用される。 LATマップの勾配は、物質伝導率に直接関連し、心房基質特性の重要な指標となる伝導速度(CV)を計算するために用いられる。 CV計算の不確実性を含むことは、これらの測定の信頼性の解釈に役立つだろう。 そこで我々は,不確実なLATの確率的補間をヒト心房多様体に直接行うために,減階ガウス過程(GP)に関する最近の知見を構築した。 我々のガウス過程マニフォールド補間法(GPMI)はアトリアの位相を考慮し,予測CVの統計計算を可能にする。 本手法を2つの臨床症例で実証し, 模擬基底真理に対する検証を行った。 CVの不確実性は、データ密度、波動伝播方向、CV等級に依存する。 GPMIは非ユークリッド多様体上の他の不確実量の確率的補間に適している。

In patients with atrial fibrillation, local activation time (LAT) maps are routinely used for characterising patient pathophysiology. The gradient of LAT maps can be used to calculate conduction velocity (CV), which directly relates to material conductivity and may provide an important measure of atrial substrate properties. Including uncertainty in CV calculations would help with interpreting the reliability of these measurements. Here, we build upon a recent insight into reduced-rank Gaussian processes (GP) to perform probabilistic interpolation of uncertain LAT directly on human atrial manifolds. Our Gaussian Process Manifold Interpolation (GPMI) method accounts for the topology of the atria, and allows for calculation of statistics for predicted CV. We demonstrate our method on two clinical cases, and perform validation against a simulated ground truth. CV uncertainty depends on data density, wave propagation direction, and CV magnitude. GPMI is suitable for probabilistic interpolation of other uncertain quantities on non-Euclidean manifolds.
翻訳日:2022-12-10 17:20:09 公開日:2020-04-23
# 旋回性流れにおける非適応適応サンプリング

Non-Adaptive Adaptive Sampling on Turnstile Streams ( http://arxiv.org/abs/2004.10969v1 )

ライセンス: Link先を確認
Sepideh Mahabadi, Ilya Razenshteyn, David P. Woodruff, Samson Zhou(参考訳) アダプティブサンプリング(Adaptive sample)は、古典的な中央集権的な設定におけるデータ要約問題に対して有用なアルゴリズムツールである。 アダプティブサンプリングは、下層の行列 $\mathbf{A}\in\mathbb{R}^{n\times d}$ の行を繰り返し選択する。 直感的には、アダプティブサンプリングは、前回の繰り返しが完了した後のみ、各行にサンプリング確率を割り当てるという本質的にシーケンシャルな性質から、計算のストリーミングモデルにおける自明なマルチパスアルゴリズムに制限されているようである。 驚くべきことに、ターンタイルストリーム上で適応サンプリングを行うための最初のワンパスアルゴリズムを与え、スペース$\text{poly}(d,k,\log n)$を使用すると、$k$は適応サンプリングラウンドの回数である。 適応サンプリング法では,データ要約問題に対する応用が多岐に渡り,最新技術の改善か,従来より緩和された行配列モデルでのみ研究されてきた。 空間サブリニアを$n$で使用するターンタイルストリームに対して、カラムサブセット選択、部分空間近似、射影クラスタリング、ボリューム最大化のための最初の相対エラーアルゴリズムを提供する。 我々は,マルチパスアルゴリズムにおいても,低次項まで厳密な境界を持つボリューム最大化アルゴリズムを補完する。 また、同様の構成により、競合上界と一致する行-アリーモデルにおける体積最大化のための下限を得る。 完全な要約は紙を参照。

Adaptive sampling is a useful algorithmic tool for data summarization problems in the classical centralized setting, where the entire dataset is available to the single processor performing the computation. Adaptive sampling repeatedly selects rows of an underlying matrix $\mathbf{A}\in\mathbb{R}^{n\times d}$, where $n\gg d$, with probabilities proportional to their distances to the subspace of the previously selected rows. Intuitively, adaptive sampling seems to be limited to trivial multi-pass algorithms in the streaming model of computation due to its inherently sequential nature of assigning sampling probabilities to each row only after the previous iteration is completed. Surprisingly, we show this is not the case by giving the first one-pass algorithms for adaptive sampling on turnstile streams and using space $\text{poly}(d,k,\log n)$, where $k$ is the number of adaptive sampling rounds to be performed. Our adaptive sampling procedure has a number of applications to various data summarization problems that either improve state-of-the-art or have only been previously studied in the more relaxed row-arrival model. We give the first relative-error algorithms for column subset selection, subspace approximation, projective clustering, and volume maximization on turnstile streams that use space sublinear in $n$. We complement our volume maximization algorithmic results with lower bounds that are tight up to lower order terms, even for multi-pass algorithms. By a similar construction, we also obtain lower bounds for volume maximization in the row-arrival model, which we match with competitive upper bounds. See paper for full abstract.
翻訳日:2022-12-10 12:46:21 公開日:2020-04-23
# 乗客フロープロファイルの長期時空間テンソル予測

Long-Short Term Spatiotemporal Tensor Prediction for Passenger Flow Profile ( http://arxiv.org/abs/2004.11022v1 )

ライセンス: Link先を確認
Ziyue Li, Hao Yan, Chen Zhang, Fugee Tsung(参考訳) 時空間データは、製造システムや輸送システムなど、多くのアプリケーションで非常に一般的である。 通常、固有の複雑な空間的および時間的相関から正確に予測することは困難である。 既存の手法の多くは、様々な統計モデルと正規化項に基づいており、複雑な相関関係とともにデータに固有の特徴を保存できない。 本稿では,テンソルに基づく予測に着目し,予測を改善するための実用的手法を提案する。 具体的には、長期予測のために「テンソル分解+2次元自己回帰移動平均(2D-ARMA)」モデルと、予測をリアルタイムに更新する効果的な方法を提案する。 地下鉄の乗客フローデータに基づくケーススタディを行い,性能改善を実証した。

Spatiotemporal data is very common in many applications, such as manufacturing systems and transportation systems. It is typically difficult to be accurately predicted given intrinsic complex spatial and temporal correlations. Most of the existing methods based on various statistical models and regularization terms, fail to preserve innate features in data alongside their complex correlations. In this paper, we focus on a tensor-based prediction and propose several practical techniques to improve prediction. For long-term prediction specifically, we propose the "Tensor Decomposition + 2-Dimensional Auto-Regressive Moving Average (2D-ARMA)" model, and an effective way to update prediction real-time; For short-term prediction, we propose to conduct tensor completion based on tensor clustering to avoid oversimplifying and ensure accuracy. A case study based on the metro passenger flow data is conducted to demonstrate the improved performance.
翻訳日:2022-12-10 12:45:25 公開日:2020-04-23
# ビデオ圧縮のためのニューラルネットワークに基づく予測モードの解析的単純化

Analytic Simplification of Neural Network based Intra-Prediction Modes for Video Compression ( http://arxiv.org/abs/2004.11056v1 )

ライセンス: Link先を確認
Maria Santamaria, Saverio Blasi, Ebroul Izquierdo, Marta Mrak(参考訳) 高い解像度でビデオコンテンツの需要が高まる中、コスト、電力消費、ビデオサービスの環境への影響を減らすために、ビデオエンコーディングタスクの複雑さを制限する方法を見つけることがより重要である。 過去数年間、ニューラルネットワーク(nn)に基づくアルゴリズムは、多くの従来のビデオコーディングモジュールに恩恵をもたらすことが示されている。 しかし、そのような技術は圧縮効率を大幅に向上させることができるが、通常は非常に計算集約的である。 NNが学んだモデルを単純化して、より複雑なソリューションを導き出すという目標に意味のある洞察を活用できることは、非常に有益である。 本稿では,学習モデルから簡易な予測法を導出する方法を2つ提案し,これらの合理化手法が効率的な圧縮解をもたらすことを示す。

With the increasing demand for video content at higher resolutions, it is evermore critical to find ways to limit the complexity of video encoding tasks in order to reduce costs, power consumption and environmental impact of video services. In the last few years, algorithms based on Neural Networks (NN) have been shown to benefit many conventional video coding modules. But while such techniques can considerably improve the compression efficiency, they usually are very computationally intensive. It is highly beneficial to simplify models learnt by NN so that meaningful insights can be exploited with the goal of deriving less complex solutions. This paper presents two ways to derive simplified intra-prediction from learnt models, and shows that these streamlined techniques can lead to efficient compression solutions.
翻訳日:2022-12-10 12:45:11 公開日:2020-04-23
# 空中画像による屋根材分類

Roof material classification from aerial imagery ( http://arxiv.org/abs/2004.11482v1 )

ライセンス: Link先を確認
Roman Solovyev(参考訳) 本稿では, 航空写真を用いた屋根材分類アルゴリズムについて述べる。 このアルゴリズムの主な利点は予測精度を向上させる手法である。 提案手法は、多チャンネル画像を用いたニューラルネットワークのイメージネット重み変換方法、ニューラルネットワークの特定の予測に加えて使用される第2レベルのモデルの特別な特徴セット、トレーニング精度を向上させる特別な画像拡張セットを含む。 さらに,この問題を解決するための完全フローを提案する。 以下のコンテンツはオープンアクセスで利用可能である: ソリューションコード、重みセット、使用済みニューラルネットワークのアーキテクチャ。 提案されたソリューションは、"Open AI Caribbean Challenge"で2位を獲得した。

This paper describes an algorithm for classification of roof materials using aerial photographs. Main advantages of the algorithm are proposed methods to improve prediction accuracy. Proposed methods includes: method of converting ImageNet weights of neural networks for using multi-channel images; special set of features of second level models that are used in addition to specific predictions of neural networks; special set of image augmentations that improve training accuracy. In addition, complete flow for solving this problem is proposed. The following content is available in open access: solution code, weight sets and architecture of the used neural networks. The proposed solution achieved second place in the competition "Open AI Caribbean Challenge".
翻訳日:2022-12-10 12:40:34 公開日:2020-04-23
# メッセージパッシングアルゴリズムを用いた高次元マクロ経済予測

High-dimensional macroeconomic forecasting using message passing algorithms ( http://arxiv.org/abs/2004.11485v1 )

ライセンス: Link先を確認
Dimitris Korobilis(参考訳) 本稿では,大規模情報集合の計量分析と構造不安定性に関する2つの異なる貢献について述べる。 まず、時間変動係数、確率的ボラティリティ、および外因性予測器による回帰モデルを、数千の共変量を持つ等価な高次元静的回帰問題として扱う。 この仕様の推論は、係数の高次元ベクトルをゼロまたは時間不変に縮小するベイズ階層的前置法を用いて進行する。 第二に、効率的なベイズ推定アルゴリズムを設計する手段として、因子グラフとメッセージパッシングのフレームワークを導入する。 特に、一般化近似メッセージパッシング(GAMP)アルゴリズムは、アルゴリズムの複雑さが低く、簡単に並列化可能である。 この結果は、任意に多数の外因性予測器を持つ時間変化パラメータ回帰の推定に使用できる包括的な方法論である。 米国の物価インフレーションの予測演習では、この手法は非常にうまく機能していることが示されています。

This paper proposes two distinct contributions to econometric analysis of large information sets and structural instabilities. First, it treats a regression model with time-varying coefficients, stochastic volatility and exogenous predictors, as an equivalent high-dimensional static regression problem with thousands of covariates. Inference in this specification proceeds using Bayesian hierarchical priors that shrink the high-dimensional vector of coefficients either towards zero or time-invariance. Second, it introduces the frameworks of factor graphs and message passing as a means of designing efficient Bayesian estimation algorithms. In particular, a Generalized Approximate Message Passing (GAMP) algorithm is derived that has low algorithmic complexity and is trivially parallelizable. The result is a comprehensive methodology that can be used to estimate time-varying parameter regressions with arbitrarily large number of exogenous predictors. In a forecasting exercise for U.S. price inflation this methodology is shown to work very well.
翻訳日:2022-12-10 12:40:24 公開日:2020-04-23
# GANを用いた室内人間活動認識の精度向上

Using GAN to Enhance the Accuracy of Indoor Human Activity Recognition ( http://arxiv.org/abs/2004.11228v1 )

ライセンス: Link先を確認
Parisa Fard Moshiri, Hojjat Navidan, Reza Shahbazian, Seyed Ali Ghorashi, David Windridge(参考訳) 室内での人間の活動認識(HAR)は、人体の動きと反射するWiFi信号との相関を探索し、異なる活動の分類を行う。 WiFi信号パターン、特にチャネル状態情報(CSI)のダイナミクスを分析することにより、異なるアクティビティを区別することができる。 CSIデータの収集はタイミングと機器の両方の観点から費用がかかる。 本稿では,実測CSIの必要性を低減するために合成データを用いる。 本稿では,長期記憶(LSTM)を用いて特徴を学習し,7つの異なる行動を認識する,CSIに基づく行動認識システムのための半教師付き学習手法を提案する。 CSI振幅データに主成分分析(PCA)を適用する一方、短時間フーリエ変換(STFT)は周波数領域の特徴を抽出する。 まず、LSTMネットワークを完全に生のCSIデータでトレーニングし、処理時間を大幅に短縮する。 そこで本研究では, 生データの50%をGAN(Generative Adversarial Network)と組み合わせて生成することを目的としている。 実験結果から,本モデルでは分類精度を3.4%向上し,ログ損失を約16%低減できることを確認した。

Indoor human activity recognition (HAR) explores the correlation between human body movements and the reflected WiFi signals to classify different activities. By analyzing WiFi signal patterns, especially the dynamics of channel state information (CSI), different activities can be distinguished. Gathering CSI data is expensive both from the timing and equipment perspective. In this paper, we use synthetic data to reduce the need for real measured CSI. We present a semi-supervised learning method for CSI-based activity recognition systems in which long short-term memory (LSTM) is employed to learn features and recognize seven different actions. We apply principal component analysis (PCA) on CSI amplitude data, while short-time Fourier transform (STFT) extracts the features in the frequency domain. At first, we train the LSTM network with entirely raw CSI data, which takes much more processing time. To this end, we aim to generate data by using 50% of raw data in conjunction with a generative adversarial network (GAN). Our experimental results confirm that this model can increase classification accuracy by 3.4% and reduce the Log loss by almost 16% in the considered scenario.
翻訳日:2022-12-10 12:39:48 公開日:2020-04-23
# moltrans: 薬物標的相互作用予測のための分子相互作用トランスフォーマー

MolTrans: Molecular Interaction Transformer for Drug Target Interaction Prediction ( http://arxiv.org/abs/2004.11424v1 )

ライセンス: Link先を確認
Kexin Huang, Cao Xiao, Lucas Glass, Jimeng Sun(参考訳) 薬物標的相互作用(DTI)予測は、大きな薬物化合物空間を実験的に探索する必要があるため、コストと時間を要するシリコ薬物発見の基本的な課題である。 近年、DTI予測におけるディープラーニングの進歩が期待されている。 しかし, 1 つのデータ駆動型分子表現学習手法は DTI のサブ構造的性質を無視し, より正確で説明が難しい結果を生成する。 分子間相互作用変換器 (MolTrans) は,(1) より正確かつ解釈可能なDTI予測のためのサブ構造パターンマイニングアルゴリズムと相互作用モデリングモジュールの知識,(2) 大規模未ラベルバイオメディカルデータから抽出されたサブ構造間の意味的関係をよりよく抽出し,捉えるための拡張トランスコーダを提案する。 実世界のデータからMoltTransを評価し,最先端のベースラインと比較してDTI予測性能が向上したことを示す。

Drug target interaction (DTI) prediction is a foundational task for in silico drug discovery, which is costly and time-consuming due to the need of experimental search over large drug compound space. Recent years have witnessed promising progress for deep learning in DTI predictions. However, the following challenges are still open: (1) the sole data-driven molecular representation learning approaches ignore the sub-structural nature of DTI, thus produce results that are less accurate and difficult to explain; (2) existing methods focus on limited labeled data while ignoring the value of massive unlabelled molecular data. We propose a Molecular Interaction Transformer (MolTrans) to address these limitations via: (1) knowledge inspired sub-structural pattern mining algorithm and interaction modeling module for more accurate and interpretable DTI prediction; (2) an augmented transformer encoder to better extract and capture the semantic relations among substructures extracted from massive unlabeled biomedical data. We evaluate MolTrans on real world data and show it improved DTI prediction performance compared to state-of-the-art baselines.
翻訳日:2022-12-10 12:39:12 公開日:2020-04-23
# 顔モフをスタイル化して、顔モフ攻撃検知器を改良

Style Your Face Morph and Improve Your Face Morphing Attack Detector ( http://arxiv.org/abs/2004.11435v1 )

ライセンス: Link先を確認
Clemens Seibold, Anna Hilsmann, Peter Eisert(参考訳) 形態付き顔画像は、2つの被験者の顔と非常によく似た合成画像であり、どちらも生体認証システムに対する検証に使用することができる。 2つの被験者の顔画像を調整してブレンドすることで容易に作成できる。 本稿では,顔画像の質を向上させるスタイル転送ベース手法を提案する。 ブレンディングによって生じる顔画像のモーフィックな生成において、画像のデジェネレーションに逆らう。 改良された顔画像および画像品質を改善する他の方法に対する性能に関するアートフェイスモーフィング攻撃検出システムの異なる状態を分析した。 改良された顔画像に最初に直面すると、全ての検出システムは著しく悪化する。 トレーニングデータに品質向上形態を追加することで、そのほとんどは強化され、他の品質改善手段に対する堅牢性がさらに向上します。

A morphed face image is a synthetically created image that looks so similar to the faces of two subjects that both can use it for verification against a biometric verification system. It can be easily created by aligning and blending face images of the two subjects. In this paper, we propose a style transfer based method that improves the quality of morphed face images. It counters the image degeneration during the creation of morphed face images caused by blending. We analyze different state of the art face morphing attack detection systems regarding their performance against our improved morphed face images and other methods that improve the image quality. All detection systems perform significantly worse, when first confronted with our improved morphed face images. Most of them can be enhanced by adding our quality improved morphs to the training data, which further improves the robustness against other means of quality improvement.
翻訳日:2022-12-10 12:38:37 公開日:2020-04-23
# 携帯電話アプリによる薬剤付着度評価と市販薬物サーベイランスのための錠剤識別

Pill Identification using a Mobile Phone App for Assessing Medication Adherence and Post-Market Drug Surveillance ( http://arxiv.org/abs/2004.11479v1 )

ライセンス: Link先を確認
david Prokop, Joseph Babigumira, Ashleigh Lewis(参考訳) 目的: 薬物非依存は臨床および研究手法において重要な要素である。 付着度を測定する方法は数多くあるが、付着度に関する標準は認められていない。 本稿では,携帯電話アプリの有用性と有効性に関するソフトウェア研究を行い,薬物および自己申告された健康対策の写真を用いて薬剤の付着度を測定する。 結果: 被験者はアプリから「薬の追跡を手伝う」よう依頼され、反応は92.9%が「毎日このアプリを使っている」と感じて、服薬を順守した。 被験者はまた、アプリから「毎日、薬を写真に撮る」かどうか尋ねられた。 被験者の回答によると、毎日63%がアプリを使う。 収集したデータを用いて,日常的に利用した被験者が所定の体制に順応する可能性が高かった。 結論: ピル写真は、より正確な時間測定とより頻繁な順応性評価を可能にする、定着性の有用な尺度である。 携帯電話の利用の多様さと,この着信測定方法の比較的容易さを考えると,これは有用かつ費用対効果の高い手法であると考えられる。 しかし, 錠剤の撮影に携帯電話を使用する「手動」の性質は個人差があり, データの一貫性を低下させる「自動」手法が必要である。

Objectives: Medication non-adherence is an important factor in clinical practice and research methodology. There have been many methods of measuring adherence yet no recognized standard for adherence. Here we conduct a software study of the usefulness and efficacy of a mobile phone app to measure medication adherence using photographs taken by a phone app of medications and self-reported health measures. Results: The participants were asked by the app 'would help to keep track of your medication', their response indicated 92.9% felt the app 'would you use this app every day' to improve their medication adherence. The subjects were also asked by the app if they 'would photograph their pills on a daily basis'. Subject responses indicated 63% would use the app on a daily basis. By using the data collected, we determined that subjects who used the app on daily basis were more likely to adhere to the prescribed regimen. Conclusions: Pill photographs are a useful measure of adherence, allowing more accurate time measures and more frequent adherence assessment. Given the ubiquity of mobile telephone use, and the relative ease of this adherence measurement method, we believe it is a useful and cost-effective approach. However we feel the 'manual' nature of using the phone for taking a photograph of a pill has individual variability and an 'automatic' method is needed to reduce data inconsistency.
翻訳日:2022-12-10 12:38:22 公開日:2020-04-23
# PERMDNN: 可変対角行列を用いた効率的な圧縮DNNアーキテクチャ

PERMDNN: Efficient Compressed DNN Architecture with Permuted Diagonal Matrices ( http://arxiv.org/abs/2004.10936v1 )

ライセンス: Link先を確認
Chunhua Deng, Siyu Liao, Yi Xie, Keshab K. Parhi, Xuehai Qian, Bo Yuan(参考訳) ディープニューラルネットワーク(DNN)は、最も重要で人気のある人工知能(AI)技術として登場した。 モデルサイズの成長は、基盤となるコンピューティングプラットフォームにとって重要なエネルギー効率の課題となる。 したがって、モデル圧縮は重要な問題となる。 しかし、現在のアプローチは様々な欠点によって制限されている。 具体的には、ネットワークスペーシフィケーションアプローチは不規則性、ヒューリスティックな性質、インデックス化のオーバーヘッドが大きい。 一方、最近の構造化行列ベースアプローチ(circnn)は、比較的複雑な算術計算(つまりfft)、柔軟性の低い圧縮比、そして入力スパーシティを十分に活用できないことで制限されている。 本稿では, ハードウェアフレンドリな構造的DNNモデルの生成と実行を, 直交対角行列を用いた新しいアプローチであるPermDNNを提案する。 PermDNNは、非構造化スペーシフィケーションアプローチと比較して、インデックス化オーバーヘッド、非ヒューリスティック圧縮効果、時間的再トレーニングの欠点を排除している。 permdnnは、循環構造合成アプローチと比較して計算複雑性の低減、柔軟な圧縮比、単純な算術計算、入力スパーシティのフル活用の利点を享受している。 本稿では,マルチプロセス要素 (PE) の階層型計算エンジンであるPermDNNアーキテクチャを提案する。 アーキテクチャ全体が非常にスケーラブルで柔軟性があり、異なるモデル構成で異なるアプリケーションのニーズをサポートすることができます。 CMOS 28nm技術を用いて32PEの設計を行う。 EIEと比較すると、PermDNNは全体の3.3x〜4.8倍、面積効率は5.9x〜8.5倍、エネルギー効率は2.8x〜4.0倍である。 CirCNNと比較すると、PermDNNのスループットは11.51倍、エネルギー効率は3.89倍である。

Deep neural network (DNN) has emerged as the most important and popular artificial intelligent (AI) technique. The growth of model size poses a key energy efficiency challenge for the underlying computing platform. Thus, model compression becomes a crucial problem. However, the current approaches are limited by various drawbacks. Specifically, network sparsification approach suffers from irregularity, heuristic nature and large indexing overhead. On the other hand, the recent structured matrix-based approach (i.e., CirCNN) is limited by the relatively complex arithmetic computation (i.e., FFT), less flexible compression ratio, and its inability to fully utilize input sparsity. To address these drawbacks, this paper proposes PermDNN, a novel approach to generate and execute hardware-friendly structured sparse DNN models using permuted diagonal matrices. Compared with unstructured sparsification approach, PermDNN eliminates the drawbacks of indexing overhead, non-heuristic compression effects and time-consuming retraining. Compared with circulant structure-imposing approach, PermDNN enjoys the benefits of higher reduction in computational complexity, flexible compression ratio, simple arithmetic computation and full utilization of input sparsity. We propose PermDNN architecture, a multi-processing element (PE) fully-connected (FC) layer-targeted computing engine. The entire architecture is highly scalable and flexible, and hence it can support the needs of different applications with different model configurations. We implement a 32-PE design using CMOS 28nm technology. Compared with EIE, PermDNN achieves 3.3x~4.8x higher throughout, 5.9x~8.5x better area efficiency and 2.8x~4.0x better energy efficiency on different workloads. Compared with CirCNN, PermDNN achieves 11.51x higher throughput and 3.89x better energy efficiency.
翻訳日:2022-12-10 10:16:09 公開日:2020-04-23
# 映像データ中のクラスターイベントのリアルタイム検出と添加物製造への応用

Real-time Detection of Clustered Events in Video-imaging data with Applications to Additive Manufacturing ( http://arxiv.org/abs/2004.10977v1 )

ライセンス: Link先を確認
Hao Yan, Marco Grasso, Kamran Paynabar, and Bianca Maria Colosimo(参考訳) インラインプロセス監視アプリケーションにおける映像データの利用は、業界でますます人気が高まっている。 この枠組みでは、関連する情報の内容と制御不能状態のシグナルを捉えるために時空間的統計プロセス監視手法が必要である。 映像撮影データは,基本現象に依存する時空間変動構造によって特徴付けられ,典型的な制御不能パターンは時間と空間の両方で局所化された事象と関連している。 本稿では,映像データにおける異常検出のための時空間分解・回帰手法を提案する。 制御外イベントは通常、空間的に疎結合で時間的に一貫性がある。 したがって、目標はできるだけ早く異常を検出すること("when")だけでなく、それを見つけること("where")である。 提案手法は,従来の時空間データをランダムな自然事象,空間的・時間的一貫した異常事象,ランダムな雑音に分解する。 提案手法のリアルタイム実装を実現するために,時空間回帰のための再帰的推定手法を提案する。 最後に、ホットスポットの発生時期と発生場所を検出するために、確率比試験法を提案する。 本手法は, 金属添加物製造プロセスにおいて, 局所過熱現象(ホットスポット)を検出し, 検出するために, 映像データの解析に応用した。

The use of video-imaging data for in-line process monitoring applications has become more and more popular in the industry. In this framework, spatio-temporal statistical process monitoring methods are needed to capture the relevant information content and signal possible out-of-control states. Video-imaging data are characterized by a spatio-temporal variability structure that depends on the underlying phenomenon, and typical out-of-control patterns are related to the events that are localized both in time and space. In this paper, we propose an integrated spatio-temporal decomposition and regression approach for anomaly detection in video-imaging data. Out-of-control events are typically sparse spatially clustered and temporally consistent. Therefore, the goal is to not only detect the anomaly as quickly as possible ("when") but also locate it ("where"). The proposed approach works by decomposing the original spatio-temporal data into random natural events, sparse spatially clustered and temporally consistent anomalous events, and random noise. Recursive estimation procedures for spatio-temporal regression are presented to enable the real-time implementation of the proposed methodology. Finally, a likelihood ratio test procedure is proposed to detect when and where the hotspot happens. The proposed approach was applied to the analysis of video-imaging data to detect and locate local over-heating phenomena ("hotspots") during the layer-wise process in a metal additive manufacturing process.
翻訳日:2022-12-10 10:15:17 公開日:2020-04-23
# Virtual SAR: 深層学習に基づくスペックル雑音低減アルゴリズムのための合成データセット

Virtual SAR: A Synthetic Dataset for Deep Learning based Speckle Noise Reduction Algorithms ( http://arxiv.org/abs/2004.11021v1 )

ライセンス: Link先を確認
Shrey Dabhi, Kartavya Soni, Utkarsh Patel, Priyanka Sharma and Manojkumar Parmar(参考訳) 合成開口レーダ(SAR)画像には大量の情報が含まれているが、スペックルノイズの存在により実用用途の数は限られている。 近年,深層学習に基づく技術は,画像復元やノイズ除去の領域において大きな改善をもたらしている。 しかし、ディープニューラルネットワークベースのシステムのトレーニングに適したデータがないことが、さらなる研究の妨げとなっている。 本稿では,スペックル削減アルゴリズムの学習のための合成データを生成する標準的な方法を提案し,この領域の研究を進めるためのユースケースを示す。

Synthetic Aperture Radar (SAR) images contain a huge amount of information, however, the number of practical use-cases is limited due to the presence of speckle noise in them. In recent years, deep learning based techniques have brought significant improvement in the domain of denoising and image restoration. However, further research has been hampered by the lack of availability of data suitable for training deep neural network based systems. With this paper, we propose a standard way of generating synthetic data for the training of speckle reduction algorithms and demonstrate a use-case to advance research in this domain.
翻訳日:2022-12-10 10:14:55 公開日:2020-04-23
# 定常ウェーブレット変換, HMM, EMアルゴリズムを用いたエッジ検出

Edge Detection using Stationary Wavelet Transform, HMM, and EM algorithm ( http://arxiv.org/abs/2004.11296v1 )

ライセンス: Link先を確認
S.Anand, K.Nagajothi, K.Nithya(参考訳) 定常ウェーブレット変換(SWT)はエッジ解析のための効率的なツールである。 本稿では,SWTに基づく隠れマルコフモデル(WHMM)と予測最大化(EM)アルゴリズムを用いた新しいエッジ検出手法を提案する。 SWT係数は隠れ状態を含み、SWT係数がエッジモデルに適合するか否かを示す。 Laplacian と Gaussian のモデルは、状態の情報がエッジであるかどうかをチェックするために使用される。 このモデルはemアルゴリズムによって訓練され、ビタビアルゴリズムは状態の回復に使用される。 このアルゴリズムはノイズ画像に対して効率的に適用することができる。

Stationary Wavelet Transform (SWT) is an efficient tool for edge analysis. This paper a new edge detection technique using SWT based Hidden Markov Model (WHMM) along with the expectation-maximization (EM) algorithm is proposed. The SWT coefficients contain a hidden state and they indicate the SWT coefficient fits into an edge model or not. Laplacian and Gaussian model is used to check the information of the state is an edge or no edge. This model is trained by an EM algorithm and the Viterbi algorithm is employed to recover the state. This algorithm can be applied to noisy images efficiently.
翻訳日:2022-12-10 10:13:58 公開日:2020-04-23
# マルチプレーン画像を用いた単視点ビュー合成

Single-View View Synthesis with Multiplane Images ( http://arxiv.org/abs/2004.11364v1 )

ライセンス: Link先を確認
Richard Tucker and Noah Snavely(参考訳) 視覚合成における最近の研究は、ディープラーニングを使用して、既知の視点で2つ以上の入力画像が与えられたマルチプレーン画像(カメラ中心、3d表現)を生成する。 我々はこの表現を単一ビュービュー合成に適用する。 本手法は,単一画像入力から直接多面画像を予測することを学び,監視のためのスケール不変ビュー合成を導入し,オンラインビデオの学習を可能にする。 このアプローチは、いくつかの異なるデータセットに適用可能であり、適度な深度マップを生成し、背景レイヤのフォアグラウンドオブジェクトのエッジの背後にあるコンテンツを埋め込むことを学ぶ。 プロジェクトページ: https://single-view-mpi.github.io/

A recent strand of work in view synthesis uses deep learning to generate multiplane images (a camera-centric, layered 3D representation) given two or more input images at known viewpoints. We apply this representation to single-view view synthesis, a problem which is more challenging but has potentially much wider application. Our method learns to predict a multiplane image directly from a single image input, and we introduce scale-invariant view synthesis for supervision, enabling us to train on online video. We show this approach is applicable to several different datasets, that it additionally generates reasonable depth maps, and that it learns to fill in content behind the edges of foreground objects in background layers. Project page at https://single-view-mpi.github.io/.
翻訳日:2022-12-10 10:13:49 公開日:2020-04-23
# 畳み込みニューラルネットワークによるカメラセンサパターンノイズを利用したデバイスベース画像マッチングと類似性学習

Device-based Image Matching with Similarity Learning by Convolutional Neural Networks that Exploit the Underlying Camera Sensor Pattern Noise ( http://arxiv.org/abs/2004.11443v1 )

ライセンス: Link先を確認
Guru Swaroop Bennabhaktula, Enrique Alegre, Dimka Karastoyanova and George Azzopardi(参考訳) デジタル画像法医学における課題の1つは、同じカメラ装置で撮影された画像を特定する能力である。 この知識は、デジタル画像を分析して被疑者の情報を集めるのに役立つ。 本稿では,一対のイメージが同一のソースカメラを持つ可能性を定量化する2部ネットワークを提案し,31種類のカメラから1851枚の画像を含むベンチマークDresdenデータセットで評価した。 我々の知る限りでは、デバイスベースの画像マッチングの課題に対処する最初の人物である。 提案手法はまだ未定だが,本研究では,この方向性を追求する価値があることを示し,現在85%の精度で達成している。 この活動はEUが支援する4NSEEKプロジェクトの一部であり、児童性的虐待に対する法医学に関するものである。

One of the challenging problems in digital image forensics is the capability to identify images that are captured by the same camera device. This knowledge can help forensic experts in gathering intelligence about suspects by analyzing digital images. In this paper, we propose a two-part network to quantify the likelihood that a given pair of images have the same source camera, and we evaluated it on the benchmark Dresden data set containing 1851 images from 31 different cameras. To the best of our knowledge, we are the first ones addressing the challenge of device-based image matching. Though the proposed approach is not yet forensics ready, our experiments show that this direction is worth pursuing, achieving at this moment 85 percent accuracy. This ongoing work is part of the EU-funded project 4NSEEK concerned with forensics against child sexual abuse.
翻訳日:2022-12-10 10:13:37 公開日:2020-04-23
# 内在的・外在的言語資源に基づくクエリ拡張

Coupled intrinsic and extrinsic human language resource-based query expansion ( http://arxiv.org/abs/2004.11083v1 )

ライセンス: Link先を確認
Bhawani Selvaretnam, Mohammed Belkhatir(参考訳) 情報検索性能の低さは、人間が特定の検索目標に関連すると考えられる文書の語彙に合致した正確な自然言語クエリを定式化することが困難であると定義されているクエリ文書語彙ミスマッチ問題に起因することが多い。 この問題を軽減するために、クエリ拡張プロセスを適用して、初期クエリに追加用語を生成および統合する。 これは、目的の検索目標が適切に強調され、関連する拡張概念が抽出され、拡張されたクエリに含まれるようにするために、主なクエリ概念を正確に識別する必要がある。 自然言語クエリは、音声ラベルや文法関係などの固有の言語特性を持ち、目的とする探索目標を決定するのに利用できる。 さらに、拡張概念をクエリの内容と意味的に一貫性を持たせるために、オントロジーのような外部言語ベースのリソースが必要となる。 本稿では、クエリ構成エンコーディング、拡張概念抽出、概念重み付けのための、ユーザクエリの言語的特徴とオントロジリソースの両方を活かしたクエリ拡張フレームワークを提案する。 実世界のデータセットに関する徹底した実証的評価は、ユニグラム言語モデル、関連性モデル、逐次依存に基づく手法に対するアプローチを検証する。

Poor information retrieval performance has often been attributed to the query-document vocabulary mismatch problem which is defined as the difficulty for human users to formulate precise natural language queries that are in line with the vocabulary of the documents deemed relevant to a specific search goal. To alleviate this problem, query expansion processes are applied in order to spawn and integrate additional terms to an initial query. This requires accurate identification of main query concepts to ensure the intended search goal is duly emphasized and relevant expansion concepts are extracted and included in the enriched query. Natural language queries have intrinsic linguistic properties such as parts-of-speech labels and grammatical relations which can be utilized in determining the intended search goal. Additionally, extrinsic language-based resources such as ontologies are needed to suggest expansion concepts semantically coherent with the query content. We present here a query expansion framework which capitalizes on both linguistic characteristics of user queries and ontology resources for query constituent encoding, expansion concept extraction and concept weighting. A thorough empirical evaluation on real-world datasets validates our approach against unigram language model, relevance model and a sequential dependence based technique.
翻訳日:2022-12-10 10:06:48 公開日:2020-04-23
# 自然言語技術とクエリ拡張:問題,最新技術,展望

Natural language technology and query expansion: issues, state-of-the-art and perspectives ( http://arxiv.org/abs/2004.11093v1 )

ライセンス: Link先を確認
Bhawani Selvaretnam, Mohammed Belkhatir(参考訳) 大量の知識情報源が利用可能であることは、情報検索技術の開発と強化に多大な努力を要した。 ユーザ情報の必要性は自然言語で表現され,検索成功は意図した目的の効果的なコミュニケーションに大きく依存する。 自然言語クエリは、目的とする探索目標を表す複数の言語的特徴から構成される。 意味的あいまいさやクエリの誤解釈を引き起こす言語特性や,検索環境への親しみの欠如などの追加要因は,概念意図のギャップによって作り出された情報ニーズを正確に表現するユーザ能力に影響を与える。 後者は,ユーザの満足度に左右されず,情報検索システムの有効性に影響を及ぼす主要な問題である,返却検索結果の関連性に直接影響する。 私たちの議論の中心は、意味のある用語、フレーズ、あるいは潜伏表現の追加によって、クエリ意図と豊かさを特徴づける重要な構成要素を、手動または自動で、それら意図した意味を捉えることである。 具体的には,文書コーパス内の用語依存の統計的処理やオントロジーなどの外部の知識ソースから収集した情報を用いて,エンリッチメントを実現する手法について検討する。 本稿では,問合せ処理,情報検索,計算言語学,オントロジー工学といった話題を扱った,汎用言語ベースの問合せ拡張フレームワークの解剖を概説し,そのモジュールベース分解を提案する。 それぞれのモジュールについて,使用技術に照らして分類・分析した文献において,最先端のソリューションをレビューする。

The availability of an abundance of knowledge sources has spurred a large amount of effort in the development and enhancement of Information Retrieval techniques. Users information needs are expressed in natural language and successful retrieval is very much dependent on the effective communication of the intended purpose. Natural language queries consist of multiple linguistic features which serve to represent the intended search goal. Linguistic characteristics that cause semantic ambiguity and misinterpretation of queries as well as additional factors such as the lack of familiarity with the search environment affect the users ability to accurately represent their information needs, coined by the concept intention gap. The latter directly affects the relevance of the returned search results which may not be to the users satisfaction and therefore is a major issue impacting the effectiveness of information retrieval systems. Central to our discussion is the identification of the significant constituents that characterize the query intent and their enrichment through the addition of meaningful terms, phrases or even latent representations, either manually or automatically to capture their intended meaning. Specifically, we discuss techniques to achieve the enrichment and in particular those utilizing the information gathered from statistical processing of term dependencies within a document corpus or from external knowledge sources such as ontologies. We lay down the anatomy of a generic linguistic based query expansion framework and propose its module-based decomposition, covering topical issues from query processing, information retrieval, computational linguistics and ontology engineering. For each of the modules we review state-of-the-art solutions in the literature categorized and analyzed under the light of the techniques used.
翻訳日:2022-12-10 10:06:27 公開日:2020-04-23
# マルチ言語ソーシャルネットワークにおけるユーザコンテンツの特徴付け

Characterising User Content on a Multi-lingual Social Network ( http://arxiv.org/abs/2004.11480v1 )

ライセンス: Link先を確認
Pushkal Agarwal, Kiran Garimella, Sagar Joglekar, Nishanth Sastry, Gareth Tyson(参考訳) ソーシャルメディアは21世紀の政治的情報拡散の先駆者となっている。 偽情報、政治的影響、偽ニュースを扱うほとんどの研究は、主流のソーシャルメディアプラットフォームに焦点を当てている。 これは必然的に、私たちのソーシャルメディアにおける政治活動に対する理解において、英語が重要な要素となった。 その結果、世界最大の多言語多文化民主主義(インド)を含む、世界の大部分での限られた研究しか行われていない。 本稿ではインドにおけるShareChatと呼ばれる多言語ソーシャルネットワークの特徴について述べる。 私たちは、2019年のインド総選挙前の72週間にわたって、14の言語で包括的なデータセットを収集しました。 視覚的に類似した画像をクラスタリングすることで言語間動態を解析し、言語障壁を越えてどのように移動するかを探る。 テルグ語、マラヤラム語、タミル語、カナダ語は政治的イメージの勧誘(しばしばミームと呼ばれる)において支配的な傾向にあり、ヒンディー語からの投稿は共有チャット(英語のテキストを含む画像)で最大の言語間拡散を持つ。 言語の壁を越えるテキストを含む画像の場合、言語翻訳はアクセシビリティを広げるために使われることがわかります。 そうは言っても、同じイメージがまったく異なるテキスト(つまり意味)に関連付けられている場合を見つけます。 この初期の特徴付けは、より高度なパイプラインが、多言語および非テキスト環境での偽および政治的コンテンツのダイナミクスを理解するための道を開く。

Social media has been on the vanguard of political information diffusion in the 21st century. Most studies that look into disinformation, political influence and fake-news focus on mainstream social media platforms. This has inevitably made English an important factor in our current understanding of political activity on social media. As a result, there has only been a limited number of studies into a large portion of the world, including the largest, multilingual and multi-cultural democracy: India. In this paper we present our characterisation of a multilingual social network in India called ShareChat. We collect an exhaustive dataset across 72 weeks before and during the Indian general elections of 2019, across 14 languages. We investigate the cross lingual dynamics by clustering visually similar images together, and exploring how they move across language barriers. We find that Telugu, Malayalam, Tamil and Kannada languages tend to be dominant in soliciting political images (often referred to as memes), and posts from Hindi have the largest cross-lingual diffusion across ShareChat (as well as images containing text in English). In the case of images containing text that cross language barriers, we see that language translation is used to widen the accessibility. That said, we find cases where the same image is associated with very different text (and therefore meanings). This initial characterisation paves the way for more advanced pipelines to understand the dynamics of fake and political content in a multi-lingual and non-textual setting.
翻訳日:2022-12-10 10:06:01 公開日:2020-04-23
# データサイエンスの民主化のためのヒューマンマシンコラボレーション

Human-Machine Collaboration for Democratizing Data Science ( http://arxiv.org/abs/2004.11113v1 )

ライセンス: Link先を確認
Cl\'ement Gautrais, Yann Dauxais, Stefano Teso, Samuel Kolb, Gust Verbruggen, Luc De Raedt(参考訳) 誰もが自分のデータを分析したいと思っているが、データサイエンスの専門知識はごくわずかだ。 データサイエンスにおける人間と機械の協調のための新しいフレームワークとシステム「textsc{VisualSynth}」を導入する。 データラウンジリング、データ選択、クラスタリング、制約学習、予測モデリング、自動補完など、さまざまなデータ分析タスクを実行し自動化するために、ユーザが標準的なスプレッドシートソフトウェアと対話できるようにすることで、データサイエンスを民主化したいと考えている。 \textsc{VisualSynth} は、スプレッドシートのカラー化といった色付きスケッチを提供するユーザに依存して、データサイエンスタスクを部分的に指定し、人工知能技術を用いて決定および実行する。

Everybody wants to analyse their data, but only few posses the data science expertise to to this. Motivated by this observation we introduce a novel framework and system \textsc{VisualSynth} for human-machine collaboration in data science. It wants to democratize data science by allowing users to interact with standard spreadsheet software in order to perform and automate various data analysis tasks ranging from data wrangling, data selection, clustering, constraint learning, predictive modeling and auto-completion. \textsc{VisualSynth} relies on the user providing colored sketches, i.e., coloring parts of the spreadsheet, to partially specify data science tasks, which are then determined and executed using artificial intelligence techniques.
翻訳日:2022-12-10 10:05:18 公開日:2020-04-23
# 責任あるAIとそのステークホルダー

Responsible AI and Its Stakeholders ( http://arxiv.org/abs/2004.11434v1 )

ライセンス: Link先を確認
Gabriel Lima, Meeyoung Cha(参考訳) Responsible Artificial Intelligence (AI)は、AIの開発に関わるすべてのステークホルダーがシステムに責任を持つためのフレームワークを提案する。 しかし、AIが自己学習システムの展開に関して法的、道徳的なギャップを埋める可能性があるため、AIが自ら責任を負う可能性を許容できない。 我々は、aiを含むすべての利害関係者に対する責任(責任性、説明責任、責任性)の3つの概念を議論し、この問題における管轄権と一般市民の役割を示唆する。

Responsible Artificial Intelligence (AI) proposes a framework that holds all stakeholders involved in the development of AI to be responsible for their systems. It, however, fails to accommodate the possibility of holding AI responsible per se, which could close some legal and moral gaps concerning the deployment of autonomous and self-learning systems. We discuss three notions of responsibility (i.e., blameworthiness, accountability, and liability) for all stakeholders, including AI, and suggest the roles of jurisdiction and the general public in this matter.
翻訳日:2022-12-10 10:05:02 公開日:2020-04-23
# 欠落データの反復計算における並列計算戦略の影響:MissForestを事例として

Influence of parallel computing strategies of iterative imputation of missing data: a case study on missForest ( http://arxiv.org/abs/2004.11195v1 )

ライセンス: Link先を確認
Shangzhi Hong, Yuqi Sun, Hanying Li, Henry S. Lynn(参考訳) 機械学習の反復的計算手法は、欠落したデータを計算するために研究者によってよく受け入れられているが、大規模なデータセットを扱うには時間がかかる。 この欠点を克服するため、並列コンピューティング戦略が提案されているが、計算結果やその後の統計分析への影響は比較的分かっていない。 本研究では,ランダムフォレスト計算法であるミスフォレストに実装された2つの並列戦略(可変分散計算とモデル分散計算)について検討する。 シミュレーション実験の結果,2つの並列戦略はインプテーション過程と最終インプテーション結果の両方に異なる影響を与えることがわかった。 具体的には、どちらの戦略も同様に正規化されたルート平均2乗予測誤差を生じるが、変数分布戦略は、共変量の平均とそれらの回帰係数の相関を推定する際に、さらなるバイアスをもたらす。

Machine learning iterative imputation methods have been well accepted by researchers for imputing missing data, but they can be time-consuming when handling large datasets. To overcome this drawback, parallel computing strategies have been proposed but their impact on imputation results and subsequent statistical analyses are relatively unknown. This study examines the two parallel strategies (variable-wise distributed computation and model-wise distributed computation) implemented in the random-forest imputation method, missForest. Results from the simulation experiments showed that the two parallel strategies can influence both the imputation process and the final imputation results differently. Specifically, even though both strategies produced similar normalized root mean squared prediction errors, the variable-wise distributed strategy led to additional biases when estimating the mean and inter-correlation of the covariates and their regression coefficients.
翻訳日:2022-12-10 10:04:39 公開日:2020-04-23
# YOLOv4: オブジェクト検出の最適速度と精度

YOLOv4: Optimal Speed and Accuracy of Object Detection ( http://arxiv.org/abs/2004.10934v1 )

ライセンス: Link先を確認
Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao(参考訳) 畳み込みニューラルネットワーク(convolutional neural network, cnn)の精度を向上させるという,数多くの機能がある。 このような特徴の組み合わせを大規模なデータセット上で実践的にテストし、その結果を理論的に正当化する必要がある。 いくつかの機能は、特定のモデルにのみ、あるいは特定の問題にのみ、または小規模データセットでのみ動作するが、バッチ正規化や残留接続といったいくつかの機能は、モデル、タスク、データセットの大部分に適用できる。 このような普遍的特徴には、重み付き残留接続(WRC)、クロスステージ部分接続(CSP)、クロスミニバッチ正規化(CmBN)、自己逆トレーニング(SAT)、マイシュアクティベーションなどがある。 WRC、CSP、CmBN、SAT、Mishアクティベーション、モザイクデータ拡張、CmBN、DropBlock正規化、CIoUロスといった新機能を組み合わせ、Tesla V100上で65FPSのリアルタイム速度でMS COCOデータセットの43.5% AP(65.7% AP50)の最先端結果を実現しました。 ソースコードはhttps://github.com/alexeyab/darknet

There are a huge number of features which are said to improve Convolutional Neural Network (CNN) accuracy. Practical testing of combinations of such features on large datasets, and theoretical justification of the result, is required. Some features operate on certain models exclusively and for certain problems exclusively, or only for small-scale datasets; while some features, such as batch-normalization and residual-connections, are applicable to the majority of models, tasks, and datasets. We assume that such universal features include Weighted-Residual-Connections (WRC), Cross-Stage-Partial-connections (CSP), Cross mini-Batch Normalization (CmBN), Self-adversarial-training (SAT) and Mish-activation. We use new features: WRC, CSP, CmBN, SAT, Mish activation, Mosaic data augmentation, CmBN, DropBlock regularization, and CIoU loss, and combine some of them to achieve state-of-the-art results: 43.5% AP (65.7% AP50) for the MS COCO dataset at a realtime speed of ~65 FPS on Tesla V100. Source code is at https://github.com/AlexeyAB/darknet
翻訳日:2022-12-10 10:04:06 公開日:2020-04-23
# BIT-VO:焦点面の2成分特徴を用いた300FPSの視覚計測

BIT-VO: Visual Odometry at 300 FPS using Binary Features from the Focal Plane ( http://arxiv.org/abs/2004.11186v1 )

ライセンス: Link先を確認
Riku Murai, Sajad Saeedi, Paul H. J. Kelly(参考訳) focal-plane sensor-processor (fpsp) は、センサーチップ上の全ての画素が光強度をキャプチャした焦点平面上で並列に計算できる次世代カメラ技術である。 SCAMP-5は、この研究で使用される汎用FPSPであり、アナログ変換に先立ってアナログ領域で計算を実行する。 焦点面上の画像から特徴を抽出することにより、デジタル化し転送するデータを低減させる。 その結果、SCAMP-5は低消費電力を維持しながら高いフレームレートを提供する。 ここでは,FPSPを利用した最初の6自由度ビジュアルオドメトリーアルゴリズムであるBIT-VOを提案する。 システム全体の動作速度は300fpsで,scamp-5で検出された2値エッジとコーナー機能を用いています。

Focal-plane Sensor-processor (FPSP) is a next-generation camera technology which enables every pixel on the sensor chip to perform computation in parallel, on the focal plane where the light intensity is captured. SCAMP-5 is a general-purpose FPSP used in this work and it carries out computations in the analog domain before analog to digital conversion. By extracting features from the image on the focal plane, data which is digitized and transferred is reduced. As a consequence, SCAMP-5 offers a high frame rate while maintaining low energy consumption. Here, we present BIT-VO, which is, to the best of our knowledge, the first 6 Degrees of Freedom visual odometry algorithm which utilises the FPSP. Our entire system operates at 300 FPS in a natural scene, using binary edges and corner features detected by the SCAMP-5.
翻訳日:2022-12-10 09:57:03 公開日:2020-04-23
# 対向攻撃を防御するためのフィードバックループを用いたアンサンブル生成洗浄

Ensemble Generative Cleaning with Feedback Loops for Defending Adversarial Attacks ( http://arxiv.org/abs/2004.11273v1 )

ライセンス: Link先を確認
Jianhe Yuan and Zhihai He(参考訳) 敵対的攻撃に対するディープニューラルネットワークの効果的な防御は、特に強力なホワイトボックス攻撃下では難しい問題である。 本稿では,深いニューラルネットワークを効果的に防御するためのフィードバックループ(EGC-FL)を用いたアンサンブル生成クリーニング法を提案する。 EGC-FL法は2つの中心概念に基づいている。 まず,正規正規変換とデッドゾーンベースのアクティベーション関数からなる防御ネットワークに変換されたデッドゾーン層を導入し,敵攻撃の洗練されたノイズパターンを破壊する。 第2に,フィードバックループを有する生成的クリーニングネットワークを構築することにより,元のクリーニング画像の多様な推定をアンサンブルで生成することができる。 次に、この多様な見積もりを融合して元の画像を復元するネットワークを学習する。 実験の結果,ホワイトボックス攻撃とブラックボックス攻撃の両方において,最先端の手法が大きなマージンで改善できることが判明した。 これは、svhnデータセットでは29%以上、挑戦的なcifar-10データセットでは39%以上、ホワイトボックスpgd攻撃の分類精度を大幅に向上させる。

Effective defense of deep neural networks against adversarial attacks remains a challenging problem, especially under powerful white-box attacks. In this paper, we develop a new method called ensemble generative cleaning with feedback loops (EGC-FL) for effective defense of deep neural networks. The proposed EGC-FL method is based on two central ideas. First, we introduce a transformed deadzone layer into the defense network, which consists of an orthonormal transform and a deadzone-based activation function, to destroy the sophisticated noise pattern of adversarial attacks. Second, by constructing a generative cleaning network with a feedback loop, we are able to generate an ensemble of diverse estimations of the original clean image. We then learn a network to fuse this set of diverse estimations together to restore the original image. Our extensive experimental results demonstrate that our approach improves the state-of-art by large margins in both white-box and black-box attacks. It significantly improves the classification accuracy for white-box PGD attacks upon the second best method by more than 29% on the SVHN dataset and more than 39% on the challenging CIFAR-10 dataset.
翻訳日:2022-12-10 09:56:32 公開日:2020-04-23
# 皮膚病変データセットとモデル そんなに速くない

Debiasing Skin Lesion Datasets and Models? Not So Fast ( http://arxiv.org/abs/2004.11457v1 )

ライセンス: Link先を確認
Alceu Bissoto, Eduardo Valle, Sandra Avila(参考訳) データ駆動モデルは現在、自動診断を含む多くの現実世界のアプリケーションにデプロイされていますが、同じデータからデータリスク学習バイアスから学んだモデルです。 モデルが現実世界の状況では見つからない急激な相関関係を学習すると、医療上の決定などの重要なタスクへの展開は破滅的なものになる。 本研究は, 皮膚-歯列分類モデルにおいて, 偏りのあるネットワークが生み出す素因的相関関係の発見と, それらの素因的相関関係の除去によるモデル劣化という2つの目的に対処する。 本研究では,7つの視覚アーチファクト(ネットワークによって悪用されるバイアスの原因となる可能性のある)の体系的統合分析を行い,モデルがスプリアス相関を学習することを防止し,バイアスの存在をモデルでテストするためのデータセットを提案する。 将来有望な研究を示唆する興味深い結果にもかかわらず、現在の脱バイアス法は、スキンレジオンモデルのバイアス問題を解決する準備ができていない。

Data-driven models are now deployed in a plethora of real-world applications - including automated diagnosis - but models learned from data risk learning biases from that same data. When models learn spurious correlations not found in real-world situations, their deployment for critical tasks, such as medical decisions, can be catastrophic. In this work we address this issue for skin-lesion classification models, with two objectives: finding out what are the spurious correlations exploited by biased networks, and debiasing the models by removing such spurious correlations from them. We perform a systematic integrated analysis of 7 visual artifacts (which are possible sources of biases exploitable by networks), employ a state-of-the-art technique to prevent the models from learning spurious correlations, and propose datasets to test models for the presence of bias. We find out that, despite interesting results that point to promising future research, current debiasing methods are not ready to solve the bias issue for skin-lesion models.
翻訳日:2022-12-10 09:55:45 公開日:2020-04-23
# 高速検索型チャットボットの蒸留知識

Distilling Knowledge for Fast Retrieval-based Chat-bots ( http://arxiv.org/abs/2004.11045v1 )

ライセンス: Link先を確認
Amir Vakili Tahami, Kamyar Ghajar, Azadeh Shakery(参考訳) 応答検索は、モデルが会話履歴を与えられた候補のセットから適切な応答を選択するニューラルネットワークランキングのサブセットである。 検索ベースのチャットボットは通常、顧客サポートエージェントのような会話システムを求める情報に使用される。 会話履歴と候補応答をペアで比較するために、ペア上で完全な自己認識を行うクロスエンコーダと、ペアを別々にエンコードするバイエンコーダという2つのアプローチが一般的である。 前者はより良い予測品質を与えるが、実用には遅すぎる。 本稿では,新しいクロスエンコーダアーキテクチャを提案し,このモデルから蒸留を用いたバイエンコーダモデルへ知識を伝達する。 これにより、2エンコーダの性能は、推論時にコストなしで効果的に向上する。 本稿では,この手法を3つの応答検索データセットで詳細に解析する。

Response retrieval is a subset of neural ranking in which a model selects a suitable response from a set of candidates given a conversation history. Retrieval-based chat-bots are typically employed in information seeking conversational systems such as customer support agents. In order to make pairwise comparisons between a conversation history and a candidate response, two approaches are common: cross-encoders performing full self-attention over the pair and bi-encoders encoding the pair separately. The former gives better prediction quality but is too slow for practical use. In this paper, we propose a new cross-encoder architecture and transfer knowledge from this model to a bi-encoder model using distillation. This effectively boosts bi-encoder performance at no cost during inference time. We perform a detailed analysis of this approach on three response retrieval datasets.
翻訳日:2022-12-10 09:55:24 公開日:2020-04-23
# webオントロジーの動的エンリッチ化のための結合意味論と統計的手法

Coupling semantic and statistical techniques for dynamically enriching web ontologies ( http://arxiv.org/abs/2004.11081v1 )

ライセンス: Link先を確認
Mohammed Maree, Mohammed Belkhatir(参考訳) セマンティックWeb技術の発展に伴い,複数のドメインをカバーする情報を格納・取得するためのオントロジーの利用が増加している。 しかし、高度に更新されるセマンティック情報や特定のドメインにおける特定のユーザー要求に対処できるオントロジーはごくわずかである。 その結果,背景知識の欠如による概念間の関係情報の有効性の欠如が重要な問題となっている。 この問題に対処する1つの解決策は、ドメインエキスパートによるオントロジーの手動による強化に依存しているが、それは時間とコストのかかるプロセスであり、そのため動的なオントロジーの強化が必要である。 本稿では,world wide web から大規模汎用オントロジーを動的に拡張する自動結合統計・理論フレームワークを提案する。 ウェブ上のテキストに符号化された膨大な量の情報をコーパスとして利用することにより、意味的関連性尺度とパターン獲得手法の組み合わせにより、背景知識の欠如が発見され、その後活用される。 私たちのアプローチの利点は (i)背景知識を欠いた大規模総合的オントロジーのダイナミックエンリッチメントを提案することで、そのような知識の再利用を可能にする。 (ii)ドメインエキスパートによる費用のかかるオントロジなマニュアルエンリッチメントの問題を扱う。 精度に基づく評価設定における実験結果は,提案手法の有効性を示す。

With the development of the Semantic Web technology, the use of ontologies to store and retrieve information covering several domains has increased. However, very few ontologies are able to cope with the ever-growing need of frequently updated semantic information or specific user requirements in specialized domains. As a result, a critical issue is related to the unavailability of relational information between concepts, also coined missing background knowledge. One solution to address this issue relies on the manual enrichment of ontologies by domain experts which is however a time consuming and costly process, hence the need for dynamic ontology enrichment. In this paper we present an automatic coupled statistical/semantic framework for dynamically enriching large-scale generic ontologies from the World Wide Web. Using the massive amount of information encoded in texts on the Web as a corpus, missing background knowledge can therefore be discovered through a combination of semantic relatedness measures and pattern acquisition techniques and subsequently exploited. The benefits of our approach are: (i) proposing the dynamic enrichment of large-scale generic ontologies with missing background knowledge, and thus, enabling the reuse of such knowledge, (ii) dealing with the issue of costly ontological manual enrichment by domain experts. Experimental results in a precision-based evaluation setting demonstrate the effectiveness of the proposed techniques.
翻訳日:2022-12-10 09:55:12 公開日:2020-04-23
# gBeam-ACO:ビームACOのグリーディで高速な派生型

gBeam-ACO: a greedy and faster variant of Beam-ACO ( http://arxiv.org/abs/2004.11137v1 )

ライセンス: Link先を確認
Jeff Hajewski and Suely Oliveira and David E. Stewart and Laura Weiler(参考訳) ビーム探索を組み込んだ従来のアントコロニー最適化(ACO)アルゴリズムの修正であるビームACOは、トラベリングセールスマン問題(TSP)を解決するための最も効果的なACOアルゴリズムの1つである。 acoヒューリスティック探索プロセスにビーム探索を追加することは効果的であるが、アルゴリズムが各ステップで行う作業量(部分経路)も増加させる。 本研究では, グリーディパス選択ヒューリスティックを用いたビームACOのグリーディ変種を紹介する。 グリーディパスの選択の活用は、経路のビームを維持するのに必要な探索によって相殺される。 このアプローチには、乱数生成器へのコストのかかる呼び出しを回避し、アルゴリズムの内部状態を減らし、並列化を容易にするというメリットが追加されている。 実験では,従来のビームacoよりも高速で,場合によっては桁違いに高速であるだけでなく,特に大規模なtspインスタンスでは,検出した溶液の品質を犠牲にしないことを示した。 また、gBeam-ACOと呼ばれるこのグレディアルゴリズムは、ハイパーパラメータ設定に依存しないことがわかった。

Beam-ACO, a modification of the traditional Ant Colony Optimization (ACO) algorithms that incorporates a modified beam search, is one of the most effective ACO algorithms for solving the Traveling Salesman Problem (TSP). Although adding beam search to the ACO heuristic search process is effective, it also increases the amount of work (in terms of partial paths) done by the algorithm at each step. In this work, we introduce a greedy variant of Beam-ACO that uses a greedy path selection heuristic. The exploitation of the greedy path selection is offset by the exploration required in maintaining the beam of paths. This approach has the added benefit of avoiding costly calls to a random number generator and reduces the algorithms internal state, making it simpler to parallelize. Our experiments demonstrate that not only is our greedy Beam-ACO (gBeam-ACO) faster than traditional Beam-ACO, in some cases by an order of magnitude, but it does not sacrifice quality of the found solution, especially on large TSP instances. We also found that our greedy algorithm, which we refer to as gBeam-ACO, was less dependent on hyperparameter settings.
翻訳日:2022-12-10 09:49:11 公開日:2020-04-23
# 複数インスタンス検出ネットワークにおけるリファインメントからの蒸留知識

Distilling Knowledge from Refinement in Multiple Instance Detection Networks ( http://arxiv.org/abs/2004.10943v1 )

ライセンス: Link先を確認
Luis Felipe Zeni and Claudio Jung(参考訳) 弱教師付きオブジェクト検出(WSOD)は、ラベル付き画像カテゴリのみを監督として、オブジェクト検出問題に取り組むことを目的としている。 ローカライズ情報の欠如に対処するためにWSODでよく使われるアプローチは、Multiple Instance Learningであり、近年はエンドツーエンドのトレーニングを可能にするMIDN(Multiple Instance Detection Networks)を採用し始めている。 一般的にこれらのメソッドは、候補のプールからベストインスタンスを選択し、類似性に基づいて他のインスタンスを集約する。 本研究では,アグリゲーション基準を慎重に選択することで,学習した検出器の精度を大幅に向上できると主張している。 まず, 精製知識蒸留と呼ばれる既存手法(OICR)のさらなる改良手順を提案する。 そこで本研究では,各改良モジュールの監督生成時に,基幹クラス,背景,あるいは無視されるボックスの選択基準を動的に変更する適応型監視アグリゲーション機能を提案する。 パスカルVOC 2007の実験では、知識蒸留と滑らかな凝集関数により、弱教師付きオブジェクト検出および弱教師付きオブジェクトローカライゼーションタスクにおけるOICRの性能が著しく向上することが示された。 これらの改良により、Boosted-OICRは他の最先端のアプローチと再び競合する。

Weakly supervised object detection (WSOD) aims to tackle the object detection problem using only labeled image categories as supervision. A common approach used in WSOD to deal with the lack of localization information is Multiple Instance Learning, and in recent years methods started adopting Multiple Instance Detection Networks (MIDN), which allows training in an end-to-end fashion. In general, these methods work by selecting the best instance from a pool of candidates and then aggregating other instances based on similarity. In this work, we claim that carefully selecting the aggregation criteria can considerably improve the accuracy of the learned detector. We start by proposing an additional refinement step to an existing approach (OICR), which we call refinement knowledge distillation. Then, we present an adaptive supervision aggregation function that dynamically changes the aggregation criteria for selecting boxes related to one of the ground-truth classes, background, or even ignored during the generation of each refinement module supervision. Experiments in Pascal VOC 2007 demonstrate that our Knowledge Distillation and smooth aggregation function significantly improves the performance of OICR in the weakly supervised object detection and weakly supervised object localization tasks. These improvements make the Boosted-OICR competitive again versus other state-of-the-art approaches.
翻訳日:2022-12-10 09:48:31 公開日:2020-04-23
# 異民族間対面アンチ・スプーフィング認識チャレンジのレビュー

Cross-ethnicity Face Anti-spoofing Recognition Challenge: A Review ( http://arxiv.org/abs/2004.10998v1 )

ライセンス: Link先を確認
Ajian Liu, Xuan Li, Jun Wan, Sergio Escalera, Hugo Jair Escalante, Meysam Madadi, Yi Jin, Zhuoyuan Wu, Xiaogang Yu, Zichang Tan, Qi Yuan, Ruikun Yang, Benjia Zhou, Guodong Guo, Stan Z. Li(参考訳) 顔認識システムによるセキュリティ侵害を防止するためには、顔認識対策が不可欠である。 深層ニューラルネットワークの優れたパフォーマンスと大規模データセットの可用性により、バイオメトリックスコミュニティは近年、驚くべき進歩を遂げている。 民族バイアスは顔認識システムの性能に深刻な影響を与えていると証明されているが、依然として対スプーフィングにおける研究課題として残されている。 最近、民族バイアスを測定することを目的として、多民族の顔反偽造データセットCASIA-SURF CeFAがリリースされた。 3ドルの民族、3ドルのモダリティ、2dプラス3d攻撃タイプ、そして最近リリースされたフェイスアンチスプーフィング用のデータセットのうち、明示的な民族ラベルを含む最初のデータセットを含む、最新のクロスエスニシティ・フェイス・アンチスプーフィングデータセットとしては最大である。 我々は,この新たな資源を中心に,単一モーダル(RGBなど)と多モーダル(RGB,Depth,Infrared(IR)など)からなるChalearn Face Anti-spoofing Detection Challengeを組織し,民族的偏見の緩和を目的とした研究を推進した。 両方のトラックは開発段階で340ドルのチームを集め、最終的には11と8のチームがそれぞれ、シングルモーダルとマルチモーダルの顔認識課題にコードを提出した。 結果はすべて組織チームによって検証され、再調整され、結果が最終ランキングに使用された。 本稿では,その設計,評価プロトコル,結果の概要など,課題の概要について述べる。 上位ランクのソリューションを分析し,競争から導かれた結論を導き出す。 さらに,今後の作業の方向性についても概説する。

Face anti-spoofing is critical to prevent face recognition systems from a security breach. The biometrics community has %possessed achieved impressive progress recently due the excellent performance of deep neural networks and the availability of large datasets. Although ethnic bias has been verified to severely affect the performance of face recognition systems, it still remains an open research problem in face anti-spoofing. Recently, a multi-ethnic face anti-spoofing dataset, CASIA-SURF CeFA, has been released with the goal of measuring the ethnic bias. It is the largest up to date cross-ethnicity face anti-spoofing dataset covering $3$ ethnicities, $3$ modalities, $1,607$ subjects, 2D plus 3D attack types, and the first dataset including explicit ethnic labels among the recently released datasets for face anti-spoofing. We organized the Chalearn Face Anti-spoofing Attack Detection Challenge which consists of single-modal (e.g., RGB) and multi-modal (e.g., RGB, Depth, Infrared (IR)) tracks around this novel resource to boost research aiming to alleviate the ethnic bias. Both tracks have attracted $340$ teams in the development stage, and finally 11 and 8 teams have submitted their codes in the single-modal and multi-modal face anti-spoofing recognition challenges, respectively. All the results were verified and re-ran by the organizing team, and the results were used for the final ranking. This paper presents an overview of the challenge, including its design, evaluation protocol and a summary of results. We analyze the top ranked solutions and draw conclusions derived from the competition. In addition we outline future work directions.
翻訳日:2022-12-10 09:47:50 公開日:2020-04-23
# SimUSR:教師なし画像超解像のためのシンプルだが強力なベースライン

SimUSR: A Simple but Strong Baseline for Unsupervised Image Super-resolution ( http://arxiv.org/abs/2004.11020v1 )

ライセンス: Link先を確認
Namhyuk Ahn and Jaejun Yoo and Kyung-Ah Sohn(参考訳) 本稿では,完全教師なしの超解像問題,すなわちペア画像も基底真理hr画像も取り組まない問題に取り組む。 低分解能(LR)画像は高分解能(HR)画像と比較して比較的容易に収集できると仮定する。 複数のLR画像を許容することにより、LR画像のデノベートとダウンサンプル化を行い、元の教師なし問題を教師なし学習問題に1段階下方へ配置することで、擬似ペアのセットを構築する。 この研究は考えやすく、複雑な教師なしの手法に先立って研究されるべきだったのに、驚くべきことに、現時点では存在しない。 さらに,この単純な手法は,実行時のレイテンシを劇的に短縮することで,最先端の教師なしメソッドよりも優れており,hr教師付きモデルとのギャップを大幅に低減できることを示す。 我々は NTIRE 2020 で超解像挑戦を行い,PSNR で1位,SSIM で2位,LPIPS で13位となった。 この単純な手法は、特にトレーニングフェーズ中に複数のLR画像が許可された場合に、将来打破するためのベースラインとして使用されるべきである。 しかし、ゼロショット状態であっても、この手法は教師なしフレームワークと教師なしフレームワークのギャップを見るのに有用なベースラインとして役立つと論じる。

In this paper, we tackle a fully unsupervised super-resolution problem, i.e., neither paired images nor ground truth HR images. We assume that low resolution (LR) images are relatively easy to collect compared to high resolution (HR) images. By allowing multiple LR images, we build a set of pseudo pairs by denoising and downsampling LR images and cast the original unsupervised problem into a supervised learning problem but in one level lower. Though this line of study is easy to think of and thus should have been investigated prior to any complicated unsupervised methods, surprisingly, there are currently none. Even more, we show that this simple method outperforms the state-of-the-art unsupervised method with a dramatically shorter latency at runtime, and significantly reduces the gap to the HR supervised models. We submitted our method in NTIRE 2020 super-resolution challenge and won 1st in PSNR, 2nd in SSIM, and 13th in LPIPS. This simple method should be used as the baseline to beat in the future, especially when multiple LR images are allowed during the training phase. However, even in the zero-shot condition, we argue that this method can serve as a useful baseline to see the gap between supervised and unsupervised frameworks.
翻訳日:2022-12-10 09:46:49 公開日:2020-04-23
# 自己監督深度推定を用いたマルチタスクトレーニングによるセマンティックセグメンテーションにおけるノイズとアタックロバスト性の改善

Improved Noise and Attack Robustness for Semantic Segmentation by Using Multi-Task Training with Self-Supervised Depth Estimation ( http://arxiv.org/abs/2004.11072v1 )

ライセンス: Link先を確認
Marvin Klingner, Andreas B\"ar, Tim Fingscheidt(参考訳) ニューラルネットワークトレーニングの現在のアプローチは、しばしばパフォーマンス向上を目的としているが、ノイズ条件の変化や敵の例による攻撃に対する堅牢性を目的としたトレーニング手法に、より少ない焦点が当てられている。 本稿では,教師ありセマンティクスセグメンテーションをラベルなしビデオの自己教師付き単眼深度推定により拡張するマルチタスクトレーニングによるロバスト性の向上を提案する。 この追加タスクは、いくつかの入力摂動の下で、テスト時のセグメンテーションモデルの堅牢性を改善するためにトレーニング中にのみ実行される。 さらに,我々の共同学習手法は,元の(教師付き)セマンティクスセグメンテーションタスクにおけるモデルの性能も向上することがわかった。 本評価は,セマンティクスセグメンテーションのロバスト性に対する入力ノイズと敵意攻撃の効果を相互に比較できるという,特定の新規性を示す。 本手法の有効性をCityscapesデータセットに示すため,マルチタスクのトレーニング手法は,頑健さとノイズの両方の観点からも,トレーニングの深度ラベルを必要とせずに,単一タスクセマンティックセマンティックセマンティックセマンティクスのベースラインを一貫して上回ります。

While current approaches for neural network training often aim at improving performance, less focus is put on training methods aiming at robustness towards varying noise conditions or directed attacks by adversarial examples. In this paper, we propose to improve robustness by a multi-task training, which extends supervised semantic segmentation by a self-supervised monocular depth estimation on unlabeled videos. This additional task is only performed during training to improve the semantic segmentation model's robustness at test time under several input perturbations. Moreover, we even find that our joint training approach also improves the performance of the model on the original (supervised) semantic segmentation task. Our evaluation exhibits a particular novelty in that it allows to mutually compare the effect of input noises and adversarial attacks on the robustness of the semantic segmentation. We show the effectiveness of our method on the Cityscapes dataset, where our multi-task training approach consistently outperforms the single-task semantic segmentation baseline in terms of both robustness vs. noise and in terms of adversarial attacks, without the need for depth labels in training.
翻訳日:2022-12-10 09:46:25 公開日:2020-04-23
# DAN: 生体医用画像補間のための変形認識ネットワーク

DAN: A Deformation-Aware Network for Consecutive Biomedical Image Interpolation ( http://arxiv.org/abs/2004.11076v1 )

ライセンス: Link先を確認
Zejin Wang, Guoqing Li, Xi Chen, Hua Han(参考訳) バイオメディカル画像間の生体組織の連続性により、ビデオ補間アルゴリズムは、バイオメディカル画像に共通する広い領域の欠陥や涙を回復することができる。 しかし、ノイズやぼやけの違い、大きな変形、生体画像間のドリフトなどが課題となっている。 そこで本研究では,生体組織の連続性に応じて各画素を合成する変形認識ネットワークを提案する。 まず,世界的知覚的変形を暗黙的に導入した連続生体医用画像補間のための変形認識層を開発する。 第2に,ぼかしやノイズといった連続的な生体医学画像のスタイル差を考慮した適応型スタイルバランス損失を提案する。 変形認識モジュールを用いて,グローバル領域から各画素を適応的に合成し,さらに画素合成性能を向上させる。 ベンチマークデータセットの定量的および定性的な実験により,提案手法は最先端手法よりも優れていることが示された。

The continuity of biological tissue between consecutive biomedical images makes it possible for the video interpolation algorithm, to recover large area defects and tears that are common in biomedical images. However, noise and blur differences, large deformation, and drift between biomedical images, make the task challenging. To address the problem, this paper introduces a deformation-aware network to synthesize each pixel in accordance with the continuity of biological tissue. First, we develop a deformation-aware layer for consecutive biomedical images interpolation that implicitly adopting global perceptual deformation. Second, we present an adaptive style-balance loss to take the style differences of consecutive biomedical images such as blur and noise into consideration. Guided by the deformation-aware module, we synthesize each pixel from a global domain adaptively which further improves the performance of pixel synthesis. Quantitative and qualitative experiments on the benchmark dataset show that the proposed method is superior to the state-of-the-art approaches.
翻訳日:2022-12-10 09:46:01 公開日:2020-04-23
# ガウス原理による制約付きダイナミクスの学習

Learning Constrained Dynamics with Gauss Principle adhering Gaussian Processes ( http://arxiv.org/abs/2004.11238v1 )

ライセンス: Link先を確認
A. Rene Geist and Sebastian Trimpe(参考訳) 機械システムの制約付きダイナミクスの同定は、しばしば困難である。 学習方法は分析分析を容易にするが、トレーニングにはかなりの量のデータを必要とする。 本稿では,解析力学からの洞察とガウス過程の回帰を組み合わせ,モデルのデータ効率と制約整合性を改善することを提案する。 その結果はガウスのプロセスモデルであり、予測が最小制約というガウスの原理に従うような事前制約知識が組み込まれている。 その見返りとして、システムの加速の予測は自然に非理想的(非)ホロノミック等式制約を尊重する。 本モデルでは,制約付きシステムのデータから制約なしシステムの加速度を推定し,異なる制約構成間の知識伝達を可能にする。

The identification of the constrained dynamics of mechanical systems is often challenging. Learning methods promise to ease an analytical analysis, but require considerable amounts of data for training. We propose to combine insights from analytical mechanics with Gaussian process regression to improve the model's data efficiency and constraint integrity. The result is a Gaussian process model that incorporates a priori constraint knowledge such that its predictions adhere to Gauss' principle of least constraint. In return, predictions of the system's acceleration naturally respect potentially non-ideal (non-)holonomic equality constraints. As corollary results, our model enables to infer the acceleration of the unconstrained system from data of the constrained system and enables knowledge transfer between differing constraint configurations.
翻訳日:2022-12-10 09:39:19 公開日:2020-04-23
# 対話型感情応答の分類のためのデータ拡張による半監督モデル

Semi-Supervised Models via Data Augmentationfor Classifying Interactive Affective Responses ( http://arxiv.org/abs/2004.10972v1 )

ライセンス: Link先を確認
Jiaao Chen, Yuwei Wu, Diyi Yang(参考訳) 本稿では、対話型感情応答を分類する半教師付きテキスト分類システムSMDA(Data Augmentation)を提案する。 SMDAは、最新のトランスフォーマーベースのモデルを用いて各文をエンコードし、与えられた文を拡張データとして言い換えるために逆変換技術を用いる。 ラベル付き文に対しては,ラベル分布の均一化と学習過程における教師付き損失の計算のためにデータ拡張を行った。 ラベルなし文に対しては,ラベルなし文を擬似ラベルとして低エントロピー予測を考慮し,信頼度予測をラベル付きデータとして検討した。 さらに,ラベルなしデータに対するデータ拡張後の教師なし損失として一貫性規則化を導入し,原文を入力として,追加文を入力として類似したクラス分布を予測すべきと仮定した。 実験の結果,本システムはf1-scoreと精度でベースラインモデルよりも優れていた。

We present semi-supervised models with data augmentation (SMDA), a semi-supervised text classification system to classify interactive affective responses. SMDA utilizes recent transformer-based models to encode each sentence and employs back translation techniques to paraphrase given sentences as augmented data. For labeled sentences, we performed data augmentations to uniform the label distributions and computed supervised loss during training process. For unlabeled sentences, we explored self-training by regarding low-entropy predictions over unlabeled sentences as pseudo labels, assuming high-confidence predictions as labeled data for training. We further introduced consistency regularization as unsupervised loss after data augmentations on unlabeled data, based on the assumption that the model should predict similar class distributions with original unlabeled sentences as input and augmented sentences as input. Via a set of experiments, we demonstrated that our system outperformed baseline models in terms of F1-score and accuracy.
翻訳日:2022-12-10 09:39:08 公開日:2020-04-23
# QURIOUS: テキスト生成のための質問生成準備

QURIOUS: Question Generation Pretraining for Text Generation ( http://arxiv.org/abs/2004.11026v1 )

ライセンス: Link先を確認
Shashi Narayan, Gon\c{c}alo Simoes, Ji Ma, Hannah Craighead and Ryan Mcdonald(参考訳) プリトレーニングを用いた自然言語処理の最近のトレンドは、テキスト生成のための事前学習と微調整のアプローチに焦点を移している。 多くの場合、言語モデリングの目的を一般化するタスクに依存しないアプローチに焦点が当てられている。 本稿では,テキスト生成目標に適合する事前学習手法として質問生成を提案する。 本手法で事前訓練したテキスト生成モデルは,入力の本質を理解するのに優れ,目的タスクの言語モデルとして優れている。 抽象的な要約と回答中心の質問生成という2つのテキスト生成タスクで評価すると、我々のモデルは自動メトリクスの観点から最先端のパフォーマンスをもたらす。 人間の評価者も私たちの要約を見つけ、より自然で簡潔で情報的な質問を生み出しました。

Recent trends in natural language processing using pretraining have shifted focus towards pretraining and fine-tuning approaches for text generation. Often the focus has been on task-agnostic approaches that generalize the language modeling objective. We propose question generation as a pretraining method, which better aligns with the text generation objectives. Our text generation models pretrained with this method are better at understanding the essence of the input and are better language models for the target task. When evaluated on two text generation tasks, abstractive summarization and answer-focused question generation, our models result in state-of-the-art performances in terms of automatic metrics. Human evaluators also found our summaries and generated questions to be more natural, concise and informative.
翻訳日:2022-12-10 09:38:36 公開日:2020-04-23
# できるなら正しい: エラー訂正とマーキングから学ぶ

Correct Me If You Can: Learning from Error Corrections and Markings ( http://arxiv.org/abs/2004.11222v1 )

ライセンス: Link先を確認
Julia Kreutzer, Nathaniel Berger, Stefan Riezler(参考訳) シーケンス対シーケンス学習は、トレーニングデータの信号強度とアノテーションコストのトレードオフを伴う。 例えば、機械翻訳データは、教師付き学習を可能にする高価な専門家による翻訳から、強化された学習を促進する品質判断フィードバックまで幅広い。 本稿では,誤差マーキングのあまり一般的でないアノテーションモードに対して,アノテーションコストと機械学習可能性に関する最初のユーザ調査を行う。 我々は、TEDトークを英語からドイツ語に翻訳する際のエラーマーキングは、修正/編集よりも人的労力が大幅に少なく、正確なクレジット割り当てが可能であり、エラーマーキングされたデータは、ニューラルネットワーク翻訳モデルにうまく利用できることを示した。

Sequence-to-sequence learning involves a trade-off between signal strength and annotation cost of training data. For example, machine translation data range from costly expert-generated translations that enable supervised learning, to weak quality-judgment feedback that facilitate reinforcement learning. We present the first user study on annotation cost and machine learnability for the less popular annotation mode of error markings. We show that error markings for translations of TED talks from English to German allow precise credit assignment while requiring significantly less human effort than correcting/post-editing, and that error-marked data can be used successfully to fine-tune neural machine translation models.
翻訳日:2022-12-10 09:37:53 公開日:2020-04-23
# 歴史的文書におけるOCRポスト編集支援ツール

A Tool for Facilitating OCR Postediting in Historical Documents ( http://arxiv.org/abs/2004.11471v1 )

ライセンス: Link先を確認
Alberto Poncelas, Mohammad Aboomar, Jan Buts, James Hadley, Andy Way(参考訳) 歴史的文書の光学的文字認識(OCR)は、書体の不整合や低品質スキャンなど、一意の材料的問題を扱う複雑な手順である。 その結果、最も洗練されたOCRエンジンでもエラーが発生する。 本稿では,tesseractの出力をポストするツールについて報告する。 提案手法は,特定の語彙に見つからない単語の代替案を提案する。 仮定された誤りは、言語モデル(LM)のスコアに基づいて、後編集におけるおそらく正しい代替案に置き換えられる。 この道具は『貿易の規制とこの王国の貧困を雇用するエッセイ』(An Essay Towards Regulating the Trade and Employing the Poor of this Kingdom)の章でテストされている(Cary ,1719)。 以下に示すように、このツールは一般的なエラーの修正に成功している。 信頼できない場合、それは透明性があり、人間の介入を受ける。

Optical character recognition (OCR) for historical documents is a complex procedure subject to a unique set of material issues, including inconsistencies in typefaces and low quality scanning. Consequently, even the most sophisticated OCR engines produce errors. This paper reports on a tool built for postediting the output of Tesseract, more specifically for correcting common errors in digitized historical documents. The proposed tool suggests alternatives for word forms not found in a specified vocabulary. The assumed error is replaced by a presumably correct alternative in the post-edition based on the scores of a Language Model (LM). The tool is tested on a chapter of the book An Essay Towards Regulating the Trade and Employing the Poor of this Kingdom (Cary ,1719). As demonstrated below, the tool is successful in correcting a number of common errors. If sometimes unreliable, it is also transparent and subject to human intervention.
翻訳日:2022-12-10 09:37:23 公開日:2020-04-23
# ニューラルマシン翻訳のためのタイ文の複数分割

Multiple Segmentations of Thai Sentences for Neural Machine Translation ( http://arxiv.org/abs/2004.11472v1 )

ライセンス: Link先を確認
Alberto Poncelas, Wichaya Pidchamook, Chao-Hong Liu, James Hadley, Andy Way(参考訳) タイ語は低リソース言語であるため、高レベルの品質を実現するニューラルネットワーク翻訳(NMT)モデルをトレーニングするのに十分な量のデータが入手できない場合が多い。 加えて、タイ文字は単語間の境界を区切るために白い空間を使用しないため、シーケンスモデルを構築する際にさらに複雑さが増す。 本研究では,NMTモデルトレーニングのためのトレーニングデータとして,タイ語で異なる単語セグメンテーション手法で文ペアを複製することで,タイ語並列データの集合を拡張する方法について検討する。 Byte Pair Encodingの異なるマージ操作を使用して、タイ語文の異なるセグメンテーションを得ることができる。 実験の結果、これらのデータセットを組み合わせることで、教師付き分割ツールを使用して分割されたデータセットでトレーニングされたNMTモデルのパフォーマンスが改善された。

Thai is a low-resource language, so it is often the case that data is not available in sufficient quantities to train an Neural Machine Translation (NMT) model which perform to a high level of quality. In addition, the Thai script does not use white spaces to delimit the boundaries between words, which adds more complexity when building sequence to sequence models. In this work, we explore how to augment a set of English--Thai parallel data by replicating sentence-pairs with different word segmentation methods on Thai, as training data for NMT model training. Using different merge operations of Byte Pair Encoding, different segmentations of Thai sentences can be obtained. The experiments show that combining these datasets, performance is improved for NMT models trained with a dataset that has been split using a supervised splitting tool.
翻訳日:2022-12-10 09:37:09 公開日:2020-04-23
# DNNのための量子化Winograd/Toom-Cook畳み込み:正準多項式ベースを超えて

Quantaized Winograd/Toom-Cook Convolution for DNNs: Beyond Canonical Polynomials Base ( http://arxiv.org/abs/2004.11077v1 )

ライセンス: Link先を確認
Barbara Barabasz(参考訳) 近年,ディープニューラルネットワークにおける畳み込み計算の高速化に関する課題が広く研究されている。 Winograd畳み込みアルゴリズムは、時間消費を大幅に削減する一般的な方法である。 しかし、特に低い精度では数値精度の問題に苦しむ。 本稿では,量子化Winograd-Awareトレーニングモデルに対するベースチェンジ手法の適用について述べる。 我々は、テストされたネットワーク(Resnet18)とデータセット(CIFAR10)と、事前/後変換の操作がほとんどない量子化された直接畳み込みについて、ほぼ同じ精度(最大0.5%の損失)で8ドルビット量子化ネットワークをトレーニングできることを示します。 ハダマール製品を9ドルビットに保つことで、直接畳み込みと同じ精度を得ることができます。

The problem how to speed up the convolution computations in Deep Neural Networks is widely investigated in recent years. The Winograd convolution algorithm is a common used method that significantly reduces time consumption. However, it suffers from a problem with numerical accuracy particularly for lower precisions. In this paper we present the application of base change technique for quantized Winograd-aware training model. We show that we can train the $8$ bit quantized network to nearly the same accuracy (up to 0.5% loss) for tested network (Resnet18) and dataset (CIFAR10) as for quantized direct convolution with few additional operations in pre/post transformations. Keeping Hadamard product on $9$ bits allow us to obtain the same accuracy as for direct convolution.
翻訳日:2022-12-10 09:31:23 公開日:2020-04-23
# ポイントロケーションとアクティブラーニング:ハーフスペースをほぼ最適に学習する

Point Location and Active Learning: Learning Halfspaces Almost Optimally ( http://arxiv.org/abs/2004.11380v1 )

ライセンス: Link先を確認
Max Hopkins, Daniel M. Kane, Shachar Lovett, Gaurav Mahajan(参考訳) 有限集合 $X \subset \mathbb{R}^d$ とバイナリ線型分類器 $c: \mathbb{R}^d \to \{0,1\}$ が与えられたとき、$c(x)$ という形のクエリは、$X$ のすべての点のラベルを学ぶために必要となる。 textit{point location} として知られるこの問題は、最適なアルゴリズムを追求する35年以上の研究に影響を与えた。 Kane, Lovett, and Moran (ICALP 2018) の以前の研究に基づいて、我々は、Ezra と Sharir (Discrete and Computational Geometry, 2019) の以前のベストである $\tilde{O}(d\log(|X|))$ のランダム化線形決定木である、深さ$\tilde{O}(d^2\log(|X|))$ の最初のほぼ最適解を提供する。 また,メンバシップクエリモデルのハーフスペースを積極的に学習するための,最初の最適化アルゴリズムも提供する。 これらの結果に対し,バーテの定理(inventiones mathematicae,1998)の独立興味の新たな特徴付けを証明した。 特に、$x$ が近似等方的位置へ変換できることと、$k/d$-フラクションが $x$ 以上の $k$-次元部分空間が存在しない場合に限り、正確な等方的位置に対する類似のキャラクタリゼーションを提供する。

Given a finite set $X \subset \mathbb{R}^d$ and a binary linear classifier $c: \mathbb{R}^d \to \{0,1\}$, how many queries of the form $c(x)$ are required to learn the label of every point in $X$? Known as \textit{point location}, this problem has inspired over 35 years of research in the pursuit of an optimal algorithm. Building on the prior work of Kane, Lovett, and Moran (ICALP 2018), we provide the first nearly optimal solution, a randomized linear decision tree of depth $\tilde{O}(d\log(|X|))$, improving on the previous best of $\tilde{O}(d^2\log(|X|))$ from Ezra and Sharir (Discrete and Computational Geometry, 2019). As a corollary, we also provide the first nearly optimal algorithm for actively learning halfspaces in the membership query model. En route to these results, we prove a novel characterization of Barthe's Theorem (Inventiones Mathematicae, 1998) of independent interest. In particular, we show that $X$ may be transformed into approximate isotropic position if and only if there exists no $k$-dimensional subspace with more than a $k/d$-fraction of $X$, and provide a similar characterization for exact isotropic position.
翻訳日:2022-12-10 09:30:31 公開日:2020-04-23
# 愛, 喜び, 悲しみ, 恐怖, サプライズ: SEはAIの特別な種類を必要としている: テキストマイニングとSEのケーススタディ

Love, Joy, Anger, Sadness, Fear, and Surprise: SE Needs Special Kinds of AI: A Case Study on Text Mining and SE ( http://arxiv.org/abs/2004.11005v1 )

ライセンス: Link先を確認
Nicole Novielli, Fabio Calefato, Filippo Lanubile(参考訳) あなたは自分のコードが好きですか。 開発者が最も幸せになるコードは何ですか? なぜ最も怒っているのか? コードベースがいつ、どこで助けが必要なのかを判断するために、コーダの大規模なチームのムードを監視することは可能でしょうか?

Do you like your code? What kind of code makes developers happiest? What makes them angriest? Is it possible to monitor the mood of a large team of coders to determine when and where a codebase needs additional help?
翻訳日:2022-12-10 09:21:18 公開日:2020-04-23
# 進化回路設計のための直交遺伝的プログラミングにおける意味指向変異演算子

Semantically-Oriented Mutation Operator in Cartesian Genetic Programming for Evolutionary Circuit Design ( http://arxiv.org/abs/2004.11018v1 )

ライセンス: Link先を確認
David Hodan, Vojtech Mrazek, Zdenek Vasicek(参考訳) 多くの応用が成功したにもかかわらず、デカルト遺伝的プログラミング(cgp)は、特に進化的回路設計に使用される場合、拡張性に乏しい。 例えば、乗算器の設計問題を考えると、5x5ビット乗算器はランダムに生成された初期集団から進化した最も複雑な回路を表す。 CGPの効率は点突然変異演算子の性能に大きく依存するが、この演算子は純粋に確率的である。 これは、GPの探索空間探索能力を改善するために、意味認識演算子のような高度な情報的アプローチが組み込まれている最近の遺伝的プログラミング(GP)と対照的である。 本稿では,組み合わせ回路の進化設計に適した意味的指向突然変異演算子(somo)を提案する。 SOMOはセマンティクスを使用して、各変異された遺伝子に対する最良の値を決定する。 一般的なCGPとその変種と最近のSemantic GPと比較すると,提案手法は表現型のサイズを比較的小さく保ちながら,一般的なBooleanベンチマークにかなり早く収束する。 本稿では, 10ビットパリティ, 10+10ビット加算器, 5x5ビット乗算器について述べる。 最も複雑な回路は1時間以内で進化し、シングルスレッドの実装は共通のCPU上で実行された。

Despite many successful applications, Cartesian Genetic Programming (CGP) suffers from limited scalability, especially when used for evolutionary circuit design. Considering the multiplier design problem, for example, the 5x5-bit multiplier represents the most complex circuit evolved from a randomly generated initial population. The efficiency of CGP highly depends on the performance of the point mutation operator, however, this operator is purely stochastic. This contrasts with the recent developments in Genetic Programming (GP), where advanced informed approaches such as semantic-aware operators are incorporated to improve the search space exploration capability of GP. In this paper, we propose a semantically-oriented mutation operator (SOMO) suitable for the evolutionary design of combinational circuits. SOMO uses semantics to determine the best value for each mutated gene. Compared to the common CGP and its variants as well as the recent versions of Semantic GP, the proposed method converges on common Boolean benchmarks substantially faster while keeping the phenotype size relatively small. The successfully evolved instances presented in this paper include 10-bit parity, 10+10-bit adder and 5x5-bit multiplier. The most complex circuits were evolved in less than one hour with a single-thread implementation running on a common CPU.
翻訳日:2022-12-10 09:21:12 公開日:2020-04-23
# Tip the Balance: 適応バイアスによる平衡クロスオーバー演算子の探索の改善

Tip the Balance: Improving Exploration of Balanced Crossover Operators by Adaptive Bias ( http://arxiv.org/abs/2004.11331v1 )

ライセンス: Link先を確認
Luca Manzoni, Luca Mariot, Eva Tuba(参考訳) 遺伝的アルゴリズム(ga)におけるバランス付きクロスオーバー演算子の使用により、子孫として生成される二進文字列が親と同じハミングウェイトを持つことが保証される。 この方法は探索空間のサイズを小さくするが、結果として得られる適合環境はgaが探索し最適な解を見つけるのがより困難になる。 本論文では, 進化過程を通じて減少する子孫の不均衡性を導入した対向型クロスオーバー演算子に適応バイアス戦略を適用することにより, この問題を考察した。 この適応バイアス戦略を用いて探索空間の探索を改善することは、バランスの取れた非線形ブール関数問題に対する最適解の数の観点からGA性能に有益であることを示す。

The use of balanced crossover operators in Genetic Algorithms (GA) ensures that the binary strings generated as offsprings have the same Hamming weight of the parents, a constraint which is sought in certain discrete optimization problems. Although this method reduces the size of the search space, the resulting fitness landscape often becomes more difficult for the GA to explore and to discover optimal solutions. This issue has been studied in this paper by applying an adaptive bias strategy to a counter-based crossover operator that introduces unbalancedness in the offspring with a certain probability, which is decreased throughout the evolutionary process. Experiments show that improving the exploration of the search space with this adaptive bias strategy is beneficial for the GA performances in terms of the number of optimal solutions found for the balanced nonlinear Boolean functions problem.
翻訳日:2022-12-10 09:20:52 公開日:2020-04-23
# 連結車両の深部強化学習による協調的知覚

Cooperative Perception with Deep Reinforcement Learning for Connected Vehicles ( http://arxiv.org/abs/2004.10927v1 )

ライセンス: Link先を確認
Shunsuke Aoki, Takamasa Higuchi, Onur Altintas(参考訳) 車両に対するセンサーによる認識が道路安全を高めるために普及し、重要になっている。 自動運転システムは、カメラ、ライダー、レーダーを使って周囲の物体を検知し、人間運転の車両はドライバーを補助する。 しかし、個々の車両による環境認識は、カバレッジや検出精度に制限がある。 例えば、車両は、他の移動・静止障害物によって遮られる物体を検知できない。 本稿では,周辺物体の検出精度を高めるために,深層強化学習を用いた協調的知覚手法を提案する。 深層強化学習を用いて送信データを選択することにより,車両間通信ネットワークにおけるネットワーク負荷を軽減し,通信信頼性を向上させる。 協調知覚スキームの設計、テスト、検証のために、交通シミュレーター、車両シミュレーター、オブジェクト分類器の3つのソフトウェアコンポーネントを統合する協調運転シミュレーション(civs)プラットフォームを開発した。 提案方式はパケットロスを減少させ,検出精度をベースラインプロトコルと比較して最大12%向上させる。

Sensor-based perception on vehicles are becoming prevalent and important to enhance the road safety. Autonomous driving systems use cameras, LiDAR, and radar to detect surrounding objects, while human-driven vehicles use them to assist the driver. However, the environmental perception by individual vehicles has the limitations on coverage and/or detection accuracy. For example, a vehicle cannot detect objects occluded by other moving/static obstacles. In this paper, we present a cooperative perception scheme with deep reinforcement learning to enhance the detection accuracy for the surrounding objects. By using the deep reinforcement learning to select the data to transmit, our scheme mitigates the network load in vehicular communication networks and enhances the communication reliability. To design, test, and verify the cooperative perception scheme, we develop a Cooperative & Intelligent Vehicle Simulation (CIVS) Platform, which integrates three software components: traffic simulator, vehicle simulator, and object classifier. We evaluate that our scheme decreases packet loss and thereby increases the detection accuracy by up to 12%, compared to the baseline protocol.
翻訳日:2022-12-10 09:20:37 公開日:2020-04-23
# 交通予測のための地理的・長期時間グラフの構築

Constructing Geographic and Long-term Temporal Graph for Traffic Forecasting ( http://arxiv.org/abs/2004.10958v1 )

ライセンス: Link先を確認
Yiwen Sun, Yulu Wang, Kun Fu, Zheng Wang, Changshui Zhang, Jieping Ye(参考訳) 交通予測は、様々なインテリジェント・トランスポーテーション・システム(its)サービスに影響し、ユーザー体験や都市交通制御に非常に重要である。 道路網は複雑かつ時間的に変化する時空間依存を含むため,困難である。 近年,グラフ畳み込みネットワーク(GCN)を用いて空間相関と繰り返しニューラルネットワーク(RNN)を抽出し,時間依存性を捉えることによって,深層学習による有望な結果が得られた。 しかし,既存の手法では,道路間の相互作用を制限する道路網接続のみに基づいてグラフを構築することが多い。 本研究では,交通予測のための新しいフレームワークであるGLT-GCRNN(Geographic and Long term Temporal Graph Convolutional Recurrent Neural Network)を提案する。 GLT-GCRNNは, 実世界の交通状況のデータセットにおいて, 様々な指標を用いて, 最先端の手法よりも優れていることを示すことによって, 提案手法の有効性を検証した。

Traffic forecasting influences various intelligent transportation system (ITS) services and is of great significance for user experience as well as urban traffic control. It is challenging due to the fact that the road network contains complex and time-varying spatial-temporal dependencies. Recently, deep learning based methods have achieved promising results by adopting graph convolutional network (GCN) to extract the spatial correlations and recurrent neural network (RNN) to capture the temporal dependencies. However, the existing methods often construct the graph only based on road network connectivity, which limits the interaction between roads. In this work, we propose Geographic and Long term Temporal Graph Convolutional Recurrent Neural Network (GLT-GCRNN), a novel framework for traffic forecasting that learns the rich interactions between roads sharing similar geographic or longterm temporal patterns. Extensive experiments on a real-world traffic state dataset validate the effectiveness of our method by showing that GLT-GCRNN outperforms the state-of-the-art methods in terms of different metrics.
翻訳日:2022-12-10 09:20:21 公開日:2020-04-23
# 不確実性を考慮したガウス過程のアクティブラーニングと複合胴体形状制御への応用

Active Learning for Gaussian Process Considering Uncertainties with Application to Shape Control of Composite Fuselage ( http://arxiv.org/abs/2004.10931v1 )

ライセンス: Link先を確認
Xiaowei Yue, Yuchen Wen, Jeffrey H. Hunt, and Jianjun Shi(参考訳) 機械学習領域では、能動学習は情報取得を最大化し、限られたトレーニングサンプルでモデル性能を向上させるための反復的データ選択アルゴリズムである。 特に、トレーニングサンプルが高価、時間がかかり、入手が困難である産業用途において非常に有用である。 既存の手法は主に分類のための能動的学習に重点を置いており、線形回帰やガウス過程などの回帰のためにいくつかの手法が設計されている。 実験データには測定誤差や固有入力ノイズからの不確かさが必然的に存在し、さらにモデリング性能に影響を及ぼす。 既存の能動学習法はガウス過程にこれらの不確実性を含まない。 本稿では,分散に基づく重み付き能動学習アルゴリズムとD-最適重み付き能動学習アルゴリズムであるガウス過程に対する2つの新しい能動学習アルゴリズムを提案する。 数値解析により,提案手法は不確実性の影響を組み込むことができ,予測性能が向上することを示す。 この手法は複合胴体の自動形状制御のための予測モデルの改善に応用されている。

In the machine learning domain, active learning is an iterative data selection algorithm for maximizing information acquisition and improving model performance with limited training samples. It is very useful, especially for the industrial applications where training samples are expensive, time-consuming, or difficult to obtain. Existing methods mainly focus on active learning for classification, and a few methods are designed for regression such as linear regression or Gaussian process. Uncertainties from measurement errors and intrinsic input noise inevitably exist in the experimental data, which further affects the modeling performance. The existing active learning methods do not incorporate these uncertainties for Gaussian process. In this paper, we propose two new active learning algorithms for the Gaussian process with uncertainties, which are variance-based weighted active learning algorithm and D-optimal weighted active learning algorithm. Through numerical study, we show that the proposed approach can incorporate the impact from uncertainties, and realize better prediction performance. This approach has been applied to improving the predictive modeling for automatic shape control of composite fuselage.
翻訳日:2022-12-10 09:19:46 公開日:2020-04-23
# カオス分類の深層学習

Deep Learning of Chaos Classification ( http://arxiv.org/abs/2004.10980v1 )

ライセンス: Link先を確認
Woo Seok Lee and Sergej Flach(参考訳) 2次元チリコフ標準写像のカオス的および規則的ダイナミクスを区別する人工ニューラルネットワークを訓練する。 有限長軌跡を用いて,ライプノフ指数の評価に必要な従来の数値法と比較した。 ニューラルネットワークは、従来のリアプノフ指数計算が収束しそうにない10のリアプノフ時間までの短い期間において優れた性能を有する。 様々な制御パラメータに対するニューラルネットワークのロバスト性、特に1セットの制御パラメータでトレーニングし、相補的なセットでテストに成功していることを示す。 さらに、ニューラルネットワークを用いて、ロレンツシステムの1次元ロジスティックマップや3次元離散バージョンなど、異なる次元の離散写像のダイナミクスをうまくテストする。 その結果,畳み込みニューラルネットワークは優れたカオス指標として利用できることを示した。

We train an artificial neural network which distinguishes chaotic and regular dynamics of the two-dimensional Chirikov standard map. We use finite length trajectories and compare the performance with traditional numerical methods which need to evaluate the Lyapunov exponent. The neural network has superior performance for short periods with length down to 10 Lyapunov times on which the traditional Lyapunov exponent computation is far from converging. We show the robustness of the neural network to varying control parameters, in particular we train with one set of control parameters, and successfully test in a complementary set. Furthermore, we use the neural network to successfully test the dynamics of discrete maps in different dimensions, e.g. the one-dimensional logistic map and a three-dimensional discrete version of the Lorenz system. Our results demonstrate that a convolutional neural network can be used as an excellent chaos indicator.
翻訳日:2022-12-10 09:19:10 公開日:2020-04-23
# 雑音ラベルを用いたディープラーニング分類

Deep Learning Classification With Noisy Labels ( http://arxiv.org/abs/2004.11116v1 )

ライセンス: Link先を確認
Guillaume Sanchez, Vincente Guis, Ricard Marxer, Fr\'ed\'eric Bouchara(参考訳) ディープラーニングシステムは、大きな画像データセットのコストを犠牲にして、画像分類において非常に精度が高い。 このようなデータの収集は、トレーニングセットのラベル付けエラーにつながる可能性がある。 検索、分類、推奨のためのマルチメディアコンテンツのインデックス化には、複数の基準に基づくタグ付けや分類が含まれる。 本事例では,多数の摂動器(データベースに未知のアクタ)に晒されながら,閉じたid集合を持つアクタ識別のための顔認識システムを訓練する。 顔分類器はラベルノイズに敏感であることが知られている。 我々は,顔認識への関心とは別に,ディープラーニング分類器を訓練する際のノイズの多いアノテーションの管理方法に関する最近の研究をレビューした。

Deep Learning systems have shown tremendous accuracy in image classification, at the cost of big image datasets. Collecting such amounts of data can lead to labelling errors in the training set. Indexing multimedia content for retrieval, classification or recommendation can involve tagging or classification based on multiple criteria. In our case, we train face recognition systems for actors identification with a closed set of identities while being exposed to a significant number of perturbators (actors unknown to our database). Face classifiers are known to be sensitive to label noise. We review recent works on how to manage noisy annotations when training deep learning classifiers, independently from our interest in face recognition.
翻訳日:2022-12-10 09:13:19 公開日:2020-04-23
# テキスト・画像合成のための効率的なニューラルネットワーク

Efficient Neural Architecture for Text-to-Image Synthesis ( http://arxiv.org/abs/2004.11437v1 )

ライセンス: Link先を確認
Douglas M. Souza, J\^onatas Wehrmann, Duncan D. Ruiz(参考訳) テキスト画像合成は、テキスト記述から画像を生成するタスクである。 画像生成そのものは、難しい課題だ。 画像生成とテキストを組み合わせると、新しいレベルに複雑さをもたらします。 テキストと画像の合成に関する最近の研究のほとんどは、ニューラルアーキテクチャに関しても同様のアプローチを採用している。 上記の困難さに加えて、高解像度でGANを訓練することが本質的に困難であることから、ほとんどの手法は多段階の訓練戦略を採用している。 本稿では,現在,テキストから画像への変換に使用されているアーキテクチャパラダイムをシフトし,単一の生成器と1つの識別器による単一ステージトレーニングによって,効果的なニューラルネットワークが最先端のパフォーマンスを達成可能であることを示す。 我々は,スムーズな条件空間の学習を可能にする新しい文補間戦略とともに,深い残差ネットワークを適用する。 最後に本研究は,近年,新しいニューラルアーキテクチャを実験していないテキスト・ツー・イメージ研究の新たな方向性を示す。

Text-to-image synthesis is the task of generating images from text descriptions. Image generation, by itself, is a challenging task. When we combine image generation and text, we bring complexity to a new level: we need to combine data from two different modalities. Most of recent works in text-to-image synthesis follow a similar approach when it comes to neural architectures. Due to aforementioned difficulties, plus the inherent difficulty of training GANs at high resolutions, most methods have adopted a multi-stage training strategy. In this paper we shift the architectural paradigm currently used in text-to-image methods and show that an effective neural architecture can achieve state-of-the-art performance using a single stage training with a single generator and a single discriminator. We do so by applying deep residual networks along with a novel sentence interpolation strategy that enables learning a smooth conditional space. Finally, our work points a new direction for text-to-image research, which has not experimented with novel neural architectures recently.
翻訳日:2022-12-10 09:09:50 公開日:2020-04-23
# 同一側スタンス分類タスク:BERTモデルの微調整による調停スタンス分類のファシリテート

Same Side Stance Classification Task: Facilitating Argument Stance Classification by Fine-tuning a BERT Model ( http://arxiv.org/abs/2004.11163v1 )

ライセンス: Link先を確認
Stefan Ollinger, Lorik Dumani, Premtim Sahitaj, Ralph Bergmann, Ralf Schenkel(参考訳) 計算議論の研究は現在、集中的に研究されている。 このコミュニティの目標は、与えられたトピックに対する最善の賛否の議論を見つけ、自分自身の意見を形成するか、あるいは他の人に一定の立場を取るよう説得することにある。 既存の引数マイニング手法はトピックの適切な引数を見つけることができるが、pro と con の正しい分類はまだ信頼できない。 同じサイドスタンス分類タスクは、両方の引数が同じスタンスを共有しているかどうかによって分類された引数ペアのデータセットを提供し、トピック固有のproとconの語彙を区別する必要はなく、スタンス内の引数類似性のみを評価する必要がある。 タスクへの私たちの貢献の結果は、bertアーキテクチャに基づいたセットアップに基づいています。 3つのエポックに対して事前学習したBERTモデルを微調整し、各引数の最初の512トークンを使用して、2つの引数が同じスタンスを持つかどうかを予測する。

Research on computational argumentation is currently being intensively investigated. The goal of this community is to find the best pro and con arguments for a user given topic either to form an opinion for oneself, or to persuade others to adopt a certain standpoint. While existing argument mining methods can find appropriate arguments for a topic, a correct classification into pro and con is not yet reliable. The same side stance classification task provides a dataset of argument pairs classified by whether or not both arguments share the same stance and does not need to distinguish between topic-specific pro and con vocabulary but only the argument similarity within a stance needs to be assessed. The results of our contribution to the task are build on a setup based on the BERT architecture. We fine-tuned a pre-trained BERT model for three epochs and used the first 512 tokens of each argument to predict if two arguments share the same stance.
翻訳日:2022-12-10 09:03:57 公開日:2020-04-23
# 空間的繰り返し言語学習のための適応的予測曲線

Adaptive Forgetting Curves for Spaced Repetition Language Learning ( http://arxiv.org/abs/2004.11327v1 )

ライセンス: Link先を確認
Ahmed Zaidi, Andrew Caines, Russell Moore, Paula Buttery and Andrew Rice(参考訳) 忘れられる曲線は心理学者、教育者、認知科学者にも広く研究されてきた。 インテリジェントな学習システムでは、各ユーザと知識コンポーネント(語彙単語など)に対する忘れられた曲線をモデル化することで、メモリの減衰を防止し、長期保持を確実にする最適なリビジョン戦略を開発することができる。 本研究では,心理学的・言語的特徴を取り入れた様々な学習曲線モデルについて検討し,これらのモデルを用いて第二言語としての英語学習者による単語記憶の確率を予測する。 我々は、オンライン語彙学習プラットフォームからのデータを用いて、モデルとその機能の影響を評価し、単語の複雑さがニューラルネットワークモデルでうまく学習できる高い情報的特徴であることを発見した。

The forgetting curve has been extensively explored by psychologists, educationalists and cognitive scientists alike. In the context of Intelligent Tutoring Systems, modelling the forgetting curve for each user and knowledge component (e.g. vocabulary word) should enable us to develop optimal revision strategies that counteract memory decay and ensure long-term retention. In this study we explore a variety of forgetting curve models incorporating psychological and linguistic features, and we use these models to predict the probability of word recall by learners of English as a second language. We evaluate the impact of the models and their features using data from an online vocabulary teaching platform and find that word complexity is a highly informative feature which may be successfully learned by a neural network model.
翻訳日:2022-12-10 09:03:40 公開日:2020-04-23
# COVID-19の回答データセットの速やかなブートストラップ

Rapidly Bootstrapping a Question Answering Dataset for COVID-19 ( http://arxiv.org/abs/2004.11339v1 )

ライセンス: Link先を確認
Raphael Tang, Rodrigo Nogueira, Edwin Zhang, Nikhil Gupta, Phuong Cam, Kyunghyun Cho, Jimmy Lin(参考訳) これは、kaggleのopen research dataset challenge(オープンリサーチデータセットチャレンジ)から集めた知識を手作業で構築した、covid-19専用に設計されたデータセットに対する質問応答の始まりです。 我々の知る限り、これはそのタイプの最初の公開リソースであり、より実質的な評価資源が利用可能になるまで研究を導くためのストップギャップとして意図されている。 このデータセットは、現在のバージョン0.1リリースで124の質問文対で構成されており、教師付き機械学習の十分な例はないが、COVID-19に関連するトピックについて、既存のモデルのゼロショットや転送能力を評価するのに役立つと信じている。 本稿では,データセット構築手法について述べるとともに,項ベース手法やトランスフォーマーモデルなど,多数のベースラインの有効性を示す。 データセットはhttp://covidqa.ai/で利用可能である。

We present CovidQA, the beginnings of a question answering dataset specifically designed for COVID-19, built by hand from knowledge gathered from Kaggle's COVID-19 Open Research Dataset Challenge. To our knowledge, this is the first publicly available resource of its type, and intended as a stopgap measure for guiding research until more substantial evaluation resources become available. While this dataset, comprising 124 question-article pairs as of the present version 0.1 release, does not have sufficient examples for supervised machine learning, we believe that it can be helpful for evaluating the zero-shot or transfer capabilities of existing models on topics specifically related to COVID-19. This paper describes our methodology for constructing the dataset and presents the effectiveness of a number of baselines, including term-based techniques and various transformer-based models. The dataset is available at http://covidqa.ai/
翻訳日:2022-12-10 09:03:18 公開日:2020-04-23
# 戦術的ボラティリティを考慮した自己適応システムの意思決定プロセスの改善

Improving the Decision-Making Process of Self-Adaptive Systems by Accounting for Tactic Volatility ( http://arxiv.org/abs/2004.11302v1 )

ライセンス: Link先を確認
Jeffrey Palmerino, Qi Yu, Travis Desell and Daniel E. Krutz(参考訳) 自己適応システムが周囲の環境の変化に遭遇すると、必要な適応を行うための戦術を制定する。 例えば、自己適応型クラウドベースのシステムは、応答時間しきい値を超えたときに追加のコンピューティングリソースを開始する戦術や、侵入が検出されたときに特定のセキュリティ対策を発動する戦術があるかもしれない。 現実の環境では、これらの戦術はしばしば戦術の実行時の変動行動である戦術的変動を経験する。 残念ながら、現在の自己適応的なアプローチは、意思決定プロセスにおける戦術的ボラティリティを考慮せず、単に戦術がボラティリティを経験していないと仮定するだけです。 この制限は意思決定プロセスの不確実性を生じさせ、システムの効果的かつ効率的な適応能力に悪影響を及ぼす可能性がある。 加えて、多くのプロセスはシステムのサービスレベルアグリーメント(sla)に影響を与える可能性のあるボラティリティを適切に考慮していない。 これにより、特にレイテンシを含む戦術を利用する場合、システムが積極的に行動する能力を制限することができる。 戦術的ボラティリティを十分に考慮する課題に対処するため,我々は戦術的ボラティリティ認識(tva)ソリューションを提案する。 MRA(Multiple Regression Analysis)を用いることで、自己適応型システムが戦術の実行に必要なコストと時間を正確に見積もることができる。 時系列予測にはオートレグレッシブ統合移動平均(arima)を使用しているため、システムは積極的に仕様を維持できる。

When self-adaptive systems encounter changes within their surrounding environments, they enact tactics to perform necessary adaptations. For example, a self-adaptive cloud-based system may have a tactic that initiates additional computing resources when response time thresholds are surpassed, or there may be a tactic to activate a specific security measure when an intrusion is detected. In real-world environments, these tactics frequently experience tactic volatility which is variable behavior during the execution of the tactic. Unfortunately, current self-adaptive approaches do not account for tactic volatility in their decision-making processes, and merely assume that tactics do not experience volatility. This limitation creates uncertainty in the decision-making process and may adversely impact the system's ability to effectively and efficiently adapt. Additionally, many processes do not properly account for volatility that may effect the system's Service Level Agreement (SLA). This can limit the system's ability to act proactively, especially when utilizing tactics that contain latency. To address the challenge of sufficiently accounting for tactic volatility, we propose a Tactic Volatility Aware (TVA) solution. Using Multiple Regression Analysis (MRA), TVA enables self-adaptive systems to accurately estimate the cost and time required to execute tactics. TVA also utilizes Autoregressive Integrated Moving Average (ARIMA) for time series forecasting, allowing the system to proactively maintain specifications.
翻訳日:2022-12-10 09:03:03 公開日:2020-04-23
# 不均一検索のための二重確率マイニング

Doubly-stochastic mining for heterogeneous retrieval ( http://arxiv.org/abs/2004.10915v1 )

ライセンス: Link先を確認
Ankit Singh Rawat, Aditya Krishna Menon, Andreas Veit, Felix Yu, Sashank J. Reddi, Sanjiv Kumar(参考訳) 現代の検索問題は、潜在的に数十億のラベルを持つトレーニングセットと、サブポピュレーション全体にわたる異種データの分散(例えば、検索システムの利用者は異なる国出身かもしれない)によって特徴づけられる。 最初の課題はスケーラビリティに関するものだ。多くのラベルでは、単一の例でも標準損失を最適化することは困難である。 第2の課題は、一様性に関するもので、各サブポピュレーションにおいて、理想的には良いパフォーマンスを求めるものである。 最初の課題に対処するためにいくつかの解決策が提案されているが、第2の課題は比較的少ない注目を集めている。 本稿では,両課題に対処する確率的最適化手法である二重確率的マイニング(S2M)を提案する。 S2Mの各イテレーションにおいて、最も難しいラベルのサブセットに基づいてサンプルごとの損失を計算し、最も難しい例に基づいてミニバッチ損失を算出する。 我々は、最も難しい例に注目して、S2Mは全てのデータサブポピュレーションが適切にモデル化されていることを理論的、実証的に示す。

Modern retrieval problems are characterised by training sets with potentially billions of labels, and heterogeneous data distributions across subpopulations (e.g., users of a retrieval system may be from different countries), each of which poses a challenge. The first challenge concerns scalability: with a large number of labels, standard losses are difficult to optimise even on a single example. The second challenge concerns uniformity: one ideally wants good performance on each subpopulation. While several solutions have been proposed to address the first challenge, the second challenge has received relatively less attention. In this paper, we propose doubly-stochastic mining (S2M ), a stochastic optimization technique that addresses both challenges. In each iteration of S2M, we compute a per-example loss based on a subset of hardest labels, and then compute the minibatch loss based on the hardest examples. We show theoretically and empirically that by focusing on the hardest examples, S2M ensures that all data subpopulations are modelled well.
翻訳日:2022-12-10 09:02:10 公開日:2020-04-23
# 公開データによるプライベートクエリリリース

Private Query Release Assisted by Public Data ( http://arxiv.org/abs/2004.10941v1 )

ライセンス: Link先を確認
Raef Bassily, Albert Cheu, Shay Moran, Aleksandar Nikolov, Jonathan Ullman, Zhiwei Steven Wu(参考訳) 本研究では,公開データへのアクセスを補助する差分プライベートクエリリリースの問題について検討する。 この問題において、目標は、パブリックとプライベートのサンプルの組み合わせを使って、統計クエリの大規模なクラス$\mathcal{h}$に$\alpha$以上のエラーで答えることである。 このアルゴリズムは、プライベートサンプルに関してのみ差分プライバシーを満たす必要がある。 我々は,この課題の限界を,私的および公的なサンプルの複雑さの観点から検討する。 まず、任意のクエリクラス$\mathcal{H}$に対して、$d/\alpha$公開サンプルと$\sqrt{p}d^{3/2}/\alpha^2$プライベートサンプルのみを用いて有限VC次元の問題を解くことができ、$d$と$p$はそれぞれ$\mathcal{H}$のVC次元と双対VC次元であることを示す。 対照的に、プライベートサンプルのみの場合、VC次元の単純なクエリクラスであってもこの問題は解決できず、プライベートサンプルがなければ、より大規模な公開サンプルである$d/\alpha^2$が必要である。 次に、サンプルの複雑さを、$p$と$\alpha$に強く依存する境界を低くする。 決定スランプのクラスでは、パブリックなサンプルサイズが1/\alpha^2$未満であれば、プライベートなサンプル複雑性に対して$\sqrt{p}/\alpha$が下限となる。 上界を考えると、$\sqrt{p}$への依存はプライベートサンプルの複雑さに必要であることを示す。 また、より広い種類のクエリクラスに対して、公開サンプルの複雑さに対して1/\alpha$の低いバウンダリを与えます。

We study the problem of differentially private query release assisted by access to public data. In this problem, the goal is to answer a large class $\mathcal{H}$ of statistical queries with error no more than $\alpha$ using a combination of public and private samples. The algorithm is required to satisfy differential privacy only with respect to the private samples. We study the limits of this task in terms of the private and public sample complexities. First, we show that we can solve the problem for any query class $\mathcal{H}$ of finite VC-dimension using only $d/\alpha$ public samples and $\sqrt{p}d^{3/2}/\alpha^2$ private samples, where $d$ and $p$ are the VC-dimension and dual VC-dimension of $\mathcal{H}$, respectively. In comparison, with only private samples, this problem cannot be solved even for simple query classes with VC-dimension one, and without any private samples, a larger public sample of size $d/\alpha^2$ is needed. Next, we give sample complexity lower bounds that exhibit tight dependence on $p$ and $\alpha$. For the class of decision stumps, we give a lower bound of $\sqrt{p}/\alpha$ on the private sample complexity whenever the public sample size is less than $1/\alpha^2$. Given our upper bounds, this shows that the dependence on $\sqrt{p}$ is necessary in the private sample complexity. We also give a lower bound of $1/\alpha$ on the public sample complexity for a broad family of query classes, which by our upper bound, is tight in $\alpha$.
翻訳日:2022-12-10 09:01:52 公開日:2020-04-23
# スパース一般化正準相関解析:分散交互反復に基づくアプローチ

Sparse Generalized Canonical Correlation Analysis: Distributed Alternating Iteration based Approach ( http://arxiv.org/abs/2004.10981v1 )

ライセンス: Link先を確認
Jia Cai, Kexin Lv, Junyi Huo, Xiaolin Huang, Jie Yang(参考訳) Sparse Canonical correlation analysis (CCA) はスパース構造を用いた潜伏情報検出に有用な統計ツールである。 しかし、スパースCCAは2つのデータセット、すなわち2つのビューまたは2つの異なるオブジェクトに対してのみ機能する。 本稿では,この制限を克服するために,スパース構造を持つ多視点データの潜在関係を検出可能なスパース一般化正準相関解析(gcca)を提案する。 さらに、導入された空間は標準変量より先にラプラスと見なすことができる。 具体的には,GCCAを線形方程式系に変換し,空間探索のために$\ell_1$最小化ペナルティを課す。 これによりスティーフェル多様体上の非凸問題が発生し、解決は困難である。 ボイドのコンセンサス問題に動機づけられ,分散交互反復法に基づくアルゴリズムを開発し,軽度条件下で理論的一貫性解析を精査した。 いくつかの合成および実世界のデータセットに関する実験は、提案アルゴリズムの有効性を実証する。

Sparse canonical correlation analysis (CCA) is a useful statistical tool to detect latent information with sparse structures. However, sparse CCA works only for two datasets, i.e., there are only two views or two distinct objects. To overcome this limitation, in this paper, we propose a sparse generalized canonical correlation analysis (GCCA), which could detect the latent relations of multiview data with sparse structures. Moreover, the introduced sparsity could be considered as Laplace prior on the canonical variates. Specifically, we convert the GCCA into a linear system of equations and impose $\ell_1$ minimization penalty for sparsity pursuit. This results in a nonconvex problem on Stiefel manifold, which is difficult to solve. Motivated by Boyd's consensus problem, an algorithm based on distributed alternating iteration approach is developed and theoretical consistency analysis is investigated elaborately under mild conditions. Experiments on several synthetic and real world datasets demonstrate the effectiveness of the proposed algorithm.
翻訳日:2022-12-10 09:01:19 公開日:2020-04-23
# 木型規則条件を用いたxcsの複雑性効率機能の構築

Constructing Complexity-efficient Features in XCS with Tree-based Rule Conditions ( http://arxiv.org/abs/2004.10978v1 )

ライセンス: Link先を確認
Trung B. Nguyen, Will N. Browne, Mengjie Zhang(参考訳) 機械学習の主な目標は、無関係な情報を抽象化するテクニックを作ることである。 標準学習分類システム(LCS)の一般化特性は,機能レベルの情報を取り除き,機能レベルの情報を取り除いている。 ツリーベースのプログラムの形式であるコードフラグメント(cfs)は重要なインタラクションを発見するために機能操作を導入したが、構造的非効率を引き起こす無関係な情報を含むことが多い。 XOFは最近導入されたLCSで、CFを使って機能相互作用に関する知識の構成要素をエンコードする。 本稿では,xofにおけるcfsの構造効率を最適化することを目的とする。 この目標を達成するために,cfsの構築を改善するための2つの対策を提案する。 まず、新しいCF適合性更新は、構造的な複雑さも考慮したCFの適用性を推定する。 第2の尺度は、cfsを生成するニッチベースの方法である。 これらのアプローチは、データパターンをキャプチャするために入力機能の非常に複雑な組み合わせを必要とする、均等で階層的な問題でテストされた。 その結果,提案手法によりcfsの構造効率が著しく向上することが明らかとなった。 その結果,階層的Majority-on問題における学習性能が向上した。 さらに、最適CFが構築されると、学習エージェントが上位CFを採用しないため、CF生成のためのユーザセット深さ制限は不要である。

A major goal of machine learning is to create techniques that abstract away irrelevant information. The generalisation property of standard Learning Classifier System (LCS) removes such information at the feature level but not at the feature interaction level. Code Fragments (CFs), a form of tree-based programs, introduced feature manipulation to discover important interactions, but they often contain irrelevant information, which causes structural inefficiency. XOF is a recently introduced LCS that uses CFs to encode building blocks of knowledge about feature interaction. This paper aims to optimise the structural efficiency of CFs in XOF. We propose two measures to improve constructing CFs to achieve this goal. Firstly, a new CF-fitness update estimates the applicability of CFs that also considers the structural complexity. The second measure we can use is a niche-based method of generating CFs. These approaches were tested on Even-parity and Hierarchical problems, which require highly complex combinations of input features to capture the data patterns. The results show that the proposed methods significantly increase the structural efficiency of CFs, which is estimated by the rule "generality rate". This results in faster learning performance in the Hierarchical Majority-on problem. Furthermore, a user-set depth limit for CF generation is not needed as the learning agent will not adopt higher-level CFs once optimal CFs are constructed.
翻訳日:2022-12-10 08:53:01 公開日:2020-04-23
# Winograd Schema Challengeデータセットとアプローチのレビュー

A Review of Winograd Schema Challenge Datasets and Approaches ( http://arxiv.org/abs/2004.13831v1 )

ライセンス: Link先を確認
Vid Kocijan, Thomas Lukasiewicz, Ernest Davis, Gary Marcus, Leora Morgenstern(参考訳) Winograd Schema Challengeは、チューリングテストの代替として導入された、常識的推論と自然言語理解の課題である。 ウィノグラード・スキーマ(winograd schema)は、1つまたは2つの単語で区別される文のペアであり、非常にあいまいな代名詞を持ち、2つの文で異なる解決がなされている。 これらの例は、人間が容易に解けるように設計され、機械にとって困難であり、原則として、テキストの内容とそれが記述する状況について深く理解する必要がある。 本稿では、導入以来発行されてきた既存のWinograd Schema Challengeベンチマークデータセットとアプローチについてレビューする。

The Winograd Schema Challenge is both a commonsense reasoning and natural language understanding challenge, introduced as an alternative to the Turing test. A Winograd schema is a pair of sentences differing in one or two words with a highly ambiguous pronoun, resolved differently in the two sentences, that appears to require commonsense knowledge to be resolved correctly. The examples were designed to be easily solvable by humans but difficult for machines, in principle requiring a deep understanding of the content of the text and the situation it describes. This paper reviews existing Winograd Schema Challenge benchmark datasets and approaches that have been published since its introduction.
翻訳日:2022-12-10 08:52:42 公開日:2020-04-23
# tcnn:eコマースにおける検索型質問応答システムのための三重畳み込みニューラルネットワークモデル

TCNN: Triple Convolutional Neural Network Models for Retrieval-based Question Answering System in E-commerce ( http://arxiv.org/abs/2004.10919v1 )

ライセンス: Link先を確認
Shuangyong Song, Chao Wang(参考訳) 近年,質問自動回答システム(QA)が盛んになり,一般的に使われている手法は情報検索(IR)と世代ベースに分類される。 IRベースのモデルの鍵となる解決策は、与えられたクエリの最も類似した知識エントリをQA知識ベースから取得し、それらの知識エントリをセマンティックマッチングモデルで再参照することである。 本稿では,提案するテキストマッチングモデルとirベースの電子商取引qaシステムについて,基本三重畳み込みニューラルネットワーク(tcnn)モデルと2つの注意に基づくtcnn(atcnn)モデルを含む改善を目標とする。 実験結果は効果を示す。

Automatic question-answering (QA) systems have boomed during last few years, and commonly used techniques can be roughly categorized into Information Retrieval (IR)-based and generation-based. A key solution to the IR based models is to retrieve the most similar knowledge entries of a given query from a QA knowledge base, and then rerank those knowledge entries with semantic matching models. In this paper, we aim to improve an IR based e-commerce QA system-AliMe with proposed text matching models, including a basic Triple Convolutional Neural Network (TCNN) model and two Attention-based TCNN (ATCNN) models. Experimental results show their effect.
翻訳日:2022-12-10 08:52:14 公開日:2020-04-23
# バイオメディカルNLPタスクの逆例について

On Adversarial Examples for Biomedical NLP Tasks ( http://arxiv.org/abs/2004.11157v1 )

ライセンス: Link先を確認
Vladimir Araujo, Andres Carvallo, Carlos Aspillaga and Denis Parra(参考訳) 事前訓練された単語埋め込みの成功は、生体医学領域におけるタスクにおけるその使用を動機付けている。 BERT言語モデルは、名前付きエンティティ認識(NER)やセマンティックテキスト類似性(STS)といったタスクにおける標準的なパフォーマンス指標に顕著な結果を示し、NLPの分野で大きな進歩をもたらした。 しかし、これらのシステムが法律や医学などの重要な領域でうまく機能しているかは不明である。 そこで本研究では,医療用ner と sts の2つのよく知られたデータセットに関する敵意評価手法を提案する。 自然の綴り誤りと人間によるタイプミスに触発された2種類の攻撃を提案する。 また,医療用語の同義語を用いる別の攻撃法を提案する。 これらの逆条件下では、モデルの精度は著しく低下し、この性能損失の程度を定量化する。 また, モデルの頑健性を, 逆例を用いてトレーニングすることで, 大幅に改善できることを示す。 私たちの研究が、医療タスクの堅牢性を高めたモデルの評価と開発に、敵対的な例の使用を動機付けることを期待しています。

The success of pre-trained word embeddings has motivated its use in tasks in the biomedical domain. The BERT language model has shown remarkable results on standard performance metrics in tasks such as Named Entity Recognition (NER) and Semantic Textual Similarity (STS), which has brought significant progress in the field of NLP. However, it is unclear whether these systems work seemingly well in critical domains, such as legal or medical. For that reason, in this work, we propose an adversarial evaluation scheme on two well-known datasets for medical NER and STS. We propose two types of attacks inspired by natural spelling errors and typos made by humans. We also propose another type of attack that uses synonyms of medical terms. Under these adversarial settings, the accuracy of the models drops significantly, and we quantify the extent of this performance loss. We also show that we can significantly improve the robustness of the models by training them with adversarial examples. We hope our work will motivate the use of adversarial examples to evaluate and develop models with increased robustness for medical tasks.
翻訳日:2022-12-10 08:51:45 公開日:2020-04-23
# 自然言語処理への進化的アプローチに向けて

Towards an evolutionary-based approach for natural language processing ( http://arxiv.org/abs/2004.13832v1 )

ライセンス: Link先を確認
Luca Manzoni, Domagoj Jakobovic, Luca Mariot, Stjepan Picek, Mauro Castelli(参考訳) 自然言語処理(NLP)に関連するタスクは、機械学習コミュニティによる大規模な研究の焦点となっている。 この分野への関心が高まったのは、主に深層学習の成功によるものである。 しかし、遺伝的プログラミング(gp)はnlpタスクに関してスポットライトを浴びていなかった。 本稿では,gp とよく確立された nlp ツール word2vec を組み合わせた最初の概念実証手法を提案する。 主なアイデアは、単語がベクトル空間に移動されると、従来のgp演算子がベクトルにうまく取り組み、結果として意味のある単語を出力として生成できるということである。 このアプローチの適合性を評価するために,既存の新聞記事の見出しを実験的に評価する。 この(事前の)訓練段階から得られた個人は、文生成のような他のnlpタスクの初期集団として採用され、将来の調査の焦点となり、おそらくは逆共進化的アプローチを採用する。

Tasks related to Natural Language Processing (NLP) have recently been the focus of a large research endeavor by the machine learning community. The increased interest in this area is mainly due to the success of deep learning methods. Genetic Programming (GP), however, was not under the spotlight with respect to NLP tasks. Here, we propose a first proof-of-concept that combines GP with the well established NLP tool word2vec for the next word prediction task. The main idea is that, once words have been moved into a vector space, traditional GP operators can successfully work on vectors, thus producing meaningful words as the output. To assess the suitability of this approach, we perform an experimental evaluation on a set of existing newspaper headlines. Individuals resulting from this (pre-)training phase can be employed as the initial population in other NLP tasks, like sentence generation, which will be the focus of future investigations, possibly employing adversarial co-evolutionary approaches.
翻訳日:2022-12-10 08:45:28 公開日:2020-04-23
# ネットワーク侵入検知システムにおけるadversarial machine learning

Adversarial Machine Learning in Network Intrusion Detection Systems ( http://arxiv.org/abs/2004.11898v1 )

ライセンス: Link先を確認
Elie Alhajjar and Paul Maxwell and Nathaniel D. Bastian(参考訳) 逆の例は、攻撃者がモデルを騙して誤った出力を生成するために意図的に作った機械学習システムへの入力である。 これらの例は、画像認識、音声認識、スパム検出などいくつかの分野で大きな成功を収めています。 本稿では,ネットワーク侵入検知システム(NIDS)における逆問題の性質について検討する。 我々は、様々な機械学習モデルを回避できる敵例を生成する技術を含む、攻撃の観点に焦点を当てる。 具体的には、進化的計算(粒子群最適化と遺伝的アルゴリズム)と深層学習(生成的敵ネットワーク)を、敵対的サンプル生成のツールとして活用することを検討する。 NIDS回避におけるこれらのアルゴリズムの性能を評価するため,NSL-KDDとUNSW-NB15の2つの公開データセットに適用し,ベースライン摂動法であるモンテカルロシミュレーションと比較した。 その結果,提案手法は,11種類の機械学習モデルにおいて,投票分類器とともに高い誤分類率を引き起こすことがわかった。 我々の研究は、敵の摂動に直面した機械学習ベースのNIDSの脆弱性を強調している。

Adversarial examples are inputs to a machine learning system intentionally crafted by an attacker to fool the model into producing an incorrect output. These examples have achieved a great deal of success in several domains such as image recognition, speech recognition and spam detection. In this paper, we study the nature of the adversarial problem in Network Intrusion Detection Systems (NIDS). We focus on the attack perspective, which includes techniques to generate adversarial examples capable of evading a variety of machine learning models. More specifically, we explore the use of evolutionary computation (particle swarm optimization and genetic algorithm) and deep learning (generative adversarial networks) as tools for adversarial example generation. To assess the performance of these algorithms in evading a NIDS, we apply them to two publicly available data sets, namely the NSL-KDD and UNSW-NB15, and we contrast them to a baseline perturbation method: Monte Carlo simulation. The results show that our adversarial example generation techniques cause high misclassification rates in eleven different machine learning models, along with a voting classifier. Our work highlights the vulnerability of machine learning based NIDS in the face of adversarial perturbation.
翻訳日:2022-12-10 08:44:56 公開日:2020-04-23
# 短文のためのガンマ・ポアソン混合話題モデル

A Gamma-Poisson Mixture Topic Model for Short Text ( http://arxiv.org/abs/2004.11464v1 )

ライセンス: Link先を確認
Jocelyn Mazarura, Alta de Waal and Pieter de Villiers(参考訳) ほとんどのトピックモデルは、文書が多項分布に従うという仮定のもとに構築される。 ポアソン分布は、カウントデータの確率を記述するための代替分布である。 トピックモデリングでは、ポアソン分布は一定長さの文書中の単語の発生回数を記述する。 poisson分布はテキスト分類にうまく適用されているが、そのトピックモデリングへの応用は、特に生成確率モデルの文脈において、十分に文書化されていない。 さらに、文学における数少ないPoissonトピックモデルは混合モデルであり、ドキュメントがトピックの混合から生成されると仮定する。 本研究では,短文に焦点をあてる。 多くの研究は、混合モデルの単純な仮定が短いテキストに適合することが示されている。 混合モデルでは、混合モデルとは対照的に、生成的前提は文書が単一のトピックから生成されることである。 この文書ごとに1つのトピックを仮定する1つのトピックモデルは、dirichlet-multinomial mixed modelである。 この研究の主な貢献は、新しいガンマ・ポアソン混合モデルと、モデルのための崩壊したギブス・サンプラーである。 崩壊したgibbs samplerの利点は、モデルがコーパスに含まれるトピックの数を自動的に選択できることである。 その結果,Gamma-Poisson混合モデルはラベル付きコーパスのトピック数を選択する際に,Dirichlet-multinomial混合モデルよりも優れていた。 さらに、ガンマ-ポアソン混合はディリクレ-多項混合モデルよりも優れたトピックコヒーレンススコアを生成するので、短いテキストのトピックモデリングの課題に対して有効な選択肢となる。

Most topic models are constructed under the assumption that documents follow a multinomial distribution. The Poisson distribution is an alternative distribution to describe the probability of count data. For topic modelling, the Poisson distribution describes the number of occurrences of a word in documents of fixed length. The Poisson distribution has been successfully applied in text classification, but its application to topic modelling is not well documented, specifically in the context of a generative probabilistic model. Furthermore, the few Poisson topic models in literature are admixture models, making the assumption that a document is generated from a mixture of topics. In this study, we focus on short text. Many studies have shown that the simpler assumption of a mixture model fits short text better. With mixture models, as opposed to admixture models, the generative assumption is that a document is generated from a single topic. One topic model, which makes this one-topic-per-document assumption, is the Dirichlet-multinomial mixture model. The main contributions of this work are a new Gamma-Poisson mixture model, as well as a collapsed Gibbs sampler for the model. The benefit of the collapsed Gibbs sampler derivation is that the model is able to automatically select the number of topics contained in the corpus. The results show that the Gamma-Poisson mixture model performs better than the Dirichlet-multinomial mixture model at selecting the number of topics in labelled corpora. Furthermore, the Gamma-Poisson mixture produces better topic coherence scores than the Dirichlet-multinomial mixture model, thus making it a viable option for the challenging task of topic modelling of short text.
翻訳日:2022-12-10 08:43:56 公開日:2020-04-23
# 目標指向計画のためのモンテカルロ木探索法

Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning ( http://arxiv.org/abs/2004.11410v1 )

ライセンス: Link先を確認
Giambattista Parascandolo, Lars Buesing, Josh Merel, Leonard Hasenclever, John Aslanides, Jessica B. Hamrick, Nicolas Heess, Alexander Neitz, Theophane Weber(参考訳) シーケンシャルな意思決定のための標準的なプランナー(モンテカルロ計画、ツリー探索、動的プログラミングなど)は、暗黙的なシーケンシャルな計画の前提によって制約される。 目標指向強化学習(RL)問題に対するこの仮定の代替案を検討する。 環境遷移モデルの代わりに、不完全で目標指向のポリシーを仮定します。 この低レベルポリシーは、開始から目標状態へ導くための適切なサブゴールのシーケンスで構成されるプランによって改善することができる。 本稿では,初期タスクを独立して再帰的に解決する単純なタスクに階層的に分割する中間部分ゴールの提案により,最適計画の近似を行う計画アルゴリズムであるDivide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。 このアルゴリズムは、事前の経験に基づいて新しいタスクの適切な分割木を見つけるための学習済みサブゴールの提案を批判的に利用する。 サブゴールの提案を学ぶための異なる戦略は、シーケンシャルプランニングを厳密に一般化する異なる計画戦略をもたらす。 計画順序に対するこのアルゴリズム的柔軟性は、グリッド世界のナビゲーションタスクや、困難な継続的制御環境において、より良い結果をもたらすことを示す。

Standard planners for sequential decision making (including Monte Carlo planning, tree search, dynamic programming, etc.) are constrained by an implicit sequential planning assumption: The order in which a plan is constructed is the same in which it is executed. We consider alternatives to this assumption for the class of goal-directed Reinforcement Learning (RL) problems. Instead of an environment transition model, we assume an imperfect, goal-directed policy. This low-level policy can be improved by a plan, consisting of an appropriate sequence of sub-goals that guide it from the start to the goal state. We propose a planning algorithm, Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS), for approximating the optimal plan by means of proposing intermediate sub-goals which hierarchically partition the initial tasks into simpler ones that are then solved independently and recursively. The algorithm critically makes use of a learned sub-goal proposal for finding appropriate partitions trees of new tasks based on prior experience. Different strategies for learning sub-goal proposals give rise to different planning strategies that strictly generalize sequential planning. We show that this algorithmic flexibility over planning order leads to improved results in navigation tasks in grid-worlds as well as in challenging continuous control environments.
翻訳日:2022-12-10 08:43:12 公開日:2020-04-23
# newsroomのアップグレード:ニュース記事の自動画像選択システム

Upgrading the Newsroom: An Automated Image Selection System for News Articles ( http://arxiv.org/abs/2004.11449v1 )

ライセンス: Link先を確認
Fangyu Liu, R\'emi Lebret, Didier Orel, Philippe Sordet, Karl Aberer(参考訳) 本稿では,ニュース記事に適した画像選択を支援する自動画像選択システムを提案する。 本システムは,ニュース記事から抽出した複数のテキストソースを融合し,多言語入力を受け入れる。 例えばドイツ語のような形態学的にリッチな言語をモデル化し、近くの言語にまたがる知識の伝達を支援するために、charレベルの単語埋め込みを備えている。 テキストエンコーダは、階層的な自己認識機構を採用して、テキスト内のキーワードとニュース記事の情報的コンポーネントの両方にもっと参加する。 スイスのローカルニュースサイトから収集した多言語ニュース記事を含む大規模テキスト画像データベース上で,本システムを広範囲に実験した。 本システムは,複数のベースラインとアブレーション研究を比較し,弱教師付き学習環境で既存のテキスト画像検索手法に勝っていることを示す。 さらに、複数のテキストソースと多言語データを使用する利点についての洞察も提供する。

We propose an automated image selection system to assist photo editors in selecting suitable images for news articles. The system fuses multiple textual sources extracted from news articles and accepts multilingual inputs. It is equipped with char-level word embeddings to help both modeling morphologically rich languages, e.g. German, and transferring knowledge across nearby languages. The text encoder adopts a hierarchical self-attention mechanism to attend more to both keywords within a piece of text and informative components of a news article. We extensively experiment with our system on a large-scale text-image database containing multimodal multilingual news articles collected from Swiss local news media websites. The system is compared with multiple baselines with ablation studies and is shown to beat existing text-image retrieval methods in a weakly-supervised learning setting. Besides, we also offer insights on the advantage of using multiple textual sources and multilingual data.
翻訳日:2022-12-10 08:42:50 公開日:2020-04-23