このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201020となっている論文です。

PDF登録状況(公開日: 20201020)

TitleAuthorsAbstract論文公表日・翻訳日
# 機械読解システムに関する調査研究

A Survey on Machine Reading Comprehension Systems ( http://arxiv.org/abs/2001.01582v2 )

ライセンス: Link先を確認
Razieh Baradaran, Razieh Ghiasi, and Hossein Amirkhani(参考訳) 機械読解は自然言語処理において難しい課題でありホットトピックである。 その目標は、与えられたコンテキストに関する質問に答えるシステムを開発することである。 本稿では,機械読解システムにおける様々な側面について,そのアプローチ,構造,入出力,研究ノベルティなどの総合的な調査を行う。 2016年から2020年までの241のレビュー論文に基づいて,この分野の最近のトレンドを解説する。 本研究では,近年研究の焦点が,回答抽出から回答生成,単文書読み解から複数文書読解,スクラッチから学習,事前学習による組込みへと変化したことを示す。 また、この分野の一般的なデータセットと評価メトリクスについても論じる。 論文は、最も引用された論文とその貢献を調査して終わる。

Machine reading comprehension is a challenging task and hot topic in natural language processing. Its goal is to develop systems to answer the questions regarding a given context. In this paper, we present a comprehensive survey on different aspects of machine reading comprehension systems, including their approaches, structures, input/outputs, and research novelties. We illustrate the recent trends in this field based on 241 reviewed papers from 2016 to 2020. Our investigations demonstrate that the focus of research has changed in recent years from answer extraction to answer generation, from single to multi-document reading comprehension, and from learning from scratch to using pre-trained embeddings. We also discuss the popular datasets and the evaluation metrics in this field. The paper ends with investigating the most cited papers and their contributions.
翻訳日:2023-01-14 02:27:41 公開日:2020-10-20
# 単方向注意に基づくスイッチボードにおける最先端結果のシーケンス・ツー・シーケンスモデル

Single headed attention based sequence-to-sequence model for state-of-the-art results on Switchboard ( http://arxiv.org/abs/2001.07263v3 )

ライセンス: Link先を確認
Zolt\'an T\"uske, George Saon, Kartik Audhkhasi, Brian Kingsbury(参考訳) seq2seq(direct sequence-to-sequence)音声認識モデルは、大量のデータ(少なくとも1000時間)がトレーニングに利用できる場合にのみハイブリッドモデルと競合すると考えられている。 本論文では,一方向のLSTMモデルを用いて,Switchboard-300データベース上で最先端の認識性能を実現することができることを示す。 クロス発話言語モデルを用いて、我々のシングルパス話者独立システムは、発音辞書なしで、SwitchboardとHub5'00のCallHomeサブセットで6.4%と12.5%のワードエラー率(WER)に達する。 このレベルのパフォーマンスを達成するには慎重な正規化とデータ拡張が不可欠であるが、switchboard-2000の実験では、より多くのデータよりも有用でないことが示されている。 概して、様々な正規化と比較的大きなモデルの組み合わせは、外部データリソースを使わずにSWB-2000を使用して、SwitchboardとCallHomeセットの4.7%と7.8%のWERという新しい状態をもたらす。

It is generally believed that direct sequence-to-sequence (seq2seq) speech recognition models are competitive with hybrid models only when a large amount of data, at least a thousand hours, is available for training. In this paper, we show that state-of-the-art recognition performance can be achieved on the Switchboard-300 database using a single headed attention, LSTM based model. Using a cross-utterance language model, our single-pass speaker independent system reaches 6.4% and 12.5% word error rate (WER) on the Switchboard and CallHome subsets of Hub5'00, without a pronunciation lexicon. While careful regularization and data augmentation are crucial in achieving this level of performance, experiments on Switchboard-2000 show that nothing is more useful than more data. Overall, the combination of various regularizations and a simple but fairly large model results in a new state of the art, 4.7% and 7.8% WER on the Switchboard and CallHome sets, using SWB-2000 without any external data resources.
翻訳日:2023-01-08 05:42:27 公開日:2020-10-20
# 半スーパービジョンにおけるフロー型生成モデルを用いた医用画像の多彩な異常検出法

A versatile anomaly detection method for medical images with a flow-based generative model in semi-supervision setting ( http://arxiv.org/abs/2001.07847v3 )

ライセンス: Link先を確認
H. Shibata (1), S. Hanaoka (2), Y. Nomura (1), T. Nakao (1), I. Sato (2 and 4 and 5), D. Sato (3), N. Hayashi (1) and O. Abe (2 and 3) ((1) Department of Computational Diagnostic Radiology and Preventive Medicine, The University of Tokyo Hospital, (2) Department of Radiology, The University of Tokyo Hospital, (3) Division of Radiology and Biomedical Engineering, Graduate School of Medicine, The University of Tokyo, (4) Department of Computer Science, Graduate School of Information Science and Technology, The University of Tokyo, (5) Center for Advanced Intelligence Project, RIKEN)(参考訳) 医用画像の監視は重要な問題であり、医用画像のタイムリーな報告が望まれる。 したがって、所定の画像中の事実上全ての種類の病変・疾患を検出できる全目的異常検出方法が求められている。 しかし, 医用画像の市販・汎用的異常検出法は, これまでにほとんど提供されていない。 近年,ディープラーニング手法に基づく異常検出手法が急速に普及しており,これらの手法は問題に対する合理的な解決法であると考えられる。 しかし、ディープラーニングの訓練に必要なイメージをラベル付けする作業は依然として重い。 本研究では,2つの学習フローに基づく生成モデルに基づく異常検出法を提案する。 この方法では、後続確率は任意の画像に対する正規度計量として計算できる。 生成モデルのトレーニングには、通常画像のみを含むセットと、ラベルのない正常画像と異常画像の両方を含むセットの2つのセットが必要である。 後者のセットでは、各サンプルは正常または異常とラベル付けされる必要はなく、そのため、手作業の面倒なラベリングなしに、画像の混合物(病院のすべてのケースなど)をデータセットとして使用できる。 この方法は胸部x線x線画像(cxrs)と脳計算断層画像(bcts)の2種類の医用画像で検証された。 cxrs (0.868) と bcts (0.904) の対数後確率に対する特徴曲線は, 他の異常検出法と同等であった。 その結果,本手法の汎用性を示した。

Oversight in medical images is a crucial problem, and timely reporting of medical images is desired. Therefore, an all-purpose anomaly detection method that can detect virtually all types of lesions/diseases in a given image is strongly desired. However, few commercially available and versatile anomaly detection methods for medical images have been provided so far. Recently, anomaly detection methods built upon deep learning methods have been rapidly growing in popularity, and these methods seem to provide reasonable solutions to the problem. However, the workload to label the images necessary for training in deep learning remains heavy. In this study, we present an anomaly detection method based on two trained flow-based generative models. With this method, the posterior probability can be computed as a normality metric for any given image. The training of the generative models requires two sets of images: a set containing only normal images and another set containing both normal and abnormal images without any labels. In the latter set, each sample does not have to be labeled as normal or abnormal; therefore, any mixture of images (e.g., all cases in a hospital) can be used as the dataset without cumbersome manual labeling. The method was validated with two types of medical images: chest X-ray radiographs (CXRs) and brain computed tomographies (BCTs). The areas under the receiver operating characteristic curves for logarithm posterior probabilities of CXRs (0.868 for pneumonia-like opacities) and BCTs (0.904 for infarction) were comparable to those in previous studies with other anomaly detection methods. This result showed the versatility of our method.
翻訳日:2023-01-07 18:20:50 公開日:2020-10-20
# 機械学習による産業老化過程の予測

Forecasting Industrial Aging Processes with Machine Learning Methods ( http://arxiv.org/abs/2002.01768v2 )

ライセンス: Link先を確認
Mihail Bogojeski, Simeon Sauer, Franziska Horn, Klaus-Robert M\"uller(参考訳) 産業の老化過程を正確に予測することで、プラントのコスト効率と信頼性を確保するため、メンテナンスイベントを事前にスケジュールすることができる。 これまでのところ、これらの分解過程は機械的または単純な経験的予測モデルによって記述されている。 本稿では、従来のステートレスモデル(線形およびカーネルリッジ回帰、フィードフォワードニューラルネットワーク)とより複雑なリカレントニューラルネットワーク(echo状態ネットワークとlstm)を比較し、より広い範囲のデータ駆動モデルを評価する。 まず、既知のダイナミクスを持つ合成データセット上で各モデルをトレーニングするために、どの程度の履歴データが必要かを調べる。 次に、モデルが大規模な化学プラントの実際のデータでテストされる。 その結果,再帰モデルでは,より大きなデータセットでトレーニングした場合にほぼ完璧に予測でき,ドメインシフトのある小さなデータセットでトレーニングしても良好な性能を維持することができた。

Accurately predicting industrial aging processes makes it possible to schedule maintenance events further in advance, ensuring a cost-efficient and reliable operation of the plant. So far, these degradation processes were usually described by mechanistic or simple empirical prediction models. In this paper, we evaluate a wider range of data-driven models, comparing some traditional stateless models (linear and kernel ridge regression, feed-forward neural networks) to more complex recurrent neural networks (echo state networks and LSTMs). We first examine how much historical data is needed to train each of the models on a synthetic dataset with known dynamics. Next, the models are tested on real-world data from a large scale chemical plant. Our results show that recurrent models produce near perfect predictions when trained on larger datasets, and maintain a good performance even when trained on smaller datasets with domain shifts, while the simpler models only performed comparably on the smaller datasets.
翻訳日:2023-01-03 21:01:55 公開日:2020-10-20
# 発達障害の予防的評価のための正規回帰に対するニューラルアプローチ

A Neural Approach to Ordinal Regression for the Preventive Assessment of Developmental Dyslexia ( http://arxiv.org/abs/2002.02184v2 )

ライセンス: Link先を確認
F.J. Martinez-Murcia, A. Ortiz, Marco A. Formoso, M. Lopez-Zamora, J.L. Luque, A. Gim\'enez(参考訳) 発達性Dyslexia(DD)は、人口の約5%に影響を与える読解能力の獲得に関連する学習障害である。 DDは、患児の知的・個人的発達に大きな影響を与える可能性があるため、早期発見は、言語教育の予防戦略を実施する鍵となる。 研究により、音素処理に影響を及ぼすDDに生物学的基盤があることが示されており、読み出し能力を得る前にこれらの症状が特定できる可能性があり、早期の介入が可能である。 本稿では,学生が読み取る前にDDのリスクを評価する新しい手法を提案する。 そこで,本研究では,5歳時に完成できるテストから,失読症のリスクレベルを計算する混合ニューラルモデルを提案する。 提案手法は,まずオートエンコーダを訓練し,その後,予測の一貫性を確保するために最適化された順序回帰ニューラルネットワークと符号化する。 実験の結果, 本システムは音韻処理を中心にddのリスクを評価できるまでに2年を要し, 0.969の特異性と0.92以上の正解率を与えることができた。 さらに、トレーニングされたエンコーダを用いて、テスト結果を解釈可能な対象空間分布に変換し、リスク評価と方法論の検証を容易にする。

Developmental Dyslexia (DD) is a learning disability related to the acquisition of reading skills that affects about 5% of the population. DD can have an enormous impact on the intellectual and personal development of affected children, so early detection is key to implementing preventive strategies for teaching language. Research has shown that there may be biological underpinnings to DD that affect phoneme processing, and hence these symptoms may be identifiable before reading ability is acquired, allowing for early intervention. In this paper we propose a new methodology to assess the risk of DD before students learn to read. For this purpose, we propose a mixed neural model that calculates risk levels of dyslexia from tests that can be completed at the age of 5 years. Our method first trains an auto-encoder, and then combines the trained encoder with an optimized ordinal regression neural network devised to ensure consistency of predictions. Our experiments show that the system is able to detect unaffected subjects two years before it can assess the risk of DD based mainly on phonological processing, giving a specificity of 0.969 and a correct rate of more than 0.92. In addition, the trained encoder can be used to transform test results into an interpretable subject spatial distribution that facilitates risk assessment and validates methodology.
翻訳日:2023-01-03 09:35:25 公開日:2020-10-20
# 妥協のない弱教師付き絡み合い

Weakly-Supervised Disentanglement Without Compromises ( http://arxiv.org/abs/2002.02886v4 )

ライセンス: Link先を確認
Francesco Locatello, Ben Poole, Gunnar R\"atsch, Bernhard Sch\"olkopf, Olivier Bachem, Michael Tschannen(参考訳) 知的エージェントは、環境の変化を観察することで有用な表現を学習できるべきである。 変動の要因の少なくとも1つを共有する非I.d.画像のペアとしてそのような観測をモデル化する。 まず,どの因子が変化したのか,どの因子が変化したのかを知るだけで,不整合表現を学ぶのに十分であることを示す。 第2に、グループや個々の要因、あるいは変化した要因の数の注釈を必要とせずに、画像のペアから絡み合った表現を学習する実用的なアルゴリズムを提供する。 第3に,大規模な実験研究を行い,複数のベンチマークデータセットで不連続表現を確実に学習するには,このようなペアの観測が十分であることを示す。 最後に、学習した表現を評価し、共変量シフト、公正性、抽象的推論に基づく一般化など、多様なタスク群で同時に有用であることを示す。 全体として,弱い監督により,現実的なシナリオにおいて有用な不連続表現を学習できることが示される。

Intelligent agents should be able to learn useful representations by observing changes in their environment. We model such observations as pairs of non-i.i.d. images sharing at least one of the underlying factors of variation. First, we theoretically show that only knowing how many factors have changed, but not which ones, is sufficient to learn disentangled representations. Second, we provide practical algorithms that learn disentangled representations from pairs of images without requiring annotation of groups, individual factors, or the number of factors that have changed. Third, we perform a large-scale empirical study and show that such pairs of observations are sufficient to reliably learn disentangled representations on several benchmark data sets. Finally, we evaluate our learned representations and find that they are simultaneously useful on a diverse suite of tasks, including generalization under covariate shifts, fairness, and abstract reasoning. Overall, our results demonstrate that weak supervision enables learning of useful disentangled representations in realistic scenarios.
翻訳日:2023-01-03 04:01:34 公開日:2020-10-20
# アルキメデスの罠-伝統的な強化学習がAGIに勝てない理由

The Archimedean trap: Why traditional reinforcement learning will probably not yield AGI ( http://arxiv.org/abs/2002.10221v2 )

ライセンス: Link先を確認
Samuel Allen Alexander(参考訳) 実数のアルキメデス的性質を非数値構造に適応させるような方法で一般化した後、実数は非アルキメデス的構造を正確に測定することはできないことを示した。 我々は,人工知能(AGI)のエージェントは,非アルキメデスの報酬に本質的に関与するタスクに問題なく関与すべきであり,従来の強化学習報酬は実数であるため,従来の強化学習がAGIに結びつくことはないと論じる。 この障害を取り除くために,従来の強化学習を変更できる方法が2つある。

After generalizing the Archimedean property of real numbers in such a way as to make it adaptable to non-numeric structures, we demonstrate that the real numbers cannot be used to accurately measure non-Archimedean structures. We argue that, since an agent with Artificial General Intelligence (AGI) should have no problem engaging in tasks that inherently involve non-Archimedean rewards, and since traditional reinforcement learning rewards are real numbers, therefore traditional reinforcement learning probably will not lead to AGI. We indicate two possible ways traditional reinforcement learning could be altered to remove this roadblock.
翻訳日:2022-12-31 22:53:53 公開日:2020-10-20
# 価値駆動型直視モデリング

Value-driven Hindsight Modelling ( http://arxiv.org/abs/2002.08329v2 )

ライセンス: Link先を確認
Arthur Guez, Fabio Viola, Th\'eophane Weber, Lars Buesing, Steven Kapturowski, Doina Precup, David Silver, Nicolas Heess(参考訳) 値推定は強化学習(RL)パラダイムの重要な構成要素である。 データから価値予測器を効果的に学習する方法に関する問題は、RLコミュニティが調査した主要な問題の1つであり、異なるアプローチが問題領域の構造を異なる方法で活用する。 モデル学習は、観測のシーケンスに存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。 対照的に、モデルフリーな手法は将来からの関心を直接的に活用するが、潜在的に弱いスカラー信号(リターンの推定値)を受け取る。 私たちは、これらの2つの極小の間に位置する、rlにおける表現学習のアプローチを開発します。 この目的のために、将来の軌道の特徴が関連する回帰を予測するのに有用な情報を提供するかを決定する。 これにより、タスクに直接関連する扱いやすい予測ターゲットが提供され、価値関数の学習を加速することができる。 この考え方は、将来の観察のどの側面が過去の価値予測に役立つかについての推論として理解することができる。 簡単なポリシー評価設定でも、これが劇的に役立つことを示します。 次に、57のatari 2600ゲームを含む、挑戦的なドメインで大規模にアプローチをテストします。

Value estimation is a critical component of the reinforcement learning (RL) paradigm. The question of how to effectively learn value predictors from data is one of the major problems studied by the RL community, and different approaches exploit structure in the problem domain in different ways. Model learning can make use of the rich transition structure present in sequences of observations, but this approach is usually not sensitive to the reward function. In contrast, model-free methods directly leverage the quantity of interest from the future, but receive a potentially weak scalar signal (an estimate of the return). We develop an approach for representation learning in RL that sits in between these two extremes: we propose to learn what to model in a way that can directly help value prediction. To this end, we determine which features of the future trajectory provide useful information to predict the associated return. This provides tractable prediction targets that are directly relevant for a task, and can thus accelerate learning the value function. The idea can be understood as reasoning, in hindsight, about which aspects of the future observations could help past value prediction. We show how this can help dramatically even in simple policy evaluation settings. We then test our approach at scale in challenging domains, including on 57 Atari 2600 games.
翻訳日:2022-12-30 13:19:36 公開日:2020-10-20
# 深層学習によるアンサンブルのスムース化:地下キャラクタリゼーションへの応用

Using Deep Learning to Improve Ensemble Smoother: Applications to Subsurface Characterization ( http://arxiv.org/abs/2002.09100v2 )

ライセンス: Link先を確認
Jiangjiang Zhang, Qiang Zheng, Laosheng Wu, Lingzao Zeng(参考訳) エンサンブル・スムース(ES)は、様々な研究分野において、関心のシステムの不確実性を減らすために広く利用されている。 しかし、カルマンの公式、すなわち ES$_\text{(K)}$ を用いる一般的な ES 法は、関連する確率分布がガウス的でないときにうまく機能しない。 この問題に対処するために、複雑なデータ同化アプリケーションにおいて、深層学習(DL)を用いてESの代替更新スキームを導出することを提案する。 ここでは DL に基づく ES 法,すなわち ES$_\text{(DL)}$ がより一般的で柔軟であることを示す。 この新たな更新方式では、モデルパラメータとシミュレーション出力の比較的小さなアンサンブルから大量のトレーニングデータが生成され、トレーニングデータに可能な非ガウス的特徴を保存でき、適切なdlモデルでキャプチャされる。 この新しい ES の変種はガウス的仮定の有無にかかわらず2つの地下特性問題で検証される。 結果は ES$_\text{(DL)}$ が ES$_\text{(K)}$ と類似した(ガウス的でない場合)あるいはさらによい(ガウス的でない場合)結果を生成することを示している。 es$_\text{(dl)}$の成功は、複素(非ガウス的)特徴の抽出と大量のトレーニングデータからの非線形関係の学習におけるdlの力によるものである。 本研究はパラメータ推定問題においてES$_\text{(DL)}$法のみを適用するが,提案手法はモデル構造の不確実性の解析や実時間予測における状態推定に便利に拡張できる。

Ensemble smoother (ES) has been widely used in various research fields to reduce the uncertainty of the system-of-interest. However, the commonly-adopted ES method that employs the Kalman formula, that is, ES$_\text{(K)}$, does not perform well when the probability distributions involved are non-Gaussian. To address this issue, we suggest to use deep learning (DL) to derive an alternative update scheme for ES in complex data assimilation applications. Here we show that the DL-based ES method, that is, ES$_\text{(DL)}$, is more general and flexible. In this new update scheme, a high volume of training data are generated from a relatively small-sized ensemble of model parameters and simulation outputs, and possible non-Gaussian features can be preserved in the training data and captured by an adequate DL model. This new variant of ES is tested in two subsurface characterization problems with or without Gaussian assumptions. Results indicate that ES$_\text{(DL)}$ can produce similar (in the Gaussian case) or even better (in the non-Gaussian case) results compared to those from ES$_\text{(K)}$. The success of ES$_\text{(DL)}$ comes from the power of DL in extracting complex (including non-Gaussian) features and learning nonlinear relationships from massive amounts of training data. Although in this work we only apply the ES$_\text{(DL)}$ method in parameter estimation problems, the proposed idea can be conveniently extended to analysis of model structural uncertainty and state estimation in real-time forecasting studies.
翻訳日:2022-12-30 01:45:37 公開日:2020-10-20
# ランダムな平滑化によるブラックボックス認証:機能最適化に基づくフレームワーク

Black-Box Certification with Randomized Smoothing: A Functional Optimization Based Framework ( http://arxiv.org/abs/2002.09169v2 )

ライセンス: Link先を確認
Dinghuai Zhang, Mao Ye, Chengyue Gong, Zhanxing Zhu, Qiang Liu(参考訳) ランダム化分類器は、ディープラーニングにおける敵対的攻撃に対して確固たる堅牢性を達成するための有望なアプローチを提供する。 しかし、既存のほとんどの手法はガウス滑らか化ノイズのみを利用し、$\ell_2$摂動に対してのみ機能する。 非ガウス雑音とより一般的な攻撃に対して、統一された機能最適化の観点から、敵対的認証の一般的な枠組みを提案する。 我々の新しいフレームワークは、スムーズな分布を設計することで、正確性とロバスト性の間の重要なトレードオフを識別し、より効率的に$\ell_p$の設定で機能する非ガウス的なスムーズな分布の新しいファミリーを設計するのに役立ちます。 提案手法は,従来の手法よりも優れた認証結果を得るとともに,ランダム化スムース化認証の新しい視点を提供する。

Randomized classifiers have been shown to provide a promising approach for achieving certified robustness against adversarial attacks in deep learning. However, most existing methods only leverage Gaussian smoothing noise and only work for $\ell_2$ perturbation. We propose a general framework of adversarial certification with non-Gaussian noise and for more general types of attacks, from a unified functional optimization perspective. Our new framework allows us to identify a key trade-off between accuracy and robustness via designing smoothing distributions, helping to design new families of non-Gaussian smoothing distributions that work more efficiently for different $\ell_p$ settings, including $\ell_1$, $\ell_2$ and $\ell_\infty$ attacks. Our proposed methods achieve better certification results than previous works and provide a new perspective on randomized smoothing certification.
翻訳日:2022-12-30 01:00:28 公開日:2020-10-20
# 画像劣化における平均値法における最大エントロピー

The Maximum Entropy on the Mean Method for Image Deblurring ( http://arxiv.org/abs/2002.10434v4 )

ライセンス: Link先を確認
Gabriel Rioux, Rustum Choksi, Tim Hoheisel, Pierre Marechal, Christopher Scarvelis(参考訳) Image deblurringは、不適切な逆問題として悪名高い。 近年、画像のレベルにおける正規化や機械学習による技術に基づく様々なアプローチが提案されている。 本稿では,画像空間上の確率分布のレベルでの正則化にパラダイムをシフトする別の手法を提案する。 本手法は,基底真理の推定を期待する画像の確率密度関数のレベルで働く平均値の最大エントロピーの考え方に基づいている。 凸解析と確率論の手法を用いて、この手法は計算可能であり、非常に大きなぼやけを解消できることを示した。 さらに,画像にシンボル(既知のパターン)が埋め込まれた場合,未知のぼやけカーネルの近似にどのように適用できるかを示す。 本手法は, 少量の雑音に対して安定であるが, 能動的に劣化しない。 しかし、中等度から多量のノイズに対して、プレコンディションド・デノゲーション(denoising)を工法の状態とすることで、良好な性能を発揮する。

Image deblurring is a notoriously challenging ill-posed inverse problem. In recent years, a wide variety of approaches have been proposed based upon regularization at the level of the image or on techniques from machine learning. We propose an alternative approach, shifting the paradigm towards regularization at the level of the probability distribution on the space of images. Our method is based upon the idea of maximum entropy on the mean wherein we work at the level of the probability density function of the image whose expectation is our estimate of the ground truth. Using techniques from convex analysis and probability theory, we show that the method is computationally feasible and amenable to very large blurs. Moreover, when images are imbedded with symbology (a known pattern), we show how our method can be applied to approximate the unknown blur kernel with remarkable effects. While our method is stable with respect to small amounts of noise, it does not actively denoise. However, for moderate to large amounts of noise, it performs well by preconditioned denoising with a state of the art method.
翻訳日:2022-12-29 04:13:58 公開日:2020-10-20
# 専門家アドバイザの故障予測

Prediction with Corrupted Expert Advice ( http://arxiv.org/abs/2002.10286v2 )

ライセンス: Link先を確認
Idan Amir, Idan Attias, Tomer Koren, Roi Livni, Yishay Mansour(参考訳) 我々は, 環境が良性であり, 確率的に損失を発生させる環境において, 予測の基本的な問題を専門家のアドバイスで再検討するが, 学習者が観察するフィードバックは, 適度な敵の腐敗の対象となる。 ステップサイズを小さくした古典的乗法重みアルゴリズムの変種は、この設定において絶え間なく後悔し、注入された汚職の大きさに関わらず、広範囲の環境において最適に動作することを示す。 今回の結果から,正規化リーダ (ftrl) とオンラインミラー降ろし (omd) のフレームワークによく匹敵する違いが明らかとなった。

We revisit the fundamental problem of prediction with expert advice, in a setting where the environment is benign and generates losses stochastically, but the feedback observed by the learner is subject to a moderate adversarial corruption. We prove that a variant of the classical Multiplicative Weights algorithm with decreasing step sizes achieves constant regret in this setting and performs optimally in a wide range of environments, regardless of the magnitude of the injected corruption. Our results reveal a surprising disparity between the often comparable Follow the Regularized Leader (FTRL) and Online Mirror Descent (OMD) frameworks: we show that for experts in the corrupted stochastic regime, the regret performance of OMD is in fact strictly inferior to that of FTRL.
翻訳日:2022-12-29 03:12:27 公開日:2020-10-20
# 領域シフト下における教師なしテキスト分類の多様性に基づく一般化

Diversity-Based Generalization for Unsupervised Text Classification under Domain Shift ( http://arxiv.org/abs/2002.10937v2 )

ライセンス: Link先を確認
Jitin Krishnan, Hemant Purohit, and Huzefa Rangwala(参考訳) ドメイン適応アプローチは、ソースドメインから学び、未認識のターゲットドメインに一般化することを求める。 現在、主観的テキスト分類問題に対する最先端の教師なしドメイン適応アプローチは、ラベル付きソースデータとともにラベル付きターゲットデータを活用する。 本稿では,ラベル付き対象データを必要とせず,性能の最先端にマッチする多様性に基づく一般化の単純かつ効果的な考え方に基づく,単タスクテキスト分類問題のドメイン適応手法を提案する。 多様性はモデルをより一般化し、予測のために同じ機能に依存しないようにモデルを強制することによって、ドメインシフトに対して無差別になるように促進する役割を担います。 この概念をニューラルネットワークの最も説明しやすいコンポーネントである注目層に適用する。 十分な多様性を生み出すために,多頭注意モデルを作成し,各頭部が異なる学習を行うように,注目頭部間の多様性制約を付与する。 トリトレーニングされた分類器のアテンションヘッド間の追加の多様性制約を持つ手順を設計し、トリトレーニングによるモデルをさらに拡張する。 amazon reviewsの標準ベンチマークデータセットと新たに構築された危機イベントのデータセットを用いた広範囲な評価は、完全に教師なしのメソッドが、ラベルなしのターゲットデータを使用する競合ベースラインと一致していることを示しています。 この結果から、十分な多様性を保証する機械学習アーキテクチャがより一般化できることが示され、未ラベルのターゲットデータを用いることなく、ユビキタスに利用可能な学習モデルを設計するよう将来の研究を奨励する。

Domain adaptation approaches seek to learn from a source domain and generalize it to an unseen target domain. At present, the state-of-the-art unsupervised domain adaptation approaches for subjective text classification problems leverage unlabeled target data along with labeled source data. In this paper, we propose a novel method for domain adaptation of single-task text classification problems based on a simple but effective idea of diversity-based generalization that does not require unlabeled target data but still matches the state-of-the-art in performance. Diversity plays the role of promoting the model to better generalize and be indiscriminate towards domain shift by forcing the model not to rely on same features for prediction. We apply this concept on the most explainable component of neural networks, the attention layer. To generate sufficient diversity, we create a multi-head attention model and infuse a diversity constraint between the attention heads such that each head will learn differently. We further expand upon our model by tri-training and designing a procedure with an additional diversity constraint between the attention heads of the tri-trained classifiers. Extensive evaluation using the standard benchmark dataset of Amazon reviews and a newly constructed dataset of Crisis events shows that our fully unsupervised method matches with the competing baselines that uses unlabeled target data. Our results demonstrate that machine learning architectures that ensure sufficient diversity can generalize better; encouraging future research to design ubiquitously usable learning models without using unlabeled target data.
翻訳日:2022-12-28 20:16:19 公開日:2020-10-20
# プルーニングによる無線リンクのデバイスエッジ推論

Joint Device-Edge Inference over Wireless Links with Pruning ( http://arxiv.org/abs/2003.02027v2 )

ライセンス: Link先を確認
Mikolaj Jankowski, Deniz Gunduz, Krystian Mikolajczyk(参考訳) 無線ネットワークエッジにおける効率的な推論のための共同特徴圧縮と伝送方式を提案する。 私たちのゴールは、エッジデバイスで限られた計算リソースを前提として、エッジサーバで効率的で信頼性の高い推論を可能にすることです。 以前の研究は主に機能圧縮に重点を置いており、チャネル符号化の計算コストを無視していた。 本稿では,最近提案するdeep joint source-channel coding (deepjscc)方式と,ニューラルネットワークの冗長な複雑性を軽減するための新しいフィルタプルーニング戦略を組み合わせた。 分類タスクに対する我々のアプローチを評価し、エッジデバイスにおけるエンドツーエンドの信頼性とワークロード削減の両面での改善結果を示す。 これはDeepJSCCとネットワークプルーニングを組み合わせた最初の作品であり、無線エッジ上の画像分類に応用されている。

We propose a joint feature compression and transmission scheme for efficient inference at the wireless network edge. Our goal is to enable efficient and reliable inference at the edge server assuming limited computational resources at the edge device. Previous work focused mainly on feature compression, ignoring the computational cost of channel coding. We incorporate the recently proposed deep joint source-channel coding (DeepJSCC) scheme, and combine it with novel filter pruning strategies aimed at reducing the redundant complexity from neural networks. We evaluate our approach on a classification task, and show improved results in both end-to-end reliability and workload reduction at the edge device. This is the first work that combines DeepJSCC with network pruning, and applies it to image classification over the wireless edge.
翻訳日:2022-12-26 12:58:59 公開日:2020-10-20
# 緊急サービス用ツイートの高速フィルタリングのための教師なし・解釈可能なドメイン適応

Unsupervised and Interpretable Domain Adaptation to Rapidly Filter Tweets for Emergency Services ( http://arxiv.org/abs/2003.04991v2 )

ライセンス: Link先を確認
Jitin Krishnan, Hemant Purohit and Huzefa Rangwala(参考訳) 災害発生時、ソーシャルwebデータから関連情報をフィルタリングすることは、その可用性の低さと、進行中の危機のデータセットのラベル付けに関する実用的な制限のために困難である。 本稿では,マルチタスク学習による教師なしドメイン適応が,過去の危機イベントから得たデータを活用して,新たな危機発生時の効率的な情報フィルタリングモデルをトレーニングするための有用なフレームワークとなることを仮定する。 本稿では,tracインシデントストリームの公開データセットを用いて,危機発生時の関連ツイートを,新たな例を見ずに分類する手法を提案する。 具体的には,危機分析のためのマルチドメイン判別器によるカスタマイズされたマルチタスクアーキテクチャを構築する。 このモデルは、各タスクに対して、モデル解釈可能性を提供する専用の注意層から構成される。 深層ネットワークはスパースデータセットに苦しむため、マルチタスク学習とドメインの敵対的トレーニングのためのベースレイヤを共有することで、これを改善できることを示す。 対象イベントをテストセットとして選択し、残りをトレーニングすることで、危機イベントに対するドメイン適応の評価を行う。 その結果,マルチタスクモデルは単一タスクよりも優れていた。 解釈可能性の質的評価のために,分類過程において重要と考えられるツイート中の単語を提示することにより,注意層をモデル予測の説明や,モデルのアカウンタビリティを探索するための緊急サービス強化のガイドとして利用できることを示す。 最後に、新型コロナウイルスのパンデミックに対するユースケースを提供することによって、我々の仕事の実践的な意味を示す。

During the onset of a disaster event, filtering relevant information from the social web data is challenging due to its sparse availability and practical limitations in labeling datasets of an ongoing crisis. In this paper, we hypothesize that unsupervised domain adaptation through multi-task learning can be a useful framework to leverage data from past crisis events for training efficient information filtering models during the sudden onset of a new crisis. We present a novel method to classify relevant tweets during an ongoing crisis without seeing any new examples, using the publicly available dataset of TREC incident streams. Specifically, we construct a customized multi-task architecture with a multi-domain discriminator for crisis analytics: multi-task domain adversarial attention network. This model consists of dedicated attention layers for each task to provide model interpretability; critical for real-word applications. As deep networks struggle with sparse datasets, we show that this can be improved by sharing a base layer for multi-task learning and domain adversarial training. Evaluation of domain adaptation for crisis events is performed by choosing a target event as the test set and training on the rest. Our results show that the multi-task model outperformed its single task counterpart. For the qualitative evaluation of interpretability, we show that the attention layer can be used as a guide to explain the model predictions and empower emergency services for exploring accountability of the model, by showcasing the words in a tweet that are deemed important in the classification process. Finally, we show a practical implication of our work by providing a use-case for the COVID-19 pandemic.
翻訳日:2022-12-26 12:06:14 公開日:2020-10-20
# 映像における3次元ポーズ推定のためのグラフ注意時空間畳み込みネットワーク

A Graph Attention Spatio-temporal Convolutional Network for 3D Human Pose Estimation in Video ( http://arxiv.org/abs/2003.14179v4 )

ライセンス: Link先を確認
Junfa Liu, Juan Rojas, Zhijun Liang, Yihui Li, and Yisheng Guan(参考訳) 時空間情報は3次元ポーズ推定における咬合と深さの曖昧さを解決する鍵となる。 以前の手法では、時間的文脈か、固定長時空間情報を埋め込んだグローバルアーキテクチャに焦点が当てられていた。 これまで、様々な時空間列を同時かつ柔軟に捉え、実時間3次元ポーズ推定を実現するための効果的な提案は行われていない。 本研究では,人間の骨格における運動的制約(姿勢,局所運動的接続,対称性)の学習を,注意機構による局所的および大域的空間情報のモデル化により改善する。 単フレームおよび多フレーム推定に適応するために、拡張時間モデルを用いて様々な骨格配列を処理する。 また,相乗効果を達成するために,時間依存による空間意味論のインターリーブを慎重に設計する。 そこで本研究では,時間的畳み込みブロックとグラフアテンションブロックからなる簡易かつ有効なグラフアテンション時空間畳み込みネットワーク(gast-net)を提案する。 Human3.6MとHumanEva-I)とYouTubeビデオの2つの挑戦的なベンチマークデータセットの実験では、我々のアプローチは深度あいまいさと自己閉塞性を効果的に軽減し、半上半身推定に一般化し、2Dから3Dビデオのポーズ推定における競合性能を実現する。 コード、ビデオ、補足情報は、 \href{http://www.juanrojas.net/gast/}{http://www.juanrojas.net/gast/} で入手できる。

Spatio-temporal information is key to resolve occlusion and depth ambiguity in 3D pose estimation. Previous methods have focused on either temporal contexts or local-to-global architectures that embed fixed-length spatio-temporal information. To date, there have not been effective proposals to simultaneously and flexibly capture varying spatio-temporal sequences and effectively achieves real-time 3D pose estimation. In this work, we improve the learning of kinematic constraints in the human skeleton: posture, local kinematic connections, and symmetry by modeling local and global spatial information via attention mechanisms. To adapt to single- and multi-frame estimation, the dilated temporal model is employed to process varying skeleton sequences. Also, importantly, we carefully design the interleaving of spatial semantics with temporal dependencies to achieve a synergistic effect. To this end, we propose a simple yet effective graph attention spatio-temporal convolutional network (GAST-Net) that comprises of interleaved temporal convolutional and graph attention blocks. Experiments on two challenging benchmark datasets (Human3.6M and HumanEva-I) and YouTube videos demonstrate that our approach effectively mitigates depth ambiguity and self-occlusion, generalizes to half upper body estimation, and achieves competitive performance on 2D-to-3D video pose estimation. Code, video, and supplementary information is available at: \href{http://www.juanrojas.net/gast/}{http://www.juanrojas.net/gast/}
翻訳日:2022-12-24 15:52:02 公開日:2020-10-20
# クラスセントロイドマッチングと局所的マニフォールド自己学習によるドメイン適応

Domain Adaptation by Class Centroid Matching and Local Manifold Self-Learning ( http://arxiv.org/abs/2003.09391v4 )

ライセンス: Link先を確認
Lei Tian, Yongqiang Tang, Liangchen Hu, Zhida Ren, and Wensheng Zhang(参考訳) ドメイン適応は、ソースドメインからターゲットドメインに知識を転送するための基本的な技術です。 ドメイン適応の鍵となる問題は、2つのドメイン間の分散差を適切な方法で減らし、学習のために無関心に扱えるようにすることである。 本稿では,対象領域のデータ分散構造を徹底的に検討できる新たなドメイン適応手法を提案する。具体的には,対象領域内の同じクラスタ内のサンプルを,個人ではなく全体として考慮し,クラスセントロイドマッチングによってターゲットクラスタに擬似ラベルを割り当てる。 さらに,対象データの多様体構造情報をより徹底的に活用するために,対象サンプルの固有局所接続を適応的に捉えるために,局所多様体自己学習戦略も導入する。 効率的な反復最適化アルゴリズムは,提案手法の目的関数を理論的収束保証で解くために設計されている。 教師なしドメイン適応に加えて,同質設定と異質設定の両方を含む半教師付きシナリオに,直接的かつエレガントな方法で拡張する。 7つのベンチマークデータセットに関する広範囲な実験は、教師なしと半教師なしの両方の方法で提案の重大な優位性を検証する。

Domain adaptation has been a fundamental technology for transferring knowledge from a source domain to a target domain. The key issue of domain adaptation is how to reduce the distribution discrepancy between two domains in a proper way such that they can be treated indifferently for learning. In this paper, we propose a novel domain adaptation approach, which can thoroughly explore the data distribution structure of target domain.Specifically, we regard the samples within the same cluster in target domain as a whole rather than individuals and assigns pseudo-labels to the target cluster by class centroid matching. Besides, to exploit the manifold structure information of target data more thoroughly, we further introduce a local manifold self-learning strategy into our proposal to adaptively capture the inherent local connectivity of target samples. An efficient iterative optimization algorithm is designed to solve the objective function of our proposal with theoretical convergence guarantee. In addition to unsupervised domain adaptation, we further extend our method to the semi-supervised scenario including both homogeneous and heterogeneous settings in a direct but elegant way. Extensive experiments on seven benchmark datasets validate the significant superiority of our proposal in both unsupervised and semi-supervised manners.
翻訳日:2022-12-21 22:42:04 公開日:2020-10-20
# 実世界進化によるロボットの形態と制御の環境適応

Environmental Adaptation of Robot Morphology and Control through Real-world Evolution ( http://arxiv.org/abs/2003.13254v2 )

ライセンス: Link先を確認
T{\o}nnes F. Nygaard, Charles P. Martin, David Howard, Jim Torresen and Kyrre Glette(参考訳) 現実世界で動作しているロボットは、さまざまな環境やタスクを体験できる。 ロボットが周囲の環境に適応し、変化する環境の中で効率的に働く能力を持つことは不可欠である。 進化的ロボット工学は、ロボットの制御と身体(形態)の両方を最適化し、内部および外部要因への適応を可能にすることで、この問題を解決することを目指している。 この分野でのほとんどの作業は物理シミュレータで行われており、比較的単純であり、現実世界で見られる相互作用の豊かさを再現できない。 したがって、制御、体、環境の間の複雑な相互作用に依存するソリューションはほとんど見つからない。 本稿では, 実世界評価のみに頼り, 機械的に自己再構成された四足歩行ロボットの形態と制御の組み合わせを進化的探索に応用する。 2つの異なる物理面上の解を進化させ、制御と形態の両方の観点から結果を分析する。 その後、それまで見つからなかった2つの曲面に遷移し、この方法の一般性を示す。 進化的探索は, 物理的環境の異なる特性に制御と体の両方を適応させることにより, 高い性能, 多様な形態制御器の構成を見出す。 さらに, 形態と制御は, 環境間の統計的意義によって異なることがわかった。 さらに,本手法は地形や制御パラメータを未確認の地形に移動させることを可能にし,その一般化を実証する。

Robots operating in the real world will experience a range of different environments and tasks. It is essential for the robot to have the ability to adapt to its surroundings to work efficiently in changing conditions. Evolutionary robotics aims to solve this by optimizing both the control and body (morphology) of a robot, allowing adaptation to internal, as well as external factors. Most work in this field has been done in physics simulators, which are relatively simple and not able to replicate the richness of interactions found in the real world. Solutions that rely on the complex interplay between control, body, and environment are therefore rarely found. In this paper, we rely solely on real-world evaluations and apply evolutionary search to yield combinations of morphology and control for our mechanically self-reconfiguring quadruped robot. We evolve solutions on two distinct physical surfaces and analyze the results in terms of both control and morphology. We then transition to two previously unseen surfaces to demonstrate the generality of our method. We find that the evolutionary search finds high-performing and diverse morphology-controller configurations by adapting both control and body to the different properties of the physical environments. We additionally find that morphology and control vary with statistical significance between the environments. Moreover, we observe that our method allows for morphology and control parameters to transfer to previously-unseen terrains, demonstrating the generality of our approach.
翻訳日:2022-12-18 07:36:10 公開日:2020-10-20
# SA-UNet:網膜血管セグメンテーションのための空間注意U-Net

SA-UNet: Spatial Attention U-Net for Retinal Vessel Segmentation ( http://arxiv.org/abs/2004.03696v3 )

ライセンス: Link先を確認
Changlu Guo, M\'arton Szemenyei, Yugen Yi, Wenle Wang, Buer Chen, Changqi Fan(参考訳) 網膜血管の正確な分画は、糖尿病や高血圧などの眼疾患の早期診断において非常に重要である。 本研究では,何千ものアノテートトレーニングサンプルを必要とせず,利用可能なアノテートサンプルをより効率的に利用するためにデータ拡張方式で利用することができる空間注意U-Net (SA-UNet) という軽量ネットワークを提案する。 SA-UNetは空間次元に沿ったアテンションマップを推論する空間アテンションモジュールを導入し、入力特徴マップにアテンションマップを乗じて適応的特徴改善を行う。 さらに,提案ネットワークでは,U-Netの本来の畳み込みブロックの代わりに,構造化されたドロップアウト畳み込みブロックを採用している。 SA-UNetを2つのベンチマーク網膜データセット(Vascular extract (DRIVE) データセットとChild Heart and Health Study (CHASE_DB1) データセット)に基づいて評価した。 その結果、提案したSA-UNetは両方のデータセットで最先端のパフォーマンスを実現しており、Github1で実装とトレーニングされたネットワークが利用可能である。

The precise segmentation of retinal blood vessels is of great significance for early diagnosis of eye-related diseases such as diabetes and hypertension. In this work, we propose a lightweight network named Spatial Attention U-Net (SA-UNet) that does not require thousands of annotated training samples and can be utilized in a data augmentation manner to use the available annotated samples more efficiently. SA-UNet introduces a spatial attention module which infers the attention map along the spatial dimension, and multiplies the attention map by the input feature map for adaptive feature refinement. In addition, the proposed network employs structured dropout convolutional blocks instead of the original convolutional blocks of U-Net to prevent the network from overfitting. We evaluate SA-UNet based on two benchmark retinal datasets: the Vascular Extraction (DRIVE) dataset and the Child Heart and Health Study (CHASE_DB1) dataset. The results show that the proposed SA-UNet achieves state-of-the-art performance on both datasets.The implementation and the trained networks are available on Github1.
翻訳日:2022-12-16 00:53:23 公開日:2020-10-20
# 網膜血管セグメンテーションのためのチャネル注意残差U-Net

Channel Attention Residual U-Net for Retinal Vessel Segmentation ( http://arxiv.org/abs/2004.03702v5 )

ライセンス: Link先を確認
Changlu Guo, M\'arton Szemenyei, Yangtao Hu, Wenle Wang, Wei Zhou, Yugen Yi(参考訳) 網膜血管セグメンテーションは多くの早期眼疾患の診断に欠かせないステップである。 本研究では,網膜血管と非血管のピクセルを正確に分割する新しい深層学習モデルであるチャネル注意残差u-net(car-unet)を提案する。 本モデルでは,特徴マップ間の相互依存性を考慮し,ネットワークの識別能力を高めるための改良されたチャネル注意(MECA)を導入した。 一方、mecaを従来のu字型ネットワークの「スキップ接続」に適用し、単に収縮経路の特徴マップを対応する拡大経路にコピーする。 一方,チャネルアテンション二重残差ブロック (CADRB) は,MECAをコア構造として残差構造に統合し,提案したCAR-UNetを構築する。 その結果,提案したCAR-UNetは,DRIVE,CHASE DB1,STAREの3つのパブリックな網膜血管データセットに対して,最先端のパフォーマンスを達成した。

Retinal vessel segmentation is a vital step for the diagnosis of many early eye-related diseases. In this work, we propose a new deep learning model, namely Channel Attention Residual U-Net (CAR-UNet), to accurately segment retinal vascular and non-vascular pixels. In this model, we introduced a novel Modified Efficient Channel Attention (MECA) to enhance the discriminative ability of the network by considering the interdependence between feature maps. On the one hand, we apply MECA to the "skip connections" in the traditional U-shaped networks, instead of simply copying the feature maps of the contracting path to the corresponding expansive path. On the other hand, we propose a Channel Attention Double Residual Block (CADRB), which integrates MECA into a residual structure as a core structure to construct the proposed CAR-UNet. The results show that our proposed CAR-UNet has reached the state-of-the-art performance on three publicly available retinal vessel datasets: DRIVE, CHASE DB1 and STARE.
翻訳日:2022-12-16 00:52:47 公開日:2020-10-20
# すべての単語ベクトル空間は同型か?

Are All Good Word Vector Spaces Isomorphic? ( http://arxiv.org/abs/2004.04070v2 )

ライセンス: Link先を確認
Ivan Vuli\'c, Sebastian Ruder, and Anders S{\o}gaard(参考訳) 既存の言語間ワードベクトル空間の整列アルゴリズムは、ベクトル空間が概同型であることを仮定する。 その結果、それらは非同型空間上で不振または完全に失敗する。 このような非同型は言語間の類型的差異から生じると仮定されている。 本研究では、非同型性もまた退化ワードベクトル空間の符号であるかどうかを問う。 本稿では,言語対間のパフォーマンスのばらつきがタイプ学的な差異によるだけでなく,利用可能な単言語資源の大きさや,単言語訓練(例えば「アンダートレーニング」)の性質や持続時間にも起因していることを示す,多様な言語を対象とした一連の実験について述べる。

Existing algorithms for aligning cross-lingual word vector spaces assume that vector spaces are approximately isomorphic. As a result, they perform poorly or fail completely on non-isomorphic spaces. Such non-isomorphism has been hypothesised to result from typological differences between languages. In this work, we ask whether non-isomorphism is also crucially a sign of degenerate word vector spaces. We present a series of experiments across diverse languages which show that variance in performance across language pairs is not only due to typological differences, but can mostly be attributed to the size of the monolingual resources available, and to the properties and duration of monolingual training (e.g. "under-training").
翻訳日:2022-12-15 08:55:00 公開日:2020-10-20
# 緩和を伴うシナリオ最適化: 機械学習問題の設計と応用のための新しいツール

Scenario optimization with relaxation: a new tool for design and application to machine learning problems ( http://arxiv.org/abs/2004.05839v3 )

ライセンス: Link先を確認
Marco C. Campi and Simone Garatti(参考訳) シナリオ最適化は現在、不確実性の存在下で設計を行うための確立された技術である。 データから得られる情報と統合されたドメイン知識に依存し、信頼性の正確なステートメントを伴うソリューションを生成する。 本稿では,近年の発展(garatti and campi, 2019)を機に,制約緩和の概念を解析し,従来のシナリオ最適化を超越した手法を提案する。 しっかりとした理論的基盤によって、この新しいパラダイムは、堅牢性とパフォーマンスの適切な妥協を満たす設計を行うための基本的なツールを提供する。 2019年にgarattiとcampiで提案されたように、制約緩和の範囲を適切に拡大した後、svm(サポートベクターマシン)、svr(サポートベクター回帰)、svdd(サポートベクターデータ記述)を含む機械学習における様々な古典的なサポートベクターメソッドに焦点を当て、これらの方法を一般化するための新しい結果を得る。

Scenario optimization is by now a well established technique to perform designs in the presence of uncertainty. It relies on domain knowledge integrated with first-hand information that comes from data and generates solutions that are also accompanied by precise statements of reliability. In this paper, following recent developments in (Garatti and Campi, 2019), we venture beyond the traditional set-up of scenario optimization by analyzing the concept of constraints relaxation. By a solid theoretical underpinning, this new paradigm furnishes fundamental tools to perform designs that meet a proper compromise between robustness and performance. After suitably expanding the scope of constraints relaxation as proposed in (Garatti and Campi, 2019), we focus on various classical Support Vector methods in machine learning - including SVM (Support Vector Machine), SVR (Support Vector Regression) and SVDD (Support Vector Data Description) - and derive new results for the ability of these methods to generalize.
翻訳日:2022-12-13 23:53:51 公開日:2020-10-20
# BLEU は Guilty かもしれないが、参照は Innocent ではない

BLEU might be Guilty but References are not Innocent ( http://arxiv.org/abs/2004.06063v2 )

ライセンス: Link先を確認
Markus Freitag, David Grangier, Isaac Caswell(参考訳) 機械翻訳のための自動メトリクスの品質は、特に高品質なシステムにおいてますます疑問視されている。 本稿では,計量の選択が重要である一方で,参照の性質も重要であることを示す。 本研究では,様々なシステムやメトリクスに対する人的評価と相関関係を報告し,参照を収集し,それらの評価値を比較する。 典型的参照が多様性に乏しく、翻訳言語を中心にして、既存の参照翻訳において言語学者が実行するためのパラフレーズタスクを開発し、このバイアスに対処する。 提案手法は,WMT 2019英語のドイツ語への投稿だけでなく,標準基準を用いた自動測定値との相関が低いバックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。 本手法は, 組込み型手法を含め, 現代の評価指標との相関性を向上させることを実証する。 本稿では,マルチリファレンスbleuが高品質出力の相関性を改善していないことを明らかにし,より効果的な代替マルチリファレンス定式化を提案する。

The quality of automatic metrics for machine translation has been increasingly called into question, especially for high-quality systems. This paper demonstrates that, while choice of metric is important, the nature of the references is also critical. We study different methods to collect references and compare their value in automated evaluation by reporting correlation with human evaluation for a variety of systems and metrics. Motivated by the finding that typical references exhibit poor diversity, concentrating around translationese language, we develop a paraphrasing task for linguists to perform on existing reference translations, which counteracts this bias. Our method yields higher correlation with human judgment not only for the submissions of WMT 2019 English to German, but also for Back-translation and APE augmented MT output, which have been shown to have low correlation with automatic metrics using standard references. We demonstrate that our methodology improves correlation with all modern evaluation metrics we look at, including embedding-based methods. To complete this picture, we reveal that multi-reference BLEU does not improve the correlation for high quality output, and present an alternative multi-reference formulation that is more effective.
翻訳日:2022-12-13 22:58:36 公開日:2020-10-20
# ジェネレーティブLSTMネットワークにおける効率的な学習と構成性の検討

Investigating Efficient Learning and Compositionality in Generative LSTM Networks ( http://arxiv.org/abs/2004.07754v2 )

ライセンス: Link先を確認
Sarah Fabi, Sebastian Otte, Jonas Gregor Wiese, Martin V. Butz(参考訳) 人間と人工知能を比較する場合、1つの大きな違いは明らかである: 人間が構成的な方法でデータコンポーネントを再結合し再統合できるので、スパースデータセットから非常に広範囲に一般化することができる。 効率のよい学習の違いを調べるために、Joshua B. Tenenbaum氏と同僚たちは、キャラクターチャレンジを開発した。 次のステップでは、新しいタイプのキャラクタの1つのバージョンが提示される。 効率的な学習アルゴリズムは、この新しいキャラクタを再生成し、同種のキャラクタを識別し、新しい変種を生成し、全く新しいキャラクタタイプを作成することができると期待されている。 過去には、文字チャレンジは確率的プリミティブを備えた複雑なアルゴリズムによってのみ満たされていた。 ここでは、プリミティブを提供しずに課題に取り組む。 1つのフィードフォワード層と1つのLSTM層を持つ最小リカレントニューラルネットワーク(RNN)モデルを適用し、それをトレーニングして、1ホットエンコードされた入力から手書き文字トラジェクトリを生成する。 トレーニングされていない文字の再生を管理するために,一対一の推論機構を導入する。勾配信号はフィードフォワード層のみに逆伝搬され,LSTM層は未接触のままである。 本モデルでは,従来学習した動的部分構造を隠れたlstm状態から再結合することにより,キャラクタチャレンジを満足できることを示す。 この方法でRNNの合成能力を活用することは、人間と人工知能のギャップを埋めるための重要なステップかもしれない。

When comparing human with artificial intelligence, one major difference is apparent: Humans can generalize very broadly from sparse data sets because they are able to recombine and reintegrate data components in compositional manners. To investigate differences in efficient learning, Joshua B. Tenenbaum and colleagues developed the character challenge: First an algorithm is trained in generating handwritten characters. In a next step, one version of a new type of character is presented. An efficient learning algorithm is expected to be able to re-generate this new character, to identify similar versions of this character, to generate new variants of it, and to create completely new character types. In the past, the character challenge was only met by complex algorithms that were provided with stochastic primitives. Here, we tackle the challenge without providing primitives. We apply a minimal recurrent neural network (RNN) model with one feedforward layer and one LSTM layer and train it to generate sequential handwritten character trajectories from one-hot encoded inputs. To manage the re-generation of untrained characters, when presented with only one example of them, we introduce a one-shot inference mechanism: the gradient signal is backpropagated to the feedforward layer weights only, leaving the LSTM layer untouched. We show that our model is able to meet the character challenge by recombining previously learned dynamic substructures, which are visible in the hidden LSTM states. Making use of the compositional abilities of RNNs in this way might be an important step towards bridging the gap between human and artificial intelligence.
翻訳日:2022-12-12 21:12:06 公開日:2020-10-20
# IPNハンド:リアルタイム連続手指ジェスチャー認識のためのビデオデータセットとベンチマーク

IPN Hand: A Video Dataset and Benchmark for Real-Time Continuous Hand Gesture Recognition ( http://arxiv.org/abs/2005.02134v2 )

ライセンス: Link先を確認
Gibran Benitez-Garcia, Jesus Olivares-Mercado, Gabriel Sanchez-Perez, and Keiji Yanai(参考訳) 本稿では,深層ニューラルネットワークのトレーニングと評価が可能な,十分なサイズ,多様性,実世界の要素を備えた,IPN Handという新しいベンチマークデータセットを提案する。 このデータセットには、4000以上のジェスチャーサンプルと、50の異なる被験者から80,000のRGBフレームが含まれている。 タッチレススクリーンとのインタラクションに焦点を当てた,13種類の静的および動的ジェスチャーを設計する。 特に、連続的なジェスチャーを遷移状態なしで行う場合や、被験者が手で自然な動作を行う場合のシナリオについて考察する。 ジェスチャは30の多様なシーンから集められ、背景と照明の現実的なバリエーションがある。 本研究では, 3つの3d-cnnモデルの性能を, 分離および連続リアルタイムhgrのタスクで評価する。 さらに、3D-CNNモデルのリアルタイム性能を維持しつつ、RGBフレーム、すなわち光フローとセマンティックセグメンテーションから派生した複数のモーダルを付加することにより、認識精度を高める可能性を分析する。 私たちの経験的研究は、公開されているnvGesture(NVIDIA)データセットとの比較も提供しています。 実験の結果,最先端のResNext-101モデルでは実世界のデータセットを使用すると約30%の精度が低下し,IPN Handデータセットがベンチマークとして使用でき,コミュニティの継続的なHGRへの進出に役立つことが示された。 評価で使用されるデータセットと事前トレーニングされたモデルは、https://github.com/GibranBenitez/IPN-handで公開されています。

In this paper, we introduce a new benchmark dataset named IPN Hand with sufficient size, variety, and real-world elements able to train and evaluate deep neural networks. This dataset contains more than 4,000 gesture samples and 800,000 RGB frames from 50 distinct subjects. We design 13 different static and dynamic gestures focused on interaction with touchless screens. We especially consider the scenario when continuous gestures are performed without transition states, and when subjects perform natural movements with their hands as non-gesture actions. Gestures were collected from about 30 diverse scenes, with real-world variation in background and illumination. With our dataset, the performance of three 3D-CNN models is evaluated on the tasks of isolated and continuous real-time HGR. Furthermore, we analyze the possibility of increasing the recognition accuracy by adding multiple modalities derived from RGB frames, i.e., optical flow and semantic segmentation, while keeping the real-time performance of the 3D-CNN model. Our empirical study also provides a comparison with the publicly available nvGesture (NVIDIA) dataset. The experimental results show that the state-of-the-art ResNext-101 model decreases about 30% accuracy when using our real-world dataset, demonstrating that the IPN Hand dataset can be used as a benchmark, and may help the community to step forward in the continuous HGR. Our dataset and pre-trained models used in the evaluation are publicly available at https://github.com/GibranBenitez/IPN-hand.
翻訳日:2022-12-11 19:06:01 公開日:2020-10-20
# 等制約準計画法におけるQの固有分解

Eigendecomposition of Q in Equally Constrained Quadratic Programming ( http://arxiv.org/abs/2004.10723v2 )

ライセンス: Link先を確認
Shi Yu(参考訳) 線形等制約2次計画法(EQP)における二次項行列に固有値分解を適用する場合、新しいEQP定式化法と元の定式化法との間には、最適解を射影する線形写像が存在する。 そのようなマッピングは、特定の種類の等式制約を必要とするが、ポートフォリオ割り当てのための効率的なフロンティアや、Last Square Support Vector Machines (LSSVM) の分類のような実際の問題に一般化可能である。 確立された写像は、部分空間における最適解を探索するのに有用であるが、著者にとってあまり明確ではない。 この研究は、以前に \cite{Tan} で議論された制約のない定式化に関する同様の研究から着想を得たものであるが、現在の証明は改善され一般化されている。 著者の知る限り、文献に類似した議論はごくわずかである。

When applying eigenvalue decomposition on the quadratic term matrix in a type of linear equally constrained quadratic programming (EQP), there exists a linear mapping to project optimal solutions between the new EQP formulation where $Q$ is diagonalized and the original formulation. Although such a mapping requires a particular type of equality constraints, it is generalizable to some real problems such as efficient frontier for portfolio allocation and classification of Least Square Support Vector Machines (LSSVM). The established mapping could be potentially useful to explore optimal solutions in subspace, but it is not very clear to the author. This work was inspired by similar work proved on unconstrained formulation discussed earlier in \cite{Tan}, but its current proof is much improved and generalized. To the author's knowledge, very few similar discussion appears in literature.
翻訳日:2022-12-10 17:46:41 公開日:2020-10-20
# トルコ自然言語推論のためのデータと表現

Data and Representation for Turkish Natural Language Inference ( http://arxiv.org/abs/2004.14963v3 )

ライセンス: Link先を確認
Emrah Budur, R{\i}za \"Oz\c{c}elik, Tunga G\"ung\"or, and Christopher Potts(参考訳) NLPの大規模な注釈付きデータセットは英語では圧倒的に多い。 これは他の言語の発展の障害である。 残念なことに、各言語でタスクごとに新しいアノテーション付きリソースを取得するのは、非常に高価である。 同時に、商用機械翻訳システムも堅牢になった。 これらのシステムを利用して、英語のデータセットを自動翻訳できますか? 本稿では,トルコ語における自然言語推論(NLI)に対する肯定的な応答について述べる。 2つの大きな英語NLIデータセットをトルコ語に翻訳し、専門家のチームが元のラベルへの翻訳品質と忠実さを検証した。 これらのデータセットを用いて、トルコのNLIの表現の核となる問題に対処する。 言語内埋め込みは必須であり,学習セットが大きい場所で形態的解析を避けることができる。 最後に、機械翻訳データセットでトレーニングされたモデルが、人間翻訳評価セット上で成功していることを示す。 すべてのコード、モデル、データを公開しています。

Large annotated datasets in NLP are overwhelmingly in English. This is an obstacle to progress in other languages. Unfortunately, obtaining new annotated resources for each task in each language would be prohibitively expensive. At the same time, commercial machine translation systems are now robust. Can we leverage these systems to translate English-language datasets automatically? In this paper, we offer a positive response for natural language inference (NLI) in Turkish. We translated two large English NLI datasets into Turkish and had a team of experts validate their translation quality and fidelity to the original labels. Using these datasets, we address core issues of representation for Turkish NLI. We find that in-language embeddings are essential and that morphological parsing can be avoided where the training set is large. Finally, we show that models trained on our machine-translated datasets are successful on human-translated evaluation sets. We share all code, models, and data publicly.
翻訳日:2022-12-08 04:32:38 公開日:2020-10-20
# 空腹で集中する - 情報参照会話における情報的かつ具体的な質問の生成

Stay Hungry, Stay Focused: Generating Informative and Specific Questions in Information-Seeking Conversations ( http://arxiv.org/abs/2004.14530v2 )

ライセンス: Link先を確認
Peng Qi, Yuhao Zhang, Christopher D. Manning(参考訳) 情報非対称対話における情報的質問生成の問題について検討する。 質問生成に関する従来の研究とは違い、我々は質問者がどの回答を引き出すかという文脈を与えられていないが、共有された会話履歴から新しい情報を取得する方法について実践的に推論しなければならないシナリオに関心を持っている。 我々は,(1)潜在的な質問の有益さを形式的に定義すること,(2)潜在的質問の潜在的に大きな空間を探索すること,の2つの主な課題を明らかにする。 実践的な質問を生成するために,提案する情報度指標を最適化するために強化学習を用い,より具体的な質問を促進するために設計された報酬関数と組み合わせた。 結果として得られた実用的質問者は,人間だけでなく指標によって評価されるベースラインモデル上で発生する質問の情報性と特異性を大幅に改善できることを実証する。

We investigate the problem of generating informative questions in information-asymmetric conversations. Unlike previous work on question generation which largely assumes knowledge of what the answer might be, we are interested in the scenario where the questioner is not given the context from which answers are drawn, but must reason pragmatically about how to acquire new information, given the shared conversation history. We identify two core challenges: (1) formally defining the informativeness of potential questions, and (2) exploring the prohibitively large space of potential questions to find the good candidates. To generate pragmatic questions, we use reinforcement learning to optimize an informativeness metric we propose, combined with a reward function designed to promote more specific questions. We demonstrate that the resulting pragmatic questioner substantially improves the informativeness and specificity of questions generated over a baseline model, as evaluated by our metrics as well as humans.
翻訳日:2022-12-08 03:58:07 公開日:2020-10-20
# 視覚追跡のための定速度運動モデルの導出

Derivation of a Constant Velocity Motion Model for Visual Tracking ( http://arxiv.org/abs/2005.00844v4 )

ライセンス: Link先を確認
Nathanael L. Baisa(参考訳) 動きモデルは、視覚追跡アプリケーションにおいて、次のフレームにおけるオブジェクトの位置を予測する上で大きな役割を果たす。 レーダーや航空宇宙分野の目標追跡とは異なり、コンピュータビジョンにおける物体追跡は物体のサイズを必要とする。 定速度運動モデルは、視覚追跡に最も広く使われている運動モデルであるが、特にこの研究分野に参加する新しい研究者のために、物体のサイズを含む明確で理解可能な導出は存在しない。 本論文では,物体の大きさを組み込んだ定速運動モデルを導出し,新しい研究者が迅速に適応できると考えている。

Motion models play a great role in visual tracking applications for predicting the possible locations of objects in the next frame. Unlike target tracking in radar or aerospace domain which considers only points, object tracking in computer vision involves sizes of objects. Constant velocity motion model is the most widely used motion model for visual tracking, however, there is no clear and understandable derivation involving sizes of objects specially for new researchers joining this research field. In this document, we derive the constant velocity motion model that incorporates sizes of objects that, we think, can help the new researchers to adapt to it very quickly.
翻訳日:2022-12-07 12:53:02 公開日:2020-10-20
# 負乗法ドリフトによる非楕円型進化アルゴリズムの下限

Lower Bounds for Non-Elitist Evolutionary Algorithms via Negative Multiplicative Drift ( http://arxiv.org/abs/2005.00853v4 )

ライセンス: Link先を確認
Benjamin Doerr(参考訳) 非エリート型人口ベースの進化的アルゴリズムのかなり低い範囲が、現在までに示されている。 それらのほとんどが技術的に要求されているのは、負のドリフト定理(英語版)(負のドリフト定理)の使用(回避が難しい)のためである。 本研究では,乗法ドリフトシナリオに対する単純な負ドリフト定理を提案し,既存の解析を単純化できることを示す。 離散探索空間に対する非エリート変異に基づく進化的アルゴリズムのランタイムにおける下位境界を証明するための最も一般的なツールの1つである、Lehre's (PPSN 2010) \emph{ negative drift in populations} についてより詳しく論じる。 他の議論とともに、この方法を強化し、単純化する代替的で単純な証明を得る。 特に、これまでの5つの技術的条件のうち3つのみが検証されなければならない。 得られる下限は漸近的ではなく明示的である。 これにより、具体的なアルゴリズムに対する具体的な下限を計算できるが、再生率が1-\omega(n^{-1/2})$値以下である場合に既に超多項式ランタイムが現れることを示すこともできる。 ランダムな突然変異率(超ヒューリスティックス言語では均一混合と呼ばれる)を持つ標準ビット突然変異を用いるアルゴリズムの特別な場合については、dang and lehre (ppsn 2016) による結果を証明し、doerr, le, makhmara, nguyen (gecco 2017) によって提案された重尾の突然変異演算子を含む$\theta(1/n)$以外の突然変異率に拡張する。 最後に,この手法と新しい支配論を応用し,任意の集団サイズに対して1max上の突然変異のみの単純遺伝的アルゴリズムの実行時の指数関数的下限を示す。

A decent number of lower bounds for non-elitist population-based evolutionary algorithms has been shown by now. Most of them are technically demanding due to the (hard to avoid) use of negative drift theorems -- general results which translate an expected progress away from the target into a high hitting time. We propose a simple negative drift theorem for multiplicative drift scenarios and show that it can simplify existing analyses. We discuss in more detail Lehre's (PPSN 2010) \emph{negative drift in populations} method, one of the most general tools to prove lower bounds on the runtime of non-elitist mutation-based evolutionary algorithms for discrete search spaces. Together with other arguments, we obtain an alternative and simpler proof, which also strengthens and simplifies this method. In particular, now only three of the five technical conditions of the previous result have to be verified. The lower bounds we obtain are explicit instead of only asymptotic. This allows to compute concrete lower bounds for concrete algorithms, but also enables us to show that super-polynomial runtimes appear already when the reproduction rate is only a $(1 - \omega(n^{-1/2}))$ factor below the threshold. For the special case of algorithms using standard bit mutation with a random mutation rate (called uniform mixing in the language of hyper-heuristics), we prove the result stated by Dang and Lehre (PPSN 2016) and extend it to mutation rates other than $\Theta(1/n)$, which includes the heavy-tailed mutation operator proposed by Doerr, Le, Makhmara, and Nguyen (GECCO 2017). We finally apply our method and a novel domination argument to show an exponential lower bound for the runtime of the mutation-only simple genetic algorithm on \onemax for arbitrary population size.
翻訳日:2022-12-07 12:43:31 公開日:2020-10-20
# 因子パワーのパワー:(確率的)最適化のための新しいパラメータ設定

The Power of Factorial Powers: New Parameter settings for (Stochastic) Optimization ( http://arxiv.org/abs/2006.01244v2 )

ライセンス: Link先を確認
Aaron Defazio and Robert M. Gower(参考訳) 凸最適化法と非凸最適化法の収束率は、ステップサイズ、リアプノフ関数定数、運動量定数を含む定数のホストの選択に依存する。 本研究では,収束証明に現れる定数を定義するための柔軟なツールとして,因子の力を用いることを提案する。 これらの列が楽しむ多くの顕著な特性をリストアップし、モーメント法、加速度勾配、確率分散低減法(SVRG)の収束率を単純化または改善するために収束証明に適用する方法を示す。

The convergence rates for convex and non-convex optimization methods depend on the choice of a host of constants, including step sizes, Lyapunov function constants and momentum constants. In this work we propose the use of factorial powers as a flexible tool for defining constants that appear in convergence proofs. We list a number of remarkable properties that these sequences enjoy, and show how they can be applied to convergence proofs to simplify or improve the convergence rates of the momentum method, accelerated gradient and the stochastic variance reduced method (SVRG).
翻訳日:2022-11-26 06:49:59 公開日:2020-10-20
# adversarial item promotion: コールドスタートに対処するためにイメージを使用するトップnレコメンダのコアにある脆弱性

Adversarial Item Promotion: Vulnerabilities at the Core of Top-N Recommenders that Use Images to Address Cold Start ( http://arxiv.org/abs/2006.01888v3 )

ライセンス: Link先を確認
Zhuoran Liu and Martha Larson(参考訳) Eコマースプラットフォームは、顧客の好みに合った推奨アイテムのリストを顧客に提供します。 電子商取引プラットフォームのマーチャントは、これらのランキングのトップNのアイテムをできるだけ高く表示したいと考えている。 本稿では,商品を人工的にプロモートする商品画像を作成し,そのランキングを改善する方法を示す。 コールドスタート問題に対処するためにイメージを使用するリコメンダシステムは、このセキュリティリスクに対して脆弱である。 本稿では,Top-Nレコメンデータのコアであるランキング機構そのものを直接攻撃する新たなタイプの攻撃,Adversarial Item promotion(AIP)について述べる。 推薦システムにおける敵画像の既存の研究は、ディープラーニング分類器を対象とする従来の攻撃の影響を調査している。 対照的に、当社のAIP攻撃は、ランク付けを騙し(分類器ではない)、アイテムのプロモーションに直接導く方法で特徴表現をプッシュしようとする攻撃を埋め込むことです。 3つのAIP攻撃、エキスパート攻撃、セマンティックアタックを導入し、3つのより現実的なアタックモデルについて定義する。 寒冷開始に対処するために画像を使用するフレームワークにおいて,3つの視覚的推薦アルゴリズムに対して,これらの攻撃の危険性を評価する。 また、敵の訓練を含む潜在的な防御力を評価し、現在存在する一般的な技術がaip攻撃の危険性を取り除かないことを見出します。 要約すると, コールドスタートに対するイメージの使用は, 明確な実用的意味を持つ潜在的な脅威に対して, 推奨システムを開放することを示す。

E-commerce platforms provide their customers with ranked lists of recommended items matching the customers' preferences. Merchants on e-commerce platforms would like their items to appear as high as possible in the top-N of these ranked lists. In this paper, we demonstrate how unscrupulous merchants can create item images that artificially promote their products, improving their rankings. Recommender systems that use images to address the cold start problem are vulnerable to this security risk. We describe a new type of attack, Adversarial Item Promotion (AIP), that strikes directly at the core of Top-N recommenders: the ranking mechanism itself. Existing work on adversarial images in recommender systems investigates the implications of conventional attacks, which target deep learning classifiers. In contrast, our AIP attacks are embedding attacks that seek to push features representations in a way that fools the ranker (not a classifier) and directly lead to item promotion. We introduce three AIP attacks insider attack, expert attack, and semantic attack, which are defined with respect to three successively more realistic attack models. Our experiments evaluate the danger of these attacks when mounted against three representative visually-aware recommender algorithms in a framework that uses images to address cold start. We also evaluate potential defenses, including adversarial training and find that common, currently-existing, techniques do not eliminate the danger of AIP attacks. In sum, we show that using images to address cold start opens recommender systems to potential threats with clear practical implications.
翻訳日:2022-11-26 01:25:29 公開日:2020-10-20
# 委員会ニューラルネットワーク電位による一般化誤りの制御とアクティブラーニングの実現

Committee neural network potentials control generalization errors and enable active learning ( http://arxiv.org/abs/2006.01541v2 )

ライセンス: Link先を確認
Christoph Schran, Krystof Brezina, Ondrej Marsalek(参考訳) 機械学習の分野では、委員会モデルが精度を改善し、一般化誤差推定を提供し、アクティブな学習戦略を可能にすることはよく知られている。 本研究では,これらの概念をニューラルネットワークに基づく原子間ポテンシャルに適用する。 単一のモデルではなく、同じアトミック環境記述子を共有する複数のモデルは、委員会の不一致の形での一般化誤差の尺度と同様に、個々のメンバーよりも優れた平均を与える。 この不一致を利用して、モデルのトレーニングセットをアクティブな学習手順で構築するための最も関連する構成を特定するだけでなく、一般化エラーを制御するためにシミュレーション中にそれを監視およびバイアスします。 これにより、ab initio計算の数を最小限に抑えながら、委員会ニューラルネットワークポテンシャルとそのトレーニングセットの適応開発が容易になる。 本手法の利点を説明するため, 凝縮相における水に関する委員会モデルの開発に本手法を適用した。 単一の参照abinitioシミュレーションから始めて、能動的学習を用いて新しい状態点に拡張し、核の量子的性質を記述する。 最終モデルは814の基準計算に基づいて訓練され、環境温度や高気圧の液体水から氷の異なる相、そして全ての核量子効果を含む空気-水界面まで、様々な条件下で優れた結果をもたらす。 委員会モデルに対するこのアプローチは、幅広いシステムの堅牢な機械学習モデルの体系的な開発を可能にする。

It is well known in the field of machine learning that committee models improve accuracy, provide generalization error estimates, and enable active learning strategies. In this work, we adapt these concepts to interatomic potentials based on artificial neural networks. Instead of a single model, multiple models that share the same atomic environment descriptors yield an average that outperforms its individual members as well as a measure of the generalization error in the form of the committee disagreement. We not only use this disagreement to identify the most relevant configurations to build up the model's training set in an active learning procedure, but also monitor and bias it during simulations to control the generalization error. This facilitates the adaptive development of committee neural network potentials and their training sets, while keeping the number of ab initio calculations to a minimum. To illustrate the benefits of this methodology, we apply it to the development of a committee model for water in the condensed phase. Starting from a single reference ab initio simulation, we use active learning to expand into new state points and to describe the quantum nature of the nuclei. The final model, trained on 814 reference calculations, yields excellent results under a range of conditions, from liquid water at ambient and elevated temperatures and pressures to different phases of ice, and the air-water interface - all including nuclear quantum effects. This approach to committee models will enable the systematic development of robust machine learning models for a broad range of systems.
翻訳日:2022-11-26 00:03:59 公開日:2020-10-20
# グラフニューラルネットワークとグラフニューラルネットワークの転送性

Graphon Neural Networks and the Transferability of Graph Neural Networks ( http://arxiv.org/abs/2006.03548v2 )

ライセンス: Link先を確認
Luana Ruiz, Luiz F. O. Chamon, Alejandro Ribeiro(参考訳) グラフニューラルネットワーク(GNN)は、ネットワークデータから局所的な特徴を抽出するためにグラフ畳み込みに依存する。 これらのグラフ畳み込みは、すべてのノード間で共有される係数を用いて、隣接ノードからの情報を結合する。 これらの係数は共有されグラフに依存しないので、同じ係数を使って別のグラフ上でGNNを定義することができる。 これはグラフ間のGNNの転送可能性を分析する動機である。 本稿では,GNNのリミットオブジェクトとしてグラファイトNNを導入し,GNNの出力とそのリミットグラファイトNNとの差を証明した。 この境界は、グラフ畳み込みフィルタがグラフスペクトル領域で帯域制限されている場合、ノード数の増加とともに消失する。 これにより、GNNの識別可能性と転送可能性のトレードオフが確立される。

Graph neural networks (GNNs) rely on graph convolutions to extract local features from network data. These graph convolutions combine information from adjacent nodes using coefficients that are shared across all nodes. Since these coefficients are shared and do not depend on the graph, one can envision using the same coefficients to define a GNN on another graph. This motivates analyzing the transferability of GNNs across graphs. In this paper we introduce graphon NNs as limit objects of GNNs and prove a bound on the difference between the output of a GNN and its limit graphon-NN. This bound vanishes with growing number of nodes if the graph convolutional filters are bandlimited in the graph spectral domain. This result establishes a tradeoff between discriminability and transferability of GNNs.
翻訳日:2022-11-25 02:59:41 公開日:2020-10-20
# 強化学習を用いたセルネットワークにおけるサービス機能チェーンのアロケートと管理

Using Reinforcement Learning to Allocate and Manage Service Function Chains in Cellular Networks ( http://arxiv.org/abs/2006.07349v3 )

ライセンス: Link先を確認
Guto Leoni Santos, Patricia Takako Endo(参考訳) 次世代のセルラーネットワークは、社会経済変革の推進のために、完全な流動性を持つ接続社会を提供することが期待されている。 他にも、IoT、スマートシティ、スマート農業、車載ネットワーク、ヘルスケアアプリケーションなど、この進化の恩恵を受ける技術がいくつかある。 これらのシナリオはそれぞれ特定の要件を示し、異なるネットワーク構成を要求する。 この異質性に対処するため、仮想化技術は重要な技術である。 実際、ネットワーク機能仮想化(NFV)パラダイムは、ネットワークマネージャに柔軟性を提供し、要求に応じてリソースを割り当て、取得と運用コストを削減します。 さらに、与えられたサービスのネットワーク仮想関数の順序セット(VNF)を指定することが可能で、サービス関数チェーン(SFC)と呼ばれる。 しかし、サービス仮想化の利点に加えて、ネットワークの性能と可用性がその利用に影響されないことが期待されている。 本稿では,セルラーネットワークサービスのSFCをデプロイし,VNFsの運用を管理するための強化学習手法を提案する。 SFCは分散データセンターのシナリオを考慮した強化学習エージェントによって展開され、VNFはコモディティサーバの仮想マシンにデプロイされる。 NFV管理は、VNFの生成、削除、再起動に関連する。 主な目的は、サーバーのエネルギー消費を考慮して失われたパケットの数を減らすことである。 エージェントの実装にはppo(proximal policy optimization)アルゴリズムを用い,sfcのアロケートとvnfの管理が可能であり,パケットのロス数を削減できることを示す。

It is expected that the next generation cellular networks provide a connected society with fully mobility to empower the socio-economic transformation. Several other technologies will benefits of this evolution, such as Internet of Things, smart cities, smart agriculture, vehicular networks, healthcare applications, and so on. Each of these scenarios presents specific requirements and demands different network configurations. To deal with this heterogeneity, virtualization technology is key technology. Indeed, the network function virtualization (NFV) paradigm provides flexibility for the network manager, allocating resources according to the demand, and reduces acquisition and operational costs. In addition, it is possible to specify an ordered set of network virtual functions (VNFs) for a given service, which is called as service function chain (SFC). However, besides the advantages from service virtualization, it is expected that network performance and availability do not be affected by its usage. In this paper, we propose the use of reinforcement learning to deploy a SFC of cellular network service and manage the VNFs operation. We consider that the SFC is deployed by the reinforcement learning agent considering a scenarios with distributed data centers, where the VNFs are deployed in virtual machines in commodity servers. The NFV management is related to create, delete, and restart the VNFs. The main purpose is to reduce the number of lost packets taking into account the energy consumption of the servers. We use the Proximal Policy Optimization (PPO) algorithm to implement the agent and preliminary results show that the agent is able to allocate the SFC and manage the VNFs, reducing the number of lost packets.
翻訳日:2022-11-22 03:52:22 公開日:2020-10-20
# Catplayinginthesnow: 事前セグメンテーションが視覚的接地音声モデルに及ぼす影響

Catplayinginthesnow: Impact of Prior Segmentation on a Model of Visually Grounded Speech ( http://arxiv.org/abs/2006.08387v2 )

ライセンス: Link先を確認
William N. Havard, Jean-Pierre Chevrot, Laurent Besacier(参考訳) 言語習得の文献によると、子どもたちは音声入力を音素に分割して単語を組み立てるのではなく、トップダウンのアプローチを採用して単語のような単位を分割し、それを小さな単位に分解する。 これは、言語を学ぶ理想的な方法は、完全な意味単位から始めることである。 本稿では,音声画像検索タスクで訓練された視覚的接地音声のニューラルモデルについても検討する。 電話、音節、あるいは単語境界情報を提供する際に、そのようなネットワークがいかに信頼できる音声対画像マッピングを学べるかを評価した。 本稿では,RNNモデルにそのような情報を導入し,どのタイプの境界が最も効率的かを検討する。 また,その性能を最大化するために,ネットワークアーキテクチャのどのレベルに情報を導入するべきかについても検討する。 最後に,低レベルセグメントを高レベルセグメントの再構成に使用する階層構造において,複数の境界型を一度に使用することは有用であり,低レベルセグメントや高レベルセグメントを分離して使用するよりも優れた結果が得られることを示す。

The language acquisition literature shows that children do not build their lexicon by segmenting the spoken input into phonemes and then building up words from them, but rather adopt a top-down approach and start by segmenting word-like units and then break them down into smaller units. This suggests that the ideal way of learning a language is by starting from full semantic units. In this paper, we investigate if this is also the case for a neural model of Visually Grounded Speech trained on a speech-image retrieval task. We evaluated how well such a network is able to learn a reliable speech-to-image mapping when provided with phone, syllable, or word boundary information. We present a simple way to introduce such information into an RNN-based model and investigate which type of boundary is the most efficient. We also explore at which level of the network's architecture such information should be introduced so as to maximise its performances. Finally, we show that using multiple boundary types at once in a hierarchical structure, by which low-level segments are used to recompose high-level segments, is beneficial and yields better results than using low-level or high-level segments in isolation.
翻訳日:2022-11-21 04:17:10 公開日:2020-10-20
# 高次量子貯留層計算

Higher-Order Quantum Reservoir Computing ( http://arxiv.org/abs/2006.08999v2 )

ライセンス: Link先を確認
Quoc Hoan Tran and Kohei Nakajima(参考訳) 量子貯水池コンピューティング(QRC)は、時間的機械学習タスクに使用できる計算資源として量子システムの自然力学を利用する新しいパラダイムである。 現在のセットアップでは、QRCは高次元データを扱うのが難しく、物理実装におけるスケーラビリティの大きな欠点があります。 線形フィードバックのような古典的接続を介して相互に通信する複数の小さな量子システムからなるハイブリッド量子古典的フレームワークである高次QRCを提案する。 古典的手法と量子的手法の両方の利点を生かして,QRCのスケーラビリティと性能を向上させるための効率的な実装を実現する。 さらに、高次設定により、高次元量子力学を利用する柔軟性と高い操作性を提供し、QRCの応用領域を大幅に拡張するForce学習または本質的なトレーニングスキームを実装することができる。 本研究では,複雑な時空間カオスを含む大規模非線形力学系をエミュレートする枠組みの有効性を実証する。

Quantum reservoir computing (QRC) is an emerging paradigm for harnessing the natural dynamics of quantum systems as computational resources that can be used for temporal machine learning tasks. In the current setup, QRC is difficult to deal with high-dimensional data and has a major drawback of scalability in physical implementations. We propose higher-order QRC, a hybrid quantum-classical framework consisting of multiple but small quantum systems that are mutually communicated via classical connections like linear feedback. By utilizing the advantages of both classical and quantum techniques, our framework enables an efficient implementation to boost the scalability and performance of QRC. Furthermore, higher-order settings allow us to implement a FORCE learning or an innate training scheme, which provides flexibility and high operability to harness high-dimensional quantum dynamics and significantly extends the application domain of QRC. We demonstrate the effectiveness of our framework in emulating large-scale nonlinear dynamical systems, including complex spatiotemporal chaos, which outperforms many of the existing machine learning techniques in certain situations.
翻訳日:2022-11-20 21:40:10 公開日:2020-10-20
# UCSG-Net -- 構造的ソリッドジオメトリーツリーの教師なし発見

UCSG-Net -- Unsupervised Discovering of Constructive Solid Geometry Tree ( http://arxiv.org/abs/2006.09102v3 )

ライセンス: Link先を確認
Kacper Kania, Maciej Zi\k{e}ba, Tomasz Kajdanowicz(参考訳) 符号付き距離場(SDF)は3次元メッシュの顕著な暗黙的表現である。 このような表現に基づく手法は、最先端の3次元形状復元の品質を達成した。 しかし、これらの手法は非凸形状の再構築に苦しむ。 一つは、形をプリミティブへの分解として表現するコンストラクティブ・ソリッド・ジオメトリ・フレームワーク(csg)を組み込むことである。 ブール演算の単純なツリー表現で、複雑さと非凸性の3次元形状を具現化することができる。 それにもかかわらず、既存のアプローチは監視され、トレーニングプロセス中に前もって与えられたcsgパースツリー全体を必要とする。 一方,CSG 解析木を UCSG-Net の監督なしに抽出するモデルを提案する。 我々のモデルはプリミティブのパラメータを予測し、微分可能なインジケータ関数によってSDF表現をバイナライズする。 これはブール作用素木の構造の発見と共同で達成される。 モデルは、プリミティブ上の演算子の組み合わせが高忠実度を再構築する、動的に選択する。 2次元および3次元の自動エンコーディングタスクにおいて,提案手法を評価した。 予測した解析木表現は解釈可能であり,cadソフトウェアで使用できることを示す。

Signed distance field (SDF) is a prominent implicit representation of 3D meshes. Methods that are based on such representation achieved state-of-the-art 3D shape reconstruction quality. However, these methods struggle to reconstruct non-convex shapes. One remedy is to incorporate a constructive solid geometry framework (CSG) that represents a shape as a decomposition into primitives. It allows to embody a 3D shape of high complexity and non-convexity with a simple tree representation of Boolean operations. Nevertheless, existing approaches are supervised and require the entire CSG parse tree that is given upfront during the training process. On the contrary, we propose a model that extracts a CSG parse tree without any supervision - UCSG-Net. Our model predicts parameters of primitives and binarizes their SDF representation through differentiable indicator function. It is achieved jointly with discovering the structure of a Boolean operators tree. The model selects dynamically which operator combination over primitives leads to the reconstruction of high fidelity. We evaluate our method on 2D and 3D autoencoding tasks. We show that the predicted parse tree representation is interpretable and can be used in CAD software.
翻訳日:2022-11-20 19:44:20 公開日:2020-10-20
# モナシュ大学, UEA, UCR Time Series Extrinsic Regression Archive

Monash University, UEA, UCR Time Series Extrinsic Regression Archive ( http://arxiv.org/abs/2006.10996v3 )

ライセンス: Link先を確認
Chang Wei Tan, Christoph Bergmeir, Francois Petitjean, Geoffrey I. Webb(参考訳) 時系列研究は、特に時系列分類(TSC)と時系列予測(TSF)において、過去10年間に多くの関心を集めてきた。 TSCの研究はカリフォルニア大学リバーサイド校とイースト・アングリア大学(UCR/UEA)の時系列アーカイブから大きな恩恵を受けている。 一方、時系列予測の進歩は、makridakis competitions、nn3、nn5ニューラルネットワークコンペティションなどの時系列予測コンペティションと、いくつかのkaggleコンペティションに依存している。 毎年、TSCとTSFの新しいアルゴリズムを提案する何千もの論文がこれらのベンチマークアーカイブを利用している。 これらのアルゴリズムは、これらの特定の問題のために設計されているが、photoplethysmogram(ppg)と加速度計データを使用して人の心拍数を予測するようなタスクには役に立たない。 この問題を時系列外回帰(tser:time series extrinsic regression)と呼び、単変量または多変量時系列から単一の連続値を予測するより一般的な方法に興味を持っている。 この予測は、同じ時系列からでも、予測器の時系列と直接関係なく、必ずしも将来の値である必要はなく、最近の値に大きく依存する必要はない。 我々の知る限り、TSERの研究は時系列研究コミュニティではあまり注目されておらず、一般時系列外部回帰問題のために開発されたモデルはない。 ほとんどのモデルは特定の問題のために開発されている。 そこで我々は,最初のTSERベンチマークアーカイブを導入することで,TSERの研究を動機づけ,支援することを目指している。 このアーカイブには、異なるドメインから19のデータセットが含まれており、さまざまな次元、不等長次元、欠落値がある。 本稿では,このアーカイブにデータセットを導入し,既存のモデルの初期ベンチマークを行った。

Time series research has gathered lots of interests in the last decade, especially for Time Series Classification (TSC) and Time Series Forecasting (TSF). Research in TSC has greatly benefited from the University of California Riverside and University of East Anglia (UCR/UEA) Time Series Archives. On the other hand, the advancement in Time Series Forecasting relies on time series forecasting competitions such as the Makridakis competitions, NN3 and NN5 Neural Network competitions, and a few Kaggle competitions. Each year, thousands of papers proposing new algorithms for TSC and TSF have utilized these benchmarking archives. These algorithms are designed for these specific problems, but may not be useful for tasks such as predicting the heart rate of a person using photoplethysmogram (PPG) and accelerometer data. We refer to this problem as Time Series Extrinsic Regression (TSER), where we are interested in a more general methodology of predicting a single continuous value, from univariate or multivariate time series. This prediction can be from the same time series or not directly related to the predictor time series and does not necessarily need to be a future value or depend heavily on recent values. To the best of our knowledge, research into TSER has received much less attention in the time series research community and there are no models developed for general time series extrinsic regression problems. Most models are developed for a specific problem. Therefore, we aim to motivate and support the research into TSER by introducing the first TSER benchmarking archive. This archive contains 19 datasets from different domains, with varying number of dimensions, unequal length dimensions, and missing values. In this paper, we introduce the datasets in this archive and did an initial benchmark on existing models.
翻訳日:2022-11-19 03:47:33 公開日:2020-10-20
# 人工知能を用いた残留注意ネットワークを用いた新型コロナウイルススクリーニング

COVID-19 Screening Using Residual Attention Network an Artificial Intelligence Approach ( http://arxiv.org/abs/2006.16106v3 )

ライセンス: Link先を確認
Vishal Sharma, Curtis Dyreson(参考訳) コロナウイルス病2019(COVID-19)は、重症急性呼吸器症候群ウイルス2ウイルス(SARS-CoV-2)によって引き起こされる。 ウイルスは急速に伝達し、基本生殖数Rは2.2-2.7である。 2020年3月、世界保健機関(WHO)は新型コロナウイルスのパンデミックを宣言。 現在covid-19は、600万のアクティブケースを持つ200以上の国に影響を与えている。 新型コロナウイルスの効果的な検査戦略は、感染の抑制に不可欠であるが、検査の需要は、RT-PCR(Reverse Transcription Polymerase Chain Reaction)を用いたテストキットの可用性を上回る。 本稿では,人工知能を用いた新型コロナウイルスのスクリーニング手法を提案する。 この技術は、患者のウイルスの存在を確認するのにほんの数秒しかかからない。 胸部x線画像のデータセットを収集し、いくつかの一般的な深層畳み込みニューラルネットワークモデル(vgg、mobilenet、xception、dangnet、inceptionresnet)を訓練し、胸部x線を分類した。 これらのモデルに満足せず、検査精度98%、検証精度100%で新型コロナウイルスをスクリーニングできる残留注意ネットワークを設計、構築しました。 モデルの視覚的な特徴地図には,分類に重要な胸部x線領域が示されている。 我々の研究は、臨床実践におけるAI支援アプリケーションの適応性を高めるのに役立つ。 このプロジェクトで使用されるコードとデータセットはhttps://github.com/vishalshar/covid-19-screening-using-RAN-on-X-ray-imagesで公開されている。

Coronavirus Disease 2019 (COVID-19) is caused by severe acute respiratory syndrome coronavirus 2 virus (SARS-CoV-2). The virus transmits rapidly; it has a basic reproductive number R of 2.2-2.7. In March 2020, the World Health Organization declared the COVID-19 outbreak a pandemic. COVID-19 is currently affecting more than 200 countries with 6M active cases. An effective testing strategy for COVID-19 is crucial to controlling the outbreak but the demand for testing surpasses the availability of test kits that use Reverse Transcription Polymerase Chain Reaction (RT-PCR). In this paper, we present a technique to screen for COVID-19 using artificial intelligence. Our technique takes only seconds to screen for the presence of the virus in a patient. We collected a dataset of chest X-ray images and trained several popular deep convolution neural network-based models (VGG, MobileNet, Xception, DenseNet, InceptionResNet) to classify the chest X-rays. Unsatisfied with these models, we then designed and built a Residual Attention Network that was able to screen COVID-19 with a testing accuracy of 98% and a validation accuracy of 100%. A feature maps visual of our model show areas in a chest X-ray which are important for classification. Our work can help to increase the adaptation of AI-assisted applications in clinical practice. The code and dataset used in this project are available at https://github.com/vishalshar/covid-19-screening-using-RAN-on-X-ray-images.
翻訳日:2022-11-16 22:06:29 公開日:2020-10-20
# 遅延Q更新:グリッド接続マイクログリッドの最適動作ポリシーを導出するための新しいクレジット割り当て手法

Delayed Q-update: A novel credit assignment technique for deriving an optimal operation policy for the Grid-Connected Microgrid ( http://arxiv.org/abs/2006.16659v3 )

ライセンス: Link先を確認
Hyungjun Park, Daiki Min, Jong-hyun Ryu, Dong Gu Choi(参考訳) マイクログリッドは、分散型エネルギー資源を統合して電気的境界内で電力需要を供給する革新的なシステムである。 本研究は,新しいクレジット代入手法である遅延Q更新を用いて,マイクログリッドシステムの高度な制御を可能にする,望ましいマイクログリッド動作ポリシーの導出手法を提案する。 この技術は、マイクログリッドの遅延した有効性に対処し解決する能力などの新しい特徴を生かしており、洗練された制御の下で学習エージェントが適切に適合したポリシーを導出することを防ぐ。 提案手法は、充電期間の履歴を追跡し、ESS充電制御に調整された値を遡及的に割り当てる。 提案手法を応用した運転方針は, その手法のプロセスにより, ess操作の実効性に適している。 したがって、高度に制御されたマイクログリッド環境下での最適に近い運用方針の探索を支援する。 本手法を検証するために,実世界のグリッド接続マイクログリッドシステム下での運用方針をシミュレートし,本手法の性能指標とベンチマーク政策,最適方針を比較して,最適に近い政策への収束を実証する。

A microgrid is an innovative system that integrates distributed energy resources to supply electricity demand within electrical boundaries. This study proposes an approach for deriving a desirable microgrid operation policy that enables sophisticated controls in the microgrid system using the proposed novel credit assignment technique, delayed-Q update. The technique employs novel features such as the ability to tackle and resolve the delayed effective property of the microgrid, which prevents learning agents from deriving a well-fitted policy under sophisticated controls. The proposed technique tracks the history of the charging period and retroactively assigns an adjusted value to the ESS charging control. The operation policy derived using the proposed approach is well-fitted for the real effects of ESS operation because of the process of the technique. Therefore, it supports the search for a near-optimal operation policy under a sophisticatedly controlled microgrid environment. To validate our technique, we simulate the operation policy under a real-world grid-connected microgrid system and demonstrate the convergence to a near-optimal policy by comparing performance measures of our policy with benchmark policy and optimal policy.
翻訳日:2022-11-15 06:32:16 公開日:2020-10-20
# 画像超解像のためのクロススケール内部グラフニューラルネットワーク

Cross-Scale Internal Graph Neural Network for Image Super-Resolution ( http://arxiv.org/abs/2006.16673v2 )

ライセンス: Link先を確認
Shangchen Zhou, Jiawei Zhang, Wangmeng Zuo, Chen Change Loy(参考訳) 自然画像における非局所的な自己相似性は、画像修復に有効な先行として研究されている。 しかし、単一画像超解像(SISR)の場合、既存のディープ非局所的手法(例えば、非局所ニューラルネットワーク)は、低解像度(LR)入力画像と同じスケールでのみ同様のパッチを利用する。 その結果、復元は、他のスケールからの潜在的な高解像度(HR)キューを無視しながら、同じスケール情報を使用するに限られる。 本稿では,自然画像の横断的パッチ再帰特性,すなわち類似のパッチは,異なるスケールで何度も再帰する傾向にあることを示す。 これは、新しいクロススケールな内部グラフニューラルネットワーク(IGNN)を使用して実現される。 具体的には,ダウンサンプリングしたlr画像のk-nearest近傍のパッチをlr画像のクエリパッチ毎に検索することにより,クロススケールグラフを動的に構築する。 次に、LR画像中の対応するkHR近傍パッチを取得し、構築されたグラフのエッジラベルに従って適応的に集約する。 このようにして、HR情報は k HR 近くのパッチから LR クエリパッチに渡され、より詳細なテクスチャを復元するのに役立つ。 さらに、これらの内部画像固有のLR/HR例は、トレーニングデータセットから学んだ外部情報に対して重要な補完となる。 大規模な実験は、標準ベンチマーク上の既存の非ローカルネットワークを含む最先端のSISR手法に対するIGNNの有効性を示す。

Non-local self-similarity in natural images has been well studied as an effective prior in image restoration. However, for single image super-resolution (SISR), most existing deep non-local methods (e.g., non-local neural networks) only exploit similar patches within the same scale of the low-resolution (LR) input image. Consequently, the restoration is limited to using the same-scale information while neglecting potential high-resolution (HR) cues from other scales. In this paper, we explore the cross-scale patch recurrence property of a natural image, i.e., similar patches tend to recur many times across different scales. This is achieved using a novel cross-scale internal graph neural network (IGNN). Specifically, we dynamically construct a cross-scale graph by searching k-nearest neighboring patches in the downsampled LR image for each query patch in the LR image. We then obtain the corresponding k HR neighboring patches in the LR image and aggregate them adaptively in accordance to the edge label of the constructed graph. In this way, the HR information can be passed from k HR neighboring patches to the LR query patch to help it recover more detailed textures. Besides, these internal image-specific LR/HR exemplars are also significant complements to the external information learned from the training dataset. Extensive experiments demonstrate the effectiveness of IGNN against the state-of-the-art SISR methods including existing non-local networks on standard benchmarks.
翻訳日:2022-11-15 05:46:17 公開日:2020-10-20
# 濃密テキスト検索のための近似近傍負の競合学習

Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval ( http://arxiv.org/abs/2007.00808v2 )

ライセンス: Link先を確認
Lee Xiong, Chenyan Xiong, Ye Li, Kwok-Fung Tang, Jialin Liu, Paul Bennett, Junaid Ahmed, Arnold Overwijk(参考訳) 密集した表現空間におけるテキスト検索はスパース検索よりも多くの興味深い利点がある。 しかし、高密度検索(DR)の有効性はスパース検索と組み合わせることがしばしば必要である。 本稿では,トレーニングで使用される負のインスタンスがテストにおける無関係な文書を代表しない,トレーニングメカニズムが主なボトルネックであることを示す。 本稿では,学習プロセスと並行して更新され,より現実的な否定的学習インスタンスが選択されるコーパスの近近近辺(ann)インデックスから負を構成する学習機構である,近近近近近辺負対比推定(ance)を提案する。 実験ではBERT-Siamese DRモデルを改良し,厳密でスパースな検索ベースラインをすべて上回る結果を得た。 sparse-retrieval-and-bert-rerankingの精度とほぼ一致し、約100倍のスピードアップを提供する。

Conducting text retrieval in a dense learned representation space has many intriguing advantages over sparse retrieval. Yet the effectiveness of dense retrieval (DR) often requires combination with sparse retrieval. In this paper, we identify that the main bottleneck is in the training mechanisms, where the negative instances used in training are not representative of the irrelevant documents in testing. This paper presents Approximate nearest neighbor Negative Contrastive Estimation (ANCE), a training mechanism that constructs negatives from an Approximate Nearest Neighbor (ANN) index of the corpus, which is parallelly updated with the learning process to select more realistic negative training instances. This fundamentally resolves the discrepancy between the data distribution used in the training and testing of DR. In our experiments, ANCE boosts the BERT-Siamese DR model to outperform all competitive dense and sparse retrieval baselines. It nearly matches the accuracy of sparse-retrieval-and-BERT-reranking using dot-product in the ANCE-learned representation space and provides almost 100x speed-up.
翻訳日:2022-11-14 22:25:56 公開日:2020-10-20
# 機械学習によるカオスマルチスケールシステムの効果的モデルと予測可能性

Effective models and predictability of chaotic multiscale systems via machine learning ( http://arxiv.org/abs/2007.08634v2 )

ライセンス: Link先を確認
Francesco Borra, Angelo Vulpiani, Massimo Cencini(参考訳) 我々は、貯水池計算に基づく機械学習を用いて、マルチスケールカオスシステムのデータ駆動効果的なモデルを構築する。 大規模分離において,機械学習は,マルチスケール漸近的手法を用いて得られたモデルに類似した効果的なモデルを生成するとともに,スケール分離を低減した場合でも予測可能性に極めて有効であることを示す。 また,不完全なモデルで貯水池をハイブリダイズすることで,予測可能性を向上させることができることを示した。

We scrutinize the use of machine learning, based on reservoir computing, to build data-driven effective models of multiscale chaotic systems. We show that, for a wide scale separation, machine learning generates effective models akin to those obtained using multiscale asymptotic techniques and, remarkably, remains effective in predictability also when the scale separation is reduced. We also show that predictability can be improved by hybridizing the reservoir with an imperfect model.
翻訳日:2022-11-14 15:01:40 公開日:2020-10-20
# 構造方程式モデルの効率的な神経推定--敵対的アプローチ

Provably Efficient Neural Estimation of Structural Equation Model: An Adversarial Approach ( http://arxiv.org/abs/2007.01290v3 )

ライセンス: Link先を確認
Luofeng Liao, You-Lin Chen, Zhuoran Yang, Bo Dai, Zhaoran Wang, Mladen Kolar(参考訳) 構造方程式モデル(SEM)は、経済学から心理学まで、複雑なシステムの根底にある因果関係を解明し、関心の構造的パラメータを推定するために広く用いられている。 対象が線形作用素方程式の解として定義される一般化されたSEMのクラスにおける推定について検討する。 線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、確率勾配勾配を用いてこれらのニューラルネットワークのパラメータを学習する。 reluアクティベーション機能を持つ2層および多層nnを考察し,ニューロン数が分岐する過パラメータ領域において大域収束を証明した。 結果は、オンライン学習とNNの局所線形化の技術を用いて構築され、現状のいくつかの面で改善されている。 提案手法は,サンプル分割を必要とせず,確固とした収束性を備えたNNに基づくSEMの抽出可能な推定手順を初めて提供する。

Structural equation models (SEMs) are widely used in sciences, ranging from economics to psychology, to uncover causal relationships underlying a complex system under consideration and estimate structural parameters of interest. We study estimation in a class of generalized SEMs where the object of interest is defined as the solution to a linear operator equation. We formulate the linear operator equation as a min-max game, where both players are parameterized by neural networks (NNs), and learn the parameters of these neural networks using the stochastic gradient descent. We consider both 2-layer and multi-layer NNs with ReLU activation functions and prove global convergence in an overparametrized regime, where the number of neurons is diverging. The results are established using techniques from online learning and local linearization of NNs, and improve in several aspects the current state-of-the-art. For the first time we provide a tractable estimation procedure for SEMs based on NNs with provable convergence and without the need for sample splitting.
翻訳日:2022-11-14 13:24:29 公開日:2020-10-20
# ファジィ積分=文脈線形次数統計

Fuzzy Integral = Contextual Linear Order Statistic ( http://arxiv.org/abs/2007.02874v2 )

ライセンス: Link先を確認
Derek Anderson, Matthew Deardorff, Timothy Havens, Siva Kakula, Timothy Wilkin, Muhammad Islam, Anthony Pinar, and Andrew Buck(参考訳) ファジィ積分は、情報融合から分類、回帰、意思決定、補間、メトリクス、形態学など、幅広い応用において有用性を持つ強力なパラメトリック非リンイヤー関数である。 ファジィ積分は一般に非線形作用素であるが、ここでは文脈線形次数統計(los)の集合によって表現できることを示す。 これらの作用素はファジィ測度をサンプリングすることで得ることができ、クラスタリングを用いて線形凸和の基礎空間の分割を生成する。 このアプローチの利点は、スケーラビリティ、積分/測度獲得の改善、一般化可能性、説明可能な/解釈可能なモデルである。 本手法は制御された合成実験で実証され,実世界のベンチマークデータセットで解析,検証される。

The fuzzy integral is a powerful parametric nonlin-ear function with utility in a wide range of applications, from information fusion to classification, regression, decision making,interpolation, metrics, morphology, and beyond. While the fuzzy integral is in general a nonlinear operator, herein we show that it can be represented by a set of contextual linear order statistics(LOS). These operators can be obtained via sampling the fuzzy measure and clustering is used to produce a partitioning of the underlying space of linear convex sums. Benefits of our approach include scalability, improved integral/measure acquisition, generalizability, and explainable/interpretable models. Our methods are both demonstrated on controlled synthetic experiments, and also analyzed and validated with real-world benchmark data sets.
翻訳日:2022-11-13 03:12:00 公開日:2020-10-20
# モデル非依存計画のための一般リレーショナルヒューリスティックネットワークの学習

Learning Generalized Relational Heuristic Networks for Model-Agnostic Planning ( http://arxiv.org/abs/2007.06702v2 )

ライセンス: Link先を確認
Rushang Karia, Siddharth Srivastava(参考訳) 効率的なAIシステムの設計には、目標指向の行動の計算が不可欠である。 計画の計算の複雑さから、現在のアプローチは、主に手書きのシンボリックアクションモデルと、効率のために手書きのヒューリスティックファンクションジェネレータに依存している。 このような問題に対する学習的ヒューリスティックスは、トレーニングデータと大きく異なるオブジェクトやオブジェクトの量に関する問題に適用することが難しいため、限られたユーティリティである。 本稿では,入力述語語彙を活用しつつ,対象名や量に依存しない深層ニューラルネットワークを用いて,記号的行動モデルが存在しない場合の一般化ヒューリスティックスを学ぶための新しい手法を提案する。 データの効率的で一般化可能な学習を容易にするために、抽象状態表現を使用する。 従来の手法とは対照的に、この手法によって計算された一般化されたヒューリスティックは、異なる対象と、トレーニングデータよりもはるかに大きいオブジェクトの量に容易に変換可能であることを示す。

Computing goal-directed behavior is essential to designing efficient AI systems. Due to the computational complexity of planning, current approaches rely primarily upon hand-coded symbolic action models and hand-coded heuristic-function generators for efficiency. Learned heuristics for such problems have been of limited utility as they are difficult to apply to problems with objects and object quantities that are significantly different from those in the training data. This paper develops a new approach for learning generalized heuristics in the absence of symbolic action models using deep neural networks that utilize an input predicate vocabulary but are agnostic to object names and quantities. It uses an abstract state representation to facilitate data efficient, generalizable learning. Empirical evaluation on a range of benchmark domains show that in contrast to prior approaches, generalized heuristics computed by this method can be transferred easily to problems with different objects and with object quantities much larger than those in the training data.
翻訳日:2022-11-11 21:07:35 公開日:2020-10-20
# 概念証明:自動型認識

Proof of Concept: Automatic Type Recognition ( http://arxiv.org/abs/2007.07690v2 )

ライセンス: Link先を確認
Vincent Christlein, Nikolaus Weichselbaumer, Saskia Limbach, Mathias Seuret(参考訳) 初期の近代の本を印刷するために使われるタイプは、研究者に生産時期や場所、生産者に関する情報を与えることができる。 この型を認識するには、現在、'M' または `Qu' の文字形状と、大きな参照作業で調べるために、全型のサイズの両方を使って手動で行う。 これは信頼できる方法ですが、遅いし、特定のスキルが必要です。 本研究は, 初期の印刷本において, 簡便で難解な型からなるデータセットを用いて, 型分類と型検索の性能について検討した。 タイプ分類では,フォントグループ分類に使用されていた深層畳み込みニューラルネットワーク(CNN)を,検索ケースに共通文字識別法を用いる。 どちらのシナリオでも、容易な型を高い精度で分類/検索することができるが、難しいケースは確かに難しい。

The type used to print an early modern book can give scholars valuable information about the time and place of its production as well as its producer. Recognizing such type is currently done manually using both the character shapes of `M' or `Qu' and the size of the total type to look it up in a large reference work. This is a reliable method, but it is also slow and requires specific skills. We investigate the performance of type classification and type retrieval using a newly created dataset consisting of easy and difficult types used in early printed books. For type classification, we rely on a deep Convolutional Neural Network (CNN) originally used for font-group classification while we use a common writer identification method for the retrieval case. We show that in both scenarios, easy types can be classified/retrieved with a high accuracy while difficult cases are indeed difficult.
翻訳日:2022-11-10 06:03:19 公開日:2020-10-20
# 多くの人にとって:HVAC制御構築のためのトランスファーラーニング

One for Many: Transfer Learning for Building HVAC Control ( http://arxiv.org/abs/2008.03625v2 )

ライセンス: Link先を確認
Shichao Xu, Yixuan Wang, Yanzhi Wang, Zheng O'Neill, Qi Zhu(参考訳) ビルの暖房、換気、空調システム(HVAC)の設計は、建築エネルギー消費の約半分を占め、住民の快適さ、生産性、健康に直接影響を及ぼすため、極めて重要である。 従来のHVAC制御法は通常、熱力学を構築するための明示的な物理モデルを作成することに基づいており、しばしば開発に多大な労力を要し、実行時の制御とフィールド実装のスケーラビリティのために十分な精度と効率を達成するのが困難である。 近年,深部強化学習 (DRL) は,実行時に物理モデルを分析することなく良好な制御性能を提供する,有望なデータ駆動型手法として出現している。 しかし、DRL(および他の多くのデータ駆動学習手法)に対する大きな課題は、所望のパフォーマンスに到達するのに長いトレーニング時間である。 本稿では,この課題を克服するための新しいトランスファー学習手法を提案する。 提案手法は, ニューラルネットワークコントローラの設計を移動可能なフロントエンドネットワークに分解することで, ソースビルディング用に訓練されたDRLベースのHVACコントローラを, 最小限の労力で目標ビルディング用のコントローラに効果的に転送し, 性能を向上させる。 異なる大きさの建物間での移動シナリオ,温度帯の数,材料とレイアウト,空調タイプ,環境条件などについて実験を行った。 実験の結果, トレーニング時間, エネルギーコスト, 温度違反を著しく低減する手法の有効性が示された。

The design of building heating, ventilation, and air conditioning (HVAC) system is critically important, as it accounts for around half of building energy consumption and directly affects occupant comfort, productivity, and health. Traditional HVAC control methods are typically based on creating explicit physical models for building thermal dynamics, which often require significant effort to develop and are difficult to achieve sufficient accuracy and efficiency for runtime building control and scalability for field implementations. Recently, deep reinforcement learning (DRL) has emerged as a promising data-driven method that provides good control performance without analyzing physical models at runtime. However, a major challenge to DRL (and many other data-driven learning methods) is the long training time it takes to reach the desired performance. In this work, we present a novel transfer learning based approach to overcome this challenge. Our approach can effectively transfer a DRL-based HVAC controller trained for the source building to a controller for the target building with minimal effort and improved performance, by decomposing the design of neural network controller into a transferable front-end network that captures building-agnostic behavior and a back-end network that can be efficiently trained for each specific building. We conducted experiments on a variety of transfer scenarios between buildings with different sizes, numbers of thermal zones, materials and layouts, air conditioner types, and ambient weather conditions. The experimental results demonstrated the effectiveness of our approach in significantly reducing the training time, energy cost, and temperature violations.
翻訳日:2022-11-01 04:42:36 公開日:2020-10-20
# 自動運転のための視覚定位:都市迷路における正確な位置のマッピング

Visual Localization for Autonomous Driving: Mapping the Accurate Location in the City Maze ( http://arxiv.org/abs/2008.05678v3 )

ライセンス: Link先を確認
Dongfang Liu, Yiming Cui, Xiaolei Guo, Wei Ding, Baijian Yang, and Yingjie Chen(参考訳) 正確な位置決めは基本的な能力であり、自動運転車がナビゲーションや経路計画などの他のタスクを遂行するのに必要である。 車両はGPSを使って位置情報を取得するのが一般的である。 しかし、GPSの応用は、様々な種類の構造がGPS信号をシャドウイングし、不正確な位置結果をもたらす都市内を車両が走る場合、深刻な問題を引き起こす可能性がある。 都市環境のローカライズ問題に対処するために,視覚的ローカライズのための新しい特徴投票手法を提案する。 従来のフロントビュー方式とは違って,3方向(前,左,右)からの視点を取り入れ,位置予測の堅牢性を大幅に向上させる。 本研究では,提案手法を3つの最先端ビジュアルローカライズネットワークに分割し,それらのアーキテクチャを適切に修正し,車両操作に適用する。 広域フィールドテストの結果,都市内環境に挑戦してもロバストな位置推定が可能であった。 我々の研究は、視覚的ローカライゼーションアプローチを使って、自動運転車が都市迷路の正確な位置情報を望ましい時間制約で見つけるのを助けることに光を当てています。

Accurate localization is a foundational capacity, required for autonomous vehicles to accomplish other tasks such as navigation or path planning. It is a common practice for vehicles to use GPS to acquire location information. However, the application of GPS can result in severe challenges when vehicles run within the inner city where different kinds of structures may shadow the GPS signal and lead to inaccurate location results. To address the localization challenges of urban settings, we propose a novel feature voting technique for visual localization. Different from the conventional front-view-based method, our approach employs views from three directions (front, left, and right) and thus significantly improves the robustness of location prediction. In our work, we craft the proposed feature voting method into three state-of-the-art visual localization networks and modify their architectures properly so that they can be applied for vehicular operation. Extensive field test results indicate that our approach can predict location robustly even in challenging inner-city settings. Our research sheds light on using the visual localization approach to help autonomous vehicles to find accurate location information in a city maze, within a desirable time constraint.
翻訳日:2022-10-30 23:13:57 公開日:2020-10-20
# DCN V2: ディープ・アンド・クロスネットワークの改善とWebスケールラーニングの実践的教訓

DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Systems ( http://arxiv.org/abs/2008.13535v2 )

ライセンス: Link先を確認
Ruoxi Wang, Rakesh Shivanna, Derek Z. Cheng, Sagar Jain, Dong Lin, Lichan Hong, Ed H. Chi(参考訳) 効果的な機能横断学習が推奨システム構築の鍵となる。 しかし、スパースと大きな特徴空間は、有効交差を特定するために徹底的な探索を必要とする。 Deep & Cross Network (DCN) は、境界度予測機能相互作用を自動かつ効率的に学習するために提案されている。 残念ながら、何十億ものトレーニング例を持つWebスケールトラフィックを提供するモデルでは、DCNは、より予測的な機能インタラクションを学ぶためのクロスネットワークにおいて、限られた表現性を示した。 重要な研究成果にもかかわらず、生産中の多くのディープラーニングモデルは、機能クロスを非効率に学習するために、従来のフィードフォワードニューラルネットワークに依存している。 我々は,DCNと既存の特徴相互作用学習手法の長所や短所を考慮し,大規模産業環境でDCNをより実用的なものにするためのフレームワークDCN-V2を提案する。 広範なハイパーパラメータ探索とモデルチューニングによる総合的な実験では、DCN-V2アプローチが、一般的なベンチマークデータセット上での最先端アルゴリズムよりも優れていた。 改良されたDCN-V2はより表現力が高く、特に低ランクアーキテクチャと組み合わせた場合、機能間相互作用学習においてコスト効率は高い。 DCN-V2はシンプルで、ビルディングブロックとして簡単に採用でき、Googleのシステムランク付けのために、多くのWebスケールの学習において、オフラインの精度とオンラインビジネスメトリクスが大幅に向上した。

Learning effective feature crosses is the key behind building recommender systems. However, the sparse and large feature space requires exhaustive search to identify effective crosses. Deep & Cross Network (DCN) was proposed to automatically and efficiently learn bounded-degree predictive feature interactions. Unfortunately, in models that serve web-scale traffic with billions of training examples, DCN showed limited expressiveness in its cross network at learning more predictive feature interactions. Despite significant research progress made, many deep learning models in production still rely on traditional feed-forward neural networks to learn feature crosses inefficiently. In light of the pros/cons of DCN and existing feature interaction learning approaches, we propose an improved framework DCN-V2 to make DCN more practical in large-scale industrial settings. In a comprehensive experimental study with extensive hyper-parameter search and model tuning, we observed that DCN-V2 approaches outperform all the state-of-the-art algorithms on popular benchmark datasets. The improved DCN-V2 is more expressive yet remains cost efficient at feature interaction learning, especially when coupled with a mixture of low-rank architecture. DCN-V2 is simple, can be easily adopted as building blocks, and has delivered significant offline accuracy and online business metrics gains across many web-scale learning to rank systems at Google.
翻訳日:2022-10-27 09:17:40 公開日:2020-10-20
# 説明可能な空間クラスタリング:放射線オンコロジーにおける空間データの活用

Explainable Spatial Clustering: Leveraging Spatial Data in Radiation Oncology ( http://arxiv.org/abs/2008.11282v2 )

ライセンス: Link先を確認
Andrew Wentzel, Guadalupe Canahuate, Lisanne van Dijk, Abdallah Mohamed, Clifton David Fuller, G.Elisabeta Marai(参考訳) 放射線治療におけるデータ収集の進歩は、新しいデータ駆動洞察を促進するためにデータマイニングと機械学習技術を適用する機会を豊富に生み出した。 これらの進歩を踏まえて、機械学習の専門家と臨床医のコラボレーションを支援することは、これらのモデルの開発と導入を促進する上で重要である。 多くの医療用ケースは空間データに依存しており、データの基盤構造を理解し視覚化することが重要であるが、臨床観衆による空間クラスタリングの結果の解釈可能性についてはほとんど分かっていない。 本研究では,頭頸部癌患者の複雑な解剖データをクラスタリングするための新しいアプローチを説明するための可視化設計について考察する。 これらの可視化は、放射線腫瘍学者や統計学者との複数年間のコラボレーションにおいて、臨床観衆を対象とした参加型設計を通じて開発された。 臨床ユーザのための視覚的かつ説明可能な空間クラスタリングを構築するための一連のレッスンにこのコラボレーションを取り入れた。

Advances in data collection in radiation therapy have led to an abundance of opportunities for applying data mining and machine learning techniques to promote new data-driven insights. In light of these advances, supporting collaboration between machine learning experts and clinicians is important for facilitating better development and adoption of these models. Although many medical use-cases rely on spatial data, where understanding and visualizing the underlying structure of the data is important, little is known about the interpretability of spatial clustering results by clinical audiences. In this work, we reflect on the design of visualizations for explaining novel approaches to clustering complex anatomical data from head and neck cancer patients. These visualizations were developed, through participatory design, for clinical audiences during a multi-year collaboration with radiation oncologists and statisticians. We distill this collaboration into a set of lessons learned for creating visual and explainable spatial clustering for clinical users.
翻訳日:2022-10-25 04:36:37 公開日:2020-10-20
# 確率エージェントネットワークにおける評価駆動決定

Reputation-driven Decision-making in Networks of Stochastic Agents ( http://arxiv.org/abs/2008.11791v2 )

ライセンス: Link先を確認
David Maoujoud and Gavin Rens(参考訳) 本稿では,自己関心エージェントのネットワークを含むマルチエージェントシステムについて検討する。 本稿では,エージェント間のインタラクションにおいて,エージェントの評判が鍵となる領域に合わせたマルコフ決定プロセス由来のフレームワーク,repnet-mdpを提案する。 基本は、2018年にRensらが開発したフレームワークRepNet-POMDPの原理に基づいているが、数学的不整合に対処し、完全に観測可能な環境のみを考慮して、その難しさを軽減する。 さらに、RepNet-MDPの近似解を見つけるためにオンライン学習アルゴリズムを用いる。 一連の実験で、repnetエージェントは、ネットワークの残りのエージェントの過去の行動と信頼性に自身の動作を適応できることが示されている。 最後に,本研究は,現行の定式化におけるフレームワークの限界を特定し,エージェントが主役ではない状況下での学習を防止する。

This paper studies multi-agent systems that involve networks of self-interested agents. We propose a Markov Decision Process-derived framework, called RepNet-MDP, tailored to domains in which agent reputation is a key driver of the interactions between agents. The fundamentals are based on the principles of RepNet-POMDP, a framework developed by Rens et al. in 2018, but addresses its mathematical inconsistencies and alleviates its intractability by only considering fully observable environments. We furthermore use an online learning algorithm for finding approximate solutions to RepNet-MDPs. In a series of experiments, RepNet agents are shown to be able to adapt their own behavior to the past behavior and reliability of the remaining agents of the network. Finally, our work identifies a limitation of the framework in its current formulation that prevents its agents from learning in circumstances in which they are not a primary actor.
翻訳日:2022-10-24 22:13:25 公開日:2020-10-20
# 乳房密度分類のためのフェデレーション学習:実世界実装

Federated Learning for Breast Density Classification: A Real-World Implementation ( http://arxiv.org/abs/2009.01871v3 )

ライセンス: Link先を確認
Holger R. Roth, Ken Chang, Praveer Singh, Nir Neumark, Wenqi Li, Vikash Gupta, Sharut Gupta, Liangqiong Qu, Alvin Ihsani, Bernardo C. Bizzo, Yuhong Wen, Varun Buch, Meesam Shah, Felipe Kitamura, Matheus Mendon\c{c}a, Vitor Lavor, Ahmed Harouni, Colin Compas, Jesse Tetreault, Prerna Dogra, Yan Cheng, Selnur Erdal, Richard White, Behrooz Hashemian, Thomas Schultz, Miao Zhang, Adam McCarthy, B. Min Yun, Elshaimaa Sharaf, Katharina V. Hoebel, Jay B. Patel, Bryan Chen, Sean Ko, Evan Leibovitz, Etta D. Pisano, Laura Coombs, Daguang Xu, Keith J. Dreyer, Ittai Dayan, Ram C. Naidu, Mona Flores, Daniel Rubin, Jayashree Kalpathy-Cramer(参考訳) 堅牢なディープラーニングベースのモデルを構築するには、大量の多様なトレーニングデータが必要です。 本研究では,実世界の協調環境での医用画像分類モデル構築におけるフェデレーション学習(fl)の利用について検討する。 世界中の7つの臨床機関がこのFLに参加し、乳房画像・報告・データシステム(BI-RADS)に基づく乳房密度分類モデルのトレーニングを行った。 すべてのサイト(マンモグラフィーシステム,クラス分布,データセットサイズ)のデータセットにかなりの違いがあるにも関わらず,集中的なデータがないため,フェデレーションにおけるAIモデルのトレーニングに成功していることを示す。 その結果、FLを用いて訓練されたモデルは、研究所のローカルデータだけで訓練されたモデルよりも平均6.3%高い性能を示した。 さらに、他の参加者の試験データから評価した場合、モデルの一般化性は45.8%向上した。

Building robust deep learning-based models requires large quantities of diverse training data. In this study, we investigate the use of federated learning (FL) to build medical imaging classification models in a real-world collaborative setting. Seven clinical institutions from across the world joined this FL effort to train a model for breast density classification based on Breast Imaging, Reporting & Data System (BI-RADS). We show that despite substantial differences among the datasets from all sites (mammography system, class distribution, and data set size) and without centralizing data, we can successfully train AI models in federation. The results show that models trained using FL perform 6.3% on average better than their counterparts trained on an institute's local data alone. Furthermore, we show a 45.8% relative improvement in the models' generalizability when evaluated on the other participating sites' testing data.
翻訳日:2022-10-22 08:02:07 公開日:2020-10-20
# 無人タクシーのリアルタイムおよび大規模車両配置--ニューヨーク・マンハッタン島を事例として

Real-time and Large-scale Fleet Allocation of Autonomous Taxis: A Case Study in New York Manhattan Island ( http://arxiv.org/abs/2009.02762v2 )

ライセンス: Link先を確認
Yue Yang, Wencang Bao, Mohsen Ramezani, Zhe Xu(参考訳) 現在、自動運転タクシーは交通手段として有望であり、交通渋滞の緩和や交通事故の回避に役立っている。 しかし、従来のモデルは、供給の不均衡(自発的なタクシー)と需要(トリップ)、タクシーの協力不足、資源制約の満足度不足、オンラインのプラットフォーム要件に対処するために、利用可能な車両を効率的に割り当てることに失敗している。 このような急激な問題を、世界的、より遠視的な視点から把握するため、艦隊配置決定をモデル化するために制約付きマルチエージェントマルコフ決定プロセス(CMMDP)を用いており、即時報酬と将来の利益の両方を組み合わせた「動的割当問題」として定式化されたサブプロブレムに容易に分割することができる。 また,カラム生成アルゴリズムを活用して,効率と最適性を大規模に保証する。 広範な実験を通じて,提案手法は個人の効率(それぞれ12.40%,6.54%の収入と利用率)とプラットフォーム利益(4.59%の促進率)の観点から,最先端ベンチマークに対する顕著な改善を実現するだけでなく,プラットフォーム運用コストを最小限に抑えるため,時間的に変化する艦隊調整方針を明らかにしている。

Nowadays, autonomous taxis become a highly promising transportation mode, which helps relieve traffic congestion and avoid road accidents. However, it hinders the wide implementation of this service that traditional models fail to efficiently allocate the available fleet to deal with the imbalance of supply (autonomous taxis) and demand (trips), the poor cooperation of taxis, hardly satisfied resource constraints, and on-line platform's requirements. To figure out such urgent problems from a global and more farsighted view, we employ a Constrained Multi-agent Markov Decision Processes (CMMDP) to model fleet allocation decisions, which can be easily split into sub-problems formulated as a 'Dynamic assignment problem' combining both immediate rewards and future gains. We also leverage a Column Generation algorithm to guarantee the efficiency and optimality in a large scale. Through extensive experiments, the proposed approach not only achieves remarkable improvements over the state-of-the-art benchmarks in terms of the individual's efficiency (arriving at 12.40%, 6.54% rise of income and utilization, respectively) and the platform's profit (reaching 4.59% promotion) but also reveals a time-varying fleet adjustment policy to minimize the operation cost of the platform.
翻訳日:2022-10-21 08:13:38 公開日:2020-10-20
# モバイルデバイス用4ビット畳み込みニューラルネットワークの高速実装

Fast Implementation of 4-bit Convolutional Neural Networks for Mobile Devices ( http://arxiv.org/abs/2009.06488v2 )

ライセンス: Link先を確認
Anton Trusov, Elena Limonova, Dmitry Slugin, Dmitry Nikolaev, Vladimir V. Arlazarov(参考訳) 量子化された低精度ニューラルネットワークは、推論のための計算リソースが少なく、リアルタイムおよび組み込み認識システムにとって必須の高性能を提供するため、非常に人気がある。 しかし、FPGAやASICデバイスではその利点は明らかであるが、汎用プロセッサアーキテクチャは必ずしもロービット整数計算を効率的に行うことはできない。 最も頻繁に使用されるモバイル中央プロセッサの低精度ニューラルネットワークモデルは8ビット量子化ネットワークである。 しかし、多くの場合において、重みやアクティベーションに少ないビットを使うことは可能であり、唯一の問題は効率的な実装の難しさである。 量子化ニューラルネットワークのための4ビット行列乗算の効率的な実装を導入し,モバイルARMプロセッサ上で時間測定を行う。 通常の浮動小数点乗算の2.9倍のスピードアップを示し、8ビットの量子化よりも1.5倍速い。 また、MIDV-500データセット上でOCR認識のための4ビット量子化ニューラルネットワークを実演する。 4ビット量子化は95.0%の精度と48%の全体的な推論速度を与え、8ビット量子化ネットワークは95.4%の精度と39%のスピードアップを与える。 その結果、4ビット量子化はモバイルデバイスに完全に適合し、十分な精度と推論時間が得られることがわかった。

Quantized low-precision neural networks are very popular because they require less computational resources for inference and can provide high performance, which is vital for real-time and embedded recognition systems. However, their advantages are apparent for FPGA and ASIC devices, while general-purpose processor architectures are not always able to perform low-bit integer computations efficiently. The most frequently used low-precision neural network model for mobile central processors is an 8-bit quantized network. However, in a number of cases, it is possible to use fewer bits for weights and activations, and the only problem is the difficulty of efficient implementation. We introduce an efficient implementation of 4-bit matrix multiplication for quantized neural networks and perform time measurements on a mobile ARM processor. It shows 2.9 times speedup compared to standard floating-point multiplication and is 1.5 times faster than 8-bit quantized one. We also demonstrate a 4-bit quantized neural network for OCR recognition on the MIDV-500 dataset. 4-bit quantization gives 95.0% accuracy and 48% overall inference speedup, while an 8-bit quantized network gives 95.4% accuracy and 39% speedup. The results show that 4-bit quantization perfectly suits mobile devices, yielding good enough accuracy and low inference time.
翻訳日:2022-10-18 12:33:41 公開日:2020-10-20
# inceptionv3の転送学習を用いた顔マスク検出

Face Mask Detection using Transfer Learning of InceptionV3 ( http://arxiv.org/abs/2009.08369v2 )

ライセンス: Link先を確認
G. Jignesh Chowdary, Narinder Singh Punn, Sanjay Kumar Sonbhadra, Sonali Agarwal(参考訳) 世界は新型コロナウイルス(COVID-19)の急速な感染により、大きな健康危機に直面している。 世界保健機関(WHO)は、新型コロナウイルスの感染拡大を防ぐためのガイドラインをいくつか公表した。 WHOによると、新型コロナウイルス対策で最も効果的なのは、公共の場所や混雑した地域でマスクを着用していることだ。 これらの地域の人々の手動監視は非常に困難である。 本稿では,マスクを着用していない人を識別するプロセスを自動化するために,移動学習モデルを提案する。 提案されたモデルは、事前学習されたディープラーニングモデルinceptionv3を微調整することで構築される。 提案したモデルは、SMFD(Simulated Masked Face Dataset)でトレーニングされ、テストされる。 モデルのトレーニングとテストを改善するために、データの可用性の制限に対処するために画像拡張技術が採用されている。 このモデルは、トレーニング中に99.9%、テスト中に100%の精度で他の提案されたアプローチよりも優れていた。

The world is facing a huge health crisis due to the rapid transmission of coronavirus (COVID-19). Several guidelines were issued by the World Health Organization (WHO) for protection against the spread of coronavirus. According to WHO, the most effective preventive measure against COVID-19 is wearing a mask in public places and crowded areas. It is very difficult to monitor people manually in these areas. In this paper, a transfer learning model is proposed to automate the process of identifying the people who are not wearing mask. The proposed model is built by fine-tuning the pre-trained state-of-the-art deep learning model, InceptionV3. The proposed model is trained and tested on the Simulated Masked Face Dataset (SMFD). Image augmentation technique is adopted to address the limited availability of data for better training and testing of the model. The model outperformed the other recently proposed approaches by achieving an accuracy of 99.9% during training and 100% during testing.
翻訳日:2022-10-17 12:05:10 公開日:2020-10-20
# AAG: GNT-Xent Lossによる補助強化による自己改善型表現学習

AAG: Self-Supervised Representation Learning by Auxiliary Augmentation with GNT-Xent Loss ( http://arxiv.org/abs/2009.07994v2 )

ライセンス: Link先を確認
Yanlun Tu, Jianxing Feng, Yang Yang(参考訳) 自己監督型表現学習は、ラベルのないデータで学習する能力を持つ、新たな研究テーマである。 主流の自己指導型学習手法として,マニュアルアノテーションを欠いたコンピュータビジョンタスクにおいて,拡張型コントラスト学習は大きな成功を収めている。 現在の進歩にもかかわらず、既存の手法はメモリやストレージの余分なコストによって制限されることが多く、その性能は改善の余地も大きい。 本稿では,補助増強戦略とGNT-Xent損失を特徴とする自己教師付き表現学習手法,すなわちAAGを提案する。 補助増強は、画像の多様性を増大させることで、コントラスト学習の性能を高めることができる。 提案するgnt-xent損失は,定常的かつ高速なトレーニングプロセスを可能にし,競合精度をもたらす。 CIFAR10, CIFAR100, SVHNにおける従来の最先端手法よりもAAGの方が優れていることを示す実験結果が得られた。 特に、AAGは、バッチサイズ64のCIFAR10上で94.5%のトップ-1の精度を達成しており、バッチサイズ1024のSimCLRの最高結果より0.5%高い。

Self-supervised representation learning is an emerging research topic for its powerful capacity in learning with unlabeled data. As a mainstream self-supervised learning method, augmentation-based contrastive learning has achieved great success in various computer vision tasks that lack manual annotations. Despite current progress, the existing methods are often limited by extra cost on memory or storage, and their performance still has large room for improvement. Here we present a self-supervised representation learning method, namely AAG, which is featured by an auxiliary augmentation strategy and GNT-Xent loss. The auxiliary augmentation is able to promote the performance of contrastive learning by increasing the diversity of images. The proposed GNT-Xent loss enables a steady and fast training process and yields competitive accuracy. Experiment results demonstrate the superiority of AAG to previous state-of-the-art methods on CIFAR10, CIFAR100, and SVHN. Especially, AAG achieves 94.5% top-1 accuracy on CIFAR10 with batch size 64, which is 0.5% higher than the best result of SimCLR with batch size 1024.
翻訳日:2022-10-17 08:43:56 公開日:2020-10-20
# グラフニューラルネットワークを用いた異種多エージェント強化学習に向けて

Towards Heterogeneous Multi-Agent Reinforcement Learning with Graph Neural Networks ( http://arxiv.org/abs/2009.13161v3 )

ライセンス: Link先を確認
Douglas De Rizzo Meneghetti and Reinaldo Augusto da Costa Bianchi(参考訳) 本研究では,複数のエージェントクラスのポリシをヘテロジニアスなマルチエージェント強化設定で学習するニューラルネットワークアーキテクチャを提案する。 提案ネットワークは、状態のラベル付きグラフ表現を使用し、異なるエンティティクラスの異なるサイズの特徴ベクトルをエンコードし、リレーショナルグラフ畳み込み層を使用してエンティティタイプ間の異なる通信チャネルをモデル化し、異なるエージェントクラスの異なるポリシーを学習し、可能な限りパラメータを共有する。 その結果、エンティティクラス間の通信チャネルを特殊化することが、異種エンティティからなる環境で高いパフォーマンスを達成するための有望なステップであることが示されている。

This work proposes a neural network architecture that learns policies for multiple agent classes in a heterogeneous multi-agent reinforcement setting. The proposed network uses directed labeled graph representations for states, encodes feature vectors of different sizes for different entity classes, uses relational graph convolution layers to model different communication channels between entity types and learns distinct policies for different agent classes, sharing parameters wherever possible. Results have shown that specializing the communication channels between entity classes is a promising step to achieve higher performance in environments composed of heterogeneous entities.
翻訳日:2022-10-13 20:55:23 公開日:2020-10-20
# 変圧器を用いたニューラルプロフ生成におけるシステム一般化の測定

Measuring Systematic Generalization in Neural Proof Generation with Transformers ( http://arxiv.org/abs/2009.14786v2 )

ライセンス: Link先を確認
Nicolas Gontier and Koustuv Sinha and Siva Reddy and Christopher Pal(参考訳) 自然言語形式でエンコードされた知識に基づいてトレーニングされた場合、トランスフォーマー言語モデル(tlms)が推論タスクをどのように実行するかを理解することに興味があります。 自然言語における論理推論タスクにおける体系的一般化能力について検討し,一階論理証明に基づく実体間の関係を推論する。 具体的には、TLMを利用して自然言語の証明を生成する。 生成した論理的整合性証明を最終推論の精度とともに検証する。 より長いトレーニングシーケンスで評価すると,長さ一般化の問題が観察される。 しかし, より長い徹底的な証明に曝露した後に, TLM の一般化性能が向上するのが観察できる。 さらに、tlmは、前方連鎖証明を生成するのが容易であるにもかかわらず、前方連鎖証明より後方連鎖証明を用いて、より一般化できることが判明した。 我々は、証明を生成する訓練を受けていないモデルは、より長い証明に基づいて問題を一般化するのに役立つと観察する。 これはトランスフォーマーが解釈が難しい効率的な内部推論戦略を持っていることを示唆している。 これらの結果は、論理的推論の文脈におけるTLMの体系的一般化挙動を強調し、本研究が根底にある推論戦略のより深い検査を動機付けていると考えている。

We are interested in understanding how well Transformer language models (TLMs) can perform reasoning tasks when trained on knowledge encoded in the form of natural language. We investigate their systematic generalization abilities on a logical reasoning task in natural language, which involves reasoning over relationships between entities grounded in first-order logical proofs. Specifically, we perform soft theorem-proving by leveraging TLMs to generate natural language proofs. We test the generated proofs for logical consistency, along with the accuracy of the final inference. We observe length-generalization issues when evaluated on longer-than-trained sequences. However, we observe TLMs improve their generalization performance after being exposed to longer, exhaustive proofs. In addition, we discover that TLMs are able to generalize better using backward-chaining proofs compared to their forward-chaining counterparts, while they find it easier to generate forward chaining proofs. We observe that models that are not trained to generate proofs are better at generalizing to problems based on longer proofs. This suggests that Transformers have efficient internal reasoning strategies that are harder to interpret. These results highlight the systematic generalization behavior of TLMs in the context of logical reasoning, and we believe this work motivates deeper inspection of their underlying reasoning strategies.
翻訳日:2022-10-12 22:17:49 公開日:2020-10-20
# CTR予測におけるユーザ行動モデリングのためのカルマンフィルタ注意

Kalman Filtering Attention for User Behavior Modeling in CTR Prediction ( http://arxiv.org/abs/2010.00985v2 )

ライセンス: Link先を確認
Hu Liu, Jing Lu, Xiwei Zhao, Sulong Xu, Hao Peng, Yutong Liu, Zehua Zhang, Jian Li, Junsheng Jin, Yongjun Bao, Weipeng Yan(参考訳) クリックスルー率(CTR)予測は,eコマース検索エンジンの基本課題の一つである。 検索がパーソナライズされるにつれて、リッチな行動データからユーザの関心を捉える必要がある。 既存のユーザ行動モデリングアルゴリズムは、クエリに関連する振る舞いを強調し、無関係な振る舞いを抑えるために異なる注意機構を開発する。 広く研究されているにもかかわらず、これらの注意は2つの制限に悩まされている。 第一に、従来の注意は注意領域を1人のユーザーの行動のみに限定しており、ユーザーは歴史的行動に関係のない新しい要求をしばしば探すeコマースには適さない。 第二に、これらの注意は通常頻繁な行動に偏りがあるが、高周波が必ずしも大きな重要性を示すとは限らないため、不合理である。 この2つの制約に対処するために,kalman filter attention (kfatt) と呼ばれる新しい注意機構を提案する。 優先順位を組み込むことで、kfattはユーザーの振る舞いがほとんど関係しないときにグローバル統計を参照する。 また、頻繁な行動に対するバイアスを補正するために周波数キャップ機構が組み込まれている。 ベンチマークと100億規模の実運用データセットのオフライン実験は、オンラインA/Bテストと合わせて、KFAttが比較対象の最先端よりも優れていることを示している。 KFAttは、主要なeコマースウェブサイトのランキングシステムにデプロイされ、毎日数億人のアクティブユーザーの主要なトラフィックを提供している。

Click-through rate (CTR) prediction is one of the fundamental tasks for e-commerce search engines. As search becomes more personalized, it is necessary to capture the user interest from rich behavior data. Existing user behavior modeling algorithms develop different attention mechanisms to emphasize query-relevant behaviors and suppress irrelevant ones. Despite being extensively studied, these attentions still suffer from two limitations. First, conventional attentions mostly limit the attention field only to a single user's behaviors, which is not suitable in e-commerce where users often hunt for new demands that are irrelevant to any historical behaviors. Second, these attentions are usually biased towards frequent behaviors, which is unreasonable since high frequency does not necessarily indicate great importance. To tackle the two limitations, we propose a novel attention mechanism, termed Kalman Filtering Attention (KFAtt), that considers the weighted pooling in attention as a maximum a posteriori (MAP) estimation. By incorporating a priori, KFAtt resorts to global statistics when few user behaviors are relevant. Moreover, a frequency capping mechanism is incorporated to correct the bias towards frequent behaviors. Offline experiments on both benchmark and a 10 billion scale real production dataset, together with an Online A/B test, show that KFAtt outperforms all compared state-of-the-arts. KFAtt has been deployed in the ranking system of a leading e commerce website, serving the main traffic of hundreds of millions of active users everyday.
翻訳日:2022-10-12 00:39:27 公開日:2020-10-20
# 条件付きマスキングを用いた機械翻訳の推論戦略

Inference Strategies for Machine Translation with Conditional Masking ( http://arxiv.org/abs/2010.02352v2 )

ライセンス: Link先を確認
Julia Kreutzer, George Foster, Colin Cherry(参考訳) 条件付きマスク付き言語モデル(CMLM)訓練は機械翻訳などの非自己回帰的・半自己回帰的シーケンス生成タスクで成功している。 しかし、訓練されたCMLMを考えると、最良の推論戦略が何であるかは明らかではない。 マスキング推論を部分列の条件付き確率の分解として定式化し、これは性能に影響を与えないことを示し、この観点から動機付けられた多くの単純なヒューリスティックスを調査した。 標準のmask-predictアルゴリズムよりも有利なしきい値戦略を特定し,機械翻訳タスクにおけるその挙動の解析を行う。

Conditional masked language model (CMLM) training has proven successful for non-autoregressive and semi-autoregressive sequence generation tasks, such as machine translation. Given a trained CMLM, however, it is not clear what the best inference strategy is. We formulate masked inference as a factorization of conditional probabilities of partial sequences, show that this does not harm performance, and investigate a number of simple heuristics motivated by this perspective. We identify a thresholding strategy that has advantages over the standard "mask-predict" algorithm, and provide analyses of its behavior on machine translation tasks.
翻訳日:2022-10-10 21:40:04 公開日:2020-10-20
# アンバイアスド・シャロー・キーポイントとディープCNN特徴を用いた医用画像データの大規模インデックス化

Large Scale Indexing of Generic Medical Image Data using Unbiased Shallow Keypoints and Deep CNN Features ( http://arxiv.org/abs/2010.04283v2 )

ライセンス: Link先を確認
L. Chauvin, M. Ben Lazreg, J.B. Carluer, W. Wells, M. Toews(参考訳) 本稿では,従来の浅層(例えば3D SIFTキーポイント)と深層(すなわちCNN出力層)の画像特徴表現を統一した外観モデルを提案する。 新しいベイズモデルは、条件付き独立性の仮定に基づく浅層と深層の特徴を結合し、双子や双子以外の兄弟を含む人間のコネクトームプロジェクトから1010人の被験者の3dmri画像データにおいて、特定の家族および一般集団のカテゴリをインデックス化する実験によって検証される。 深部CNNベクトル要素をバイナリクラスインフォーマティブ記述子に変換する新しいドメイン適応戦略が提示される。 全処理のGPUベースの実装が提供される。 最先端のパフォーマンスは、計算複雑性、家族の特定精度、性別分類の両面で、大規模な神経画像インデックス作成において達成される。

We propose a unified appearance model accounting for traditional shallow (i.e. 3D SIFT keypoints) and deep (i.e. CNN output layers) image feature representations, encoding respectively specific, localized neuroanatomical patterns and rich global information into a single indexing and classification framework. A novel Bayesian model combines shallow and deep features based on an assumption of conditional independence and validated by experiments indexing specific family members and general group categories in 3D MRI neuroimage data of 1010 subjects from the Human Connectome Project, including twins and non-twin siblings. A novel domain adaptation strategy is presented, transforming deep CNN vectors elements into binary class-informative descriptors. A GPU-based implementation of all processing is provided. State-of-the-art performance is achieved in large-scale neuroimage indexing, both in terms of computational complexity, accuracy in identifying family members and sex classification.
翻訳日:2022-10-09 12:33:50 公開日:2020-10-20
# HCNet: セマンティックセグメンテーションのための階層型コンテキストネットワーク

HCNet: Hierarchical Context Network for Semantic Segmentation ( http://arxiv.org/abs/2010.04962v2 )

ライセンス: Link先を確認
Yanwen Chong, Congchong Nie, Yulong Tao, Xiaoshu Chen, Shaoming Pan(参考訳) グローバルコンテキスト情報は視覚理解問題、特にピクセルレベルの意味セグメンテーションにおいて不可欠である。 主流の手法は、グローバルな文脈情報をモデル化するための自己認識メカニズムを採用する。 しかし、異なるクラスに属する画素は通常、弱い特徴相関を持つ。 グローバルピクセルレベルの相関行列を無差別にモデル化することは、自己認識機構において極めて冗長である。 この問題を解決するために,強い相関を持つ等質画素と弱い相関を持つ不均質画素を微分モデル化する階層的コンテキストネットワークを提案する。 具体的には,まず,特徴マップ全体を異なるクラス単位の均質領域に分割するマルチスケール誘導型前セグメントモジュールを提案する。 各均一領域において,画素レベルの相関を捉えるために,画素コンテキストモジュールを設計する。 その後、高密度画素レベルの弱い不均一相関をモデルとする自己認識機構とは違い、領域コンテキストモジュールは各領域の統一表現を用いてスパース領域レベルの依存性をモデル化するために提案される。 細粒度画素コンテキスト特徴と粗粒度領域コンテキスト特徴を集約することにより,提案するネットワークは,グローバルコンテキスト情報を階層的にモデル化するだけでなく,複数の粒度表現を収集し,より堅牢にマルチスケールオブジェクトを識別できる。 我々は,Cityscapes と ISPRS Vaihingen データセットに対するアプローチを評価した。 Bells や Whistles がなければ、我々の手法は平均 82.8% の IoU と、Cityscapes と ISPRS Vaihingen テストセットで 91.4% の精度を実現し、最先端の結果を得た。

Global context information is vital in visual understanding problems, especially in pixel-level semantic segmentation. The mainstream methods adopt the self-attention mechanism to model global context information. However, pixels belonging to different classes usually have weak feature correlation. Modeling the global pixel-level correlation matrix indiscriminately is extremely redundant in the self-attention mechanism. In order to solve the above problem, we propose a hierarchical context network to differentially model homogeneous pixels with strong correlations and heterogeneous pixels with weak correlations. Specifically, we first propose a multi-scale guided pre-segmentation module to divide the entire feature map into different classed-based homogeneous regions. Within each homogeneous region, we design the pixel context module to capture pixel-level correlations. Subsequently, different from the self-attention mechanism that still models weak heterogeneous correlations in a dense pixel-level manner, the region context module is proposed to model sparse region-level dependencies using a unified representation of each region. Through aggregating fine-grained pixel context features and coarse-grained region context features, our proposed network can not only hierarchically model global context information but also harvest multi-granularity representations to more robustly identify multi-scale objects. We evaluate our approach on Cityscapes and the ISPRS Vaihingen dataset. Without Bells or Whistles, our approach realizes a mean IoU of 82.8% and overall accuracy of 91.4% on Cityscapes and ISPRS Vaihingen test set, achieving state-of-the-art results.
翻訳日:2022-10-08 23:22:29 公開日:2020-10-20
# リカレントニューラルネットワークを用いた資産価格予測

Asset Price Forecasting using Recurrent Neural Networks ( http://arxiv.org/abs/2010.06417v3 )

ライセンス: Link先を確認
Hamed Vaheb(参考訳) この論文は、ゴールドマン・サックス(GS)とゼネラル・エレクトリック(GE)の2つの株式の予測を主な目的としている。 株価の予測には長期記憶(LSTM)モデルを用い,GSと比較的密接な相関関係にある他の2つの株式の価格を入力した。 ARIMAのような他のモデルもベンチマークとして使用された。 株価予測にLSTMを用いる場合の実践的課題を実証した。 大きな変化の1つは、私たちが"forecasting lag"と呼ぶ反復的なラグでした。 第二の目的は、時系列予測のタスクについて、より汎用的で客観的な視点を開発することであり、アンによる任意の予測を支援するために適用することである。 このように、有効な情報を含むものを要約するために、ある基準(アフメド・ティーラブによるレビュー用紙による)で先行作を識別する試みを行う。 要約された情報は、時系列予測タスクの異なるステップに適用可能な共通用語を通して統一され、表現される。 この論文の最後の最も重要な目的は、ANNが基盤とする数学的フレームワークについて詳しく説明することである。 我々は、アンソニー・l・キャタリーニの著書 "neural networks in mathematical framework" で紹介された、ジェネリックニューラルネットワークの構造を導入し、それらのフレームワークの観点で勾配降下アルゴリズム(バックプロパゲーションを組み込んだ)を導入するフレームワークを利用する。 最終的に、私たちはこのフレームワークを、私たちが集中し実装がベースとなっているリカレントニューラルネットワークである、特定のアーキテクチャに使用しています。 本書は、その定理を主に分類ケースで証明している。 代わりに、回帰の場合の定理を証明し、これは我々の問題の場合である。

This thesis serves three primary purposes, first of which is to forecast two stocks, i.e. Goldman Sachs (GS) and General Electric (GE). In order to forecast stock prices, we used a long short-term memory (LSTM) model in which we inputted the prices of two other stocks that lie in rather close correlation with GS. Other models such as ARIMA were used as benchmark. Empirical results manifest the practical challenges when using LSTM for forecasting stocks. One of the main upheavals was a recurring lag which we called "forecasting lag". The second purpose is to develop a more general and objective perspective on the task of time series forecasting so that it could be applied to assist in an arbitrary that of forecasting by ANNs. Thus, attempts are made for distinguishing previous works by certain criteria (introduced by a review paper written by Ahmed Tealab) so as to summarise those including effective information. The summarised information is then unified and expressed through a common terminology that can be applied to different steps of a time series forecasting task. The last but not least purpose of this thesis is to elaborate on a mathematical framework on which ANNs are based. We are going to use the framework introduced in the book "Neural Networks in Mathematical Framework" by Anthony L. Caterini in which the structure of a generic neural network is introduced and the gradient descent algorithm (which incorporates backpropagation) is introduced in terms of their described framework. In the end, we use this framework for a specific architecture, which is recurrent neural networks on which we concentrated and our implementations are based. The book proves its theorems mostly for classification case. Instead, we proved theorems for regression case, which is the case of our problem.
翻訳日:2022-10-08 22:53:05 公開日:2020-10-20
# 全身ジェスチャーからの感情認識のための一般化ゼロショットフレームワーク

A Generalized Zero-Shot Framework for Emotion Recognition from Body Gestures ( http://arxiv.org/abs/2010.06362v2 )

ライセンス: Link先を確認
Jinting Wu, Yujia Zhang, Xiaoguang Zhao and Wenbin Gao(参考訳) 表情や音声からの自動感情認識は目覚ましい進歩を遂げているが,身体ジェスチャーからの感情認識は十分に研究されていない。 人々は感情を表現するために様々なボディランゲージを使うことが多く、すべての感情的な身体動作を列挙し、各カテゴリーに十分なサンプルを集めることは困難である。 したがって、人間の感情をよりよく理解するために、新しい感情的身体動作を認識することが重要である。 しかし、既存の手法では、新しい身体ジェスチャーが属する感情状態が正確に決定できない。 そこで,本稿では,新しい身体ジェスチャの感情状態を推定する3つの分枝からなる汎用的ゼロショット学習(gzsl)フレームワークを提案する。 第1のブランチはプロトタイプベースの検出器(pbd)であり、サンプルが被写体ジェスチャカテゴリに属しているかどうかを判定し、被写体カテゴリからサンプルの予測結果を取得するために使用される。 第2のブランチは、多様体正規化を備えたスタックドオートエンコーダ(StAE)で、意味表現を使用して、目に見えないカテゴリのサンプルを予測する。 上述の枝はどちらも身体ジェスチャー認識用であることに注意。 さらに、この感情分類タスクの特徴表現をよりよく学ぶために、softmax層を第3のブランチとして感情分類器を追加する。 これら3つのブランチの入力機能は、共有機能抽出ネットワーク、すなわち、自己アテンションモジュールを備えた双方向長短期記憶ネットワーク(BLSTM)によって学習される。 これら3つのブランチをサブタスクとして扱い,共同トレーニングにマルチタスク学習戦略を使用する。 感情認識データセットにおけるフレームワークの性能は,従来の感情分類法や最先端ゼロショット学習法に比べて有意に優れている。

Although automatic emotion recognition from facial expressions and speech has made remarkable progress, emotion recognition from body gestures has not been thoroughly explored. People often use a variety of body language to express emotions, and it is difficult to enumerate all emotional body gestures and collect enough samples for each category. Therefore, recognizing new emotional body gestures is critical for better understanding human emotions. However, the existing methods fail to accurately determine which emotional state a new body gesture belongs to. In order to solve this problem, we introduce a Generalized Zero-Shot Learning (GZSL) framework, which consists of three branches to infer the emotional state of the new body gestures with only their semantic descriptions. The first branch is a Prototype-Based Detector (PBD) which is used to determine whether an sample belongs to a seen body gesture category and obtain the prediction results of the samples from the seen categories. The second branch is a Stacked AutoEncoder (StAE) with manifold regularization, which utilizes semantic representations to predict samples from unseen categories. Note that both of the above branches are for body gesture recognition. We further add an emotion classifier with a softmax layer as the third branch in order to better learn the feature representations for this emotion classification task. The input features for these three branches are learned by a shared feature extraction network, i.e., a Bidirectional Long Short-Term Memory Networks (BLSTM) with a self-attention module. We treat these three branches as subtasks and use multi-task learning strategies for joint training. The performance of our framework on an emotion recognition dataset is significantly superior to the traditional method of emotion classification and state-of-the-art zero-shot learning methods.
翻訳日:2022-10-08 00:05:37 公開日:2020-10-20
# 直接結合型ニューラルアーキテクチャ探索

Direct Federated Neural Architecture Search ( http://arxiv.org/abs/2010.06223v3 )

ライセンス: Link先を確認
Anubhav Garg, Amit Kumar Saha, Debo Dutta(参考訳) Neural Architecture Search(NAS)は、ニューラルネットワークの構築方法を構築するためのメソッドの集合である。 このアイデアを,事前定義されたニューラルネットワークモデルをクライアント/デバイスデータでトレーニングしたフェデレーション学習(fl)に適用する。 このアプローチは、モデル開発者がローカルデータを観察できないため、高度に正確で効率的なモデルを構築することができないため、最適ではない。 NASは、非IIDデータのためにグローバルおよびパーソナライズされたモデルを自動的に検索できるFLを約束している。 ほとんどのnas法は計算コストが高く、探索後に微調整が必要であり、人間の介入が可能な2段階の複雑なプロセスである。 したがって、FLシナリオで典型的に見られる異種データとリソース分布で実行できるエンドツーエンドのNASが必要である。 本稿では,ハードウェアに依存しない,計算的に軽量な直接フェデレーションNASと,準備の整ったニューラルネットワークモデルを探すための1段階の手法を提案する。 以上の結果から, 従来技術の精度向上を図りながら, 資源消費の大幅な削減を図った。 これにより、最適化され、計算効率の良い連合学習システムを作る機会の窓を開く。

Neural Architecture Search (NAS) is a collection of methods to craft the way neural networks are built. We apply this idea to Federated Learning (FL), wherein predefined neural network models are trained on the client/device data. This approach is not optimal as the model developers can't observe the local data, and hence, are unable to build highly accurate and efficient models. NAS is promising for FL which can search for global and personalized models automatically for the non-IID data. Most NAS methods are computationally expensive and require fine-tuning after the search, making it a two-stage complex process with possible human intervention. Thus there is a need for end-to-end NAS which can run on the heterogeneous data and resource distribution typically seen in the FL scenario. In this paper, we present an effective approach for direct federated NAS which is hardware agnostic, computationally lightweight, and a one-stage method to search for ready-to-deploy neural network models. Our results show an order of magnitude reduction in resource consumption while edging out prior art in accuracy. This opens up a window of opportunity to create optimized and computationally efficient federated learning systems.
翻訳日:2022-10-07 22:35:48 公開日:2020-10-20
# Learned Greedy Method (LGM): スパースコーディングとそれを超える新しいニューラルアーキテクチャ

Learned Greedy Method (LGM): A Novel Neural Architecture for Sparse Coding and Beyond ( http://arxiv.org/abs/2010.07069v2 )

ライセンス: Link先を確認
Rajaei Khatib, Dror Simon and Michael Elad(参考訳) 信号と画像処理の分野は、ディープニューラルネットワークの導入によって大きく影響を受けている。 これらは、様々な現実世界の応用で成功し、技術結果の状態を入手し、よく知られた、確立された古典的手法を超越している。 彼らの素晴らしい成功にもかかわらず、これらのニューラルネットワークで使われているアーキテクチャには明確な正当化がない。 そのため、これらは通常、いかなる解釈可能性も欠く「ブラックボックス」マシンとして扱われる。 この欠点に対する建設的対策は、よく理解された反復アルゴリズムを広げることで、そのようなネットワークの体系的な設計である。 このアプローチの一般的な代表者は、反復収縮閾値保持アルゴリズム(ISTA)とその学習されたバージョン -- LISTAであり、処理された信号のスパース表現を目指している。 本稿では,このスパース符号化タスクを再検討し,同じ目標に対してグリーディ追従アルゴリズムの展開版を提案する。 より具体的には、Orthogonal-Matching-Pursuit (OMP)アルゴリズムに集中し、その展開と学習版を紹介する。 Learned Greedy Method (LGM) の主な特徴は、動的に展開されたレイヤーの数に適応できる機能と、入力に適応した表現エラーに基づく停止機構である。 提案するlgmアーキテクチャのいくつかの変種を開発し,それらのいくつかを様々な実験でテストし,その柔軟性と効率を実証した。

The fields of signal and image processing have been deeply influenced by the introduction of deep neural networks. These are successfully deployed in a wide range of real-world applications, obtaining state of the art results and surpassing well-known and well-established classical methods. Despite their impressive success, the architectures used in many of these neural networks come with no clear justification. As such, these are usually treated as "black box" machines that lack any kind of interpretability. A constructive remedy to this drawback is a systematic design of such networks by unfolding well-understood iterative algorithms. A popular representative of this approach is the Iterative Shrinkage-Thresholding Algorithm (ISTA) and its learned version -- LISTA, aiming for the sparse representations of the processed signals. In this paper we revisit this sparse coding task and propose an unfolded version of a greedy pursuit algorithm for the same goal. More specifically, we concentrate on the well-known Orthogonal-Matching-Pursuit (OMP) algorithm, and introduce its unfolded and learned version. Key features of our Learned Greedy Method (LGM) are the ability to accommodate a dynamic number of unfolded layers, and a stopping mechanism based on representation error, both adapted to the input. We develop several variants of the proposed LGM architecture and test some of them in various experiments, demonstrating their flexibility and efficiency.
翻訳日:2022-10-07 13:01:26 公開日:2020-10-20
# 感情認識ストーリーテリングのための主人公感情のモデル化

Modeling Protagonist Emotions for Emotion-Aware Storytelling ( http://arxiv.org/abs/2010.06822v2 )

ライセンス: Link先を確認
Faeze Brahman, Snigdha Chaturvedi(参考訳) 感情とその進化は、captivating storyを作る上で中心的な役割を果たす。 本稿では,ニューラルストーリーテリングにおいて,主人公の感情的軌跡をモデル化する最初の研究を行う。 我々は、主人公に与えられたストーリータイトルと希望する感情弧に従うストーリーを生成する方法をデザインする。 私たちのモデルには、Emotion Supervision(EmoSup)と2つのEmotion-Reinforceed(EmoRL)モデルがあります。 EmoRLモデルは、強化学習を通じてストーリー生成プロセスを規則化するように設計された特別な報酬を使用する。 我々の自動的および手動的評価は、これらのモデルが、ストーリーの質を犠牲にすることなく、ベースラインの手法と比較して、望ましい感情弧に従うストーリーを生成できることを示す。

Emotions and their evolution play a central role in creating a captivating story. In this paper, we present the first study on modeling the emotional trajectory of the protagonist in neural storytelling. We design methods that generate stories that adhere to given story titles and desired emotion arcs for the protagonist. Our models include Emotion Supervision (EmoSup) and two Emotion-Reinforced (EmoRL) models. The EmoRL models use special rewards designed to regularize the story generation process through reinforcement learning. Our automatic and manual evaluations demonstrate that these models are significantly better at generating stories that follow the desired emotion arcs compared to baseline methods, without sacrificing story quality.
翻訳日:2022-10-07 12:25:25 公開日:2020-10-20
# 脳波のリアルタイム脳変形推定のためのディープラーニングヘッドモデル

Deep Learning Head Model for Real-time Estimation of Entire Brain Deformation in Concussion ( http://arxiv.org/abs/2010.08527v2 )

ライセンス: Link先を確認
Xianghao Zhan, Yuzhe Liu, Samuel J. Raymond, Hossein Vahid Alizadeh, August G. Domel, Olivier Gevaert, Michael Zeineh, Gerald Grant, David B. Camarillo(参考訳) 目的: 頭部衝撃による脳の変形は、軽度の外傷性脳損傷(mTBI)など、対応する臨床結果と相関していることが近年多くの研究で示唆されている。 いくつかの有限要素 (FE) ヘッドモデルを開発し, 衝撃運動学に基づく脳の変形を計算しているが, これらのFEヘッドモデルの臨床応用は, FEシミュレーションの時間的特性のために限られている。 本研究の目的は,脳の変形計算を高速化し,臨床応用の可能性を高めることである。 方法:我々は,5層深層ニューラルネットワークと特徴工学を用いたディープラーニングヘッドモデルを提案し,ヘッドモデルシミュレーションとオンフィールド大学フットボールと複合格闘技の併用による1803個の頭部衝撃を訓練し,実験を行った。 結果:提案したディープラーニングヘッドモデルは,0.001秒未満で全脳の各要素の最大主ひずみを算出できる(平均根平均二乗誤差は0.025,標準偏差は0.002,ランダムデータ分割とモデル初期化)。 モデルの予測力に対する様々な特徴の寄与について検討し,角加速度に基づく特徴が角速度に基づく特徴よりも予測的であることが確認された。 結論: このモデルは1803個の頭部衝撃のデータセットを用いて訓練され, 脳のひずみを精度良く計算する各種スポーツに応用でき, その他の頭部衝撃のデータを組み込むことにより, さらに適用性を高めることができる。 意義:リアルタイム脳の変形モニタリングにおける潜在的な臨床応用に加え、このモデルは、研究者がFEモデルを使用するよりも多くの頭部からの脳のひずみを効率的に推定するのに役立つ。

Objective: Many recent studies have suggested that brain deformation resulting from a head impact is linked to the corresponding clinical outcome, such as mild traumatic brain injury (mTBI). Even though several finite element (FE) head models have been developed and validated to calculate brain deformation based on impact kinematics, the clinical application of these FE head models is limited due to the time-consuming nature of FE simulations. This work aims to accelerate the process of brain deformation calculation and thus improve the potential for clinical applications. Methods: We propose a deep learning head model with a five-layer deep neural network and feature engineering, and trained and tested the model on 1803 total head impacts from a combination of head model simulations and on-field college football and mixed martial arts impacts. Results: The proposed deep learning head model can calculate the maximum principal strain for every element in the entire brain in less than 0.001s (with an average root mean squared error of 0.025, and with a standard deviation of 0.002 over twenty repeats with random data partition and model initialization). The contributions of various features to the predictive power of the model were investigated, and it was noted that the features based on angular acceleration were found to be more predictive than the features based on angular velocity. Conclusion: Trained using the dataset of 1803 head impacts, this model can be applied to various sports in the calculation of brain strain with accuracy, and its applicability can even further be extended by incorporating data from other types of head impacts. Significance: In addition to the potential clinical application in real-time brain deformation monitoring, this model will help researchers estimate the brain strain from a large number of head impacts more efficiently than using FE models.
翻訳日:2022-10-06 22:22:32 公開日:2020-10-20
# エンドツーエンド音声翻訳のための適応的特徴選択

Adaptive Feature Selection for End-to-End Speech Translation ( http://arxiv.org/abs/2010.08518v2 )

ライセンス: Link先を確認
Biao Zhang, Ivan Titov, Barry Haddow, Rico Sennrich(参考訳) 音声信号の情報は均等に分配されないため、エンド・ツー・エンド(E2E)音声翻訳(ST)において、情報的特徴に焦点を合わせることを学ぶことがさらに課題となる。 本稿では,まずasrエンコーダを事前学習し,各符号化音声特徴量の重要性をsrに動的に推定するためにafsを適用する。 ASRエンコーダの上に積み重ねられたSTエンコーダは、(凍結した)ASRエンコーダからフィルタされた特徴を受信する。 我々は、L0DROP (Zhang et al., 2020) をAFSのバックボーンとみなし、時間次元と特徴次元の両方に関して音声特徴をスパース化する。 LibriSpeech En-Fr と MuST-C のベンチマークの結果、AFS は ~84% の時間的特徴を抽出することで ST の学習を促進し、平均翻訳効率は ~1.3-1.6 BLEU となり、復号速度は ~1.4倍になった。 特に、AFSはカスケードベースラインと比較してパフォーマンスギャップを減らし、BLEUスコアが18.56(データ拡張なし)のLibriSpeech En-Frで性能を上回ります。

Information in speech signals is not evenly distributed, making it an additional challenge for end-to-end (E2E) speech translation (ST) to learn to focus on informative features. In this paper, we propose adaptive feature selection (AFS) for encoder-decoder based E2E ST. We first pre-train an ASR encoder and apply AFS to dynamically estimate the importance of each encoded speech feature to SR. A ST encoder, stacked on top of the ASR encoder, then receives the filtered features from the (frozen) ASR encoder. We take L0DROP (Zhang et al., 2020) as the backbone for AFS, and adapt it to sparsify speech features with respect to both temporal and feature dimensions. Results on LibriSpeech En-Fr and MuST-C benchmarks show that AFS facilitates learning of ST by pruning out ~84% temporal features, yielding an average translation gain of ~1.3-1.6 BLEU and a decoding speedup of ~1.4x. In particular, AFS reduces the performance gap compared to the cascade baseline, and outperforms it on LibriSpeech En-Fr with a BLEU score of 18.56 (without data augmentation)
翻訳日:2022-10-06 20:40:46 公開日:2020-10-20
# CQ-VAE:不確実性推定のための座標量子VAEと腰椎MRI画像からのディスク形状解析への応用

CQ-VAE: Coordinate Quantized VAE for Uncertainty Estimation with Application to Disk Shape Analysis from Lumbar Spine MRI Images ( http://arxiv.org/abs/2010.08713v2 )

ライセンス: Link先を確認
Linchen Qian, Jiasong Chen, Timur Urakov, Weiyong Gu, Liang Liang(参考訳) 医学画像では曖昧さは避けられず、しばしば異なる人間の専門家から異なる画像解釈(例えば、オブジェクト境界やセグメンテーションマップ)をもたらす。 したがって、あいまいさを学習し、ターゲットの確率分布を出力するモデルは、診断の不確実性を評価するために医療応用に有用である。 本稿では,あいまいさの表現を学習し,確率的出力を生成するための強力な生成モデルを提案する。 我々のモデルは、CQ-VAE(Coordinate Quantization Variational Autoencoder)と呼ばれ、連続潜時空間の座標を量子化し、内部の離散確率分布を持つ離散潜時空間を用いる。 その結果、CQ−VAEからの出力分布が離散化される。 トレーニング中、Gumbel-Softmaxサンプリングは離散潜在空間をバックプロパゲーションするために使用される。 マッチングアルゴリズムは、モデル生成サンプルと"接地真実"サンプルの対応を確立するために使用され、新しいサンプルを生成する能力とトレーニングサンプルを表現する能力との間にトレードオフが生じる。 可能な出力を生成する確率的成分に加えて、我々のモデルは最良の推定を出力する決定論的経路を持つ。 本手法を腰椎椎間板画像データセット上で実演し,CQ-VAEが腰椎椎間板形状の変化と不確かさを学習できることを示す。

Ambiguity is inevitable in medical images, which often results in different image interpretations (e.g. object boundaries or segmentation maps) from different human experts. Thus, a model that learns the ambiguity and outputs a probability distribution of the target, would be valuable for medical applications to assess the uncertainty of diagnosis. In this paper, we propose a powerful generative model to learn a representation of ambiguity and to generate probabilistic outputs. Our model, named Coordinate Quantization Variational Autoencoder (CQ-VAE) employs a discrete latent space with an internal discrete probability distribution by quantizing the coordinates of a continuous latent space. As a result, the output distribution from CQ-VAE is discrete. During training, Gumbel-Softmax sampling is used to enable backpropagation through the discrete latent space. A matching algorithm is used to establish the correspondence between model-generated samples and "ground-truth" samples, which makes a trade-off between the ability to generate new samples and the ability to represent training samples. Besides these probabilistic components to generate possible outputs, our model has a deterministic path to output the best estimation. We demonstrated our method on a lumbar disk image dataset, and the results show that our CQ-VAE can learn lumbar disk shape variation and uncertainty.
翻訳日:2022-10-06 11:40:55 公開日:2020-10-20
# ローカル型インタラクティブインスタンスセグメンテーション

Localized Interactive Instance Segmentation ( http://arxiv.org/abs/2010.09140v2 )

ライセンス: Link先を確認
Soumajit Majumder, Angela Yao(参考訳) 現在のインタラクティブなインスタンスセグメンテーションでは、ユーザがオブジェクトをセグメンテーションするためのクリックを提供するとき、自由手が与えられる。 この相互作用の形式は、興味のある対象を効率的に分離するという最終目標と非常に矛盾する。 本研究では,ユーザのインタラクションがオブジェクトの近接に制限されるようなクリック方式を提案する。 また,エッジやテクスチャなどの画像構造に整合したオブジェクトに対して,より弱い局所化を生成するために,ユーザが提供するクリックの新たな変換を提案する。 提案手法とローカライズ戦略の有効性を,いくつかの標準対話型セグメンテーションベンチマークを用いた詳細な実験により実証する。

In current interactive instance segmentation works, the user is granted a free hand when providing clicks to segment an object; clicks are allowed on background pixels and other object instances far from the target object. This form of interaction is highly inconsistent with the end goal of efficiently isolating objects of interest. In our work, we propose a clicking scheme wherein user interactions are restricted to the proximity of the object. In addition, we propose a novel transformation of the user-provided clicks to generate a weak localization prior on the object which is consistent with image structures such as edges, textures etc. We demonstrate the effectiveness of our proposed clicking scheme and localization strategy through detailed experimentation in which we raise state-of-the-art on several standard interactive segmentation benchmarks.
翻訳日:2022-10-06 04:24:02 公開日:2020-10-20
# no-regret learning と mix nash equilibria: 混合しない

No-regret learning and mixed Nash equilibria: They do not mix ( http://arxiv.org/abs/2010.09514v2 )

ライセンス: Link先を確認
Lampros Flokas and Emmanouil-Vasileios Vlatakis-Gkaragkounis and Thanasis Lianeas and Panayotis Mertikopoulos and Georgios Piliouras(参考訳) 一般の$N$-playerゲームにおけるノンレグレットダイナミクスの振る舞いを理解することは、オンライン学習とゲーム理論における基本的な問題である。 フィールドにおける民間の結果は、有限ゲームにおいて、非回帰学習下のプレイの経験的頻度がゲームの粗い平衡の集合に収束することを示している。 対照的に、ダイナミクスの日々の振る舞いがゲームのナッシュ均衡とどのように相関しているかについての我々の理解はより限定的であり、特定のクラスのゲーム(ゼロサムゲームや混雑ゲームなど)で部分的な結果のみが知られている。 本稿では,no-regretダイナミクスの最もよく研究されているクラスである"after-the-regularized-leader"(ftrl)のダイナミクスについて検討し,混合nash平衡の概念がno-regret学習に対して反理論的であることを示す包括的な負の結果を確立した。 具体的には、厳密でない任意のナッシュ均衡(全てのプレイヤーが一意の最良の応答を持つ)は安定であり、FTRLの力学の下で引き寄せることができないことを示す。 この結果は学習プロセスの結果を予測する上で重要な意味を持ち、厳密な(従って純粋な)nash平衡のみがその安定な極限点として現れることは明白である。

Understanding the behavior of no-regret dynamics in general $N$-player games is a fundamental question in online learning and game theory. A folk result in the field states that, in finite games, the empirical frequency of play under no-regret learning converges to the game's set of coarse correlated equilibria. By contrast, our understanding of how the day-to-day behavior of the dynamics correlates to the game's Nash equilibria is much more limited, and only partial results are known for certain classes of games (such as zero-sum or congestion games). In this paper, we study the dynamics of "follow-the-regularized-leader" (FTRL), arguably the most well-studied class of no-regret dynamics, and we establish a sweeping negative result showing that the notion of mixed Nash equilibrium is antithetical to no-regret learning. Specifically, we show that any Nash equilibrium which is not strict (in that every player has a unique best response) cannot be stable and attracting under the dynamics of FTRL. This result has significant implications for predicting the outcome of a learning process as it shows unequivocally that only strict (and hence, pure) Nash equilibria can emerge as stable limit points thereof.
翻訳日:2022-10-05 23:27:38 公開日:2020-10-20
# DBAの盗賊:安全保証付きアドホックな分析作業下での自動運転インデックスチューニング

DBA bandits: Self-driving index tuning under ad-hoc, analytical workloads with safety guarantees ( http://arxiv.org/abs/2010.09208v2 )

ライセンス: Link先を確認
R. Malinga Perera, Bastian Oetomo, Benjamin I. P. Rubinstein, Renata Borovica-Gajic(参考訳) 物理データベース設計の自動化は、最適化された構造によって得られる大幅な性能向上のために、データベース研究に長期的な関心が保たれている。 相当な進歩にもかかわらず、今日の商用ソリューションの大部分は極めて手作業で、代表的トレーニングワークロードの特定と提供を期待されているデータベース管理者(dbas)によるオフライン呼び出しを必要とする。 残念ながら、クエリストアのような最新の進歩は、動的環境に対する限定的なサポートしか提供しない。 一般的な静的ワークロードの識別はもはや現実的ではなく、物理設計ツールはクエリオプティマイザのコスト推定(属性値の独立性やデータ分散の均一性といった非現実的な前提から考える)の影響を受けやすいままである。 我々は,dbaやクエリオプティマイザを回避し,戦略的な探索と直接的パフォーマンス観察を通じて実現可能な構造のメリットを学習する,オンラインインデックス選択の自動運転手法を提案する。 我々は,この問題を不確実性下での逐次的意思決定の1つ,特にバンディット学習環境において捉えている。 マルチアームのバンディットは、完璧な後見で最適な固定されたポリシーに収束する平均的なパフォーマンスを保証するために、探索と搾取のバランスをとる。 当社の包括的な実証結果は、シフトおよびアドホックなワークロードの75%のスピードアップと、最先端の商用チューニングツールと比較して、静的ワークロードの28%のスピードアップを示しています。

Automating physical database design has remained a long-term interest in database research due to substantial performance gains afforded by optimised structures. Despite significant progress, a majority of today's commercial solutions are highly manual, requiring offline invocation by database administrators (DBAs) who are expected to identify and supply representative training workloads. Unfortunately, the latest advancements like query stores provide only limited support for dynamic environments. This status quo is untenable: identifying representative static workloads is no longer realistic; and physical design tools remain susceptible to the query optimiser's cost misestimates (stemming from unrealistic assumptions such as attribute value independence and uniformity of data distribution). We propose a self-driving approach to online index selection that eschews the DBA and query optimiser, and instead learns the benefits of viable structures through strategic exploration and direct performance observation. We view the problem as one of sequential decision making under uncertainty, specifically within the bandit learning setting. Multi-armed bandits balance exploration and exploitation to provably guarantee average performance that converges to a fixed policy that is optimal with perfect hindsight. Our comprehensive empirical results demonstrate up to 75% speed-up on shifting and ad-hoc workloads and 28% speed-up on static workloads compared against a state-of-the-art commercial tuning tool.
翻訳日:2022-10-05 23:10:12 公開日:2020-10-20
# VQ-VAEに基づく遅延時間を用いたエンドツーエンドテキスト音声合成

End-to-End Text-to-Speech using Latent Duration based on VQ-VAE ( http://arxiv.org/abs/2010.09602v2 )

ライセンス: Link先を確認
Yusuke Yasuda, Xin Wang, Junichi Yamagishi(参考訳) テキスト音声合成(TTS)において、単語の持続時間モデリングは、堅牢で効率的なアライメントを実現するための鍵となる。 本稿では,TS に対する離散潜在変数として持続時間を組み込んだ明示的持続時間モデルを用いた新しい TTS フレームワークを提案する。 我々は条件付きVQ-VAEに基づいて,変分オートエンコーダの離散時間を扱う手法を定式化し,提案手法を正当化するための理論的説明を提供する。 本手法では,コネクショニスト時相分類(ctc)に基づく力調整器が近似後段として作用し,変分オートエンコーダではテキスト対デュレーションが前段として機能する。 提案手法をリスニングテストで評価し,ソフトアテンションや明示的持続時間モデルに基づく他のTS法と比較した。 その結果, ソフトアテンションに基づく手法 (Transformer-TTS, Tacotron2) と明示的持続時間モデルに基づく手法 (Fastspeech) の2つが評価された。

Explicit duration modeling is a key to achieving robust and efficient alignment in text-to-speech synthesis (TTS). We propose a new TTS framework using explicit duration modeling that incorporates duration as a discrete latent variable to TTS and enables joint optimization of whole modules from scratch. We formulate our method based on conditional VQ-VAE to handle discrete duration in a variational autoencoder and provide a theoretical explanation to justify our method. In our framework, a connectionist temporal classification (CTC) -based force aligner acts as the approximate posterior, and text-to-duration works as the prior in the variational autoencoder. We evaluated our proposed method with a listening test and compared it with other TTS methods based on soft-attention or explicit duration modeling. The results showed that our systems rated between soft-attention-based methods (Transformer-TTS, Tacotron2) and explicit duration modeling-based methods (Fastspeech).
翻訳日:2022-10-05 22:52:44 公開日:2020-10-20
# ワンクリックセグメンテーションのための多段融合

Multi-Stage Fusion for One-Click Segmentation ( http://arxiv.org/abs/2010.09672v2 )

ライセンス: Link先を確認
Soumajit Majumder, Ansh Khurana, Abhinav Rai, Angela Yao(参考訳) 画像に対する関心オブジェクトのセグメンテーションは、写真編集や画像解析のようなアプリケーションの重要な構成要素である。 インタラクティブな設定では、ユーザの入力を最小限に抑えながら、良好なセグメンテーションを達成する必要がある。 現在のディープラーニングベースのインタラクティブセグメンテーションアプローチでは、早期融合を使用して、画像入力層にユーザヒントを組み込む。 セグメンテーションcnnは多数の層を有するため、初期の融合は最終予測結果に対するユーザインタラクションの影響を弱める可能性がある。 そこで本研究では,対話型セグメンテーションのための多段階ガイダンスフレームワークを提案する。 ネットワークの異なるステージでユーザキューを組み込むことにより、ユーザインタラクションが最終セグメント出力により直接的な方法で影響を与えることができる。 提案フレームワークは,早期融合フレームワークと比較してパラメータ数の増加は無視できない。 標準対話型インスタンスセグメンテーションとワンクリックセグメンテーションベンチマークの広範な実験を行い,最新性能を報告する。

Segmenting objects of interest in an image is an essential building block of applications such as photo-editing and image analysis. Under interactive settings, one should achieve good segmentations while minimizing user input. Current deep learning-based interactive segmentation approaches use early fusion and incorporate user cues at the image input layer. Since segmentation CNNs have many layers, early fusion may weaken the influence of user interactions on the final prediction results. As such, we propose a new multi-stage guidance framework for interactive segmentation. By incorporating user cues at different stages of the network, we allow user interactions to impact the final segmentation output in a more direct way. Our proposed framework has a negligible increase in parameter count compared to early-fusion frameworks. We perform extensive experimentation on the standard interactive instance segmentation and one-click segmentation benchmarks and report state-of-the-art performance.
翻訳日:2022-10-05 22:16:18 公開日:2020-10-20
# 低光画像強調のための2段階無監督アプローチ

A Two-stage Unsupervised Approach for Low light Image Enhancement ( http://arxiv.org/abs/2010.09316v2 )

ライセンス: Link先を確認
Junjie Hu, Xiyue Guo, Junfeng Chen, Guanqi Liang, Fuqin Deng and Tin lun Lam(参考訳) 視覚に基づく知覚法は通常、通常の光の仮定に基づいて構築されるため、低光環境に配置する際に深刻な安全性の問題が発生する。 近年,低光度画像と正常光画像の画素方向損失をペナルティとして,低光画像を強化するディープラーニング手法が提案されている。 しかし、そのほとんどは以下の問題に悩まされている。 1) 訓練のための低光度画像と正常光画像のペアの必要性 2)暗い画像に対する性能の低下。 3)騒音の増幅。 そこで,本稿では,低光度画像強調をプリエンハンスメントとポストエンハンスメント問題に分解する2段階非教師付き手法を提案する。 第1段階では、従来のRetinex法で低光画像の事前強調を行う。 第2段階では,画像品質のさらなる向上のために,敵意トレーニングで学習したリファインメントネットワークを用いる。 実験の結果,本手法は4つのベンチマークデータセットにおいて従来の手法よりも優れていた。 また,本手法は低光度環境において特徴点マッチングと同時局在化とマッピングを著しく改善できることを示す。

As vision based perception methods are usually built on the normal light assumption, there will be a serious safety issue when deploying them into low light environments. Recently, deep learning based methods have been proposed to enhance low light images by penalizing the pixel-wise loss of low light and normal light images. However, most of them suffer from the following problems: 1) the need of pairs of low light and normal light images for training, 2) the poor performance for dark images, 3) the amplification of noise. To alleviate these problems, in this paper, we propose a two-stage unsupervised method that decomposes the low light image enhancement into a pre-enhancement and a post-refinement problem. In the first stage, we pre-enhance a low light image with a conventional Retinex based method. In the second stage, we use a refinement network learned with adversarial training for further improvement of the image quality. The experimental results show that our method outperforms previous methods on four benchmark datasets. In addition, we show that our method can significantly improve feature points matching and simultaneous localization and mapping in low light conditions.
翻訳日:2022-10-05 22:08:15 公開日:2020-10-20
# プレトレーニングによるベトナム構成構文解析に関する経験的研究

An Empirical Study for Vietnamese Constituency Parsing with Pre-training ( http://arxiv.org/abs/2010.09623v2 )

ライセンス: Link先を確認
Tuan-Vi Tran, Xuan-Thien Pham, Duc-Vu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) 本研究ではベトナムの選挙区解析にスパンベースのアプローチを用いる。 本手法は,CKY型推論アルゴリズムを用いた自己注意エンコーダアーキテクチャとチャートデコーダに従う。 ベトナムのVietTreebankとNIIVTB1のデータセットを用いた事前学習モデルXLM-RobertaとPhoBERTを用いた実験結果の比較実験を行った。 その結果、xlm-roberta を用いたモデルは、他の事前学習モデルである viettreebank 81.19% と niivtb1 85.70% よりもかなり優れた f1-score をアーカイブした。

In this work, we use a span-based approach for Vietnamese constituency parsing. Our method follows the self-attention encoder architecture and a chart decoder using a CKY-style inference algorithm. We present analyses of the experiment results of the comparison of our empirical method using pre-training models XLM-Roberta and PhoBERT on both Vietnamese datasets VietTreebank and NIIVTB1. The results show that our model with XLM-Roberta archived the significantly F1-score better than other pre-training models, VietTreebank at 81.19% and NIIVTB1 at 85.70%.
翻訳日:2022-10-05 21:49:01 公開日:2020-10-20
# 教師なしドメイン適応のための教師学生コンペティション

Teacher-Student Competition for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2010.09572v2 )

ライセンス: Link先を確認
Ruixin Xiao, Zhilei Liu, Baoyuan Wu(参考訳) ソースドメインからの監督はクラスレベルでのみ行われるため、既存の教師なしドメイン適応(UDA)メソッドは主に、ソースバイアス問題を引き起こす共有特徴抽出器からドメイン不変表現を学習する。 本稿では,教師間競争(tsc)を伴う非教師付きドメイン適応手法を提案する。 特に,対象特色空間を学習するために学生ネットワークを導入し,学生ネットワークの訓練のために,より信頼性の高い疑似ラベルを選択するための新しい競争機構を設計する。 従来のUDA方式の構造を持つ教師ネットワークを導入し、教師ネットワークと学生ネットワークは、学生ネットワークにおける対象サンプルのトレーニングを制限するための擬似ラベルを提供する。 大規模な実験により,提案したTSCフレームワークはOffice-31およびImageCLEF-DAベンチマークにおける最先端のドメイン適応手法よりも優れていた。

With the supervision from source domain only in class-level, existing unsupervised domain adaptation (UDA) methods mainly learn the domain-invariant representations from a shared feature extractor, which causes the source-bias problem. This paper proposes an unsupervised domain adaptation approach with Teacher-Student Competition (TSC). In particular, a student network is introduced to learn the target-specific feature space, and we design a novel competition mechanism to select more credible pseudo-labels for the training of student network. We introduce a teacher network with the structure of existing conventional UDA method, and both teacher and student networks compete to provide target pseudo-labels to constrain every target sample's training in student network. Extensive experiments demonstrate that our proposed TSC framework significantly outperforms the state-of-the-art domain adaptation methods on Office-31 and ImageCLEF-DA benchmarks.
翻訳日:2022-10-05 21:04:01 公開日:2020-10-20
# テキストモダリティに基づく視覚的オブジェクト表現による画像キャプション

Image Captioning with Visual Object Representations Grounded in the Textual Modality ( http://arxiv.org/abs/2010.09413v2 )

ライセンス: Link先を確認
Du\v{s}an Vari\v{s}, Katsuhito Sudoh, and Satoshi Nakamura(参考訳) 我々は,テキストと視覚的モダリティの共有組込み空間の可能性について検討中である。 対象検出ラベルのテキスト特性と抽出された視覚的対象表現の仮説表現性を活用し,その関連画像に単語や文を接頭させるのではなく,キャプションシステムの単語埋め込み空間に表現を埋め込むという,現在の傾向とは逆のアプローチを提案する。 先行研究に基づき、視覚オブジェクト表現をクラスラベルに基づいてより異種クラスタを作成するように強制し、単語埋め込み空間の意味構造をコピーすることを目的とした画像キャプション訓練目標に、さらに接地損失を適用する。 さらに,学習対象ベクトル空間投影の解析と,そのicシステム性能への影響について述べる。 性能がわずかに変化しただけで、接地されたモデルは、制約のないモデルよりも高速にトレーニングの停止基準に達し、トレーニング更新の2~3倍の時間を要する。 さらに,単語埋め込みと原対象ベクトルと投影対象ベクトルとの間の構造的相関の改善は,接地が実際に相互であることを示す。

We present our work in progress exploring the possibilities of a shared embedding space between textual and visual modality. Leveraging the textual nature of object detection labels and the hypothetical expressiveness of extracted visual object representations, we propose an approach opposite to the current trend, grounding of the representations in the word embedding space of the captioning system instead of grounding words or sentences in their associated images. Based on the previous work, we apply additional grounding losses to the image captioning training objective aiming to force visual object representations to create more heterogeneous clusters based on their class label and copy a semantic structure of the word embedding space. In addition, we provide an analysis of the learned object vector space projection and its impact on the IC system performance. With only slight change in performance, grounded models reach the stopping criterion during training faster than the unconstrained model, needing about two to three times less training updates. Additionally, an improvement in structural correlation between the word embeddings and both original and projected object vectors suggests that the grounding is actually mutual.
翻訳日:2022-10-05 20:28:22 公開日:2020-10-20
# ブロックカッツマルツ法の行列分解への応用について

On Application of Block Kaczmarz Methods in Matrix Factorization ( http://arxiv.org/abs/2010.10635v1 )

ライセンス: Link先を確認
Edwin Chau, Jamie Haddock(参考訳) 行列分解法は、高次元データ行列の低階積近似を計算し、その結果、しばしば推奨システムや協調フィルタリングアプリケーションに使用される。 しかし、このタスクの多くのアルゴリズムは、計算に時間がかかり、メモリを消費する最小二乗解法を用いる。 本稿では,行列因数分解の共通交替スキームにおける最小二乗部分ルーチンを置き換えるブロックKaczmarzソルバについて論じ,検証する。 この変種は、アルゴリズムの性能を著しく高速化するために、分解誤差をわずかに増加させる。 そのため、実行時と動作中のメモリ要件のごく一部に対して、最小二乗解法に匹敵するソリューションを生成するブロックサイズを見つけます。

Matrix factorization techniques compute low-rank product approximations of high dimensional data matrices and as a result, are often employed in recommender systems and collaborative filtering applications. However, many algorithms for this task utilize an exact least-squares solver whose computation is time consuming and memory-expensive. In this paper we discuss and test a block Kaczmarz solver that replaces the least-squares subroutine in the common alternating scheme for matrix factorization. This variant trades a small increase in factorization error for significantly faster algorithmic performance. In doing so we find block sizes that produce a solution comparable to that of the least-squares solver for only a fraction of the runtime and working memory requirement.
翻訳日:2022-10-05 08:10:32 公開日:2020-10-20
# キャップ不一致の実用的計算法

A practical algorithm to calculate Cap Discrepancy ( http://arxiv.org/abs/2010.10454v1 )

ライセンス: Link先を確認
Milad Bakhshizadeh, Ali Kamalinejad, Mina Latifi(参考訳) 点の均一分布は長い間研究者にとって関心があり、数学と計算機科学の様々な分野に応用されている。 与えられた分布の均一性を評価するためのよく知られた方法の1つは、一様分布と、与えられた集合の点に質量点を置くことによって与えられる経験的分布との差を評価する不一致である。 離散性は均一性を測定するのに非常に有用であるが、正確に計算することは困難である。 We introduce the concept of directed Discrepancy based on which we have developed an algorithm, called Directional Discrepancy, that can offer accurate approximation for the cap Discrepancy of a finite set distributed on the unit Sphere, $\mathbb{S}^2.$ We also analyze the time complexity of the Directional Discrepancy algorithm precisely; and practically evaluate its capacity by calculating the Cap Discrepancy of a specific distribution, Polar Coordinates, which aims to distribute points uniformly on the Sphere.

Uniform distribution of the points has been of interest to researchers for a long time and has applications in different areas of Mathematics and Computer Science. One of the well-known measures to evaluate the uniformity of a given distribution is Discrepancy, which assesses the difference between the Uniform distribution and the empirical distribution given by putting mass points at the points of the given set. While Discrepancy is very useful to measure uniformity, it is computationally challenging to be calculated accurately. We introduce the concept of directed Discrepancy based on which we have developed an algorithm, called Directional Discrepancy, that can offer accurate approximation for the cap Discrepancy of a finite set distributed on the unit Sphere, $\mathbb{S}^2.$ We also analyze the time complexity of the Directional Discrepancy algorithm precisely; and practically evaluate its capacity by calculating the Cap Discrepancy of a specific distribution, Polar Coordinates, which aims to distribute points uniformly on the Sphere.
翻訳日:2022-10-05 08:09:57 公開日:2020-10-20
# 多体領域とグラフ信号解析による前方移動時の深呼吸の同定

Identification of deep breath while moving forward based on multiple body regions and graph signal analysis ( http://arxiv.org/abs/2010.11734v1 )

ライセンス: Link先を確認
Yunlu Wang, Cheng Yang, Menghan Hu, Jian Zhang, Qingli Li, Guangtao Zhai, Xiao-Ping Zhang(参考訳) 本稿では,世界深度カメラを通り過ぎているときの深呼吸を自動的に識別できる非閉塞性ソリューションを提案する。 既存の非接触呼吸評価は、人体が比較的静止している場合に制限された条件下で満足な結果が得られる。 誰かが前進すると、深度カメラによって検出された呼吸信号はトランクの変位や変形の信号の中に隠され、信号長は短い滞在時間のために短く、モデルを確立する上で大きな課題となる。 これらの課題を克服するために,複数の関心領域(ROI)に基づく信号抽出と選択手法を提案し,深度映像からの呼吸を知らせる信号を自動的に取得する。 その後、時空間フィルタとしてグラフ信号解析(GSA)を採用し、息に関係のない成分を除去する。 最後に、選択された呼吸変形信号に基づいて深呼吸を識別する分類器を確立する。 検証実験において,提案手法は,75.5%,76.2%,75.0%,75.2%の精度,精度,リコール,f1をそれぞれ上回っている。 このシステムは、身体的または精神的なトラブルを経験している人のために、タイムリーでユビキタスな支援を提供するために、公共の場所に拡張することができる。

This paper presents an unobtrusive solution that can automatically identify deep breath when a person is walking past the global depth camera. Existing non-contact breath assessments achieve satisfactory results under restricted conditions when human body stays relatively still. When someone moves forward, the breath signals detected by depth camera are hidden within signals of trunk displacement and deformation, and the signal length is short due to the short stay time, posing great challenges for us to establish models. To overcome these challenges, multiple region of interests (ROIs) based signal extraction and selection method is proposed to automatically obtain the signal informative to breath from depth video. Subsequently, graph signal analysis (GSA) is adopted as a spatial-temporal filter to wipe the components unrelated to breath. Finally, a classifier for identifying deep breath is established based on the selected breath-informative signal. In validation experiments, the proposed approach outperforms the comparative methods with the accuracy, precision, recall and F1 of 75.5%, 76.2%, 75.0% and 75.2%, respectively. This system can be extended to public places to provide timely and ubiquitous help for those who may have or are going through physical or mental trouble.
翻訳日:2022-10-05 08:08:01 公開日:2020-10-20
# マルチスケールテンポラルコンボリューションを用いた小容量文字スポッティング

Small-Footprint Keyword Spotting with Multi-Scale Temporal Convolution ( http://arxiv.org/abs/2010.09960v1 )

ライセンス: Link先を確認
Ximin Li, Xiaodong Wei, Xiaowei Qin(参考訳) キーワードスポッティング(KWS)は、スマートデバイス端末やサービスロボットにおける人間とコンピュータのインタラクションにおいて重要な役割を果たす。 KWSタスクの小さなフットプリントと高い精度のトレードオフを達成することは依然として困難である。 本稿では,スモールプリントキーワードスポッティングタスクにおけるマルチスケール時空間モデリングの応用について検討する。 本稿では,カーネルサイズが異なる複数の時相畳み込みフィルタからなるcnnブロックであるマルチブランチ時相畳み込みモジュール(mtconv)を提案する。 さらに、時間的および深度的な畳み込みを利用して、KWSシステム用に時間的効率の良いニューラルネットワーク(TENet)を設計する。 目的モデルに基づいて,性能向上のためにトレーニング可能な標準時相畳み込み層をmtconvに置き換える。 推論段階では、MTConvはベース畳み込みアーキテクチャに等価に変換でき、基本モデルと比較して余分なパラメータや計算コストが加算されない。 Google Speech Command Datasetの結果は、MTConvでトレーニングされたモデルの1つが、たった100Kパラメータで96.8%の精度で実行されていることを示している。

Keyword Spotting (KWS) plays a vital role in human-computer interaction for smart on-device terminals and service robots. It remains challenging to achieve the trade-off between small footprint and high accuracy for KWS task. In this paper, we explore the application of multi-scale temporal modeling to the small-footprint keyword spotting task. We propose a multi-branch temporal convolution module (MTConv), a CNN block consisting of multiple temporal convolution filters with different kernel sizes, which enriches temporal feature space. Besides, taking advantage of temporal and depthwise convolution, a temporal efficient neural network (TENet) is designed for KWS system. Based on the purposed model, we replace standard temporal convolution layers with MTConvs that can be trained for better performance. While at the inference stage, the MTConv can be equivalently converted to the base convolution architecture, so that no extra parameters and computational costs are added compared to the base model. The results on Google Speech Command Dataset show that one of our models trained with MTConv performs the accuracy of 96.8% with only 100K parameters.
翻訳日:2022-10-05 08:07:40 公開日:2020-10-20
# スペクトログラム再構成が自動音楽転写に及ぼす影響 : 書き起こし精度向上のための代替的アプローチ

The Effect of Spectrogram Reconstruction on Automatic Music Transcription: An Alternative Approach to Improve Transcription Accuracy ( http://arxiv.org/abs/2010.09969v1 )

ライセンス: Link先を確認
Kin Wai Cheuk, Yin-Jyun Luo, Emmanouil Benetos, Dorien Herremans(参考訳) 最先端の自動転写(AMT)モデルのほとんどは、メインの転写タスクを、オンセット予測やオフセット予測などのサブタスクに分解し、オンセットおよびオフセットラベルでトレーニングする。 これらの予測をまとめて入力として、ピッチラベルで別のモデルを訓練し、最終的な転写を得る。 我々は、スペクトル再構成損失を伴うピッチラベルのみを使用し、教師付きサブタスクを導入することなく、このモデルがどこまで進めるかを探索する。 本稿では,最先端の転写精度の実現を目標とせず,スペクトル再構成がATTモデルに与える影響について検討する。 提案するモデルは2つのu-netから成り,第1のu-netはスペクトログラムを後行グラフに書き起こし,第2のu-netは後行グラフをスペクトログラムに戻す。 元のスペクトログラムと再構成されたスペクトログラムの間に再構成損失を適用し、第2のu-netが復元のみに集中するように制約する。 私たちは、MAPS、MAESTRO、MusicNetの3つの異なるデータセットでモデルをトレーニングします。 本実験により,再建部を含まないモデルと比較した場合,再建部を付加することで,ノートレベルの転写精度が向上することが示された。 さらに、フレームレベルの精度を最先端モデルよりも高くすることもできる。 U-netが学習した特徴マップにはグリッド状構造(ベースラインモデルには存在しない)が含まれており、この構造は復元損失の存在下では、おそらく時間軸と周波数軸の両方に沿って数えようとしているため、ノートレベルの転写精度が高い。

Most of the state-of-the-art automatic music transcription (AMT) models break down the main transcription task into sub-tasks such as onset prediction and offset prediction and train them with onset and offset labels. These predictions are then concatenated together and used as the input to train another model with the pitch labels to obtain the final transcription. We attempt to use only the pitch labels (together with spectrogram reconstruction loss) and explore how far this model can go without introducing supervised sub-tasks. In this paper, we do not aim at achieving state-of-the-art transcription accuracy, instead, we explore the effect that spectrogram reconstruction has on our AMT model. Our proposed model consists of two U-nets: the first U-net transcribes the spectrogram into a posteriorgram, and a second U-net transforms the posteriorgram back into a spectrogram. A reconstruction loss is applied between the original spectrogram and the reconstructed spectrogram to constrain the second U-net to focus only on reconstruction. We train our model on three different datasets: MAPS, MAESTRO, and MusicNet. Our experiments show that adding the reconstruction loss can generally improve the note-level transcription accuracy when compared to the same model without the reconstruction part. Moreover, it can also boost the frame-level precision to be higher than the state-of-the-art models. The feature maps learned by our U-net contain gridlike structures (not present in the baseline model) which implies that with the presence of the reconstruction loss, the model is probably trying to count along both the time and frequency axis, resulting in a higher note-level transcription accuracy.
翻訳日:2022-10-05 08:07:22 公開日:2020-10-20
# ハイブリッドFSO/RF非地上ネットワークのためのLEO衛星の統合とマルチUAV強化学習

Integrating LEO Satellites and Multi-UAV Reinforcement Learning for Hybrid FSO/RF Non-Terrestrial Networks ( http://arxiv.org/abs/2010.10138v1 )

ライセンス: Link先を確認
Ju-Hyung Lee and Jihong Park and Mehdi Bennis and Young-Chai Ko(参考訳) 低高度地球軌道(LEO)衛星(SAT)と無人航空機(UAV)のメガコンステレーションは、第5世代(5G)を超える高速・長距離通信の実現を約束している。 本稿では,地球外ネットワーク(NTN)におけるSATとUAVの統合について,ミリ波 (mmWave) 無線周波数 (RF) または自由空間光 (FSO) リンクを用いて,SATとUAVリレー間のパケット転送の問題について検討する。 通信効率を最大化するためには、軌道SATとUAVの移動軌道とのリアルタイム関連を適切なFSO/RFリンクで最適化する必要がある。 この難しさを克服するために,我々は,新しい行動次元削減技術を用いて,マルチエージェント深部強化学習(MARL)にこの問題を提起する。 シミュレーションの結果, SAT-UAV統合方式は固定地上中継方式のベンチマーク方式に比べて1.99倍高いスループットを実現している。 提案手法は,スループットを向上しながら,UAV制御エネルギーを削減し,スループットを最大化する基準法よりも2.25倍高いエネルギー効率を実現する。 最後に,提案手法はfso/rfリンクのハイブリッド化により,最大62.56倍のピークスループットと21.09倍の最悪ケーススループットを実現し,sat-uav関連,uavトラジェクタ,ハイブリッドfso/rfリンクを5g ntnsで共同設計することの重要性を強調した。

A mega-constellation of low-altitude earth orbit (LEO) satellites (SATs) and burgeoning unmanned aerial vehicles (UAVs) are promising enablers for high-speed and long-distance communications in beyond fifth-generation (5G) systems. Integrating SATs and UAVs within a non-terrestrial network (NTN), in this article we investigate the problem of forwarding packets between two faraway ground terminals through SAT and UAV relays using either millimeter-wave (mmWave) radio-frequency (RF) or free-space optical (FSO) link. Towards maximizing the communication efficiency, the real-time associations with orbiting SATs and the moving trajectories of UAVs should be optimized with suitable FSO/RF links, which is challenging due to the time-varying network topology and a huge number of possible control actions. To overcome the difficulty, we lift this problem to multi-agent deep reinforcement learning (MARL) with a novel action dimensionality reduction technique. Simulation results corroborate that our proposed SAT-UAV integrated scheme achieves 1.99x higher end-to-end sum throughput compared to a benchmark scheme with fixed ground relays. While improving the throughput, our proposed scheme also aims to reduce the UAV control energy, yielding 2.25x higher energy efficiency than a baseline method only maximizing the throughput. Lastly, thanks to utilizing hybrid FSO/RF links, the proposed scheme achieves up to 62.56x higher peak throughput and 21.09x higher worst-case throughput than the cases utilizing either RF or FSO links, highlighting the importance of co-designing SAT-UAV associations, UAV trajectories, and hybrid FSO/RF links in beyond-5G NTNs.
翻訳日:2022-10-05 08:06:38 公開日:2020-10-20
# 東京大学におけるVoxCeleb Speaker Recognition Challenge2020参加報告

Tongji University Undergraduate Team for the VoxCeleb Speaker Recognition Challenge2020 ( http://arxiv.org/abs/2010.10145v1 )

ライセンス: Link先を確認
Shufan Shen, Ran Miao, Yi Wang, Zhihua Wei(参考訳) 本報告では,Tongji Universityの学部生が,Interspeech 2020のVoxCeleb Speaker Recognition Challenge (VoxSRC) 2020のCLOSEトラックに登録した。 RSBU-CW モジュールを ResNet34 フレームワークに適用し,ネットワークのデノーミング能力の向上と,複雑な環境下での話者検証タスクの完了を図った。 CLOSEトラックの2つの選択されたシステムの融合は、チャレンジ評価セットで0.2973 DCFと4.9700\% EERを達成する。

In this report, we discribe the submission of Tongji University undergraduate team to the CLOSE track of the VoxCeleb Speaker Recognition Challenge (VoxSRC) 2020 at Interspeech 2020. We applied the RSBU-CW module to the ResNet34 framework to improve the denoising ability of the network and better complete the speaker verification task in a complex environment.We trained two variants of ResNet,used score fusion and data-augmentation methods to improve the performance of the model. Our fusion of two selected systems for the CLOSE track achieves 0.2973 DCF and 4.9700\% EER on the challenge evaluation set.
翻訳日:2022-10-05 08:06:03 公開日:2020-10-20
# 効率的なオンデバイス偽トリガー緩和のための知識伝達

Knowledge Transfer for Efficient On-device False Trigger Mitigation ( http://arxiv.org/abs/2010.10591v1 )

ライセンス: Link先を確認
Pranay Dighe, Erik Marchi, Srikanth Vishnubhotla, Sachin Kajarekar, Devang Naik(参考訳) 本稿では,ある発話が音声対応スマートアシスタントデバイスに向けられているか否かを判断するタスクに対処する。 undirected utteranceは"false trigger"と呼ばれ、false trigger mitigation(ftm)はプライバシー中心の非意図的なスマートアシスタントを設計するために不可欠である。 発話の指向性は、自動音声認識(asr)を実行し、asr書き起こしを分析してユーザの意図を決定することで識別することができる。 しかし、誤ったトリガーの場合、音声をASRで書き起こすことは、強く望ましくない。 この問題を軽減するため,音声からASRの書き起こしを明示的に生成することなく,音響特徴から直接ユーザ意図を決定するLSTMベースのFTMアーキテクチャを提案する。 提案したモデルは小さなフットプリントであり、限られた計算資源でデバイス上で実行できる。 トレーニング中、モデルパラメータは、より正確な自己注意グラフニューラルネットワークモデルが教師として機能する知識伝達アプローチを用いて最適化される。 音声スニペット全体を考慮すれば,99%の真正率(TPR)で偽トリガーの87%を軽減し,ストリーミングオーディオシナリオでは,同じTPRを達成しながら拒否する前に,偽トリガーオーディオの1.69秒のみを受信する。

In this paper, we address the task of determining whether a given utterance is directed towards a voice-enabled smart-assistant device or not. An undirected utterance is termed as a "false trigger" and false trigger mitigation (FTM) is essential for designing a privacy-centric non-intrusive smart assistant. The directedness of an utterance can be identified by running automatic speech recognition (ASR) on it and determining the user intent by analyzing the ASR transcript. But in case of a false trigger, transcribing the audio using ASR itself is strongly undesirable. To alleviate this issue, we propose an LSTM-based FTM architecture which determines the user intent from acoustic features directly without explicitly generating ASR transcripts from the audio. The proposed models are small footprint and can be run on-device with limited computational resources. During training, the model parameters are optimized using a knowledge transfer approach where a more accurate self-attention graph neural network model serves as the teacher. Given the whole audio snippets, our approach mitigates 87% of false triggers at 99% true positive rate (TPR), and in a streaming audio scenario, the system listens to only 1.69s of the false trigger audio before rejecting it while achieving the same TPR.
翻訳日:2022-10-05 08:05:14 公開日:2020-10-20
# 深層強化学習を用いたサービスベースレーダ資源管理の質

Quality of service based radar resource management using deep reinforcement learning ( http://arxiv.org/abs/2010.10210v1 )

ライセンス: Link先を確認
Sebastian Durst and Stefan Br\"uggenwirth(参考訳) インテリジェントレーダー資源管理は、認知レーダーシステムの開発において重要なマイルストーンである。 q-ram(quality of service based resource allocation model)は、インテリジェントな意思決定を可能にするフレームワークだが、現代のレーダーシステムでは、従来のソリューションではリアルタイムアプリケーションでは不十分である。 本稿では,高次強化学習を用いたq-ramレーダ資源管理問題の解法を提案する。

An intelligent radar resource management is an essential milestone in the development of a cognitive radar system. The quality of service based resource allocation model (Q-RAM) is a framework allowing for intelligent decision making but classical solutions seem insufficient for real-time application in a modern radar system. In this paper, we present a solution for the Q-RAM radar resource management problem using deep reinforcement learning considerably improving on runtime performance.
翻訳日:2022-10-05 07:59:09 公開日:2020-10-20
# 12誘導心電図自動診断のための解釈可能な深層学習

Interpretable Deep Learning for Automatic Diagnosis of 12-lead Electrocardiogram ( http://arxiv.org/abs/2010.10328v1 )

ライセンス: Link先を確認
Dongdong Zhang, Xiaohui Yuan and Ping Zhang(参考訳) 心電図(ECG)は、心血管疾患の診断において、信頼性が高く非侵襲的なアプローチである。 心電図検査の急激な増加と心臓科医の欠如により,心電図信号の正確かつ自動診断がホットな研究トピックとなっている。 深層学習手法は、予測医療タスクにおいて有望な結果を示してきた。 本稿では,12誘導心電図記録における心不整脈のマルチラベル分類のためのディープニューラルネットワークを開発した。 パブリック12誘導ECGデータセットを用いた実験により,本手法の有効性が示された。 提案モデルでは、受信機動作特性曲線(AUC)0.970、F1スコア0.813の平均領域を達成した。 深層モデルでは,抽出したエキスパート特徴から学習した4つの機械学習手法よりも優れた性能を示した。 さらに、シングルリードECGでトレーニングされたディープモデルは、すべての12のリードを同時に使用するよりもパフォーマンスが低い。 最高パフォーマンスのリードは12リード中、リードi、avr、v5である。 最後に,Shapley Additive exPlanations (SHAP)法を用いて,患者レベルと人口レベルのモデル行動の解釈を行った。 私たちのコードはhttps://github.com/onlyzdd/ecg-diagnosisで無料で利用できます。

Electrocardiogram (ECG) is a widely used reliable, non-invasive approach for cardiovascular disease diagnosis. With the rapid growth of ECG examinations and the insufficiency of cardiologists, accurate and automatic diagnosis of ECG signals has become a hot research topic. Deep learning methods have demonstrated promising results in predictive healthcare tasks. In this paper, we developed a deep neural network for multi-label classification of cardiac arrhythmias in 12-lead ECG recordings. Experiments on a public 12-lead ECG dataset showed the effectiveness of our method. The proposed model achieved an average area under the receiver operating characteristic curve (AUC) of 0.970 and an average F1 score of 0.813. The deep model showed superior performance than 4 machine learning methods learned from extracted expert features. Besides, the deep models trained on single-lead ECGs produce lower performance than using all 12 leads simultaneously. The best-performing leads are lead I, aVR, and V5 among 12 leads. Finally, we employed the SHapley Additive exPlanations (SHAP) method to interpret the model's behavior at both patient level and population level. Our code is freely available at https://github.com/onlyzdd/ecg-diagnosis.
翻訳日:2022-10-05 07:58:36 公開日:2020-10-20
# 連結車両のレーンマージコーディネーションにおける深部強化学習

Deep Reinforcement Learning in Lane Merge Coordination for Connected Vehicles ( http://arxiv.org/abs/2010.10567v1 )

ライセンス: Link先を確認
Omar Nassef, Luis Sequeira, Elias Salam and Toktam Mahmoodi(参考訳) 本稿では,連結車両における集中型システムを活用した車線マージコーディネートのためのフレームワークを提案する。 道路上の連結車両への軌道レコメンデーションの配信は、交通オーケストレーションとデータフュージョンを主要なコンポーネントとして用いている。 深層強化学習とデータ分析は、これらの提案を考慮し、連結車両の軌道推奨を予測するために使用される。 その結果,実世界マージシナリオでディープqネットワークを用いた場合,トラヒックオーケストレータの適応性が浮き彫りになる。 また、異なる強化学習モデルの性能比較とキーパフォーマンス指標(KPI)に対する評価について述べる。

In this paper, a framework for lane merge coordination is presented utilising a centralised system, for connected vehicles. The delivery of trajectory recommendations to the connected vehicles on the road is based on a Traffic Orchestrator and a Data Fusion as the main components. Deep Reinforcement Learning and data analysis is used to predict trajectory recommendations for connected vehicles, taking into account unconnected vehicles for those suggestions. The results highlight the adaptability of the Traffic Orchestrator, when employing Dueling Deep Q-Network in an unseen real world merging scenario. A performance comparison of different reinforcement learning models and evaluation against Key Performance Indicator (KPI) are also presented.
翻訳日:2022-10-05 07:58:21 公開日:2020-10-20
# 伝達学習を用いたコンピュータシステム間の畳み込みニューラルネットワークの性能最適化

Optimising the Performance of Convolutional Neural Networks across Computing Systems using Transfer Learning ( http://arxiv.org/abs/2010.10621v1 )

ライセンス: Link先を確認
Rik Mulder, Valentin Radu, Christophe Dubach(参考訳) ニューラルネットワークを実装するための畳み込みルーチン(プリミティブ)の選択は、特定のハードウェアプラットフォームにおける推論パフォーマンス(実行速度)に大きな影響を与える。 ニューラルネットワークをプリミティブ選択により最適化するために、ネットワークの各層に対して最適なプリミティブを識別する。 このプロセスは、ターゲットプラットフォーム上での実行時間を測定するために、各レイヤの設定で利用可能なすべてのプリミティブを反復して、長いプロファイリングステージを必要とする。 各プリミティブは異なる方法でハードウェアを利用するため、他のプラットフォームに移行する際に最高のパフォーマンスを得るためには、新しいプロファイリングが必要である。 本研究では,この高額なプロファイリングステージを,機械学習によるパフォーマンスモデリング手法に置き換えることを提案する。 我々のアプローチは最適化時間を劇的に短縮する。 トレーニング後、我々のパフォーマンスモデルは任意のレイヤ構成における畳み込みプリミティブのパフォーマンスを推定できる。 プリミティブ選択による大規模ニューラルネットワークの実行を最適化する時間は、数時間から秒に短縮される。 私たちのパフォーマンスモデルは、他のターゲットプラットフォームに簡単に転送できます。 我々は、Intelプラットフォーム上でパフォーマンスモデルをトレーニングし、最小プロファイルサンプルでAMDおよびARMプロセッサデバイスへの転送学習を実行することでこれを実証する。

The choice of convolutional routines (primitives) to implement neural networks has a tremendous impact on their inference performance (execution speed) on a given hardware platform. To optimise a neural network by primitive selection, the optimal primitive is identified for each layer of the network. This process requires a lengthy profiling stage, iterating over all the available primitives for each layer configuration, to measure their execution time on the target platform. Because each primitive exploits the hardware in different ways, new profiling is needed to obtain the best performance when moving to another platform. In this work, we propose to replace this prohibitively expensive profiling stage with a machine learning based approach of performance modeling. Our approach speeds up the optimisation time drastically. After training, our performance model can estimate the performance of convolutional primitives in any layer configuration. The time to optimise the execution of large neural networks via primitive selection is reduced from hours to just seconds. Our performance model is easily transferable to other target platforms. We demonstrate this by training a performance model on an Intel platform and performing transfer learning to AMD and ARM processor devices with minimal profiled samples.
翻訳日:2022-10-05 07:58:10 公開日:2020-10-20
# 抽出物理特徴量を用いた2次元部分微分方程式のデータ駆動同定

Data-driven Identification of 2D Partial Differential Equations using extracted physical features ( http://arxiv.org/abs/2010.10626v1 )

ライセンス: Link先を確認
Kazem Meidani, Amir Barati Farimani(参考訳) 多くの科学現象は偏微分方程式(pdes)によってモデル化される。 データ収集ツールの開発と機械学習(ML)技術の進歩は、実験的に観察されたデータから支配方程式をデータ駆動で識別する機会を生み出した。 本研究では,2次元時空間データから方程式に係わる項を検出するML法を提案する。 データサンプルからロバストで有用な物理的特徴を抽出し、方程式の各数学的項によって課される特定の振る舞いを表現する。 従来のモデルと比較して、このアイデアは異なる順序の時間微分を持つ2次元方程式を発見し、モデルが訓練されていない新しい基礎物理学を特定できる。 さらに、このモデルは数値的な微分を避けながら、小さな低解像度のデータを扱える。 その結果, 3次元畳み込みニューラルネットワーク(3D CNN)で検出された特徴と比較して, 先行知識に基づいて抽出した特徴の堅牢性を示した。 本研究では特にPDEについて検討するが,提案手法の考え方は様々なPDEの信頼性確認のために拡張することができる。

Many scientific phenomena are modeled by Partial Differential Equations (PDEs). The development of data gathering tools along with the advances in machine learning (ML) techniques have raised opportunities for data-driven identification of governing equations from experimentally observed data. We propose an ML method to discover the terms involved in the equation from two-dimensional spatiotemporal data. Robust and useful physical features are extracted from data samples to represent the specific behaviors imposed by each mathematical term in the equation. Compared to the previous models, this idea provides us with the ability to discover 2D equations with time derivatives of different orders, and also to identify new underlying physics on which the model has not been trained. Moreover, the model can work with small sets of low-resolution data while avoiding numerical differentiations. The results indicate robustness of the features extracted based on prior knowledge in comparison to automatically detected features by a Three-dimensional Convolutional Neural Network (3D CNN) given the same amounts of data. Although particular PDEs are studied in this work, the idea of the proposed approach could be extended for reliable identification of various PDEs.
翻訳日:2022-10-05 07:57:52 公開日:2020-10-20
# 量子テンソルネットワーク,確率過程,および重み付きオートマタ

Quantum Tensor Networks, Stochastic Processes, and Weighted Automata ( http://arxiv.org/abs/2010.10653v1 )

ライセンス: Link先を確認
Siddarth Srinivasan, Sandesh Adhikary, Jacob Miller, Guillaume Rabusseau, Byron Boots(参考訳) シーケンス上の結合確率分布のモデル化は多くの観点から研究されている。 物理学コミュニティは、多体系を牽引的にモデル化する必要性から、確率的モデリングのためのテンソルトレイン分解である行列積状態を開発した。 しかし、同様のモデルは確率過程や重み付けされたオートマトン文学でも研究されており、これらの仕事が相互にどのように関係しているかはほとんど研究されていない。 このギャップに対処するために、一般的な量子テンソルネットワークモデルの定常あるいは均一なバージョンが、無限に長い列の極限において、確率過程や重み付きオートマトン文学において同等の表現を持つことを示す。 これら3つのコミュニティで使用されるモデル間の等価性を示す。 (i)行列積状態、ボルンマシン、量子テンソルネットワークの文献から局所的に精製された状態の均一な変種。 (ii)確率過程文献からの予測状態表現、隠れマルコフモデル、ノルム可観測作用素モデル、隠れ量子マルコフモデル (iii)形式言語文献からの確率的重み付きオートマトン、確率的オートマトン、二次オートマトン このような接続は、ある領域で開発され、別の領域で適用される結果と方法の扉を開くことができる。

Modeling joint probability distributions over sequences has been studied from many perspectives. The physics community developed matrix product states, a tensor-train decomposition for probabilistic modeling, motivated by the need to tractably model many-body systems. But similar models have also been studied in the stochastic processes and weighted automata literature, with little work on how these bodies of work relate to each other. We address this gap by showing how stationary or uniform versions of popular quantum tensor network models have equivalent representations in the stochastic processes and weighted automata literature, in the limit of infinitely long sequences. We demonstrate several equivalence results between models used in these three communities: (i) uniform variants of matrix product states, Born machines and locally purified states from the quantum tensor networks literature, (ii) predictive state representations, hidden Markov models, norm-observable operator models and hidden quantum Markov models from the stochastic process literature,and (iii) stochastic weighted automata, probabilistic automata and quadratic automata from the formal languages literature. Such connections may open the door for results and methods developed in one area to be applied in another.
翻訳日:2022-10-05 07:57:17 公開日:2020-10-20
# 低用量胸郭CTによる領域別辞書作成

Region-specific Dictionary Learning-based Low-dose Thoracic CT Reconstruction ( http://arxiv.org/abs/2010.09953v1 )

ライセンス: Link先を確認
Qiong Xu, Jeff Wang, Hiroki Shirato, Lei Xing(参考訳) 本稿では,CT画像再構成のための強力なスパースデータ処理技術の有用性を最大化するために,領域固有の画像パッチを用いた辞書学習手法を提案する。 ctにおける画像特徴量と雑音の異種分布を考慮すると,辞書の地域固有のカスタマイズが反復的再構成に活用される。 胸部CT像は、その構造的およびノイズ特性に応じて複数の領域に分割される。 次に、各領域に特異的な辞書を分割した胸部CT画像から学習し、その後の領域の画像再構成に適用する。 辞書学習とスパース表現のパラメータは各領域の構造的および雑音的特性に応じて決定される。 提案手法は,構造回復における単一辞書に基づく従来の再構成よりも優れた性能を示し,シミュレーションとヒトCT画像のノイズを抑制する。 シミュレーションの結果,胸郭全体の画像品質はSSIM(Structure-SIMilarity)とRMSE(Root-Mean-Square Error)の指標でそれぞれ4.88%,11.1%向上した。 ヒトのイメージングデータでは、肺と心臓の構造をよりよく復元でき、同時に脊椎の周囲のノイズを効果的に低減できることがわかった。 提案手法は、再構成対象物の内部に固有の地域差を考慮し、画像の改善につながる。 この方法は、他の解剖学的領域や他の用途のCTイメージングに容易に拡張することができる。

This paper presents a dictionary learning-based method with region-specific image patches to maximize the utility of the powerful sparse data processing technique for CT image reconstruction. Considering heterogeneous distributions of image features and noise in CT, region-specific customization of dictionaries is utilized in iterative reconstruction. Thoracic CT images are partitioned into several regions according to their structural and noise characteristics. Dictionaries specific to each region are then learned from the segmented thoracic CT images and applied to subsequent image reconstruction of the region. Parameters for dictionary learning and sparse representation are determined according to the structural and noise properties of each region. The proposed method results in better performance than the conventional reconstruction based on a single dictionary in recovering structures and suppressing noise in both simulation and human CT imaging. Quantitatively, the simulation study shows maximum improvement of image quality for the whole thorax can achieve 4.88% and 11.1% in terms of the Structure-SIMilarity (SSIM) and Root-Mean-Square Error (RMSE) indices, respectively. For human imaging data, it is found that the structures in the lungs and heart can be better recovered, while simultaneously decreasing noise around the vertebra effectively. The proposed strategy takes into account inherent regional differences inside of the reconstructed object and leads to improved images. The method can be readily extended to CT imaging of other anatomical regions and other applications.
翻訳日:2022-10-05 07:56:57 公開日:2020-10-20
# 発光バーブとLEDブレーキ:反応時間に関するノイズ解析

Incandescent Bulb and LED Brake Lights:Novel Analysis of Reaction Times ( http://arxiv.org/abs/2010.10584v1 )

ライセンス: Link先を確認
Ramaswamy Palaniappan, Surej Mouli, Evangelina Fringi, Howard Bowman and Ian McLoughlin(参考訳) 後部衝突事故は英国における全車両事故の約8%を占めており、ブレーキ信号に気づかれず反応しなかったことが大きな原因となっている。 一方、車載の伝統的な白熱電球は、LEDを特徴とするデザインの融合に置き換わっている。 本稿では,物理ブレーキ光アセンブリを用いたシミュレーション環境において,被験者の反応時間を記録する新しい手法を用いたブレーキ光設計の有効性について検討する。 22名の被験者の反応時間を10対のledと白熱電球のブレーキライトで測定した。 ブレーキ光活性化からアクセル放出までの遅延(BrakeAcc)、ブレーキペダル抑制(AccPdl)へのアクセル放出の遅延(BrakePdl)、光活性化からブレーキペダル抑制(BrakePdl)までの累積時間(BrakePdl)の3つの事象について検討した。 私たちの知る限りでは、反応時間がBrakeAccとAccPdlに分割された最初の研究である。 その結果, 蛍光灯を含む2つのブレーキライトは, 試験した8つのLEDライトに比べて反応時間が著しく遅いことがわかった。 BrakeAccの結果は、被験者がアクセルペダルを放つことでブレーキライトの活性化に素早く反応したことを示している。 興味深いことに, ブレーキ灯の種類はaccpdl時間に影響したが, 経験豊富な被験者は経験の浅い被験者よりも早く行動するとは限らない。 全体的に、ブレーキライトの異なる設計はドライバーの応答時間に大きな影響を与えることが判明した。

Rear-end collision accounts for around 8% of all vehicle crashes in the UK, with the failure to notice or react to a brake light signal being a major contributory cause. Meanwhile traditional incandescent brake light bulbs on vehicles are increasingly being replaced by a profusion of designs featuring LEDs. In this paper, we investigate the efficacy of brake light design using a novel approach to recording subject reaction times in a simulation setting using physical brake light assemblies. The reaction times of 22 subjects were measured for ten pairs of LED and incandescent bulb brake lights. Three events were investigated for each subject, namely the latency of brake light activation to accelerator release (BrakeAcc), the latency of accelerator release to brake pedal depression (AccPdl), and the cumulative time from light activation to brake pedal depression (BrakePdl). To our knowledge, this is the first study in which reaction times have been split into BrakeAcc and AccPdl. Results indicate that the two brake lights containing incandescent bulbs led to significantly slower reaction times compared to the tested eight LED lights. BrakeAcc results also show that experienced subjects were quicker to respond to the activation of brake lights by releasing the accelerator pedal. Interestingly, the analysis also revealed that the type of brake light influenced the AccPdl time, although experienced subjects did not always act quicker than inexperienced subjects. Overall, the study found that different designs of brake light can significantly influence driver response times.
翻訳日:2022-10-05 07:56:34 公開日:2020-10-20
# ネットワークに依存しないロバスト非同期協調学習

Robust Asynchronous and Network-Independent Cooperative Learning ( http://arxiv.org/abs/2010.09993v1 )

ライセンス: Link先を確認
Eduardo Mojica-Nava and David Yanguas-Rojas and C\'esar A. Uribe(参考訳) 我々は,分散非ベイズ学習による協調学習のモデルを考える。そこではエージェントのネットワークが,ローカルに利用可能な一連の観測を記述した仮説に共同で同意しようとする。 最近提案された弱い通信ネットワークモデルに基づいて,非同期通信,メッセージ遅延,予測不能なメッセージ損失,ノード間の有向通信を可能にする,堅牢な協調学習ルールを提案する。 提案する学習ダイナミクスは,ネットワーク内のすべてのエージェントが,誤った仮説に対する信念の漸近的な指数的崩壊を保証し,すべてのエージェントの信念が最適な仮説に集中することを示す。 数値実験は、いくつかのネットワーク設定の証拠を提供する。

We consider the model of cooperative learning via distributed non-Bayesian learning, where a network of agents tries to jointly agree on a hypothesis that best described a sequence of locally available observations. Building upon recently proposed weak communication network models, we propose a robust cooperative learning rule that allows asynchronous communications, message delays, unpredictable message losses, and directed communication among nodes. We show that our proposed learning dynamics guarantee that all agents in the network will have an asymptotic exponential decay of their beliefs on the wrong hypothesis, indicating that the beliefs of all agents will concentrate on the optimal hypotheses. Numerical experiments provide evidence on a number of network setups.
翻訳日:2022-10-05 07:49:48 公開日:2020-10-20
# ガウス過程と変分推論を用いた半パラメトリック$\gamma$-rayモデリング

Semi-parametric $\gamma$-ray modeling with Gaussian processes and variational inference ( http://arxiv.org/abs/2010.10450v1 )

ライセンス: Link先を確認
Siddharth Mishra-Sharma and Kyle Cranmer(参考訳) 銀河起源の不確実な拡散放出をモデル化することは、天体物理学的なガンマ線データの特徴を、特にその放出がGeVエネルギーで観測される光子数の80%以上を占める内天の川の領域で、深刻なバイアスを与える可能性がある。 我々はガンマ線解析のためのフレキシブルな背景モデルと信号モデルを構築するためにガウス過程と変分推論を用いる新しい手法のクラスを導入し、ガンマ線天空のより堅牢な解釈を可能にし、特にフェルミ望遠鏡のデータによる銀河系中心の暗黒物質の潜在的な信号のキャラクタリゼーションに焦点をあてる。

Mismodeling the uncertain, diffuse emission of Galactic origin can seriously bias the characterization of astrophysical gamma-ray data, particularly in the region of the Inner Milky Way where such emission can make up over 80% of the photon counts observed at ~GeV energies. We introduce a novel class of methods that use Gaussian processes and variational inference to build flexible background and signal models for gamma-ray analyses with the goal of enabling a more robust interpretation of the make-up of the gamma-ray sky, particularly focusing on characterizing potential signals of dark matter in the Galactic Center with data from the Fermi telescope.
翻訳日:2022-10-05 07:49:37 公開日:2020-10-20
# 強化学習によるマルチヘッドオートマタによる言語推論

Language Inference with Multi-head Automata through Reinforcement Learning ( http://arxiv.org/abs/2010.10141v1 )

ライセンス: Link先を確認
Alper \c{S}ekerci, \"Ozlem Salehi(参考訳) 本研究の目的は,形式言語を認識できるモデル学習エージェントとして強化学習を利用することである。 エージェントは単純なマルチヘッドオートマトンとしてモデル化され、複数のヘッドを使用する有限オートマトンの新しいモデルであり、6つの異なる言語は強化学習問題として定式化されている。 最適化には2つの異なるアルゴリズムが用いられる。 第一のアルゴリズムはQラーニングであり、反復単位を訓練して最適なポリシーを学ぶ。 2つ目は遺伝的アルゴリズムで、進化に触発された操作を用いて最適解を探索する。 その結果、遺伝的アルゴリズムは一般のQ学習アルゴリズムよりも優れた性能を示すが、Q学習アルゴリズムは正規言語ではより高速な解を求める。

The purpose of this paper is to use reinforcement learning to model learning agents which can recognize formal languages. Agents are modeled as simple multi-head automaton, a new model of finite automaton that uses multiple heads, and six different languages are formulated as reinforcement learning problems. Two different algorithms are used for optimization. First algorithm is Q-learning which trains gated recurrent units to learn optimal policies. The second one is genetic algorithm which searches for the optimal solution by using evolution inspired operations. The results show that genetic algorithm performs better than Q-learning algorithm in general but Q-learning algorithm finds solutions faster for regular languages.
翻訳日:2022-10-05 07:48:08 公開日:2020-10-20
# 話者在庫と推定音声を用いた話者分離

Speaker Separation Using Speaker Inventories and Estimated Speech ( http://arxiv.org/abs/2010.10556v1 )

ライセンス: Link先を確認
Peidong Wang, Zhuo Chen, DeLiang Wang, Jinyu Li, Yifan Gong(参考訳) 本稿では,話者プロファイルと推定音声を用いた話者分離の枠組みである話者棚と推定音声を用いた話者分離を提案する。 SSUSIESは、話者在庫を用いた話者分離(SSUSI)と推定音声を用いた話者分離(SSUES)の2つの方法を含む。 SSUSIは話者在庫の助けを借りて話者分離を行う。 置換不変訓練(PIT)と音声抽出の利点を組み合わせることで、SSUSIは従来の手法よりも優れている。 SSUESは、第1パス分離の出力を用いて、話者分離性能を大幅に改善できる、広く適用可能な技術である。 話者分離と音声認識の両指標を用いたモデルの評価を行った。

We propose speaker separation using speaker inventories and estimated speech (SSUSIES), a framework leveraging speaker profiles and estimated speech for speaker separation. SSUSIES contains two methods, speaker separation using speaker inventories (SSUSI) and speaker separation using estimated speech (SSUES). SSUSI performs speaker separation with the help of speaker inventory. By combining the advantages of permutation invariant training (PIT) and speech extraction, SSUSI significantly outperforms conventional approaches. SSUES is a widely applicable technique that can substantially improve speaker separation performance using the output of first-pass separation. We evaluate the models on both speaker separation and speech recognition metrics.
翻訳日:2022-10-05 07:41:12 公開日:2020-10-20
# ivadomed: 医療画像のディープラーニングツールボックス

ivadomed: A Medical Imaging Deep Learning Toolbox ( http://arxiv.org/abs/2010.09984v1 )

ライセンス: Link先を確認
Charley Gros, Andreanne Lemay, Olivier Vincent, Lucas Rouhier, Anthime Bucquet, Joseph Paul Cohen, Julien Cohen-Adad(参考訳) ivadomedは、医療画像データに適用されたディープラーニングモデルの設計、エンドツーエンドトレーニング、評価のためのオープンソースのPythonパッケージである。 パッケージにはAPI、コマンドラインツール、ドキュメント、チュートリアルが含まれている。 ivadomedはまた、脊髄腫瘍セグメンテーションや脊椎ラベリングなどの訓練済みモデルも含む。 ivadomedの本来の特徴は、画像メタデータ(例えば、取得パラメータ、画像コントラスト、解像度)を解析できるデータローダと、カスタムデータ分割やトレーニングや評価中の追加情報のための主題メタデータ(例えば、病理学、年齢、性別)である。 脳イメージングデータ構造(bids)の規約に従うデータセットは、手作業でデータを整理する必要なしに、ivadomedと互換性がある。 従来のディープラーニング手法以外にも、FiLMやHeMisといった最先端のアーキテクチャや、さまざまな不確実性推定手法(聴診器やてんかん)、不均衡なクラスや非バイナリ予測に適応した損失などがある。 各ステップは、単一のファイルで簡単に設定できる。 同時に、コードは高度にモジュール化されており、アーキテクチャの追加/修正や前/後処理のステップを可能にします。 ivadomedの例としては、MRIオブジェクトの検出、セグメンテーション、解剖学的および病理学的構造のラベル付けなどがある。 総じてivadomedは、医療画像アプリケーションにおけるディープラーニングの最新進歩を、簡単かつ迅速に探究できる。 ivadomedのメインプロジェクトページはhttps://ivadomed.org.com/で見ることができる。

ivadomed is an open-source Python package for designing, end-to-end training, and evaluating deep learning models applied to medical imaging data. The package includes APIs, command-line tools, documentation, and tutorials. ivadomed also includes pre-trained models such as spinal tumor segmentation and vertebral labeling. Original features of ivadomed include a data loader that can parse image metadata (e.g., acquisition parameters, image contrast, resolution) and subject metadata (e.g., pathology, age, sex) for custom data splitting or extra information during training and evaluation. Any dataset following the Brain Imaging Data Structure (BIDS) convention will be compatible with ivadomed without the need to manually organize the data, which is typically a tedious task. Beyond the traditional deep learning methods, ivadomed features cutting-edge architectures, such as FiLM and HeMis, as well as various uncertainty estimation methods (aleatoric and epistemic), and losses adapted to imbalanced classes and non-binary predictions. Each step is conveniently configurable via a single file. At the same time, the code is highly modular to allow addition/modification of an architecture or pre/post-processing steps. Example applications of ivadomed include MRI object detection, segmentation, and labeling of anatomical and pathological structures. Overall, ivadomed enables easy and quick exploration of the latest advances in deep learning for medical imaging applications. ivadomed's main project page is available at https://ivadomed.org.
翻訳日:2022-10-05 07:41:00 公開日:2020-10-20
# クラスタリングトモグラフィ投影のためのWasserstein K-Means

Wasserstein K-Means for Clustering Tomographic Projections ( http://arxiv.org/abs/2010.09989v1 )

ライセンス: Link先を確認
Rohan Rao, Amit Moscovich, Amit Singer(参考訳) 単粒子核電子顕微鏡(cryo-em)における2次元平均化問題に動機づけられ,画像の回転不変ワッサースタイン計量に基づくk平均法を提案する。 ユークリッド(L_2$)距離に基づく既存の方法とは異なり、ワッサーシュタイン計量は異なる粒子ビュー間の平面外角差に適合することが証明されている。 本手法は合成データセットにおいて,$l_2$のベースラインと比較して優れた結果が得られることを示す。 さらに、アースモーバー距離(earthmover's distance)として知られるwasserstein-1メトリックの高速線形時間近似を用いることで、計算オーバーヘッドがほとんどなくなる。

Motivated by the 2D class averaging problem in single-particle cryo-electron microscopy (cryo-EM), we present a k-means algorithm based on a rotationally-invariant Wasserstein metric for images. Unlike existing methods that are based on Euclidean ($L_2$) distances, we prove that the Wasserstein metric better accommodates for the out-of-plane angular differences between different particle views. We demonstrate on a synthetic dataset that our method gives superior results compared to an $L_2$ baseline. Furthermore, there is little computational overhead, thanks to the use of a fast linear-time approximation to the Wasserstein-1 metric, also known as the Earthmover's distance.
翻訳日:2022-10-05 07:40:35 公開日:2020-10-20
# 探索可能なトーンマッピングオペレータ

Explorable Tone Mapping Operators ( http://arxiv.org/abs/2010.10000v1 )

ライセンス: Link先を確認
Chien-Chuan Su, Ren Wang, Hung-Jin Lin, Yu-Lun Liu, Chia-Ping Chen, Yu-Lin Chang and Soo-Chang Pei(参考訳) トーンマッピングはハイダイナミックレンジ(HDR)イメージングにおいて重要な役割を果たす。 HDR画像の視覚情報を限られたダイナミックレンジの媒体に保存することを目的としている。 hdr画像からのトーンマッピング結果を提供するために多くの作品が提案されているが、そのほとんどは事前設計された方法でのみトーンマッピングを行うことができる。 しかし、音質の主観性は人によって異なり、音質の好みも用途によって異なる。 本稿では,優れた視覚品質を実現するだけでなく,スタイル多様性を探求する学習ベースのマルチモーダルトーンマッピング手法を提案する。 提案手法は,cycleganの枠組みに基づいて,異なる潜在コードを操作することで,様々な専門家レベルのトーンマップ結果を提供できる。 最後に,提案手法は,定量的かつ定性的に,最先端のトーンマッピングアルゴリズムに対して良好に動作することを示す。

Tone-mapping plays an essential role in high dynamic range (HDR) imaging. It aims to preserve visual information of HDR images in a medium with a limited dynamic range. Although many works have been proposed to provide tone-mapped results from HDR images, most of them can only perform tone-mapping in a single pre-designed way. However, the subjectivity of tone-mapping quality varies from person to person, and the preference of tone-mapping style also differs from application to application. In this paper, a learning-based multimodal tone-mapping method is proposed, which not only achieves excellent visual quality but also explores the style diversity. Based on the framework of BicycleGAN, the proposed method can provide a variety of expert-level tone-mapped results by manipulating different latent codes. Finally, we show that the proposed method performs favorably against state-of-the-art tone-mapping algorithms both quantitatively and qualitatively.
翻訳日:2022-10-05 07:40:20 公開日:2020-10-20
# 畳み込みニューラルネットワークによる局所皮質異形成の自動検出

Convolutional neural networks for automatic detection of Focal Cortical Dysplasia ( http://arxiv.org/abs/2010.10373v1 )

ライセンス: Link先を確認
Ruslan Aliev and Ekaterina Kondrateva and Maxim Sharaev and Oleg Bronov and Alexey Marinets and Sergey Subbotin and Alexander Bernstein and Evgeny Burnaev(参考訳) focal cortical dysplasia (fcd) は、皮質発達異常にともなう最も一般的なてんかん原性病変の1つである。 しかし、fcdの正確な検出は放射線科医の専門性に依存しており、多くの場合、病変を見逃す可能性がある。 本研究では,磁気共鳴画像(MRI)におけるFCDの自動識別の課題を解決する。 本研究では,近年の深層学習に基づくfcd検出法を改善し,ラベル付きfcd患者15名のデータセットに適用する。 その結果, 被験者15名中11名に対してFCDの検出に成功した。

Focal cortical dysplasia (FCD) is one of the most common epileptogenic lesions associated with cortical development malformations. However, the accurate detection of the FCD relies on the radiologist professionalism, and in many cases, the lesion could be missed. In this work, we solve the problem of automatic identification of FCD on magnetic resonance images (MRI). For this task, we improve recent methods of Deep Learning-based FCD detection and apply it for a dataset of 15 labeled FCD patients. The model results in the successful detection of FCD on 11 out of 15 subjects.
翻訳日:2022-10-05 07:39:27 公開日:2020-10-20
# MRIにおける眼グリオーマ偏位に対する畳み込み3D-2Dパッチ変換

Convolutional 3D to 2D Patch Conversion for Pixel-wise Glioma Segmentation in MRI Scans ( http://arxiv.org/abs/2010.10612v1 )

ライセンス: Link先を確認
Mohammad Hamghalam, Baiying Lei, and Tianfu Wang(参考訳) 構造磁気共鳴画像(MRI)は脳疾患の解析と診断に広く利用されている。 脳腫瘍の自動分節化は腫瘍亜領域の低音節コントラストによるコンピュータ支援診断の課題である。 そこで我々は,3Dから2DのMRパッチ変換モデルを用いて,入力されたスライディングパッチの中央画素のクラスラベルを予測する新しい画素分割フレームワークを考案した。 正確には、まず各モードから3Dパッチを抽出し、圧縮励起(SE)ブロックを通してスライスを校正する。 そして、SEブロックの出力を後続のボトルネック層に直接供給してチャネル数を減少させる。 最後に、中心画素の予測のための2D畳み込みニューラルネットワーク(CNN)を介して、校正された2Dスライスを連結してマルチモーダル特徴を得る。 本アーキテクチャでは, 局所スライスとグローバルスライスを併用して, 2次元CNN分類器を用いて中央ボクセルのクラスラベルを予測する。 トレーニング可能なパラメータを通してすべてのモダリティを暗黙的に適用し、各シーケンスの重み付けをセグメント化に割り当てる。 マルチモーダルMRI(BraTS'19)における脳腫瘍のセグメンテーションに関する実験結果から,本手法が腫瘍領域を効率的に分割できることが示唆された。

Structural magnetic resonance imaging (MRI) has been widely utilized for analysis and diagnosis of brain diseases. Automatic segmentation of brain tumors is a challenging task for computer-aided diagnosis due to low-tissue contrast in the tumor subregions. To overcome this, we devise a novel pixel-wise segmentation framework through a convolutional 3D to 2D MR patch conversion model to predict class labels of the central pixel in the input sliding patches. Precisely, we first extract 3D patches from each modality to calibrate slices through the squeeze and excitation (SE) block. Then, the output of the SE block is fed directly into subsequent bottleneck layers to reduce the number of channels. Finally, the calibrated 2D slices are concatenated to obtain multimodal features through a 2D convolutional neural network (CNN) for prediction of the central pixel. In our architecture, both local inter-slice and global intra-slice features are jointly exploited to predict class label of the central voxel in a given patch through the 2D CNN classifier. We implicitly apply all modalities through trainable parameters to assign weights to the contributions of each sequence for segmentation. Experimental results on the segmentation of brain tumors in multimodal MRI scans (BraTS'19) demonstrate that our proposed method can efficiently segment the tumor regions.
翻訳日:2022-10-05 07:39:18 公開日:2020-10-20
# cnnを用いた単一画像の過完全表現の検討

Exploring Overcomplete Representations for Single Image Deraining using CNNs ( http://arxiv.org/abs/2010.10661v1 )

ライセンス: Link先を確認
Rajeev Yasarla (Student Member, IEEE), Jeya Maria Jose Valanarasu (Student Member, IEEE), and Vishal M. Patel (Senior Member, IEEE)(参考訳) 雨のストレークはサイズ、形状、方向、密度が異なることが多いため、単一の画像から雨のストレークを取り除くことは極めて難しい問題である。 一般的な"エンコーダ・デコーダ"アーキテクチャに従ってディープネットワークを使用して、初期層全体にわたる低レベルの機能と、ディープ層内の高レベルの機能をキャプチャする。 排水作業では、除去すべき雨のストレークは比較的小さく、グローバルな特徴に多くを注力することは、この問題を解決する効率的な方法ではない。 そこで本研究では,フィルタの受容場を抑制することで局所構造学習に特に注意を向ける,超完全畳み込みネットワークアーキテクチャを提案する。 U-Netと組み合わせることでグローバルな構造を損なうことなく,低レベルな機能に重点を置いて,デライン画像を計算することができるのです。 提案するoucd(over-and-under complete deraining network)と呼ばれるネットワークは、局所構造に焦点を絞るために小さな受容野サイズに制限された過完全分岐と、大域構造に焦点をあてるより大きな受容野を持つ過完全分岐の2つの分岐からなる。 合成データと実データに関する広範囲な実験により,提案手法が最新の最先端手法よりも大幅に改善できることが証明された。

Removal of rain streaks from a single image is an extremely challenging problem since the rainy images often contain rain streaks of different size, shape, direction and density. Most recent methods for deraining use a deep network following a generic "encoder-decoder" architecture which captures low-level features across the initial layers and high-level features in the deeper layers. For the task of deraining, the rain streaks which are to be removed are relatively small and focusing much on global features is not an efficient way to solve the problem. To this end, we propose using an overcomplete convolutional network architecture which gives special attention in learning local structures by restraining the receptive field of filters. We combine it with U-Net so that it does not lose out on the global structures as well while focusing more on low-level features, to compute the derained image. The proposed network called, Over-and-Under Complete Deraining Network (OUCD), consists of two branches: overcomplete branch which is confined to small receptive field size in order to focus on the local structures and an undercomplete branch that has larger receptive fields to primarily focus on global structures. Extensive experiments on synthetic and real datasets demonstrate that the proposed method achieves significant improvements over the recent state-of-the-art methods.
翻訳日:2022-10-05 07:38:54 公開日:2020-10-20
# V2Xシナリオのためのレーンマージ座標モデル

A Lane Merge Coordination Model for a V2X Scenario ( http://arxiv.org/abs/2010.10426v1 )

ライセンス: Link先を確認
Luis Sequeira, Adam Szefer, Jamie Slome and Toktam Mahmoodi(参考訳) コネクティビティサービスを使った協調運転は自動運転車にとって有望な道であり、低レイテンシと第5世代モバイルネットワーク(5g)によるさらなる信頼性サポートが提供されている。 本稿では,連系車に対する集中型システムに基づくレーンマージコーディネーションの応用について述べる。 このアプリケーションは道路上の連結車両に軌道レコメンデーションを提供する。 アプリケーションは、トラフィックオーケストレータを主コンポーネントとして構成する。 本研究では,機械学習とデータ解析を用いて,車線合流時の協調運転を成功させることができるかを予測する。 さらに、安全なマージの完了に必要な加速度パラメータと方向パラメータを詳述する。 その結果,既存のアルゴリズムの性能と,その主要パラメータがオーバーフィッティングを避けるためにどのように選択されたかが示された。

Cooperative driving using connectivity services has been a promising avenue for autonomous vehicles, with the low latency and further reliability support provided by 5th Generation Mobile Network (5G). In this paper, we present an application for lane merge coordination based on a centralised system, for connected cars. This application delivers trajectory recommendations to the connected vehicles on the road. The application comprises of a Traffic Orchestrator as the main component. We apply machine learning and data analysis to predict whether a connected vehicle can successfully complete the cooperative manoeuvre of a lane merge. Furthermore, the acceleration and heading parameters that are necessary for the completion of a safe merge are elaborated. The results demonstrate the performance of several existing algorithms and how their main parameters were selected to avoid over-fitting.
翻訳日:2022-10-05 07:32:29 公開日:2020-10-20
# EnsembleBenchによる高多様性アンサンブル学習の促進

Promoting High Diversity Ensemble Learning with EnsembleBench ( http://arxiv.org/abs/2010.10623v1 )

ライセンス: Link先を確認
Yanzhao Wu, Ling Liu, Zhongwei Xie, Juhyun Bae, Ka-Ho Chow, Wenqi Wei(参考訳) アンサンブル学習は近年新たな関心を集めている。 本稿では,高い多様性と高精度アンサンブルを評価するための総合的なフレームワークであるEnsembleBenchを提案する。 EnsembleBenchの設計は、3つの新しい特徴を提供している。(1) EnsembleBenchは、アンサンブルの質を評価し、同じ学習タスクのために構築された代替アンサンブルを比較するための定量的なメトリクスセットを提供する。 2) EnsembleBenchは,高多様性と高品質のアンサンブルを識別・選択するための,ベースラインの多様性指標と最適化された多様性指標のスイートを実装し,ハイ多様性モデルアンサンブルのベンチマーク,評価,推奨を行う上で有効なフレームワークである。 3)EnsembleBenchの最初のリリースでは,4つの代表的なアンサンブルコンセンサス手法が提供され,コンセンサス手法がアンサンブル精度に与える影響に関する実証的研究が可能となった。 一般的なベンチマークデータセットに対する総合的な実験的評価は、高い多様性のアンサンブルを促進し、選択されたアンサンブルの全体的なパフォーマンスを高めるために、EnsembleBenchの有効性と有効性を示す。

Ensemble learning is gaining renewed interests in recent years. This paper presents EnsembleBench, a holistic framework for evaluating and recommending high diversity and high accuracy ensembles. The design of EnsembleBench offers three novel features: (1) EnsembleBench introduces a set of quantitative metrics for assessing the quality of ensembles and for comparing alternative ensembles constructed for the same learning tasks. (2) EnsembleBench implements a suite of baseline diversity metrics and optimized diversity metrics for identifying and selecting ensembles with high diversity and high quality, making it an effective framework for benchmarking, evaluating and recommending high diversity model ensembles. (3) Four representative ensemble consensus methods are provided in the first release of EnsembleBench, enabling empirical study on the impact of consensus methods on ensemble accuracy. A comprehensive experimental evaluation on popular benchmark datasets demonstrates the utility and effectiveness of EnsembleBench for promoting high diversity ensembles and boosting the overall performance of selected ensembles.
翻訳日:2022-10-05 07:32:16 公開日:2020-10-20
# サポートベクトルマシンを用いた間隔インデックス数とメンバシップ値に基づくファジィ時系列予測の一手法

A novel method of fuzzy time series forecasting based on interval index number and membership value using support vector machine ( http://arxiv.org/abs/2010.11274v1 )

ライセンス: Link先を確認
Kiran Bisht, Arun Kumar(参考訳) ファジィ時系列予測法は、従来の時系列予測法の厳密な仮定に基づいていないため、将来の値を予測する研究者の間では非常に人気がある。 ファジィ時系列予測の非確率的手法は、より重要な予測結果を提供するため、研究者によって好まれる。 一般に、予測方法の性能を決定する4つの要因(1) 会話の分割宇宙への区間数(nois)と間隔の長さ(uod) (2) ファジィ論理規則(flrs)の確立方法(3) 入力と対象値の間のファジィ論理規則(flr)の確立方法(4) ファジィ予測値を得るための非ファジィ化規則(defuzzification rule)。 予測精度を向上させるための最初の2つの要因を考慮し,時間間隔指数数とメンバシップ値を入力特徴として将来値を予測する非確率的なファジィ時系列予測法を提案する。 そこで我々は,NOIの最適間隔を求めるための単純なラウンドオフ範囲と適切なステップサイズ法を提案し,不等長間隔に UOD を分割するファジィc平均クラスタリング法を提案した。 FLRを確立するために,サポートベクトルマシン(SVM)を実装した。 提案手法をテストするために,5つの実時間系列をシミュレートし,最近開発したモデルとの比較を行った。 また,SVMの代わりに多層パーセプトロン(MLP)を用いて提案モデルの性能評価を行った。 2つの性能指標RSMEとSMAPEを用いて性能解析を行い,提案モデルにより予測精度が向上した。

Fuzzy time series forecasting methods are very popular among researchers for predicting future values as they are not based on the strict assumptions of traditional time series forecasting methods. Non-stochastic methods of fuzzy time series forecasting are preferred by the researchers as they provide more significant forecasting results. There are generally, four factors that determine the performance of the forecasting method (1) number of intervals (NOIs) and length of intervals to partition universe of discourse (UOD) (2) fuzzification rules or feature representation of crisp time series (3) method of establishing fuzzy logic rule (FLRs) between input and target values (4) defuzzification rule to get crisp forecasted value. Considering the first two factors to improve the forecasting accuracy, we proposed a novel non-stochastic method fuzzy time series forecasting in which interval index number and membership value are used as input features to predict future value. We suggested a simple rounding-off range and suitable step size method to find the optimal number of intervals (NOIs) and used fuzzy c-means clustering process to divide UOD into intervals of unequal length. We implement support vector machine (SVM) to establish FLRs. To test our proposed method we conduct a simulated study on five widely used real time series and compare the performance with some recently developed models. We also examine the performance of the proposed model by using multi-layer perceptron (MLP) instead of SVM. Two performance measures RSME and SMAPE are used for performance analysis and observed better forecasting accuracy by the proposed model.
翻訳日:2022-10-05 07:31:43 公開日:2020-10-20
# ベイズ政策形態を持つ生存可能な超冗長ロボットアーム

Survivable Hyper-Redundant Robotic Arm with Bayesian Policy Morphing ( http://arxiv.org/abs/2010.09964v1 )

ライセンス: Link先を確認
Sayyed Jaffar Ali Raza, Apan Dastider, Mingjie Lin(参考訳) 本稿では,ロボットマニピュレータがランダムな機械的故障から自律的に回復し,生存可能なベイズ強化学習フレームワークを提案する。 この目的のために,ロボットエージェントが操作次元の縮小後に学習方針を自己修正可能にするベイズ政策モーフィング(bpm)の枠組みを定式化する。 既存のアクター批判フレームワークを基盤として、過去のポリシー更新を事前分布として、後進学習としてポリシー勾配更新を実行するように拡張する。 本研究では,事前経験に偏った方針探索が,サンプリング要求の観点から学習効率を著しく向上させることを示す。 我々は,BPM アルゴリズムを用いた 8-DOF ロボットアームにおいて,応答性のない関節,一定オフセット誤差,角不整合などの異なる損傷タイプを持つランダムジョイントを意図的に無効化しながら,その結果を実証する。 以上の結果から,ロボットアームは物理的損傷があっても,対象物の位置を正確に把握する機能を維持することができることがわかった。

In this paper we present a Bayesian reinforcement learning framework that allows robotic manipulators to adaptively recover from random mechanical failures autonomously, hence being survivable. To this end, we formulate the framework of Bayesian Policy Morphing (BPM) that enables a robot agent to self-modify its learned policy after the diminution of its maneuvering dimensionality. We build upon existing actor-critic framework, and extend it to perform policy gradient updates as posterior learning, taking past policy updates as prior distributions. We show that policy search, in the direction biased by prior experience, significantly improves learning efficiency in terms of sampling requirements. We demonstrate our results on an 8-DOF robotic arm with our algorithm of BPM, while intentionally disabling random joints with different damage types like unresponsive joints, constant offset errors and angular imprecision. Our results have shown that, even with physical damages, the robotic arm can still successfully maintain its functionality to accurately locate and grasp a given target object.
翻訳日:2022-10-05 07:31:11 公開日:2020-10-20
# a-tucker:cpuとgpuの密閉テンソルに対する入力適応型およびマトリシズフリータッカー分解

a-Tucker: Input-Adaptive and Matricization-Free Tucker Decomposition for Dense Tensors on CPUs and GPUs ( http://arxiv.org/abs/2010.10131v1 )

ライセンス: Link先を確認
Min Li and Chuanfu Xiao and Chao Yang(参考訳) タッカー分解は大規模テンソルデータを解析・圧縮するための最も一般的なモデルの一つである。 既存のタッカー分解アルゴリズムは通常、係数行列とコアテンソルを計算するために単一の解法に依存しており、入力データとハードウェアの多様性に対応できるほど柔軟ではない。 さらに、高効率なGEMMカーネルを利用するために、タッカー分解の実装の多くは明示的な行列化を使用しており、データ変換やメモリ使用量に余分なコストがかかる可能性がある。 本稿では,高密度テンソルの入力適応および行列化自由タッカー分解のための新しいフレームワークであるa-Tuckerを提案する。 パラメータ行列とコアテンソルの異なるソルバの切り替えを可能にするモードワイド・フレキシブルなタッカー分解アルゴリズムを提案し、入力データとハードウェアの両方のバリエーションに自動で対処するために機械学習適応型ソルバセレクタを適用した。 さらに性能の向上とメモリ効率の向上を図るため,テンソルと行列の変換を伴わずに,完全に成熟しない方法でa-Tuckerを実装した。 様々な合成および実世界のテンソルを用いた実験では、a-TuckerはCPUとGPUの両方で既存の作業を大幅に上回っている。

Tucker decomposition is one of the most popular models for analyzing and compressing large-scale tensorial data. Existing Tucker decomposition algorithms usually rely on a single solver to compute the factor matrices and core tensor, and are not flexible enough to adapt with the diversities of the input data and the hardware. Moreover, to exploit highly efficient GEMM kernels, most Tucker decomposition implementations make use of explicit matricizations, which could introduce extra costs in terms of data conversion and memory usage. In this paper, we present a-Tucker, a new framework for input-adaptive and matricization-free Tucker decomposition of dense tensors. A mode-wise flexible Tucker decomposition algorithm is proposed to enable the switch of different solvers for the factor matrices and core tensor, and a machine-learning adaptive solver selector is applied to automatically cope with the variations of both the input data and the hardware. To further improve the performance and enhance the memory efficiency, we implement a-Tucker in a fully matricization-free manner without any conversion between tensors and matrices. Experiments with a variety of synthetic and real-world tensors show that a-Tucker can substantially outperform existing works on both CPUs and GPUs.
翻訳日:2022-10-05 07:30:52 公開日:2020-10-20
# 連続分散制約最適化問題に対するParticle Swarmによるアプローチ

A Particle Swarm Inspired Approach for Continuous Distributed Constraint Optimization Problems ( http://arxiv.org/abs/2010.10192v1 )

ライセンス: Link先を確認
Moumita Choudhury, Amit Sarker, Md. Mosaddek Khan, William Yeoh(参考訳) 分散制約最適化問題(Distributed Constraint Optimization Problems, DCOP)は、協調型マルチエージェントシステムにおける相互作用を協調するフレームワークである。 古典的なDCOPでは、エージェントによって所有される変数は離散的であると仮定される。 しかし、センサネットワークのターゲットトラッキングやスリープスケジューリングのような多くのアプリケーションでは、連続値変数は離散変数よりも適している。 このようなアプリケーションをモデル化するために、研究者は連続変数による問題を明示的にモデル化できるDCOPの拡張であるContinuous DCOPs (C-DCOPs)を提案した。 C-DCOPを解くための最先端のアプローチは、一方的なメモリか計算オーバーヘッドを経験し、微分不可能な最適化問題には適さない。 そこで本研究では,PSO(Particle Swarm Optimization Based C-DCOP)にインスパイアされたC-DCOPアルゴリズムを提案する。 近年、人口ベースのアルゴリズムは、高品質なソリューションを作成する能力により、古典的なDCOPにおいて大きな注目を集めている。 しかしながら、我々の知る限りでは、このアルゴリズムはC-DCOPの解法には使われておらず、古典的なDCOPやC-DCOPの解法におけるPSOの可能性を評価する研究は行われていない。 そこで我々は,C-DCOPを分散的に解くために,集中型アルゴリズムであるPSOを適用した。 結果として得られるPCDアルゴリズムは、高品質な解を生成するだけでなく、微分計算の必要のない解も見つけ出す。 さらに, pcd が検出する解の質をさらに向上させるために, クロスオーバ演算子を設計した。 最後に,PCDが任意のアルゴリズムであることを理論的に証明し,様々なベンチマークで最新のC-DCOPアルゴリズムに対してPCDを実証的に評価する。

Distributed Constraint Optimization Problems (DCOPs) are a widely studied framework for coordinating interactions in cooperative multi-agent systems. In classical DCOPs, variables owned by agents are assumed to be discrete. However, in many applications, such as target tracking or sleep scheduling in sensor networks, continuous-valued variables are more suitable than discrete ones. To better model such applications, researchers have proposed Continuous DCOPs (C-DCOPs), an extension of DCOPs, that can explicitly model problems with continuous variables. The state-of-the-art approaches for solving C-DCOPs experience either onerous memory or computation overhead and unsuitable for non-differentiable optimization problems. To address this issue, we propose a new C-DCOP algorithm, namely Particle Swarm Optimization Based C-DCOP (PCD), which is inspired by Particle Swarm Optimization (PSO), a well-known centralized population-based approach for solving continuous optimization problems. In recent years, population-based algorithms have gained significant attention in classical DCOPs due to their ability in producing high-quality solutions. Nonetheless, to the best of our knowledge, this class of algorithms has not been utilized to solve C-DCOPs and there has been no work evaluating the potential of PSO in solving classical DCOPs or C-DCOPs. In light of this observation, we adapted PSO, a centralized algorithm, to solve C-DCOPs in a decentralized manner. The resulting PCD algorithm not only produces good-quality solutions but also finds solutions without any requirement for derivative calculations. Moreover, we design a crossover operator that can be used by PCD to further improve the quality of solutions found. Finally, we theoretically prove that PCD is an anytime algorithm and empirically evaluate PCD against the state-of-the-art C-DCOP algorithms in a wide variety of benchmarks.
翻訳日:2022-10-05 07:30:31 公開日:2020-10-20
# パブリッククラウドクラスタ上でのディープラーニングのスケーラブルな分散トレーニングに向けて

Towards Scalable Distributed Training of Deep Learning on Public Cloud Clusters ( http://arxiv.org/abs/2010.10458v1 )

ライセンス: Link先を確認
Shaohuai Shi, Xianhao Zhou, Shutao Song, Xingyao Wang, Zilin Zhu, Xue Huang, Xinan Jiang, Feihu Zhou, Zhenyu Guo, Liqiang Xie, Rui Lan, Xianbin Ouyang, Yan Zhang, Jieqian Wei, Jing Gong, Weiliang Lin, Ping Gao, Peng Meng, Xiaomin Xu, Chenyang Guo, Bo Yang, Zhibo Chen, Yongjian Wu and Xiaowen Chu(参考訳) 分散トレーニング技術は、高密度GPUクラスタ上での大規模ディープニューラルネットワーク(DNN)トレーニングに広く採用されている。 しかし、パブリッククラウドクラスタでは、インスタンス間の接続帯域が適度であるため、従来の最先端の分散トレーニングシステムは大規模モデルのトレーニングではうまくスケールできない。 本稿では,分散学習のための新しい計算・通信効率の高いトップk分散通信ライブラリを提案する。 システムのスケーラビリティをさらに向上するために,単純なマルチレベルデータキャッシング機構を提案することでI/Oを最適化し,並列テンソル演算子を導入して更新操作を最適化する。 16ノードのtencentクラウドクラスタ(各ノードにnvidia tesla v100 gpuが8台ある)の実験結果は、cnnとtransformerの既存の最先端システムよりも25%-40%高速であることを示している。 ImageNet上のResNet-50から93%のトップ5の精度をトレーニングしたDAWNBenchの記録を破りました。

Distributed training techniques have been widely deployed in large-scale deep neural networks (DNNs) training on dense-GPU clusters. However, on public cloud clusters, due to the moderate inter-connection bandwidth between instances, traditional state-of-the-art distributed training systems cannot scale well in training large-scale models. In this paper, we propose a new computing and communication efficient top-k sparsification communication library for distributed training. To further improve the system scalability, we optimize I/O by proposing a simple yet efficient multi-level data caching mechanism and optimize the update operation by introducing a novel parallel tensor operator. Experimental results on a 16-node Tencent Cloud cluster (each node with 8 Nvidia Tesla V100 GPUs) show that our system achieves 25%-40% faster than existing state-of-the-art systems on CNNs and Transformer. We finally break the record on DAWNBench on training ResNet-50 to 93% top-5 accuracy on ImageNet.
翻訳日:2022-10-05 07:29:47 公開日:2020-10-20
# ロボットにおける透明意思決定のための公理学習と信念追跡

Axiom Learning and Belief Tracing for Transparent Decision Making in Robotics ( http://arxiv.org/abs/2010.10645v1 )

ライセンス: Link先を確認
Tiago Mota, Mohan Sridharan(参考訳) ロボットが決定や信念の説明を提供する能力は、人間との効果的なコラボレーションを促進する。 このような透明性を提供することは、知識ベースの推論方法やデータ駆動学習アルゴリズムを含む統合ロボットシステムにおいて特に困難である。 この課題に対処するために、アーキテクチャは非単調な論理的推論、ディープラーニング、決定木帰納の相補的な強みを結合する。 推論と学習の間、このアーキテクチャはロボットが決定、信念、仮説的行動の結果をオンデマンドで記述することを可能にする。 これらの能力は、テーブル上オブジェクトを操作する物理ロボットからのシミュレーション画像と画像を用いて、シーン理解タスクと計画タスクの文脈で接地し、評価される。

A robot's ability to provide descriptions of its decisions and beliefs promotes effective collaboration with humans. Providing such transparency is particularly challenging in integrated robot systems that include knowledge-based reasoning methods and data-driven learning algorithms. Towards addressing this challenge, our architecture couples the complementary strengths of non-monotonic logical reasoning, deep learning, and decision-tree induction. During reasoning and learning, the architecture enables a robot to provide on-demand relational descriptions of its decisions, beliefs, and the outcomes of hypothetical actions. These capabilities are grounded and evaluated in the context of scene understanding tasks and planning tasks performed using simulated images and images from a physical robot manipulating tabletop objects.
翻訳日:2022-10-05 07:29:33 公開日:2020-10-20
# 教師なし選択多様体正則行列分解

Unsupervised Selective Manifold Regularized Matrix Factorization ( http://arxiv.org/abs/2010.09936v1 )

ライセンス: Link先を確認
Priya Mani, Carlotta Domeniconi, Igor Griva(参考訳) 行列分解のための多様体正規化法は、入力空間内のデータの近傍構造を因子分解空間に保存するクラスタ仮定に依存する。 我々は,すべてのデータポイントのk-neighborhoodsを正規化制約として用いることは因子化の品質に負の影響を及ぼし,この問題に取り組むために教師なしかつ選択的に正規化行列因子化アルゴリズムを提案する。 提案手法は,スパースな代表者とその周辺親和性,およびデータ分解を共同で学習する。 さらに、データの選択性制約を緩和することにより、我々のアプローチの迅速な近似を提案する。 提案アルゴリズムはベースラインや最先端の多様体正規化やクラスタリングアルゴリズムと競合する。

Manifold regularization methods for matrix factorization rely on the cluster assumption, whereby the neighborhood structure of data in the input space is preserved in the factorization space. We argue that using the k-neighborhoods of all data points as regularization constraints can negatively affect the quality of the factorization, and propose an unsupervised and selective regularized matrix factorization algorithm to tackle this problem. Our approach jointly learns a sparse set of representatives and their neighbor affinities, and the data factorization. We further propose a fast approximation of our approach by relaxing the selectivity constraints on the data. Our proposed algorithms are competitive against baselines and state-of-the-art manifold regularization and clustering algorithms.
翻訳日:2022-10-05 07:23:35 公開日:2020-10-20
# リンク予測のための線グラフニューラルネットワーク

Line Graph Neural Networks for Link Prediction ( http://arxiv.org/abs/2010.10046v1 )

ライセンス: Link先を確認
Lei Cai and Jundong Li and Jie Wang and Shuiwang Ji(参考訳) 実世界の多くのアプリケーションにおいて古典的なグラフ解析問題であるグラフリンク予測タスクについて検討する。 ディープラーニングの進歩により、現在のリンク予測手法は、2つの隣接ノードを中心とするサブグラフから特徴を計算し、2つのノード間のリンクのラベルを予測する。 この形式化において、リンク予測問題はグラフ分類タスクに変換される。 分類のための固定サイズ特徴を抽出するためには,ディープラーニングモデルではグラフプーリング層が必要であるため,情報損失が生じる。 この限界を克服するために,グラフ理論における線グラフを用いて,根本的に異なる新しい経路を求めることを提案する。 特に、線グラフの各ノードは、元のグラフにおける一意なエッジに対応する。 したがって、元のグラフにおけるリンク予測問題は、グラフ分類タスクではなく、対応する線グラフにおけるノード分類問題として等価に解ける。 異なるアプリケーションから得られた14のデータセットに対する実験結果から,提案手法はパラメータが少なく,訓練効率も高いが,常に最先端の手法より優れていることが示された。

We consider the graph link prediction task, which is a classic graph analytical problem with many real-world applications. With the advances of deep learning, current link prediction methods commonly compute features from subgraphs centered at two neighboring nodes and use the features to predict the label of the link between these two nodes. In this formalism, a link prediction problem is converted to a graph classification task. In order to extract fixed-size features for classification, graph pooling layers are necessary in the deep learning model, thereby incurring information loss. To overcome this key limitation, we propose to seek a radically different and novel path by making use of the line graphs in graph theory. In particular, each node in a line graph corresponds to a unique edge in the original graph. Therefore, link prediction problems in the original graph can be equivalently solved as a node classification problem in its corresponding line graph, instead of a graph classification task. Experimental results on fourteen datasets from different applications demonstrate that our proposed method consistently outperforms the state-of-the-art methods, while it has fewer parameters and high training efficiency.
翻訳日:2022-10-05 07:23:22 公開日:2020-10-20
# 生物画像分類のための深部低ショット学習と限られたトレーニングサンプルからの可視化

Deep Low-Shot Learning for Biological Image Classification and Visualization from Limited Training Samples ( http://arxiv.org/abs/2010.10050v1 )

ライセンス: Link先を確認
Lei Cai and Zhengyang Wang and Rob Kulathinal and Sudhir Kumar and Shuiwang Ji(参考訳) 予測モデリングは有用であるが、トレーニングデータの取得とラベル付けのコストが高いため、生物画像解析において非常に困難である。 例えば、ショウジョウバエ胚発生における遺伝子相互作用と調節の研究において、同じ発生段階からのISH(in situ hybridization)遺伝子の発現パターン画像を比較すると、最も生物学的に有意である。 しかし、正確な段階のトレーニングデータをラベル付けすることは、大げさな生物学者でさえ非常に時間がかかる。 したがって、限られたトレーニングサンプルから正確な発達段階分類のための正確な計算モデルを構築する方法が重要な課題である。 さらに、予測結果の解釈とモデルの校正を可能にするために、発達期ランドマークの識別と可視化が必要である。 これらの課題に対処するために、限られた訓練画像を用いてISH画像を正確に分類する深層2段階のローショット学習フレームワークを提案する。 具体的には,限られたトレーニングサンプルで正確なモデルトレーニングを実現するために,タスクを深い低ショット学習問題として定式化し,データレベル学習と特徴レベル学習を含む新しい2段階学習手法を開発した。 我々は,基盤モデルとして深い残差ネットワークを用い,ish画像の正確なステージ予測タスクにおける性能向上を実現する。 さらに、深層モデルは、画像の画素単位でその予測結果に寄与するサリエンシーマップを計算することで解釈することができる。 本課題では,開発ランドマークの識別と可視化を支援するために,サリエンシマップを用いた。 実験の結果,提案モデルは正確な予測を行うだけでなく,生物学的に有意義な解釈も得ることが示された。 我々は,小さなトレーニングデータセットを用いて,他の生物学的画像分類タスクに容易に一般化できることを期待する。

Predictive modeling is useful but very challenging in biological image analysis due to the high cost of obtaining and labeling training data. For example, in the study of gene interaction and regulation in Drosophila embryogenesis, the analysis is most biologically meaningful when in situ hybridization (ISH) gene expression pattern images from the same developmental stage are compared. However, labeling training data with precise stages is very time-consuming even for evelopmental biologists. Thus, a critical challenge is how to build accurate computational models for precise developmental stage classification from limited training samples. In addition, identification and visualization of developmental landmarks are required to enable biologists to interpret prediction results and calibrate models. To address these challenges, we propose a deep two-step low-shot learning framework to accurately classify ISH images using limited training images. Specifically, to enable accurate model training on limited training samples, we formulate the task as a deep low-shot learning problem and develop a novel two-step learning approach, including data-level learning and feature-level learning. We use a deep residual network as our base model and achieve improved performance in the precise stage prediction task of ISH images. Furthermore, the deep model can be interpreted by computing saliency maps, which consist of pixel-wise contributions of an image to its prediction result. In our task, saliency maps are used to assist the identification and visualization of developmental landmarks. Our experimental results show that the proposed model can not only make accurate predictions, but also yield biologically meaningful interpretations. We anticipate our methods to be easily generalizable to other biological image classification tasks with small training datasets.
翻訳日:2022-10-05 07:23:03 公開日:2020-10-20
# マルチソースドメイン適応のための教師と教師の一貫性

Teacher-Student Consistency For Multi-Source Domain Adaptation ( http://arxiv.org/abs/2010.10054v1 )

ライセンス: Link先を確認
Ohad Amosy and Gal Chechik(参考訳) マルチソースドメイン適応(MSDA)では、モデルは複数のソースドメインのサンプルに基づいてトレーニングされ、異なるターゲットドメインの推論に使用される。 主流ドメイン適応アプローチは、ソースドメインとターゲットドメインの合同表現を学ぶ。 残念なことに、共同表現はソースドメインに役立つが、ターゲット(負の転送)に対する推論を損なう機能を強調したり、ターゲットドメインに関する重要な情報を取り除く(知識の消失)。 本稿では,これらの問題を緩和する新手法であるMulti-source Students Teacher (MUST)を提案する。 まず、ソースラベルで教師ネットワークをトレーニングし、ターゲットの擬似ラベルを推論します。 次に,疑似ラベルを用いて学生ネットワークを訓練し,教師を正規化し,生徒の予測に適合させる。 この正規化は、ターゲットデータの教師予測がエポック間で一貫性を保つのに役立つ。 MSDAベンチマークにおけるMUSTの評価は、数値、テキストの感情分析、視覚オブジェクト認識の3つで、MUSTが現在のSoTAより優れていることを示している。 さらに,学習モデルが目標分布密度に従うことを示す最適化の解とダイナミクスを解析し,ラベル付き対象データ内の情報として暗黙的に利用した。

In Multi-Source Domain Adaptation (MSDA), models are trained on samples from multiple source domains and used for inference on a different, target, domain. Mainstream domain adaptation approaches learn a joint representation of source and target domains. Unfortunately, a joint representation may emphasize features that are useful for the source domains but hurt inference on target (negative transfer), or remove essential information about the target domain (knowledge fading). We propose Multi-source Student Teacher (MUST), a novel procedure designed to alleviate these issues. The key idea has two steps: First, we train a teacher network on source labels and infer pseudo labels on the target. Then, we train a student network using the pseudo labels and regularized the teacher to fit the student predictions. This regularization helps the teacher predictions on the target data remain consistent between epochs. Evaluations of MUST on three MSDA benchmarks: digits, text sentiment analysis, and visual-object recognition show that MUST outperforms current SoTA, sometimes by a very large margin. We further analyze the solutions and the dynamics of the optimization showing that the learned models follow the target distribution density, implicitly using it as information within the unlabeled target data.
翻訳日:2022-10-05 07:22:37 公開日:2020-10-20
# SoccerMap: サッカーにおける視覚的解釈可能な分析のためのディープラーニングアーキテクチャ

SoccerMap: A Deep Learning Architecture for Visually-Interpretable Analysis in Soccer ( http://arxiv.org/abs/2010.10202v1 )

ライセンス: Link先を確認
Javier Fern\'andez (1 and 2), Luke Bornn (3) ((1) Polytechnic University of Catalonia, (2) FC Barcelona, (3) Simon Fraser University)(参考訳) 本研究では,高周波時空間データからサッカーにおける潜在パスの完全な確率面を推定できる完全畳み込みニューラルネットワークアーキテクチャを提案する。 ネットワークは低レベルの入力の層を受け取り、異なるサンプリングレベルで予測を生成する特徴階層を学習し、粗さと細かな空間の詳細の両方をキャプチャする。 これらの予測を組み合わせることで、コーチが選手の位置や意思決定のきめ細かい分析を行えるような、どんなゲーム状況でも視覚的にリッチな確率曲面を作成できる。 本稿では,パス成功確率の推定においてネットワークの性能が著しく向上することを示すとともに,パス選択確率の推定と,パスの期待値の予測という2つの課題に容易に対応可能であることを示す。 提案手法は,1画素の接地結果と予測確率マップとの対応が存在しない場合に,完全な予測曲面を学習するための新しい解を提供する。 このアーキテクチャの柔軟性は、サッカーにおける様々な実践的な問題への適応を可能にする。 また,プレーヤレベルでのパスリスクの評価,最善のパスオプションの同定,チーム間のパス傾向の差異など,実用的な応用例も提示する。

We present a fully convolutional neural network architecture that is capable of estimating full probability surfaces of potential passes in soccer, derived from high-frequency spatiotemporal data. The network receives layers of low-level inputs and learns a feature hierarchy that produces predictions at different sampling levels, capturing both coarse and fine spatial details. By merging these predictions, we can produce visually-rich probability surfaces for any game situation that allows coaches to develop a fine-grained analysis of players' positioning and decision-making, an as-yet little-explored area in sports. We show the network can perform remarkably well in the estimation of pass success probability, and present how it can be adapted easily to approach two other challenging problems: the estimation of pass-selection likelihood and the prediction of the expected value of a pass. Our approach provides a novel solution for learning a full prediction surface when there is only a single-pixel correspondence between ground-truth outcomes and the predicted probability map. The flexibility of this architecture allows its adaptation to a great variety of practical problems in soccer. We also present a set of practical applications, including the evaluation of passing risk at a player level, the identification of the best potential passing options, and the differentiation of passing tendencies between teams.
翻訳日:2022-10-05 07:22:16 公開日:2020-10-20
# 半教師付き学習のための異方性グラフ畳み込みネットワーク

Anisotropic Graph Convolutional Network for Semi-supervised Learning ( http://arxiv.org/abs/2010.10284v1 )

ライセンス: Link先を確認
Mahsa Mesgaran and A. Ben Hamza(参考訳) グラフ畳み込みネットワークは、ノード分類などの半教師付き学習タスクにおいて、高精度な予測結果を達成するのに有用な効果的なノード埋め込みを学習する。 しかし、これらのネットワークは、線状ラプラシア流を用いてグラフの端に広がる特徴を拡散するため、グラフの過度な平滑化と縮小効果の問題に悩まされている。 この制限は、グラフノードに関連するラベルを予測することを目標とするノード分類のタスクにおいて特に問題となる。 この問題に対処するために,ノードから情報的特徴を捉える非線形関数を導入し,過度なスムーシングを防止し,半教師付きノード分類のための異方性グラフ畳み込みネットワークを提案する。 提案手法は画像および幾何処理における異方性拡散の優れた性能に大きく動機付けられ,局所グラフ構造とノード特徴に基づく非線形表現を学習する。 提案手法の有効性は,3つの引用ネットワークと2つの画像データセットで実証され,標準ベースライン法と比較して,より優れた分類精度が得られた。

Graph convolutional networks learn effective node embeddings that have proven to be useful in achieving high-accuracy prediction results in semi-supervised learning tasks, such as node classification. However, these networks suffer from the issue of over-smoothing and shrinking effect of the graph due in large part to the fact that they diffuse features across the edges of the graph using a linear Laplacian flow. This limitation is especially problematic for the task of node classification, where the goal is to predict the label associated with a graph node. To address this issue, we propose an anisotropic graph convolutional network for semi-supervised node classification by introducing a nonlinear function that captures informative features from nodes, while preventing oversmoothing. The proposed framework is largely motivated by the good performance of anisotropic diffusion in image and geometry processing, and learns nonlinear representations based on local graph structure and node features. The effectiveness of our approach is demonstrated on three citation networks and two image datasets, achieving better or comparable classification accuracy results compared to the standard baseline methods.
翻訳日:2022-10-05 07:21:55 公開日:2020-10-20
# TTPLA:送電塔と送電線の検出・分断のための航空画像データセット

TTPLA: An Aerial-Image Dataset for Detection and Segmentation of Transmission Towers and Power Lines ( http://arxiv.org/abs/2010.10032v1 )

ライセンス: Link先を確認
Rabab Abdelfattah, Xiaofeng Wang, and Song Wang(参考訳) 航空画像からの送信塔〜(TT)および送電線〜(PL)の正確な検出とセグメンテーションは、電力グリッドの安全と低高度UAVの安全性を保護する上で重要な役割を果たしている。 一方、TTとPLの空中画像は、オブジェクトの検出とセグメンテーションに取り組んでいるコンピュータビジョン研究者に、多くの新しい課題をもたらす -- PLは長くて薄く、背景と類似した色を示す可能性がある。 本稿では,3,840$\times$2,160ピクセルの解像度を持つ1,100の画像と,TTとPLの8,987インスタンスを手動でラベル付けしたTT/PL Aerial-image(TTPLA)データセットを収集,リリースする。 我々はTTPLAで画像の収集、注釈付け、ラベル付けを行う新しいポリシーを開発した。 他の関連するデータセットとは異なり、TTPLAは検出とセマンティックセグメンテーションに加えて、インスタンスセグメンテーションの評価をサポートする。 TTPLAにおける検出・セグメント化タスクのベースラインを構築するために,我々のデータセット上での最先端ディープラーニングモデルの性能について報告する。 TTPLAデータセットはhttps://github.com/r3ab/ttpla_datasetで公開されている。

Accurate detection and segmentation of transmission towers~(TTs) and power lines~(PLs) from aerial images plays a key role in protecting power-grid security and low-altitude UAV safety. Meanwhile, aerial images of TTs and PLs pose a number of new challenges to the computer vision researchers who work on object detection and segmentation -- PLs are long and thin, and may show similar color as the background; TTs can be of various shapes and most likely made up of line structures of various sparsity; The background scene, lighting, and object sizes can vary significantly from one image to another. In this paper we collect and release a new TT/PL Aerial-image (TTPLA) dataset, consisting of 1,100 images with the resolution of 3,840$\times$2,160 pixels, as well as manually labeled 8,987 instances of TTs and PLs. We develop novel policies for collecting, annotating, and labeling the images in TTPLA. Different from other relevant datasets, TTPLA supports evaluation of instance segmentation, besides detection and semantic segmentation. To build a baseline for detection and segmentation tasks on TTPLA, we report the performance of several state-of-the-art deep learning models on our dataset. TTPLA dataset is publicly available at https://github.com/r3ab/ttpla_dataset
翻訳日:2022-10-05 07:14:18 公開日:2020-10-20
# ランジュ・クッタ法による強安定保存型ロバストニューラルネットワーク

Robust Neural Networks inspired by Strong Stability Preserving Runge-Kutta methods ( http://arxiv.org/abs/2010.10047v1 )

ライセンス: Link先を確認
Byungjoo Kim, Bryce Chudomelka, Jinyoung Park, Jaewoo Kang, Youngjoon Hong, Hyunwoo J. Kim(参考訳) ディープニューラルネットワークは様々な分野で最先端のパフォーマンスを達成した。 近年の研究では、広く使われているニューラルネットワークのクラスを数値離散化のオイラー法とみなすことができる。 数値的な離散化の観点から、SSP法は正確な解と安定解の両方を生成する明示的なオイラー法よりも高度な手法である。 SSP特性と一般化したRunge-Kutta法により,敵攻撃に対するロバスト性を改善するSSPネットワーク(Strong stability Preserving Network)を提案する。 提案するネットワークは, 防御手法を使わずに, 敵の事例に対する堅牢性を向上させることを実証的に実証した。 さらに、SSPネットワークは最先端の対人訓練スキームと相補的である。 最後に,SSPネットワークが対向性摂動の爆発を抑制することを示す。 この結果から,数値離散化文学からの豊富な知識を生かしたニューラルネットワークの堅牢なアーキテクチャの研究方法が開かれた。

Deep neural networks have achieved state-of-the-art performance in a variety of fields. Recent works observe that a class of widely used neural networks can be viewed as the Euler method of numerical discretization. From the numerical discretization perspective, Strong Stability Preserving (SSP) methods are more advanced techniques than the explicit Euler method that produce both accurate and stable solutions. Motivated by the SSP property and a generalized Runge-Kutta method, we propose Strong Stability Preserving networks (SSP networks) which improve robustness against adversarial attacks. We empirically demonstrate that the proposed networks improve the robustness against adversarial examples without any defensive methods. Further, the SSP networks are complementary with a state-of-the-art adversarial training scheme. Lastly, our experiments show that SSP networks suppress the blow-up of adversarial perturbations. Our results open up a way to study robust architectures of neural networks leveraging rich knowledge from numerical discretization literature.
翻訳日:2022-10-05 07:13:53 公開日:2020-10-20
# リアルタイムローカライズされたフォトリアリスティックビデオスタイル転送

Real-time Localized Photorealistic Video Style Transfer ( http://arxiv.org/abs/2010.10056v1 )

ライセンス: Link先を確認
Xide Xia, Tianfan Xue, Wei-sheng Lai, Zheng Sun, Abby Chang, Brian Kulis, Jiawen Chen(参考訳) 本稿では,画像の意味的に意味のある局所領域の芸術的スタイルを,そのフォトリアリズムを維持しながら対象映像の局所領域に転送する新しいアルゴリズムを提案する。 ローカルリージョンは、画像から、ビデオセグメンテーションアルゴリズムを使用して、あるいはスクリブルのようなカジュアルなユーザーガイダンスから、完全に自動的に選択することができる。 我々の手法は,近年のフォトリアリスティックなスタイル転送の成果に触発されたディープニューラルネットワークアーキテクチャをベースとして,リアルタイムであり,多種多様な芸術的スタイルのデータセットでトレーニングされた場合,実行時最適化なしで任意の入力を扱う。 ビデオデータセットをノイズの多いセマンティックラベルで拡張し、スタイル、コンテンツ、マスク、時間的損失を共同最適化することにより、入力のさまざまな欠陥に対処し、視覚的なアーティファクトなしで時間的に一貫性のあるビデオを生成することができる。 提案手法は,複数のオブジェクトに異なるスタイルを同時に転送する機能や,時間内に異なるスタイルをスムーズに切り替える機能など,様々なスタイルの画像やターゲットビデオで実証する。

We present a novel algorithm for transferring artistic styles of semantically meaningful local regions of an image onto local regions of a target video while preserving its photorealism. Local regions may be selected either fully automatically from an image, through using video segmentation algorithms, or from casual user guidance such as scribbles. Our method, based on a deep neural network architecture inspired by recent work in photorealistic style transfer, is real-time and works on arbitrary inputs without runtime optimization once trained on a diverse dataset of artistic styles. By augmenting our video dataset with noisy semantic labels and jointly optimizing over style, content, mask, and temporal losses, our method can cope with a variety of imperfections in the input and produce temporally coherent videos without visual artifacts. We demonstrate our method on a variety of style images and target videos, including the ability to transfer different styles onto multiple objects simultaneously, and smoothly transition between styles in time.
翻訳日:2022-10-05 07:13:38 公開日:2020-10-20
# ICFHR 2020コンペティション:歴史的手書き破片の画像検索

ICFHR 2020 Competition on Image Retrieval for Historical Handwritten Fragments ( http://arxiv.org/abs/2010.10197v1 )

ライセンス: Link先を確認
Mathias Seuret, Anguelos Nicolaou, Dominique Stutzmann, Andreas Maier, Vincent Christlein(参考訳) このコンペティションは、歴史的な文書画像の作家とスタイル分析のためのコンペティションで成功している。 特に,歴史文書の断片の大規模検索性能について,スタイルと作者識別の観点から検討した。 歴史的断片の分析は、訓練された人文主義者によって一般的に解決される難しい課題である。 従来の競合と比較すると,サンプル粒度問題に対処し,著者からページフラグメント検索へ移行することで,より有意義な結果が得られる。 この2つのアプローチ、スタイルと著者識別は、各メソッドがよりよく利用する情報の種類に関する情報を提供し、参加者のメソッドの解釈可能性に間接的に寄与する。 そのため、120万以上のフラグメントからなる大きなデータセットを作成しました。 ほとんどのチームが畳み込みニューラルネットワークに基づく手法を提出しているが、勝利は40%未満のマップを達成している。

This competition succeeds upon a line of competitions for writer and style analysis of historical document images. In particular, we investigate the performance of large-scale retrieval of historical document fragments in terms of style and writer identification. The analysis of historic fragments is a difficult challenge commonly solved by trained humanists. In comparison to previous competitions, we make the results more meaningful by addressing the issue of sample granularity and moving from writer to page fragment retrieval. The two approaches, style and author identification, provide information on what kind of information each method makes better use of and indirectly contribute to the interpretability of the participating method. Therefore, we created a large dataset consisting of more than 120 000 fragments. Although the most teams submitted methods based on convolutional neural networks, the winning entry achieves an mAP below 40%.
翻訳日:2022-10-05 07:13:17 公開日:2020-10-20
# 個人コーパスによる読み出し時の高速メモリ検索予測

Individual corpora predict fast memory retrieval during reading ( http://arxiv.org/abs/2010.10176v1 )

ライセンス: Link先を確認
Markus J. Hofmann, Lara M\"uller, Andre R\"olke, Ralph Radach and Chris Biemann(参考訳) 予測言語モデルが訓練されたコーパスは、意味システムの経験と見なすことができる。 2人の参加者をタブレットで2ヶ月間毎日読み上げ、300/500kトークンの個々のコーパスサンプルを生成した。 次に、個人コーパスと7000万文の新聞コーパスからWord2vecモデルを訓練し、個人と標準に基づく長期記憶構造を得た。 コーパスが長期記憶検索の認知課題に対してより良い予測ができるかどうかを検証するために,非相関な個人と規範に基づく単語確率の134文からなる刺激材料を作成した。 1~2ヵ月後の眼球追跡研究において,本研究の回帰分析により,初回固定期間と初回視線継続期間は,標準コーパス型単語確率ではなく,個人が考慮できることが明らかとなった。 単語の長さは、視線持続時間と総視聴時間にも影響した。 その結果、個人の長期記憶構造を表すコーパスは、通常のコーパスよりも読み出し性能をよく説明でき、最近取得した情報も高速にアクセス可能であることが示唆された。

The corpus, from which a predictive language model is trained, can be considered the experience of a semantic system. We recorded everyday reading of two participants for two months on a tablet, generating individual corpus samples of 300/500K tokens. Then we trained word2vec models from individual corpora and a 70 million-sentence newspaper corpus to obtain individual and norm-based long-term memory structure. To test whether individual corpora can make better predictions for a cognitive task of long-term memory retrieval, we generated stimulus materials consisting of 134 sentences with uncorrelated individual and norm-based word probabilities. For the subsequent eye tracking study 1-2 months later, our regression analyses revealed that individual, but not norm-corpus-based word probabilities can account for first-fixation duration and first-pass gaze duration. Word length additionally affected gaze duration and total viewing duration. The results suggest that corpora representative for an individual's longterm memory structure can better explain reading performance than a norm corpus, and that recently acquired information is lexically accessed rapidly.
翻訳日:2022-10-05 07:12:32 公開日:2020-10-20
# リース契約レビューのベンチマーク

A Benchmark for Lease Contract Review ( http://arxiv.org/abs/2010.10386v1 )

ライセンス: Link先を確認
Spyretta Leivaditi, Julien Rossi, Evangelos Kanoulas(参考訳) 法的契約からエンティティやその他の有用な情報を抽出することは、法律専門家が契約レビューをより効率的に実行し、関連するリスクを減らすのに役立つ重要なタスクである。 本稿では,契約審査において重要な役割を担う2種類の要素,すなわちエンティティとレッドフラグを検出する問題に取り組む。 後者は、いずれかの署名者に対して、何らかの危険または他の潜在的な問題のある状況があることを示す用語または文である。 我々は,法律情報抽出文献においてほとんど注目されていない契約タイプであるリース契約の見直しを支援することに注力し,その作業に必要なエンティティの種類とレッドフラッグを定義する。 当社は179のリース契約文書のベンチマークデータセットを新たにリリースし、対象とするエンティティとレッドフラグを手作業でアノテートし、関連する抽出アルゴリズムのトレーニングとテストに使用します。 最後に、このデータセットで事前訓練されたALeaseBERTと呼ばれる新しい言語モデルをリリースし、上記の要素の検出を微調整し、さらなる研究のベースラインを提供する。

Extracting entities and other useful information from legal contracts is an important task whose automation can help legal professionals perform contract reviews more efficiently and reduce relevant risks. In this paper, we tackle the problem of detecting two different types of elements that play an important role in a contract review, namely entities and red flags. The latter are terms or sentences that indicate that there is some danger or other potentially problematic situation for one or more of the signing parties. We focus on supporting the review of lease agreements, a contract type that has received little attention in the legal information extraction literature, and we define the types of entities and red flags needed for that task. We release a new benchmark dataset of 179 lease agreement documents that we have manually annotated with the entities and red flags they contain, and which can be used to train and test relevant extraction algorithms. Finally, we release a new language model, called ALeaseBERT, pre-trained on this dataset and fine-tuned for the detection of the aforementioned elements, providing a baseline for further research
翻訳日:2022-10-05 07:11:53 公開日:2020-10-20
# 混合効果を用いた自然言語推論

Natural Language Inference with Mixed Effects ( http://arxiv.org/abs/2010.10501v1 )

ライセンス: Link先を確認
William Gantt, Benjamin Kane, Aaron Steven White(参考訳) 自然言語推論データセットの構築に使用される生アノテーションにおける不一致の頻度は、それらのアノテーションを単一のラベルに集約する一般的な方法であることを示す証拠が増えている。 本稿では,アノテータ応答バイアスから生じる不要な雑音にモデルを従わずに,アグリゲータのステップを省略し,生のアノテーションを直接訓練する汎用手法を提案する。 本手法は,既存のニューラルモデルに \textit{annotator random effects} を組み込むことにより,そのような効果を組み込まないモデルに対する性能を向上させることにより, \textit{mixed effects model} の概念を一般化したものである。

There is growing evidence that the prevalence of disagreement in the raw annotations used to construct natural language inference datasets makes the common practice of aggregating those annotations to a single label problematic. We propose a generic method that allows one to skip the aggregation step and train on the raw annotations directly without subjecting the model to unwanted noise that can arise from annotator response biases. We demonstrate that this method, which generalizes the notion of a \textit{mixed effects model} by incorporating \textit{annotator random effects} into any existing neural model, improves performance over models that do not incorporate such effects.
翻訳日:2022-10-05 07:05:44 公開日:2020-10-20
# より良いハイライト: サブ文の要約を作る

Better Highlighting: Creating Sub-Sentence Summary Highlights ( http://arxiv.org/abs/2010.10566v1 )

ライセンス: Link先を確認
Sangwoo Cho and Kaiqiang Song and Chen Li and Dong Yu and Hassan Foroosh and Fei Liu(参考訳) 要約する最善の方法はハイライトだ。 本稿では,読者が大量のテキストを閲覧しやすくするために,オリジナルの文書にオーバーレイされた要約ハイライトを生成することを目的とする。 この方法は、要約者が本来の意味を歪めるのを防ぐために、文脈で要約を理解することを可能にする。 特に,混乱を避けるために,自身で理解可能な自己完結型ハイライトを生成する新しい手法を提案する。 提案手法は決定点プロセスと深部文脈表現を組み合わせることで,重要かつ非冗長な部分文セグメントの最適集合を同定し,要約ハイライトを形成する。 本手法の柔軟性とモデリング能力を示すため,要約データセットを広範囲に実験した。 我々の分析は、ハイライトが将来の要約に向けた研究の有望な道であることを示す証拠を提供する。

Amongst the best means to summarize is highlighting. In this paper, we aim to generate summary highlights to be overlaid on the original documents to make it easier for readers to sift through a large amount of text. The method allows summaries to be understood in context to prevent a summarizer from distorting the original meaning, of which abstractive summarizers usually fall short. In particular, we present a new method to produce self-contained highlights that are understandable on their own to avoid confusion. Our method combines determinantal point processes and deep contextualized representations to identify an optimal set of sub-sentence segments that are both important and non-redundant to form summary highlights. To demonstrate the flexibility and modeling power of our method, we conduct extensive experiments on summarization datasets. Our analysis provides evidence that highlighting is a promising avenue of research towards future summarization.
翻訳日:2022-10-05 07:05:33 公開日:2020-10-20
# AutoMeTS: 医療用テキストの簡易化のためのオートコンプリート

AutoMeTS: The Autocomplete for Medical Text Simplification ( http://arxiv.org/abs/2010.10573v1 )

ライセンス: Link先を確認
Hoang Van, David Kauchak, Gondy Leroy(参考訳) テキスト単純化(TS)の目標は、難易度の高いテキストを、より理解しやすく、より幅広い読者にアクセスできるバージョンに変換することである。 医療など一部の領域では、情報を正確に保存しなければならないため、完全に自動化されたアプローチは使用できない。 代わりに、人間ライターがテキストを高速かつ高品質に単純化するのを補助する半自動化アプローチを使用することができる。 本稿では,医療領域におけるテキスト簡易化への自動補完の適用について検討する。 本稿では,単純な英語ウィキペディア文を用いた英語ウィキペディアの並列化と,このデータセットへの事前学習型ニューラル言語モデル(pnlms)の適用について検討する。 我々は,4つのPNLM(BERT,RoBERTa,XLNet,GPT-2)を比較し,より優れた結果を得るために,単純化すべき文の追加コンテキストを組み込む方法を示す(最高の個々のモデルに対して6.17%の絶対的な改善)。 また、4つのpnlmを組み合わせたアンサンブルモデルを導入し、最良の個人モデルの2.1%を上回り、全体の単語予測精度が64.52%となる。

The goal of text simplification (TS) is to transform difficult text into a version that is easier to understand and more broadly accessible to a wide variety of readers. In some domains, such as healthcare, fully automated approaches cannot be used since information must be accurately preserved. Instead, semi-automated approaches can be used that assist a human writer in simplifying text faster and at a higher quality. In this paper, we examine the application of autocomplete to text simplification in the medical domain. We introduce a new parallel medical data set consisting of aligned English Wikipedia with Simple English Wikipedia sentences and examine the application of pretrained neural language models (PNLMs) on this dataset. We compare four PNLMs(BERT, RoBERTa, XLNet, and GPT-2), and show how the additional context of the sentence to be simplified can be incorporated to achieve better results (6.17% absolute improvement over the best individual model). We also introduce an ensemble model that combines the four PNLMs and outperforms the best individual model by 2.1%, resulting in an overall word prediction accuracy of 64.52%.
翻訳日:2022-10-05 07:05:19 公開日:2020-10-20
# ガウスバイアス分布を用いたニュース記事中のメディアバイアスの検出

Detecting Media Bias in News Articles using Gaussian Bias Distributions ( http://arxiv.org/abs/2010.10649v1 )

ライセンス: Link先を確認
Wei-Fan Chen, Khalid Al-Khatib, Benno Stein and Henning Wachsmuth(参考訳) メディアは世論の形成に重要な役割を果たしている。 バイアスメディアは、望ましくない方向の人々に影響を及ぼす可能性がある。 低レベルの語彙情報の分布のみに依存する機能ベースおよびニューラルテキスト分類アプローチは,メディアバイアスの検出に失敗している。 この弱点は、単語が新しい文脈に現れ、その「バイアス予測性」が不明確である新しい出来事に関する記事で最も注目される。 そこで本研究では,論文中のバイアス文に関する2次情報がどのように検出効率を向上させるかを検討する。 特に、ガウス混合モデルにおいて、語彙的および情報的文レベルのバイアスの頻度、位置、逐次順序の確率分布を利用する。 既存のメディアバイアスデータセットでは、バイアス文の頻度と位置が記事レベルのバイアスに強く影響するのに対し、それらの正確な順序は二次的である。 文レベルのバイアス検出の標準モデルを用いて, 2次情報を用いた記事レベルのバイアス検出が, 文なしのバイアス検出よりも明らかに優れていることを示す。

Media plays an important role in shaping public opinion. Biased media can influence people in undesirable directions and hence should be unmasked as such. We observe that featurebased and neural text classification approaches which rely only on the distribution of low-level lexical information fail to detect media bias. This weakness becomes most noticeable for articles on new events, where words appear in new contexts and hence their "bias predictiveness" is unclear. In this paper, we therefore study how second-order information about biased statements in an article helps to improve detection effectiveness. In particular, we utilize the probability distributions of the frequency, positions, and sequential order of lexical and informational sentence-level bias in a Gaussian Mixture Model. On an existing media bias dataset, we find that the frequency and positions of biased statements strongly impact article-level bias, whereas their exact sequential order is secondary. Using a standard model for sentence-level bias detection, we provide empirical evidence that article-level bias detectors that use second-order information clearly outperform those without.
翻訳日:2022-10-05 07:04:58 公開日:2020-10-20
# 粒度の異なるニュース記事における政治的バイアスと不公平の分析

Analyzing Political Bias and Unfairness in News Articles at Different Levels of Granularity ( http://arxiv.org/abs/2010.10652v1 )

ライセンス: Link先を確認
Wei-Fan Chen, Khalid Al-Khatib, Henning Wachsmuth and Benno Stein(参考訳) メディア組織は、社会の信念や地位の形成に大きな影響を与えるため、大きな責任を負う。 例えば、政治的出来事を選択的または不完全な方法で報告することで、あらゆる形態のメディアは過度に偏ったコンテンツを含むことができる。 それゆえ、適切な質問は、そのような不均衡なニュース報道が露出できるかどうかと方法である。 本論文では, 偏見の自動検出だけでなく, 政治的偏見や不公平さが言語的にどのように表現されるかについても検討する。 本稿では,adfontesmedia.com由来のラベル付き6964ニュース記事の新しいコーパスを用いて,バイアス評価のためのニューラルモデルを開発した。 このモデルを記事抜粋で分析することにより、単語から記事全体まで、テキストの粒度の異なるレベルの洞察に富んだバイアスパターンが見つかる。

Media organizations bear great reponsibility because of their considerable influence on shaping beliefs and positions of our society. Any form of media can contain overly biased content, e.g., by reporting on political events in a selective or incomplete manner. A relevant question hence is whether and how such form of imbalanced news coverage can be exposed. The research presented in this paper addresses not only the automatic detection of bias but goes one step further in that it explores how political bias and unfairness are manifested linguistically. In this regard we utilize a new corpus of 6964 news articles with labels derived from adfontesmedia.com and develop a neural model for bias assessment. By analyzing this model on article excerpts, we find insightful bias patterns at different levels of text granularity, from single words to the whole article discourse.
翻訳日:2022-10-05 07:04:39 公開日:2020-10-20
# スタック変換器を用いた遷移解析

Transition-based Parsing with Stack-Transformers ( http://arxiv.org/abs/2010.10669v1 )

ライセンス: Link先を確認
Ramon Fernandez Astudillo, Miguel Ballesteros, Tahira Naseem, Austin Blodgett, Radu Florian(参考訳) パーサ状態のモデリングは、トランジションベースのパーサのパフォーマンス向上の鍵となる。 リカレントニューラルネットワークは、スタック-LSTMパーサなどのグローバル状態や、Bi-LSTMパーサのようなコンテキスト化された機能のローカル状態モデリングをモデル化することで、トランジションベースのシステムの性能を大幅に改善した。 近年の解析システムにおけるTransformerアーキテクチャの成功を踏まえ、この研究は、トランジッションベースの解析において、グローバルまたはローカルのパーサ状態をモデル化するためのSequence-to-Sequence Transformerアーキテクチャの変更について検討する。 トランスのクロスアテンション機構の修正は,依存性と抽象的意味表現 (amr) のパースタスク,特に小型モデルや限られたトレーニングデータにおいて,性能が大幅に向上することを示す。

Modeling the parser state is key to good performance in transition-based parsing. Recurrent Neural Networks considerably improved the performance of transition-based systems by modelling the global state, e.g. stack-LSTM parsers, or local state modeling of contextualized features, e.g. Bi-LSTM parsers. Given the success of Transformer architectures in recent parsing systems, this work explores modifications of the sequence-to-sequence Transformer architecture to model either global or local parser states in transition-based parsing. We show that modifications of the cross attention mechanism of the Transformer considerably strengthen performance both on dependency and Abstract Meaning Representation (AMR) parsing tasks, particularly for smaller models or limited training data.
翻訳日:2022-10-05 07:04:23 公開日:2020-10-20
# 自己学習によるAMR解析の限界を押し上げる

Pushing the Limits of AMR Parsing with Self-Learning ( http://arxiv.org/abs/2010.10673v1 )

ライセンス: Link先を確認
Young-Suk Lee, Ramon Fernandez Astudillo, Tahira Naseem, Revanth Gangi Reddy, Radu Florian, Salim Roukos(参考訳) 抽象的意味表現(AMR:Abstract Meaning Representation)解析は、転送学習の影響とAMR特有の新しいアーキテクチャの開発の両方により、過去2年間に顕著なパフォーマンス向上を経験してきた。 同時に、自己学習技術は、機械翻訳や質問応答など、他の自然言語処理アプリケーションのパフォーマンス境界を押し上げるのに役立った。 本稿では,合成テキストの生成やAMRアノテーションの生成,行動オラクルの洗練など,AMR解析性能を向上させるために訓練されたモデルを適用する方法について検討する。 AMR 1.0 と AMR 2.0 では,これらの手法は人間のアノテーションを使わずに,すでにパフォーマンスの高いパーサを改良し,最先端の結果を得られることを示す。

Abstract Meaning Representation (AMR) parsing has experienced a notable growth in performance in the last two years, due both to the impact of transfer learning and the development of novel architectures specific to AMR. At the same time, self-learning techniques have helped push the performance boundaries of other natural language processing applications, such as machine translation or question answering. In this paper, we explore different ways in which trained models can be applied to improve AMR parsing performance, including generation of synthetic text and AMR annotations as well as refinement of actions oracle. We show that, without any additional human annotations, these techniques improve an already performant parser and achieve state-of-the-art results on AMR 1.0 and AMR 2.0.
翻訳日:2022-10-05 07:04:07 公開日:2020-10-20
# より強く、より速く、より説明しやすい:骨格に基づく行動認識のためのグラフ畳み込みベースライン

Stronger, Faster and More Explainable: A Graph Convolutional Baseline for Skeleton-based Action Recognition ( http://arxiv.org/abs/2010.09978v1 )

ライセンス: Link先を確認
Yi-Fan Song, Zhang Zhang, Caifeng Shan and Liang Wang(参考訳) 骨格に基づく行動認識における重要な問題は、すべての骨格関節で識別的特徴を抽出する方法である。 しかし、このタスクのステートオフ・ザ・アルト(SOTA)モデルの複雑さは、モデルトレーニングと推論の低効率がフィールド、特に大規模アクションデータセットの開発を妨げているため、高度で過度にパラメータ化された傾向にある。 本研究では,グラフ畳み込みネットワーク(gcn)に基づく効率的かつ強固なベースラインを提案する。そこでは3つの主要な改善点,すなわち,ボトルネック構造を持つ早期融合多重入力ブランチ(mib),残差gcn(resgcn),パートワイズアテンション(partatt)ブロックを集約する。 まず、MIBは情報的骨格の特徴を豊かにし、初期の融合段階でコンパクトな表現を維持するように設計されている。 そして、畳み込みニューラルネットワーク(CNN)におけるResNetアーキテクチャの成功に触発されて、GCNにResGCNモジュールを導入し、計算コストを軽減し、モデルの精度を維持しながらモデルのトレーニングにおける学習困難を軽減する。 最後に、PartAttブロックは、アクションシーケンス全体に最も必要不可欠な部分を発見し、異なるスケルトンアクションシーケンスのより説明可能な表現を得るために提案される。 NTU RGB+D 60 と 120 という2つの大規模データセットに対する大規模な実験は、提案されたベースラインが他のSOTAモデルより若干優れており、一方で訓練や推論手順においてパラメータがはるかに少ないことを検証する。

One essential problem in skeleton-based action recognition is how to extract discriminative features over all skeleton joints. However, the complexity of the State-Of-The-Art (SOTA) models of this task tends to be exceedingly sophisticated and over-parameterized, where the low efficiency in model training and inference has obstructed the development in the field, especially for large-scale action datasets. In this work, we propose an efficient but strong baseline based on Graph Convolutional Network (GCN), where three main improvements are aggregated, i.e., early fused Multiple Input Branches (MIB), Residual GCN (ResGCN) with bottleneck structure and Part-wise Attention (PartAtt) block. Firstly, an MIB is designed to enrich informative skeleton features and remain compact representations at an early fusion stage. Then, inspired by the success of the ResNet architecture in Convolutional Neural Network (CNN), a ResGCN module is introduced in GCN to alleviate computational costs and reduce learning difficulties in model training while maintain the model accuracy. Finally, a PartAtt block is proposed to discover the most essential body parts over a whole action sequence and obtain more explainable representations for different skeleton action sequences. Extensive experiments on two large-scale datasets, i.e., NTU RGB+D 60 and 120, validate that the proposed baseline slightly outperforms other SOTA models and meanwhile requires much fewer parameters during training and inference procedures, e.g., at most 34 times less than DGNN, which is one of the best SOTA methods.
翻訳日:2022-10-05 07:03:53 公開日:2020-10-20
# 映像認識のための奥行き誘導適応型メタフュージョンネットワーク

Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition ( http://arxiv.org/abs/2010.09982v1 )

ライセンス: Link先を確認
Yuqian Fu, Li Zhang, Junke Wang, Yanwei Fu and Yu-Gang Jiang(参考訳) 既存のビデオ認識モデルは依然として大規模なラベル付きデータ入力に大きく依存している。 この観察は、わずかなラベル付きサンプルだけで新しいアクションを学習することを目的とした、数発のビデオアクション認識への関心の高まりを動機付けている。 本稿では,AMeFu-Netと呼ばれるビデオ認識のための深度誘導型適応メタフュージョンネットワークを提案する。 Concretely, we tackle the few-shot recognition problem from three aspects: firstly, we alleviate this extremely data-scarce problem by introducing depth information as a carrier of the scene, which will bring extra visual information to our model; secondly, we fuse the representation of original RGB clips with multiple non-strictly corresponding depth clips sampled by our temporal asynchronization augmentation mechanism, which synthesizes new instances at feature-level; thirdly, a novel Depth Guided Adaptive Instance Normalization (DGAdaIN) fusion module is proposed to fuse the two-stream modalities efficiently. さらに,数発の認識プロセスをよりうまく模倣するために,メタラーニング方式でモデルを訓練する。 いくつかの行動認識ベンチマークに関する広範囲な実験により,本モデルの有効性が示された。

Humans can easily recognize actions with only a few examples given, while the existing video recognition models still heavily rely on the large-scale labeled data inputs. This observation has motivated an increasing interest in few-shot video action recognition, which aims at learning new actions with only very few labeled samples. In this paper, we propose a depth guided Adaptive Meta-Fusion Network for few-shot video recognition which is termed as AMeFu-Net. Concretely, we tackle the few-shot recognition problem from three aspects: firstly, we alleviate this extremely data-scarce problem by introducing depth information as a carrier of the scene, which will bring extra visual information to our model; secondly, we fuse the representation of original RGB clips with multiple non-strictly corresponding depth clips sampled by our temporal asynchronization augmentation mechanism, which synthesizes new instances at feature-level; thirdly, a novel Depth Guided Adaptive Instance Normalization (DGAdaIN) fusion module is proposed to fuse the two-stream modalities efficiently. Additionally, to better mimic the few-shot recognition process, our model is trained in the meta-learning way. Extensive experiments on several action recognition benchmarks demonstrate the effectiveness of our model.
翻訳日:2022-10-05 07:03:22 公開日:2020-10-20
# 人間-物体間インタラクション検出のための文脈不均一グラフネットワーク

Contextual Heterogeneous Graph Network for Human-Object Interaction Detection ( http://arxiv.org/abs/2010.10001v1 )

ライセンス: Link先を確認
Hai Wang, Wei-Shi Zheng, and Ling Yingbiao(参考訳) 人間と物体の相互作用(HOI)検出は、人間の活動を理解する上で重要な課題である。 グラフ構造はシーン内のHOIを表すのに適している。 人間と物体の間には、主観的な役割と対象が客観的な役割を担っているため、場面における均質な実体と異質な実体の関係も等しくはならない。 しかし、従来のグラフモデルは人間とオブジェクトを同じ種類のノードとみなし、メッセージが異なるエンティティ間で等しく同じではないとは考えていない。 本稿では,人間とオブジェクトを異なるノードとしてモデル化し,均質ノード間のクラス内メッセージと異種ノード間のクラス間メッセージを統合するヘテロジニアスグラフネットワークを提案することで,hoiタスクのこのような問題に対処する。 さらに、クラス内コンテキストとクラス間コンテキストに基づくグラフ注目機構を利用して、学習を改善する。 ベンチマークデータセットであるV-COCOとHICO-DETの大規模な実験は、クラス内およびクラス間メッセージがHOI検出において非常に重要であることを示した。

Human-object interaction(HOI) detection is an important task for understanding human activity. Graph structure is appropriate to denote the HOIs in the scene. Since there is an subordination between human and object---human play subjective role and object play objective role in HOI, the relations between homogeneous entities and heterogeneous entities in the scene should also not be equally the same. However, previous graph models regard human and object as the same kind of nodes and do not consider that the messages are not equally the same between different entities. In this work, we address such a problem for HOI task by proposing a heterogeneous graph network that models humans and objects as different kinds of nodes and incorporates intra-class messages between homogeneous nodes and inter-class messages between heterogeneous nodes. In addition, a graph attention mechanism based on the intra-class context and inter-class context is exploited to improve the learning. Extensive experiments on the benchmark datasets V-COCO and HICO-DET demonstrate that the intra-class and inter-class messages are very important in HOI detection and verify the effectiveness of our method.
翻訳日:2022-10-05 07:03:07 公開日:2020-10-20
# 異種グラフネットワークによる抽象対話要約へのコモンセンス知識の導入

Incorporating Commonsense Knowledge into Abstractive Dialogue Summarization via Heterogeneous Graph Networks ( http://arxiv.org/abs/2010.10044v1 )

ライセンス: Link先を確認
Xiachong Feng, Xiaocheng Feng, Bing Qin, Ting Liu(参考訳) 抽象対話要約(abstractive dialogue summarization)とは、対話のハイライトを捉えて、簡潔なバージョンに書き直す作業である。 本稿では,対話理解と要約生成を容易にする大規模コモンセンス知識の実証を目的とした,新しい多話者対話要約器を提案する。 本稿では、発話と常識知識を2つの異なるタイプのデータとみなし、両方の情報をモデル化するための対話異種グラフネットワーク(D-HGN)を設計する。 また,情報フローを容易にするため,話者を異種ノードとして追加する。 SAMSumデータセットの実験結果から,本モデルが様々な手法より優れていることが示された。 また,議論的対話要約コーパス上でゼロショット設定実験を行い,本モデルが新たな領域により一般化できることを示す。

Abstractive dialogue summarization is the task of capturing the highlights of a dialogue and rewriting them into a concise version. In this paper, we present a novel multi-speaker dialogue summarizer to demonstrate how large-scale commonsense knowledge can facilitate dialogue understanding and summary generation. In detail, we consider utterance and commonsense knowledge as two different types of data and design a Dialogue Heterogeneous Graph Network (D-HGN) for modeling both information. Meanwhile, we also add speakers as heterogeneous nodes to facilitate information flow. Experimental results on the SAMSum dataset show that our model can outperform various methods. We also conduct zero-shot setting experiments on the Argumentative Dialogue Summary Corpus, the results show that our model can better generalized to the new domain.
翻訳日:2022-10-05 06:55:53 公開日:2020-10-20
# JUNLP@Dravidian-CodeMix-FIRE2020: Bi-Directional RNNとLanguage Tagsを用いたコードミクシングツイートの感性分類

JUNLP@Dravidian-CodeMix-FIRE2020: Sentiment Classification of Code-Mixed Tweets using Bi-Directional RNN and Language Tags ( http://arxiv.org/abs/2010.10111v1 )

ライセンス: Link先を確認
Sainik Kumar Mahata, Dipankar Das, Sivaji Bandyopadhyay(参考訳) 感情分析は過去20年間、活発な研究分野であり、最近ではソーシャルメディアの出現とともに、ソーシャルメディアのテキストに対する感情分析の需要が高まっている。 ソーシャルメディアのテキストは1つの言語ではなく、本質的にコードミックスされているため、伝統的な感情分類モデルは受け入れられない。 本稿では,この研究課題を解決し,双方向LSTMと言語タグ付けを用いて,ソーシャルメディアから抽出したコードミキシングタミルテキストの感情タグ付けを容易にする。 提案アルゴリズムは,テストデータに基づいて精度,リコール,F1スコアをそれぞれ0.59,0.66,0.58とした。

Sentiment analysis has been an active area of research in the past two decades and recently, with the advent of social media, there has been an increasing demand for sentiment analysis on social media texts. Since the social media texts are not in one language and are largely code-mixed in nature, the traditional sentiment classification models fail to produce acceptable results. This paper tries to solve this very research problem and uses bi-directional LSTMs along with language tagging, to facilitate sentiment tagging of code-mixed Tamil texts that have been extracted from social media. The presented algorithm, when evaluated on the test data, garnered precision, recall, and F1 scores of 0.59, 0.66, and 0.58 respectively.
翻訳日:2022-10-05 06:55:23 公開日:2020-10-20
# リニアコンテキストフリーリライトシステムを用いたスーパータグに基づく構文解析

Supertagging-based Parsing with Linear Context-free Rewriting Systems ( http://arxiv.org/abs/2010.10238v1 )

ライセンス: Link先を確認
Richard M\"orbitz and Thomas Ruprecht(参考訳) LCFRSのための最初のスーパータグベースのパーサを提案する。 ニューラル分類器を使用し、従来のLCFRSベースのパーサを精度と解析速度の両方で大幅に上回っている。 さらに,本研究の結果は,最も優れた(一般)不連続なパーサー,特に不連続な構成員のスコアが優れている。 筆者らのアプローチの核心は,不連続木バンクからレキシカルLCFRSを誘導する効率的なレキシカル化法である。 これはM\"orbitz and Ruprecht"(2020年)による以前の作品の適応である。 また,正規のチャートベースのlcfr構文解析の修正について述べるとともに,辞書的lcfrs導出を元のツリーバンクの等価な構文解析木に変換する手順を提案する。 提案手法は, イングリッシュ・不連続ペン・ツリーバンクとドイツのコーパスNeGraとTigerを用いて実装し, 評価した。

We present the first supertagging-based parser for LCFRS. It utilizes neural classifiers and tremendously outperforms previous LCFRS-based parsers in both accuracy and parsing speed. Moreover, our results keep up with the best (general) discontinuous parsers, particularly the scores for discontinuous constitutents are excellent. The heart of our approach is an efficient lexicalization procedure which induces a lexical LCFRS from any discontinuous treebank. It is an adaptation of previous work by M\"orbitz and Ruprecht (2020). We also describe a modification to usual chart-based LCFRS parsing that accounts for supertagging and introduce a procedure for the transformation of lexical LCFRS derivations into equivalent parse trees of the original treebank. Our approach is implemented and evaluated on the English Discontinuous Penn Treebank and the German corpora NeGra and Tiger.
翻訳日:2022-10-05 06:55:09 公開日:2020-10-20
# 機械読解のための双方向認知思考ネットワーク

Bi-directional Cognitive Thinking Network for Machine Reading Comprehension ( http://arxiv.org/abs/2010.10286v1 )

ライセンス: Link先を確認
Wei Peng, Yue Hu, Luxi Xing, Yuqiang Xie, Jing Yu, Yajing Sun, Xiangpeng Wei(参考訳) 本稿では,補足学習システム理論の観点から理解を読み取るための双方向認知知識フレームワーク(bckf)を提案する。 逆思考や慣性思考など、脳内の2つの考え方をシミュレートして質問に答えることを目的としている。 提案手法の有効性を検証するため,両方向認知思考ネットワーク (BCTN) を設計し,その経路を符号化し,回答(質問)を得た質問(回答)を生成し,双方向の知識を分離する。 このモデルは推論の質問を逆転させ、慣性思考がより正確な答えを生み出すのを助けることができる。 競合的改善はDuReaderデータセットで観測され、双方向の知識がQAタスクに役立つという仮説を確認します。 この新しい枠組みは、機械読解と認知科学に関する興味深い視点を示している。

We propose a novel Bi-directional Cognitive Knowledge Framework (BCKF) for reading comprehension from the perspective of complementary learning systems theory. It aims to simulate two ways of thinking in the brain to answer questions, including reverse thinking and inertial thinking. To validate the effectiveness of our framework, we design a corresponding Bi-directional Cognitive Thinking Network (BCTN) to encode the passage and generate a question (answer) given an answer (question) and decouple the bi-directional knowledge. The model has the ability to reverse reasoning questions which can assist inertial thinking to generate more accurate answers. Competitive improvement is observed in DuReader dataset, confirming our hypothesis that bi-directional knowledge helps the QA task. The novel framework shows an interesting perspective on machine reading comprehension and cognitive science.
翻訳日:2022-10-05 06:54:54 公開日:2020-10-20
# 低リソース言語における対話型知識ベース綴り補正モデルの比較

Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages ( http://arxiv.org/abs/2010.10472v1 )

ライセンス: Link先を確認
Yiyuan Li, Antonios Anastasopoulos, Alan W Black(参考訳) 低リソース言語のための綴りの正規化は、パターンの予測が困難で、大量のコーパスが十分なサンプルを集める必要があるため、難しい作業である。 この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。 私たちの利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、例えばチャットアプリ内では、より多くのデータが収集されるにつれてモデルが改善されます。 このようなモデルは、ユーザからのフィードバックによって徐々に改善されるように設計されている。 本研究では,低リソース言語における綴り補正のための知識ベースおよび予測モデル組込みシステムを設計する。 複数の言語での実験結果から,少量のデータでモデルの有効性が示された。 自然データと合成データの両方、および絶滅危惧言語(アイヌ語とグリコ語)のデータについて実験を行った。 最後に、Hinglishの小さなケーススタディに使用したプロトタイプシステムを構築し、実世界のシナリオにおける我々のアプローチの適合性をさらに実証した。

Spelling normalization for low resource languages is a challenging task because the patterns are hard to predict and large corpora are usually required to collect enough examples. This work shows a comparison of a neural model and character language models with varying amounts on target language data. Our usage scenario is interactive correction with nearly zero amounts of training examples, improving models as more data is collected, for example within a chat app. Such models are designed to be incrementally improved as feedback is given from users. In this work, we design a knowledge-base and prediction model embedded system for spelling correction in low-resource languages. Experimental results on multiple languages show that the model could become effective with a small amount of data. We perform experiments on both natural and synthetic data, as well as on data from two endangered languages (Ainu and Griko). Last, we built a prototype system that was used for a small case study on Hinglish, which further demonstrated the suitability of our approach in real world scenarios.
翻訳日:2022-10-05 06:54:07 公開日:2020-10-20
# オークションにおけるオンライン学習のリアルタイム最適化

Real-Time Optimisation for Online Learning in Auctions ( http://arxiv.org/abs/2010.10070v1 )

ライセンス: Link先を確認
Lorenzo Croissant, Marc Abeille, Cl\'ement Calauz\`enes(参考訳) ディスプレイ広告では、売り手と入札者の小さなグループが1日に最大10回のオークションで対決する。 この文脈では、独占価格学習による収益の最大化は売り手にとって価値の高い問題である。 本質的に、これらのオークションはオンラインであり、非常に高い頻度のデータストリームを生み出す。 この結果、アルゴリズムをリアルタイムに要求する計算負荷が発生する。 残念ながら、バッチ設定から継承された既存のメソッドは、更新毎にO($\sqrt t$)時間/メモリの複雑さに悩まされ、使用を禁止している。 本稿では,時間と記憶の更新が一定であるオンラインオークションにおいて,モノポリー価格のオンライン学習のための最初のアルゴリズムを提供する。

In display advertising, a small group of sellers and bidders face each other in up to 10 12 auctions a day. In this context, revenue maximisation via monopoly price learning is a high-value problem for sellers. By nature, these auctions are online and produce a very high frequency stream of data. This results in a computational strain that requires algorithms be real-time. Unfortunately, existing methods inherited from the batch setting suffer O($\sqrt t$) time/memory complexity at each update, prohibiting their use. In this paper, we provide the first algorithm for online learning of monopoly prices in online auctions whose update is constant in time and memory.
翻訳日:2022-10-05 06:48:11 公開日:2020-10-20
# Dual Averagingは、ディープラーニングの最適化に驚くほど効果的である

Dual Averaging is Surprisingly Effective for Deep Learning Optimization ( http://arxiv.org/abs/2010.10502v1 )

ライセンス: Link先を確認
Samy Jelassi, Aaron Defazio(参考訳) 1次確率最適化法は現在、ディープニューラルネットワークを訓練するための最も広く使われている手法である。 しかし、オプティマイザの選択はアドホックなルールとなり、パフォーマンスに大きな影響を与えます。 例えば、運動量を持つSGD(SGD+M)は一般的にコンピュータビジョン(CV)で使用され、Adamは自然言語処理(NLP)のトランスフォーマーモデルのトレーニングに使用される。 間違ったメソッドを使用すると、パフォーマンスが大幅に低下する可能性がある。 二元平均化アルゴリズムに触発されて、cvではsgd+m、nlpではadamとして動作可能な最適化器であるmodernized dual averaging (mda)を提案する。 私たちの手法は適応性がなく、Adamよりかなりシンプルです。 我々は、MDAがバニラSGD+Mと比較して崩壊しない$L_2$-regularizationを誘導していることを示し、これがSGD+Mが失敗するNLP問題に作用する理由を説明できるかもしれないと仮説を立てた。

First-order stochastic optimization methods are currently the most widely used class of methods for training deep neural networks. However, the choice of the optimizer has become an ad-hoc rule that can significantly affect the performance. For instance, SGD with momentum (SGD+M) is typically used in computer vision (CV) and Adam is used for training transformer models for Natural Language Processing (NLP). Using the wrong method can lead to significant performance degradation. Inspired by the dual averaging algorithm, we propose Modernized Dual Averaging (MDA), an optimizer that is able to perform as well as SGD+M in CV and as Adam in NLP. Our method is not adaptive and is significantly simpler than Adam. We show that MDA induces a decaying uncentered $L_2$-regularization compared to vanilla SGD+M and hypothesize that this may explain why it works on NLP problems where SGD+M fails.
翻訳日:2022-10-05 06:47:22 公開日:2020-10-20
# Claw U-Net: 硬化血管分離のための深い特徴結合を有するUnetベースのネットワーク

Claw U-Net: A Unet-based Network with Deep Feature Concatenation for Scleral Blood Vessel Segmentation ( http://arxiv.org/abs/2010.10163v1 )

ライセンス: Link先を確認
Chang Yao, Jingyu Tang, Menghan Hu, Yue Wu, Wenyi Guo, Qingli Li, Xiao-Ping Zhang(参考訳) SWS(Sturge-Weber syndrome)は、血管奇形疾患であり、患者の症状が重篤な場合、失明を引き起こす可能性がある。 臨床検査の結果,swsは硬化血管の特徴に基づいて2種類に分類できることがわかった。 したがって, 硬化血管を正確に分画する方法は, コンピュータ診断において重要な問題となっている。 本研究では,下層の特徴マップを連続的にアップサンプリングして画像の詳細を保存し,UNetをベースとした新しいClaw UNetを設計することを提案する。 具体的には、残余構造を用いて特徴抽出段階におけるネットワーク層数を増やし、より深い特徴を学習する。 復号段階において、符号化、アップサンプリング、復号部品の特徴を融合させることで、Claw UNetは硬化血管の細粒部において効果的にセグメンテーションを行うことができる。 小血管を効果的に抽出するために,注意機構を用いて画像中の各位置の注意係数を計算する。 claw unetは、強膜血管画像データセット上の他のunetベースのネットワークよりも優れている。

Sturge-Weber syndrome (SWS) is a vascular malformation disease, and it may cause blindness if the patient's condition is severe. Clinical results show that SWS can be divided into two types based on the characteristics of scleral blood vessels. Therefore, how to accurately segment scleral blood vessels has become a significant problem in computer-aided diagnosis. In this research, we propose to continuously upsample the bottom layer's feature maps to preserve image details, and design a novel Claw UNet based on UNet for scleral blood vessel segmentation. Specifically, the residual structure is used to increase the number of network layers in the feature extraction stage to learn deeper features. In the decoding stage, by fusing the features of the encoding, upsampling, and decoding parts, Claw UNet can achieve effective segmentation in the fine-grained regions of scleral blood vessels. To effectively extract small blood vessels, we use the attention mechanism to calculate the attention coefficient of each position in images. Claw UNet outperforms other UNet-based networks on scleral blood vessel image dataset.
翻訳日:2022-10-05 06:47:04 公開日:2020-10-20
# 合成訓練データセットを用いたマイクロct画像を用いた臨床ct画像のクロスモダリティ超解像

Micro CT Image-Assisted Cross Modality Super-Resolution of Clinical CT Images Utilizing Synthesized Training Dataset ( http://arxiv.org/abs/2010.10207v1 )

ライセンス: Link先を確認
Tong Zheng, Hirohisa Oda, Masahiro Oda, Shota Nakamura, Masaki Mori, Hirotsugu Takabatake, Hiroshi Natori, Kensaku Mori(参考訳) 本稿では,臨床CTのSRをマイクロCT(\mu$CT)の解像度レベルに変換するための,新しい非教師付き超解像(SR)アプローチを提案する。 肺癌の正確な非侵襲診断は、通常臨床CTデータを利用する。 臨床的CTの解像度の限界(約0.5 \times 0.5 \times 0.5$ mm$^3$)のため,アルベオリレベルの浸潤領域のような十分な病理情報を得ることは困難である。 一方、$\mu$ctスキャンでは、より高解像度の肺検体量(50 \times 50 \times 50 \mu {\rm m}^3$ 以上)を取得することができる。 したがって, 肺がんの診断には, 臨床CTの高解像度化が有用である。 典型的なSR法では、トレーニングには低解像度(LR)と高解像度(HR)の画像の整列対が必要となる。 残念ながら、一対の臨床的ctと$\mu$ctの肺組織を得ることは不可能である。 LRとHRのペア画像を必要としない非教師付きSR法が求められている。 本稿では,CycleGANを改良した$\mu$CT画像から臨床CT画像をシミュレートすることにより,対応する臨床CT-$\mu$CTペアを作成する。 その後, SRGAN に基づく SR ネットワークの訓練に SRGAN を用いた SRGAN を用いた SR-$\mu$CT 画像ペアを用いた。 最後に,訓練されたSRネットワークを用いて臨床CT画像のSRを行う。 提案手法をSR-CycleGANという臨床CT画像の教師なしSR法と比較した。 実験により, 肺がん患者の臨床CT画像のSRを$\mu$CTの解像度で行うことができ, SSIM(構造類似度)を0.40から0.51に改善し, 定量的, 質的に優れる従来法(SR-CycleGAN)が得られた。

This paper proposes a novel, unsupervised super-resolution (SR) approach for performing the SR of a clinical CT into the resolution level of a micro CT ($\mu$CT). The precise non-invasive diagnosis of lung cancer typically utilizes clinical CT data. Due to the resolution limitations of clinical CT (about $0.5 \times 0.5 \times 0.5$ mm$^3$), it is difficult to obtain enough pathological information such as the invasion area at alveoli level. On the other hand, $\mu$CT scanning allows the acquisition of volumes of lung specimens with much higher resolution ($50 \times 50 \times 50 \mu {\rm m}^3$ or higher). Thus, super-resolution of clinical CT volume may be helpful for diagnosis of lung cancer. Typical SR methods require aligned pairs of low-resolution (LR) and high-resolution (HR) images for training. Unfortunately, obtaining paired clinical CT and $\mu$CT volumes of human lung tissues is infeasible. Unsupervised SR methods are required that do not need paired LR and HR images. In this paper, we create corresponding clinical CT-$\mu$CT pairs by simulating clinical CT images from $\mu$CT images by modified CycleGAN. After this, we use simulated clinical CT-$\mu$CT image pairs to train an SR network based on SRGAN. Finally, we use the trained SR network to perform SR of the clinical CT images. We compare our proposed method with another unsupervised SR method for clinical CT images named SR-CycleGAN. Experimental results demonstrate that the proposed method can successfully perform SR of clinical CT images of lung cancer patients with $\mu$CT level resolution, and quantitatively and qualitatively outperformed conventional method (SR-CycleGAN), improving the SSIM (structure similarity) form 0.40 to 0.51.
翻訳日:2022-10-05 06:46:45 公開日:2020-10-20
# 画像間翻訳による新型コロナウイルス胸部X線の合成

Synthesis of COVID-19 Chest X-rays using Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2010.10266v1 )

ライセンス: Link先を確認
Hasib Zunair and A. Ben Hamza(参考訳) コロナウイルス病2019 (COVID-19) の陽性患者の胸部X線画像の公開データセットが欠如していることから、クラス条件と対人訓練を利用して、教師なし領域適応アプローチを用いて、高忠実度の合成新型コロナウイルスの胸部X線画像の最初のオープンデータセットを構築した。 私たちの貢献は2倍です。 まず,新たな訓練セットとして合成画像を用いた場合,さまざまなディープラーニングアーキテクチャを用いたcovid-19検出の性能向上を示す。 第2に,画像合成法がデータ匿名化ツールとしてどのように機能するかを,合成データのみを訓練した場合に比較して示す。 さらに、提案したデータ生成フレームワークは、特にCOVID-19の検出や、一般の医療画像分類タスクに対して実行可能なソリューションを提供する。 ベンチマークデータセットは21,295個の合成covid-19胸部x線画像からなる。 このデータセットから得られた洞察は、新型コロナウイルスのパンデミックとの戦いにおける予防行動に利用できる。

Motivated by the lack of publicly available datasets of chest radiographs of positive patients with Coronavirus disease 2019 (COVID-19), we build the first-of-its-kind open dataset of synthetic COVID-19 chest X-ray images of high fidelity using an unsupervised domain adaptation approach by leveraging class conditioning and adversarial training. Our contributions are twofold. First, we show considerable performance improvements on COVID-19 detection using various deep learning architectures when employing synthetic images as additional training set. Second, we show how our image synthesis method can serve as a data anonymization tool by achieving comparable detection performance when trained only on synthetic data. In addition, the proposed data generation framework offers a viable solution to the COVID-19 detection in particular, and to medical image classification tasks in general. Our publicly available benchmark dataset consists of 21,295 synthetic COVID-19 chest X-ray images. The insights gleaned from this dataset can be used for preventive actions in the fight against the COVID-19 pandemic.
翻訳日:2022-10-05 06:46:09 公開日:2020-10-20
# インタラクティブな3次元シーンモデリングのための画像駆動家具スタイル

Image-Driven Furniture Style for Interactive 3D Scene Modeling ( http://arxiv.org/abs/2010.10557v1 )

ライセンス: Link先を確認
Tomer Weiss, Ilkay Yildiz, Nitin Agarwal, Esra Ataer-Cansizoglu, Jae-Woo Choi(参考訳) リアルなスタイルの空間を作るのは複雑な作業で、家具の組み立てのノウハウをデザインする。 内部スタイルは、色、幾何学、その他の視覚要素を含む抽象的な規則に従う。 このようなルールに従うと、ユーザは3D家具モデルの大規模なリポジトリから同様のアイテムを手作業で選択する。 室内のシーン画像から家具のスタイル適合性を学習し,スタイル類似性タスクを高速に追跡する手法を提案する。 これらの画像は、単一の家具を描いたものよりも多くのスタイル情報を含んでいる。 スタイルを理解するために,分類タスクでディープラーニングネットワークを訓練する。 ネットワークから抽出した画像埋め込みに基づいて,家具のスタイリスティックな互換性を測定する。 提案手法は,複数の3次元モデルスタイル適合性結果と,スタイル一貫性シーンをモデル化するためのインタラクティブシステムを用いて実証する。

Creating realistic styled spaces is a complex task, which involves design know-how for what furniture pieces go well together. Interior style follows abstract rules involving color, geometry and other visual elements. Following such rules, users manually select similar-style items from large repositories of 3D furniture models, a process which is both laborious and time-consuming. We propose a method for fast-tracking style-similarity tasks, by learning a furniture's style-compatibility from interior scene images. Such images contain more style information than images depicting single furniture. To understand style, we train a deep learning network on a classification task. Based on image embeddings extracted from our network, we measure stylistic compatibility of furniture. We demonstrate our method with several 3D model style-compatibility results, and with an interactive system for modeling style-consistent scenes.
翻訳日:2022-10-05 06:45:50 公開日:2020-10-20
# Cue Me In: インタラクティブなストーリー生成へのコンテンツ誘導アプローチ

Cue Me In: Content-Inducing Approaches to Interactive Story Generation ( http://arxiv.org/abs/2010.09935v1 )

ライセンス: Link先を確認
Faeze Brahman, Alexandru Petrusca, and Snigdha Chaturvedi(参考訳) ストーリーの自動生成は、トピックに関する事象の因果関係と論理的シーケンスを生成する必要がある、難しい問題である。 この領域のこれまでのアプローチは、言語モデルがユーザからの限られた初期入力に基づいて完全なストーリーを出力するワンショット生成に主に焦点を合わせてきた。 ここでは、対話的なストーリー生成のタスクに焦点をあて、ユーザが生成プロセス中にキューフレーズの形でモデルの中間レベルの文抽象化を提供する。 これは、ユーザによるストーリー生成のガイドとなるインターフェースを提供する。 この追加情報を効果的に活用するための2つのコンテンツ誘導手法を提案する。 自動評価と人的評価の両方による実験結果から,これらの手法は,ベースライン手法と比較して,よりトポロジ的な一貫性とパーソナライズされたストーリーを生み出すことが示された。

Automatically generating stories is a challenging problem that requires producing causally related and logical sequences of events about a topic. Previous approaches in this domain have focused largely on one-shot generation, where a language model outputs a complete story based on limited initial input from a user. Here, we instead focus on the task of interactive story generation, where the user provides the model mid-level sentence abstractions in the form of cue phrases during the generation process. This provides an interface for human users to guide the story generation. We present two content-inducing approaches to effectively incorporate this additional information. Experimental results from both automatic and human evaluations show that these methods produce more topically coherent and personalized stories compared to baseline methods.
翻訳日:2022-10-05 06:45:21 公開日:2020-10-20
# 深層強化学習によるチーム形成の交渉

Negotiating Team Formation Using Deep Reinforcement Learning ( http://arxiv.org/abs/2010.10380v1 )

ライセンス: Link先を確認
Yoram Bachrach, Richard Everett, Edward Hughes, Angeliki Lazaridou, Joel Z. Leibo, Marc Lanctot, Michael Johanson, Wojciech M. Czarnecki, Thore Graepel(参考訳) 自律エージェントが同じ環境で対話する場合、目標を達成するためにしばしば協力しなければならない。 エージェントが効果的に協力する一つの方法は、チームを結成し、共同計画に拘束力のある合意を結び、実行することである。 しかし、エージェントが自己関心がある場合、合意のインセンティブを得るためには、チーム形成からの利益を適切に割り当てる必要があります。 マルチエージェント交渉のための様々なアプローチが提案されているが、通常は特定の交渉プロトコルでのみ機能する。 より一般的な方法は、通常人間の入力やドメイン固有のデータを必要とするため、スケールしない。 そこで本研究では,深層強化学習を用いてチームを編成・交渉する訓練エージェントの枠組みを提案する。 重要なことは、本手法は特定の交渉プロトコルを仮定せず、完全に経験駆動である。 我々は,非空間的および空間的に拡張されたチーム形成交渉環境における我々のアプローチを評価し,エージェントが手作りのボットを打ち負かし,協調ゲーム理論によって予測された公正な解決と一致した交渉結果に達することを実証した。 さらに,エージェントの物理的位置が交渉結果に与える影響について検討する。

When autonomous agents interact in the same environment, they must often cooperate to achieve their goals. One way for agents to cooperate effectively is to form a team, make a binding agreement on a joint plan, and execute it. However, when agents are self-interested, the gains from team formation must be allocated appropriately to incentivize agreement. Various approaches for multi-agent negotiation have been proposed, but typically only work for particular negotiation protocols. More general methods usually require human input or domain-specific data, and so do not scale. To address this, we propose a framework for training agents to negotiate and form teams using deep reinforcement learning. Importantly, our method makes no assumptions about the specific negotiation protocol, and is instead completely experience driven. We evaluate our approach on both non-spatial and spatially extended team-formation negotiation environments, demonstrating that our agents beat hand-crafted bots and reach negotiation outcomes consistent with fair solutions predicted by cooperative game theory. Additionally, we investigate how the physical location of agents influences negotiation outcomes.
翻訳日:2022-10-05 06:38:17 公開日:2020-10-20
# BERT2DNN:オンラインEコマース検索のための大量の未ラベルデータによるBERT蒸留

BERT2DNN: BERT Distillation with Massive Unlabeled Data for Online E-Commerce Search ( http://arxiv.org/abs/2010.10442v1 )

ライセンス: Link先を確認
Yunjiang Jiang, Yue Shang, Ziyang Liu, Hongwei Shen, Yun Xiao, Wei Xiong, Sulong Xu, Weipeng Yan and Di Jin(参考訳) 関連性は、Eコマース検索プラットフォームのユーザエクスペリエンスとビジネス利益に大きな影響を与える。 本研究では,BERTと関連する多層トランスフォーマー教師モデルから知識を抽出し,大量のラベル付きデータを含む単純なフィードフォワードネットワークに変換することで,検索関連性予測のためのデータ駆動フレームワークを提案する。 蒸留プロセスは、教師モデルの新しいクエリに対する99%以上のテスト精度を、数桁低いサービスコストで回復する学生モデルを生成する(BERT-Baseより150倍低く、最も効率的なBERT変種であるTinyBERTより15倍低い)。 温度再スケーリングと教師モデルのスタック化の応用は,学生モデルの複雑さを増すことなく,モデルの精度をさらに向上させる。 本稿では,社内Eコマース検索関連データとGLUEベンチマークによる感情分析に基づく公開データの両方について実験を行った。 後者は、潜在的に騒がしいラベルを無視しながら、より大きなスケールの他の関連する公開データセットを利用する。 組み込み分析と社内データに関するケーススタディは、結果モデルの強みをさらに強調する。 データ処理とモデルトレーニングのソースコードを公開することにより、ここで提示される技術は、最先端の機械学習ハードウェアにアクセスできない小組織のために、アートトランスフォーマーモデルの状態のエネルギー消費を削減するのに役立つことを願っている。

Relevance has significant impact on user experience and business profit for e-commerce search platform. In this work, we propose a data-driven framework for search relevance prediction, by distilling knowledge from BERT and related multi-layer Transformer teacher models into simple feed-forward networks with large amount of unlabeled data. The distillation process produces a student model that recovers more than 97\% test accuracy of teacher models on new queries, at a serving cost that's several magnitude lower (latency 150x lower than BERT-Base and 15x lower than the most efficient BERT variant, TinyBERT). The applications of temperature rescaling and teacher model stacking further boost model accuracy, without increasing the student model complexity. We present experimental results on both in-house e-commerce search relevance data as well as a public data set on sentiment analysis from the GLUE benchmark. The latter takes advantage of another related public data set of much larger scale, while disregarding its potentially noisy labels. Embedding analysis and case study on the in-house data further highlight the strength of the resulting model. By making the data processing and model training source code public, we hope the techniques presented here can help reduce energy consumption of the state of the art Transformer models and also level the playing field for small organizations lacking access to cutting edge machine learning hardwares.
翻訳日:2022-10-05 06:37:43 公開日:2020-10-20
# 新型コロナウイルス対策の最適化のための強化学習

Reinforcement Learning for Optimization of COVID-19 Mitigation policies ( http://arxiv.org/abs/2010.10560v1 )

ライセンス: Link先を確認
Varun Kompella, Roberto Capobianco, Stacy Jong, Jonathan Browne, Spencer Fox, Lauren Meyers, Peter Wurman, Peter Stone(参考訳) 2020年は、新型コロナウイルス(covid-19)が世界最悪のパンデミックにつながった年だ。 その結果、世界中の政府は、経済を最大限に維持しつつ、公衆衛生を守るという課題に直面している。 疫学モデルは、これらの病気の拡散に関する洞察を与え、介入政策の効果を予測する。 しかし、これまでで最もデータ駆動型の介入政策でさえヒューリスティックスに依存している。 本稿では,病院の容量を超過することなく経済への影響を最小限に抑えるための緩和策として,強化学習(RL)をいかに活用できるかを検討する。 本研究の主な貢献は,(1)地域内の特定の場所にいる人々間のきめ細かな相互作用をモデル化できるエージェントベースのパンデミックシミュレータ,(2)このシミュレータ内でのきめ細かな緩和ポリシーを最適化するためのRLベースの方法論である。 本結果は,現実的な条件下でのシミュレーション行動と学習方針の両方を検証した。

The year 2020 has seen the COVID-19 virus lead to one of the worst global pandemics in history. As a result, governments around the world are faced with the challenge of protecting public health, while keeping the economy running to the greatest extent possible. Epidemiological models provide insight into the spread of these types of diseases and predict the effects of possible intervention policies. However, to date,the even the most data-driven intervention policies rely on heuristics. In this paper, we study how reinforcement learning (RL) can be used to optimize mitigation policies that minimize the economic impact without overwhelming the hospital capacity. Our main contributions are (1) a novel agent-based pandemic simulator which, unlike traditional models, is able to model fine-grained interactions among people at specific locations in a community; and (2) an RL-based methodology for optimizing fine-grained mitigation policies within this simulator. Our results validate both the overall simulator behavior and the learned policies under realistic conditions.
翻訳日:2022-10-05 06:37:20 公開日:2020-10-20
# 強化学習を用いたランタイム安全性保証

Runtime Safety Assurance Using Reinforcement Learning ( http://arxiv.org/abs/2010.10618v1 )

ライセンス: Link先を確認
Christopher Lazarus, James G. Lopez, Mykel J. Kochenderfer(参考訳) 非ペディグレードオートパイロットの耐空性と安全性を検証しなければならないが、公式に実施するコストは禁じることができる。 安全確保機構としてRTSA(Runtime Safety Assurance)を組み込むことで,非ペジグリーコンポーネントの形式的検証を回避できる。 RTSAは、非ペジグリードコンポーネントの入力と出力を観察し、システムが動作するときに公式に指定された動作を検証するメタコントローラで構成される。 システムが起動されると、検証されたリカバリコントローラがデプロイされる。 回収制御装置は安全であるがシステムの運用上の目的に対して非常に破壊的であり、RTSAシステムは安全性と効率のバランスをとる必要がある。 本研究の目的は,安全でない状況を高精度に識別できるメタコントローラを設計することである。 現代のコントローラが名目コントローラのブラックボックスの性質に沿って配置される高次元および非線形ダイナミクスは、この問題を難しくしている。 現在のアプローチはドメインの専門知識とヒューマンエンジニアリングに大きく依存しています。 我々はrtsaの設計をマルコフ決定プロセス(mdp)フレームワークで構成し,それを解決するために強化学習(rl)を使用する。 私たちの学習したメタコントローラは、ベースラインの人間工学的アプローチと比較して、実験において常に優れたパフォーマンスを示しています。

The airworthiness and safety of a non-pedigreed autopilot must be verified, but the cost to formally do so can be prohibitive. We can bypass formal verification of non-pedigreed components by incorporating Runtime Safety Assurance (RTSA) as mechanism to ensure safety. RTSA consists of a meta-controller that observes the inputs and outputs of a non-pedigreed component and verifies formally specified behavior as the system operates. When the system is triggered, a verified recovery controller is deployed. Recovery controllers are designed to be safe but very likely disruptive to the operational objective of the system, and thus RTSA systems must balance safety and efficiency. The objective of this paper is to design a meta-controller capable of identifying unsafe situations with high accuracy. High dimensional and non-linear dynamics in which modern controllers are deployed along with the black-box nature of the nominal controllers make this a difficult problem. Current approaches rely heavily on domain expertise and human engineering. We frame the design of RTSA with the Markov decision process (MDP) framework and use reinforcement learning (RL) to solve it. Our learned meta-controller consistently exhibits superior performance in our experiments compared to our baseline, human engineered approach.
翻訳日:2022-10-05 06:37:04 公開日:2020-10-20
# LASSOに基づく特徴選択の逆ロバスト性について

On the Adversarial Robustness of LASSO Based Feature Selection ( http://arxiv.org/abs/2010.10045v1 )

ライセンス: Link先を確認
Fuwei Li, Lifeng Lai, Shuguang Cui(参考訳) 本稿では,$\ell_1$正規化線形回帰モデル,すなわちLASSOに基づく特徴選択の対角的ロバスト性について検討する。 考慮されたモデルでは、データセット全体を観察でき、選択された特徴を操作するために、応答値や特徴行列を慎重に修正する悪意のある敵が存在する。 両レベル最適化問題として敵の修正戦略を定式化する。 ゼロ点における$\ell_1$ノルムの不微分性の難しさから、$\ell_1$ノルム正規化器を線形不等式制約として再構成する。 内部点法を用いて、この改良されたLASSO問題を解き、勾配情報を得る。 次に,修正戦略の設計に投影勾配降下法を用いる。 さらに,本手法は,グループLASSOやスパースグループLASSOなど,他の$\ell_1$の特徴選択手法にも拡張可能であることを示す。 合成データと実データを用いた数値例から,本手法は効率的かつ効果的であることが分かる。

In this paper, we investigate the adversarial robustness of feature selection based on the $\ell_1$ regularized linear regression model, namely LASSO. In the considered model, there is a malicious adversary who can observe the whole dataset, and then will carefully modify the response values or the feature matrix in order to manipulate the selected features. We formulate the modification strategy of the adversary as a bi-level optimization problem. Due to the difficulty of the non-differentiability of the $\ell_1$ norm at the zero point, we reformulate the $\ell_1$ norm regularizer as linear inequality constraints. We employ the interior-point method to solve this reformulated LASSO problem and obtain the gradient information. Then we use the projected gradient descent method to design the modification strategy. In addition, We demonstrate that this method can be extended to other $\ell_1$ based feature selection methods, such as group LASSO and sparse group LASSO. Numerical examples with synthetic and real data illustrate that our method is efficient and effective.
翻訳日:2022-10-05 06:36:45 公開日:2020-10-20
# 第一級広告主のダイナミクスの理解に向けて

Towards Understanding the Dynamics of the First-Order Adversaries ( http://arxiv.org/abs/2010.10650v1 )

ライセンス: Link先を確認
Zhun Deng, Hangfeng He, Jiaoyang Huang, Weijie J. Su(参考訳) ニューラルネットワークの弱点は、入力に対する敵の摂動に対する脆弱性である。 これらのモデルのロバスト性を改善するために、最も一般的な防御機構の1つは、投影された勾配上昇を用いて入力に対する制約付き摂動(または敵と呼ばれる)の損失を最大化し、重みを最小化することである。 本稿では,この防御機構の実験的に観察された有効性を理解するための最大化ステップのダイナミクスを解析する。 具体的には,二次損失を持つ2層ニューラルネットワークの逆方向の非凹型景観について検討する。 主な結果は, この非凹凸問題の局所的最大値が, 高確率の多項式数で示されることを示す。 我々の知る限り、これは第一次敵の収束解析を提供する最初の研究である。 さらに,本分析は, 対人訓練の初期段階において, 入力尺度の規模が小さくなれば, 対人訓練や「より規則的な」風景の収束が早くなることを示す。 最後に,これらの理論的な知見は,一連の実験とよく一致していることを示す。

An acknowledged weakness of neural networks is their vulnerability to adversarial perturbations to the inputs. To improve the robustness of these models, one of the most popular defense mechanisms is to alternatively maximize the loss over the constrained perturbations (or called adversaries) on the inputs using projected gradient ascent and minimize over weights. In this paper, we analyze the dynamics of the maximization step towards understanding the experimentally observed effectiveness of this defense mechanism. Specifically, we investigate the non-concave landscape of the adversaries for a two-layer neural network with a quadratic loss. Our main result proves that projected gradient ascent finds a local maximum of this non-concave problem in a polynomial number of iterations with high probability. To our knowledge, this is the first work that provides a convergence analysis of the first-order adversaries. Moreover, our analysis demonstrates that, in the initial phase of adversarial training, the scale of the inputs matters in the sense that a smaller input scale leads to faster convergence of adversarial training and a "more regular" landscape. Finally, we show that these theoretical findings are in excellent agreement with a series of experiments.
翻訳日:2022-10-05 06:30:32 公開日:2020-10-20
# マンモグラムにおけるSlic Superpixel SegmentationとCascaded Ensemble SVMの完全自動質量検出への応用

Leveraging SLIC Superpixel Segmentation and Cascaded Ensemble SVM for Fully Automated Mass Detection In Mammograms ( http://arxiv.org/abs/2010.10340v1 )

ライセンス: Link先を確認
Jaime Simarro, Zohaib Salahuddin, Ahmed Gouda, Anindo Saha(参考訳) マンモグラムにおける乳房腫瘤の同定と分節化は, その形状, 輪郭, テクスチャ, 配向に関して悪性度が高度に変動していることから, 複雑な課題に直面している。 さらに、分類器は通常、正常な組織領域が悪性質量よりも圧倒的に多い領域候補において、高いクラス不均衡に悩まされる。 本稿では,灰色スケール線形フィルタを用いた形態素強化による厳密なセグメンテーション手法を提案する。 サポートベクターマシン(SVM)の新しいカスケードアンサンブルは、クラス不均衡に効果的に対処し、重要な予測を提供するために使用される。 真正率 (tpr) は 0.35, 0.69, 0.82 であり、それぞれ 0.1, 0.5, 1.0 の偽陽性/画像 (fpi) を生成する。

Identification and segmentation of breast masses in mammograms face complex challenges, owing to the highly variable nature of malignant densities with regards to their shape, contours, texture and orientation. Additionally, classifiers typically suffer from high class imbalance in region candidates, where normal tissue regions vastly outnumber malignant masses. This paper proposes a rigorous segmentation method, supported by morphological enhancement using grayscale linear filters. A novel cascaded ensemble of support vector machines (SVM) is used to effectively tackle the class imbalance and provide significant predictions. For True Positive Rate (TPR) of 0.35, 0.69 and 0.82, the system generates only 0.1, 0.5 and 1.0 False Positives/Image (FPI), respectively.
翻訳日:2022-10-05 06:28:45 公開日:2020-10-20
# 風車における傾き:深姿勢推定のためのデータ拡張は咬合に役立たない

Tilting at windmills: Data augmentation for deep pose estimation does not help with occlusions ( http://arxiv.org/abs/2010.10451v1 )

ライセンス: Link先を確認
Rafal Pytel, Osman Semih Kayhan, Jan C. van Gemert(参考訳) 排除は人間のポーズ推定の性能を低下させる。 本稿では,標的となるキーポイントと身体部分閉塞攻撃について紹介する。 攻撃の効果は、最良の実行方法に体系的に分析される。 さらに,キーポイントとパートアタックに対するオクルージョン特定データ拡張手法を提案する。 大規模な実験により,ヒトのポーズ推定法は閉塞に対して堅牢ではなく,データ拡張は閉塞問題の解決に至らないことが示された。

Occlusion degrades the performance of human pose estimation. In this paper, we introduce targeted keypoint and body part occlusion attacks. The effects of the attacks are systematically analyzed on the best performing methods. In addition, we propose occlusion specific data augmentation techniques against keypoint and part attacks. Our extensive experiments show that human pose estimation methods are not robust to occlusion and data augmentation does not solve the occlusion problems.
翻訳日:2022-10-05 06:28:27 公開日:2020-10-20
# FishNet:サーモン認識のための統一埋め込み

FishNet: A Unified Embedding for Salmon Recognition ( http://arxiv.org/abs/2010.10475v1 )

ライセンス: Link先を確認
Bj{\o}rn Magnus Mathisen and Kerstin Bach and Espen Meidell and H{\aa}kon M{\aa}l{\o}y and Edvard Schreiner Sj{\o}blom(参考訳) 個々のサケを識別することは養殖産業にとって非常に有益であり、魚の行動や福祉をモニタリングし分析することができる。 養殖研究者にとって、個々のサケを特定することは研究にとって不可欠である。 個々のサケのタグ付けと追跡の現在の方法は、魚との物理的相互作用に依存している。 このプロセスは非効率であり、サケの身体的害やストレスを引き起こすことがある。 本稿では,魚介類の識別に応用された深層学習手法に基づいて,魚介類の識別を行うfishnetを提案し,魚介類のラベル付き画像のデータセットを作成し,fishnetアーキテクチャの性能をテストする。 実験の結果,このアーキテクチャはサケの頭部の画像から有用な表現を学習できることが判明した。 さらに,比較的小さなニューラルネットワークモデルでは,良好な性能が得られることを示す: FishNetは偽陽性率1\%,真陽性率96\%を達成する。

Identifying individual salmon can be very beneficial for the aquaculture industry as it enables monitoring and analyzing fish behavior and welfare. For aquaculture researchers identifying individual salmon is imperative to their research. The current methods of individual salmon tagging and tracking rely on physical interaction with the fish. This process is inefficient and can cause physical harm and stress for the salmon. In this paper we propose FishNet, based on a deep learning technique that has been successfully used for identifying humans, to identify salmon.We create a dataset of labeled fish images and then test the performance of the FishNet architecture. Our experiments show that this architecture learns a useful representation based on images of salmon heads. Further, we show that good performance can be achieved with relatively small neural network models: FishNet achieves a false positive rate of 1\% and a true positive rate of 96\%.
翻訳日:2022-10-05 06:28:21 公開日:2020-10-20
# AR/VR用ヘッドマウントディスプレイにおけるアイリス認識のベンチマークについて

On Benchmarking Iris Recognition within a Head-mounted Display for AR/VR Application ( http://arxiv.org/abs/2010.11700v1 )

ライセンス: Link先を確認
Fadi Boutros, Naser Damer, Kiran Raja, Raghavendra Ramachandra, Florian Kirchbuchner and Arjan Kuijper(参考訳) 拡張現実と仮想現実は、さまざまな分野のアプリケーションにデプロイされている。 このようなアプリケーションは、厳密で継続的なアクセス制御を必要とする重要で機密性の高い情報にアクセスまたは処理する。 このようなアプリケーションのために開発されたヘッドマウントディスプレイ(hmd)は、視線追跡のための内部カメラを含んでいるため、アイリス認識によるユーザ確認に適合性の評価を行う。 本研究では,3つの手作り特徴抽出手法を用いてhmdデバイスに適した虹彩認識アルゴリズムをまず評価し,それを補完するために4つの深層学習モデルを用いた解析を行う。 スタンドアロンHMDの最小限のハードウェア要件を考慮しながら,最近開発された小型セグメンテーションモデル(EyeMMS)を用いてアイリスのセグメンテーションを行う。 さらに,アイリスの非理想的かつ非協調的捕獲を考慮し,アイリスマスク比(imr)と呼ばれる新しいアイリス品質指標を定義し,アイリス認識性能を定量化する。 また,虹彩認識の性能に動機づけられて,hmdにおける非協調キャプチャ設定におけるユーザの連続認証を提案する。 公開されているOpenEDSデータセットの実験を通して、EER = 5%の性能は、一般的な環境でのディープラーニング手法を用いて達成でき、継続的なユーザ認証の精度も高いことを示す。

Augmented and virtual reality is being deployed in different fields of applications. Such applications might involve accessing or processing critical and sensitive information, which requires strict and continuous access control. Given that Head-Mounted Displays (HMD) developed for such applications commonly contains internal cameras for gaze tracking purposes, we evaluate the suitability of such setup for verifying the users through iris recognition. In this work, we first evaluate a set of iris recognition algorithms suitable for HMD devices by investigating three well-established handcrafted feature extraction approaches, and to complement it, we also present the analysis using four deep learning models. While taking into consideration the minimalistic hardware requirements of stand-alone HMD, we employ and adapt a recently developed miniature segmentation model (EyeMMS) for segmenting the iris. Further, to account for non-ideal and non-collaborative capture of iris, we define a new iris quality metric that we termed as Iris Mask Ratio (IMR) to quantify the iris recognition performance. Motivated by the performance of iris recognition, we also propose the continuous authentication of users in a non-collaborative capture setting in HMD. Through the experiments on a publicly available OpenEDS dataset, we show that performance with EER = 5% can be achieved using deep learning methods in a general setting, along with high accuracy for continuous user authentication.
翻訳日:2022-10-05 06:28:07 公開日:2020-10-20
# エンサンブラを用いたセプシスの早期検出

Early Detection of Sepsis using Ensemblers ( http://arxiv.org/abs/2010.09938v1 )

ライセンス: Link先を確認
Shailesh Nirgudkar, Tianyu Ding(参考訳) 本稿では,患者の時間的記録を解析し,早期に敗血症を検出する手法について述べる。 physionet 2019の課題は4万人以上の患者の医療記録から成っている。 インプテーションと弱いアンサンブル技術を用いて、これらの医療記録と3倍の検証を解析し、モデルを作成し、内部で検証する。 このモデルは精度93.45%、実用性スコア0.271に達した。 主催者が定義するユーティリティスコアは、真のポジティブ、ネガティブ、誤ったアラームを考慮に入れる。

This paper describes a methodology to detect sepsis ahead of time by analyzing hourly patient records. The Physionet 2019 challenge consists of medical records of over 40,000 patients. Using imputation and weak ensembler technique to analyze these medical records and 3-fold validation, a model is created and validated internally. The model achieved an accuracy of 93.45% and a utility score of 0.271. The utility score as defined by the organizers takes into account true positives, negatives and false alarms.
翻訳日:2022-10-05 06:21:06 公開日:2020-10-20
# RDIS:不完全時系列データの自己学習によるランダムドロップ計算

RDIS: Random Drop Imputation with Self-Training for Incomplete Time Series Data ( http://arxiv.org/abs/2010.10075v1 )

ライセンス: Link先を確認
Tae-Min Choi, Ji-Su Kang, Jong-Hwan Kim(参考訳) 金融、気象学、ロボット工学など多くの分野において、価値の欠落を伴う時系列データが遭遇することが一般的である。 Imputationは、そのような欠落した値を扱う本質的な方法である。 前回の研究では、未完成な時系列データに対して計算ネットワークの大部分が暗黙的に訓練されていた。 本稿では,不完全時系列データに対するインプテーションネットワークのための新しい学習法であるrdisを用いたランダムドロップインプテーションを提案する。 RDISでは、与えられた不完全データにランダムドロップを適用し、ランダムドロップ値を命令することで、命令ネットワークが明示的に学習できるように、余分な欠落値が存在する。 また、基礎的真理を伴わずに元の欠落値を利用するための自己学習も導入されている。 提案手法の有効性を検証するため,RDISを双方向GRUに移植し,実世界の2つのデータセット,空気品質データセットとガスセンサデータセットでそれぞれ7.9%と5.8%のマージンを達成した。

It is common that time-series data with missing values are encountered in many fields such as in finance, meteorology, and robotics. Imputation is an intrinsic method to handle such missing values. In the previous research, most of imputation networks were trained implicitly for the incomplete time series data because missing values have no ground truth. This paper proposes Random Drop Imputation with Self-training (RDIS), a novel training method for imputation networks for the incomplete time-series data. In RDIS, there are extra missing values by applying a random drop on the given incomplete data such that the imputation network can explicitly learn by imputing the random drop values. Also, self-training is introduced to exploit the original missing values without ground truth. To verify the effectiveness of our RDIS on imputation tasks, we graft RDIS to a bidirectional GRU and achieve state-of-the-art results on two real-world datasets, an air quality dataset and a gas sensor dataset with 7.9% and 5.8% margin, respectively.
翻訳日:2022-10-05 06:20:33 公開日:2020-10-20
# コヒーレント階層型マルチラベル分類ネットワーク

Coherent Hierarchical Multi-Label Classification Networks ( http://arxiv.org/abs/2010.10151v1 )

ライセンス: Link先を確認
Eleonora Giunchiglia, Thomas Lukasiewicz(参考訳) 階層的マルチラベル分類(Hierarchical Multi-label classification, HMC)は、階層的制約をクラスに課すことにより、標準マルチラベル分類問題を拡張する挑戦的な分類課題である。 本稿では,hmc問題に対する新たなアプローチであるc-hmcnn(h)を提案し,下位のマルチラベル分類問題に対してネットワークhが与えられ,階層情報を利用して制約に準拠した予測を生成し,性能を向上させる。 最先端モデルと比較してC-HMCNN(h)の優れた性能を示す広範な実験的検討を行った。

Hierarchical multi-label classification (HMC) is a challenging classification task extending standard multi-label classification problems by imposing a hierarchy constraint on the classes. In this paper, we propose C-HMCNN(h), a novel approach for HMC problems, which, given a network h for the underlying multi-label classification problem, exploits the hierarchy information in order to produce predictions coherent with the constraint and improve performance. We conduct an extensive experimental analysis showing the superior performance of C-HMCNN(h) when compared to state-of-the-art models.
翻訳日:2022-10-05 06:20:14 公開日:2020-10-20
# スパース位相検索に対する連続時間ミラー降下法

A Continuous-Time Mirror Descent Approach to Sparse Phase Retrieval ( http://arxiv.org/abs/2010.10168v1 )

ライセンス: Link先を確認
Fan Wu and Patrick Rebeschini(参考訳) 本研究では, スパース位相探索に適用した連続時間ミラー降下の解析を行い, 粒度のみの測定値からスパース信号を復元する問題である。 非拘束経験的リスク最小化問題(バッチ設定)にミラー降下を適用し,正方形損失と正方形測定を用いた。 この非凸設定におけるアルゴリズムの収束解析を行い、ハイプントロピーミラーマップを用いて、ミラー降下は$k^2$ガウス測定値から$\| \mathbf{x}^\star\in\mathbb{r}^n$ の順に最小(モジュラス内)非零エントリで任意の$k$-スパースベクトル$\mathbf{x}^\star\in\mathbb{r}^n$を回復することを証明する。 このアルゴリズムは、スパース位相検索の既存のアプローチとは異なり、しきい値のステップや正規化項を追加することなく、スパースレベルに適応する単純なアルゴリズムである。 また,アダマールのパラメトリゼーションによる経験的リスク問題に適用されたユークリッド勾配勾配は,離散時間でミラー降下の1次近似として回収できるため,ハダマール・ワイルティンガー流 [58] の理論的理解も可能である。

We analyze continuous-time mirror descent applied to sparse phase retrieval, which is the problem of recovering sparse signals from a set of magnitude-only measurements. We apply mirror descent to the unconstrained empirical risk minimization problem (batch setting), using the square loss and square measurements. We provide a convergence analysis of the algorithm in this non-convex setting and prove that, with the hypentropy mirror map, mirror descent recovers any $k$-sparse vector $\mathbf{x}^\star\in\mathbb{R}^n$ with minimum (in modulus) non-zero entry on the order of $\| \mathbf{x}^\star \|_2/\sqrt{k}$ from $k^2$ Gaussian measurements, modulo logarithmic terms. This yields a simple algorithm which, unlike most existing approaches to sparse phase retrieval, adapts to the sparsity level, without including thresholding steps or adding regularization terms. Our results also provide a principled theoretical understanding for Hadamard Wirtinger flow [58], as Euclidean gradient descent applied to the empirical risk problem with Hadamard parametrization can be recovered as a first-order approximation to mirror descent in discrete time.
翻訳日:2022-10-05 06:20:04 公開日:2020-10-20
# 楕円ポテンシャル補題の再訪

The Elliptical Potential Lemma Revisited ( http://arxiv.org/abs/2010.10182v1 )

ライセンス: Link先を確認
Alexandra Carpentier and Claire Vernade and Yasin Abbasi-Yadkori(参考訳) このノートは、いわゆる楕円ポテンシャル補題に関する新しい証明と新しい視点を提案する。 この結果はオンライン学習、特に線形確率バンディットにおいて重要である。 結果の元々の証明は短くエレガントであるが、考慮されたポテンシャルのタイプにはあまり柔軟性を与えておらず、この新たな解釈はこの分野での将来の研究にとって興味深いものであると信じている。

This note proposes a new proof and new perspectives on the so-called Elliptical Potential Lemma. This result is important in online learning, especially for linear stochastic bandits. The original proof of the result, however short and elegant, does not give much flexibility on the type of potentials considered and we believe that this new interpretation can be of interest for future research in this field.
翻訳日:2022-10-05 06:19:29 公開日:2020-10-20
# 文脈化数予測の実証的研究

An Empirical Investigation of Contextualized Number Prediction ( http://arxiv.org/abs/2011.07961v1 )

ライセンス: Link先を確認
Daniel Spokoyny, Taylor Berg-Kirkpatrick(参考訳) 実行中のテキストにおける文脈化数予測の大規模実験を行った。 具体的には,(1)欠落した数値を文内に予測する仮数予測と(2)誤りのある数値を文内に検出する数値異常検出という2つのタスクを考える。 実数直線上のコンテクストエンコーダと出力分布の新たな組み合わせを実験する。 具体的には、潜在変数を組み込んだ出力分布パラメータ化スイートを導入し、実行中のテキストにおける数値値の自然分布をよりよく適合させ、繰り返しおよび変換器ベースのエンコーダアーキテクチャと組み合わせる。 金融分野と科学分野の2つの数値データセット上でこれらのモデルを評価する。 これらの結果から, 離散潜伏変数を包含し, 複数モードの出力分布が, 全データセットにおいて単純なフローベースよりも優れており, より正確な数値予測と異常検出が得られることがわかった。 また,本モデルではテキスト・コンテクストを効果的に活用し,汎用的教師なし事前学習の利点も示している。

We conduct a large scale empirical investigation of contextualized number prediction in running text. Specifically, we consider two tasks: (1)masked number prediction-predicting a missing numerical value within a sentence, and (2)numerical anomaly detection-detecting an errorful numeric value within a sentence. We experiment with novel combinations of contextual encoders and output distributions over the real number line. Specifically, we introduce a suite of output distribution parameterizations that incorporate latent variables to add expressivity and better fit the natural distribution of numeric values in running text, and combine them with both recurrent and transformer-based encoder architectures. We evaluate these models on two numeric datasets in the financial and scientific domain. Our findings show that output distributions that incorporate discrete latent variables and allow for multiple modes outperform simple flow-based counterparts on all datasets, yielding more accurate numerical prediction and anomaly detection. We also show that our models effectively utilize textual con-text and benefit from general-purpose unsupervised pretraining.
翻訳日:2022-10-05 06:12:48 公開日:2020-10-20
# 低系統環境における伝達学習モデルと従来型ニューラルネットワークの性能

Performance of Transfer Learning Model vs. Traditional Neural Network in Low System Resource Environment ( http://arxiv.org/abs/2011.07962v1 )

ライセンス: Link先を確認
William Hui(参考訳) 近年,トランスファー学習手法に基づくニューラルネットワーク構築のための事前学習モデルが普及している。 これらの事前訓練されたモデルは、少ないコンピューティングリソースを使用して、少ないトレーニングデータでモデルをトレーニングする利点を示す。 BERT、XLNet、GPTといった最先端モデルの台頭は、転送遅延のベースモデルとして正確さと利益を高める。 しかし、これらのモデルはまだ複雑すぎて、低GPUメモリでトランスファー学習をトレーニングするために多くのコンピューティングリソースを消費する。 我々は,テキスト分類とNERモデルのNLP応用のための,軽量トランスファー学習モデルと目的に構築されたニューラルネットワークの性能とコストを比較する。

Recently, the use of pre-trained model to build neural network based on transfer learning methodology is increasingly popular. These pre-trained models present the benefit of using less computing resources to train model with smaller amount of training data. The rise of state-of-the-art models such as BERT, XLNet and GPT boost accuracy and benefit as a base model for transfer leanring. However, these models are still too complex and consume many computing resource to train for transfer learning with low GPU memory. We will compare the performance and cost between lighter transfer learning model and purposely built neural network for NLP application of text classification and NER model.
翻訳日:2022-10-05 06:12:31 公開日:2020-10-20
# マルチ画像から単一出力医療予測のための畳み込みLSTM

Convolutional-LSTM for Multi-Image to Single Output Medical Prediction ( http://arxiv.org/abs/2010.10004v1 )

ライセンス: Link先を確認
Luis Leal, Marvin Castillo, Fernando Juarez, Erick Ramirez, Mildred Aspuac, Diana Letona(参考訳) medical head ct-scan imagingとdeep learningを組み合わせることで、頭部疾患と病変の診断に成功している[1]。 このタスクの最先端の分類モデルとアルゴリズムは、通常、教師付き学習設定(1入力ボリューム、1患者毎の予測)または教師付き設定(1入力画像、1イメージ毎の予測)の2d畳み込みレイヤ上のボリュームデータのための3d畳み込み層に基づいている。 However a very common scenario in developing countries is to have the volume metadata lost due multiple reasons for example formatting conversion in images (for example .dicom to jpg), in this scenario the doctor analyses the collection of images and then emits a single diagnostic for the patient (with possibly an unfixed and variable number of images per patient) , this prevents it from being possible to use state of the art 3d models, but also is not possible to convert it to a supervised problem in a (1 image,1 diagnostic) setting because different angles or positions of the images for a single patient may not contain the disease or lesion. 本研究では、2次元畳み込み[2]モデルと、すべての画像が与えられた患者のモデル \(i\) によって処理された後にのみ予測を生成するシーケンスモデルとを組み合わせることにより、このシナリオの解を提案し、この場合、患者間で \(n\) が異なる場合の、単一識別設定 \(y^i=f(x_1,x_2,..,x_n)\) に対する多重画像を生成する。 実験の結果,ヒトの診断プロセスを模倣したマルチイメージから単一診断モデルを得ることが可能であることが判明した。患者画像の収集を評価し,メモリ内の重要な情報を用いて患者に対する単一の診断を決定する。

Medical head CT-scan imaging has been successfully combined with deep learning for medical diagnostics of head diseases and lesions[1]. State of the art classification models and algorithms for this task usually are based on 3d convolution layers for volumetric data on a supervised learning setting (1 input volume, 1 prediction per patient) or 2d convolution layers in a supervised setting (1 input image, 1 prediction per image). However a very common scenario in developing countries is to have the volume metadata lost due multiple reasons for example formatting conversion in images (for example .dicom to jpg), in this scenario the doctor analyses the collection of images and then emits a single diagnostic for the patient (with possibly an unfixed and variable number of images per patient) , this prevents it from being possible to use state of the art 3d models, but also is not possible to convert it to a supervised problem in a (1 image,1 diagnostic) setting because different angles or positions of the images for a single patient may not contain the disease or lesion. In this study we propose a solution for this scenario by combining 2d convolutional[2] models with sequence models which generate a prediction only after all images have been processed by the model for a given patient \(i\), this creates a multi-image to single-diagnostic setting \(y^i=f(x_1,x_2,..,x_n)\) where \(n\) may be different between patients. The experimental results demonstrate that it is possible to get a multi-image to single diagnostic model which mimics human doctor diagnostic process: evaluate the collection of patient images and then use important information in memory to decide a single diagnostic for the patient.
翻訳日:2022-10-05 06:12:20 公開日:2020-10-20
# パターンからのトラッキング:3dオブジェクト追跡のためのポイントクラウドにおける対応するパターンの学習

Tracking from Patterns: Learning Corresponding Patterns in Point Clouds for 3D Object Tracking ( http://arxiv.org/abs/2010.10051v1 )

ライセンス: Link先を確認
Jieqi Shi, Peiliang Li, Shaojie Shen(参考訳) 周囲を継続的に追跡し、軌道を推定するロバストな3dオブジェクトトラッカは、自動運転車にとって重要だ。 既存の追跡手法の多くはトラッキング・バイ・検出方式を採用しており、通常は複雑なペアの類似性計算を必要とし、連続物体の動きの性質を無視する。 本稿では,時間的点雲データから3次元物体対応を直接学習し,対応パターンからの動き情報を推定する。 標準の3Dオブジェクト検出器を2つのライダーフレームを同時に処理し、関連性および動き推定タスクのバウンディングボックスペアを予測する。 また、パイプラインに単純な効果的な速度平滑化モジュールを装備し、一貫した物体の動きを推定します。 KITTIと大規模Nuscenesデータセットの双方で既存の3次元追跡手法を上回り,学習した対応と運動改善の両面から得られた。

A robust 3D object tracker which continuously tracks surrounding objects and estimates their trajectories is key for self-driving vehicles. Most existing tracking methods employ a tracking-by-detection strategy, which usually requires complex pair-wise similarity computation and neglects the nature of continuous object motion. In this paper, we propose to directly learn 3D object correspondences from temporal point cloud data and infer the motion information from correspondence patterns. We modify the standard 3D object detector to process two lidar frames at the same time and predict bounding box pairs for the association and motion estimation tasks. We also equip our pipeline with a simple yet effective velocity smoothing module to estimate consistent object motion. Benifiting from the learned correspondences and motion refinement, our method exceeds the existing 3D tracking methods on both the KITTI and larger scale Nuscenes dataset.
翻訳日:2022-10-05 06:11:53 公開日:2020-10-20
# 近接政策グラディエント:政策グラディエントを備えたPPO

Proximal Policy Gradient: PPO with Policy Gradient ( http://arxiv.org/abs/2010.09933v1 )

ライセンス: Link先を確認
Ju-Seung Byun, Byungmoon Kim, Huamin Wang(参考訳) 本稿では,VPG (vanilla policy gradient) と PPO (proximal policy optimization) の両方に近い新しいアルゴリズム PPG (proximal Policy Gradient) を提案する。 PPG目的はVPG目標の部分的変動であり、PSG目標の勾配はVPG目標の勾配と全く同じである。 ポリシー更新の繰り返し数を増やすために、我々は、有利な政治面を導入し、新しいクリッピング戦略を設計する。 ランダムシード10種を対象に,OpenAI GymとBulletのロボット環境で実験を行った。 PPGの性能はPPOに匹敵し、エントロピーはPPGよりも遅く崩壊する。 したがって、PPOに類似した性能は、元の方針勾配定理から勾配公式を用いて得られることを示す。

In this paper, we propose a new algorithm PPG (Proximal Policy Gradient), which is close to both VPG (vanilla policy gradient) and PPO (proximal policy optimization). The PPG objective is a partial variation of the VPG objective and the gradient of the PPG objective is exactly same as the gradient of the VPG objective. To increase the number of policy update iterations, we introduce the advantage-policy plane and design a new clipping strategy. We perform experiments in OpenAI Gym and Bullet robotics environments for ten random seeds. The performance of PPG is comparable to PPO, and the entropy decays slower than PPG. Thus we show that performance similar to PPO can be obtained by using the gradient formula from the original policy gradient theorem.
翻訳日:2022-10-05 06:11:04 公開日:2020-10-20
# 異常検出のためのグラフフェアリング畳み込みネットワーク

Graph Fairing Convolutional Networks for Anomaly Detection ( http://arxiv.org/abs/2010.10274v1 )

ライセンス: Link先を確認
Mahsa Mesgaran and A. Ben Hamza(参考訳) グラフ畳み込みは、グラフ構造化データ上の多くのディープニューラルネットワークの基本的な構成要素である。 本稿では,半教師付き異常検出のためのスキップ接続を用いた単純なグラフ畳み込みネットワークを提案する。 提案する多層ネットワークアーキテクチャは、幾何学処理における暗黙的フェアリングの概念を理論的に動機付けており、隣接ノードからの情報を集約するグラフ畳み込みモジュールと、層間近傍表現を結合するスキップ接続モジュールを備える。 ネットワーク層間の接続をスキップすることで,遠隔グラフノードから情報を取得することに加えて,識別ノード表現の学習にグラフ構造とノード特徴の両方を活用する。 本モデルの有効性は,5つのベンチマークデータセットに対する広範な実験により実証され,強力なベースライン法に対して,より優れた,あるいは同等な異常検出結果が得られた。

Graph convolution is a fundamental building block for many deep neural networks on graph-structured data. In this paper, we introduce a simple, yet very effective graph convolutional network with skip connections for semi-supervised anomaly detection. The proposed multi-layer network architecture is theoretically motivated by the concept of implicit fairing in geometry processing, and comprises a graph convolution module for aggregating information from immediate node neighbors and a skip connection module for combining layer-wise neighborhood representations. In addition to capturing information from distant graph nodes through skip connections between the network's layers, our approach exploits both the graph structure and node features for learning discriminative node representations. The effectiveness of our model is demonstrated through extensive experiments on five benchmark datasets, achieving better or comparable anomaly detection results against strong baseline methods.
翻訳日:2022-10-05 06:10:29 公開日:2020-10-20
# 周期パターンマイニングによる時系列データからの季節変動パターンの抽出

Extracting Seasonal Gradual Patterns from Temporal Sequence Data Using Periodic Patterns Mining ( http://arxiv.org/abs/2010.10289v1 )

ライセンス: Link先を確認
Jerry Lonlac, Arnaud Doniec, Marin Lujak, Stephane Lecoeuche(参考訳) 頻繁なエピソードのマイニングは、時系列データシーケンスから逐次パターンを復元することを目的としており、それを使用して、事前に関連する事象の発生を予測する。 一方、「Xの増加/減少、Yの増加/減少」という形で複雑な属性の共変を捉える段階的パターンは、複雑な数値データを大量に扱わなければならない多くの実世界のアプリケーションにおいて重要な役割を果たす。 近年,時間的データから段階的パターンを自動的に抽出する手法を提唱した,時間的データを探索するデータマイニングコミュニティから注目されている。 しかし,これらのパターンが電子商取引などの特定のアプリケーションに知識を与える可能性があるにもかかわらず,多くの時系列データにおいて時間間隔が同じである段階的なパターンを抽出する方法は提案されていない。 本稿では,季節的漸進パターンと呼ぶ時系列データから,周期的に反復する属性の共変分を抽出することを提案する。 この目的のために、複数のシーケンスにおける周期パターンのマイニング問題として季節パターンのマイニングを定式化し、周期パターンのマイニングアルゴリズムを用いて季節パターンの抽出を行う。 これらのパターンの具体的特徴について考察し,複数のシーケンスに共通する周期的頻度パターンのマイニングに基づく抽出手法を提案する。 また,これらの季節的段階的パターンに関連した新たな対単調サポート定義を提案する。 実世界のデータセットから得られた図解的結果は,提案手法が効率的であり,季節的でないパターンを多数フィルタリングして季節的パターンを識別することで,小さなパターン群を抽出できることを示している。

Mining frequent episodes aims at recovering sequential patterns from temporal data sequences, which can then be used to predict the occurrence of related events in advance. On the other hand, gradual patterns that capture co-variation of complex attributes in the form of " when X increases/decreases, Y increases/decreases" play an important role in many real world applications where huge volumes of complex numerical data must be handled. Recently, these patterns have received attention from the data mining community exploring temporal data who proposed methods to automatically extract gradual patterns from temporal data. However, to the best of our knowledge, no method has been proposed to extract gradual patterns that regularly appear at identical time intervals in many sequences of temporal data, despite the fact that such patterns may add knowledge to certain applications, such as e-commerce. In this paper, we propose to extract co-variations of periodically repeating attributes from the sequences of temporal data that we call seasonal gradual patterns. For this purpose, we formulate the task of mining seasonal gradual patterns as the problem of mining periodic patterns in multiple sequences and then we exploit periodic pattern mining algorithms to extract seasonal gradual patterns. We discuss specific features of these patterns and propose an approach for their extraction based on mining periodic frequent patterns common to multiple sequences. We also propose a new anti-monotonous support definition associated to these seasonal gradual patterns. The illustrative results obtained from some real world data sets show that the proposed approach is efficient and that it can extract small sets of patterns by filtering numerous nonseasonal patterns to identify the seasonal ones.
翻訳日:2022-10-05 06:10:14 公開日:2020-10-20
# 技術文書から手続き知識を抽出する

Extracting Procedural Knowledge from Technical Documents ( http://arxiv.org/abs/2010.10156v1 )

ライセンス: Link先を確認
Shivali Agarwal, Shubham Atreja, Vikas Agarwal(参考訳) 手続きは、自動化、質問応答、会話の推進のために認知アシスタントが活用できる文書の重要な知識コンポーネントである。 プロダクトマニュアルやユーザガイドといった巨大なドキュメントを解析して,どの部分でプロシージャについて話しているのかを自動的に理解し,それを抽出することは,難しい問題です。 既存の研究のほとんどは、与えられた手順におけるフローの抽出や、概念的な質問に答えるために手順を理解することに重点を置いている。 多様なフォーマットの文書から複数の手順を自動的に識別し抽出することは、比較的少ない問題である。 この作品では、この地面のいくつかを -- 1) 文書の構造的・言語的性質を分類して手続きの種類を定義する方法に関する洞察を提供する。 2 関連する言語的及び構造的性質を抽出するための文書の分析、及び 3) 上記の解析から得られた文書の特徴を活かした分類問題としての形式的手続き同定 異なるユースケースで使用された教師なしのテクニックを最初に実装し、デプロイしました。 異なるユースケースにおける評価に基づいて,教師なしアプローチの弱点を見出した。 その後、監視された改良バージョンを設計しました。 提案手法は,89%の精度で,大規模かつ複雑な文書から手順を特定するのに有効であることを示す。

Procedures are an important knowledge component of documents that can be leveraged by cognitive assistants for automation, question-answering or driving a conversation. It is a challenging problem to parse big dense documents like product manuals, user guides to automatically understand which parts are talking about procedures and subsequently extract them. Most of the existing research has focused on extracting flows in given procedures or understanding the procedures in order to answer conceptual questions. Identifying and extracting multiple procedures automatically from documents of diverse formats remains a relatively less addressed problem. In this work, we cover some of this ground by -- 1) Providing insights on how structural and linguistic properties of documents can be grouped to define types of procedures, 2) Analyzing documents to extract the relevant linguistic and structural properties, and 3) Formulating procedure identification as a classification problem that leverages the features of the document derived from the above analysis. We first implemented and deployed unsupervised techniques which were used in different use cases. Based on the evaluation in different use cases, we figured out the weaknesses of the unsupervised approach. We then designed an improved version which was supervised. We demonstrate that our technique is effective in identifying procedures from big and complex documents alike by achieving accuracy of 89%.
翻訳日:2022-10-05 06:03:49 公開日:2020-10-20
# 深い関係学習による内容と文脈のモデリング

Modeling Content and Context with Deep Relational Learning ( http://arxiv.org/abs/2010.10453v1 )

ライセンス: Link先を確認
Maria Leonor Pacheco and Dan Goldwasser(参考訳) 現実的な自然言語タスクのためのモデルの構築には、長いテキストの処理と複雑な構造的依存関係の会計が必要です。 ニューラルシンボリック表現は、シンボリックメソッドの推論能力とニューラルネットワークの表現性を結合する手段として登場した。 しかしながら、既存のニューラル表現とシンボリック表現を組み合わせるフレームワークのほとんどは、シンボリックエンティティとリレーションの宇宙で動作する古典的なリレーショナル学習タスクのために設計されている。 本稿では,多種多様なNLPシナリオをサポートするために設計された,ディープリレーショナルモデルを特定するためのオープンソースの宣言フレームワークDRaiLを提案する。 我々のフレームワークは、表現型言語エンコーダとの容易な統合をサポートし、表現、推論、学習間の相互作用を研究するためのインターフェースを提供する。

Building models for realistic natural language tasks requires dealing with long texts and accounting for complicated structural dependencies. Neural-symbolic representations have emerged as a way to combine the reasoning capabilities of symbolic methods, with the expressiveness of neural networks. However, most of the existing frameworks for combining neural and symbolic representations have been designed for classic relational learning tasks that work over a universe of symbolic entities and relations. In this paper, we present DRaiL, an open-source declarative framework for specifying deep relational models, designed to support a variety of NLP scenarios. Our framework supports easy integration with expressive language encoders, and provides an interface to study the interactions between representation, inference and learning.
翻訳日:2022-10-05 06:02:32 公開日:2020-10-20
# 完全多言語ニューラルマシン翻訳

Complete Multilingual Neural Machine Translation ( http://arxiv.org/abs/2010.10239v1 )

ライセンス: Link先を確認
Markus Freitag, Orhan Firat(参考訳) 多言語ニューラルマシン翻訳(mnmt)モデルは、英語中心(英語をソースまたはターゲット言語として)の2言語コーパスの共同セットで一般的に訓練される。 英語以外の2つの言語間の直接データは、時に明示的に利用できるが、その使用は一般的ではない。 本稿では、まずまず、よく使われるバイリンガルコーパス(WMT)を振り返り、その中に存在している暗黙構造の存在と重要性を再考する:例間の多方向アライメント(2言語以上で同じ文)。 私たちは、英語中心の並列コーパスを豊かにするために、マルチウェイアライメントの例を使う方法の研究に着手しました。 我々は、この直接並列データを、すべてのソース言語とターゲット言語の間のマルチウェイアラインコーパスから再導入する。 そうすることで、英語中心のグラフは完全なグラフへと拡張され、すべての言語ペアが接続される。 このような接続パターンでMNMTを完全多言語ニューラルネットワーク翻訳(cMNMT)と呼び、その有用性と有効性を一連の実験と分析で実証する。 対象言語のみを条件とした新たなトレーニングデータサンプリング戦略と組み合わせることで、cmnmtはすべての言語ペアの競合翻訳品質が得られる。 さらに,マルチウェイアライメントデータのサイズ効果,転送学習能力,MNMTにおける新たな言語追加の容易性について検討する。 最後に、cMNMTを大規模にテストし、最大111*112=12,432言語ペアでcMNMTモデルをトレーニングし、全ての言語ペアに対して競合翻訳品質を提供することを示した。

Multilingual Neural Machine Translation (MNMT) models are commonly trained on a joint set of bilingual corpora which is acutely English-centric (i.e. English either as the source or target language). While direct data between two languages that are non-English is explicitly available at times, its use is not common. In this paper, we first take a step back and look at the commonly used bilingual corpora (WMT), and resurface the existence and importance of implicit structure that existed in it: multi-way alignment across examples (the same sentence in more than two languages). We set out to study the use of multi-way aligned examples to enrich the original English-centric parallel corpora. We reintroduce this direct parallel data from multi-way aligned corpora between all source and target languages. By doing so, the English-centric graph expands into a complete graph, every language pair being connected. We call MNMT with such connectivity pattern complete Multilingual Neural Machine Translation (cMNMT) and demonstrate its utility and efficacy with a series of experiments and analysis. In combination with a novel training data sampling strategy that is conditioned on the target language only, cMNMT yields competitive translation quality for all language pairs. We further study the size effect of multi-way aligned data, its transfer learning capabilities and how it eases adding a new language in MNMT. Finally, we stress test cMNMT at scale and demonstrate that we can train a cMNMT model with up to 111*112=12,432 language pairs that provides competitive translation quality for all language pairs.
翻訳日:2022-10-05 06:02:19 公開日:2020-10-20
# ヒューマンパラフレーズ参照によるニューラルマシン翻訳の改善

Human-Paraphrased References Improve Neural Machine Translation ( http://arxiv.org/abs/2010.10245v1 )

ライセンス: Link先を確認
Markus Freitag, George Foster, David Grangier, Colin Cherry(参考訳) freitagらによって最近提案されている参照翻訳の人間が生成したパラフレーズと候補翻訳を比較する自動評価法。 オリジナルの参照の代わりに使われる場合、パラフレーズ付きバージョンは人間の判断とよく相関するメートル法スコアを生成する。 この効果は様々な異なる自動測度を持ち、より多くのリテラル(翻訳)よりも自然な定式化を好む傾向がある。 本稿では,標準参照とパラフレーズ参照を用いたエンドツーエンドシステム開発の結果を比較する。 現状の英語-ドイツ語のNMTコンポーネントでは, パラフレーズ参照のチューニングにより, 人間の判断により有意に優れたシステムが得られるが, 5 BLEU は標準基準でテストするとさらに悪い。 本研究は, パラフレーズ参照が人間の判断と相関する基準値が得られることを確認し, システム開発にこれらのスコアを用いることで, 大幅な改善が期待できることを示す。

Automatic evaluation comparing candidate translations to human-generated paraphrases of reference translations has recently been proposed by Freitag et al. When used in place of original references, the paraphrased versions produce metric scores that correlate better with human judgment. This effect holds for a variety of different automatic metrics, and tends to favor natural formulations over more literal (translationese) ones. In this paper we compare the results of performing end-to-end system development using standard and paraphrased references. With state-of-the-art English-German NMT components, we show that tuning to paraphrased references produces a system that is significantly better according to human judgment, but 5 BLEU points worse when tested on standard references. Our work confirms the finding that paraphrased references yield metric scores that correlate better with human judgment, and demonstrates for the first time that using these scores for system development can lead to significant improvements.
翻訳日:2022-10-05 06:01:53 公開日:2020-10-20
# 多言語BERTとは何か?

What makes multilingual BERT multilingual? ( http://arxiv.org/abs/2010.10938v1 )

ライセンス: Link先を確認
Chi-Liang Liu and Tsung-Yuan Hsu and Yung-Sung Chuang and Hung-yi Lee(参考訳) 近年,多言語BERTは静的な非コンテクチュアルな単語埋め込みよりも優れた言語間伝達タスクにおいて極めてうまく機能している。 本研究は,既存の言語間能力の文献を補うための詳細な実験研究である。 我々は,非コンテクスト化および文脈化表現モデルの言語間能力と同一データとの比較を行った。 データサイズとコンテキストウィンドウサイズが転送可能性の重要な要因であることがわかった。

Recently, multilingual BERT works remarkably well on cross-lingual transfer tasks, superior to static non-contextualized word embeddings. In this work, we provide an in-depth experimental study to supplement the existing literature of cross-lingual ability. We compare the cross-lingual ability of non-contextualized and contextualized representation model with the same data. We found that datasize and context window size are crucial factors to the transferability.
翻訳日:2022-10-05 06:00:50 公開日:2020-10-20
# SDF-SRN:静的画像を用いた距離3次元物体再構成学習

SDF-SRN: Learning Signed Distance 3D Object Reconstruction from Static Images ( http://arxiv.org/abs/2010.10505v1 )

ライセンス: Link先を確認
Chen-Hsuan Lin, Chaoyang Wang, Simon Lucey(参考訳) 単一の画像から高密度な3Dオブジェクトを再構築することは、最近顕著な進歩をみせたが、一対のイメージ形状のデータセットを作成するという面倒なプロセスのため、地上の3D形状を持つニューラルネットワークの監視は現実的ではない。 近年, 注釈付き2次元シルエットを用いたRGB画像から3次元の3次元再構成を学習し, アノテーションのコストと労力を大幅に削減している。 しかし、トレーニング中に同じオブジェクトインスタンスのマルチビューアノテーションが必要であるため、これらのテクニックは実用的ではない。 その結果、現在までのほとんどの実験は合成データセットに限られている。 本稿では,sdf-srnを提案する。sdf-srnは,実世界のシナリオにおいて,オブジェクトの単一のビューのみを必要とするアプローチである。 SDF-SRNは、データセットに存在する可能性のある任意の形状トポロジーを扱うために、暗黙の3D形状表現を学ぶ。 この目的のために、2次元シルエットから符号付き距離関数(SDF)を学習するための新しい微分可能レンダリング式を導出する。 本手法は,合成データと実世界のデータの両方において,単一視点の監督設定に挑戦する手法である。

Dense 3D object reconstruction from a single image has recently witnessed remarkable advances, but supervising neural networks with ground-truth 3D shapes is impractical due to the laborious process of creating paired image-shape datasets. Recent efforts have turned to learning 3D reconstruction without 3D supervision from RGB images with annotated 2D silhouettes, dramatically reducing the cost and effort of annotation. These techniques, however, remain impractical as they still require multi-view annotations of the same object instance during training. As a result, most experimental efforts to date have been limited to synthetic datasets. In this paper, we address this issue and propose SDF-SRN, an approach that requires only a single view of objects at training time, offering greater utility for real-world scenarios. SDF-SRN learns implicit 3D shape representations to handle arbitrary shape topologies that may exist in the datasets. To this end, we derive a novel differentiable rendering formulation for learning signed distance functions (SDF) from 2D silhouettes. Our method outperforms the state of the art under challenging single-view supervision settings on both synthetic and real-world datasets.
翻訳日:2022-10-05 05:54:42 公開日:2020-10-20
# クラスタマッチングに基づくビデオ顔認識手法

A Cluster-Matching-Based Method for Video Face Recognition ( http://arxiv.org/abs/2010.11732v1 )

ライセンス: Link先を確認
Paulo R C Mendes, Antonio J G Busson, S\'ergio Colcher, Daniel Schwabe, \'Alan L V Guedes, Carlos Laufer(参考訳) 顔認識システムは、私たちの日常生活において、現代の多くのソリューションや何千ものアプリケーションに存在する。 しかし、現在のソリューションは、特に新しいターゲット人の追加に関して、簡単には拡張できない。 ビデオにおける顔認識のためのクラスタマッチングに基づくアプローチを提案する。 このアプローチでは,教師なし学習を用いて,顔認識のために選択したデータセットとターゲットビデオの両方に存在する顔のクラスタ化を行う。 さらに,顔が非登録者のものである場合の識別が可能な,両集合の関連クラスタとヒューリスティックに一致するクラスタを設計する。 本手法は,ビデオ顔認識のタスクにおいて,99.435%のリコールと99.131%の精度を達成した。 顔認識の他に、各人物のいるビデオセグメントを決定するためにも使用できる。

Face recognition systems are present in many modern solutions and thousands of applications in our daily lives. However, current solutions are not easily scalable, especially when it comes to the addition of new targeted people. We propose a cluster-matching-based approach for face recognition in video. In our approach, we use unsupervised learning to cluster the faces present in both the dataset and targeted videos selected for face recognition. Moreover, we design a cluster matching heuristic to associate clusters in both sets that is also capable of identifying when a face belongs to a non-registered person. Our method has achieved a recall of 99.435% and a precision of 99.131% in the task of video face recognition. Besides performing face recognition, it can also be used to determine the video segments where each person is present.
翻訳日:2022-10-05 05:54:08 公開日:2020-10-20
# BYOLはバッチ統計なしでも機能する

BYOL works even without batch statistics ( http://arxiv.org/abs/2010.10241v1 )

ライセンス: Link先を確認
Pierre H. Richemond, Jean-Bastien Grill, Florent Altch\'e, Corentin Tallec, Florian Strub, Andrew Brock, Samuel Smith, Soham De, Razvan Pascanu, Bilal Piot, Michal Valko(参考訳) Bootstrap Your Own Latent (BYOL)は、画像表現のための自己教師型学習アプローチである。 画像の拡張ビューから、BYOLはオンラインネットワークをトレーニングし、同じ画像の異なる拡張ビューのターゲットネットワーク表現を予測する。 対照的な方法とは異なり、byolはトレーニング目的において負のペアから構築された反発項を明示的に使用しない。 しかし、それは自明で一定の表現に崩壊することを避ける。 このようにして、BYOLの崩壊を防ぐためにバッチ正規化(BN)が重要であると仮説を立てた。 実際、BNはバッチ要素間の勾配を流し、バッチ内の負のビューに関する情報をリークする可能性がある。 しかし、BNをバッチ非依存の正規化スキーム(つまり、グループ正規化と重み標準化の組み合わせ)に置き換えることで、画像Net上の線形評価プロトコルでバニラBYOL(73.9\%対7.4.3\%=トップ-1精度)に匹敵する性能が得られることを示す。 我々の発見は,BYOLが有用な表現を学習する上で,バッチ統計の利用が重要な要素であるという仮説を否定するものである。

Bootstrap Your Own Latent (BYOL) is a self-supervised learning approach for image representation. From an augmented view of an image, BYOL trains an online network to predict a target network representation of a different augmented view of the same image. Unlike contrastive methods, BYOL does not explicitly use a repulsion term built from negative pairs in its training objective. Yet, it avoids collapse to a trivial, constant representation. Thus, it has recently been hypothesized that batch normalization (BN) is critical to prevent collapse in BYOL. Indeed, BN flows gradients across batch elements, and could leak information about negative views in the batch, which could act as an implicit negative (contrastive) term. However, we experimentally show that replacing BN with a batch-independent normalization scheme (namely, a combination of group normalization and weight standardization) achieves performance comparable to vanilla BYOL ($73.9\%$ vs. $74.3\%$ top-1 accuracy under the linear evaluation protocol on ImageNet with ResNet-$50$). Our finding disproves the hypothesis that the use of batch statistics is a crucial ingredient for BYOL to learn useful representations.
翻訳日:2022-10-05 05:53:58 公開日:2020-10-20
# 協調戦闘のためのマルチレーダー追尾最適化

Multi-Radar Tracking Optimization for Collaborative Combat ( http://arxiv.org/abs/2010.11733v1 )

ライセンス: Link先を確認
Nouredine Nour, Reda Belhaj-Soullami, C\'edric Buron, Alain Peres, Fr\'ed\'eric Barbaresco(参考訳) 協調ネットワークレーダのスマートグリッドは、中央集権的なコマンドとコントロールよりも効率的なクロスキューを通じて、キルチェーンを加速する。 本稿では,ブラックボックス最適化と強化学習(rl)に基づく分散型レーダコーディネーションに対する報酬に基づく2つの学習手法を提案する。 RL アプローチをトラクタブルにするために、初期定式化と等価であることが証明された問題を単純化する。 これらの手法を,レーダーが複数の目標を同時に追従できるシミュレーションに適用し,それらを欲望のベースラインと比較することで暗黙の協力関係を学習できることを示す。

Smart Grids of collaborative netted radars accelerate kill chains through more efficient cross-cueing over centralized command and control. In this paper, we propose two novel reward-based learning approaches to decentralized netted radar coordination based on black-box optimization and Reinforcement Learning (RL). To make the RL approach tractable, we use a simplification of the problem that we proved to be equivalent to the initial formulation. We apply these techniques on a simulation where radars can follow multiple targets at the same time and show they can learn implicit cooperation by comparing them to a greedy baseline.
翻訳日:2022-10-05 05:53:14 公開日:2020-10-20
# 命令リカレントネットワーク:ディープラーニングにおけるリカレントニューラルネットワークを用いた定常入力処理の新しいアプローチ

Implicit recurrent networks: A novel approach to stationary input processing with recurrent neural networks in deep learning ( http://arxiv.org/abs/2010.10564v1 )

ライセンス: Link先を確認
Sebastian Sanokowski(参考訳) 脳の視覚的、聴覚的、感覚的なデータを処理している大脳皮質は、その層と上位層から下位層の間で多くの繰り返し接続があることが知られている。 しかし、ニューラルネットワークを用いた機械学習の場合、厳密なフィードフォワードアーキテクチャは画像などの静的な入力データに適していると考えられ、一方、リカレントネットワークは主に言語などのシーケンシャルな入力の処理に必要である。 しかし、静的入力データの処理が再帰接続の恩恵を受けるかどうかは明らかではない。 本研究では,横方向およびフィードバック接続を用いたニューラルネットワークの新たな実装を,ディープラーニングに導入し,テストする。 この厳格なフィードフォワード構造からの離脱は、ネットワークのトレーニングに標準エラーバックプロパゲーションアルゴリズムの使用を妨げる。 そこで本研究では,リカレントニューラルネットワークの最先端実装とは異なる,リカレントネットワークの暗黙的実装にバックプロパゲーションアルゴリズムを実装するアルゴリズムを提案する。 提案手法は,現在のリカレントニューラルネットワークとは対照的に,反復的な更新ステップの多さから,導関数の長い鎖の使用を排除し,計算コストの低減を図る。 シングルレイヤの暗黙的再帰ネットワークはXOR問題を解くことができ、一方、単調にアクティベーション関数が増加するフィードフォワードネットワークはこのタスクでは失敗する。 最後に, 減衰振子の計測軌跡から物理パラメータの回帰タスクにおいて, 2層暗黙的再帰的アーキテクチャがよりよい性能をもたらすことを実証する。

The brain cortex, which processes visual, auditory and sensory data in the brain, is known to have many recurrent connections within its layers and from higher to lower layers. But, in the case of machine learning with neural networks, it is generally assumed that strict feed-forward architectures are suitable for static input data, such as images, whereas recurrent networks are required mainly for the processing of sequential input, such as language. However, it is not clear whether also processing of static input data benefits from recurrent connectivity. In this work, we introduce and test a novel implementation of recurrent neural networks with lateral and feed-back connections into deep learning. This departure from the strict feed-forward structure prevents the use of the standard error backpropagation algorithm for training the networks. Therefore we provide an algorithm which implements the backpropagation algorithm on a implicit implementation of recurrent networks, which is different from state-of-the-art implementations of recurrent neural networks. Our method, in contrast to current recurrent neural networks, eliminates the use of long chains of derivatives due to many iterative update steps, which makes learning computationally less costly. It turns out that the presence of recurrent intra-layer connections within a one-layer implicit recurrent network enhances the performance of neural networks considerably: A single-layer implicit recurrent network is able to solve the XOR problem, while a feed-forward network with monotonically increasing activation function fails at this task. Finally, we demonstrate that a two-layer implicit recurrent architecture leads to a better performance in a regression task of physical parameters from the measured trajectory of a damped pendulum.
翻訳日:2022-10-05 05:53:04 公開日:2020-10-20
# Word Shape Matters: Visual Embeddingによるロバスト機械翻訳

Word Shape Matters: Robust Machine Translation with Visual Embedding ( http://arxiv.org/abs/2010.09997v1 )

ライセンス: Link先を確認
Haohan Wang, Peiyan Zhang, Eric P. Xing(参考訳) ニューラルマシン翻訳は、標準ベンチマークデータセットよりも顕著な実験的な性能を達成しているが、近年の証拠は、ミススペル語などのサブスタンダード入力の処理に失敗する可能性があることを示唆している。この問題を克服するために、文字レベルのNLPモデルに対して、入力シンボルのエンコードヒューリスティックを導入し、印刷時に文字を描写した画像を通じて各文字の形状を符号化する。 我々はこの新たな戦略を視覚埋め込みと呼び、機械の1ホットベクトルではなく、人間が印刷文字を通してコーパスを視覚的に処理するため、NLPモデルの堅牢性を向上させることが期待されている。 実験結果から,本手法は,モデルがトレーニングフェーズで使用可能な以上のノイズでテストされるテストシナリオにおいても,準標準入力に対するモデルの頑健性を向上させる。

Neural machine translation has achieved remarkable empirical performance over standard benchmark datasets, yet recent evidence suggests that the models can still fail easily dealing with substandard inputs such as misspelled words, To overcome this issue, we introduce a new encoding heuristic of the input symbols for character-level NLP models: it encodes the shape of each character through the images depicting the letters when printed. We name this new strategy visual embedding and it is expected to improve the robustness of NLP models because humans also process the corpus visually through printed letters, instead of machinery one-hot vectors. Empirically, our method improves models' robustness against substandard inputs, even in the test scenario where the models are tested with the noises that are beyond what is available during the training phase.
翻訳日:2022-10-05 05:52:37 公開日:2020-10-20
# 広域ニューラルネットワークにおける知識蒸留:リスクバウンド、データ効率、不完全教師

Knowledge Distillation in Wide Neural Networks: Risk Bound, Data Efficiency and Imperfect Teacher ( http://arxiv.org/abs/2010.10090v1 )

ライセンス: Link先を確認
Guangda Ji, Zhanxing Zhu(参考訳) 知識蒸留は、教師ネットワークからのソフトアウトプットのガイドで学生ネットワークを訓練する戦略である。 モデル圧縮と知識伝達の手法として成功している。 しかし、現在では知識蒸留は理論的な理解を欠いている。 一方,近年の神経接核の発見により,ネットワークのランダムな特徴の線形モデルを用いて,広いニューラルネットワークを近似することが可能となった。 本稿では,広いニューラルネットワークの知識蒸留を理論的に解析する。 まず,ネットワークの線形化モデルにバウンドした転送リスクを提供する。 次に,データ非効率性(data inefficiency)という課題の訓練難易度指標を提案する。 この測定値から,完璧な教師にとって,教師のソフトラベルの比率が高い方が有益であることを示す。 最後に,不完全教師の場合,ハードラベルは教師の誤った予測を正すことができ,ハードラベルとソフトラベルを混合するプラクティスを説明する。

Knowledge distillation is a strategy of training a student network with guide of the soft output from a teacher network. It has been a successful method of model compression and knowledge transfer. However, currently knowledge distillation lacks a convincing theoretical understanding. On the other hand, recent finding on neural tangent kernel enables us to approximate a wide neural network with a linear model of the network's random features. In this paper, we theoretically analyze the knowledge distillation of a wide neural network. First we provide a transfer risk bound for the linearized model of the network. Then we propose a metric of the task's training difficulty, called data inefficiency. Based on this metric, we show that for a perfect teacher, a high ratio of teacher's soft labels can be beneficial. Finally, for the case of imperfect teacher, we find that hard labels can correct teacher's wrong prediction, which explains the practice of mixing hard and soft labels.
翻訳日:2022-10-05 05:45:28 公開日:2020-10-20
# 影響関数を用いたモデル固有データサブサンプリング

Model-specific Data Subsampling with Influence Functions ( http://arxiv.org/abs/2010.10218v1 )

ライセンス: Link先を確認
Anant Raj and Cameron Musco and Lester Mackey and Nicolo Fusi(参考訳) モデル選択には、与えられたデータセット上のモデルを繰り返し評価し、相対的なパフォーマンスを測定する必要がある。 現代の機械学習の応用において、考慮されているモデルの評価はますます高くなり、関心のあるデータセットのサイズが増加している。 その結果、モデル選択のプロセスは時間がかかり、計算効率が低下する。 本研究では,学習点に異なる影響がある場合,ランダムサンプリングよりも優れたモデル固有データサブサンプリング戦略を開発する。 具体的には、影響関数を利用して選択戦略を指導し、理論的に証明し、我々のアプローチが素早く高品質のモデルを選択できることを実証します。

Model selection requires repeatedly evaluating models on a given dataset and measuring their relative performances. In modern applications of machine learning, the models being considered are increasingly more expensive to evaluate and the datasets of interest are increasing in size. As a result, the process of model selection is time-consuming and computationally inefficient. In this work, we develop a model-specific data subsampling strategy that improves over random sampling whenever training points have varying influence. Specifically, we leverage influence functions to guide our selection strategy, proving theoretically, and demonstrating empirically that our approach quickly selects high-quality models.
翻訳日:2022-10-05 05:45:04 公開日:2020-10-20
# 機械学習のための反事実的説明:レビュー

Counterfactual Explanations for Machine Learning: A Review ( http://arxiv.org/abs/2010.10596v1 )

ライセンス: Link先を確認
Sahil Verma and John Dickerson and Keegan Hines(参考訳) 機械学習は、多くのデプロイされた意思決定システムにおいて、しばしば人間の利害関係者が理解することが困難または不可能な方法で役割を果たす。 人間の理解可能な方法で説明すると、機械学習モデルの入力と出力の関係は、信頼できる機械学習ベースのシステムの開発に不可欠である。 急成長する研究機関は、機械学習における説明可能性の目標と方法を定義しようとしている。 本稿では、モデルへの入力が特定の方法で変更された場合、何が起こったかのリンクを提供する、特定の種類の説明である反事実説明の研究をレビューし、分類することを目指す。 機械学習における非事実的説明可能性に対する現代のアプローチは、多くの国で確立された法律ドクトリンとつながりを持ち、金融や医療といった大きな影響のある分野の分野に訴求する。 そこで我々は,反実的説明アルゴリズムの望ましい特性を持つルーリックを設計し,そのルーリックに対して現在提案されている全てのアルゴリズムを包括的に評価する。 我々のルーリックは、異なるアプローチの利点とデメリットの簡単な比較と理解を提供し、この分野における主要な研究テーマの紹介となる。 また、ギャップを識別し、対実的説明可能性の空間における有望な研究方向性について議論する。

Machine learning plays a role in many deployed decision systems, often in ways that are difficult or impossible to understand by human stakeholders. Explaining, in a human-understandable way, the relationship between the input and output of machine learning models is essential to the development of trustworthy machine-learning-based systems. A burgeoning body of research seeks to define the goals and methods of explainability in machine learning. In this paper, we seek to review and categorize research on counterfactual explanations, a specific class of explanation that provides a link between what could have happened had input to a model been changed in a particular way. Modern approaches to counterfactual explainability in machine learning draw connections to the established legal doctrine in many countries, making them appealing to fielded systems in high-impact areas such as finance and healthcare. Thus, we design a rubric with desirable properties of counterfactual explanation algorithms and comprehensively evaluate all currently-proposed algorithms against that rubric. Our rubric provides easy comparison and comprehension of the advantages and disadvantages of different approaches and serves as an introduction to major research themes in this field. We also identify gaps and discuss promising research directions in the space of counterfactual explainability.
翻訳日:2022-10-05 05:44:54 公開日:2020-10-20
# BiST:ビデオ音声対話のための双方向時空間推論

BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded Dialogues ( http://arxiv.org/abs/2010.10095v1 )

ライセンス: Link先を確認
Hung Le, Doyen Sahoo, Nancy F. Chen, Steven C.H. Hoi(参考訳) ビデオの対話は、とても難しい (i)空間的・時間的変動の両方を含むビデオの複雑さ、及び (i) 複数対話でビデオ内の異なるセグメントや/または異なるオブジェクトを検索するユーザ発話の複雑さ。 しかし、ビデオ地上対話への既存のアプローチは、表面的な時間レベルの視覚的手がかりに焦点を当てることが多いが、ビデオのよりきめ細かい空間的信号は無視する。 そこで本研究では,映像中の高分解能問合せのための視覚言語ニューラルフレームワークであるbi-directional spatio-temporal learning (bist)を提案する。 具体的には,2つの特徴空間間の動的情報拡散を時空間的・時空間的推論を通じて学習する。 双方向戦略は、対話設定におけるユーザクエリの進化的セマンティクスに取り組むことを目的としている。 検索した視覚的手がかりをコンテキスト情報として使用し、ユーザに対して関連する応答を構築する。 実験結果と包括的定性解析により,BiSTは競争性能を達成し,大規模AVSDベンチマークで妥当な応答を生成することが示された。 また、ビデオQA設定にBiSTモデルを適用し、TGIF-QAベンチマークの事前アプローチを大幅に上回っています。

Video-grounded dialogues are very challenging due to (i) the complexity of videos which contain both spatial and temporal variations, and (ii) the complexity of user utterances which query different segments and/or different objects in videos over multiple dialogue turns. However, existing approaches to video-grounded dialogues often focus on superficial temporal-level visual cues, but neglect more fine-grained spatial signals from videos. To address this drawback, we propose Bi-directional Spatio-Temporal Learning (BiST), a vision-language neural framework for high-resolution queries in videos based on textual cues. Specifically, our approach not only exploits both spatial and temporal-level information, but also learns dynamic information diffusion between the two feature spaces through spatial-to-temporal and temporal-to-spatial reasoning. The bidirectional strategy aims to tackle the evolving semantics of user queries in the dialogue setting. The retrieved visual cues are used as contextual information to construct relevant responses to the users. Our empirical results and comprehensive qualitative analysis show that BiST achieves competitive performance and generates reasonable responses on a large-scale AVSD benchmark. We also adapt our BiST models to the Video QA setting, and substantially outperform prior approaches on the TGIF-QA benchmark.
翻訳日:2022-10-05 05:44:19 公開日:2020-10-20
# 画像内ニューラルネットワークのエンドツーエンド翻訳に向けて

Towards End-to-End In-Image Neural Machine Translation ( http://arxiv.org/abs/2010.10648v1 )

ライセンス: Link先を確認
Elman Mansimov, Mitchell Stern, Mia Chen, Orhan Firat, Jakob Uszkoreit, Puneet Jain(参考訳) 本稿では、ある言語でテキストを含む画像から別の言語で同じテキストを含む画像へ変換するインイメージ機械翻訳の課題について、予備的な調査を行う。 本稿では,近年のニューラルマシン翻訳のアプローチに触発された,この課題に対するエンドツーエンドのニューラルモデルを提案し,ピクセルレベルの監督に基づく有望な初期結果を示す。 次に,システム出力の定量的・質的評価を行い,一般的な故障モードについて考察する。 最後に,今後の研究の方向性について述べる。

In this paper, we offer a preliminary investigation into the task of in-image machine translation: transforming an image containing text in one language into an image containing the same text in another language. We propose an end-to-end neural model for this task inspired by recent approaches to neural machine translation, and demonstrate promising initial results based purely on pixel-level supervision. We then offer a quantitative and qualitative evaluation of our system outputs and discuss some common failure modes. Finally, we conclude with directions for future work.
翻訳日:2022-10-05 05:43:57 公開日:2020-10-20
# ベイズ注意加群

Bayesian Attention Modules ( http://arxiv.org/abs/2010.10604v1 )

ライセンス: Link先を確認
Xinjie Fan and Shujian Zhang and Bo Chen and Mingyuan Zhou(参考訳) シンプルで効果的なツールであるアテンションモジュールは、ディープニューラルネットワークを多くのドメインで最先端の結果を達成するだけでなく、その解釈可能性も強化した。 現在のモデルのほとんどは、シンプルさと最適化の容易さのために決定論的アテンションモジュールを使用している。 一方、確率的な比較は、潜在的に利益があるにもかかわらず、あまり人気がない。 主な理由は、確率的注意がしばしば最適化の問題や大きなモデル変更を必要とするためである。 本稿では,実装や最適化が容易な,スケーラブルな確率型アテンションを提案する。 我々は,再パラメータ化可能な分布を正規化することにより,単純な注意分布を構築する。 我々は、正規化のためにデータ依存の事前を導入するベイズフレームワークでそれらのパラメータを学習する。 提案する確率的注意モジュールを様々な注意に基づくモデルに適用し,グラフノード分類,視覚的質問応答,画像キャプション,機械翻訳,言語理解に適用する。 本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。

Attention modules, as simple and effective tools, have not only enabled deep neural networks to achieve state-of-the-art results in many domains, but also enhanced their interpretability. Most current models use deterministic attention modules due to their simplicity and ease of optimization. Stochastic counterparts, on the other hand, are less popular despite their potential benefits. The main reason is that stochastic attention often introduces optimization issues or requires significant model changes. In this paper, we propose a scalable stochastic version of attention that is easy to implement and optimize. We construct simplex-constrained attention distributions by normalizing reparameterizable distributions, making the training process differentiable. We learn their parameters in a Bayesian framework where a data-dependent prior is introduced for regularization. We apply the proposed stochastic attention modules to various attention-based models, with applications to graph node classification, visual question answering, image captioning, machine translation, and language understanding. Our experiments show the proposed method brings consistent improvements over the corresponding baselines.
翻訳日:2022-10-05 05:35:58 公開日:2020-10-20
# ローカル知識を活用した会話エージェント

Local Knowledge Powered Conversational Agents ( http://arxiv.org/abs/2010.10150v1 )

ライセンス: Link先を確認
Sashank Santhanam, Wei Ping, Raul Puri, Mohammad Shoeybi, Mostofa Patwary, Bryan Catanzaro(参考訳) 最先端の会話エージェントは、大きなトランスフォーマーベースの言語モデルの使用とともに大幅に進歩している。 しかし、これらの進歩にもかかわらず、会話エージェントは、局所的なコンテキストと情報的かつ一貫性のある応答を生成する能力に欠ける。 本研究では,ローカル知識とユーザの過去の対話の両方を取り入れた対話フレームワークを提案し,高品質な会話を生成する。 本稿では,Redditの会話をベースとしたデータセット構築手法を提案する。そこでは,会話中にアウトバウンドURLリンクが広く利用でき,ハイパーリンクされたドキュメントをローカル外部知識として自然に含めることができる。 本研究の枠組みとデータセットを用いて,局所知識を取り入れることで,人間評価を用いた情報提供性,一貫性,現実性の向上が期待できることを示す。 特に,我々のアプローチは,Redditデータセットにおける最先端の会話モデルよりも一貫して優れています。 また、モデルのサイズを117Mから8.3Bに拡大すると、検証の難易度と人間の評価指標が一貫した改善が得られます。 我々は,8.3Bパラメータを用いたモデルを用いて,1ターンダイアログ設定において,人間の評価によって評価された人間的な応答を生成することができる。

State-of-the-art conversational agents have advanced significantly in conjunction with the use of large transformer-based language models. However, even with these advancements, conversational agents still lack the ability to produce responses that are informative and coherent with the local context. In this work, we propose a dialog framework that incorporates both local knowledge as well as users' past dialogues to generate high quality conversations. We introduce an approach to build a dataset based on Reddit conversations, where outbound URL links are widely available in the conversations and the hyperlinked documents can be naturally included as local external knowledge. Using our framework and dataset, we demonstrate that incorporating local knowledge can largely improve informativeness, coherency and realisticness measures using human evaluations. In particular, our approach consistently outperforms the state-of-the-art conversational model on the Reddit dataset across all three measures. We also find that scaling the size of our models from 117M to 8.3B parameters yields consistent improvement of validation perplexity as well as human evaluated metrics. Our model with 8.3B parameters can generate human-like responses as rated by various human evaluations in a single-turn dialog setting.
翻訳日:2022-10-05 05:35:30 公開日:2020-10-20
# テキストデータに基づく畳み込みネットワークの解釈

Interpreting convolutional networks trained on textual data ( http://arxiv.org/abs/2010.13585v1 )

ライセンス: Link先を確認
Reza Marzban, Christopher John Crick(参考訳) ディープラーニングの出現により、人工知能分野には多くの進歩があった。 ほぼ全てのサブフィールドにおいて、ニューラルネットワークは人間レベルの性能に達している。 しかし、ほとんどのモデルは解釈できない。 その結果、特に生命と死のシナリオにおいて、彼らの決定を信頼することは困難である。 近年では、説明可能な人工知能を開発する動きがあるが、これまでほとんどの作業は画像処理モデルに集中しており、人間の視覚パターンの認識が容易になっている。 自然言語処理のような他の分野ではほとんど仕事がなかった。 本稿では,テキストデータに基づく畳み込みモデルを訓練し,そのフィルタ値を用いてモデルのグローバル論理を解析する。 結局のところ、私たちのモデル論理のコーパスで最も重要な単語を見つけ、残りの単語を取り除きます(95%)。 5%以上の重要な単語でトレーニングされた新しいモデルは、トレーニング時間を半分以上削減しながら、オリジナルのモデルと同じパフォーマンスを達成することができる。 このようなアプローチは、NLPモデルを理解し、単語の選択に従ってその決定を説明し、盲点やバイアスを見つけることによって改善する上で役立ちます。

There have been many advances in the artificial intelligence field due to the emergence of deep learning. In almost all sub-fields, artificial neural networks have reached or exceeded human-level performance. However, most of the models are not interpretable. As a result, it is hard to trust their decisions, especially in life and death scenarios. In recent years, there has been a movement toward creating explainable artificial intelligence, but most work to date has concentrated on image processing models, as it is easier for humans to perceive visual patterns. There has been little work in other fields like natural language processing. In this paper, we train a convolutional model on textual data and analyze the global logic of the model by studying its filter values. In the end, we find the most important words in our corpus to our models logic and remove the rest (95%). New models trained on just the 5% most important words can achieve the same performance as the original model while reducing training time by more than half. Approaches such as this will help us to understand NLP models, explain their decisions according to their word choices, and improve them by finding blind spots and biases.
翻訳日:2022-10-05 05:34:29 公開日:2020-10-20