このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201202となっている論文です。

PDF登録状況(公開日: 20201202)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 逐次特徴関連と奥行き増強による単眼的3次元物体検出 [全文訳有]

Monocular 3D Object Detection with Sequential Feature Association and Depth Hint Augmentation ( http://arxiv.org/abs/2011.14589v3 )

ライセンス: CC BY 4.0
Tianze Gao, Huihui Pan, Huijun Gao(参考訳) モノキュラー3次元物体検出は、自律運転の知的知覚システムにとって有望な研究課題である。 本研究では,FADNetと呼ばれる単一ステージのキーポイントベースネットワークを提示し,モノクロ3Dオブジェクト検出の課題に対処する。 出力分岐に同一のレイアウトを取り入れた従来のキーポイント方式とは対照的に、推定困難度に応じて出力モードを異なるグループに分割し、異なるグループを逐次的特徴結合によって異なる扱いをする。 この研究のもうひとつの貢献は、深さヒント増強の戦略である。 深度推定用ヒントとして特徴的深度パターンを提供することを課題とし、専用深度ヒントモジュールは、ビンワイズで明示的に管理された深度ヒントと呼ばれる行ワイズ特徴を生成するように設計されている。 トレーニング段階では、回帰出力を均一に符号化し、損失分散を可能にする。 2D損失項はさらに、小物体の検出精度を向上させるために深度認識に適合する。 この研究の貢献は、KITTIベンチマークの実験およびアブレーション研究によって検証される。 我々のネットワークは、深さ優先やポスト最適化などの改良モジュールを使わずに、適正な実行速度を維持しながら最先端の手法に対して競争力を発揮する。

Monocular 3D object detection is a promising research topic for the intelligent perception systems of autonomous driving. In this work, a single-stage keypoint-based network, named as FADNet, is presented to address the task of monocular 3D object detection. In contrast to previous keypoint-based methods which adopt identical layouts for output branches, we propose to divide the output modalities into different groups according to the estimating difficulty, whereby different groups are treated differently by sequential feature association. Another contribution of this work is the strategy of depth hint augmentation. To provide characterized depth patterns as hints for depth estimation, a dedicated depth hint module is designed to generate row-wise features named as depth hints, which are explicitly supervised in a bin-wise manner. In the training stage, the regression outputs are uniformly encoded to enable loss disentanglement. The 2D loss term is further adapted to be depth-aware for improving the detection accuracy of small objects. The contributions of this work are validated by conducting experiments and ablation study on the KITTI benchmark. Without utilizing depth priors, post optimization, or other refinement modules, our network performs competitively against state-of-the-art methods while maintaining a decent running speed.
翻訳日:2021-06-07 04:51:12 公開日:2020-12-02
# FairFaceGAN:Fairness -Aware Facial Image-to- Image Translation

FairFaceGAN: Fairness-aware Facial Image-to-Image Translation ( http://arxiv.org/abs/2012.00282v2 )

ライセンス: Link先を確認
Sunhee Hwang, Sungho Park, Dohyung Kim, Mirae Do, Hyeran Byun(参考訳) 本稿では,顔属性編集における保護属性(性別,年齢,人種など)の不要な翻訳問題を緩和する,フェアネスを意識した顔画像から画像への翻訳モデルfairfaceganを提案する。 既存のモデルとは異なり、fairfaceganは2つの異なる潜在子を持つフェア表現を学習する。 この戦略により、FairFaceGANは保護属性とターゲット属性に関する情報を分離することができる。 また、ターゲット属性の編集中に保護属性の不要な翻訳を防ぐ。 公平性を評価するため,celebaデータセット上で2種類の実験を行った。 まず,既存の画像翻訳手法とFairFaceGANによるデータ拡張時の公平性を考慮した分類性能を比較した。 さらに,Frechet Protected Attribute Distance (FPAD) と呼ばれる,保護属性の保存性を評価する新しいフェアネス尺度を提案する。 実験により、FairFaceGANは既存の画像翻訳モデルよりも公平性において一貫した改善を示した。 さらに、FairFaceGANが既存の手法と比較して競合する結果を示す画像翻訳性能も評価する。

In this paper, we introduce FairFaceGAN, a fairness-aware facial Image-to-Image translation model, mitigating the problem of unwanted translation in protected attributes (e.g., gender, age, race) during facial attributes editing. Unlike existing models, FairFaceGAN learns fair representations with two separate latents - one related to the target attributes to translate, and the other unrelated to them. This strategy enables FairFaceGAN to separate the information about protected attributes and that of target attributes. It also prevents unwanted translation in protected attributes while target attributes editing. To evaluate the degree of fairness, we perform two types of experiments on CelebA dataset. First, we compare the fairness-aware classification performances when augmenting data by existing image translation methods and FairFaceGAN respectively. Moreover, we propose a new fairness metric, namely Frechet Protected Attribute Distance (FPAD), which measures how well protected attributes are preserved. Experimental results demonstrate that FairFaceGAN shows consistent improvements in terms of fairness over the existing image translation models. Further, we also evaluate image translation performances, where FairFaceGAN shows competitive results, compared to those of existing methods.
翻訳日:2021-05-30 19:51:53 公開日:2020-12-02
# 知識蒸留による正規化を継承する可解モデル

Solvable Model for Inheriting the Regularization through Knowledge Distillation ( http://arxiv.org/abs/2012.00194v2 )

ライセンス: Link先を確認
Luca Saglietti and Lenka Zdeborov\'a(参考訳) 近年,ニューラルネットワークによる伝達学習の実証的成功は,そのコア特性の理論的理解の獲得への関心を高めている。 より大きなニューラルネットワークの出力を使って、より小さなニューラルネットワークを訓練する知識蒸留は、転送学習の特に興味深いケースである。 本研究では,浅層ニューラルネットワークにおける知識蒸留(KD)の特性を解析的に評価できる統計物理フレームワークを提案する。 非自明な一般化ギャップを示す可解モデルの解析に着目し、KDの有効性を検討する。 kdにより,より大きな教師モデルの正規化特性は小学生に受け継がれ,得られた一般化性能は教師の最適性によって密接に関連し,制限されていることを示すことができる。 最後に、考慮されたKD設定で起こりうる二重降下現象を解析する。

In recent years the empirical success of transfer learning with neural networks has stimulated an increasing interest in obtaining a theoretical understanding of its core properties. Knowledge distillation where a smaller neural network is trained using the outputs of a larger neural network is a particularly interesting case of transfer learning. In the present work, we introduce a statistical physics framework that allows an analytic characterization of the properties of knowledge distillation (KD) in shallow neural networks. Focusing the analysis on a solvable model that exhibits a non-trivial generalization gap, we investigate the effectiveness of KD. We are able to show that, through KD, the regularization properties of the larger teacher model can be inherited by the smaller student and that the yielded generalization performance is closely linked to and limited by the optimality of the teacher. Finally, we analyze the double descent phenomenology that can arise in the considered KD setting.
翻訳日:2021-05-30 19:28:30 公開日:2020-12-02
# (参考訳) 高次元出力の多次元能動学習 [全文訳有]

Deep Multi-Fidelity Active Learning of High-dimensional Outputs ( http://arxiv.org/abs/2012.00901v1 )

ライセンス: CC BY 4.0
Shibo Li, Robert M. Kirby, Shandian Zhe(参考訳) 物理シミュレーションや工学設計などの多くの応用では、高次元の出力を持つ関数を推定する必要がある。 トレーニング例は、コスト/精度のトレードオフを可能にするために、さまざまな忠実度で収集することができる。 本稿では,新たなトレーニング事例を探索し,有効性とインプットの両方を識別する能動的学習タスクについて考察する。 そこで本研究では,Deep Multi-Fidelity Active LearningアプローチであるDMFALを提案する。 まず、高次元出力で学習するディープニューラルネットワークに基づく多要素モデルを開発し、このモデルにより、出力と忠実さのあらゆる種類の複雑な関係を柔軟に、効率的に捕捉し、予測を改善することができる。 次に,予測エントロピー原理を拡張する相互情報に基づく獲得関数を提案する。 大きな出力次元によって生じる計算上の課題を克服するために、多変量デルタ法とモーメントマッチングを用いて出力の後方推定を行い、weinstein-aronszajn id を用いて取得関数の計算と最適化を行う。 計算は扱いやすく、信頼性があり、効率的である。 計算物理学と工学設計のいくつかの応用において,本手法の利点を示す。

Many applications, such as in physical simulation and engineering design, demand we estimate functions with high-dimensional outputs. The training examples can be collected with different fidelities to allow a cost/accuracy trade-off. In this paper, we consider the active learning task that identifies both the fidelity and input to query new training examples so as to achieve the best benefit-cost ratio. To this end, we propose DMFAL, a Deep Multi-Fidelity Active Learning approach. We first develop a deep neural network-based multi-fidelity model for learning with high-dimensional outputs, which can flexibly, efficiently capture all kinds of complex relationships across the outputs and fidelities to improve prediction. We then propose a mutual information-based acquisition function that extends the predictive entropy principle. To overcome the computational challenges caused by large output dimensions, we use multi-variate Delta's method and moment-matching to estimate the output posterior, and Weinstein-Aronszajn identity to calculate and optimize the acquisition function. The computation is tractable, reliable and efficient. We show the advantage of our method in several applications of computational physics and engineering design.
翻訳日:2021-05-30 17:37:57 公開日:2020-12-02
# (参考訳) 船の検出:パラメータサーバの変種 [全文訳有]

Ship Detection: Parameter Server Variant ( http://arxiv.org/abs/2012.00953v1 )

ライセンス: CC BY 4.0
Benjamin Smith(参考訳) 衛星写真における深層学習船の検出は、雲、地塊、人造物体による偽陽性の発生に悩まされ、船の正確な分類に干渉し、通常はクラス精度のスコアを88\%に制限する。 この研究は、クラウドベースのソリューションにおけるカスタマイズ戦略、クラス精度率、トレーニング時間、コストの間の緊張関係を調査します。 我々は、カスタムU-Netが検証データセットで92\%、ターゲットデータセットで68\%の精度を90%の信頼性で達成できることを実証する。 また,単一ノードアーキテクチャと,ワーカがブースティングメカニズムとして機能するパラメータサーバの変種を比較した。 パラメータサーバの変種は、最高の単一ノードアプローチと比較して、ターゲットデータセットのクラス精度が73\%に達する。 単一ノードとパラメータサーバの変動型アーキテクチャの系統的性能に関する比較研究を経験的知見から支援して論じる。

Deep learning ship detection in satellite optical imagery suffers from false positive occurrences with clouds, landmasses, and man-made objects that interfere with correct classification of ships, typically limiting class accuracy scores to 88\%. This work explores the tensions between customization strategies, class accuracy rates, training times, and costs in cloud based solutions. We demonstrate how a custom U-Net can achieve 92\% class accuracy over a validation dataset and 68\% over a target dataset with 90\% confidence. We also compare a single node architecture with a parameter server variant whose workers act as a boosting mechanism. The parameter server variant outperforms class accuracy on the target dataset reaching 73\% class accuracy compared to the best single node approach. A comparative investigation on the systematic performance of the single node and parameter server variant architectures is discussed with support from empirical findings.
翻訳日:2021-05-30 16:09:44 公開日:2020-12-02
# (参考訳) 顕在的機能マッピングの先行する深部逆センサモデル [全文訳有]

Deep Inverse Sensor Models as Priors for evidential Occupancy Mapping ( http://arxiv.org/abs/2012.02111v1 )

ライセンス: CC BY 4.0
Daniel Bauer, Lars Kuhnert, Lutz Eckstein(参考訳) 近年の自動運転の普及に伴い、居住マッピングのインプットとしてレーダーへの注目が高まっている。 それらの多くの利点に加えて、レーダー検出に基づく占有空間の推測は、データ空間と環境依存ノイズ(例)のため、非常に難しい。 マルチパスリフレクション)。 近年,deep ismと呼ばれる深層学習に基づく逆センサモデルが,空間情報検索において,幾何センサモデルよりも精度が向上していることが示されている。 しかしながら、これらの手法はデータ駆動補間を行い、後に測定の有無で検証する必要がある。 本稿では,深部ISMと幾何ISMを一体化するための新しいアプローチについて述べる。 本手法は, 幾何モデルでは観測不能なセルを初期化するためのデータ駆動アプローチの能力と, 知覚場と収束速度を効果的に向上させると同時に, 幾何学的 ism の精度を利用して鋭い境界に収束する能力の両方を活用する。 我々はさらに、深部ISM推定の確実性に対する低い限界と、深部ISMにのみ割り当てられた細胞を、幾何的アプローチで検証済みの細胞と区別するために使用する収束の解析的証明を定義した。

With the recent boost in autonomous driving, increased attention has been paid on radars as an input for occupancy mapping. Besides their many benefits, the inference of occupied space based on radar detections is notoriously difficult because of the data sparsity and the environment dependent noise (e.g. multipath reflections). Recently, deep learning-based inverse sensor models, from here on called deep ISMs, have been shown to improve over their geometric counterparts in retrieving occupancy information. Nevertheless, these methods perform a data-driven interpolation which has to be verified later on in the presence of measurements. In this work, we describe a novel approach to integrate deep ISMs together with geometric ISMs into the evidential occupancy mapping framework. Our method leverages both the capabilities of the data-driven approach to initialize cells not yet observable for the geometric model effectively enhancing the perception field and convergence speed, while at the same time use the precision of the geometric ISM to converge to sharp boundaries. We further define a lower limit on the deep ISM estimate's certainty together with analytical proofs of convergence which we use to distinguish cells that are solely allocated by the deep ISM from cells already verified using the geometric approach.
翻訳日:2021-05-30 15:46:59 公開日:2020-12-02
# (参考訳) マルチビューデータを用いた部分共有半教師付き深層行列分解 [全文訳有]

Partially Shared Semi-supervised Deep Matrix Factorization with Multi-view Data ( http://arxiv.org/abs/2012.00993v1 )

ライセンス: CC BY 4.0
Haonan Huang, Naiyao Liang, Wei Yan, Zuyuan Yang, Weijun Sun(参考訳) 多くの現実世界のデータは複数の視点から記述できるため、多視点学習が注目されている。 行列因数分解モデルに基づいて,様々な手法が提案され,多視点学習に成功している。 近年,多視点データの階層情報を活用するために深層構造に拡張されているが,ビュー特有の特徴やラベル情報は考慮されていない。 これらの問題に対処するため、部分共有半教師付き深層行列分解モデル(PSDMF)を提案する。 部分共有深部分解構造、グラフ正規化、半教師付き回帰モデルを統合することにより、PSDMFは非相関情報の影響を排除してコンパクトかつ識別的な表現を学習することができる。 さらに,PSDMFの効率的な反復更新アルゴリズムを開発した。 5つのベンチマークデータセットの大規模な実験により、PSDMFは最先端のマルチビュー学習アプローチよりも優れたパフォーマンスを達成できることが示された。 MATLABのソースコードはhttps://github.com/l ibertyhhn/PartiallyS haredDMFで入手できる。

Since many real-world data can be described from multiple views, multi-view learning has attracted considerable attention. Various methods have been proposed and successfully applied to multi-view learning, typically based on matrix factorization models. Recently, it is extended to the deep structure to exploit the hierarchical information of multi-view data, but the view-specific features and the label information are seldom considered. To address these concerns, we present a partially shared semi-supervised deep matrix factorization model (PSDMF). By integrating the partially shared deep decomposition structure, graph regularization and the semi-supervised regression model, PSDMF can learn a compact and discriminative representation through eliminating the effects of uncorrelated information. In addition, we develop an efficient iterative updating algorithm for PSDMF. Extensive experiments on five benchmark datasets demonstrate that PSDMF can achieve better performance than the state-of-the-art multi-view learning approaches. The MATLAB source code is available at https://github.com/l ibertyhhn/PartiallyS haredDMF.
翻訳日:2021-05-30 15:30:50 公開日:2020-12-02
# (参考訳) マルチモーダルヘイトスピーチの分類 -ヘイトフルミームチャレンジの勝利ソリューション- [全文訳有]

Classification of Multimodal Hate Speech -- The Winning Solution of Hateful Memes Challenge ( http://arxiv.org/abs/2012.01002v1 )

ライセンス: CC BY 4.0
Xiayu Zhong(参考訳) Hateful Memesは、マルチモーダルなミームにおけるヘイトスピーチの検出に焦点を当てた、マルチモーダルな分類のための新しい課題セットである。 複雑なサンプルがデータセットに追加され、単一モーダル信号への依存が困難になるため、マルチモーダルモデルのみが成功できる。 Kielaによると、最先端の手法は、Hateful Memesの人間(64.73%対84.7%の精度)と比べて性能が劣っている。 本稿では,マルチモーダルとルールを組み合わせた新しいモデルを提案し,それぞれ86.8%,0.923の精度でAUROCをランク付けする。 これらのルールはトレーニングセットから抽出され、難しいサンプルの分類精度の向上に重点を置いている。

Hateful Memes is a new challenge set for multimodal classification, focusing on detecting hate speech in multimodal memes. Difficult examples are added to the dataset to make it hard to rely on unimodal signals, which means only multimodal models can succeed. According to Kiela,the state-of-the-art methods perform poorly compared to humans (64.73% vs. 84.7% accuracy) on Hateful Memes. I propose a new model that combined multimodal with rules, which achieve the first ranking of accuracy and AUROC of 86.8% and 0.923 respectively. These rules are extracted from training set, and focus on improving the classification accuracy of difficult samples.
翻訳日:2021-05-30 15:15:29 公開日:2020-12-02
# (参考訳) 畳み込みニューラルネットワークを用いた顔認識とクラスタリングを用いたアーティスト・スタイル・年分類 [全文訳有]

Artist, Style And Year Classification Using Face Recognition And Clustering With Convolutional Neural Networks ( http://arxiv.org/abs/2012.01009v1 )

ライセンス: CC BY 4.0
Doruk Pancaroglu(参考訳) ファインアート絵画のアーティスト、年、スタイルの分類は、一般的に標準的な画像分類法、画像分割法、あるいは最近では畳み込みニューラルネットワーク(CNN)を用いて達成される。 本研究の目的は,CNNを用いた顔認識などの新たな顔認識手法を用いて,抽出した顔を用いて絵画をクラスタリングすることである。 1000人以上のアーティストから8万点以上の絵画からなるデータセットを選択し、3つの異なる顔認識とクラスタリングタスクを実行する。 生成されたクラスタは絵画のファイル名によって分析され、クラスタは大多数のアーティスト、年数、スタイルによって命名されます。 クラスタはさらに分析され、パフォーマンスメトリクスが計算されます。 この研究では、アーティスト、年、スタイルが58.8、63.7、81.3%の精度で集まり、クラスタの平均純度は63.1、72.4、85.9%である。

Artist, year and style classification of fine-art paintings are generally achieved using standard image classification methods, image segmentation, or more recently, convolutional neural networks (CNNs). This works aims to use newly developed face recognition methods such as FaceNet that use CNNs to cluster fine-art paintings using the extracted faces in the paintings, which are found abundantly. A dataset consisting of over 80,000 paintings from over 1000 artists is chosen, and three separate face recognition and clustering tasks are performed. The produced clusters are analyzed by the file names of the paintings and the clusters are named by their majority artist, year range, and style. The clusters are further analyzed and their performance metrics are calculated. The study shows promising results as the artist, year, and styles are clustered with an accuracy of 58.8, 63.7, and 81.3 percent, while the clusters have an average purity of 63.1, 72.4, and 85.9 percent.
翻訳日:2021-05-30 15:05:07 公開日:2020-12-02
# (参考訳) 強化学習を用いた自動運転車の運転政策適応安全対策 [全文訳有]

Driving-Policy Adaptive Safeguard for Autonomous Vehicles Using Reinforcement Learning ( http://arxiv.org/abs/2012.01010v1 )

ライセンス: CC BY 4.0
Zhong Cao, Shaobing Xu, Songan Zhang, Huei Peng, Diange Yang(参考訳) aeb(advanced emergency braking)などのセーフガード機能は、自動運転車(av)に新たな安全層を提供することができる。 スマートセーフガード機能は、運転方針にアクティベーション条件を適応させ、不要な介入を避け、車両の安全性を向上させる。 本稿では,衝突回避戦略とアクティベーション機能を含むdpas(drive-policy adaptive safeguard)設計を提案する。 衝突回避戦略はモンテカルロ木探索(MCTS)で得られた強化学習フレームワークで設計されている。 過去の衝突から学び、確率的な交通の中でブレーキとステアリングの両方を操作できる。 運転-政策適応活性化機能は、現在の運転方針のリスクを動的に評価し、緊急の脅威が検出された場合に起動する。 このアクティベーション関数を生成するために、MCTSの探索およびロールアウトモジュールは、AVの現在の運転ポリシーを十分に評価し、さらに安全な動作を探索するように設計されている。 本研究では、DPASを2つの典型的な高速道路走行ポリシーで検証する。 その結果は確率的および攻撃的なシミュレートトラフィックにおいて90,000回も得られた。 その結果,提案したセーフガードは,州ベースのベンチマークセーフガードと比較して,より多くの介入を伴わずに衝突率を大幅に低減することを示した。 要約して,提案手法は確率的かつ創発的なシナリオにおいて学習に基づく手法を活用し,運転方針に最小限の影響を与える。

Safeguard functions such as those provided by advanced emergency braking (AEB) can provide another layer of safety for autonomous vehicles (AV). A smart safeguard function should adapt the activation conditions to the driving policy, to avoid unnecessary interventions as well as improve vehicle safety. This paper proposes a driving-policy adaptive safeguard (DPAS) design, including a collision avoidance strategy and an activation function. The collision avoidance strategy is designed in a reinforcement learning framework, obtained by Monte-Carlo Tree Search (MCTS). It can learn from past collisions and manipulate both braking and steering in stochastic traffics. The driving-policy adaptive activation function should dynamically assess current driving policy risk and kick in when an urgent threat is detected. To generate this activation function, MCTS' exploration and rollout modules are designed to fully evaluate the AV's current driving policy, and then explore other safer actions. In this study, the DPAS is validated with two typical highway-driving policies. The results are obtained through and 90,000 times in the stochastic and aggressive simulated traffic. The results are calibrated by naturalistic driving data and show that the proposed safeguard reduces the collision rate significantly without introducing more interventions, compared with the state-based benchmark safeguards. In summary, the proposed safeguard leverages the learning-based method in stochastic and emergent scenarios and imposes minimal influence on the driving policy.
翻訳日:2021-05-30 14:49:24 公開日:2020-12-02
# (参考訳) ニューラルネットワークを用いたスカイミオンの動的相のビデオからの次数パラメータの学習 [全文訳有]

Learning Order Parameters from Videos of Dynamical Phases for Skyrmions with Neural Networks ( http://arxiv.org/abs/2012.06308v1 )

ライセンス: CC BY 4.0
Weidi Wang, Zeyuan Wang, Yinghui Zhang, Bo Sun, and Ke Xia(参考訳) 動画から力学現象(例えば力学位相)や物理事象における力学過程を認識し、物理概念を抽象化し、物理法則を明らかにする能力は、人間の知性の中核にある。 本研究の主な目的は,ビデオの動的位相の分類にニューラルネットワークを用いることで,ニューラルネットワークが物理的概念を学習できることを実証することである。 この目的のために,複数のニューラルネットワークを用いて粒子ベースのskyrmionモデルの静的位相(画像形式)と動的位相(ビデオ形式)を認識する。 以上の結果から,ニューラルネットワークは,事前知識がなくても,これらの位相を正しく分類できるだけでなく,シミュレーションによって得られた位相境界を予測できることがわかった。 さらに,ニューラルネットワークが学んだことを解釈するためのパラメータ可視化手法を提案する。 ニューラルネットワークは動的位相のビデオから2つの順序パラメータを学習し、2つの順序パラメータの臨界値を予測する。 最後に,skyrmion動的位相の動画を識別するためには2つの順序パラメータのみが必要であることを実証する。 このパラメータ可視化手法により、入力フェーズを完全に認識するために何桁のパラメータが必要かを決定することができる。 私たちの研究は、新しい物理概念を発見し、ビデオから未知の物理法則を明らかにするために、未来のニューラルネットワークの使用に光を当てています。

The ability to recognize dynamical phenomena (e.g., dynamical phases) and dynamical processes in physical events from videos, then to abstract physical concepts and reveal physical laws, lies at the core of human intelligence. The main purposes of this paper are to use neural networks for classifying the dynamical phases of some videos and to demonstrate that neural networks can learn physical concepts from them. To this end, we employ multiple neural networks to recognize the static phases (image format) and dynamical phases (video format) of a particle-based skyrmion model. Our results show that neural networks, without any prior knowledge, can not only correctly classify these phases, but also predict the phase boundaries which agree with those obtained by simulation. We further propose a parameter visualization scheme to interpret what neural networks have learned. We show that neural networks can learn two order parameters from videos of dynamical phases and predict the critical values of two order parameters. Finally, we demonstrate that only two order parameters are needed to identify videos of skyrmion dynamical phases. It shows that this parameter visualization scheme can be used to determine how many order parameters are needed to fully recognize the input phases. Our work sheds light on the future use of neural networks in discovering new physical concepts and revealing unknown yet physical laws from videos.
翻訳日:2021-05-30 13:54:38 公開日:2020-12-02
# (参考訳) MAAD-Face: 顔画像のための膨大な注釈付き属性データセット [全文訳有]

MAAD-Face: A Massively Annotated Attribute Dataset for Face Images ( http://arxiv.org/abs/2012.01030v1 )

ライセンス: CC BY-SA 4.0
Philipp Terh\"orst, Daniel F\"ahrmann, Jan Niklas Kolf, Naser Damer, Florian Kirchbuchner, and Arjan Kuijper(参考訳) ソフトバイオメトリックス(soft-biometrics)は、顔バイオメトリックスと関連分野において重要な役割を果たす。 現在の顔データベースは、顔認識アプリケーションの開発に特化して構築されている。 その結果、これらのデータベースには大量の顔画像が含まれているが、属性アノテーションの数や全体的なアノテーションの正確さが欠けている。 本稿では,その高品質な属性アノテーションを特徴とする新しい顔アノテーションデータベースであるmaadfaceを提案する。 MAADFaceはVGGFace2データベース上に構築されており、9k人以上の3.3Mの顔で構成されている。 複数のソースデータセットからターゲットデータセットへの正確なラベル転送を可能にする新しいアノテーション転送パイプを使用して、MAAD-Faceは47の異なるバイナリ属性の123.9M属性アノテーションで構成されている。 その結果、CelebAやLFWの15~137倍の属性ラベルが提供される。 本研究では,既存のデータベースよりもmaad-faceアノテーションが優れていることを示すため,人間3名の評価者によるアノテーション品質調査を行った。 さらに,MAAD-Faceからの大量の高品質アノテーションを活用して,ソフトバイオメトリックスの認識可能性について検討し,真偽の判断を支援する属性について考察する。 MAAD-Faceアノテーションデータセットが公開されている。

Soft-biometrics play an important role in face biometrics and related fields since these might lead to biased performances, threatens the user's privacy, or are valuable for commercial aspects. Current face databases are specifically constructed for the development of face recognition applications. Consequently, these databases contain large amount of face images but lack in the number of attribute annotations and the overall annotation correctness. In this work, we propose MAADFace, a new face annotations database that is characterized by the large number of its high-quality attribute annotations. MAADFace is build on the VGGFace2 database and thus, consists of 3.3M faces of over 9k individuals. Using a novel annotation transfer-pipeline that allows an accurate label-transfer from multiple source-datasets to a target-dataset, MAAD-Face consists of 123.9M attribute annotations of 47 different binary attributes. Consequently, it provides 15 and 137 times more attribute labels than CelebA and LFW. Our investigation on the annotation quality by three human evaluators demonstrated the superiority of the MAAD-Face annotations over existing databases. Additionally, we make use of the large amount of high-quality annotations from MAAD-Face to study the viability of soft-biometrics for recognition, providing insights about which attributes support genuine and imposter decisions. The MAAD-Face annotations dataset is publicly available.
翻訳日:2021-05-30 13:24:29 公開日:2020-12-02
# (参考訳) 埋め込みと論理則を用いたバイオメディカル知識グラフの微細化 [全文訳有]

Biomedical Knowledge Graph Refinement with Embedding and Logic Rules ( http://arxiv.org/abs/2012.01031v1 )

ライセンス: CC0 1.0
Sendong Zhao, Bing Qin, Ting Liu, Fei Wang(参考訳) 現在、直接的かつ正確なバイオメディカル知識を提供する高品質なバイオメディカル知識グラフ(BioKG)が急速に求められている。 新型コロナウイルス(covid-19)の状況では、この問題はさらに強調される必要がある。 しかし、ほとんどのBioKGの構築には、文学における誤った知識記述や欠陥情報抽出技術から生じる多くの矛盾やノイズが含まれている。 多くの研究は、知識グラフに基づく推論が、そのような矛盾やノイズを取り除くのに有効であることを示した。 本稿では,バイオkgにおける三重項をサポートし否定するナレッジグラフ埋め込みと論理規則を包括的に結合したバイオkgの品質向上手法を提案する。 The proposed model, the BioKG refinement problem is formulated as the probability estimation of triplet in the BioKG。 我々は変分emアルゴリズムを用いて知識グラフ埋め込みと論理規則推論を交互に最適化する。 このようにして、我々のモデルは知識グラフ埋め込みと論理ルールの両方からの努力を組み合わせることができるので、単独で使うよりも良い結果が得られるでしょう。 私たちは、covid-19のナレッジグラフよりもモデルを評価し、競争力のある結果を得る。

Currently, there is a rapidly increasing need for high-quality biomedical knowledge graphs (BioKG) that provide direct and precise biomedical knowledge. In the context of COVID-19, this issue is even more necessary to be highlighted. However, most BioKG construction inevitably includes numerous conflicts and noises deriving from incorrect knowledge descriptions in literature and defective information extraction techniques. Many studies have demonstrated that reasoning upon the knowledge graph is effective in eliminating such conflicts and noises. This paper proposes a method BioGRER to improve the BioKG's quality, which comprehensively combines the knowledge graph embedding and logic rules that support and negate triplets in the BioKG. In the proposed model, the BioKG refinement problem is formulated as the probability estimation for triplets in the BioKG. We employ the variational EM algorithm to optimize knowledge graph embedding and logic rule inference alternately. In this way, our model could combine efforts from both the knowledge graph embedding and logic rules, leading to better results than using them alone. We evaluate our model over a COVID-19 knowledge graph and obtain competitive results.
翻訳日:2021-05-30 12:56:31 公開日:2020-12-02
# (参考訳) 放射能同定への新しいアプローチ [全文訳有]

A Novel Approach to Radiometric Identification ( http://arxiv.org/abs/2012.02256v1 )

ライセンス: CC BY 4.0
Raoul Nigmatullin, Semyon Dorokhin, Alexander Ivchenko(参考訳) 本稿では,CAPoNeFの特徴工学手法を用いて高精度なラジオメトリック同定が可能であることを実証する。 SDRで収集した実験データに基づいて,基本的なML分類アルゴリズムを検証した。 提案特徴の統計的および相関特性は,まずP値を用いてP値とP値の相関係数を用いて解析した。 最も重要な特徴が強調された。 ランダムフォレストは99%の精度だった。 モデル行動のLIME記述について述べる。 特徴空間の次元が3に縮小されたとしても、99%の精度でデバイスを分類することは可能であることが判明した。

This paper demonstrates that highly accurate radiometric identification is possible using CAPoNeF feature engineering method. We tested basic ML classification algorithms on experimental data gathered by SDR. The statistical and correlational properties of suggested features were analyzed first with the help of Point Biserial and Pearson Correlation Coefficients and then using P-values. The most relevant features were highlighted. Random Forest provided 99% accuracy. We give LIME description of model behavior. It turns out that even if the dimension of the feature space is reduced to 3, it is still possible to classify devices with 99% accuracy.
翻訳日:2021-05-30 12:35:51 公開日:2020-12-02
# (参考訳) SoK:デジタル法医学調査における人工知能の現状と将来の可能性を探る [全文訳有]

SoK: Exploring the State of the Art and the Future Potential of Artificial Intelligence in Digital Forensic Investigation ( http://arxiv.org/abs/2012.01987v1 )

ライセンス: CC BY 4.0
Xiaoyu Du, Chris Hargreaves, John Sheppard, Felix Anda, Asanka Sayakkara, Nhien-An Le-Khac, Mark Scanlon(参考訳) 世界中の法執行機関では、多年にわたるデジタル法医学のバックログが一般的になっている。 デジタル法医学調査員は、処理すべきデータの量によって、その専門知識を複合したケースの量で過負荷になる。 人工知能は、多くのビッグデータ問題の解決策と見なされることが多い。 本稿では,デジタル法医学における既存の人工知能ツールとアプローチを概説する。 人工知能に基づく技術を活用した自動エビデンス処理は、ケース処理能力を高めながら、デジタル法科学分析プロセスの迅速化に大いに期待できる。 強調された人工知能のアプリケーションごとに、現在の多くの課題と将来の潜在的な影響が議論されている。

Multi-year digital forensic backlogs have become commonplace in law enforcement agencies throughout the globe. Digital forensic investigators are overloaded with the volume of cases requiring their expertise compounded by the volume of data to be processed. Artificial intelligence is often seen as the solution to many big data problems. This paper summarises existing artificial intelligence based tools and approaches in digital forensics. Automated evidence processing leveraging artificial intelligence based techniques shows great promise in expediting the digital forensic analysis process while increasing case processing capacities. For each application of artificial intelligence highlighted, a number of current challenges and future potential impact is discussed.
翻訳日:2021-05-30 12:28:15 公開日:2020-12-02
# (参考訳) 遅延クライアントによる分散型フェデレーション学習(blade-fl)を支援するブロックチェーン [全文訳有]

Blockchain Assisted Decentralized Federated Learning (BLADE-FL) with Lazy Clients ( http://arxiv.org/abs/2012.02044v1 )

ライセンス: CC BY 4.0
Jun Li, Yumeng Shao, Ming Ding, Chuan Ma, Kang Wei, Zhu Han and H. Vincent Poor(参考訳) 分散機械学習アプローチとしてのフェデレーション・ラーニング(FL)は近年,大きな注目を集めている。 ユーザーの生データはローカルに処理されるため、flはプライバシー保護に固有の利点を示している。 しかし、モデルアグリゲーションを実行するには集中型サーバに依存している。 そのため、FLはサーバーの故障や外部攻撃に弱い。 本稿では、FLのセキュリティを高めるために、ブロックチェーンをFL、すなわちブロックチェーン支援分散フェデレーションラーニング(BLADE-FL)に統合する新しいフレームワークを提案する。 提案するBLADE-FLは, プライバシー保護, 改ざん抵抗, 学習の効果的な連携の点で優れた性能を有する。 しかし、他人の訓練されたモデルを盗聴し、不正行為を隠すために人工的なノイズを加える遅延クライアントによって、トレーニング不足の新たな問題が発生する。 具体的には、まず遅延クライアントの存在下でロス関数の収束境界を開発し、生成したブロックの総数$k$に対して凸であることを証明します。 そして損失関数を最小化するために$K$を最適化することで凸問題を解く。 さらに,最適な$K$,遅延クライアント数,遅延クライアントが使用する人工雑音のパワーの関係を明らかにする。 MNISTデータセットとFashion-MNISTデータセットを用いて,提案フレームワークの性能評価を行う。 解析結果は実験結果と一致していることがわかった。 さらに、導出された最適値k$は損失関数の最小値を達成し、その最適精度性能を達成する。

Federated learning (FL), as a distributed machine learning approach, has drawn a great amount of attention in recent years. FL shows an inherent advantage in privacy preservation, since users' raw data are processed locally. However, it relies on a centralized server to perform model aggregation. Therefore, FL is vulnerable to server malfunctions and external attacks. In this paper, we propose a novel framework by integrating blockchain into FL, namely, blockchain assisted decentralized federated learning (BLADE-FL), to enhance the security of FL. The proposed BLADE-FL has a good performance in terms of privacy preservation, tamper resistance, and effective cooperation of learning. However, it gives rise to a new problem of training deficiency, caused by lazy clients who plagiarize others' trained models and add artificial noises to conceal their cheating behaviors. To be specific, we first develop a convergence bound of the loss function with the presence of lazy clients and prove that it is convex with respect to the total number of generated blocks $K$. Then, we solve the convex problem by optimizing $K$ to minimize the loss function. Furthermore, we discover the relationship between the optimal $K$, the number of lazy clients, and the power of artificial noises used by lazy clients. We conduct extensive experiments to evaluate the performance of the proposed framework using the MNIST and Fashion-MNIST datasets. Our analytical results are shown to be consistent with the experimental results. In addition, the derived optimal $K$ achieves the minimum value of loss function, and in turn the optimal accuracy performance.
翻訳日:2021-05-30 11:59:57 公開日:2020-12-02
# (参考訳) パーシステンスホモロジーによる注意に基づく深層多重インスタンス学習による細菌クローンの分類 [全文訳有]

Classifying bacteria clones using attention-based deep multiple instance learning interpreted by persistence homology ( http://arxiv.org/abs/2012.01189v1 )

ライセンス: CC BY 4.0
Adriana Borowa, Dawid Rymarczyk, Dorota Ocho\'nska, Monika Brzychczy-W{\l}och, Bartosz Zieli\'nski(参考訳) 本研究は、顕微鏡画像のみに基づいて、同じ細菌種(Klebsiella pneumoniae)の異なるクローンを区別できるかどうかを解析する。 これは難しい課題であり、以前は高いクローンの類似性のため不可能と考えられていた。 この目的のために,注意に基づく複数インスタンス学習を用いたマルチステップアルゴリズムを適用する。 0.9のレベルで精度を得る以外は,cellprofiler と persistence homology に基づく広範な解釈可能性を導入し,モデルの理解性と信頼度を高めた。

In this work, we analyze if it is possible to distinguish between different clones of the same bacteria species (Klebsiella pneumoniae) based only on microscopic images. It is a challenging task, previously considered impossible due to the high clones similarity. For this purpose, we apply a multi-step algorithm with attention-based multiple instance learning. Except for obtaining accuracy at the level of 0.9, we introduce extensive interpretability based on CellProfiler and persistence homology, increasing the understandability and trust in the model.
翻訳日:2021-05-30 11:44:47 公開日:2020-12-02
# (参考訳) 機械学習とグローバルなスマートフォン記録を用いたcovid-19の干ばつ分類 [全文訳有]

COVID-19 Cough Classification using Machine Learning and Global Smartphone Recordings ( http://arxiv.org/abs/2012.01926v1 )

ライセンス: CC BY 4.0
Madhurananda Pahar, Marisa Klopper, Robin Warren and Thomas Niesler(参考訳) スマートフォンで記録されたcovid-19陰性と健康的なcooughの両方からcovid-19陽性のcooughを識別できる機械学習ベースのcovid-19 cough分類器を提案する。 この種のスクリーニングは非接触で簡単に適用でき、検査センターでの作業負荷を減らすだけでなく、covid-19を示唆する干ばつを持つ人々に早期の自己隔離を推奨することで、送信を制限するのに役立つ。 この研究で使用される2つのデータセットは、全6大陸の被験者を対象とし、強制的および自然的ともに含んでいる。 coswaraデータセットには92人の新型コロナウイルス陽性者、1079人の健常者が含まれているが、第2の小さなデータセットは南アフリカで収集され、sars-cov検査を受けた8人のcovid-19陽性者と13人の陰性者が含まれている。 合成マイノリティ・オーバーサンプリング(SMOTE)を適用してデータセットスキューに対処し,分類器の訓練と評価にLeft-p-out Cross Validationを用いた。 ロジスティック回帰(LR)、サポートベクターマシン(SVM)、多層パーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、長期記憶(LSTM)、残基ニューラルネットワークアーキテクチャ(Resnet50)を分類器として検討した。 以上の結果から, resnet50分類器は, roc曲線 (auc) 下の地域が0.98, lstm分類器が0.94のaucでcovid-19陽性とcovid-19陰性の区別が最良であった。 LSTM分類器はシーケンシャルフォワードサーチ(SFS)で選択した13の特徴を用いて,これらの結果を得た。 スマートフォンで実装できるため、音の分類はコスト効率が高く、適用や展開が容易であり、非接触型新型コロナウイルススクリーニングの有用な手段になりうる。

We present a machine learning based COVID-19 cough classifier which is able to discriminate COVID-19 positive coughs from both COVID-19 negative and healthy coughs recorded on a smartphone. This type of screening is non-contact and easily applied, and could help reduce workload in testing centers as well as limit transmission by recommending early self-isolation to those who have a cough suggestive of COVID-19. The two dataset used in this study include subjects from all six continents and contain both forced and natural coughs. The publicly available Coswara dataset contains 92 COVID-19 positive and 1079 healthy subjects, while the second smaller dataset was collected mostly in South Africa and contains 8 COVID-19 positive and 13 COVID-19 negative subjects who have undergone a SARS-CoV laboratory test. Dataset skew was addressed by applying synthetic minority oversampling (SMOTE) and leave-p-out cross validation was used to train and evaluate classifiers. Logistic regression (LR), support vector machines (SVM), multilayer perceptrons (MLP), convolutional neural networks (CNN), long-short term memory (LSTM) and a residual-based neural network architecture (Resnet50) were considered as classifiers. Our results show that the Resnet50 classifier was best able to discriminate between the COVID-19 positive and the healthy coughs with an area under the ROC curve (AUC) of 0.98 while a LSTM classifier was best able to discriminate between the COVID-19 positive and COVID-19 negative coughs with an AUC of 0.94. The LSTM classifier achieved these results using 13 features selected by sequential forward search (SFS). Since it can be implemented on a smartphone, cough audio classification is cost-effective and easy to apply and deploy, and therefore is potentially a useful and viable means of non-contact COVID-19 screening.
翻訳日:2021-05-30 11:30:56 公開日:2020-12-02
# (参考訳) ディープリカレントネットワークと埋め込みを用いたシーケンス生成:音楽における一考察 [全文訳有]

Sequence Generation using Deep Recurrent Networks and Embeddings: A study case in music ( http://arxiv.org/abs/2012.01231v1 )

ライセンス: CC BY 4.0
Sebastian Garcia-Valencia, Alejandro Betancourt, Juan G. Lalinde-Pulido(参考訳) 配列の自動生成は、過去数年間、高度に探索された分野であった。 特に,リカレントニューラルネットワークのような固有の記憶機構を持つ機械学習やニューラルネットワークの最近の進歩により,自然言語処理や自動音楽合成の重要性が高まっている。 本稿では,様々なメモリ機構(メモリセル)を評価し,音楽合成の分野でのパフォーマンスを解析する。 提案手法は転置などの音楽理論の概念を考察し,意味的意味の導入やメロディの質の向上にデータ変換(埋め込み)を用いる。 楽曲の音質を計測し,提案アーキテクチャの性能を自動評価するために,定量的な測定値のセットを提示する。

Automatic generation of sequences has been a highly explored field in the last years. In particular, natural language processing and automatic music composition have gained importance due to the recent advances in machine learning and Neural Networks with intrinsic memory mechanisms such as Recurrent Neural Networks. This paper evaluates different types of memory mechanisms (memory cells) and analyses their performance in the field of music composition. The proposed approach considers music theory concepts such as transposition, and uses data transformations (embeddings) to introduce semantic meaning and improve the quality of the generated melodies. A set of quantitative metrics is presented to evaluate the performance of the proposed architecture automatically, measuring the tonality of the musical compositions.
翻訳日:2021-05-30 10:01:11 公開日:2020-12-02
# (参考訳) ロバストMRフィンガープリントマッチングのためのチャネル注意ネットワーク [全文訳有]

Channel Attention Networks for Robust MR Fingerprinting Matching ( http://arxiv.org/abs/2012.01241v1 )

ライセンス: CC BY 4.0
Refik Soyak, Ebru Navruz, Eda Ozgu Ersoy, Gastao Cruz, Claudia Prieto, Andrew P. King, Devrim Unay, Ilkay Oksuz(参考訳) MRF(MR Resonance Fingerprinting)は、T1やT2の緩和時間などの複数の組織パラメータの同時マッピングを可能にする。 MRFの動作原理は、異なる取得パラメータを疑似ランダムに依存するため、各組織はスキャン中に独自の信号進化を生成する。 MRFは高速な走査を提供するが、対応するパラメトリックマップの誤生成や遅い生成などの欠点があり、改善する必要がある。 さらに、正確なパラメトリックマップを生成するための案内信号を理解するための説明可能なアーキテクチャも必要である。 本稿では,チャネルワイドアテンションモジュールと完全畳み込みネットワークからなる新しいニューラルネットワークアーキテクチャを提案することによって,これらの欠点に対処する。 提案手法は, 3種類のMRF信号で評価され, 組織パラメータの再構成における誤差を, T1では8.88%, T2では75.44%削減する。 この研究のもう1つの貢献は、新しいチャンネル選択方法であるアテンションベースのチャンネル選択である。 さらに,mrf信号のパッチサイズと時間フレームがチャネル低減に与える影響をチャネル毎の注意力を用いて解析する。

Magnetic Resonance Fingerprinting (MRF) enables simultaneous mapping of multiple tissue parameters such as T1 and T2 relaxation times. The working principle of MRF relies on varying acquisition parameters pseudo-randomly, so that each tissue generates its unique signal evolution during scanning. Even though MRF provides faster scanning, it has disadvantages such as erroneous and slow generation of the corresponding parametric maps, which needs to be improved. Moreover, there is a need for explainable architectures for understanding the guiding signals to generate accurate parametric maps. In this paper, we addressed both of these shortcomings by proposing a novel neural network architecture consisting of a channel-wise attention module and a fully convolutional network. The proposed approach, evaluated over 3 simulated MRF signals, reduces error in the reconstruction of tissue parameters by 8.88% for T1 and 75.44% for T2 with respect to state-of-the-art methods. Another contribution of this study is a new channel selection method: attention-based channel selection. Furthermore, the effect of patch size and temporal frames of MRF signal on channel reduction are analyzed by employing a channel-wise attention.
翻訳日:2021-05-30 09:27:08 公開日:2020-12-02
# (参考訳) 正規化と誤アラーム定量化:説明可能性硬貨の2面 [全文訳有]

Regularization and False Alarms Quantification: Two Sides of the Explainability Coin ( http://arxiv.org/abs/2012.01273v1 )

ライセンス: CC0 1.0
Nima Safaei, Pooria Assadi(参考訳) 正規化は機械学習(ML)において、モデル複雑性を低減し、説明可能性を高める最適なバイアス分散トレードオフを実現するための確立された手法である。 この目的のために、いくつかのハイパーパラメータをチューニングする必要があるため、mlモデルが見えないデータと見たデータとを正確に適合させることができる。 本稿では、過度パラメータの正規化とコストの定量化と誤報のリスクは、実際には同じコインの2つの側面である、と論じる。 いずれかの量の誤ったまたは存在しない推定は、MLを使用する経済価値の計測可能性を損なう。

Regularization is a well-established technique in machine learning (ML) to achieve an optimal bias-variance trade-off which in turn reduces model complexity and enhances explainability. To this end, some hyper-parameters must be tuned, enabling the ML model to accurately fit the unseen data as well as the seen data. In this article, the authors argue that the regularization of hyper-parameters and quantification of costs and risks of false alarms are in reality two sides of the same coin, explainability. Incorrect or non-existent estimation of either quantities undermines the measurability of the economic value of using ML, to the extent that might make it practically useless.
翻訳日:2021-05-30 08:27:52 公開日:2020-12-02
# (参考訳) コニャートのセマンティック多様性測定のための計算的アプローチ [全文訳有]

A Computational Approach to Measuring the Semantic Divergence of Cognates ( http://arxiv.org/abs/2012.01288v1 )

ライセンス: CC BY 4.0
Ana-Sabina Uban, Alina-Maria Ciobanu, Liviu P. Dinu(参考訳) 意味は文化間コミュニケーションの基礎である。 言語は変化し続けており、言葉は様々な理由で意味を変える。 関連言語における意味的発散は、歴史的言語学の重要な関心事である。 本稿では,複数言語におけるコグネート集合の意味的類似性を測定することにより,言語間の意味的分岐について検討する。 本稿では,言語間単語埋め込みに基づく手法を提案する。 本稿では、英語と5つのロマンス言語について実装・評価を行うが、任意の言語対に容易に拡張でき、関連する言語には大きな単言語コーパスと、その対には小さな二言語辞書のみを必要とする。 この言語に依存しない手法は、コグネートペア間の意味的類似性の度合いを計算することによって、コグネート分岐の定量的解析を促進し、偽の友人を特定するための洞察を提供する。 第2の貢献として、偽の友人を検出する簡単な方法を定式化し、偽の友人ペアの「偽り」の程度を測定するとともに、「ソフト・偽の友人」と「ハード・偽の友人」の概念を導入する。 さらに, 誤りを訂正するための提案を出力するアルゴリズムを提案し, 言語学習や翻訳に非常に有用なツールとなる可能性がある。

Meaning is the foundation stone of intercultural communication. Languages are continuously changing, and words shift their meanings for various reasons. Semantic divergence in related languages is a key concern of historical linguistics. In this paper we investigate semantic divergence across languages by measuring the semantic similarity of cognate sets in multiple languages. The method that we propose is based on cross-lingual word embeddings. In this paper we implement and evaluate our method on English and five Romance languages, but it can be extended easily to any language pair, requiring only large monolingual corpora for the involved languages and a small bilingual dictionary for the pair. This language-agnostic method facilitates a quantitative analysis of cognates divergence -- by computing degrees of semantic similarity between cognate pairs -- and provides insights for identifying false friends. As a second contribution, we formulate a straightforward method for detecting false friends, and introduce the notion of "soft false friend" and "hard false friend", as well as a measure of the degree of "falseness" of a false friends pair. Additionally, we propose an algorithm that can output suggestions for correcting false friends, which could result in a very helpful tool for language learning or translation.
翻訳日:2021-05-30 07:41:14 公開日:2020-12-02
# (参考訳) 他人の失敗から学ぶ - モデリングせずにデータセットのバイアスを避ける [全文訳有]

Learning from others' mistakes: Avoiding dataset biases without modeling them ( http://arxiv.org/abs/2012.01300v1 )

ライセンス: CC BY 4.0
Victor Sanh, Thomas Wolf, Yonatan Belinkov, Alexander M. Rush(参考訳) 最先端自然言語処理(nlp)モデルは、対象とするタスクを対象とする機能ではなく、データセットバイアスや表面フォーム相関をモデル化することを学びます。 前回の研究では、バイアスの知識が利用できる場合に、これらの問題を回避できる効果的な方法が示されている。 バイアス問題を明示的に特定できないケースを考察し、これらの問題のある相関を無視することを学ぶモデルを訓練する方法を示す。 我々のアプローチは、限られたキャパシティを持つモデルが主にデータセットのバイアスを悪用することを学ぶという観察に依存している。 このような限られたキャパシティモデルのエラーを利用して、専門家の製品でより堅牢なモデルをトレーニングし、バイアスのあるモデルを手作りする必要性を回避できます。 本手法は,偏りのあるモデルに特定のバイアスが当てはまらない場合でも,分布外設定の改善を維持するための効果を示す。

State-of-the-art natural language processing (NLP) models often learn to model dataset biases and surface form correlations instead of features that target the intended underlying task. Previous work has demonstrated effective methods to circumvent these issues when knowledge of the bias is available. We consider cases where the bias issues may not be explicitly identified, and show a method for training models that learn to ignore these problematic correlations. Our approach relies on the observation that models with limited capacity primarily learn to exploit biases in the dataset. We can leverage the errors of such limited capacity models to train a more robust model in a product of experts, thus bypassing the need to hand-craft a biased model. We show the effectiveness of this method to retain improvements in out-of-distribution settings even if no particular bias is targeted by the biased model.
翻訳日:2021-05-30 07:26:21 公開日:2020-12-02
# (参考訳) 異なる政治体制にまたがる様式的変化の分析 [全文訳有]

Analyzing Stylistic Variation across Different Political Regimes ( http://arxiv.org/abs/2012.01305v1 )

ライセンス: CC BY 4.0
Liviu P. Dinu, Ana-Sabina Uban(参考訳) 本稿では,ルーマニアにおける共産主義と民主主義という,政治的・文化的に異なる2つの時代にまたがるテキストの様式的分析について述べる。 この2つの期間に書かれたテキスト間のスタイリスティックな変動を分析し、その変動がどのレベルであるか(もしあれば)を、スタイリスティックなレベルで、トピックレベルで決定することを目指している。 従来の著者帰属手法と特徴を用いて,テキストのクラスタリングと分類実験を行うことにより,これらのテキストのスタイル的プロファイルを比較検討する。 文体的変化が政治的・文化的環境の変化の影響であることを確認するため,著者の作風の変化を時間とともに反映するだけでなく,様々な文体的変化の経時的変化を考察し,両者の作風の変化が統計的に有意であることを示す。 また,2つの時代間の話題の変化の分析を行い,スタイルレベルでの変動と比較した。 これらの分析から、2つの時代からのテキストは、スタイルの観点からも意味的内容(トピック)からも区別できることが示された。

In this article we propose a stylistic analysis of texts written across two different periods, which differ not only temporally, but politically and culturally: communism and democracy in Romania. We aim to analyze the stylistic variation between texts written during these two periods, and determine at what levels the variation is more apparent (if any): at the stylistic level, at the topic level etc. We take a look at the stylistic profile of these texts comparatively, by performing clustering and classification experiments on the texts, using traditional authorship attribution methods and features. To confirm the stylistic variation is indeed an effect of the change in political and cultural environment, and not merely reflective of a natural change in the author's style with time, we look at various stylistic metrics over time and show that the change in style between the two periods is statistically significant. We also perform an analysis of the variation in topic between the two epochs, to compare with the variation at the style level. These analyses show that texts from the two periods can indeed be distinguished, both from the point of view of style and from that of semantic content (topic).
翻訳日:2021-05-30 07:01:53 公開日:2020-12-02
# (参考訳) CalligraphyGANによる抽象アート生成のためのフレームワークとデータセット [全文訳有]

A Framework and Dataset for Abstract Art Generation via CalligraphyGAN ( http://arxiv.org/abs/2012.00744v1 )

ライセンス: CC BY 4.0
Jinggang Zhuo, Ling Fan, Harry Jiannan Wang(参考訳) ディープラーニングの進歩により、人工知能(AI)は近年多くのブレークスルーを行い、オブジェクト検出、読書理解、ビデオゲームといった様々なタスクにおいて超人的パフォーマンスを達成した。 GAN(Generative Adversarial Networks)モデルのような生成モデリングは、絵画や音楽の生成に応用されている。 自然言語処理(nlp)の研究も、bertや最近リリースされたgpt3といった事前学習されたコンテキストニューラル言語モデルのリリース以降、2018年に飛躍的に進展した。 前述のようなエキサイティングなAIアプリケーションにもかかわらず、AIは創造性において人間よりもはるかに遅れている。 私たちの作品は、キャラクターそのものが美的絵画である独特の視覚芸術である中国書に触発されたものです。 1940年代から1950年代にかけての抽象表現主義運動の絵画、例えばアメリカの画家フランツ・クラインの作品からもインスピレーションを得ている。 本稿では,条件付き生成敵ネットワークと文脈ニューラルランゲージモデルに基づく創造的枠組みを提案する。テキストが画像の記述である画像キャプションやテキスト対画像生成といった既存の作業とは異なる,本質的な意味と美的価値を持つ抽象的なアートワークを生成する。 また,中国の書道イメージデータセットを公開し,プロトタイプシステムとユーザスタディを用いて,そのフレームワークを実証した。

With the advancement of deep learning, artificial intelligence (AI) has made many breakthroughs in recent years and achieved superhuman performance in various tasks such as object detection, reading comprehension, and video games. Generative Modeling, such as various Generative Adversarial Networks (GAN) models, has been applied to generate paintings and music. Research in Natural Language Processing (NLP) also had a leap forward in 2018 since the release of the pre-trained contextual neural language models such as BERT and recently released GPT3. Despite the exciting AI applications aforementioned, AI is still significantly lagging behind humans in creativity, which is often considered the ultimate moonshot for AI. Our work is inspired by Chinese calligraphy, which is a unique form of visual art where the character itself is an aesthetic painting. We also draw inspirations from paintings of the Abstract Expressionist movement in the 1940s and 1950s, such as the work by American painter Franz Kline. In this paper, we present a creative framework based on Conditional Generative Adversarial Networks and Contextual Neural Language Model to generate abstract artworks that have intrinsic meaning and aesthetic value, which is different from the existing work, such as image captioning and text-to-image generation, where the texts are the descriptions of the images. In addition, we have publicly released a Chinese calligraphy image dataset and demonstrate our framework using a prototype system and a user study.
翻訳日:2021-05-30 06:49:37 公開日:2020-12-02
# (参考訳) Top-1 CORSMAL Challenge 2020 提出:人間ロボットハンドオーバのマルチモーダル観測による質量推定 [全文訳有]

Top-1 CORSMAL Challenge 2020 Submission: Filling Mass Estimation Using Multi-modal Observations of Human-robot Handovers ( http://arxiv.org/abs/2012.01311v1 )

ライセンス: CC BY 4.0
Vladimir Iashin, Francesca Palermo, G\"okhan Solak, Claudio Coppola(参考訳) 人間とロボットのオブジェクトハンドオーバは、人間とロボットのコラボレーションの鍵となるスキルである。 corsmal 2020 challengeは、この問題の認識部分に焦点を当てている。ロボットは人間が持っている容器の充填質量を見積もる必要がある。 画像処理とオーディオ処理には個別に強力な方法があるが、このような問題を解決するには複数のセンサーからのデータを処理する必要がある。 容器の外観、充填音、深度データは必須情報を提供する。 本稿では,充填量,充填量,容器容量の3つの重要な指標を予測するためのマルチモーダル手法を提案する。 これらの指標を組み合わせて容器の充填質量を推定する。 提案手法は,CORSMAL 2020 Challengeの公立サブセットと私設サブセットのいずれにおいても,オーバーフィットの証拠は示さなかった。 私たちのソースコードは、https://github.com/v -iashin/corsmal.com

Human-robot object handover is a key skill for the future of human-robot collaboration. CORSMAL 2020 Challenge focuses on the perception part of this problem: the robot needs to estimate the filling mass of a container held by a human. Although there are powerful methods in image processing and audio processing individually, answering such a problem requires processing data from multiple sensors together. The appearance of the container, the sound of the filling, and the depth data provide essential information. We propose a multi-modal method to predict three key indicators of the filling mass: filling type, filling level, and container capacity. These indicators are then combined to estimate the filling mass of a container. Our method obtained Top-1 overall performance among all submissions to CORSMAL 2020 Challenge on both public and private subsets while showing no evidence of overfitting. Our source code is publicly available: https://github.com/v -iashin/CORSMAL
翻訳日:2021-05-30 06:45:04 公開日:2020-12-02
# (参考訳) ペルシャ語におけるアスペクトベース感情分析性能向上のためのBERTの展開 [全文訳有]

Exploiting BERT to improve aspect-based sentiment analysis performance on Persian language ( http://arxiv.org/abs/2012.07510v1 )

ライセンス: CC BY 4.0
H. Jafarian, A. H. Taghavi, A. Javaheri and R. Rawassizadeh(参考訳) アスペクトベースの感情分析(ABSA)は、テキストの特定の側面に対する意見の極性を特定することによって、感情分析においてより詳細なタスクである。 この方法は、より徹底的で有用な情報を提供するという事実から、コミュニティからより注目を集めています。 しかし、ペルシア語に関する言語固有の研究は少ない。 本研究は,ペルシャ・パルス・ABSAデータセットにおけるABSAの改善を目的とした。 本研究では,事前学習したBERTモデルを用いて,ABSAタスクにおける文ペア入力を活用する可能性を示す。 その結果,Pars-BERT事前学習モデルと自然言語推論補助文(NLI-M)を用いることで,ABSAタスクの精度が91%向上し,Pars-ABSAデータセットの最先端研究よりも5.5%高い(絶対)ことが示唆された。

Aspect-based sentiment analysis (ABSA) is a more detailed task in sentiment analysis, by identifying opinion polarity toward a certain aspect in a text. This method is attracting more attention from the community, due to the fact that it provides more thorough and useful information. However, there are few language-specific researches on Persian language. The present research aims to improve the ABSA on the Persian Pars-ABSA dataset. This research shows the potential of using pre-trained BERT model and taking advantage of using sentence-pair input on an ABSA task. The results indicate that employing Pars-BERT pre-trained model along with natural language inference auxiliary sentence (NLI-M) could boost the ABSA task accuracy up to 91% which is 5.5% (absolute) higher than state-of-the-art studies on Pars-ABSA dataset.
翻訳日:2021-05-30 06:28:32 公開日:2020-12-02
# (参考訳) Coinbot:Deep Reinforcement Learningと機械学習を用いたインテリジェントなロボットコインバッグ操作 [全文訳有]

Coinbot: Intelligent Robotic Coin Bag Manipulation Using Deep Reinforcement Learning And Machine Teaching ( http://arxiv.org/abs/2012.01356v1 )

ライセンス: CC BY 4.0
Aleksei Gonnochenko, Aleksandr Semochkin, Dmitry Egorov, Dmitrii Statovoy, Seyedhassan Zabihifar, Aleksey Postnikov, Elena Seliverstova, Ali Zaidi, Jayson Stemmler, Kevin Limkrailassiri(参考訳) 銀行のキャッシュセンターで大量の物理通貨を移動させることの困難さを考えると、このような作業を共同作業空間で行うことのできる安全な自律システムの訓練と展開には大きな需要がある。 しかし, 袋の変形性は, 内部に多量の剛体コインが混入しており, 袋の検出, 把握, ロボットグリップとアームによる操作の難しさを著しく高めている。 本稿では,協調ロボットの制御作業に深層強化学習と機械学習技術を適用し,トロリーからのコインバッグの降ろしを自動化する。 操作中に質量中心が変化するコイン袋などの柔軟な材料を把持するタスク固有のプロセスを実現するため、特別なグリッパーをシミュレーションで実装し、物理ハードウェアで設計した。 深層カメラと物体検出を深層学習を用いて活用し, 把持の最適地点選択のためのバッグ検出とポーズ推定を行った。 ロボットエンドエフェクタの最適構成を提案するため, 深層強化学習に基づくインテリジェントな手法が提案されている。 ロボット動作中の動作計画の速度を上げるために、ブースト動作計画を用いる。 提案パイプラインを用いた実世界試験では,実世界において96\%以上の成功率を示した。

Given the laborious difficulty of moving heavy bags of physical currency in the cash center of the bank, there is a large demand for training and deploying safe autonomous systems capable of conducting such tasks in a collaborative workspace. However, the deformable properties of the bag along with the large quantity of rigid-body coins contained within it, significantly increases the challenges of bag detection, grasping and manipulation by a robotic gripper and arm. In this paper, we apply deep reinforcement learning and machine learning techniques to the task of controlling a collaborative robot to automate the unloading of coin bags from a trolley. To accomplish the task-specific process of gripping flexible materials like coin bags where the center of the mass changes during manipulation, a special gripper was implemented in simulation and designed in physical hardware. Leveraging a depth camera and object detection using deep learning, a bag detection and pose estimation has been done for choosing the optimal point of grasping. An intelligent approach based on deep reinforcement learning has been introduced to propose the best configuration of the robot end-effector to maximize successful grasping. A boosted motion planning is utilized to increase the speed of motion planning during robot operation. Real-world trials with the proposed pipeline have demonstrated success rates over 96\% in a real-world setting.
翻訳日:2021-05-30 05:42:44 公開日:2020-12-02
# (参考訳) ハードおよびソフト制約を含むDCOP解法における有界マックスサムアルゴリズムの解法品質の改善 [全文訳有]

Improving Solution Quality of Bounded Max-Sum Algorithm to Solve DCOPs involving Hard and Soft Constraints ( http://arxiv.org/abs/2012.01369v1 )

ライセンス: CC BY-SA 4.0
Md. Musfiqur Rahman, Mashrur Rashik, Md. Mamun-or-Rashid and Md. Mosaddek Khan(参考訳) BMS(Bunded Max-Sum)は、分散制約最適化問題(DCOP)という分散最適化問題の特定の形態に対する近似解を提供するメッセージパッシングアルゴリズムである。 特に、BMSアルゴリズムは、計算コストを犠牲にして、大規模な検索空間を持つこのタイプの問題を解くことができる。 特に、従来のDCOPの定式化は、満たさなければならない制約(ハード制約とも呼ばれる)を考慮せず、ソフトな制約のみに集中している。 したがって、両方のタイプの制約の存在は多くの実世界のアプリケーションで観察されるが、bmsアルゴリズムはハード制約を積極的に活用していない。 この問題に対処するため、型制約の両方を持つDCOPに対処できる方法でBMSを調整します。 このようにして、我々のアプローチはアルゴリズムの解の質を改善します。 実験の結果, 大規模DCOP溶液の品質は著しく向上した。

Bounded Max-Sum (BMS) is a message-passing algorithm that provides approximation solution to a specific form of de-centralized coordination problems, namely Distributed Constrained Optimization Problems (DCOPs). In particular, BMS algorithm is able to solve problems of this type having large search space at the expense of low computational cost. Notably, the traditional DCOP formulation does not consider those constraints that must be satisfied(also known as hard constraints), rather it concentrates only on soft constraints. Hence, although the presence of both types of constraints are observed in a number of real-world applications, the BMS algorithm does not actively capitalize on the hard constraints. To address this issue, we tailor BMS in such a way that can deal with DCOPs having both type constraints. In so doing, our approach improves the solution quality of the algorithm. The empirical results exhibit a marked improvement in the quality of the solutions of large DCOPs.
翻訳日:2021-05-30 05:03:11 公開日:2020-12-02
# (参考訳) OASISにおけるオントロジー的スマートコントラクト:エージェント,システム,サービス統合のためのオントロジー [全文訳有]

Ontological Smart Contracts in OASIS: Ontology for Agents, Systems, and Integration of Services ( http://arxiv.org/abs/2012.01410v1 )

ライセンス: CC BY 4.0
Domenico Cantone, Carmelo Fabio Longo, Marianna Nicolosi-Asmundo, Daniele Francesco Santamaria, Corrado Santoro(参考訳) この貢献により、エージェントとその相互作用をモデル化するオントロジー、Ontology for Agents, Systems, and Integration of Services(略してOASIS)を、条件付きおよびオントロジ的スマートコントラクト(略してOSC)で拡張します。 OSCは、エージェント間の責任と承認を確立するためのスマートコントラクトのオントロジ表現であり、条件付きではエージェントのインタラクションを制限および制限し、エージェントアクションをトリガーするアクティベーションメカニズムを定義し、OSC上の制約とコントラクト用語を定義する。 OASISで定義された条件とOSCは、ブロックチェーンやスマートコントラクトなどのデジタル公開台帳をオントロジで拡張するために適用される。 我々はまた、Ethereumプラットフォームと惑星間ファイルシステムを利用するOSCのOASIS定義に基づくフレームワークのアーキテクチャをスケッチする。

In this contribution we extend an ontology for modelling agents and their interactions, called Ontology for Agents, Systems, and Integration of Services (in short, OASIS), with conditionals and ontological smart contracts (in short, OSCs). OSCs are ontological representations of smart contracts that allow to establish responsibilities and authorizations among agents and set agreements, whereas conditionals allow one to restrict and limit agent interactions, define activation mechanisms that trigger agent actions, and define constraints and contract terms on OSCs. Conditionals and OSCs, as defined in OASIS, are applied to extend with ontological capabilities digital public ledgers such as the blockchain and smart contracts implemented on it. We will also sketch the architecture of a framework based on the OASIS definition of OSCs that exploits the Ethereum platform and the Interplanetary File System.
翻訳日:2021-05-30 04:08:05 公開日:2020-12-02
# (参考訳) 新型コロナウイルスに関するエンドツーエンドQA: ドメイン適応と総合トレーニング [全文訳有]

End-to-End QA on COVID-19: Domain Adaptation with Synthetic Training ( http://arxiv.org/abs/2012.01414v1 )

ライセンス: CC BY 4.0
Revanth Gangi Reddy, Bhavani Iyer, Md Arafat Sultan, Rong Zhang, Avi Sil, Vittorio Castelli, Radu Florian, Salim Roukos(参考訳) QA (End-to-end Question answering) は、大量の文書コレクション上の情報検索 (IR) と、取得したパス上の機械読解 (MRC) の両方を必要とする。 最近の研究は、オープンドメインデータセットからの教師付き質問応答(QA)例のみを使用して、ニューラルIRシステムのトレーニングに成功した。 しかし、Wikipediaでの素晴らしいパフォーマンスにもかかわらず、BM25のような従来型の用語マッチングアプローチよりも、COVID-19のようなより具体的で特殊なターゲットドメインにおいて、ニューラルIRは遅れている。 さらに、ラベル付きデータがほとんどあるいは全くない場合、そのような対象領域においてQAシステムの効果的な適応も困難である。 そこで本研究では, 閉領域検索とMDCの性能向上のために, 合成合成QA例の適用について検討する。 我々は、我々のニューラルIRとMRCシステムを組み合わせて、最先端のオープンドメインQAベースラインよりもCORD-19コレクションのエンドツーエンドQAを大幅に改善した。

End-to-end question answering (QA) requires both information retrieval (IR) over a large document collection and machine reading comprehension (MRC) on the retrieved passages. Recent work has successfully trained neural IR systems using only supervised question answering (QA) examples from open-domain datasets. However, despite impressive performance on Wikipedia, neural IR lags behind traditional term matching approaches such as BM25 in more specific and specialized target domains such as COVID-19. Furthermore, given little or no labeled data, effective adaptation of QA systems can also be challenging in such target domains. In this work, we explore the application of synthetically generated QA examples to improve performance on closed-domain retrieval and MRC. We combine our neural IR and MRC systems and show significant improvements in end-to-end QA on the CORD-19 collection over a state-of-the-art open-domain QA baseline.
翻訳日:2021-05-30 03:50:45 公開日:2020-12-02
# (参考訳) covsegnet:covid-19胸部ctスキャンの病変分割を改善するマルチエンコーダ・デコーダアーキテクチャ [全文訳有]

CovSegNet: A Multi Encoder-Decoder Architecture for Improved Lesion Segmentation of COVID-19 Chest CT Scans ( http://arxiv.org/abs/2012.01473v1 )

ライセンス: CC BY 4.0
Tanvir Mahmud, Md Awsafur Rahman, Shaikh Anowarul Fattah, Sun-Yuan Kung(参考訳) 胸部ctスキャンによる肺病変の自動分割は、新型コロナウイルスの正確な診断と重症度測定のための重要な段階であると考えられている。 従来のu字型エンコーダ-デコーダアーキテクチャとその変種は、エンコードおよびデコードされた特徴マップ間の意味的ギャップが増大するプール/アップサンプリング操作における文脈情報の縮小に苦しむとともに、下位最適性能をもたらす逐次的な勾配伝播に関する勾配問題を解消する。 さらに, 3次元CTボリュームの操作は, 計算複雑性の指数的増大により, 最適化が困難になるため, さらなる制限が生じる。 本稿では,これらの制約を克服するために,高効率なニューラルネットワークアーキテクチャであるCovSegNetを用いて,自動新型コロナウイルス病変セグメンテーション手法を提案する。 さらに,より深い2dネットワークを用いてroiエンハンスctボリュームを生成し,さらに浅い3dネットワークを用いて計算負荷を増大させることなく,より文脈情報による強化を行う2相訓練方式を導入する。 Unetの従来の垂直展開とともに、最適性能を実現するために、多段エンコーダデコーダモジュールによる水平展開を導入しました。 さらに、コンテキスト情報の喪失を克服するため、マルチスケールの特徴マップをスケール遷移プロセスに統合する。 さらに, マルチスケール融合モジュールにピラミッド融合方式を導入し, その後のエンコーダ/デコーダモジュール間のセマンティックギャップを低減し, 効率的な勾配伝搬のための並列最適化を容易にする。 優れたパフォーマンスは、他の最先端のアプローチを大きく上回る3つの公開データセットで達成されている。 提案手法は,多様なアプリケーションにおいて最適セグメンテーション性能を実現するために容易に拡張できる。

Automatic lung lesions segmentation of chest CT scans is considered a pivotal stage towards accurate diagnosis and severity measurement of COVID-19. Traditional U-shaped encoder-decoder architecture and its variants suffer from diminutions of contextual information in pooling/upsampling operations with increased semantic gaps among encoded and decoded feature maps as well as instigate vanishing gradient problems for its sequential gradient propagation that result in sub-optimal performance. Moreover, operating with 3D CT-volume poses further limitations due to the exponential increase of computational complexity making the optimization difficult. In this paper, an automated COVID-19 lesion segmentation scheme is proposed utilizing a highly efficient neural network architecture, namely CovSegNet, to overcome these limitations. Additionally, a two-phase training scheme is introduced where a deeper 2D-network is employed for generating ROI-enhanced CT-volume followed by a shallower 3D-network for further enhancement with more contextual information without increasing computational burden. Along with the traditional vertical expansion of Unet, we have introduced horizontal expansion with multi-stage encoder-decoder modules for achieving optimum performance. Additionally, multi-scale feature maps are integrated into the scale transition process to overcome the loss of contextual information. Moreover, a multi-scale fusion module is introduced with a pyramid fusion scheme to reduce the semantic gaps between subsequent encoder/decoder modules while facilitating the parallel optimization for efficient gradient propagation. Outstanding performances have been achieved in three publicly available datasets that largely outperform other state-of-the-art approaches. The proposed scheme can be easily extended for achieving optimum segmentation performances in a wide variety of applications.
翻訳日:2021-05-30 03:14:17 公開日:2020-12-02
# (参考訳) 2次定常点を求める政策勾配のサンプル複雑度

Sample Complexity of Policy Gradient Finding Second-Order Stationary Points ( http://arxiv.org/abs/2012.01491v1 )

ライセンス: CC BY 4.0
Long Yang, Qian Zheng, Gang Pan(参考訳) 政策に基づく強化学習(RL)の目的は、その目的の最大点を探索することである。 しかし、その目的の固有の非凸性のため、一階定常点 (FOSP) への収束は、極大点を求める政策勾配法を保証できない。 fosp は rl では望ましくない極小あるいは極小の saddle point であってもよい。 幸いなことに、すべてのサドル点が \emph{strict} であれば、二階定常点 (SOSP) はすべて局所最大値と全く同じである。 fospの代わりに、政策勾配のサンプル複雑性を特徴付ける収束基準としてsospを考える。 その結果、ポリシー勾配は$(\epsilon,\sqrt{\epsilon\chi})$-sosp に収束し、$\mathcal{o}\left(\dfrac{\epsilon^{-\frac{9}{2}}}{(1-\gamma)\sqrt\chi}\log\dfrac{1}{\delta}\right)$,ただし $\gamma\in(0,1)$ の合計コストの後に少なくとも 1-\widetilde{\mathcal{o}}(\delta)$ となる。 我々の結果は、$\mathcal{O}\left(\dfrac{\epsilon^{-9}\chi^{\frac{3}{2}}}{\delta}\log\dfrac{1}{\epsilon\chi}\right)$が要求される最先端の結果を大幅に改善する。 我々の分析は、パラメータ空間 $\mathbb{R}^p$ を非定常点、サドル点、局所最適領域の3つの非交差領域に分解し、各領域におけるRLの目的を局所的に改善するというキーアイデアに基づいている。 この手法は広範な政策勾配法に応用できる可能性がある。

The goal of policy-based reinforcement learning (RL) is to search the maximal point of its objective. However, due to the inherent non-concavity of its objective, convergence to a first-order stationary point (FOSP) can not guarantee the policy gradient methods finding a maximal point. A FOSP can be a minimal or even a saddle point, which is undesirable for RL. Fortunately, if all the saddle points are \emph{strict}, all the second-order stationary points (SOSP) are exactly equivalent to local maxima. Instead of FOSP, we consider SOSP as the convergence criteria to character the sample complexity of policy gradient. Our result shows that policy gradient converges to an $(\epsilon,\sqrt{\epsilon\chi})$-SOSP with probability at least $1-\widetilde{\mathcal{O}}(\delta)$ after the total cost of $\mathcal{O}\left(\dfrac{\epsilon^{-\frac{9}{2}}}{(1-\gamma)\sqrt\chi}\log\dfrac{1}{\delta}\right)$, where $\gamma\in(0,1)$. Our result improves the state-of-the-art result significantly where it requires $\mathcal{O}\left(\dfrac{\epsilon^{-9}\chi^{\frac{3}{2}}}{\delta}\log\dfrac{1}{\epsilon\chi}\right)$. Our analysis is based on the key idea that decomposes the parameter space $\mathbb{R}^p$ into three non-intersected regions: non-stationary point, saddle point, and local optimal region, then making a local improvement of the objective of RL in each region. This technique can be potentially generalized to extensive policy gradient methods.
翻訳日:2021-05-30 02:22:59 公開日:2020-12-02
# (参考訳) ベンガル語の点字からテキストへの翻訳:幾何学的アプローチ [全文訳有]

Braille to Text Translation for Bengali Language: A Geometric Approach ( http://arxiv.org/abs/2012.01494v1 )

ライセンス: CC0 1.0
Minhas Kamal, Dr. Amin Ahsan Ali, Dr. Muhammad Asif Hossain Khan, Dr. Mohammad Shoyaib(参考訳) 点字は、視覚障害者が読み書きをできない唯一のシステムである。 しかし一般の人は点字を読めない。 そのため,教師や親戚は,学習の支援が難しいと感じている。 ほとんどの主要言語は、この翻訳目的のソフトウェアソリューションを持っています。 しかし、ベンガルでは、この便利なツールが欠落している。 そこで本稿では,これらの触覚アルファベットを画像に写し,プレーンテキストに翻訳する点字をテキストトランスレータに提案する。 この方式では、画像劣化、スキャン時間ページ回転、点字変形などが主な問題である。 これらの課題はすべて、特別な画像処理と幾何学的構造解析を用いて直接チェックされる。 この手法は点字認識において97.25%の精度が得られる。

Braille is the only system to visually impaired people for reading and writing. However, general people cannot read Braille. So, teachers and relatives find it hard to assist them with learning. Almost every major language has software solutions for this translation purpose. However, in Bengali there is an absence of this useful tool. Here, we propose Braille to Text Translator, which takes image of these tactile alphabets, and translates them to plain text. Image deterioration, scan-time page rotation, and braille dot deformation are the principal issues in this scheme. All of these challenges are directly checked using special image processing and geometric structure analysis. The technique yields 97.25% accuracy in recognizing Braille characters.
翻訳日:2021-05-30 02:20:59 公開日:2020-12-02
# (参考訳) 多項ロジットバンドにおける純粋探索のためのインスタンスセンシティブアルゴリズム [全文訳有]

Instance-Sensitive Algorithms for Pure Exploration in Multinomial Logit Bandit ( http://arxiv.org/abs/2012.01499v1 )

ライセンス: CC BY 4.0
Nikolai Karpov, Qin Zhang(参考訳) ファストファッション小売やオンライン広告といった現実世界のアプリケーションによって動機付けられ、MNLバンド(Multinomial Logit Bandit)はオンライン学習とオペレーション研究で人気のあるモデルであり、過去10年間に多くの注目を集めてきた。 しかし、バンドイット理論の基本的な問題である純粋な探索が、これまでMNLバンドイットにおいて十分に研究されていないことは、少々驚きである。 本稿では,MNL帯域における純粋探索のための効率的なアルゴリズムを提案する。 当社のアルゴリズムはインスタンスセンシティブなプル複雑度を実現します。 また、上界をほぼ一致する下界で補う。

Motivated by real-world applications such as fast fashion retailing and online advertising, the Multinomial Logit Bandit (MNL-bandit) is a popular model in online learning and operations research, and has attracted much attention in the past decade. However, it is a bit surprising that pure exploration, a basic problem in bandit theory, has not been well studied in MNL-bandit so far. In this paper we give efficient algorithms for pure exploration in MNL-bandit. Our algorithms achieve instance-sensitive pull complexities. We also complement the upper bounds by an almost matching lower bound.
翻訳日:2021-05-30 02:12:09 公開日:2020-12-02
# (参考訳) ゴールからウェイポイント・アンド・パス、長期的人間軌道予測へ [全文訳有]

From Goals, Waypoints & Paths To Long Term Human Trajectory Forecasting ( http://arxiv.org/abs/2012.01526v1 )

ライセンス: CC BY 4.0
Karttikeya Mangalam, Yang An, Harshayu Girase, Jitendra Malik(参考訳) 人間の軌道予測は本質的にマルチモーダル問題である。 将来の軌道の不確実性は、(a)エージェントに知られてはいるがモデルに未知な情報源、例えば長期的な目標や(b)エージェントとモデルの両方に未知な情報源、例えば他のエージェントの意図や既約乱数不確定性などである。 我々は,この不確かさを認識論的・弁別的源に分解する。 我々は,長期目標における多モータリティと,経路ポイントや経路における多モータリティによるアレタリック不確実性を通じて,てんかん不確かさをモデル化する。 また,この二分法を実証するために,従来の作業よりも1分間,桁長の予測地平線を有する,新しい長期軌跡予測設定を提案する。 最後に、我々は、長期予測地平線を横断する様々な軌道予測のために、前置された認識論的およびアリーエータ的構造を利用するシーンのcom-pliant track forecasting network、y-netを提示する(a)スタンフォード・ドローン・アンド・eth/ucyデータセットの予測地平線設定と、(b)改定されたスタンフォード・ドローン・アンド・コンクロス・ドローンデータセットの長期予測地平線設定について、よく研究された短い予測地平線設定の両方について大幅に改善する。

Human trajectory forecasting is an inherently multi-modal problem. Uncertainty in future trajectories stems from two sources: (a) sources that are known to the agent but unknown to the model, such as long term goals and (b)sources that are unknown to both the agent & the model, such as intent of other agents & irreducible randomness indecisions. We propose to factorize this uncertainty into its epistemic & aleatoric sources. We model the epistemic un-certainty through multimodality in long term goals and the aleatoric uncertainty through multimodality in waypoints& paths. To exemplify this dichotomy, we also propose a novel long term trajectory forecasting setting, with prediction horizons upto a minute, an order of magnitude longer than prior works. Finally, we presentY-net, a scene com-pliant trajectory forecasting network that exploits the pro-posed epistemic & aleatoric structure for diverse trajectory predictions across long prediction horizons.Y-net significantly improves previous state-of-the-art performance on both (a) The well studied short prediction horizon settings on the Stanford Drone & ETH/UCY datasets and (b) The proposed long prediction horizon setting on the re-purposed Stanford Drone & Intersection Drone datasets.
翻訳日:2021-05-30 00:53:09 公開日:2020-12-02
# (参考訳) フーリエ変換による構造関数の時間計算によるddm解析の性能向上 [全文訳有]

Increased performance in DDM analysis by calculating structure functions through Fourier transform in time ( http://arxiv.org/abs/2012.05695v1 )

ライセンス: CC BY 4.0
M. Norouzisadeh, G. Cerchiari and F. Croccolo(参考訳) 微分動的顕微鏡 (ddm) は、ソフトマター物理学から生物学まで幅広いサンプルの動的挙動に関する情報を得るために、光学顕微鏡と統計解析の組み合わせである。 DDMでは、試料の動的進化を異なる長さのスケールで別々に調べ、異なる時間に記録された一連の画像から抽出する。 興味深い結果の1つは、空間フーリエ変換と信号の差によって計算できる構造関数である。 本研究では,DDM解析方式に従って,画像の集合を効率的に処理するアルゴリズムを提案する。 前回の研究で報告された最先端のアルゴリズムに対する新しいアプローチをベンチマークした。 新しい実装では、信号の違いを発生させる代わりに、追加のフーリエ変換により、DDM解析を高速に計算する。 これにより、CPUベースのマシンでも非常に高速な解析が可能になる。 新しいコードをテストするために、我々は、gpuハードウェアアクセラレーションの助けなしに、1000以上のイメージのセットでddm分析を行いました。 例えば、512 \times 512$ピクセルの画像の場合、新しいアルゴリズムは以前のGPUコードより10倍高速である。 GPUハードウェアアクセラレーションがなければ、同じ画像に対して、新しいアルゴリズムは、どちらもCPU上でのみ実行される旧アルゴリズムよりも300倍高速であることがわかった。

Differential Dynamic Microscopy (DDM) is the combination of optical microscopy to statistical analysis to obtain information about the dynamical behaviour of a variety of samples spanning from soft matter physics to biology. In DDM, the dynamical evolution of the samples is investigated separately at different length scales and extracted from a set of images recorded at different times. A specific result of interest is the structure function that can be computed via spatial Fourier transforms and differences of signals. In this work, we present an algorithm to efficiently process a set of images according to the DDM analysis scheme. We bench-marked the new approach against the state-of-the-art algorithm reported in previous work. The new implementation computes the DDM analysis faster, thanks to an additional Fourier transform in time instead of performing differences of signals. This allows obtaining very fast analysis also in CPU based machine. In order to test the new code, we performed the DDM analysis over sets of more than 1000 images with and without the help of GPU hardware acceleration. As an example, for images of $512 \times 512$ pixels, the new algorithm is 10 times faster than the previous GPU code. Without GPU hardware acceleration and for the same set of images, we found that the new algorithm is 300 faster than the old one both running only on the CPU.
翻訳日:2021-05-30 00:24:58 公開日:2020-12-02
# (参考訳) ディファレンシャルモーフ検出のためのアンタングル表現の相互情報最大化 [全文訳有]

Mutual Information Maximization on Disentangled Representations for Differential Morph Detection ( http://arxiv.org/abs/2012.01542v1 )

ライセンス: CC BY 4.0
Sobhan Soleymani, Ali Dabouei, Fariborz Taherkhani, Jeremy Dawson, Nasser M. Nasrabadi(参考訳) 本稿では,ランドマークと外観のゆがみを利用した新しい微分形態検出フレームワークを提案する。 本フレームワークでは,2つの相補的表現を用いて,顔画像を埋め込み領域で表現する。 ネットワークは、中間画像が1つの画像からランドマークを継承し、他の画像から外観を継承する顔画像の三脚によって訓練される。 当初トレーニングされたこのネットワークは、コントラスト表現を使用してデータセット毎にさらにトレーニングされる。 外観とランドマークの絡み合いを利用することで,提案手法が最先端の微分形態検出性能を提供できることを実証する。 この機能はランドマーク、外観、IDドメインにおける距離を使用することで実現される。 提案フレームワークの性能は,異なる手法で生成された3つの形態データセットを用いて評価する。

In this paper, we present a novel differential morph detection framework, utilizing landmark and appearance disentanglement. In our framework, the face image is represented in the embedding domain using two disentangled but complementary representations. The network is trained by triplets of face images, in which the intermediate image inherits the landmarks from one image and the appearance from the other image. This initially trained network is further trained for each dataset using contrastive representations. We demonstrate that, by employing appearance and landmark disentanglement, the proposed framework can provide state-of-the-art differential morph detection performance. This functionality is achieved by the using distances in landmark, appearance, and ID domains. The performance of the proposed framework is evaluated using three morph datasets generated with different methodologies.
翻訳日:2021-05-29 23:56:00 公開日:2020-12-02
# (参考訳) lstmニューラルネットワークを用いた空間クラスタリングに基づく時間周波数マスクの強化 [全文訳有]

Enhancement of Spatial Clustering-Based Time-Frequency Masks using LSTM Neural Networks ( http://arxiv.org/abs/2012.01576v1 )

ライセンス: CC BY 4.0
Felix Grezes, Zhaoheng Ni, Viet Anh Trinh, Michael Mandel(参考訳) 近年の研究では、LSTMアーキテクチャを用いたディープリカレントニューラルネットワークが、時間周波数マスクを推定することにより、強い単一チャネル音声強調を実現することが示されている。 しかし、これらのモデルは様々なマイクロホン構成からのマルチチャネル入力に自然に一般化するわけではない。 対照的に、空間クラスタリング技術はそのような一般化を達成することができるが、強い信号モデルがない。 我々の研究は2つのアプローチの組み合わせを提案する。 LSTMを用いて空間クラスタリングに基づく時間周波数マスクを強化することにより、複数の単一チャネルLSTM-DNN音声強調器の信号モデリング性能と、マルチチャネル空間クラスタリングの信号分離性能と一般性の両方を実現する。 提案システムとCHiME-3データセットのベースラインを比較した。 BSS\_eval ツールキットと PESQ の SDR を用いて,各システムからの音声の質を評価する。 本稿では、kaldi自動音声認識装置からの単語誤り率を用いて、各システム出力の識別性を評価する。

Recent works have shown that Deep Recurrent Neural Networks using the LSTM architecture can achieve strong single-channel speech enhancement by estimating time-frequency masks. However, these models do not naturally generalize to multi-channel inputs from varying microphone configurations. In contrast, spatial clustering techniques can achieve such generalization but lack a strong signal model. Our work proposes a combination of the two approaches. By using LSTMs to enhance spatial clustering based time-frequency masks, we achieve both the signal modeling performance of multiple single-channel LSTM-DNN speech enhancers and the signal separation performance and generality of multi-channel spatial clustering. We compare our proposed system to several baselines on the CHiME-3 dataset. We evaluate the quality of the audio from each system using SDR from the BSS\_eval toolkit and PESQ. We evaluate the intelligibility of the output of each system using word error rate from a Kaldi automatic speech recognizer.
翻訳日:2021-05-29 23:07:56 公開日:2020-12-02
# (参考訳) 空間クラスタリングマスクのためのlstm音声モデルを用いたmvdrビームフォーミングの改善 [全文訳有]

Improved MVDR Beamforming Using LSTM Speech Models to Clean Spatial Clustering Masks ( http://arxiv.org/abs/2012.02191v1 )

ライセンス: CC BY 4.0
Zhaoheng Ni, Felix Grezes, Viet Anh Trinh, Michael I. Mandel(参考訳) 空間クラスタリング技術は、比較的任意のマイクロホン構成で大きなマルチチャネルノイズ低減を実現することができるが、詳細な音声/雑音モデルの導入は困難である。 対照的に、LSTMニューラルネットワークは単一チャネル入力のノイズから音声を認識するために訓練されているが、マルチチャネル記録においてその情報を完全に活用することは困難である。 本稿では,これら2つのアプローチを統合し,モデルベースEMソース分離局所化法(MESSL)により生成されたマスクを除去するためにLSTM音声モデルを訓練する。 これにより、マルチチャネル空間クラスタリングの空間分離性能と一般化性と、並列単一チャネルLSTM音声強調器の信号モデリング性能を両立させることができる。 実験の結果, ノイズの多いタブレット記録のCHiME-3データセットに適用すると, PESQ(Perceptual Evaluation of Speech Quality)アルゴリズムで測定された音声品質が向上し, ベースラインCHiME-3音声認識器の単語誤り率をデフォルトのBeamformItビームフォーマと比較して低減することがわかった。

Spatial clustering techniques can achieve significant multi-channel noise reduction across relatively arbitrary microphone configurations, but have difficulty incorporating a detailed speech/noise model. In contrast, LSTM neural networks have successfully been trained to recognize speech from noise on single-channel inputs, but have difficulty taking full advantage of the information in multi-channel recordings. This paper integrates these two approaches, training LSTM speech models to clean the masks generated by the Model-based EM Source Separation and Localization (MESSL) spatial clustering method. By doing so, it attains both the spatial separation performance and generality of multi-channel spatial clustering and the signal modeling performance of multiple parallel single-channel LSTM speech enhancers. Our experiments show that when our system is applied to the CHiME-3 dataset of noisy tablet recordings, it increases speech quality as measured by the Perceptual Evaluation of Speech Quality (PESQ) algorithm and reduces the word error rate of the baseline CHiME-3 speech recognizer, as compared to the default BeamformIt beamformer.
翻訳日:2021-05-29 22:52:34 公開日:2020-12-02
# (参考訳) 多チャンネル音声強調のための空間クラスタリングとLSTM音声モデルの組み合わせ [全文訳有]

Combining Spatial Clustering with LSTM Speech Models for Multichannel Speech Enhancement ( http://arxiv.org/abs/2012.03388v1 )

ライセンス: CC BY 4.0
Felix Grezes, Zhaoheng Ni, Viet Anh Trinh, Michael Mandel(参考訳) LSTMアーキテクチャを用いたリカレントニューラルネットワークは、大きな単一チャネルノイズ低減を実現することができる。 しかし、新しいマイクロフォンの構成に一般化できるような方法で、それらをマルチチャネル入力に適用する方法は明確ではない。 対照的に、空間クラスタリング技術はそのような一般化を達成することができるが、強い信号モデルがない。 本稿では,マルチチャネル空間クラスタリングの空間分離性能と一般性と,並列単一チャネルLSTM音声強調器の信号モデリング性能の両立を図った。 PESQアルゴリズムによって予測される音声品質や,不一致条件で訓練された認識者の単語誤り率の観点から,CHiME3データセットのベースラインを比較し,一般化に焦点を当てた。 実験により、lstmモデルと空間クラスタリングを組み合わせることで、開発セットにおける単語誤り率を4.6\%絶対値(1.2\%相対値)、空間クラスタリングシステムと比較してテストセット上で11.2\%絶対値(25.5\%相対値)、開発セットで10.75\%(32.72\%相対値)、lstmモデルと比較してテストデータで6.12\%絶対値(15.76\%相対値)に削減できることを示した。

Recurrent neural networks using the LSTM architecture can achieve significant single-channel noise reduction. It is not obvious, however, how to apply them to multi-channel inputs in a way that can generalize to new microphone configurations. In contrast, spatial clustering techniques can achieve such generalization, but lack a strong signal model. This paper combines the two approaches to attain both the spatial separation performance and generality of multichannel spatial clustering and the signal modeling performance of multiple parallel single-channel LSTM speech enhancers. The system is compared to several baselines on the CHiME3 dataset in terms of speech quality predicted by the PESQ algorithm and word error rate of a recognizer trained on mis-matched conditions, in order to focus on generalization. Our experiments show that by combining the LSTM models with the spatial clustering, we reduce word error rate by 4.6\% absolute (17.2\% relative) on the development set and 11.2\% absolute (25.5\% relative) on test set compared with spatial clustering system, and reduce by 10.75\% (32.72\% relative) on development set and 6.12\% absolute (15.76\% relative) on test data compared with LSTM model.
翻訳日:2021-05-29 22:37:41 公開日:2020-12-02
# (参考訳) 属性駆動協調フィルタリングにおけるユーザモデリングの変分推論について [全文訳有]

On Variational Inference for User Modeling in Attribute-Driven Collaborative Filtering ( http://arxiv.org/abs/2012.01577v1 )

ライセンス: CC BY 4.0
Venugopal Mani, Ramasubramanian Balasubramanian, Sushant Kumar, Abhinav Mathur, Kannan Achan(参考訳) Recommender Systemsはオンライン電子商取引プラットフォームの一部となり、顧客のエンゲージメントと収益を推進している。 一般的なレコメンダシステムは、ユーザの過去のエンゲージメントデータから学び、ユーザの行動特性を理解し、将来の行動を予測するために利用しようとする。 本研究では,時間的文脈からユーザ属性親和性を学習するために因果推論を用いるアプローチを提案する。 この目的を確率的機械学習問題として定式化し,モデルパラメータの推定に変分推論に基づく手法を適用する。 2つの実世界データセットにおける次属性予測タスクにおける提案手法の性能を実証し,標準ベースライン法を上回っていることを示す。

Recommender Systems have become an integral part of online e-Commerce platforms, driving customer engagement and revenue. Most popular recommender systems attempt to learn from users' past engagement data to understand behavioral traits of users and use that to predict future behavior. In this work, we present an approach to use causal inference to learn user-attribute affinities through temporal contexts. We formulate this objective as a Probabilistic Machine Learning problem and apply a variational inference based method to estimate the model parameters. We demonstrate the performance of the proposed method on the next attribute prediction task on two real world datasets and show that it outperforms standard baseline methods.
翻訳日:2021-05-29 22:21:16 公開日:2020-12-02
# (参考訳) 深い特徴埋め込みを用いたメタ学習のためのマージンベース転送境界 [全文訳有]

Margin-Based Transfer Bounds for Meta Learning with Deep Feature Embedding ( http://arxiv.org/abs/2012.01602v1 )

ライセンス: CC BY 4.0
Jiechao Guan, Zhiwu Lu, Tao Xiang, Timothy Hospedales(参考訳) 目に見える/過去のタスクから学んだ知識を伝達することで、メタラーニングは目に見えない/未来的なタスクにうまく一般化することを目指している。 既存のメタラーニングアプローチは、様々な多クラス分類問題において有望な経験的性能を示すが、将来のタスクにおける分類器の一般化能力に関する理論的分析は少ない。 本稿では、全ての分類タスクが同じメタ分布からサンプリングされるという仮定の下で、マージン理論と統計的学習理論を活用し、メタラーニングに基づくマルチクラス分類(MLMC)のための3つのマージンベースの転送境界を確立する。 これらの境界は、将来のタスクに対する所定の分類アルゴリズムの予測誤差を、前処理のフィーチャマップ/ディープニューラルネットワークのクラス(すなわち、一様)上の有限個のタスクにおける平均的な経験誤差で推定できることを示している。 深い特徴の埋め込み) これらの境界を検証するために、一般的に使用されるクロスエントロピー損失の代わりに、複数の代表MLMCモデルをトレーニングするためにマルチマージン損失を用いる。 3つのベンチマーク実験により、これらのマージンベースモデルは依然として競争性能を達成し、マージンベース理論解析の実用的価値を検証した。

By transferring knowledge learned from seen/previous tasks, meta learning aims to generalize well to unseen/future tasks. Existing meta-learning approaches have shown promising empirical performance on various multiclass classification problems, but few provide theoretical analysis on the classifiers' generalization ability on future tasks. In this paper, under the assumption that all classification tasks are sampled from the same meta-distribution, we leverage margin theory and statistical learning theory to establish three margin-based transfer bounds for meta-learning based multiclass classification (MLMC). These bounds reveal that the expected error of a given classification algorithm for a future task can be estimated with the average empirical error on a finite number of previous tasks, uniformly over a class of preprocessing feature maps/deep neural networks (i.e. deep feature embeddings). To validate these bounds, instead of the commonly-used cross-entropy loss, a multi-margin loss is employed to train a number of representative MLMC models. Experiments on three benchmarks show that these margin-based models still achieve competitive performance, validating the practical value of our margin-based theoretical analysis.
翻訳日:2021-05-29 21:55:24 公開日:2020-12-02
# 分類のための対照的教師なし表現学習とその収束について

About contrastive unsupervised representation learning for classification and its convergence ( http://arxiv.org/abs/2012.01064v1 )

ライセンス: Link先を確認
Ibrahim Merad and Yiyang Yu and Emmanuel Bacry and St\'ephane Ga\"iffas(参考訳) コントラスト表現学習は、近年、自己監督訓練に非常に効率的であることが証明されている。 これらの手法は、下流分類タスクの教師付きトレーニングと互換性のあるエンコーダのトレーニングに成功している。 いくつかの研究が対照的な学習に関する理論的枠組みを構築し始めており、その性能を保証することができる。 複数の負のサンプルとマルチウェイ分類のためのトレーニングにこれらの結果の拡張を提供する。 さらに,超パラメータ深層ニューラルネットワークエンコーダの勾配降下を伴うコントラストトレーニング誤差の最小化のための収束保証を提供し,理論的な知見を補完する数値実験を行った。

Contrastive representation learning has been recently proved to be very efficient for self-supervised training. These methods have been successfully used to train encoders which perform comparably to supervised training on downstream classification tasks. A few works have started to build a theoretical framework around contrastive learning in which guarantees for its performance can be proven. We provide extensions of these results to training with multiple negative samples and for multiway classification. Furthermore, we provide convergence guarantees for the minimization of the contrastive training error with gradient descent of an overparametrized deep neural encoder, and provide some numerical experiments that complement our theoretical findings
翻訳日:2021-05-25 04:14:44 公開日:2020-12-02
# 自己単純化マシン:分割線形ニューラルネットワークの構造を利用して解釈可能なモデルを作成する

The Self-Simplifying Machine: Exploiting the Structure of Piecewise Linear Neural Networks to Create Interpretable Models ( http://arxiv.org/abs/2012.01293v1 )

ライセンス: Link先を確認
William Knauth(参考訳) 今日では、ユーザが使用するモデルに対する信頼を得ることはこれまで以上に重要です。 機械学習モデルは、規制の精査が高まり、高い状況でより多くのアプリケーションを見始めるにつれて、モデルを説明することが重要になる。 ReLUアクティベーション機能を持つPiecewise Linear Neural Networks (PLNN) は、多くの魅力的な性質から、急速に非常に人気のあるモデルとなっているが、堅牢性や解釈の分野ではまだ多くの課題がある。 そこで本研究では,Piecewise Linear Neural Networks の簡易化と解釈性向上のための新しい手法を提案する。 提案手法は, 訓練された深層ネットワークを用いて, さらなる確率的学習を行わずに, 高性能な単層ネットワークを構築すること, フラットネットワークを小さく, 解釈可能なサイズに縮小し, 性能の低下を最小限に抑えるアルゴリズムなどを含む。 これらの手法を用いて、モデル性能の予備的研究と、ウェルズ・ファーゴのホームレンディングデータセットのケーススタディを視覚モデル解釈と共に実施する。

Today, it is more important than ever before for users to have trust in the models they use. As Machine Learning models fall under increased regulatory scrutiny and begin to see more applications in high-stakes situations, it becomes critical to explain our models. Piecewise Linear Neural Networks (PLNN) with the ReLU activation function have quickly become extremely popular models due to many appealing properties; however, they still present many challenges in the areas of robustness and interpretation. To this end, we introduce novel methodology toward simplification and increased interpretability of Piecewise Linear Neural Networks for classification tasks. Our methods include the use of a trained, deep network to produce a well-performing, single-hidden-layer network without further stochastic training, in addition to an algorithm to reduce flat networks to a smaller, more interpretable size with minimal loss in performance. On these methods, we conduct preliminary studies of model performance, as well as a case study on Wells Fargo's Home Lending dataset, together with visual model interpretation.
翻訳日:2021-05-25 04:14:33 公開日:2020-12-02
# CNNのロバスト性を効果的に向上する自己改善型特徴マップ拡張(FMA)損失と組み合わせ強化

A Self-Supervised Feature Map Augmentation (FMA) Loss and Combined Augmentations Finetuning to Efficiently Improve the Robustness of CNNs ( http://arxiv.org/abs/2012.01386v1 )

ライセンス: Link先を確認
Nikhil Kapoor, Chun Yuan, Jonas L\"ohdefink, Roland Zimmermann, Serin Varghese, Fabian H\"uger, Nico Schmidt, Peter Schlicht, Tim Fingscheidt(参考訳) ディープニューラルネットワークは、入力の意味的に無関係な変化に対して堅牢ではないことが多い。 本研究では,光度変化やボケやノイズの付加といった入力の一般的な歪みに対する,最先端の深層畳み込みニューラルネットワーク(cnns)の頑健性の問題に対処する。 これらの入力の変化は、トレーニング中にデータ拡張の形で説明されることが多い。 まず、入力のいくつかの歪みに対してモデルが頑健になるように、微調整中に使用できる機能マップ拡張(fma)損失と呼ばれる新しい正規化損失を提案する。 第2に,データ効率の良い方法で複数の拡張型に対してロバストな単一モデルを実現する,新しい複合拡張(ca)微調整戦略を提案する。 安定トレーニング(st)と呼ばれる既存の最先端手法を改善するために,ca戦略を用いる。 画像の歪みを伴う画像分類タスクでは,fmaでは平均8.94%,cifar-10ではstが8.86%,imagenetではfmaが8.04%,imagenetではstが8.27%,よく知られたデータ拡張法では1.8%,2.12%の精度向上を達成し,ベースライン性能を維持した。

Deep neural networks are often not robust to semantically-irrelev ant changes in the input. In this work we address the issue of robustness of state-of-the-art deep convolutional neural networks (CNNs) against commonly occurring distortions in the input such as photometric changes, or the addition of blur and noise. These changes in the input are often accounted for during training in the form of data augmentation. We have two major contributions: First, we propose a new regularization loss called feature-map augmentation (FMA) loss which can be used during finetuning to make a model robust to several distortions in the input. Second, we propose a new combined augmentations (CA) finetuning strategy, that results in a single model that is robust to several augmentation types at the same time in a data-efficient manner. We use the CA strategy to improve an existing state-of-the-art method called stability training (ST). Using CA, on an image classification task with distorted images, we achieve an accuracy improvement of on average 8.94% with FMA and 8.86% with ST absolute on CIFAR-10 and 8.04% with FMA and 8.27% with ST absolute on ImageNet, compared to 1.98% and 2.12%, respectively, with the well known data augmentation method, while keeping the clean baseline performance.
翻訳日:2021-05-25 04:14:13 公開日:2020-12-02
# SChME at SemEval-2020 Task 1: A Model Ensemble for Detectioning Lexical Semantic Change

SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical Semantic Change ( http://arxiv.org/abs/2012.01603v1 )

ライセンス: Link先を確認
Maur\'icio Gruppi, Sibel Adali and Pin-Yu Chen(参考訳) 本稿では,SemEval-2020 Task 1 における語彙意味変化の教師なし検出法である SChME (Semantic Change Detection with Model Ensemble) について述べる。 SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。 より具体的には、単語ベクトルのコサイン距離と、マップ化された近傍距離(map)と、我々のモデルへの入力信号として単語周波数差メトリックを組み合わせた。 さらに,このプロセスで使用されるランドマークの重要性を調べるためにアライメントに基づく手法を検討する。 その結果,アライメントに使用されるランドマークの数はモデル予測性能に直接影響することが示された。 さらに,意味変化に苦しむ言語は多数のランドマークを使用することで恩恵を受ける傾向にあり,意味変化の少ない言語はアライメントのためのランドマーク番号のより慎重な選択から恩恵を受けることを示す。

This paper describes SChME (Semantic Change Detection with Model Ensemble), a method usedin SemEval-2020 Task 1 on unsupervised detection of lexical semantic change. SChME usesa model ensemble combining signals of distributional models (word embeddings) and wordfrequency models where each model casts a vote indicating the probability that a word sufferedsemantic change according to that feature. More specifically, we combine cosine distance of wordvectors combined with a neighborhood-based metric we named Mapped Neighborhood Distance(MAP), and a word frequency differential metric as input signals to our model. Additionally,we explore alignment-based methods to investigate the importance of the landmarks used in thisprocess. Our results show evidence that the number of landmarks used for alignment has a directimpact on the predictive performance of the model. Moreover, we show that languages that sufferless semantic change tend to benefit from using a large number of landmarks, whereas languageswith more semantic change benefit from a more careful choice of landmark number for alignment.
翻訳日:2021-05-25 04:13:48 公開日:2020-12-02
# 局所対象注目とグローバル意味文脈モデリングを用いた逐次画像記述の生成

Generating Descriptions for Sequential Images with Local-Object Attention and Global Semantic Context Modelling ( http://arxiv.org/abs/2012.01295v1 )

ライセンス: Link先を確認
Jing Su, Chenghua Lin, Mian Zhou, Qingyun Dai, Haoyu Lv(参考訳) 本稿では,局所オブジェクトアテンション機構を持つシーケンシャル画像の記述を生成するために,エンドツーエンドのCNN-LSTMモデルを提案する。 コヒーレントな記述を生成するために、シーケンシャルイメージ間の依存関係を学習する多層パーセプトロンを用いて、グローバルセマンティックコンテキストをキャプチャする。 並列LSTMネットワークを用いてシーケンス記述を復号する。 実験の結果,我々のモデルは,Microsoftが公開したデータセットの3つの評価指標において,ベースラインよりも優れていた。

In this paper, we propose an end-to-end CNN-LSTM model for generating descriptions for sequential images with a local-object attention mechanism. To generate coherent descriptions, we capture global semantic context using a multi-layer perceptron, which learns the dependencies between sequential images. A paralleled LSTM network is exploited for decoding the sequence descriptions. Experimental results show that our model outperforms the baseline across three different evaluation metrics on the datasets published by Microsoft.
翻訳日:2021-05-25 04:13:29 公開日:2020-12-02
# メタ認知に基づく簡易かつ効果的な物体検出法

Meta-Cognition-Based Simple And Effective Approach To Object Detection ( http://arxiv.org/abs/2012.01201v1 )

ライセンス: Link先を確認
Sannidhi P Kumar, Chandan Gautam, Suresh Sundaram(参考訳) 近年,多くの研究者が,精度と操作速度の両面で,ディープラーニングに基づく物体検出モデルの改良を試みている。 しかし、しばしば、これらのモデルの速度と精度のトレードオフがあり、自律ナビゲーションのような実用的な用途での使用は蓄積される。 本稿では,物体検出のためのメタ認知学習戦略を探求し,検出速度を維持しつつ一般化能力を向上させる。 メタ認知方法は、トレーニングデータセットのオブジェクトインスタンスを選択的にサンプリングし、オーバーフィッティングを減らす。 YOLO v3 Tinyを作業のベースモデルとして使用し,MS COCOデータセットを用いて性能評価を行う。 実験の結果、絶対精度は2.6%(最小値)と4.4%(最大値)で、推論時間にオーバーヘッドはないことが示された。

Recently, many researchers have attempted to improve deep learning-based object detection models, both in terms of accuracy and operational speeds. However, frequently, there is a trade-off between speed and accuracy of such models, which encumbers their use in practical applications such as autonomous navigation. In this paper, we explore a meta-cognitive learning strategy for object detection to improve generalization ability while at the same time maintaining detection speed. The meta-cognitive method selectively samples the object instances in the training dataset to reduce overfitting. We use YOLO v3 Tiny as a base model for the work and evaluate the performance using the MS COCO dataset. The experimental results indicate an improvement in absolute precision of 2.6% (minimum), and 4.4% (maximum), with no overhead to inference time.
翻訳日:2021-05-25 04:13:20 公開日:2020-12-02
# カテゴリーから潜在空間へのNLP手法の拡張について:KL多様性,Zipfの法則,類似性探索

On Extending NLP Techniques from the Categorical to the Latent Space: KL Divergence, Zipf's Law, and Similarity Search ( http://arxiv.org/abs/2012.01941v1 )

ライセンス: Link先を確認
Adam Hare, Yu Chen, Yinan Liu, Zhenming Liu, Christopher G. Brinton(参考訳) 自然言語処理(nlp)におけるディープラーニングの最近の成功にもかかわらず、機械学習に依存しない技術に対する幅広い利用と需要が残っている。 これらの技術の利点は、しばしば不透明で高価な機械学習モデルと比較した場合の解釈可能性と低コストである。 どのケースでもパフォーマンスは良くないかもしれないが、一般的な問題や比較的単純な問題には十分であることが多い。 本稿では,単語の分類的表現から単語の埋め込み表現へのアプローチを潜時空間に拡張し,それらの利点を維持しつつ,これらの古い手法の近代化を目指す。 まず,単語埋め込みを用いてエントロピーとKulback-Leiblerの発散を効率的に推定し,この推定を用いて複数のカテゴリのテキストを比較した。 次に、分類空間から潜在空間へ頻繁に観測されるZipfの法則として知られる重み付き分布をリキャストする。 最後に, 集合被覆問題に基づいて類似文を識別する新しい手法を導入することにより, 提案文に対するjaccard類似度尺度の改善を目指す。 本稿では,このアルゴリズムの性能をWord Moverの距離やLevenshtein距離などいくつかのベースラインと比較する。

Despite the recent successes of deep learning in natural language processing (NLP), there remains widespread usage of and demand for techniques that do not rely on machine learning. The advantage of these techniques is their interpretability and low cost when compared to frequently opaque and expensive machine learning models. Although they may not be be as performant in all cases, they are often sufficient for common and relatively simple problems. In this paper, we aim to modernize these older methods while retaining their advantages by extending approaches from categorical or bag-of-words representations to word embeddings representations in the latent space. First, we show that entropy and Kullback-Leibler divergence can be efficiently estimated using word embeddings and use this estimation to compare text across several categories. Next, we recast the heavy-tailed distribution known as Zipf's law that is frequently observed in the categorical space to the latent space. Finally, we look to improve the Jaccard similarity measure for sentence suggestion by introducing a new method of identifying similar sentences based on the set cover problem. We compare the performance of this algorithm against several baselines including Word Mover's Distance and the Levenshtein distance.
翻訳日:2021-05-25 04:12:45 公開日:2020-12-02
# DERAIL:Reward and Imitation Learningのための診断環境

DERAIL: Diagnostic Environments for Reward And Imitation Learning ( http://arxiv.org/abs/2012.01365v1 )

ライセンス: Link先を確認
Pedro Freire, Adam Gleave, Sam Toyer, Stuart Russell(参考訳) 多くの現実世界のタスクの目的は複雑で手続き的に特定することが難しい。 これにより、報酬または模倣学習アルゴリズムを使用して、人間のデータから直接報酬またはポリシーを推測する必要がある。 これらのアルゴリズムの既存のベンチマークは、複雑な環境でのテスト、リアリズムに焦点を当てている。 残念ながら、これらのベンチマークは遅く、信頼性がなく、障害を分離できない。 補完的アプローチとして,個別のアルゴリズム性能を独立してテストする簡易な診断タスク群を開発した。 タスク上での報酬と模倣学習のアルゴリズムを多岐にわたって評価する。 その結果、アルゴリズムの性能は実装の詳細に非常に敏感であることが判明した。 さらに、一般的な嗜好に基づく報酬学習実装へのケーススタディでは、スイートが設計上の欠陥を特定し、候補ソリューションを迅速に評価する方法について説明する。 環境はhttps://github.com/H umanCompatibleAI/sea lsで入手できる。

The objective of many real-world tasks is complex and difficult to procedurally specify. This makes it necessary to use reward or imitation learning algorithms to infer a reward or policy directly from human data. Existing benchmarks for these algorithms focus on realism, testing in complex environments. Unfortunately, these benchmarks are slow, unreliable and cannot isolate failures. As a complementary approach, we develop a suite of simple diagnostic tasks that test individual facets of algorithm performance in isolation. We evaluate a range of common reward and imitation learning algorithms on our tasks. Our results confirm that algorithm performance is highly sensitive to implementation details. Moreover, in a case-study into a popular preference-based reward learning implementation, we illustrate how the suite can pinpoint design flaws and rapidly evaluate candidate solutions. The environments are available at https://github.com/H umanCompatibleAI/sea ls .
翻訳日:2021-05-25 04:12:05 公開日:2020-12-02
# 密度デストラクタにおける情報理論

Information Theory in Density Destructors ( http://arxiv.org/abs/2012.01012v1 )

ライセンス: Link先を確認
J. Emmanuel Johnson, Valero Laparra, Gustau Camps-Valls, Raul Santos-Rodr\'iguez, Jes\'us Malo(参考訳) 密度デストラクタは微分可能であり、任意の構造(低エントロピー)の多変量PDFを非構造PDF(最大エントロピー)に変換する可逆変換である。 多変量ガウス化と多変量等化はこのファミリの具体例であり、元のPDFの複雑さをデータ構造を段階的に除去する基本変換によって分解する。 密度破壊的流れの性質が古典的情報理論とどのように結びついているか,また,より正確な情報理論量の推定に密度分解器が利用できるかを示す。 全相関と相互情報の多変量集合による実験は、競合する手法と比較して密度デストラクタの能力を示している。 これらの結果は,情報理論的な手法が,密度破壊的流れを学ぶ際の代替的最適化基準となる可能性を示唆する。

Density destructors are differentiable and invertible transforms that map multivariate PDFs of arbitrary structure (low entropy) into non-structured PDFs (maximum entropy). Multivariate Gaussianization and multivariate equalization are specific examples of this family, which break down the complexity of the original PDF through a set of elementary transforms that progressively remove the structure of the data. We demonstrate how this property of density destructive flows is connected to classical information theory, and how density destructors can be used to get more accurate estimates of information theoretic quantities. Experiments with total correlation and mutual information inmultivariate sets illustrate the ability of density destructors compared to competing methods. These results suggest that information theoretic measures may be an alternative optimization criteria when learning density destructive flows.
翻訳日:2021-05-25 04:11:55 公開日:2020-12-02
# 双曲表現の整合:最適なトランスポートベースアプローチ

Aligning Hyperbolic Representations: an Optimal Transport-based approach ( http://arxiv.org/abs/2012.01089v1 )

ライセンス: Link先を確認
Andr\'es Hoyos-Idrobo(参考訳) 双曲空間は木のようなデータのような階層的な関係を持つデータを表現するのに適している。 しかし、アライメントを通じて異なるが関連する表現を有意義に組み込むことがしばしば必要である。 このアライメントは、オントロジーマッチングや言語間アライメントといった応用を含む、マシンラーニング問題の重要なクラスである。 最適なトランスポート(ot)ベースのアプローチは、ターゲットデータセットにマッチするソースデータセットの変換を見つけることを目的としているため、アライメント問題に取り組むための自然な選択である。 この研究は、双曲空間のポアンカーイーモデルへの埋め込みのOTに基づく新しいアプローチを提案する。 提案手法は, M\"obius gyrovector space 上のジャイロ中心写像に依存する。 この形式化の結果として、otに基づくドメイン適応の既存のユークリッド法を双曲的対応に拡張する。 経験的に、ユークリッド法と双曲法の両方が検索の文脈で同様の性能を持つことを示した。

Hyperbolic-spaces are better suited to represent data with underlying hierarchical relationships, e.g., tree-like data. However, it is often necessary to incorporate, through alignment, different but related representations meaningfully. This aligning is an important class of machine learning problems, with applications as ontology matching and cross-lingual alignment. Optimal transport (OT)-based approaches are a natural choice to tackle the alignment problem as they aim to find a transformation of the source dataset to match a target dataset, subject to some distribution constraints. This work proposes a novel approach based on OT of embeddings on the Poincar\'e model of hyperbolic spaces. Our method relies on the gyrobarycenter mapping on M\"obius gyrovector spaces. As a result of this formalism, we derive extensions to some existing Euclidean methods of OT-based domain adaptation to their hyperbolic counterparts. Empirically, we show that both Euclidean and hyperbolic methods have similar performances in the context of retrieval.
翻訳日:2021-05-25 04:11:38 公開日:2020-12-02
# Adaptive Pairwise Label Smoothing による正規化

Regularization via Adaptive Pairwise Label Smoothing ( http://arxiv.org/abs/2012.01559v1 )

ライセンス: Link先を確認
Hongyu Guo(参考訳) ラベル平滑化(ls)は最先端の深層モデルの一般化を改善する効果的な正規化である。 各トレーニングサンプルに対して、LS戦略は、不確実なクラスに分布質量を分散することにより、1ホット符号化されたトレーニング信号を円滑にし、ネットワークが過信な出力分布を生成することを防ぐ。 本稿では Pairwise Label Smoothing (PLS) と呼ばれる新しいラベル平滑化手法を提案する。 PLSはサンプルのペアを入力として取ります。 一対の地平線ラベルによる平滑化により、PSSは2つの真理線ラベル間の相対的な距離を保ちつつ、真理線ラベルと他の目標との相対的な距離を和らげることができる。 また、クロスバリデーションサーチによって大域的に滑らかな分布質量を求める現在のLS法とは異なり、PSSはトレーニング中に各入力ペアの分布質量を自動的に学習する。 PLSはLSおよびベースラインモデルよりも有意に優れており,相対的分類誤差の最大30%を達成している。 また,このような精度を達成すると,PSSはソフトマックススコアが極めて低い傾向を示す。

Label Smoothing (LS) is an effective regularizer to improve the generalization of state-of-the-art deep models. For each training sample the LS strategy smooths the one-hot encoded training signal by distributing its distribution mass over the non ground-truth classes, aiming to penalize the networks from generating overconfident output distributions. This paper introduces a novel label smoothing technique called Pairwise Label Smoothing (PLS). The PLS takes a pair of samples as input. Smoothing with a pair of ground-truth labels enables the PLS to preserve the relative distance between the two truth labels while further soften that between the truth labels and the other targets, resulting in models producing much less confident predictions than the LS strategy. Also, unlike current LS methods, which typically require to find a global smoothing distribution mass through cross-validation search, PLS automatically learns the distribution mass for each input pair during training. We empirically show that PLS significantly outperforms LS and the baseline models, achieving up to 30% of relative classification error reduction. We also visually show that when achieving such accuracy gains the PLS tends to produce very low winning softmax scores.
翻訳日:2021-05-25 04:11:11 公開日:2020-12-02
# ReMP:Few-Shot Learningのための認定メトリックプロパゲーション

ReMP: Rectified Metric Propagation for Few-Shot Learning ( http://arxiv.org/abs/2012.00904v1 )

ライセンス: Link先を確認
Yang Zhao, Chunyuan Li, Ping Yu, Changyou Chen(参考訳) わずかながらの学習では、いくつかの例から一般化する能力がある。 本稿では,まず,メトリクスの一貫性をトレーニングからテストまで維持するために学習される識別的特徴空間,すなわち正則距離空間が,メトリクスベースのマイノリティ学習の成功に不可欠な要素であることを示す。 多くの分析結果から、目標の単純な修正は実質的な性能向上をもたらすことが示されている。 ReMP(rerectified metric propagation)と呼ばれるこの手法は、注意深いプロトタイプの伝播ネットワークをさらに最適化し、自信ある予測を行うために反発力を適用する。 大規模な実験により、提案されたReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。

Few-shot learning features the capability of generalizing from a few examples. In this paper, we first identify that a discriminative feature space, namely a rectified metric space, that is learned to maintain the metric consistency from training to testing, is an essential component to the success of metric-based few-shot learning. Numerous analyses indicate that a simple modification of the objective can yield substantial performance gains. The resulting approach, called rectified metric propagation (ReMP), further optimizes an attentive prototype propagation network, and applies a repulsive force to make confident predictions. Extensive experiments demonstrate that the proposed ReMP is effective and efficient, and outperforms the state of the arts on various standard few-shot learning datasets.
翻訳日:2021-05-25 04:10:47 公開日:2020-12-02
# SemiNLL:半監督学習による雑音ラベル学習フレームワーク

SemiNLL: A Framework of Noisy-Label Learning by Semi-Supervised Learning ( http://arxiv.org/abs/2012.00925v1 )

ライセンス: Link先を確認
Zhuowei Wang, Jing Jiang, Bo Han, Lei Feng, Bo An, Gang Niu, Guodong Long(参考訳) ノイズの多いラベルによるディープラーニングは難しい課題です。 特定のサンプル選択(SS)戦略と特定の半教師付き学習(SSL)モデルに基づく最近の顕著な手法は、最先端のパフォーマンスを達成した。 直感的には、より強力なSS戦略とSSLモデルを採用するとパフォーマンスが向上する。 この直感に従って、SS戦略とSSLモデルの異なる組み合わせを用いて、様々な効果的な雑音ラベル学習法を容易に導き出すことができる。 この問題を解決するために,SS戦略とSSLモデルをエンドツーエンドで組み合わせた汎用フレームワークであるSemiNLLを提案する。 我々のフレームワークは様々なss戦略とsslバックボーンを吸収でき、その能力を利用して有望なパフォーマンスを実現します。 ベンチマークをシミュレートしたデータセットや,ノイズの多いラベル付きの実世界のデータセットに新たな最先端を設定するために,さまざまな組み合わせでフレームワークをインスタンス化しています。

Deep learning with noisy labels is a challenging task. Recent prominent methods that build on a specific sample selection (SS) strategy and a specific semi-supervised learning (SSL) model achieved state-of-the-art performance. Intuitively, better performance could be achieved if stronger SS strategies and SSL models are employed. Following this intuition, one might easily derive various effective noisy-label learning methods using different combinations of SS strategies and SSL models, which is, however, reinventing the wheel in essence. To prevent this problem, we propose SemiNLL, a versatile framework that combines SS strategies and SSL models in an end-to-end manner. Our framework can absorb various SS strategies and SSL backbones, utilizing their power to achieve promising performance. We also instantiate our framework with different combinations, which set the new state of the art on benchmark-simulated and real-world datasets with noisy labels.
翻訳日:2021-05-25 04:10:34 公開日:2020-12-02
# 椅子セグメンテーション:オブジェクトセグメンテーション研究のためのコンパクトベンチマーク

Chair Segments: A Compact Benchmark for the Study of Object Segmentation ( http://arxiv.org/abs/2012.01250v1 )

ライセンス: Link先を確認
Leticia Pinto-Alva, Ian K. Torres, Rosangel Garcia, Ziyan Yang, Vicente Ordonez(参考訳) 長年にわたり、データセットとベンチマークは、新しいアルゴリズムの設計に大きな影響を与えてきた。 本稿では,オブジェクトセグメンテーションのための新しいコンパクトな半合成データセットである chairsegments を紹介する。 また,画像分類の最近の知見を反映した転帰学習における経験的発見を示す。 特に,事前訓練された重みから微調整されたモデルが,最適化景観の同じ基盤にあることを示す。 椅子セグメンツは、透明な背景が様々な背景に合成された椅子の多様な原型的なイメージからなる。 CIFAR-10データセットと同等のChairSegmentsを目指しているが、セグメンテーションのための新しいモデルアーキテクチャを素早く設計し、反復する。 Chair Segmentsでは、単一のGPUを使用して、U-Netモデルを30分で完全に収束するようにトレーニングすることができる。 最後に、このデータセットは半合成であるが、実際のデータの有用なプロキシになり、事前トレーニングのソースとして使用する場合、Object Discoveryデータセットの最先端の精度につながる。

Over the years, datasets and benchmarks have had an outsized influence on the design of novel algorithms. In this paper, we introduce ChairSegments, a novel and compact semi-synthetic dataset for object segmentation. We also show empirical findings in transfer learning that mirror recent findings for image classification. We particularly show that models that are fine-tuned from a pretrained set of weights lie in the same basin of the optimization landscape. ChairSegments consists of a diverse set of prototypical images of chairs with transparent backgrounds composited into a diverse array of backgrounds. We aim for ChairSegments to be the equivalent of the CIFAR-10 dataset but for quickly designing and iterating over novel model architectures for segmentation. On Chair Segments, a U-Net model can be trained to full convergence in only thirty minutes using a single GPU. Finally, while this dataset is semi-synthetic, it can be a useful proxy for real data, leading to state-of-the-art accuracy on the Object Discovery dataset when used as a source of pretraining.
翻訳日:2021-05-25 04:09:43 公開日:2020-12-02
# インスタンスベース学習を用いた言語分類

Linguistic Classification using Instance-Based Learning ( http://arxiv.org/abs/2012.07512v1 )

ライセンス: Link先を確認
Priya S. Nayak, Rhythm Girdhar, Shreekanth M. Prabhu(参考訳) 伝統的に言語学者は、木としてモデル化された言語家族として世界の言語を組織化してきた。 この研究では、コントラリアン的アプローチを採用し、より限定的な木に基づくモデルに疑問を呈する。 例えば、サンスクリットがインド・ヨーロッパ語族の言語と独立に持つ親和性は、ネットワークモデルを使ってよりよく示される。 インドにおける言語間の相互関係についても同じことが言えます。 このような発見を可能にするために,本稿では,言語ラベルを単語に割り当てるために,インスタンスベースの学習手法を用いた。 我々は各単語を発声し、その単語の慣用的な言語距離メートル法を言語ラベルを含む訓練セットと比較することにより分類する。 我々は、単語クラスタを使用し、そのクラスタに言語とカテゴリラベルを割り当てることで、トレーニングセットを構築する。 さらに,クラスタリング係数を質指標として利用している。 我々は我々の研究が言語学の新しい時代を後押しする可能性があると考えている。 この仕事はインドの重要な言語に限られています。 この研究は、社会ネットワーク分析の構造的同値概念と結合した分類にadaboostを適用することでさらに強化することができる。

Traditionally linguists have organized languages of the world as language families modelled as trees. In this work we take a contrarian approach and question the tree-based model that is rather restrictive. For example, the affinity that Sanskrit independently has with languages across Indo-European languages is better illustrated using a network model. We can say the same about inter-relationship between languages in India, where the inter-relationships are better discovered than assumed. To enable such a discovery, in this paper we have made use of instance-based learning techniques to assign language labels to words. We vocalize each word and then classify it by making use of our custom linguistic distance metric of the word relative to training sets containing language labels. We construct the training sets by making use of word clusters and assigning a language and category label to that cluster. Further, we make use of clustering coefficients as a quality metric for our research. We believe our work has the potential to usher in a new era in linguistics. We have limited this work for important languages in India. This work can be further strengthened by applying Adaboost for classification coupled with structural equivalence concepts of social network analysis.
翻訳日:2021-05-25 04:08:59 公開日:2020-12-02
# PPOおよびRUDDERに適用したアクター臨界法の収束証明

Convergence Proof for Actor-Critic Methods Applied to PPO and RUDDER ( http://arxiv.org/abs/2012.01399v1 )

ライセンス: Link先を確認
Markus Holzleitner, Lukas Gruber, Jos\'e Arjona-Medina, Johannes Brandstetter, Sepp Hochreiter(参考訳) 本稿では,政策関数,アクター,価値関数を同時に学習するアクター批判型強化学習アルゴリズムの収束を,一般的に用いられる仮定の下で証明する。 どちらの関数も任意の複雑性を持つディープニューラルネットワークである。 我々のフレームワークは、よく知られたPPO(Proximal Policy Optimization)と最近導入されたRUDDERの収束を示すことができる。 収束証明には、2つの時間スケール確率近似理論から導入された手法を用いる。 以上の結果は,エピソディックサンプルを使用し,学習中により欲張りになる方針を持つアクタ-批判的手法に有効である。 以前の収束証明は線形関数近似を仮定し、エピソディックな例を扱えないか、あるいはポリシーが欲張りになることを考慮しない。 最適政策は通常決定論的であるため、後者は適切である。

We prove under commonly used assumptions the convergence of actor-critic reinforcement learning algorithms, which simultaneously learn a policy function, the actor, and a value function, the critic. Both functions can be deep neural networks of arbitrary complexity. Our framework allows showing convergence of the well known Proximal Policy Optimization (PPO) and of the recently introduced RUDDER. For the convergence proof we employ recently introduced techniques from the two time-scale stochastic approximation theory. Our results are valid for actor-critic methods that use episodic samples and that have a policy that becomes more greedy during learning. Previous convergence proofs assume linear function approximation, cannot treat episodic examples, or do not consider that policies become greedy. The latter is relevant since optimal policies are typically deterministic.
翻訳日:2021-05-25 04:08:42 公開日:2020-12-02
# 機械学習による臨界遷移とシステム崩壊の予測

Machine learning prediction of critical transition and system collapse ( http://arxiv.org/abs/2012.01545v1 )

ライセンス: Link先を確認
Ling-Wei Kong, Hua-Wei Fan, Celso Grebogi, Ying-Cheng Lai(参考訳) モデルに依存しないパラメータドリフトによる臨界遷移を予測することは、非線形力学や応用場において際立った問題である。 密接に関連する問題は、システムが既に存在するか、システムが崩壊する前に過渡状態になるかを予測することである。 我々は,パラメータ入力チャネルを組み込むために貯水池計算を活用することにより,両方の問題に対する自由機械学習に基づくモデルを開発した。 機械がカオス的アトラクタ(すなわち臨界遷移の前に)を持つ正常な機能制御系で訓練された場合、遷移点を正確に予測できることを実証する。 注目すべきは、臨界点をドリフトするパラメータに対して、入力パラメータチャネルを持つマシンは、システムが過渡状態になるだけでなく、最終崩壊前の平均過渡時間も予測することができることである。

To predict a critical transition due to parameter drift without relying on model is an outstanding problem in nonlinear dynamics and applied fields. A closely related problem is to predict whether the system is already in or if the system will be in a transient state preceding its collapse. We develop a model free, machine learning based solution to both problems by exploiting reservoir computing to incorporate a parameter input channel. We demonstrate that, when the machine is trained in the normal functioning regime with a chaotic attractor (i.e., before the critical transition), the transition point can be predicted accurately. Remarkably, for a parameter drift through the critical point, the machine with the input parameter channel is able to predict not only that the system will be in a transient state, but also the average transient time before the final collapse.
翻訳日:2021-05-25 04:08:30 公開日:2020-12-02
# 道路交通予測のためのディープラーニング:それは違いをもたらすか?

Deep Learning for Road Traffic Forecasting: Does it Make a Difference? ( http://arxiv.org/abs/2012.02260v1 )

ライセンス: Link先を確認
Eric L. Manibardo, Ibai La\~na and Javier Del Ser(参考訳) 深層学習法は複雑な現象をモデル化するために柔軟であることが証明されている。 これはまた、車両知覚や交通分析といったいくつかの分野が、コアモデリング技術としてディープラーニングを広く採用しているインテリジェントトランスポーテーションシステム(its)のケースでもある。 特に短期的なトラフィック予測では、Deep Learningの優れた結果を提供する能力は、Deep Learningモデルの使用に対して、そのメリットや欠点を深く調べることなく、一般的な慣性を生み出しました。 本稿では,このITS研究領域におけるDeep Learningの活用に言及した技術の現状を批判的に分析することに焦点を当てる。 そこで本研究では,近年の論文のレビューから得られた知見を,2つの分類基準に基づいて詳細に述べる。 後続の批判分析は、交通予測のためのディープラーニングの問題について、質問を定式化し、必要な議論を引き起こす。 この研究は、さまざまなシナリオをカバーすることを目的とした、異なる性質のトラフィックデータセットに対する様々な短期交通予測手法のベンチマークで完了した。 私たちの実験では、深層学習はあらゆるケースで最適なモデリング技術ではないことが分かりました。 これらの知見は、道路交通予測における新たな課題と研究機会を明らかにするものであり、この分野における今後の研究努力を刺激し、指導することを意図して、徹底的に列挙・議論されている。

Deep Learning methods have been proven to be flexible to model complex phenomena. This has also been the case of Intelligent Transportation Systems (ITS), in which several areas such as vehicular perception and traffic analysis have widely embraced Deep Learning as a core modeling technology. Particularly in short-term traffic forecasting, the capability of Deep Learning to deliver good results has generated a prevalent inertia towards using Deep Learning models, without examining in depth their benefits and downsides. This paper focuses on critically analyzing the state of the art in what refers to the use of Deep Learning for this particular ITS research area. To this end, we elaborate on the findings distilled from a review of publications from recent years, based on two taxonomic criteria. A posterior critical analysis is held to formulate questions and trigger a necessary debate about the issues of Deep Learning for traffic forecasting. The study is completed with a benchmark of diverse short-term traffic forecasting methods over traffic datasets of different nature, aimed to cover a wide spectrum of possible scenarios. Our experimentation reveals that Deep Learning could not be the best modeling technique for every case, which unveils some caveats unconsidered to date that should be addressed by the community in prospective studies. These insights reveal new challenges and research opportunities in road traffic forecasting, which are enumerated and discussed thoroughly, with the intention of inspiring and guiding future research efforts in this field.
翻訳日:2021-05-25 04:08:17 公開日:2020-12-02
# 大域的非剛性再建のためのニューラル変形グラフ

Neural Deformation Graphs for Globally-consistent Non-rigid Reconstruction ( http://arxiv.org/abs/2012.01451v1 )

ライセンス: Link先を確認
Alja\v{z} Bo\v{z}i\v{c}, Pablo Palafox, Michael Zollh\"ofer, Justus Thies, Angela Dai, Matthias Nie{\ss}ner(参考訳) 本研究では,非剛体物体の変形追跡と3次元再構成のためのニューラル変形グラフを提案する。 具体的には,ディープニューラルネットワークによる変形グラフを暗黙的にモデル化する。 この神経変形グラフは物体固有の構造に依存しないため、一般的な非剛性変形追跡に適用することができる。 提案手法は,非剛体移動物体の深度カメラ観測の所定のシーケンス上で,このニューラルグラフをグローバルに最適化する。 明示的な視点整合性とフレーム間のグラフと表面一貫性の制約に基づいて、基盤となるネットワークは自己教師ありの方法で訓練される。 さらに,オブジェクトの形状を暗黙的に変形可能なマルチmlp形状表現で最適化する。 本手法では,逐次入力データを仮定しないため,高速動作のロバストな追跡や,時間的切り離し記録が可能となる。 実験により, 神経変形グラフは定性的および定量的に両立し, 64%の再構成が改善され, 62%の変形追跡性能が向上した。

We introduce Neural Deformation Graphs for globally-consistent deformation tracking and 3D reconstruction of non-rigid objects. Specifically, we implicitly model a deformation graph via a deep neural network. This neural deformation graph does not rely on any object-specific structure and, thus, can be applied to general non-rigid deformation tracking. Our method globally optimizes this neural graph on a given sequence of depth camera observations of a non-rigidly moving object. Based on explicit viewpoint consistency as well as inter-frame graph and surface consistency constraints, the underlying network is trained in a self-supervised fashion. We additionally optimize for the geometry of the object with an implicit deformable multi-MLP shape representation. Our approach does not assume sequential input data, thus enabling robust tracking of fast motions or even temporally disconnected recordings. Our experiments demonstrate that our Neural Deformation Graphs outperform state-of-the-art non-rigid reconstruction approaches both qualitatively and quantitatively, with 64% improved reconstruction and 62% improved deformation tracking performance.
翻訳日:2021-05-25 04:06:44 公開日:2020-12-02
# 表現の確率推定による映像異常検出

Video Anomaly Detection by Estimating Likelihood of Representations ( http://arxiv.org/abs/2012.01468v1 )

ライセンス: Link先を確認
Yuqi Ouyang, Victor Sanchez(参考訳) ビデオ異常検出は、動作表現、オブジェクトのローカライゼーション、アクション認識といった多くのサブタスクを解決することだけでなく、異常値の検出を伴う教師なし学習問題として一般的に考えられているため、難しい課題である。 伝統的に、この課題の解決策は、ビデオフレームとその低次元特徴のマッピングに焦点を合わせ、それらの特徴の空間的接続を無視している。 最近のソリューションでは、K-Meansのようなハードクラスタリング技術を使用してこれらの空間的接続を分析することや、ニューラルネットワークを適用して潜在特徴をアクション属性などの一般的な理解にマップすることに焦点を当てている。 潜時特徴空間における映像異常を解決するために,このタスクを,潜時多様体が深い復調オートエンコーダによって生成され,期待値の最大化によりクラスタ化される密度推定問題に転送する深部確率モデルを提案する。 いくつかのベンチマークデータセットの評価は、我々のモデルの強みを示し、挑戦的なデータセット上で優れたパフォーマンスを達成する。

Video anomaly detection is a challenging task not only because it involves solving many sub-tasks such as motion representation, object localization and action recognition, but also because it is commonly considered as an unsupervised learning problem that involves detecting outliers. Traditionally, solutions to this task have focused on the mapping between video frames and their low-dimensional features, while ignoring the spatial connections of those features. Recent solutions focus on analyzing these spatial connections by using hard clustering techniques, such as K-Means, or applying neural networks to map latent features to a general understanding, such as action attributes. In order to solve video anomaly in the latent feature space, we propose a deep probabilistic model to transfer this task into a density estimation problem where latent manifolds are generated by a deep denoising autoencoder and clustered by expectation maximization. Evaluations on several benchmarks datasets show the strengths of our model, achieving outstanding performance on challenging datasets.
翻訳日:2021-05-25 04:06:28 公開日:2020-12-02
# 脳波分類のための注意に基づく深層学習モデルの比較

Comparison of Attention-based Deep Learning Models for EEG Classification ( http://arxiv.org/abs/2012.01074v1 )

ライセンス: Link先を確認
Giulia Cisotto, Alessio Zanga, Joanna Chlebus, Italo Zoppis, Sara Manzoni, and Urszula Markowska-Kaczmar(参考訳) 目的: 深層学習(DL)モデルにおける異なる種類の注意機構の脳波(EEG)分類への影響を評価する。 方法:注意力のあるdlモデル,新しいinstagats,注意力のあるlstm,注意力のあるcnnの3つを比較した。 これらのモデルを用いて、正常な脳波パターンと異常な脳波パターンを分類した。 結果:全ての分類問題において,データセットの多変量および注意喚起モデルの単純なアーキテクチャに関わらず,技術の現状を達成できた。 また、アテンションメカニズムがどのように適用され、アテンション層がモデル内にあるかによって、データセットの時間、周波数、空間領域に含まれる情報を活用することができることも証明できる。 結論:本研究では,正常脳波パターンと異常脳波パターンの分類において,注意機構の異なる役割について光を当てた。 さらに,脳活動の時間的,頻度的,空間的領域における内在的関係をいかに活用できるかを考察した。 意義: 注意は、様々な現実のシナリオにおいて、脳波情報の品質とその関連性を評価するための有望な戦略である。 さらに、計算を並列化しやすくすることで、大きな電気生理学的(EEG)データセットの分析を高速化することができる。

Objective: To evaluate the impact on Electroencephalograp hy (EEG) classification of different kinds of attention mechanisms in Deep Learning (DL) models. Methods: We compared three attention-enhanced DL models, the brand-new InstaGATs, an LSTM with attention and a CNN with attention. We used these models to classify normal and abnormal (i.e., artifactual or pathological) EEG patterns. Results: We achieved the state of the art in all classification problems, regardless the large variability of the datasets and the simple architecture of the attention-enhanced models. We could also prove that, depending on how the attention mechanism is applied and where the attention layer is located in the model, we can alternatively leverage the information contained in the time, frequency or space domain of the dataset. Conclusions: with this work, we shed light over the role of different attention mechanisms in the classification of normal and abnormal EEG patterns. Moreover, we discussed how they can exploit the intrinsic relationships in the temporal, frequency and spatial domains of our brain activity. Significance: Attention represents a promising strategy to evaluate the quality of the EEG information, and its relevance, in different real-world scenarios. Moreover, it can make it easier to parallelize the computation and, thus, to speed up the analysis of big electrophysiological (e.g., EEG) datasets.
翻訳日:2021-05-25 04:05:51 公開日:2020-12-02
# 深層学習に基づく確率偏微分方程式の数値近似アルゴリズムと高次元非線形フィルタリング問題

Deep learning based numerical approximation algorithms for stochastic partial differential equations and high-dimensional nonlinear filtering problems ( http://arxiv.org/abs/2012.01194v1 )

ライセンス: Link先を確認
Christian Beck, Sebastian Becker, Patrick Cheridito, Arnulf Jentzen, Ariel Neufeld(参考訳) 本稿では,確率偏微分方程式(SPDE)の解に対するディープラーニングに基づく近似アルゴリズムの導入と研究を行う。 提案する近似アルゴリズムでは、spdeの駆動雑音過程を全て実現するためにディープニューラルネットワークを用いて、検討中のspdeの解過程を近似する。 提案する近似アルゴリズムの性能は,加算雑音を伴う確率的熱方程式,乗法雑音を伴う確率的熱方程式,乗法ノイズを持つ確率的ブラック・シェール方程式,非線形フィルタリングによるザカイ方程式において検証する。 これらのSPDEのそれぞれにおいて,提案した近似アルゴリズムは,最大50空間の短い実行時間で正確な結果を生成する。

In this article we introduce and study a deep learning based approximation algorithm for solutions of stochastic partial differential equations (SPDEs). In the proposed approximation algorithm we employ a deep neural network for every realization of the driving noise process of the SPDE to approximate the solution process of the SPDE under consideration. We test the performance of the proposed approximation algorithm in the case of stochastic heat equations with additive noise, stochastic heat equations with multiplicative noise, stochastic Black--Scholes equations with multiplicative noise, and Zakai equations from nonlinear filtering. In each of these SPDEs the proposed approximation algorithm produces accurate results with short run times in up to 50 space dimensions.
翻訳日:2021-05-25 04:05:30 公開日:2020-12-02
# フェデレートラーニングにおける2次保証

Second-Order Guarantees in Federated Learning ( http://arxiv.org/abs/2012.01474v1 )

ライセンス: Link先を確認
Stefan Vlaski, Elsa Rizk, Ali H. Sayed(参考訳) フェデレーション学習は、異質性、非同期性、プライバシといった実践的な考慮の下で分散データから集中的に学習するための有用なフレームワークである。 フェデレーションアーキテクチャはディープラーニング環境に頻繁にデプロイされるため、通常は非凸最適化の問題が発生する。 しかしながら、既存の分析のほとんどは凸損失関数に制限されているか、あるいは一階定常点が深層学習のボトルネックとなることが知られているにもかかわらず、一階定常性を確立するのみである。 我々は,確率勾配アルゴリズムの集中的および分散的設定における2次最適性に関する最近の結果に基づいて,連合学習アルゴリズムのクラスに対する2次保証を確立する。

Federated learning is a useful framework for centralized learning from distributed data under practical considerations of heterogeneity, asynchrony, and privacy. Federated architectures are frequently deployed in deep learning settings, which generally give rise to non-convex optimization problems. Nevertheless, most existing analysis are either limited to convex loss functions, or only establish first-order stationarity, despite the fact that saddle-points, which are first-order stationary, are known to pose bottlenecks in deep learning. We draw on recent results on the second-order optimality of stochastic gradient algorithms in centralized and decentralized settings, and establish second-order guarantees for a class of federated learning algorithms.
翻訳日:2021-05-25 04:05:19 公開日:2020-12-02
# ニューラルネットワーク, 否定, モダリティマーカーの検出による文献からのランク付きSNP-Phenotype Associationの自動抽出

Automatic Extraction of Ranked SNP-Phenotype Associations from Literature through Detecting Neural Candidates, Negation and Modality Markers ( http://arxiv.org/abs/2012.00902v1 )

ライセンス: Link先を確認
Behrouz Bokharaeian, Alberto Diaz(参考訳) ゲノムワイド・アソシエーション(GWA)は、パーソナライズされた医学と薬理ゲノミクスで行われている研究の顕著な部分である。 近年,遺伝子変異関連物質の抽出法が開発されている。 しかし, 関係の信頼度を考慮したテキストからSNP-フェノタイプ関連を抽出する方法は存在しない。 本研究ではまず,言語に基づく否定検出と中立的候補に基づく関係抽出手法を提案する。 実験の結果, 否定の手がかりや範囲, 中立候補の検出は, コーパス内の一様な文の固有極性と少数の複素文により, カーネルベースよりも優れる優れた関係抽出法の実装に有効であることが示唆された。 さらに, 報告されたアソシエーションの信頼性を評価するために, 抽出されたアソシエーションの信頼性レベルを推定するために, モダリティに基づくアプローチを提案する。 キーワード: SNP, Phenotype, Biomedical Relation extract, Negation Detection。

Genome-wide association (GWA) constitutes a prominent portion of studies which have been conducted on personalized medicine and pharmacogenomics. Recently, very few methods have been developed for extracting mutation-diseases associations. However, there is no available method for extracting the association of SNP-phenotype from text which considers degree of confidence in associations. In this study, first a relation extraction method relying on linguistic-based negation detection and neutral candidates is proposed. The experiments show that negation cues and scope as well as detecting neutral candidates can be employed for implementing a superior relation extraction method which outperforms the kernel-based counterparts due to a uniform innate polarity of sentences and small number of complex sentences in the corpus. Moreover, a modality based approach is proposed to estimate the confidence level of the extracted association which can be used to assess the reliability of the reported association. Keywords: SNP, Phenotype, Biomedical Relation Extraction, Negation Detection.
翻訳日:2021-05-25 04:05:07 公開日:2020-12-02
# 対話型AIのための対話型教育

Interactive Teaching for Conversational AI ( http://arxiv.org/abs/2012.00958v1 )

ライセンス: Link先を確認
Qing Ping, Feiyang Niu, Govind Thattai, Joel Chengottusseriyil, Qiaozi Gao, Aishwarya Reganti, Prashanth Rajagopal, Gokhan Tur, Dilek Hakkani-Tur, Prem Nataraja(参考訳) 現在の会話型aiシステムは、事前設計された要求のセットを理解し、関連するアクションを実行することを目的としている。 本論文は、子どもが大人と対話する最初の言語を学習する方法に触発され、インタラクティブな授業セッションを使ってエンドユーザーから直接、概念と呼ばれる新しい言語ナゲットを学習できる、Teachable AIシステムについて述べる。 提案手法は、3つのモデルを用いており、a) 生会話における理解のギャップを同定し、b) ユーザとの対話から未知の概念の解釈を学習し、c) 対話的な授業セッションに特化された教室のサブダイアログを管理する。 本稿では,事前学習モデル上に微調整されたモデルの最先端トランスフォーマーに基づくニューラルアーキテクチャを提案し,各コンポーネントの精度向上を示す。 より適応的でパーソナライズされた言語理解モデルを構築する上で,本手法は非常に有望であることを示す。

Current conversational AI systems aim to understand a set of pre-designed requests and execute related actions, which limits them to evolve naturally and adapt based on human interactions. Motivated by how children learn their first language interacting with adults, this paper describes a new Teachable AI system that is capable of learning new language nuggets called concepts, directly from end users using live interactive teaching sessions. The proposed setup uses three models to: a) Identify gaps in understanding automatically during live conversational interactions, b) Learn the respective interpretations of such unknown concepts from live interactions with users, and c) Manage a classroom sub-dialogue specifically tailored for interactive teaching sessions. We propose state-of-the-art transformer based neural architectures of models, fine-tuned on top of pre-trained models, and show accuracy improvements on the respective components. We demonstrate that this method is very promising in leading way to build more adaptive and personalized language understanding models.
翻訳日:2021-05-25 04:04:32 公開日:2020-12-02
# Meta-KD:ドメイン間の言語モデル圧縮のためのメタ知識蒸留フレームワーク

Meta-KD: A Meta Knowledge Distillation Framework for Language Model Compression across Domains ( http://arxiv.org/abs/2012.01266v1 )

ライセンス: Link先を確認
Haojie Pan, Chengyu Wang, Minghui Qiu, Yichang Zhang, Yaliang Li, Jun Huang(参考訳) 事前訓練された言語モデルは、様々なNLPタスクに適用され、性能がかなり向上した。 しかし、大きなモデルサイズと長い推論時間によって、そのようなモデルのリアルタイムアプリケーションへのデプロイが制限される。 典型的なアプローチは、大きな教師モデルを小さな学生モデルに蒸留する知識蒸留を考える。 しかし、これらの研究のほとんどは、他の領域から移行可能な知識を無視する単一領域のみに焦点を当てている。 ドメイン間で消化可能な知識を持つ教師の訓練は、知識の蒸留を助けるためのより良い一般化能力を達成することができると論じている。 この目的のために,メタ学習にインスパイアされたドメイン間で伝達可能な知識を捕捉し,学生に知識を伝えるメタ教師モデルを構築するメタ知識蒸留(Meta-KD)フレームワークを提案する。 具体的には、まずクロスドメイン学習プロセスを活用して、複数のドメイン上でメタ教師を訓練し、メタ教師からの指導で単一ドメイン学生モデルを学習するためのメタ蒸留アルゴリズムを提案する。 2つのパブリックマルチドメインNLPタスクの実験は、提案したMeta-KDフレームワークの有効性と優位性を示している。 また,マルチショットおよびゼロショットの学習環境においてメタKDの能力を示す。

Pre-trained language models have been applied to various NLP tasks with considerable performance gains. However, the large model sizes, together with the long inference time, limit the deployment of such models in real-time applications. Typical approaches consider knowledge distillation to distill large teacher models into small student models. However, most of these studies focus on single-domain only, which ignores the transferable knowledge from other domains. We argue that training a teacher with transferable knowledge digested across domains can achieve better generalization capability to help knowledge distillation. To this end, we propose a Meta-Knowledge Distillation (Meta-KD) framework to build a meta-teacher model that captures transferable knowledge across domains inspired by meta-learning and use it to pass knowledge to students. Specifically, we first leverage a cross-domain learning process to train the meta-teacher on multiple domains, and then propose a meta-distillation algorithm to learn single-domain student models with guidance from the meta-teacher. Experiments on two public multi-domain NLP tasks show the effectiveness and superiority of the proposed Meta-KD framework. We also demonstrate the capability of Meta-KD in both few-shot and zero-shot learning settings.
翻訳日:2021-05-25 04:04:16 公開日:2020-12-02
# TAN-NTM:ニューラルトピックモデリングのためのトピック注意ネットワーク

TAN-NTM: Topic Attention Networks for Neural Topic Modeling ( http://arxiv.org/abs/2012.01524v1 )

ライセンス: Link先を確認
Madhur Panwar, Shashank Shailabh, Milan Aggarwal, Balaji Krishnamurthy(参考訳) トピックモデルはテキストから表現を学び、文書コーパスに対する洞察を得るために広く使われている。 トピック発見を行うために、既存のニューラルモデルでは、ドキュメント・バグ・オブ・ワード(bow)表現を入力として使用する。 このような手法は主に文書配布における適切な事前処理の効果の分析に重点を置いている。 しかし、文書のセマンティクスをよりよくキャプチャするための改良された文書機能のエンコーディングは、ほとんど重要ではない。 本稿では,入力層でBoWではなくトークンのシーケンスとして文書をモデル化し,その出力を用いて変動推論を行い,次にBoW復号を行うLSTMにより処理する,新しいフレームワークを提案する。 我々はLSTM出力に注意を払って、トピックに関連する手がかりを伝達する関連単語への参加をモデルに与える。 本研究は,話題を導いた場合の注意を効果的に行うことができ,アブレーションによって経験的に確立できると仮定する。 20NewsGroup, Yelp, AGNews, DBpediaの4つのベンチマークデータセット上で, NPMIコヒーレンス尺度における既存のSOTAトピックモデルのスコアよりも約9~15パーセント向上した。 TAN-NTMはまた、改善された文書トピックの特徴を学習することにより、より良い文書分類精度を得る。 注意機構がキーワードの教師なし発見を可能にすることを質的に議論する。 さらに,提案フレームワークにより,stackexchange と weibo データセット上でのトピック認識型キーフレーズ生成において,最先端のパフォーマンスを実現していることを示す。

Topic models have been widely used to learn representations from text and gain insight into document corpora. To perform topic discovery, existing neural models use document bag-of-words (BoW) representation as input followed by variational inference and learn topic-word distribution through reconstructing BoW. Such methods have mainly focused on analysing the effect of enforcing suitable priors on document distribution. However, little importance has been given to encoding improved document features for capturing document semantics better. In this work, we propose a novel framework: TAN-NTM which models document as a sequence of tokens instead of BoW at the input layer and processes it through an LSTM whose output is used to perform variational inference followed by BoW decoding. We apply attention on LSTM outputs to empower the model to attend on relevant words which convey topic related cues. We hypothesise that attention can be performed effectively if done in a topic guided manner and establish this empirically through ablations. We factor in topic-word distribution to perform topic aware attention achieving state-of-the-art results with ~9-15 percentage improvement over score of existing SOTA topic models in NPMI coherence metric on four benchmark datasets - 20NewsGroup, Yelp, AGNews, DBpedia. TAN-NTM also obtains better document classification accuracy owing to learning improved document-topic features. We qualitatively discuss that attention mechanism enables unsupervised discovery of keywords. Motivated by this, we further show that our proposed framework achieves state-of-the-art performance on topic aware supervised generation of keyphrases on StackExchange and Weibo datasets.
翻訳日:2021-05-25 04:03:46 公開日:2020-12-02
# MEVA: アクティビティ検出のための大規模マルチビューマルチモーダルビデオデータセット

MEVA: A Large-Scale Multiview, Multimodal Video Dataset for Activity Detection ( http://arxiv.org/abs/2012.00914v1 )

ライセンス: Link先を確認
Kellie Corona (1), Katie Osterdahl (1), Roderic Collins (1), Anthony Hoogs (1) ((1) Kitware, Inc.)(参考訳) 本研究では,人間行動認識のための新しい大規模データセットであるmultiview extended video with activity (meva) datasetを提案する。 既存のセキュリティデータセットは、コンテンツによって拡散された公開ビデオの集約によるアクティビティ数にフォーカスするか、一般的に同じシーンのバックグラウンドビデオを除外するか、パブリックエリアを観察して永続性を達成し、アクティビティコンテンツに対して制御できないかのどちらかである。 当社のデータセットは9300時間以上の非トリミング連続ビデオで、多様な同時アクティビティと自発的なバックグラウンドアクティビティを含むスクリプト化されています。 私たちは37のアクティビティタイプに対して144時間アノテーションを付け、アクターとプロップのバウンディングボックスをマークしました。 本コレクションでは,3週間のアクセスコントロール会場におけるスクリプトシナリオと自発的バックグラウンドアクティビティを約100人のアクターが実施し,重なり合い,非重なり合う屋内・屋外の視点で複数のモダリティを収集した。 得られたデータには、38RGBの赤外線カメラ、42時間のUAV映像、アクターのGPS位置などが含まれる。 122時間のアノテーションは、NIST Activity in Extended Video (ActEV)チャレンジをサポートするために隔離され、残りの22時間のアノテーションと対応するビデオは、さらに306時間の地上カメラデータ、4.6時間のUAVデータ、9.6時間のGPSログとともに、私たちのウェブサイトで利用可能である。 追加の派生データには、屋外カメラをジオ登録するカメラモデルと、屋外シーンの密集した3dポイントクラウドモデルが含まれる。 データはirb監視と承認で収集され、cc-by-4.0ライセンスでリリースされた。

We present the Multiview Extended Video with Activities (MEVA) dataset, a new and very-large-scale dataset for human activity recognition. Existing security datasets either focus on activity counts by aggregating public video disseminated due to its content, which typically excludes same-scene background video, or they achieve persistence by observing public areas and thus cannot control for activity content. Our dataset is over 9300 hours of untrimmed, continuous video, scripted to include diverse, simultaneous activities, along with spontaneous background activity. We have annotated 144 hours for 37 activity types, marking bounding boxes of actors and props. Our collection observed approximately 100 actors performing scripted scenarios and spontaneous background activity over a three-week period at an access-controlled venue, collecting in multiple modalities with overlapping and non-overlapping indoor and outdoor viewpoints. The resulting data includes video from 38 RGB and thermal IR cameras, 42 hours of UAV footage, as well as GPS locations for the actors. 122 hours of annotation are sequestered in support of the NIST Activity in Extended Video (ActEV) challenge; the other 22 hours of annotation and the corresponding video are available on our website, along with an additional 306 hours of ground camera data, 4.6 hours of UAV data, and 9.6 hours of GPS logs. Additional derived data includes camera models geo-registering the outdoor cameras and a dense 3D point cloud model of the outdoor scene. The data was collected with IRB oversight and approval and released under a CC-BY-4.0 license.
翻訳日:2021-05-25 04:03:13 公開日:2020-12-02
# 広域群集計数:大規模シーンにおける多視点融合ネットワーク

Wide-Area Crowd Counting: Multi-View Fusion Networks for Counting in Large Scenes ( http://arxiv.org/abs/2012.00946v1 )

ライセンス: Link先を確認
Qi Zhang, Antoni B. Chan(参考訳) シングルビュー画像における群衆カウントは、既存の計数データセットにおいて優れたパフォーマンスを達成している。 しかし、例えば、シーンがカメラの視野に収まるには大きすぎる場合や、遠くの群衆に解像度が低くなりすぎる場合、あるいは群衆の大部分を遮る大きな物体が多すぎる場合など、単一のカメラが計数するのに十分な細部を捉えられないため、大きなシーン(例えば、公園、地下鉄のホーム、イベントスペースなど)には、単視点計数では適用できない。 したがって、広域カウントタスクを解決するには、複数のカメラが重なり合う視野を持つ必要がある。 本稿では,複数のカメラからの情報を融合して3次元世界平面上のシーンレベルの密度マップを予測できる,多視点群数計算のためのディープニューラルネットワークフレームワークを提案する。 融合フレームワークの3つのバージョンについて検討する: 後期核融合モデルがカメラビュー密度マップを融合する; 単純核融合モデルがカメラビュー特徴マップを融合する; 複数核融合モデルが同一平面点に整列した特徴が一貫したスケールを持つことを保証する。 回転選択モジュールは、特徴の一貫した回転アライメントをさらに確保する。 我々は,3つの多視点カウントデータセット,PETS2009,DukeMTMC,および混み合った交差点を含む新たに収集された多視点カウントデータセット上で,我々の3つの融合モデルを検証した。 提案手法は,他のマルチビューカウントベースラインと比較して,最先端の結果が得られる。

Crowd counting in single-view images has achieved outstanding performance on existing counting datasets. However, single-view counting is not applicable to large and wide scenes (e.g., public parks, long subway platforms, or event spaces) because a single camera cannot capture the whole scene in adequate detail for counting, e.g., when the scene is too large to fit into the field-of-view of the camera, too long so that the resolution is too low on faraway crowds, or when there are too many large objects that occlude large portions of the crowd. Therefore, to solve the wide-area counting task requires multiple cameras with overlapping fields-of-view. In this paper, we propose a deep neural network framework for multi-view crowd counting, which fuses information from multiple camera views to predict a scene-level density map on the ground-plane of the 3D world. We consider three versions of the fusion framework: the late fusion model fuses camera-view density map; the naive early fusion model fuses camera-view feature maps; and the multi-view multi-scale early fusion model ensures that features aligned to the same ground-plane point have consistent scales. A rotation selection module further ensures consistent rotation alignment of the features. We test our 3 fusion models on 3 multi-view counting datasets, PETS2009, DukeMTMC, and a newly collected multi-view counting dataset containing a crowded street intersection. Our methods achieve state-of-the-art results compared to other multi-view counting baselines.
翻訳日:2021-05-25 04:02:07 公開日:2020-12-02
# Amodal Blastomere Instance Segmentationのためのベクトル量子形状符号の学習

Learning Vector Quantized Shape Code for Amodal Blastomere Instance Segmentation ( http://arxiv.org/abs/2012.00985v1 )

ライセンス: Link先を確認
Won-Dong Jang, Donglai Wei, Xingxuan Zhang, Brian Leahy, Helen Yang, James Tompkin, Dalit Ben-Yosef, Daniel Needleman, and Hanspeter Pfister(参考訳) Blastomereのインスタンスセグメンテーションは、胚の異常を分析するために重要である。 ブラストマーの正確な形状と大きさを測定するためには、アモーダルセグメンテーションが必要である。 amodalインスタンスセグメンテーションは、オブジェクトが完全に見えなくても、オブジェクトの完全なシルエットを回復することを目的としている。 検出された各オブジェクトに対して、以前のメソッドは入力機能から直接ターゲットマスクを回帰する。 しかし、異なる量のオクルージョンのオブジェクトの画像は、同じアモーダルマスク出力を持つべきであるため、回帰モデルを訓練するのは困難である。 この問題を軽減するために,入力特徴を中間形状コードに分類し,それらから完全なオブジェクト形状を復元する。 まず,ベクトル量子化変分オートエンコーダ(vq-vae)モデルを事前学習し,基底真理アモーダルマスクから離散形状符号を学習する。 次に,vq-vaeモデルを改良モジュールを付加したamodalインスタンスセグメンテーションパイプラインに組み込む。 また,オクルージョン情報をバックボーンの特徴と統合するためのオクルージョンマップも検出した。 そのため,ネットワークはアモーダルオブジェクトの境界ボックスを忠実に検出する。 内胚細胞画像ベンチマークでは,提案法が従来の最先端法を上回っている。 一般化性を示すために,公開kins自然画像ベンチマークでセグメンテーション結果を示す。 学習された形状コードとモデル設計の選択を調べるために,単純なオーバーレイ形状の合成データセットについてアブレーション研究を行う。 本手法により, 体外受精(IVF)クリニックにおけるブラストマーの正確な測定が可能となり, IVF成功率の向上が期待できる。

Blastomere instance segmentation is important for analyzing embryos' abnormality. To measure the accurate shapes and sizes of blastomeres, their amodal segmentation is necessary. Amodal instance segmentation aims to recover the complete silhouette of an object even when the object is not fully visible. For each detected object, previous methods directly regress the target mask from input features. However, images of an object under different amounts of occlusion should have the same amodal mask output, which makes it harder to train the regression model. To alleviate the problem, we propose to classify input features into intermediate shape codes and recover complete object shapes from them. First, we pre-train the Vector Quantized Variational Autoencoder (VQ-VAE) model to learn these discrete shape codes from ground truth amodal masks. Then, we incorporate the VQ-VAE model into the amodal instance segmentation pipeline with an additional refinement module. We also detect an occlusion map to integrate occlusion information with a backbone feature. As such, our network faithfully detects bounding boxes of amodal objects. On an internal embryo cell image benchmark, the proposed method outperforms previous state-of-the-art methods. To show generalizability, we show segmentation results on the public KINS natural image benchmark. To examine the learned shape codes and model design choices, we perform ablation studies on a synthetic dataset of simple overlaid shapes. Our method would enable accurate measurement of blastomeres in in vitro fertilization (IVF) clinics, which potentially can increase IVF success rate.
翻訳日:2021-05-25 04:01:06 公開日:2020-12-02
# 入力解像度を考慮したconvnetの予算別プルーニングフレームワーク

An Once-for-All Budgeted Pruning Framework for ConvNets Considering Input Resolution ( http://arxiv.org/abs/2012.00996v1 )

ライセンス: Link先を確認
Wenyu Sun, Jian Cao, Pengtao Xu, Xiangcheng Liu, Pu Li(参考訳) そこで我々は,プレニング過程における入力解像度の影響を考慮し,入賞チケットに近い多数のコンパクトネットワーク構造を見つけるために,効率的な1対全予算プルーニングフレームワーク(OFARPruning)を提案する。 構造探索段階では,コサイン類似性を利用してプルーニングマスクの類似度を測定し,低エネルギー・時間消費で高品質なネットワーク構造を得る。 構造探索段階の後,提案手法は異なるプルーニング率と入力解像度を持つコンパクト構造をランダムにサンプリングし,共同最適化を実現する。 最終的に、異なるエッジデバイス上で動的フロップス制約を満たすために、様々な解像度に適応したコンパクトネットワークのコホートを得ることができる。 画像分類と物体検出に基づく実験では,us-net や mutualnet のような全圧縮法よりもofarpruning の方が精度が高く(フロップが少ない方が1~2%優れる),従来のプルーニング法 (mobilenetv2 では 170 mflops 以下で72.6%,mobilenetv2 では 70.5%) と非常に高い効率を実現している。

We propose an efficient once-for-all budgeted pruning framework (OFARPruning) to find many compact network structures close to winner tickets in the early training stage considering the effect of input resolution during the pruning process. In structure searching stage, we utilize cosine similarity to measure the similarity of the pruning mask to get high-quality network structures with low energy and time consumption. After structure searching stage, our proposed method randomly sample the compact structures with different pruning rates and input resolution to achieve joint optimization. Ultimately, we can obtain a cohort of compact networks adaptive to various resolution to meet dynamic FLOPs constraints on different edge devices with only once training. The experiments based on image classification and object detection show that OFARPruning has a higher accuracy than the once-for-all compression methods such as US-Net and MutualNet (1-2% better with less FLOPs), and achieve the same even higher accuracy as the conventional pruning methods (72.6% vs. 70.5% on MobileNetv2 under 170 MFLOPs) with much higher efficiency.
翻訳日:2021-05-25 04:00:26 公開日:2020-12-02
# q-SNE:q-ガウス分布確率近傍埋め込みを用いたデータの可視化

q-SNE: Visualizing Data using q-Gaussian Distributed Stochastic Neighbor Embedding ( http://arxiv.org/abs/2012.00999v1 )

ライセンス: Link先を確認
Motoshi Abe, Junichi Miyao, and Takio Kurita(参考訳) 次元の縮小は、回帰、分類、特徴解析、可視化に高次元データを使用するために広く導入されている。 次元減少の一手法として、確率的隣接埋め込み(SNE)を導入した。 SNEは、高次元空間と低次元空間の局所ガウス分布の類似性を考慮して、高次元データを可視化する強力な結果をもたらす。 SNEを改善するため、t分散確率的隣接埋め込み(t-SNE)も導入された。 高次元データを可視化するために、t-SNEは低次元データの分布としてt-分布を用いることで、SNEよりも2次元または3次元マッピング上でより強力で柔軟な可視化を実現する。 近年,次元減少手法として一様多様体近似投影法(umap)が提案されている。 本稿では,q-Gaussian distributed stochastic neighbor embedded (q-SNE)と呼ばれる新しい手法を提案する。 q-SNEは、低次元データの分布としてq-ガウス分布を用いることで、t-SNEやSNEよりも2次元あるいは3次元のマッピングにおいてより強力で柔軟な可視化を実現する。 q-ガウス分布は、q=1.0 と q=2.0 の特別な場合としてガウス分布と t-分布を含む。 したがって、q-SNEはパラメータqを変更してt-SNEとSNEを表現できるので、パラメータqを選択して最良の視覚化を見つけることができる。 組込み空間におけるk-Nearest Neighbors(k-NN)分類器による2次元マッピングと分類の可視化におけるq-SNEの性能を,MNIST, COIL-20, OlivettiFaces, FashionMNIST, Gloveを用いて示す。

The dimensionality reduction has been widely introduced to use the high-dimensional data for regression, classification, feature analysis, and visualization. As the one technique of dimensionality reduction, a stochastic neighbor embedding (SNE) was introduced. The SNE leads powerful results to visualize high-dimensional data by considering the similarity between the local Gaussian distributions of high and low-dimensional space. To improve the SNE, a t-distributed stochastic neighbor embedding (t-SNE) was also introduced. To visualize high-dimensional data, the t-SNE leads to more powerful and flexible visualization on 2 or 3-dimensional mapping than the SNE by using a t-distribution as the distribution of low-dimensional data. Recently, Uniform manifold approximation and projection (UMAP) is proposed as a dimensionality reduction technique. We present a novel technique called a q-Gaussian distributed stochastic neighbor embedding (q-SNE). The q-SNE leads to more powerful and flexible visualization on 2 or 3-dimensional mapping than the t-SNE and the SNE by using a q-Gaussian distribution as the distribution of low-dimensional data. The q-Gaussian distribution includes the Gaussian distribution and the t-distribution as the special cases with q=1.0 and q=2.0. Therefore, the q-SNE can also express the t-SNE and the SNE by changing the parameter q, and this makes it possible to find the best visualization by choosing the parameter q. We show the performance of q-SNE as visualization on 2-dimensional mapping and classification by k-Nearest Neighbors (k-NN) classifier in embedded space compared with SNE, t-SNE, and UMAP by using the datasets MNIST, COIL-20, OlivettiFaces, FashionMNIST, and Glove.
翻訳日:2021-05-25 03:59:59 公開日:2020-12-02
# 実時間インスタンスセグメンテーションのためのユニバーサルシェイプ辞書の学習

Learning Universal Shape Dictionary for Realtime Instance Segmentation ( http://arxiv.org/abs/2012.01050v1 )

ライセンス: Link先を確認
Tutian Tang, Wenqiang Xu, Ruolin Ye, Lixin Yang, Cewu Lu(参考訳) 事例分割のための新しい明示的な形状表現を提案する。 オブジェクトの形状をモデル化する方法に基づいて、現在のインスタンスセグメンテーションシステムは暗黙のモデルと明示的なモデルという2つのカテゴリに分けられる。 対象のマスク/輪郭を抽出可能なネットワークパラメータで表現し,画素単位の分類によって生成する暗黙的手法が主流である。 しかし、単純で説明可能なモデルで形状をパラメータ化する明示的な手法は、あまり研究されていない。 最終的な形状を生成する操作は軽量であるため、明示的なメソッドは暗黙的なメソッドよりも明らかに速度上の利点がある。 提案するusd-segは,オブジェクト形状の線形モデルであるsparse coding with dictionaryを採用する。 まず、多数の形状データセットから辞書を学習し、辞書を通じて任意の形状を線形結合に分解することができる。 英語名は「Universal Shape Dictionary」。 そして、通常の物体検出器に単純な形状ベクトル回帰ヘッドを加え、最小限のオーバーヘッドで検出器のセグメンテーション能力を与える。 定量的評価には、平均精度(ap)とap(ap$_e$)メトリックの効率(実世界のアプリケーションの要求を満たすフレームワークの計算消費を測定することを目的としています。 我々は,単一のTitan Xp GPU上の単一モデルで35.8 APと27.8 AP$_E$をベース検出器としてYOLOv4をベース検出器として,34.1 APと28.6 AP$_E$をベース検出器として達成したCOCOデータセットの実験結果を報告する。

We present a novel explicit shape representation for instance segmentation. Based on how to model the object shape, current instance segmentation systems can be divided into two categories, implicit and explicit models. The implicit methods, which represent the object mask/contour by intractable network parameters, and produce it through pixel-wise classification, are predominant. However, the explicit methods, which parameterize the shape with simple and explainable models, are less explored. Since the operations to generate the final shape are light-weighted, the explicit methods have a clear speed advantage over implicit methods, which is crucial for real-world applications. The proposed USD-Seg adopts a linear model, sparse coding with dictionary, for object shapes. First, it learns a dictionary from a large collection of shape datasets, making any shape being able to be decomposed into a linear combination through the dictionary. Hence the name "Universal Shape Dictionary". Then it adds a simple shape vector regression head to ordinary object detector, giving the detector segmentation ability with minimal overhead. For quantitative evaluation, we use both average precision (AP) and the proposed Efficiency of AP (AP$_E$) metric, which intends to also measure the computational consumption of the framework to cater to the requirements of real-world applications. We report experimental results on the challenging COCO dataset, in which our single model on a single Titan Xp GPU achieves 35.8 AP and 27.8 AP$_E$ at 65 fps with YOLOv4 as base detector, 34.1 AP and 28.6 AP$_E$ at 12 fps with FCOS as base detector.
翻訳日:2021-05-25 03:59:30 公開日:2020-12-02
# PlueckerNet: 3Dライン再構築の登録を学ぶ

PlueckerNet: Learn to Register 3D Line Reconstructions ( http://arxiv.org/abs/2012.01096v1 )

ライセンス: Link先を確認
Liu Liu, Hongdong Li, Haodong Yao and Ruyi Zha(参考訳) ユークリッド空間における2つの部分重畳された3次元直線再構成は、直線再構成間の対応と相対的なポーズを同時に解決する必要があるため、困難である。 This paper proposes a neural network based method and it has three modules connected in sequence: (i) a Multilayer Perceptron (MLP) based network takes Pluecker representations of lines as inputs, to extract discriminative line-wise features and matchabilities (how likely each line is going to have a match), (ii) an Optimal Transport (OT) layer takes two-view line-wise features and matchabilities as inputs to estimate a 2D joint probability matrix, with each item describes the matchness of a line pair, and (iii) line pairs with Top-K matching probabilities are fed to a 2-line minimal solver in a RANSAC framework to estimate a six Degree-of-Freedom (6-DoF) rigid transformation. 室内および屋外の両方のデータセットを用いた実験により,本手法の登録精度(回転と翻訳)がベースラインを著しく上回ることが示された。

Aligning two partially-overlapped 3D line reconstructions in Euclidean space is challenging, as we need to simultaneously solve correspondences and relative pose between line reconstructions. This paper proposes a neural network based method and it has three modules connected in sequence: (i) a Multilayer Perceptron (MLP) based network takes Pluecker representations of lines as inputs, to extract discriminative line-wise features and matchabilities (how likely each line is going to have a match), (ii) an Optimal Transport (OT) layer takes two-view line-wise features and matchabilities as inputs to estimate a 2D joint probability matrix, with each item describes the matchness of a line pair, and (iii) line pairs with Top-K matching probabilities are fed to a 2-line minimal solver in a RANSAC framework to estimate a six Degree-of-Freedom (6-DoF) rigid transformation. Experiments on both indoor and outdoor datasets show that the registration (rotation and translation) precision of our method outperforms baselines significantly.
翻訳日:2021-05-25 03:59:00 公開日:2020-12-02
# 学習ベースを用いた効率的な深度補完

Efficient Depth Completion Using Learned Bases ( http://arxiv.org/abs/2012.01110v1 )

ライセンス: Link先を確認
Yiran Zhong, Yuchao Dai, Hongdong Li(参考訳) 本稿では,深度完備のための新しい大域的幾何制約を提案する。 低次元部分空間上によく配置される深さ写像を仮定することにより、高密度深度写像は全解像度の主深度基底の重み付け和で近似することができる。 深度場の主成分は自然深さ写像から学ぶことができる。 与えられたスパース深さ点を重み付け過程を制約するためのデータ項として提供する。 入力深度が小さすぎると、回収された濃密深度マップはしばしば平滑化される。 この問題に対処するために、別の正規化項としてカラー誘導自動回帰モデルを追加します。 再構成された深度マップは、付随するカラー画像で同じ非局所的な類似性を共有すべきであると仮定する。 色誘導型PCA深度解法は閉形解であり,効率よく解き,PCA法よりも精度が高い。 kitti と middlebury データセットの広範な実験により,提案手法の優れた性能を示す。

In this paper, we propose a new global geometry constraint for depth completion. By assuming depth maps often lay on low dimensional subspaces, a dense depth map can be approximated by a weighted sum of full-resolution principal depth bases. The principal components of depth fields can be learned from natural depth maps. The given sparse depth points are served as a data term to constrain the weighting process. When the input depth points are too sparse, the recovered dense depth maps are often over smoothed. To address this issue, we add a colour-guided auto-regression model as another regularization term. It assumes the reconstructed depth maps should share the same nonlocal similarity in the accompanying colour image. Our colour-guided PCA depth completion method has closed-form solutions, thus can be efficiently solved and is significantly more accurate than PCA only method. Extensive experiments on KITTI and Middlebury datasets demonstrate the superior performance of our proposed method.
翻訳日:2021-05-25 03:58:45 公開日:2020-12-02
# ポイントクラウドとイベントストリームネットワークのための連続ドメイン上のスパース畳み込み

Sparse Convolutions on Continuous Domains for Point Cloud and Event Stream Networks ( http://arxiv.org/abs/2012.01170v1 )

ライセンス: Link先を確認
Dominic Jack, Frederic Maire, Simon Denman, Anders Eriksson(参考訳) 画像畳み込み(image convolutions)は、コンピュータビジョンにおける多くの深層学習の基盤となっている。 しかし、研究コミュニティはまだ、ポイントクラウドやイベントストリームのような、スパースで構造化されていない連続データに対する同等のオペレーターに落ち着きはない。 本稿では,これらの場合における畳み込み演算子のエレガントなスパース行列に基づく解釈について述べる。 ベンチマークポイントクラウドの分類問題では、これらの操作で構築されたネットワークは、同等の精度を維持しながら、メモリのごく一部を必要としながら、既存のメソッドよりも桁違い以上の速度でトレーニングすることができる。 また、演算子をイベントストリーム処理に適用し、数十万のイベントのストリームで複数のタスクで最先端の結果を達成する。

Image convolutions have been a cornerstone of a great number of deep learning advances in computer vision. The research community is yet to settle on an equivalent operator for sparse, unstructured continuous data like point clouds and event streams however. We present an elegant sparse matrix-based interpretation of the convolution operator for these cases, which is consistent with the mathematical definition of convolution and efficient during training. On benchmark point cloud classification problems we demonstrate networks built with these operations can train an order of magnitude or more faster than top existing methods, whilst maintaining comparable accuracy and requiring a tiny fraction of the memory. We also apply our operator to event stream processing, achieving state-of-the-art results on multiple tasks with streams of hundreds of thousands of events.
翻訳日:2021-05-25 03:58:33 公開日:2020-12-02
# 未成年者の顔面年齢推定の正確性に及ぼす影響因子の検討

Assessing the Influencing Factors on the Accuracy of Underage Facial Age Estimation ( http://arxiv.org/abs/2012.01179v1 )

ライセンス: Link先を確認
Felix Anda, Brett A. Becker, David Lillis, Nhien-An Le-Khac and Mark Scanlon(参考訳) 絶滅危惧種の未成年者検出に対するSwiftの対応は、法執行機関に対する継続的な懸念である。 多くの子供に焦点を当てた調査は、デジタル証拠の発見と分析にかかっている。 この証拠発見過程を迅速化し, 外傷物質への被曝を減少させるためには, 自動年齢推定技術が必要である。 自動化技術はまた、デバイスやオンラインサービスの増加によって得られた証拠のオーバーフローのバックログを減らすことにも期待できる。 十分なトレーニングデータと自然の人間の分散の欠如は、特に未成年者の正確な年齢推定を長い間妨げてきた。 本稿では,21,800人以上の未成年者のデータセットに対する2つのクラウド年齢推定サービス(amazon web serviceのrekognitionサービスとmicrosoft azureのface api)の性能に関する包括的評価を行った。 この研究の目的は、特定の生体指標、表情、および画質(すなわち、画像)が与える影響を評価することである。 ぼかし、騒音、露出、解像度)は、自動年齢推定サービスの結果に基づいています。 徹底的な評価により、将来の年齢推定システムにおいて克服すべき最も影響力のある要因を特定できる。

Swift response to the detection of endangered minors is an ongoing concern for law enforcement. Many child-focused investigations hinge on digital evidence discovery and analysis. Automated age estimation techniques are needed to aid in these investigations to expedite this evidence discovery process, and decrease investigator exposure to traumatic material. Automated techniques also show promise in decreasing the overflowing backlog of evidence obtained from increasing numbers of devices and online services. A lack of sufficient training data combined with natural human variance has been long hindering accurate automated age estimation -- especially for underage subjects. This paper presented a comprehensive evaluation of the performance of two cloud age estimation services (Amazon Web Service's Rekognition service and Microsoft Azure's Face API) against a dataset of over 21,800 underage subjects. The objective of this work is to evaluate the influence that certain human biometric factors, facial expressions, and image quality (i.e. blur, noise, exposure and resolution) have on the outcome of automated age estimation services. A thorough evaluation allows us to identify the most influential factors to be overcome in future age estimation systems.
翻訳日:2021-05-25 03:58:18 公開日:2020-12-02
# 文書画像二元化のための教師なしニューラルドメイン適応

Unsupervised Neural Domain Adaptation for Document Image Binarization ( http://arxiv.org/abs/2012.01204v1 )

ライセンス: Link先を確認
Francisco J. Castellanos, Antonio-Javier Gallego, Jorge Calvo-Zaragoza(参考訳) バイナリ化は、画像の前景を背景から分離することを目的とした、よく知られた画像処理タスクである。 有用なタスクの1つは、テキストやシンボルなどの関連情報を識別するために、文書イメージを前処理することである。 文書の種類、タイプ、アルファベット、フォーマットの多様さはバイナライゼーションを困難にしているため、古典的な手動調整手法から、機械学習に基づくより最近のアプローチまで、この問題を解決するための複数の提案がある。 後者の手法は、良好な結果を得るために大量のトレーニングデータを必要とするが、既存の文書コレクションの一部をラベル付けすることは現実には不可能である。 これは教師あり学習において一般的な問題であり、いわゆるドメイン適応(da)技術を用いて対処できる。 これらのテクニックは、ラベル付きデータが利用可能な1つのドメインで学習された知識を活用して、ラベル付きデータがない他のドメインに適用する。 本稿では,教師なし文書バイナライゼーションを実現するために,ニューラルネットワークとDAを組み合わせた手法を提案する。 しかし、ソースドメインとターゲットドメインの両方が非常に類似している場合、この適応は有害である可能性がある。 そこで本手法はまず,適応プロセスを適用するのが適切かどうかを判断するために,ドメイン間の類似性を革新的な方法で測定する。 実験の結果,5つのドメインの最大20種類の組み合わせを評価した結果,ラベル付きデータを必要としない新たなドキュメントドメインの双対化が得られた。

Binarization is a well-known image processing task, whose objective is to separate the foreground of an image from the background. One of the many tasks for which it is useful is that of preprocessing document images in order to identify relevant information, such as text or symbols. The wide variety of document types, typologies, alphabets, and formats makes binarization challenging, and there are, therefore, multiple proposals with which to solve this problem, from classical manually-adjusted methods, to more recent approaches based on machine learning. The latter techniques require a large amount of training data in order to obtain good results; however, labeling a portion of each existing collection of documents is not feasible in practice. This is a common problem in supervised learning, which can be addressed by using the so-called Domain Adaptation (DA) techniques. These techniques take advantage of the knowledge learned in one domain, for which labeled data are available, to apply it to other domains for which there are no labeled data. This paper proposes a method that combines neural networks and DA in order to carry out unsupervised document binarization. However, when both the source and target domains are very similar, this adaptation could be detrimental. Our methodology, therefore, first measures the similarity between domains in an innovative manner in order to determine whether or not it is appropriate to apply the adaptation process. The results reported in the experimentation, when evaluating up to 20 possible combinations among five different domains, show that our proposal successfully deals with the binarization of new document domains without the need for labeled data.
翻訳日:2021-05-25 03:58:01 公開日:2020-12-02
# ドメイン非依存的フェイスアンチスプーフィングにおけるspoof-irrelevant factorの抑制

Suppressing Spoof-irrelevant Factors for Domain-agnostic Face Anti-spoofing ( http://arxiv.org/abs/2012.01271v1 )

ライセンス: Link先を確認
Taewook Kim and Yonghyun Kim(参考訳) face anti-spoofingは、画像が人間の顔またはスプーフメディアに由来するかどうかを識別することで、顔認識システムの誤認証を防止することを目的としている。 dasnは,sifs(spoof-irreleva nt factor)を効果的に抑制すること(カメラセンサ,イルミネーションなど)を学習することにより,非知覚領域の一般化能力を向上させる。 目的を達成するために,2種類の逆学習方式を導入する。 第1逆学習方式では、エンコーダに対して訓練された複数の識別ヘッドを配置することにより、複数のSiFを抑制する。 第2のadversarial learningスキームでは、各識別ヘッドを逆に訓練してspoof因子を抑制させ、二次spoof分類器とエンコーダのグループは、抑制を克服してspoof因子を増強することを目指している。 提案手法を4つの公開ベンチマークデータセット上で評価し,優れた評価結果を得た。 その結果,提案手法の有効性が示された。

Face anti-spoofing aims to prevent false authentications of face recognition systems by distinguishing whether an image is originated from a human face or a spoof medium. We propose a novel method called Doubly Adversarial Suppression Network (DASN) for domain-agnostic face anti-spoofing; DASN improves the generalization ability to unseen domains by learning to effectively suppress spoof-irrelevant factors (SiFs) (e.g., camera sensors, illuminations). To achieve our goal, we introduce two types of adversarial learning schemes. In the first adversarial learning scheme, multiple SiFs are suppressed by deploying multiple discrimination heads that are trained against an encoder. In the second adversarial learning scheme, each of the discrimination heads is also adversarially trained to suppress a spoof factor, and the group of the secondary spoof classifier and the encoder aims to intensify the spoof factor by overcoming the suppression. We evaluate the proposed method on four public benchmark datasets, and achieve remarkable evaluation results. The results demonstrate the effectiveness of the proposed method.
翻訳日:2021-05-25 03:57:05 公開日:2020-12-02
# クロススクリプト・ビジュアル・ローカライゼーションとマッピング

Cross-Descriptor Visual Localization and Mapping ( http://arxiv.org/abs/2012.01377v1 )

ライセンス: Link先を確認
Mihai Dusmanu, Ondrej Miksik, Johannes L. Sch\"onberger, Marc Pollefeys(参考訳) 視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。 ほとんどの最先端のアプローチは、画像間の対応を確立するために局所的な特徴に依存する。 本稿では,特徴表現の連続更新と異なる特徴型間のマッチング機能を必要とする3つの新しい局所化とマッピングのシナリオを提案する。 ローカライゼーションとマッピングは基本的なコンピュータビジョンの問題であるが、従来のセットアップでは、マップの進化を通じて同じローカルイメージ機能を使用して、単一のショットプロセスとして扱う。 これは、基盤となる機能を変更するたびに、プロセス全体がスクラッチから繰り返される、と仮定する。 しかし、生の画像が保存されず、地図の再構築によって添付されたデジタルコンテンツが失われる場合が多いため、繰り返し繰り返すことは一般的に不可能である。 現在のアプローチの限界を克服するために、クロスディスクリプタローカライゼーションとマッピングの第一原理解を提案する。 我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。 幅広い実験により,手作り・学習機能における最先端ベンチマークの有効性が実証された。

Visual localization and mapping is the key technology underlying the majority of Mixed Reality and robotics systems. Most state-of-the-art approaches rely on local features to establish correspondences between images. In this paper, we present three novel scenarios for localization and mapping which require the continuous update of feature representations and the ability to match across different feature types. While localization and mapping is a fundamental computer vision problem, the traditional setup treats it as a single-shot process using the same local image features throughout the evolution of a map. This assumes the whole process is repeated from scratch whenever the underlying features are changed. However, reiterating it is typically impossible in practice, because raw images are often not stored and re-building the maps could lead to loss of the attached digital content. To overcome the limitations of current approaches, we present the first principled solution to cross-descriptor localization and mapping. Our data-driven approach is agnostic to the feature descriptor type, has low computational requirements, and scales linearly with the number of description algorithms. Extensive experiments demonstrate the effectiveness of our approach on state-of-the-art benchmarks for a variety of handcrafted and learned features.
翻訳日:2021-05-25 03:56:45 公開日:2020-12-02
# 組立映像におけるきめ細かい活動認識

Fine-grained activity recognition for assembly videos ( http://arxiv.org/abs/2012.01392v1 )

ライセンス: Link先を確認
Jonathan D. Jones, Cathryn Cortesa, Amy Shelton, Barbara Landau, Sanjeev Khudanpur, and Gregory D. Hager(参考訳) 本稿では,アセンブリ動作を構造(例)として認識するタスクに対処する。 家具またはおもちゃのブロックタワーは、原始的なオブジェクトのセットから構築されています。 集団行動の全範囲を認識するには、現在まで行動認識文献で試みられていない空間的詳細レベルでの認識が必要である。 組立動作と運動構造を単一のフレームワーク内で統一することにより、組立動作認識のタスクを完全な汎用性で解決するために、きめ細かいアクティビティ認識設定を拡張する。 我々は,この枠組みを用いて,空間集合の特別な構造を生かした観察特徴とともに,観測シーケンスからアセンブリ動作を認識する一般的な手法を開発した。 最後に,本手法を,(1)IKEA家具組立データセット,(2)ブロック構築データセットの2つのデータソース上で実証的に評価した。 第1に,本システムでは,フレーム単位の平均精度が70%,正規化編集距離が10%の組立動作を認識する。 第2に, 集合を識別するために粒度の細かい幾何学的推論を必要とする場合, 平均正規化編集距離は23%であり, 従来の作業に比べて相対的に69%向上する。

In this paper we address the task of recognizing assembly actions as a structure (e.g. a piece of furniture or a toy block tower) is built up from a set of primitive objects. Recognizing the full range of assembly actions requires perception at a level of spatial detail that has not been attempted in the action recognition literature to date. We extend the fine-grained activity recognition setting to address the task of assembly action recognition in its full generality by unifying assembly actions and kinematic structures within a single framework. We use this framework to develop a general method for recognizing assembly actions from observation sequences, along with observation features that take advantage of a spatial assembly's special structure. Finally, we evaluate our method empirically on two application-driven data sources: (1) An IKEA furniture-assembly dataset, and (2) A block-building dataset. On the first, our system recognizes assembly actions with an average framewise accuracy of 70% and an average normalized edit distance of 10%. On the second, which requires fine-grained geometric reasoning to distinguish between assemblies, our system attains an average normalized edit distance of 23% -- a relative improvement of 69% over prior work.
翻訳日:2021-05-25 03:56:28 公開日:2020-12-02
# patchmatchnet: マルチビューのpatchmatchステレオを学ぶ

PatchmatchNet: Learned Multi-View Patchmatch Stereo ( http://arxiv.org/abs/2012.01411v1 )

ライセンス: Link先を確認
Fangjinhua Wang, Silvano Galliani, Christoph Vogel, Pablo Speciale, Marc Pollefeys(参考訳) PatchmatchNetは、高解像度のマルチビューステレオのためのPatchmatchの新規で学習可能なカスケード形式である。 PatchmatchNetは高い計算速度と低メモリ要求により、高解像度の画像を処理でき、3Dコストのボリューム正規化を採用する競合製品よりもリソース制限されたデバイスで実行するのに適している。 エンド・ツー・エンドのトレーニング可能なアーキテクチャで反復的マルチスケールのパッチマッチを導入し、新しい適応的伝搬と各イテレーションに対する評価スキームでPatchmatchコアアルゴリズムを改善した。 広範な実験により、dtu, tanks & temple, eth3dの手法の非常に競争力のある性能と一般化が示されたが、既存のすべてのトップパフォーマンスモデルよりもかなり高い効率を示した。

We present PatchmatchNet, a novel and learnable cascade formulation of Patchmatch for high-resolution multi-view stereo. With high computation speed and low memory requirement, PatchmatchNet can process higher resolution imagery and is more suited to run on resource limited devices than competitors that employ 3D cost volume regularization. For the first time we introduce an iterative multi-scale Patchmatch in an end-to-end trainable architecture and improve the Patchmatch core algorithm with a novel and learned adaptive propagation and evaluation scheme for each iteration. Extensive experiments show a very competitive performance and generalization for our method on DTU, Tanks & Temples and ETH3D, but at a significantly higher efficiency than all existing top-performing models: at least two and a half times faster than state-of-the-art methods with twice less memory usage.
翻訳日:2021-05-25 03:55:43 公開日:2020-12-02
# ACE-Net:アンカーと輪郭推定によるファインレベル顔アライメント

ACE-Net: Fine-Level Face Alignment through Anchors and Contours Estimation ( http://arxiv.org/abs/2012.01461v1 )

ライセンス: Link先を確認
Jihua Huang, Amir Tamrakar(参考訳) ファインレベル顔アライメントタスクのための新しい顔アンカーと輪郭推定フレームワークACE-Netを提案する。 ACE-Netは、従来の顔のランドマークよりも豊かで、顔の境界よりも正確である顔アンカーと輪郭を予測する。 加えて、顔のランドマークの定義の曖昧さや不一致に苦しむことはない。 我々は、ACE-Netが追加アノテーションを必要とせずに既存の顔ランドマークデータセットから学習できる弱教師付き損失を導入した。 合成データは訓練中に、ランドマークアノテーションと真の顔輪郭の間の密度ギャップを橋渡しするためにも用いられる。 我々は、一般的に使われている顔アライメントデータセット300-WとHELEN上でACE-Netを評価し、ACE-Netがランドマークベースモデルよりもはるかに高い精細な顔アライメント精度を達成できることを示す。 提案するACE-Netフレームワークは,特定のネットワークアーキテクチャに依存せず,既存の顔アライメントモデル上に適用することで,より微細な顔アライメント表現を実現する。

We propose a novel facial Anchors and Contours Estimation framework, ACE-Net, for fine-level face alignment tasks. ACE-Net predicts facial anchors and contours that are richer than traditional facial landmarks and more accurate than facial boundaries. In addition, it does not suffer from the ambiguities and inconsistencies in facial-landmarks definitions. We introduce a weakly supervised loss enabling ACE-Net to learn from existing facial landmarks datasets without the need for extra annotations. Synthetic data is also used during training to bridge the density gap between landmarks annotation and true facial contours. We evaluate ACE-Net on commonly used face alignment datasets 300-W and HELEN, and show that ACE-Net achieves significantly higher fine-level face alignment accuracy than landmarks based models, without compromising its performance at the landmarks level. The proposed ACE-Net framework does not rely on any specific network architecture and thus can be applied on top of existing face alignment models for finer face alignment representation.
翻訳日:2021-05-25 03:55:26 公開日:2020-12-02
# 解剖構造のワンショット分割のための輪郭変圧器ネットワーク

Contour Transformer Network for One-shot Segmentation of Anatomical Structures ( http://arxiv.org/abs/2012.01480v1 )

ライセンス: Link先を確認
Yuhang Lu, Kang Zheng, Weijian Li, Yirui Wang, Adam P. Harrison, Chihung Lin, Song Wang, Jing Xiao, Le Lu, Chang-Fu Kuo, Shun Miao(参考訳) 解剖学的構造の正確なセグメンテーションは医用画像解析に不可欠である。 最先端の精度は一般的に教師付き学習手法によって達成され、必要な専門家ラベル付き画像アノテーションをスケーラブルに収集することが大きな障害となる。 したがって、正確な解剖学的構造セグメンテーションを作成できるアノテーション効率の高い手法が好ましい。 そこで本研究では,自然に組み込まれた人工ループ機構を用いた単発解剖セグメンテーション手法であるcontour transformer network(ctn)を提案する。 我々は、輪郭進化過程として解剖学的セグメンテーションを定式化し、グラフ畳み込みネットワーク(GCN)による進化挙動をモデル化する。 CTNモデルのトレーニングにはラベル付き画像のみが必要であり、輪郭のグローバルな形状と外観の整合性を測定するために新たに導入された損失関数を通じてラベルなしのデータを活用する。 4つの異なる解剖学のセグメンテーションタスクについて,本手法が非学習型手法を大幅に上回り,最先端のディープラーニング手法と競合することを示した。 最小限のHuman-in-the-loop編集フィードバックにより、セグメンテーション性能は、完全に教師されたメソッドを超えるようにさらに改善される。

Accurate segmentation of anatomical structures is vital for medical image analysis. The state-of-the-art accuracy is typically achieved by supervised learning methods, where gathering the requisite expert-labeled image annotations in a scalable manner remains a main obstacle. Therefore, annotation-efficient methods that permit to produce accurate anatomical structure segmentation are highly desirable. In this work, we present Contour Transformer Network (CTN), a one-shot anatomy segmentation method with a naturally built-in human-in-the-loop mechanism. We formulate anatomy segmentation as a contour evolution process and model the evolution behavior by graph convolutional networks (GCNs). Training the CTN model requires only one labeled image exemplar and leverages additional unlabeled data through newly introduced loss functions that measure the global shape and appearance consistency of contours. On segmentation tasks of four different anatomies, we demonstrate that our one-shot learning method significantly outperforms non-learning-based methods and performs competitively to the state-of-the-art fully supervised deep learning methods. With minimal human-in-the-loop editing feedback, the segmentation performance can be further improved to surpass the fully supervised methods.
翻訳日:2021-05-25 03:54:52 公開日:2020-12-02
# 乱流火炎画像のデータ駆動解析

Data-driven Analysis of Turbulent Flame Images ( http://arxiv.org/abs/2012.01485v1 )

ライセンス: Link先を確認
Rathziel Roncancio, Jupyoung Kim, Aly El Gamal and Jay P. Gore(参考訳) 乱流予混合火炎はガスタービンを用いた発電に重要である。 火炎の特徴と理解の改善は、特に点火や絶滅のような過渡的な出来事に継続する。 未燃物のポケットや島は、これらの出来事における乱流火炎の特徴である。 これらの特徴は、放熱率や炭化水素の排出に直接関係している。 oh平面レーザー誘起蛍光画像を用いて, 乱流ch$_4$/空気予混合火炎中の未燃焼物質ポケットについて検討した。 畳み込みニューラルネットワーク(CNN)は,0%,5%,10%CO$2の3つの乱流火炎に対して,未焼成ポケットを含む画像の分類に用いられた。 cnnモデルは、3つの畳み込み層と2つの完全連結層をドロップアウトと重量減少を用いて構築した。 CNNモデルは3つの炎に対してそれぞれ91.72%、89.35%、85.80%の精度を達成した。

Turbulent premixed flames are important for power generation using gas turbines. Improvements in characterization and understanding of turbulent flames continue particularly for transient events like ignition and extinction. Pockets or islands of unburned material are features of turbulent flames during these events. These features are directly linked to heat release rates and hydrocarbons emissions. Unburned material pockets in turbulent CH$_4$/air premixed flames with CO$_2$ addition were investigated using OH Planar Laser-Induced Fluorescence images. Convolutional Neural Networks (CNN) were used to classify images containing unburned pockets for three turbulent flames with 0%, 5%, and 10% CO$_2$ addition. The CNN model was constructed using three convolutional layers and two fully connected layers using dropout and weight decay. The CNN model achieved accuracies of 91.72%, 89.35% and 85.80% for the three flames, respectively.
翻訳日:2021-05-25 03:54:32 公開日:2020-12-02
# 医療会話をSOAPセクションに分類する公平性を目指して

Towards Fairness in Classifying Medical Conversations into SOAP Sections ( http://arxiv.org/abs/2012.07749v1 )

ライセンス: Link先を確認
Elisa Ferracane, Sandeep Konam(参考訳) 機械学習アルゴリズムが医療に広く展開されるにつれて、アルゴリズムの公平性の問題がより重要になる。 我々の研究は、医師と患者の会話を医療用SOAPノートのセクションに分類するデプロイモデルにおける格差を特定し、理解することを目指している。 分類器の性能のばらつきを計測するために,いくつかの指標を用い,不利なグループの一部に小さな差異を見いだした。 これらの会話における言語をより深く分析し、グループをさらに階層化することは、これらの違いが医学的アポイントメント(精神科医と内科医)のタイプに関連し、しばしば帰属することを示唆している。 本研究は,データそのものに存在する可能性のある異質性を理解することの重要性と,利益を均等に分配するモデルの能力にどのように影響するかを強調する。

As machine learning algorithms are more widely deployed in healthcare, the question of algorithmic fairness becomes more critical to examine. Our work seeks to identify and understand disparities in a deployed model that classifies doctor-patient conversations into sections of a medical SOAP note. We employ several metrics to measure disparities in the classifier performance, and find small differences in a portion of the disadvantaged groups. A deeper analysis of the language in these conversations and further stratifying the groups suggests these differences are related to and often attributable to the type of medical appointment (e.g., psychiatric vs. internist). Our findings stress the importance of understanding the disparities that may exist in the data itself and how that affects a model's ability to equally distribute benefits.
翻訳日:2021-05-25 03:54:01 公開日:2020-12-02
# Extended T: クローズドセットとオープンセットノイズラベルを併用した学習

Extended T: Learning with Mixed Closed-set and Open-set Noisy Labels ( http://arxiv.org/abs/2012.00932v1 )

ライセンス: Link先を確認
Xiaobo Xia, Tongliang Liu, Bo Han, Nannan Wang, Jiankang Deng, Jiatong Li, Yinian Mao(参考訳) ラベルノイズ遷移行列$t$は、真のラベルがノイズになる確率を反映したもので、モデルラベルノイズと統計的に一貫性のある分類器の設計にとって極めて重要である。 従来の遷移行列はクローズドセットラベルノイズに制限されており、ノイズトレーニングデータはノイズラベルセット内に真のクラスラベルを持つ。 このような遷移行列を用いてオープンセットラベルノイズをモデル化するのは不適当であり、真のクラスラベルはノイズラベルセットの外にある。 したがって、より現実的な状況、すなわちクローズド・セットとオープン・セット・ラベルのノイズが発生した場合、既存の手法は望ましくない偏りのある解を与える。 さらに、従来の遷移行列はモデルインスタンスに依存しないラベルノイズに限られており、実際にはうまく機能しない可能性がある。 本稿では,閉集合と開集合の混合ラベル雑音下での学習に着目した。 従来の遷移行列を混合ラベルノイズをモデル化できるように拡張し、さらにクラスタ依存遷移行列に拡張し、実世界のアプリケーションにおけるインスタンス依存ラベルノイズをよりよく近似する。 提案した遷移行列をクラスタ依存拡張遷移行列と呼ぶ。 非バイアス推定器(すなわち拡張$T$-estimator)は、ノイズデータのみを利用してクラスタ依存の拡張遷移行列を推定するように設計されている。 総合的な合成実験および実実験により,従来のラベルノイズ学習法よりもロバストな性能に追従し,混合ラベルノイズをモデル化できることが検証された。

The label noise transition matrix $T$, reflecting the probabilities that true labels flip into noisy ones, is of vital importance to model label noise and design statistically consistent classifiers. The traditional transition matrix is limited to model closed-set label noise, where noisy training data has true class labels within the noisy label set. It is unfitted to employ such a transition matrix to model open-set label noise, where some true class labels are outside the noisy label set. Thus when considering a more realistic situation, i.e., both closed-set and open-set label noise occurs, existing methods will undesirably give biased solutions. Besides, the traditional transition matrix is limited to model instance-independent label noise, which may not perform well in practice. In this paper, we focus on learning under the mixed closed-set and open-set label noise. We address the aforementioned issues by extending the traditional transition matrix to be able to model mixed label noise, and further to the cluster-dependent transition matrix to better approximate the instance-dependent label noise in real-world applications. We term the proposed transition matrix as the cluster-dependent extended transition matrix. An unbiased estimator (i.e., extended $T$-estimator) has been designed to estimate the cluster-dependent extended transition matrix by only exploiting the noisy data. Comprehensive synthetic and real experiments validate that our method can better model the mixed label noise, following its more robust performance than the prior state-of-the-art label-noise learning methods.
翻訳日:2021-05-25 03:53:46 公開日:2020-12-02
# ヒンジ損失最小化の誤差抵抗について

On the Error Resistance of Hinge Loss Minimization ( http://arxiv.org/abs/2012.00989v1 )

ライセンス: Link先を確認
Kunal Talwar(参考訳) サポートベクトルマシンなどの機械学習における一般的な分類アルゴリズムは、トレーニング例における凸代理損失を最小限に抑える。 実際、これらのアルゴリズムはトレーニングデータのエラーに対して驚くほど堅牢である。 本研究では,そのようなサーロゲート損失最小化アルゴリズムが正しい分類器を確実に学習するデータ上の条件を同定する。 これにより、データ上のさまざまなモデルとエラーの下で、これらのアルゴリズムのロバスト性を確立することができます。 特に、データがわずかに非自明なマージン(すなわち)で線形に分類可能であることを示す。 少なくとも$c/\sqrt{d}$ for $d$-dimensional unit vectors) のマージンとクラス条件分布は等方性と対数性に近く、従ってサーロゲート損失最小化は、例の一定割合が逆的に誤ってラベル付けされた場合でも、非破壊データに対して無視できる誤差を持つ。

Commonly used classification algorithms in machine learning, such as support vector machines, minimize a convex surrogate loss on training examples. In practice, these algorithms are surprisingly robust to errors in the training data. In this work, we identify a set of conditions on the data under which such surrogate loss minimization algorithms provably learn the correct classifier. This allows us to establish, in a unified framework, the robustness of these algorithms under various models on data as well as error. In particular, we show that if the data is linearly classifiable with a slightly non-trivial margin (i.e. a margin at least $C/\sqrt{d}$ for $d$-dimensional unit vectors), and the class-conditional distributions are near isotropic and logconcave, then surrogate loss minimization has negligible error on the uncorrupted data even when a constant fraction of examples are adversarially mislabeled.
翻訳日:2021-05-25 03:53:18 公開日:2020-12-02
# 時系列における多周期スライディングウィンドウアグリゲートの高速自動特徴選択

Fast Automatic Feature Selection for Multi-Period Sliding Window Aggregate in Time Series ( http://arxiv.org/abs/2012.01037v1 )

ライセンス: Link先を確認
Rui An, Xingtian Shi, Baohan Xu(参考訳) 最もよく知られている人工的特徴サンプリングの1つとして、スライディングウィンドウはコンピュータビジョン、自然言語処理、データストリーム、時系列などの空間的・時間的情報が存在するシナリオで広く使われている。 時系列は、クレジットカードの支払い、ユーザーの振る舞い、センサーなど、多くのシナリオでよく見られる。 ウィンドウアグリゲーションによって抽出された特徴の一般的な特徴選択は、時間を要する反復によって特徴を生成し、その後、それらのランク付けに伝統的な特徴選択手法を用いる。 キーパラメータの決定、すなわち、 スライディングウィンドウの期間は、ドメインの知識と自明さに依存する。 現在、スライディングウィンドウ集約機能の選択を扱う自動メソッドは存在しない。 異なる期間とスライディングウィンドウを持つ特徴生成の時間消費は巨大であるため、これらすべてを列挙して選択するのは非常に困難である。 本稿では,マルコフ・チェインを用いた一般的なフレームワークを提案する。 このフレームワークは非常に効率的で精度が高く、様々な機能や期間オプションで機能選択を行うことができる。 2つの一般的なスライディングウィンドウと3種類の集約演算子による詳細を示す。 そして、マルコフ連鎖に関する既存の理論を用いて、このフレームワークでよりスライディングウィンドウとアグリゲーション演算子を拡張することは容易である。

As one of the most well-known artificial feature sampler, the sliding window is widely used in scenarios where spatial and temporal information exists, such as computer vision, natural language process, data stream, and time series. Among which time series is common in many scenarios like credit card payment, user behavior, and sensors. General feature selection for features extracted by sliding window aggregate calls for time-consuming iteration to generate features, and then traditional feature selection methods are employed to rank them. The decision of key parameter, i.e. the period of sliding windows, depends on the domain knowledge and calls for trivial. Currently, there is no automatic method to handle the sliding window aggregate features selection. As the time consumption of feature generation with different periods and sliding windows is huge, it is very hard to enumerate them all and then select them. In this paper, we propose a general framework using Markov Chain to solve this problem. This framework is very efficient and has high accuracy, such that it is able to perform feature selection on a variety of features and period options. We show the detail by 2 common sliding windows and 3 types of aggregation operators. And it is easy to extend more sliding windows and aggregation operators in this framework by employing existing theory about Markov Chain.
翻訳日:2021-05-25 03:53:01 公開日:2020-12-02
# fit: 医療調査と診断タスクを解決するための高速で正確なフレームワーク

FIT: a Fast and Accurate Framework for Solving Medical Inquiring and Diagnosing Tasks ( http://arxiv.org/abs/2012.01065v1 )

ライセンス: Link先を確認
Weijie He, Xiaohao Mao, Chao Ma, Jos\'e Miguel Hern\'andez-Lobato, Ting Chen(参考訳) 自動自己診断は、患者に問い合わせ、疾患の予測を行うエージェントを介して、低コストでアクセス可能な医療を提供する。 機械学習の観点から、症状に基づく自己診断は、逐次的特徴選択と分類問題と見なすことができる。 強化学習法は、この課題において優れた性能を示すが、しばしば大きな探索空間とコストのかかる訓練に苦しむ。 これらの問題に対処するために、情報理論の報酬を用いて次に収集するデータを決定するFITと呼ばれる競合フレームワークを提案する。 FITは、マルチモーダル変分オートエンコーダ(MVAE)モデルと、病気予測のための2段階のサンプリング戦略を用いて、従来の情報に基づくアプローチよりも改善されている。 さらに,実際のオンライン自己診断に許容される水準に適合する計算コストを大幅に削減する新しい手法を提案する。 2つのデータセットをシミュレートした結果,fitは既存のベースラインよりも大きな検索空間問題に対して効果的に対処できることがわかった。 さらに,2つの医療データセットを用いて,実環境においてFITが競合する代替手段であることを示す。

Automatic self-diagnosis provides low-cost and accessible healthcare via an agent that queries the patient and makes predictions about possible diseases. From a machine learning perspective, symptom-based self-diagnosis can be viewed as a sequential feature selection and classification problem. Reinforcement learning methods have shown good performance in this task but often suffer from large search spaces and costly training. To address these problems, we propose a competitive framework, called FIT, which uses an information-theoreti c reward to determine what data to collect next. FIT improves over previous information-based approaches by using a multimodal variational autoencoder (MVAE) model and a two-step sampling strategy for disease prediction. Furthermore, we propose novel methods to substantially reduce the computational cost of FIT to a level that is acceptable for practical online self-diagnosis. Our results in two simulated datasets show that FIT can effectively deal with large search space problems, outperforming existing baselines. Moreover, using two medical datasets, we show that FIT is a competitive alternative in real-world settings.
翻訳日:2021-05-25 03:52:42 公開日:2020-12-02
# 逆行訓練を用いた医用画像診断における解釈性の向上

Improving Interpretability in Medical Imaging Diagnosis using Adversarial Training ( http://arxiv.org/abs/2012.01166v1 )

ライセンス: Link先を確認
Andrei Margeloiu, Nikola Simidjievski, Mateja Jamnik, Adrian Weller(参考訳) コンボリューションニューラルネットワーク(CNN)の解釈性に対する対人訓練の影響について検討し,特に皮膚がんの診断に応用した。 逆行訓練cnnの勾配に基づく塩分マップは,標準訓練cnnよりも著しく鋭く,視覚的にコヒーレントであることが判明した。 さらに,悪性黒色腫の特徴である病変内に有意な色変異を有する領域を,逆行性に訓練されたネットワークが強調することを示した。 学習率の低いロバストネットワークを微調整することで,より鮮明さの向上が期待できる。 最後に、ロバストな低レベルな特徴を抽出するための最初のレイヤの堅牢化が視覚的にコヒーレントな説明につながることを示唆する予備的作業を提案する。

We investigate the influence of adversarial training on the interpretability of convolutional neural networks (CNNs), specifically applied to diagnosing skin cancer. We show that gradient-based saliency maps of adversarially trained CNNs are significantly sharper and more visually coherent than those of standardly trained CNNs. Furthermore, we show that adversarially trained networks highlight regions with significant color variation within the lesion, a common characteristic of melanoma. We find that fine-tuning a robust network with a small learning rate further improves saliency maps' sharpness. Lastly, we provide preliminary work suggesting that robustifying the first layers to extract robust low-level features leads to visually coherent explanations.
翻訳日:2021-05-25 03:52:06 公開日:2020-12-02
# 勾配に基づく塩分マップは深層強化学習に有用か?

Are Gradient-based Saliency Maps Useful in Deep Reinforcement Learning? ( http://arxiv.org/abs/2012.01281v1 )

ライセンス: Link先を確認
Matthias Rosynski and Frank Kirchner and Matias Valdenegro-Toro(参考訳) Deep Reinforcement Learning (DRL)は、古典的なReinforcement LearningアルゴリズムとDeep Neural Networksを接続する。 DRLの問題は、CNNがブラックボックスであり、エージェントの意思決定プロセスを理解することは困難である。 人間や機械にとって非常に危険な環境でRLエージェントを使用できるためには、開発者はエージェントが期待していることを確実にするデバッグツールが必要である。 現在、報酬は主にエージェントがいかにうまく学習しているかを解釈するために使われる。 しかし、もしエージェントがポリシーを暗記し、環境に反応する学習をしないことでより多くの報酬を受け取ると、これは偽りの結論につながる可能性がある。 本研究では,勾配可視化技術を用いてこの問題を認識できることを実証する。 この研究は、画像分類の分野からDeep Reinforcement Learningの分野まで、よく知られた視覚化手法をいくつかもたらす。 さらに、2つの新しい可視化技術が開発され、そのうちの1つは特に良い結果をもたらす。 強化学習の分野において、アルゴリズムがどの程度使用できるかが証明されている。 また、drlアルゴリズムが様々な環境にまたがってどのように可視化できるかという問題も生じている。

Deep Reinforcement Learning (DRL) connects the classic Reinforcement Learning algorithms with Deep Neural Networks. A problem in DRL is that CNNs are black-boxes and it is hard to understand the decision-making process of agents. In order to be able to use RL agents in highly dangerous environments for humans and machines, the developer needs a debugging tool to assure that the agent does what is expected. Currently, rewards are primarily used to interpret how well an agent is learning. However, this can lead to deceptive conclusions if the agent receives more rewards by memorizing a policy and not learning to respond to the environment. In this work, it is shown that this problem can be recognized with the help of gradient visualization techniques. This work brings some of the best-known visualization methods from the field of image classification to the area of Deep Reinforcement Learning. Furthermore, two new visualization techniques have been developed, one of which provides particularly good results. It is being proven to what extent the algorithms can be used in the area of Reinforcement learning. Also, the question arises on how well the DRL algorithms can be visualized across different environments with varying visualization techniques.
翻訳日:2021-05-25 03:51:34 公開日:2020-12-02
# 無線通信ネットワークのための分散機械学習:技術、アーキテクチャ、応用

Distributed Machine Learning for Wireless Communication Networks: Techniques, Architectures, and Applications ( http://arxiv.org/abs/2012.01489v1 )

ライセンス: Link先を確認
S. Hu, X. Chen, W. Ni, E. Hossain, and X. Wang(参考訳) 連合学習、分割学習、分散強化学習などの分散機械学習(DML)技術は、無線通信にますます応用されている。 これは端末装置の能力の改善、爆発的に増加するデータボリューム、無線インターフェースの混雑、データのプライバシーに対する懸念の高まりによる。 大規模、地理的に分散したデプロイメント、ユーザモビリティ、大量のデータといった無線システムのユニークな特徴は、DML技術の設計に新たな課題をもたらす。 既存の文献には明らかなギャップがあり、DML技術が無線システムへの適用性について体系的にレビューされていない。 この調査は、無線ネットワークに焦点を当てたDML技術の現代的かつ包括的な調査を提供することによって、ギャップを埋めるものである。 具体的には、電力制御、スペクトル管理、ユーザアソシエーション、エッジクラウドコンピューティングにおけるDMLの最新の応用についてレビューする。 DMLの最適性、スケーラビリティ、収束率、計算コスト、通信オーバーヘッドを分析した。 また、DMLアプリケーションによる潜在的敵攻撃についても論じ、プライバシーとセキュリティを守るための最先端の対策について述べる。 最後に重要なことは、まだ解決されていない重要な問題をいくつか指摘し、将来の研究において潜在的に興味深く挑戦的なトピックをまとめる。

Distributed machine learning (DML) techniques, such as federated learning, partitioned learning, and distributed reinforcement learning, have been increasingly applied to wireless communications. This is due to improved capabilities of terminal devices, explosively growing data volume, congestion in the radio interfaces, and increasing concern of data privacy. The unique features of wireless systems, such as large scale, geographically dispersed deployment, user mobility, and massive amount of data, give rise to new challenges in the design of DML techniques. There is a clear gap in the existing literature in that the DML techniques are yet to be systematically reviewed for their applicability to wireless systems. This survey bridges the gap by providing a contemporary and comprehensive survey of DML techniques with a focus on wireless networks. Specifically, we review the latest applications of DML in power control, spectrum management, user association, and edge cloud computing. The optimality, scalability, convergence rate, computation cost, and communication overhead of DML are analyzed. We also discuss the potential adversarial attacks faced by DML applications, and describe state-of-the-art countermeasures to preserve privacy and security. Last but not least, we point out a number of key issues yet to be addressed, and collate potentially interesting and challenging topics for future research.
翻訳日:2021-05-25 03:50:50 公開日:2020-12-02
# DecisiveNets: 複雑な機械学習問題を解決するための深い連想記憶のトレーニング

DecisiveNets: Training Deep Associative Memories to Solve Complex Machine Learning Problems ( http://arxiv.org/abs/2012.01509v1 )

ライセンス: Link先を確認
Vincent Gripon, Carlos Lassance, Ghouthi Boukli Hacene(参考訳) 複雑な機械学習タスクを解決するための深層表現の学習は、ここ数年で重要なトレンドとなっている。 実際、Deep Neural Networksは現在、コンピュータビジョン、自然言語処理、さらには組合せゲームといった分野における黄金の標準となっている。 しかし、この驚くべき普遍能力の裏には、問題のある制限が隠されている。 特にディープニューラルネットワークは、非常に多くのトレーニング可能なパラメータで構成されているため、決定の可否が大きな懸念事項である。 さらに、計算複雑性は、特にリアルタイムや限られたリソースによって制約されたコンテキストにおいて、すぐに問題となることがある。 したがって、情報がどのように保存され、このストレージがシステムに与える影響を理解することは、大きな問題であり、未解決のままである。 本章では,ディープニューラルネットワークモデルをよりシンプルで説明しやすい,安価な操作で,深い連想記憶に変換する手法を紹介する。 これらの変換が予測性能にペナルティを課さずに行えることを実験を通して示す。 その結果得られる深い連想記憶は、理論化や操作が容易な人工知能の優れた候補である。

Learning deep representations to solve complex machine learning tasks has become the prominent trend in the past few years. Indeed, Deep Neural Networks are now the golden standard in domains as various as computer vision, natural language processing or even playing combinatorial games. However, problematic limitations are hidden behind this surprising universal capability. Among other things, explainability of the decisions is a major concern, especially since deep neural networks are made up of a very large number of trainable parameters. Moreover, computational complexity can quickly become a problem, especially in contexts constrained by real time or limited resources. Therefore, understanding how information is stored and the impact this storage can have on the system remains a major and open issue. In this chapter, we introduce a method to transform deep neural network models into deep associative memories, with simpler, more explicable and less expensive operations. We show through experiments that these transformations can be done without penalty on predictive performance. The resulting deep associative memories are excellent candidates for artificial intelligence that is easier to theorize and manipulate.
翻訳日:2021-05-25 03:50:30 公開日:2020-12-02
# 値アライメントの検証

Value Alignment Verification ( http://arxiv.org/abs/2012.01557v1 )

ライセンス: Link先を確認
Daniel S. Brown, Jordan Schneider, Scott Niekum(参考訳) 人間は自律的なエージェントと対話し、ますます複雑で潜在的に危険なタスクを実行するため、これらのエージェントの信頼性を検証し、そのパフォーマンスと正確性を評価することが重要である。 本稿では,他のエージェントの目標と行動が人間の値と一致しているかどうかを効率的に検証する方法について,価値アライメント検証の問題を定式化する。 いくつかの異なる値アライメント検証設定を検討し、値アライメント検証に関する基礎理論を提供する。 本研究では,明示的な報酬機能を持つ理想化人間によるアライメント検証問題と,人間が暗黙の値を持つ値アライメント検証問題について検討する。 離散グリッドナビゲーションドメインと連続自律運転ドメインの両方における理論的および実証的な結果は、自律エージェントのアライメントを認証するための高効率で正確な値アライメント検証テストを合成できることを実証する。

As humans interact with autonomous agents to perform increasingly complicated, potentially risky tasks, it is important that humans can verify these agents' trustworthiness and efficiently evaluate their performance and correctness. In this paper we formalize the problem of value alignment verification: how to efficiently test whether the goals and behavior of another agent are aligned with a human's values? We explore several different value alignment verification settings and provide foundational theory regarding value alignment verification. We study alignment verification problems with an idealized human that has an explicit reward function as well as value alignment verification problems where the human has implicit values. Our theoretical and empirical results in both a discrete grid navigation domain and a continuous autonomous driving domain demonstrate that it is possible to synthesize highly efficient and accurate value alignment verification tests for certifying the alignment of autonomous agents.
翻訳日:2021-05-25 03:50:15 公開日:2020-12-02
# テンソルデータ散乱とスライシング定理の不可能性

Tensor Data Scattering and the Impossibility of Slicing Theorem ( http://arxiv.org/abs/2012.01982v1 )

ライセンス: Link先を確認
Wuming Pan(参考訳) 本稿では,様々なディープラーニングフレームワークで使用されるテンソルデータ拡散手法の広範な理論的枠組みを確立する。 本稿では,データ散乱を実装するための性能解析と加速器最適化に非常に重要な定理を提案する。 この定理はテンソルデータ散乱においてスライシングの不合理性がどのように起こるかを示している。 本稿では,ScatterXというアルゴリズムを提案し,そのソースコードを提供する。

This paper establishes a broad theoretical framework for tensor data dissemination methods used in various deep learning frameworks. This paper gives a theorem that is very important for performance analysis and accelerator optimization for implementing data scattering. The theorem shows how the impossibility of slicing happens in tenser data scattering. This paper proposes an algorithm called ScatterX and its source code is provided.
翻訳日:2021-05-25 03:50:00 公開日:2020-12-02
# 積極的人間-ロボットインタラクションのための軌道最適化におけるニューラルネットワーク勾配の活用

Leveraging Neural Network Gradients within Trajectory Optimization for Proactive Human-Robot Interactions ( http://arxiv.org/abs/2012.01027v1 )

ライセンス: Link先を確認
Simon Schaefer, Karen Leung, Boris Ivanovic, Marco Pavone(参考訳) シームレスな人間とロボットの相互作用を実現するには、ロボットは複雑な相互作用のダイナミクスと、動作計画プロセスにおける将来の人間の行動について、綿密に推論する必要がある。 しかし、最先端のニューラルネットワークベースの人間行動モデルとロボットの動作プランナとの間には断絶がある。下流の計画を考慮して行動モデルに制限があるか、計画問題のトラクタビリティを確保するために単純化された行動モデルが使用される。 本稿では,軌道最適化(to)の解釈可能性と柔軟性と,最先端の軌道予測モデルの予測能力とを融合する枠組みを提案する。 特に、データ駆動予測モデルからの勾配情報を利用して、勾配に基づくTO問題における人間-ロボット相互作用のダイナミクスを明確に推論する。 ロボットが最大10人の歩行者の群集を安全に効率的に移動する必要があるマルチエージェントシナリオにおいて,本手法の有効性を実証する。 我々は,様々な計画手法と比較し,プランナー内のインタラクションダイナミクスを明示的に計算することにより,より安全かつ効率的な行動を提供し,移動前に歩行者が通過するのを待つような積極的かつニュアンス的な行動も得ることを示した。

To achieve seamless human-robot interactions, robots need to intimately reason about complex interaction dynamics and future human behaviors within their motion planning process. However, there is a disconnect between state-of-the-art neural network-based human behavior models and robot motion planners -- either the behavior models are limited in their consideration of downstream planning or a simplified behavior model is used to ensure tractability of the planning problem. In this work, we present a framework that fuses together the interpretability and flexibility of trajectory optimization (TO) with the predictive power of state-of-the-art human trajectory prediction models. In particular, we leverage gradient information from data-driven prediction models to explicitly reason about human-robot interaction dynamics within a gradient-based TO problem. We demonstrate the efficacy of our approach in a multi-agent scenario whereby a robot is required to safely and efficiently navigate through a crowd of up to ten pedestrians. We compare against a variety of planning methods, and show that by explicitly accounting for interaction dynamics within the planner, our method offers safer and more efficient behaviors, even yielding proactive and nuanced behaviors such as waiting for a pedestrian to pass before moving.
翻訳日:2021-05-25 03:49:51 公開日:2020-12-02
# ディープQネットワークを用いたマルチエージェント強化学習による繊維製造プロセスの多目的最適化

Multi-Objective Optimization of the Textile Manufacturing Process Using Deep-Q-Network Based Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2012.01101v1 )

ライセンス: Link先を確認
Zhenglei He, Kim Phuc Tran (GEMTEX), Sebastien Thomassey, Xianyi Zeng, Jie Xu, Changhai Yi(参考訳) 繊維産業の発展に伴う複雑さが増大していることから,繊維製造プロセスの多目的最適化が課題となっている。 インテリジェントな技術の使用は、この領域でしばしば議論されてきたが、特定の成功したアプリケーションからの大幅な改善が報告されているが、従来の手法は、人間の介入と同様に高度に機能しない。 そこで本稿では,最適化プロセスを確率ゲームに変換するマルチエージェント強化学習(MARL)フレームワークを提案し,マルチエージェントのトレーニングを行う深層Q-networksアルゴリズムを導入した。 複数の平衡の中断を回避し、最適化過程の相関平衡最適解を達成するために、各状態における(-グリーディポリシー)確率ゲームにおいて実用的選択機構が採用された。 ケーススタディの結果から,提案するmarlシステムは,従来の方法よりも優れた織布のオゾン化処理の最適解を実現できることが示唆された。

Multi-objective optimization of the textile manufacturing process is an increasing challenge because of the growing complexity involved in the development of the textile industry. The use of intelligent techniques has been often discussed in this domain, although a significant improvement from certain successful applications has been reported, the traditional methods failed to work with high-as well as human intervention. Upon which, this paper proposed a multi-agent reinforcement learning (MARL) framework to transform the optimization process into a stochastic game and introduced the deep Q-networks algorithm to train the multiple agents. A utilitarian selection mechanism was employed in the stochastic game, which (-greedy policy) in each state to avoid the interruption of multiple equilibria and achieve the correlated equilibrium optimal solutions of the optimizing process. The case study result reflects that the proposed MARL system is possible to achieve the optimal solutions for the textile ozonation process and it performs better than the traditional approaches.
翻訳日:2021-05-25 03:49:32 公開日:2020-12-02
# 政策スーパーベクター:その行動によるエージェントの一般的特徴付け

Policy Supervectors: General Characterization of Agents by their Behaviour ( http://arxiv.org/abs/2012.01244v1 )

ライセンス: Link先を確認
Anssi Kanervisto, Tomi Kinnunen, Ville Hautam\"aki(参考訳) 意思決定エージェントの根底にある方針を研究することで、その欠点について学び、改善する可能性がある。 伝統的に、これはエージェントの実装、実行中の振る舞い、報酬/適合関数によるパフォーマンス、またはエージェントが訪問する状態の密度を可視化することによって行われる。 しかし、これらの手法は複雑な高次元環境におけるポリシーの振る舞いを記述するのに失敗し、トレーニングアルゴリズムを研究する際に必要となる何千ものポリシーにスケールしない。 本研究では,訪問状態の分布によってエージェントを特徴付けるための政策スーパーベクタを提案し,音声技術分野から成功した技術を採用する。 政策監督者は、デザイン哲学に関わらず(例えば、)政策を特徴づけることができる。 ルールベースの対ニューラルネットワーク)と、単一のワークステーションマシン上で数千のポリシーにスケールする。 本稿では,強化学習,進化訓練,模倣学習における政策の進化を研究することによって,その適用可能性を示す。 進化的アルゴリズムの探索空間は、パラメータだけでなくエージェントの振る舞いにも反映される。

By studying the underlying policies of decision-making agents, we can learn about their shortcomings and potentially improve them. Traditionally, this has been done either by examining the agent's implementation, its behaviour while it is being executed, its performance with a reward/fitness function or by visualizing the density of states the agent visits. However, these methods fail to describe the policy's behaviour in complex, high-dimensional environments or do not scale to thousands of policies, which is required when studying training algorithms. We propose policy supervectors for characterizing agents by the distribution of states they visit, adopting successful techniques from the area of speech technology. Policy supervectors can characterize policies regardless of their design philosophy (e.g. rule-based vs. neural networks) and scale to thousands of policies on a single workstation machine. We demonstrate method's applicability by studying the evolution of policies during reinforcement learning, evolutionary training and imitation learning, providing insight on e.g. how the search space of evolutionary algorithms is also reflected in agent's behaviour, not just in the parameters.
翻訳日:2021-05-25 03:49:14 公開日:2020-12-02
# 共変量情報を用いた残差分布ロバスト最適化

Residuals-based distributionally robust optimization with covariate information ( http://arxiv.org/abs/2012.01088v1 )

ライセンス: Link先を確認
Rohit Kannan, G\"uzin Bayraksan, James R. Luedtke(参考訳) 我々は、不確実なパラメータと共変量の限定的な共同観測により、分散ロバスト最適化(DRO)に機械学習予測モデルを統合するデータ駆動アプローチを検討する。 私たちのフレームワークは、さまざまな学習設定やDROあいまいさセットに対応できるという意味で柔軟です。 本研究では, ワッサースタインを用いた解の漸近的および有限なサンプル特性, サンプルロバスト最適化, phi-divergence-based ambiguity set について検討し, それらの曖昧性集合を定式化するためのクロスバリデーションアプローチについて検討した。 数値実験により, 予測モデルが不明確であった場合においても, 計算結果の検証, あいまいさ集合のサイズ化へのアプローチの有効性, DROの定式化の利点について考察する。

We consider data-driven approaches that integrate a machine learning prediction model within distributionally robust optimization (DRO) given limited joint observations of uncertain parameters and covariates. Our framework is flexible in the sense that it can accommodate a variety of learning setups and DRO ambiguity sets. We investigate the asymptotic and finite sample properties of solutions obtained using Wasserstein, sample robust optimization, and phi-divergence-based ambiguity sets within our DRO formulations, and explore cross-validation approaches for sizing these ambiguity sets. Through numerical experiments, we validate our theoretical results, study the effectiveness of our approaches for sizing ambiguity sets, and illustrate the benefits of our DRO formulations in the limited data regime even when the prediction model is misspecified.
翻訳日:2021-05-25 03:48:11 公開日:2020-12-02
# 風力曲線モデリングにおける時間オーバーフィッティング問題と応用

The temporal overfitting problem with applications in wind power curve modeling ( http://arxiv.org/abs/2012.01349v1 )

ライセンス: Link先を確認
Abhinav Prakash, Rui Tuo and Yu Ding(参考訳) 本稿では,入力変数と残差の独立性仮定がもはや有効ではない非パラメトリック回帰問題について述べる。 クロスバリデーションのような既存のモデル選択手法を用いることで、入力変数とエラー項における時間的自己相関の存在がモデルオーバーフィットにつながる。 この現象を時間オーバーフィッティング(temporal overfitting)と呼び、トレーニング時間領域とは異なる時間領域に対する応答を予測しながらパフォーマンスを損なう。 本稿では,時間オーバーフィッティング問題に対処する新しい手法を提案する。 我々の非パラメトリックモデルは、時変成分と時変成分の2つの部分に分けられ、それぞれがガウス過程の回帰によってモデル化される。 私たちの推論における鍵は、それぞれ2つのコンポーネントを推定するためにマルコフ連鎖モンテカルロサンプリングから借用された薄型戦略である。 本論文の具体的応用は風力エネルギーの電力曲線モデリングを対象とする。 本研究では,提案手法を既存のパワーカーブモデルと時間的オーバーフィッティングを扱うためのアイデアの両方と比較した。 提案手法は,トレーニングデータによってカバーされる時間領域内および外部の両方において,予測の大幅な改善をもたらす。

This paper is concerned with a nonparametric regression problem in which the independence assumption of the input variables and the residuals is no longer valid. Using existing model selection methods, like cross validation, the presence of temporal autocorrelation in the input variables and the error terms leads to model overfitting. This phenomenon is referred to as temporal overfitting, which causes loss of performance while predicting responses for a time domain different from the training time domain. We propose a new method to tackle the temporal overfitting problem. Our nonparametric model is partitioned into two parts -- a time-invariant component and a time-varying component, each of which is modeled through a Gaussian process regression. The key in our inference is a thinning-based strategy, an idea borrowed from Markov chain Monte Carlo sampling, to estimate the two components, respectively. Our specific application in this paper targets the power curve modeling in wind energy. In our numerical studies, we compare extensively our proposed method with both existing power curve models and available ideas for handling temporal overfitting. Our approach yields significant improvement in prediction both in and outside the time domain covered by the training data.
翻訳日:2021-05-25 03:47:53 公開日:2020-12-02
# IoT用侵入検知システム:エッジコンピューティングが提供する可能性と課題

Intrusion Detection Systems for IoT: opportunities and challenges offered by Edge Computing ( http://arxiv.org/abs/2012.01174v1 )

ライセンス: Link先を確認
Pietro Spadaccino and Francesca Cuomo(参考訳) 現在のサイバーセキュリティ手法の主な構成要素は、侵入検知システム(IDS)が異なる技術であり、侵入を検出するためにアーキテクチャが適用されることである。 IDSは、シグネチャベースとして知られる既知の侵入経験のデータベースで監視されたイベントを横断的にチェックするか、システムの正常な振る舞いを学習し、異常なイベントが発生するかどうかを報告する。 この作業は、エッジコンピューティングを使用してIDS実装をサポートするIoT(Internet of Things)ネットワークへのアプリケーション専用のものだ。 エッジシナリオにIDSをデプロイする際の新たな課題を特定し、改善を提案する。 我々は、異常検出に活用できる主要なテクニックを示し、IDSのコンテキストで機械学習技術とその応用を提示し、特定のテクニックが引き起こすであろう利点とデメリットについて述べる。

Key components of current cybersecurity methods are the Intrusion Detection Systems (IDSs) were different techniques and architectures are applied to detect intrusions. IDSs can be based either on cross-checking monitored events with a database of known intrusion experiences, known as signature-based, or on learning the normal behavior of the system and reporting whether some anomalous events occur, named anomaly-based. This work is dedicated to the application to the Internet of Things (IoT) network where edge computing is used to support the IDS implementation. New challenges that arise when deploying an IDS in an edge scenario are identified and remedies are proposed. We focus on anomaly-based IDSs, showing the main techniques that can be leveraged to detect anomalies and we present machine learning techniques and their application in the context of an IDS, describing the expected advantages and disadvantages that a specific technique could cause.
翻訳日:2021-05-25 03:47:36 公開日:2020-12-02
# Proceedings Second Workshop on Formal Methods for Autonomous Systems

Proceedings Second Workshop on Formal Methods for Autonomous Systems ( http://arxiv.org/abs/2012.01176v1 )

ライセンス: Link先を確認
Matt Luckcuck (University of Manchester, UK), Marie Farrell (University of Manchester, UK)(参考訳) 自律システムは高度に複雑であり、形式的手法の適用に特有の課題がある。 自律システムは人間の介入なしに行動し、しばしばロボットシステムに組み込まれ、現実世界と対話できるようにします。 そのため、それらは安全クリティカル、サイバー物理、ハイブリッド、リアルタイムシステムの特性を示す。 FMASの目標は、フォーマルな方法で自律システムのユニークな課題に対処している先進的な研究者をまとめて、現在進行中の成果を提示することにある。 私たちは、自律システムやロボットシステムを特定し、モデル化し、検証するための正式な方法を使うことに興味があります。 私たちはまた、産業応用の成功と、この新たな形式的手法の適用の今後の方向性にも興味を持っています。

Autonomous systems are highly complex and present unique challenges for the application of formal methods. Autonomous systems act without human intervention, and are often embedded in a robotic system, so that they can interact with the real world. As such, they exhibit the properties of safety-critical, cyber-physical, hybrid, and real-time systems. The goal of FMAS is to bring together leading researchers who are tackling the unique challenges of autonomous systems using formal methods, to present recent and ongoing work. We are interested in the use of formal methods to specify, model, or verify autonomous or robotic systems; in whole or in part. We are also interested in successful industrial applications and potential future directions for this emerging application of formal methods.
翻訳日:2021-05-25 03:47:21 公開日:2020-12-02
# 2020年モデル計数競争

The Model Counting Competition 2020 ( http://arxiv.org/abs/2012.01323v1 )

ライセンス: Link先を確認
Johannes K. Fichte and Markus Hecher and Florim Hamiti(参考訳) 現代の社会における多くの計算問題は確率論的推論、統計学、コンビネータ学である。 これらの現実世界の様々な質問は、(ブール)式で質問を表現し、公式のモデルの数と質問への答えを直接関連付けることで解決できる。 過去数年間、モデルカウントの実用的な問題解決への関心が高まっているため、モデルカウント(mc)コンペティションが2019年秋に考案された。 このコンペティションは、アプリケーションを育成し、新しい挑戦的なベンチマークを特定し、新しいソルバを促進し、モデルカウント問題とそのバージョンのための確立されたソルバを改善することを目的としている。 結果が、モデルカウントの現在の実現可能性のよい指標になり、多くの新しいアプリケーションを呼び起こすことを願っています。 本稿では,2020年モデル計数競争の詳細と,その実施状況と結果について報告する。 コンペティションには3種類のモデルカウント問題が含まれており、異なるトラックで評価した。 最初のトラックはモデルカウント問題 (MC) を特徴とし、与えられたブール公式のモデル数を求めるものである。 第2のトラックでは、重み付けされたモデルカウント問題(WMC)を解決するプログラムを提出するよう開発者に呼びかけた。 最後のトラックは、予測されたモデルカウント(PMC)に向けられた。 合計で,8グループから34バージョンで,驚くべき数の解答者を得た。

Many computational problems in modern society account to probabilistic reasoning, statistics, and combinatorics. A variety of these real-world questions can be solved by representing the question in (Boolean) formulas and associating the number of models of the formula directly with the answer to the question. Since there has been an increasing interest in practical problem solving for model counting over the last years, the Model Counting (MC) Competition was conceived in fall 2019. The competition aims to foster applications, identify new challenging benchmarks, and to promote new solvers and improve established solvers for the model counting problem and versions thereof. We hope that the results can be a good indicator of the current feasibility of model counting and spark many new applications. In this paper, we report on details of the Model Counting Competition 2020, about carrying out the competition, and the results. The competition encompassed three versions of the model counting problem, which we evaluated in separate tracks. The first track featured the model counting problem (MC), which asks for the number of models of a given Boolean formula. On the second track, we challenged developers to submit programs that solve the weighted model counting problem (WMC). The last track was dedicated to projected model counting (PMC). In total, we received a surprising number of 9 solvers in 34 versions from 8 groups.
翻訳日:2021-05-25 03:47:11 公開日:2020-12-02
# 画像ベースモデリングと自動カメラトラッキングを実現するフォトグラムベースフレームワーク

A Photogrammetry-based Framework to Facilitate Image-based Modeling and Automatic Camera Tracking ( http://arxiv.org/abs/2012.01044v1 )

ライセンス: Link先を確認
Sebastian Bullinger, Christoph Bodensteiner, Michael Arens(参考訳) 本研究では,Blenderを拡張してSfM(Structure from Motion)とMVS(Multi-View Stereo)技術を利用して彫刻やカメラ,モーショントラッキングなどの画像ベースモデリングタスクを実現するフレームワークを提案する。 SfMを適用することで、機能トラックを手動で定義したり、画像データを取得するために使用されるカメラを校正したりすることなく、カメラの動きを判断できます。 MVSでは、Blenderの組み込みツールでは実現不可能な高密度シーンモデルを自動的に計算できます。 現在、我々のフレームワークはいくつかの最先端のSfMとMVSパイプラインをサポートしている。 モジュラーシステム設計により、追加の努力なしに、さらなるアプローチを統合できます。 このフレームワークはオープンソースソフトウェアパッケージとして公開されている。

We propose a framework that extends Blender to exploit Structure from Motion (SfM) and Multi-View Stereo (MVS) techniques for image-based modeling tasks such as sculpting or camera and motion tracking. Applying SfM allows us to determine camera motions without manually defining feature tracks or calibrating the cameras used to capture the image data. With MVS we are able to automatically compute dense scene models, which is not feasible with the built-in tools of Blender. Currently, our framework supports several state-of-the-art SfM and MVS pipelines. The modular system design enables us to integrate further approaches without additional effort. The framework is publicly available as an open source software package.
翻訳日:2021-05-25 03:46:34 公開日:2020-12-02
# 並列スケジューリング自己注意機構:一般化と最適化

Parallel Scheduling Self-attention Mechanism: Generalization and Optimization ( http://arxiv.org/abs/2012.01114v1 )

ライセンス: Link先を確認
Mingfei Yu and Masahiro Fujita(参考訳) 過去数年間、特に自然言語処理(NLP)の分野において、ディープラーニングの分野で自己注意が輝いている。 その顕著な効果は、ユビキタスな実装とともに、並列コンピューティングを実現するために、多くの計算ユニットを持つアーキテクチャに対応する計算データフローを効率的にスケジューリングすることへの我々の関心を喚起した。 本稿では,言語モデルにおける自己アテンション機構の理論と自己アテンションの最先端化を基礎として,SAT(Satisfiability check)ソルバによって解決された小インスタンスの最適スケジューリングから導かれる一般スケジューリングアルゴリズムを提案し,自己アテンションの典型的な計算を並列化する。 冗長計算をスキップするさらなる最適化戦略も提案され、それぞれ25%と50%の削減が、広く採用されている2つのセルフアテンションのアプリケーションスキームで達成される。 提案手法を採用することで,スケジューリングアルゴリズムを新たに2つ考案した。 提案アルゴリズムは、入力ベクトルの数がアーキテクチャで利用可能な演算ユニットの数に割り切れる限り、問題のサイズにかかわらず適用可能である。 一般の場合,アルゴリズムの正しさを数学的に証明することの難しさから,特定の事例に対するSAT問題の解法によって得られる解の優れた品質とともに,それらの妥当性を明らかにする実験を行った。

Over the past few years, self-attention is shining in the field of deep learning, especially in the domain of natural language processing(NLP). Its impressive effectiveness, along with ubiquitous implementations, have aroused our interest in efficiently scheduling the data-flow of corresponding computations onto architectures with many computing units to realize parallel computing. In this paper, based on the theory of self-attention mechanism and state-of-the-art realization of self-attention in language models, we propose a general scheduling algorithm, which is derived from the optimum scheduling for small instances solved by a satisfiability checking(SAT) solver, to parallelize typical computations of self-attention. Strategies for further optimization on skipping redundant computations are put forward as well, with which reductions of almost 25% and 50% of the original computations are respectively achieved for two widely-adopted application schemes of self-attention. With the proposed optimization adopted, we have correspondingly come up with another two scheduling algorithms. The proposed algorithms are applicable regardless of problem sizes, as long as the number of input vectors is divisible to the number of computing units available in the architecture. Due to the complexity of proving the correctness of the algorithms mathematically for general cases, we have conducted experiments to reveal their validity, together with the superior quality of the solutions provided by which, by solving SAT problems for particular instances.
翻訳日:2021-05-25 03:45:46 公開日:2020-12-02
# データ駆動型NextGセルネットワークのためのO-RANのインテリジェンスと学習

Intelligence and Learning in O-RAN for Data-driven NextG Cellular Networks ( http://arxiv.org/abs/2012.01263v1 )

ライセンス: Link先を確認
Leonardo Bonati, Salvatore D'Oro, Michele Polese, Stefano Basagni, Tommaso Melodia(参考訳) 将来的には、"nextg"セルラーネットワークはクラウドベースで、プログラマブル、仮想化、分散アーキテクチャ上に構築される予定である。 ハードウェアファブリックからの制御機能の分離と標準化された制御インターフェースの導入により、独自のクローズドコントロールループの定義が可能になり、最終的には組み込みインテリジェンスとリアルタイム分析が可能になり、自律的および自己最適化ネットワークのビジョンを効果的に実現することができる。 本稿では,O-RANアライアンスによって提案されたNextG分散アーキテクチャについて考察する。 このアーキテクチャのコンテキスト内では、異なる時間スケールにおけるネットワーク制御に対するデータ駆動最適化アプローチの可能性、課題、および制限について論じる。 また、O-RAN準拠のソフトウェアコンポーネントとオープンソースのフルスタックの軟弱セルネットワークの統合の大規模なデモも提供する。 世界最大の無線ネットワークエミュレータであるColosseumで実施された実験では、リアルタイム分析と深層強化学習エージェントによる制御のクローズループ統合が実証された。 また,リアルタイムに近いRAN Intelligent Controller (RIC)上で動作するxAppsを経由したRadio Access Network (RAN)制御を初めて実施し,既存のネットワークスライスのスケジューリングポリシを最適化し,O-RANオープンインターフェースを活用してネットワークのエッジでデータを収集した。

Future, "NextG" cellular networks will be natively cloud-based and built upon programmable, virtualized, and disaggregated architectures. The separation of control functions from the hardware fabric and the introduction of standardized control interfaces will enable the definition of custom closed-control loops, which will ultimately enable embedded intelligence and real-time analytics, thus effectively realizing the vision of autonomous and self-optimizing networks. This article explores the NextG disaggregated architecture proposed by the O-RAN Alliance. Within this architectural context, it discusses potential, challenges, and limitations of data-driven optimization approaches to network control over different timescales. It also provides the first large-scale demonstration of the integration of O-RAN-compliant software components with an open-source full-stack softwarized cellular network. Experiments conducted on Colosseum, the world's largest wireless network emulator, demonstrate closed-loop integration of real-time analytics and control through deep reinforcement learning agents. We also demonstrate for the first time Radio Access Network (RAN) control through xApps running on the near real-time RAN Intelligent Controller (RIC), to optimize the scheduling policies of co-existing network slices, leveraging O-RAN open interfaces to collect data at the edge of the network.
翻訳日:2021-05-25 03:45:13 公開日:2020-12-02
# パレート決定論的政策勾配と5G大規模MIMOネットワークへの応用

Pareto Deterministic Policy Gradients and Its Application in 5G Massive MIMO Networks ( http://arxiv.org/abs/2012.01279v1 )

ライセンス: Link先を確認
Zhou Zhou, Yan Xin, Hao Chen, Charlie Zhang, Lingjia Liu(参考訳) 本稿では、セル間ハンドオーバ(ユーザアソシエイト割り当て)とMIMOアンテナの大規模な傾きを学習ポリシーとして構成する強化学習(RL)アプローチを用いて、セルロードバランスとネットワークスループットを協調的に最適化することを検討する。 rlの背景にある根拠は、ユーザモビリティとネットワークダイナミクスの分析的モデリングの課題を回避することです。 この共同最適化を実現するために、ベクトル報酬をRL値ネットワークに統合し、別々のポリシーネットワークを介してRLアクションを実行する。 この手法をPareto Deterministic Policy gradients (PDPG) と呼ぶ。 1)手作りのスカラー・リワードを選択するよりもベクトル報酬の自由度を利用して最適化する; 2) 複数のポリシーに対するクロスバリデーションを大幅に削減する。 したがって、rlを有効にしたネットワークは自己組織的に動作し、測定履歴を通じて基盤となるユーザモビリティを学習し、環境の仮定なしにハンドオーバとアンテナ傾きを積極的に操作する。 本稿では,RL法がスカラー回帰法より優れていることを示す。 一方,自己完結性を得るためには,ブルートフォース探索ソルバを用いた理想的静的最適化をベンチマークとして含む。 比較の結果,RLアプローチは,環境観測の制限や行動頻度の低下に制約されているのに対して,後者はユーザモビリティにフルアクセス可能である。 提案手法の収束性は,実シナリオからの測定データに基づいて,異なるユーザ移動環境下でも検証される。

In this paper, we consider jointly optimizing cell load balance and network throughput via a reinforcement learning (RL) approach, where inter-cell handover (i.e., user association assignment) and massive MIMO antenna tilting are configured as the RL policy to learn. Our rationale behind using RL is to circumvent the challenges of analytically modeling user mobility and network dynamics. To accomplish this joint optimization, we integrate vector rewards into the RL value network and conduct RL action via a separate policy network. We name this method as Pareto deterministic policy gradients (PDPG). It is an actor-critic, model-free and deterministic policy algorithm which can handle the coupling objectives with the following two merits: 1) It solves the optimization via leveraging the degree of freedom of vector reward as opposed to choosing handcrafted scalar-reward; 2) Cross-validation over multiple policies can be significantly reduced. Accordingly, the RL enabled network behaves in a self-organized way: It learns out the underlying user mobility through measurement history to proactively operate handover and antenna tilt without environment assumptions. Our numerical evaluation demonstrates that the introduced RL method outperforms scalar-reward based approaches. Meanwhile, to be self-contained, an ideal static optimization based brute-force search solver is included as a benchmark. The comparison shows that the RL approach performs as well as this ideal strategy, though the former one is constrained with limited environment observations and lower action frequency, whereas the latter ones have full access to the user mobility. The convergence of our introduced approach is also tested under different user mobility environment based on our measurement data from a real scenario.
翻訳日:2021-05-25 03:44:51 公開日:2020-12-02
# ユーザカスタマイズによるプライベートデータ生成

Generating private data with user customization ( http://arxiv.org/abs/2012.01467v1 )

ライセンス: Link先を確認
Xiao Chen, Thomas Navidi, Ram Rajagopal(参考訳) 携帯電話などのパーソナルデバイスは、大量のデータを生成・保存して機械学習モデルを強化することができるが、このデータは、データのリリースを防止するデータ所有者特有のプライベート情報を含む可能性がある。 有用な情報を保持しつつ、ユーザ固有のプライベート情報とデータとの相関を小さくしたい。 最終段階から最終段階までの民営化を達成するために大きなモデルを訓練する代わりに、まず潜在表現の作成を分離し、次に、限られた計算量とデータの実用上の最小限の障害を伴う設定において、ユーザ固有の民営化を許容するデータを民営化する。 可変オートエンコーダ(VAE)を利用して、すべてのデバイスと可能なすべてのプライベートラベルに固定されたデータのコンパクトな潜在表現を生成する。 次に,プライベート情報とユーティリティ情報に関するユーザの指定した嗜好に基づいて,潜在表現を摂動させる小さな生成フィルタを訓練する。 小型フィルタは、携帯電話やタブレットなどの分散デバイス上で起こり得る、GANタイプの堅牢な最適化を通じてトレーニングされる。 線形フィルタの特別な条件下では、生成的アプローチとrenyi差分プライバシーの関係を明らかにする。 我々はMNIST, UCI-Adult, CelebAなどの複数のデータセットで実験を行い, 潜伏埋め込みの幾何学を可視化し, 経験的相互情報を推定し, アプローチの有効性を示す。

Personal devices such as mobile phones can produce and store large amounts of data that can enhance machine learning models; however, this data may contain private information specific to the data owner that prevents the release of the data. We want to reduce the correlation between user-specific private information and the data while retaining the useful information. Rather than training a large model to achieve privatization from end to end, we first decouple the creation of a latent representation, and then privatize the data that allows user-specific privatization to occur in a setting with limited computation and minimal disturbance on the utility of the data. We leverage a Variational Autoencoder (VAE) to create a compact latent representation of the data that remains fixed for all devices and all possible private labels. We then train a small generative filter to perturb the latent representation based on user specified preferences regarding the private and utility information. The small filter is trained via a GAN-type robust optimization that can take place on a distributed device such as a phone or tablet. Under special conditions of our linear filter, we disclose the connections between our generative approach and renyi differential privacy. We conduct experiments on multiple datasets including MNIST, UCI-Adult, and CelebA, and give a thorough evaluation including visualizing the geometry of the latent embeddings and estimating the empirical mutual information to show the effectiveness of our approach.
翻訳日:2021-05-25 03:44:25 公開日:2020-12-02
# アーティファクトメタデータと関連するタイムラインイベントからの自動アーティファクト関連判定

Automated Artefact Relevancy Determination from Artefact Metadata and Associated Timeline Events ( http://arxiv.org/abs/2012.01972v1 )

ライセンス: Link先を確認
Xiaoyu Du, Quan Le and Mark Scanlon(参考訳) ケースハンダーで、多年にわたるデジタル法医学的証拠バックログは、世界中の法執行機関で一般的になっている。 これは、デジタル法医学的な調査と、事件ごとに処理されるデータの量の増加を必要とするケースがますます増えているためである。 以前に処理されたデジタル法医学事件とそれらの構成要素のアーティファクト関連分類を活用することで、自動化された人工知能ベースの証拠処理システムを訓練する機会が促進される。 これらは、証拠の発見と優先化において、調査員を著しく助けることができる。 本稿では,dfaas (centralized digital forensics as a service) パラダイムへの移行傾向に基づく,ファイルアーティファクト関連判定のための1つのアプローチを提案する。 このアプローチは、以前に遭遇した関連するファイルを使用して、新しく発見されたファイルを調査で分類することを可能にする。 トレーニングされたモデルは、取得段階、すなわちDFaaSシステムへのアップロード中のこれらのファイルの検出を支援することができる。 この技術は、各アーティファクトのファイルシステムメタデータと関連するタイムラインイベントを使用して、ファイル類似性に関する関連スコアを生成する。 提案するアプローチは、3つの実験的な利用シナリオに対して検証される。

Case-hindering, multi-year digital forensic evidence backlogs have become commonplace in law enforcement agencies throughout the world. This is due to an ever-growing number of cases requiring digital forensic investigation coupled with the growing volume of data to be processed per case. Leveraging previously processed digital forensic cases and their component artefact relevancy classifications can facilitate an opportunity for training automated artificial intelligence based evidence processing systems. These can significantly aid investigators in the discovery and prioritisation of evidence. This paper presents one approach for file artefact relevancy determination building on the growing trend towards a centralised, Digital Forensics as a Service (DFaaS) paradigm. This approach enables the use of previously encountered pertinent files to classify newly discovered files in an investigation. Trained models can aid in the detection of these files during the acquisition stage, i.e., during their upload to a DFaaS system. The technique generates a relevancy score for file similarity using each artefact's filesystem metadata and associated timeline events. The approach presented is validated against three experimental usage scenarios.
翻訳日:2021-05-25 03:43:56 公開日:2020-12-02
# AMIネットメータシステムにおける偽読解攻撃の検出

Detection of False-Reading Attacks in the AMI Net-Metering System ( http://arxiv.org/abs/2012.01983v1 )

ライセンス: Link先を確認
Mahmoud M. Badr, Mohamed I. Ibrahem, Mohamed Mahmoud, Mostafa M. Fouda, Waleed Alasmary(参考訳) スマートグリッドでは、悪意のある顧客がスマートメーター(SM)を妥協して不正な読み取りを報告し、金銭的利益を違法に達成することができる。 誤った読み出しを報告することは、ユーティリティーに大きな財政的損失をもたらすだけでなく、報告された読み出しがエネルギー管理に使用されるため、グリッドのパフォーマンスを低下させる可能性がある。 本論文は,1つのSMを用いて消費電力と発電電力の差を報告するネットワーク計測システムにおいて,この問題を調査する最初の研究である。 まず、実消費電力と生成データセットを処理し、ネットメータシステムのための良性データセットを作成する。 そこで我々は,ネットワーク計測システム向けに,悪意のあるデータセットを作成するための新たな攻撃セットを提案する。 その後,データを分析し,日射量や温度などの信頼できる情報源から得られたデータと,ネットメータの読みと読みとの間の時間的相関関係を見出した。 データ解析に基づいて、偽読み攻撃を識別する汎用マルチデータソース深層学習ベース検出器を提案する。 当社の検出器は,信頼度の高い情報源からのデータに加えて,全顧客のネットメータによる読み出しを訓練し,それらの相関関係を学習することで検出性能を向上させる。 ここでの根拠は、攻撃者は誤読を報告できるが、太陽の照度や温度は制御不能であるため操作できないことである。 広範な実験が行われており, 検出精度が高く, 誤読アラームが低く, 誤読アラームが検出可能であることが示唆された。

In smart grid, malicious customers may compromise their smart meters (SMs) to report false readings to achieve financial gains illegally. Reporting false readings not only causes hefty financial losses to the utility but may also degrade the grid performance because the reported readings are used for energy management. This paper is the first work that investigates this problem in the net-metering system, in which one SM is used to report the difference between the power consumed and the power generated. First, we prepare a benign dataset for the net-metering system by processing a real power consumption and generation dataset. Then, we propose a new set of attacks tailored for the net-metering system to create malicious dataset. After that, we analyze the data and we found time correlations between the net meter readings and correlations between the readings and relevant data obtained from trustworthy sources such as the solar irradiance and temperature. Based on the data analysis, we propose a general multi-data-source deep hybrid learning-based detector to identify the false-reading attacks. Our detector is trained on net meter readings of all customers besides data from the trustworthy sources to enhance the detector performance by learning the correlations between them. The rationale here is that although an attacker can report false readings, he cannot manipulate the solar irradiance and temperature values because they are beyond his control. Extensive experiments have been conducted, and the results indicate that our detector can identify the false-reading attacks with high detection rate and low false alarm.
翻訳日:2021-05-25 03:43:27 公開日:2020-12-02
# FAST: サービス容量制約を考慮したフェアネス保証サービス推奨戦略

FAST: A Fairness Assured Service Recommendation Strategy Considering Service Capacity Constraint ( http://arxiv.org/abs/2012.02292v1 )

ライセンス: Link先を確認
Yao Wu, Jian Cao, Guandong Xu(参考訳) 過剰な数の顧客がサービス品質の低下につながることが多い。 しかし、サービスのキャパシティ制約はレコメンデーションシステムによって無視されるため、不十分なレコメンデーションにつながる可能性がある。 この問題は、サービスのレコメンデーションを受けるユーザ数を制限することで解決できるが、これは不公平と見なすこともできる。 本稿では,容量制約のあるサービスに対するマルチラウンドレコメンデーションの個々人の公正度を測定するための,新しい尺度Top-N Fairnessを提案する。 ユーザーがレコメンデーションでトップランクのアイテムにしか影響されないという事実を考慮すると、トップNフェアネスはトップNサービスからなるサブリストのみを考える。 この基準に基づいて、フェアネス保証サービス推奨戦略であるFASTを設計する。 FASTはオリジナルのレコメンデーションリストを調整し、マルチラウンドレコメンデーションの長期的な公正性を保証するレコメンデーション結果を提供する。 FASTのTop-Nフェアネスの分散の収束特性を理論的に証明する。 FASTはYelpデータセットと合成データセットでテストされる。 実験の結果、fastは高い推奨品質を維持しながら、より良い推奨公平性を達成できることがわかった。

An excessive number of customers often leads to a degradation in service quality. However, the capacity constraints of services are ignored by recommender systems, which may lead to unsatisfactory recommendation. This problem can be solved by limiting the number of users who receive the recommendation for a service, but this may be viewed as unfair. In this paper, we propose a novel metric Top-N Fairness to measure the individual fairness of multi-round recommendations of services with capacity constraints. By considering the fact that users are often only affected by top-ranked items in a recommendation, Top-N Fairness only considers a sub-list consisting of top N services. Based on the metric, we design FAST, a Fairness Assured service recommendation STrategy. FAST adjusts the original recommendation list to provide users with recommendation results that guarantee the long-term fairness of multi-round recommendations. We prove the convergence property of the variance of Top-N Fairness of FAST theoretically. FAST is tested on the Yelp dataset and synthetic datasets. The experimental results show that FAST achieves better recommendation fairness while still maintaining high recommendation quality.
翻訳日:2021-05-25 03:42:38 公開日:2020-12-02
# 足歩行二足歩行ロボットの下降時のブラチストロンヒップ軌道の計画

Planning Brachistochrone Hip Trajectory for a Toe-Foot Bipedal Robot going Downstairs ( http://arxiv.org/abs/2012.02301v1 )

ライセンス: Link先を確認
Gaurav Bhardwaj, Utkarsh A. Mishra, N. Sukavanam and R. Balasubramanian(参考訳) つま先足の9リンク二足ロボットモデルに対して,新しい効率の良い下階軌道を提案する。 ブラヒストローネ(brachistochrone)は、重力の影響下でのみ動く粒子の最も速い降下軌道である。 ほとんどの状況では、下の階に登る間、人間の腰はより反応のよい動きのためにブラキストローネの軌道をたどる。 そこで, 適応軌道計画アルゴリズムを開発し, 異なるリンク長の2足歩行ロボットが, 様々な階段次元に上昇できるようにした。 二足歩行者の重心(cog)が腰にあると仮定する。 ゼロモーメントポイント(ZMP)に基づくCOG軌道が検討され、安定性が確保される。 サイクロイド軌道はスイング脚の足首に対して考慮される。 cycloid と brachistochrone のパラメータは階段の階段の寸法に依存する。 そこで本論文は, 1) ヒップ用ZMP系ブラキストロン軌道の開発, 2) 適切な衝突制約をとることで足首の周期的軌道計画, 3) 教師なし人工ニューラルネットワーク(ANN)を用いた逆運動学の解法(4) 提案した円弧と仮想傾斜型股関節の対比(4段階)に大別できる。 提案アルゴリズムはMATLABを用いて実装されている。

A novel efficient downstairs trajectory is proposed for a 9 link biped robot model with toe-foot. Brachistochrone is the fastest descent trajectory for a particle moving only under the influence of gravity. In most situations, while climbing downstairs, human hip also follow brachistochrone trajectory for a more responsive motion. Here, an adaptive trajectory planning algorithm is developed so that biped robots of varying link lengths, masses can climb down on varying staircase dimensions. We assume that the center of gravity (COG) of the biped concerned lies on the hip. Zero Moment Point (ZMP) based COG trajectory is considered and its stability is ensured. Cycloidal trajectory is considered for ankle of the swing leg. Parameters of both cycloid and brachistochrone depends on dimensions of staircase steps. Hence this paper can be broadly divided into 4 steps 1) Developing ZMP based brachistochrone trajectory for hip 2) Cycloidal trajectory planning for ankle by taking proper collision constraints 3) Solving Inverse kinematics using unsupervised artificial neural network (ANN) 4) Comparison between the proposed, a circular arc and a virtual slope based hip trajectory. The proposed algorithms have been implemented using MATLAB.
翻訳日:2021-05-25 03:42:19 公開日:2020-12-02
# 水文学のための物理誘導機械学習法

Physics Guided Machine Learning Methods for Hydrology ( http://arxiv.org/abs/2012.02854v1 )

ライセンス: Link先を確認
Ankush Khandelwal, Shaoming Xu, Xiang Li, Xiaowei Jia, Michael Stienbach, Christopher Duffy, John Nieber, Vipin Kumar(参考訳) ストリームフロー予測は、ストリームフロー生成の背後にある複数の非線形物理メカニズム間の複雑な相互作用により、水文学分野における重要な課題の1つである。 物理ベースのモデルは物理プロセスに対する深い理解に根ざしているが、機械学習の最近の進歩を活用することで潜在的に対処できる重要なパフォーマンスギャップは依然として残っている。 この研究の目的は、水文学における物理プロセスと制約の理解を機械学習アルゴリズムに組み込むことで、従来のデータ駆動アプローチと比較して大量のデータの必要性を減らしながら、パフォーマンスギャップを埋めることである。 特に,現在広く利用されている水文学モデルであるSWAT(Soil and Water Assessment Tool)と組み合わせたLSTMに基づくディープラーニングアーキテクチャを提案する。 このアプローチのキーとなる考え方は、物理的な洞察のないディープラーニングアーキテクチャが行うような気象変数からの流出を直接マッピングするのではなく、気象ドライバとストリームフローを接続する補助的な中間プロセスのモデル化である。 アプローチの有効性はミネソタ州南東部のルート川流域の南支流にあるいくつかの小さな流域で分析されている。 ランオフに関する観測データとは別に、SWATが生成した200年間の合成データセットを活用して、収束時間を短縮し、性能を向上させる。 この研究の初期段階では、物理と機械学習の結合に関するシステム理解を達成するために、より単純な物理ガイド付きディープラーニングアーキテクチャが使用されている。 より多くの複雑さが実装に導入されると、このフレームワークは、空間的異質性が存在するより洗練されたケースに一般化することができる。

Streamflow prediction is one of the key challenges in the field of hydrology due to the complex interplay between multiple non-linear physical mechanisms behind streamflow generation. While physically-based models are rooted in rich understanding of the physical processes, a significant performance gap still remains which can be potentially addressed by leveraging the recent advances in machine learning. The goal of this work is to incorporate our understanding of physical processes and constraints in hydrology into machine learning algorithms, and thus bridge the performance gap while reducing the need for large amounts of data compared to traditional data-driven approaches. In particular, we propose an LSTM based deep learning architecture that is coupled with SWAT (Soil and Water Assessment Tool), an hydrology model that is in wide use today. The key idea of the approach is to model auxiliary intermediate processes that connect weather drivers to streamflow, rather than directly mapping runoff from weather variables which is what a deep learning architecture without physical insight will do. The efficacy of the approach is being analyzed on several small catchments located in the South Branch of the Root River Watershed in southeast Minnesota. Apart from observation data on runoff, the approach also leverages a 200-year synthetic dataset generated by SWAT to improve the performance while reducing convergence time. In the early phases of this study, simpler versions of the physics guided deep learning architectures are being used to achieve a system understanding of the coupling of physics and machine learning. As more complexity is introduced into the present implementation, the framework will be able to generalize to more sophisticated cases where spatial heterogeneity is present.
翻訳日:2021-05-25 03:41:56 公開日:2020-12-02
# 金属-有機系における二酸化炭素吸着予測のための説明可能なメッセージパッシングネットワーク

Towards explainable message passing networks for predicting carbon dioxide adsorption in metal-organic frameworks ( http://arxiv.org/abs/2012.03723v1 )

ライセンス: Link先を確認
Ali Raza, Faaiq Waqar, Arni Sturluson, Cory Simon, Xiaoli Fern(参考訳) 金属-有機フレームワーク(metal-organic framework、mofs)は、化石燃料発電所の排出ガスから二酸化炭素を吸収して気候変動を緩和するナノ多孔質材料である。 本研究では,MOFのCO$2$吸着を予測するために,メッセージパッシングニューラルネットワーク(MPNN)の設計と訓練を行う。 予測にはMOFのサブ構造が重要であるかという知見を提供するため,グラフ表現に対するノード表現の寄与を定量化するためのソフトアテンション機構をリードアウト関数に導入する。 我々は,最も関連する部分構造のみを同定するために,注意をそらすための異なるメカニズムについて検討する。

Metal-organic framework (MOFs) are nanoporous materials that could be used to capture carbon dioxide from the exhaust gas of fossil fuel power plants to mitigate climate change. In this work, we design and train a message passing neural network (MPNN) to predict simulated CO$_2$ adsorption in MOFs. Towards providing insights into what substructures of the MOFs are important for the prediction, we introduce a soft attention mechanism into the readout function that quantifies the contributions of the node representations towards the graph representations. We investigate different mechanisms for sparse attention to ensure only the most relevant substructures are identified.
翻訳日:2021-05-25 03:41:33 公開日:2020-12-02
# デュアルエネルギーCTにおける高画質画像領域分解のための反復ニューラルネットワークの改良

An Improved Iterative Neural Network for High-Quality Image-Domain Material Decomposition in Dual-Energy CT ( http://arxiv.org/abs/2012.01986v1 )

ライセンス: Link先を確認
Zhipeng Li, Yong Long, Il Yong Chun(参考訳) Dual-Energy Computed Tomography (DECT) は材料分解を必要とする多くのアプリケーションで広く使われている。 高エネルギーおよび低エネルギーの減衰画像から直接物質像を分解する画像領域法は、減衰画像のノイズやアーティファクトの影響を受けやすい。 高品質な材料画像を得るため,様々なデータ駆動手法が提案されている。 反復ニューラルネットワーク(INN)は回帰NNとモデルベース画像再構成アルゴリズムを組み合わせた手法である。 innは奥行きnnの一般化誤差を低減し、様々な医用画像応用において高品質な再構成を達成した。 BCD-Netは、画像精製NNをブロック座標降下(BCD)モデルに基づく画像再構成アルゴリズムに組み込んだ最近のINNアーキテクチャである。 DECT 材料分解のための新しい INN アーキテクチャ, 異種クロスマテリアル BCD-Net を提案する。 提案した INN アーキテクチャは,画像再構成モジュールにおいて異なる材料間畳み込みニューラルネットワーク(CNN)を用い,画像再構成モジュールでは画像分解物理を用いる。 異なる材料間CNN精製器は、異なる材料間の相関をキャプチャする異なる符号化復号フィルタとクロスマテリアルモデルを含む。 我々は、パッチパースペクティブで異なる材料間CNN精製器を解釈する。 拡張心電図(XCAT)ファントムと臨床データを用いた数値実験により,異種クロスマテリアルBCD-Netは,エッジ保存正則化器を用いた従来型のモデルベース画像分解(MBID)法,事前学習した材料ワイドスペーシング変換を用いた最先端MBID法,非イテレーティブディープCNNデノイザなど,複数の画像領域の材料分解法よりも画像品質を著しく向上することが示された。

Dual-energy computed tomography (DECT) has been widely used in many applications that need material decomposition. Image-domain methods directly decompose material images from high- and low-energy attenuation images, and thus, are susceptible to noise and artifacts on attenuation images. To obtain high-quality material images, various data-driven methods have been proposed. Iterative neural network (INN) methods combine regression NNs and model-based image reconstruction algorithm. INNs reduced the generalization error of (noniterative) deep regression NNs, and achieved high-quality reconstruction in diverse medical imaging applications. BCD-Net is a recent INN architecture that incorporates imaging refining NNs into the block coordinate descent (BCD) model-based image reconstruction algorithm. We propose a new INN architecture, distinct cross-material BCD-Net, for DECT material decomposition. The proposed INN architecture uses distinct cross-material convolutional neural network (CNN) in image refining modules, and uses image decomposition physics in image reconstruction modules. The distinct cross-material CNN refiners incorporate distinct encoding-decoding filters and cross-material model that captures correlations between different materials. We interpret the distinct cross-material CNN refiner with patch perspective. Numerical experiments with extended cardiactorso (XCAT) phantom and clinical data show that proposed distinct cross-material BCD-Net significantly improves the image quality over several image-domain material decomposition methods, including a conventional model-based image decomposition (MBID) method using an edge-preserving regularizer, a state-of-the-art MBID method using pre-learned material-wise sparsifying transforms, and a noniterative deep CNN denoiser.
翻訳日:2021-05-25 03:41:11 公開日:2020-12-02
# マッチングの専門家を特徴づける学習

Learning to Characterize Matching Experts ( http://arxiv.org/abs/2012.01229v1 )

ライセンス: Link先を確認
Roee Shraga, Ofra Amir, Avigdor Gal(参考訳) マッチングはデータ統合プロセスの中心にあるタスクであり、データ要素間の対応を識別することを目的としています。 マッチング問題は伝統的に半自動で解決され、マッチングアルゴリズムと結果が人間の専門家によって検証された。 近年、ビッグデータの導入により、ループ内データ統合が課題視され、最近の研究では、効果的な人間のマッチングとバリデーションのための障害を分析している。 本研究では,提案する対応が有効であると確信できる人間を特徴付ける。 我々は,新しい特徴セットを伴って,信頼できる,価値のある人間専門家を識別することのできる,マッチング専門家を特徴付けるための新しいフレームワークを提供する。 本手法の有用性を広範な経験的評価を用いて実証する。 特に,未熟なマッチングをフィルタリングすることで,マッチング結果を改善することができることを示す。

Matching is a task at the heart of any data integration process, aimed at identifying correspondences among data elements. Matching problems were traditionally solved in a semi-automatic manner, with correspondences being generated by matching algorithms and outcomes subsequently validated by human experts. Human-in-the-loop data integration has been recently challenged by the introduction of big data and recent studies have analyzed obstacles to effective human matching and validation. In this work we characterize human matching experts, those humans whose proposed correspondences can mostly be trusted to be valid. We provide a novel framework for characterizing matching experts that, accompanied with a novel set of features, can be used to identify reliable and valuable human experts. We demonstrate the usefulness of our approach using an extensive empirical evaluation. In particular, we show that our approach can improve matching results by filtering out inexpert matchers.
翻訳日:2021-05-25 03:40:24 公開日:2020-12-02