このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210507となっている論文です。

PDF登録状況(公開日: 20210507)

TitleAuthorsAbstract論文公表日・翻訳日
# 個人再同定のためのメモリベースマルチソースメタラーニングによる未認識領域の一般化

Learning to Generalize Unseen Domains via Memory-based Multi-Source Meta-Learning for Person Re-Identification ( http://arxiv.org/abs/2012.00417v3 )

ライセンス: Link先を確認
Yuyang Zhao, Zhun Zhong, Fengxiang Yang, Zhiming Luo, Yaojin Lin, Shaozi Li, Nicu Sebe(参考訳) 近年の人物再識別(ReID)の進歩は、教師なしおよび教師なしの学習環境において、印象的な精度が得られる。 しかし、既存のメソッドのほとんどは、データアクセスによって新しいドメインの新しいモデルをトレーニングする必要があります。 パブリックプライバシのため、新しいドメインデータは必ずしもアクセスできないため、これらのメソッドの適用性が制限される。 本稿では,複数のラベル付きソースドメインしか持たない未認識ドメインでうまく機能するモデルを学ぶことを目的とした,reidにおけるマルチソースドメイン一般化の問題について述べる。 この問題に対処するため,我々はメモリベースのマルチソースメタラーニング(m$^3$l)フレームワークを提案する。 具体的には、より一般化可能なモデルを学ぶために、ドメイン一般化のトレインテストプロセスをシミュレートするメタラーニング戦略を導入する。 パラメトリック分類器による不安定なメタ最適化を克服するために,非パラメトリックでメタラーニングと調和するメモリベースの識別損失を提案する。 また,メタテストの特徴を多様化するメタバッチ正規化層(MetaBN)を提案する。 実験により、我々のm$^3$lは、未発見領域のモデルの一般化能力を効果的に向上し、4つの大規模reidデータセットで最先端のメソッドを上回ることができることを示した。

Recent advances in person re-identification (ReID) obtain impressive accuracy in the supervised and unsupervised learning settings. However, most of the existing methods need to train a new model for a new domain by accessing data. Due to public privacy, the new domain data are not always accessible, leading to a limited applicability of these methods. In this paper, we study the problem of multi-source domain generalization in ReID, which aims to learn a model that can perform well on unseen domains with only several labeled source domains. To address this problem, we propose the Memory-based Multi-Source Meta-Learning (M$^3$L) framework to train a generalizable model for unseen domains. Specifically, a meta-learning strategy is introduced to simulate the train-test process of domain generalization for learning more generalizable models. To overcome the unstable meta-optimization caused by the parametric classifier, we propose a memory-based identification loss that is non-parametric and harmonizes with meta-learning. We also present a meta batch normalization layer (MetaBN) to diversify meta-test features, further establishing the advantage of meta-learning. Experiments demonstrate that our M$^3$L can effectively enhance the generalization ability of the model for unseen domains and can outperform the state-of-the-art methods on four large-scale ReID datasets.
翻訳日:2021-05-30 19:49:13 公開日:2021-05-07
# (参考訳) evening the score: target sars-cov-2 protease inhibitor in graph generative models for therapeutic candidate [全文訳有]

Evening the Score: Targeting SARS-CoV-2 Protease Inhibition in Graph Generative Models for Therapeutic Candidates ( http://arxiv.org/abs/2105.10489v1 )

ライセンス: CC BY 4.0
Jenna Bilbrey, Logan Ward, Sutanay Choudhury, Neeraj Kumar, Ganesh Sivaraman(参考訳) 我々はSARS-CoV-2ウイルスタンパク質を標的とした新規薬物候補の治療設計のためのグラフ生成モデルについて検討した。 緊急性の感覚から、抗SARS活性を持つ薬物のデータセットに類似した構造を持つ分子を生成するオートエンコーダと、非常に新しい分子を生成する強化学習アルゴリズムを選択した。 生成過程において, 薬物類似性, 合成アクセシビリティ, および, \icfiftyに基づく抗SARS活性のバランスをとるために, いくつかの設計目標に対する最適化を検討する。 この生成フレームワークは、将来のパンデミックにおける薬物発見を、標的とする治療候補の高速な生成を通じて加速させる。

We examine a pair of graph generative models for the therapeutic design of novel drug candidates targeting SARS-CoV-2 viral proteins. Due to a sense of urgency, we chose well-validated models with unique strengths: an autoencoder that generates molecules with similar structures to a dataset of drugs with anti-SARS activity and a reinforcement learning algorithm that generates highly novel molecules. During generation, we explore optimization toward several design targets to balance druglikeness, synthetic accessability, and anti-SARS activity based on \icfifty. This generative framework\footnote{https://github.com/e xalearn/covid-drug-d esign} will accelerate drug discovery in future pandemics through the high-throughput generation of targeted therapeutic candidates.
翻訳日:2021-05-29 20:47:07 公開日:2021-05-07
# 公共政策のための機械学習における無視可能な公正-正確トレードオフの実証観察

Empirical observation of negligible fairness-accuracy trade-offs in machine learning for public policy ( http://arxiv.org/abs/2012.02972v2 )

ライセンス: Link先を確認
Kit T. Rodolfa, Hemank Lamba, Rayid Ghani(参考訳) 政策や社会的影響設定における機械学習の応用の高まりは、公平性、特に人種的マイノリティに対する関心を高めている。 これらの懸念は、機械学習と人工知能研究者の間で大きな関心を集めており、新しい手法を開発し、公正性を改善するための理論的境界を確立し、ソースデータ、正規化とモデルトレーニング、あるいはモデルスコアに対するポストホックな調整に集中している。 しかし、この境界と方法がいかにして政策選択と社会への影響をもたらすかを理解するために、現実の状況において公平性と正確性の間の実践的なトレードオフをほとんど研究していない。 本研究は,教育,精神保健,刑事司法,住宅安全にまたがる資源訓練プログラムにおける利益配分を機械学習を用いて知らせる共通文脈に着目し,いくつかの政策設定における格差緩和の正確性への影響を検討することで,このギャップを埋めている。 多くのアプリケーションにおける公平さと正確さのトレードオフは、実際には無視可能であることを示す。 いずれの設定においても, 自己資本の達成と, 提案したポストホック格差緩和手法を用いて, 精度を犠牲にすることなく, 公平性を大幅に改善した。 この観察は、調査対象の政策状況、介入可能な資源の規模、時間、保護されたグループの相対的なサイズにまたがって堅牢であった。 これらの経験的結果は、不一致を減らすには正確さの低下を受け入れるか、新しく複雑な方法を開発する必要があるという一般的な仮定に挑戦する。

Growing applications of machine learning in policy and social impact settings have raised concern for fairness implications, especially for racial minorities. These concerns have generated considerable interest among machine learning and artificial intelligence researchers, who have developed new methods and established theoretical bounds for improving fairness, focusing on the source data, regularization and model training, or post-hoc adjustments to model scores. However, little work has studied the practical trade-offs between fairness and accuracy in real-world settings to understand how these bounds and methods translate into policy choices and impact on society. Our empirical study fills this gap by investigating the impact on accuracy of mitigating disparities across several policy settings, focusing on the common context of using machine learning to inform benefit allocation in resource-constrained programs across education, mental health, criminal justice, and housing safety. We show that fairness-accuracy trade-offs in many applications are negligible in practice. In every setting, we find that explicitly focusing on achieving equity and using our proposed post-hoc disparity mitigation methods, fairness was substantially improved without sacrificing accuracy. This observation was robust across policy contexts studied, scale of resources available for intervention, time, and relative size of the protected groups. These empirical results challenge a commonly held assumption that reducing disparities either requires accepting an appreciable drop in accuracy or the development of novel, complex methods, making reducing disparities in these applications more practical.
翻訳日:2021-05-22 12:00:12 公開日:2021-05-07
# 深層学習による都市形態の分類:都市活力への応用

Classification of Urban Morphology with Deep Learning: Application on Urban Vitality ( http://arxiv.org/abs/2105.09908v1 )

ライセンス: Link先を確認
Wangyang Chen, Abraham Noah Wu, Filip Biljecki(参考訳) 空間的ビッグデータの様々な形態へのアクセシビリティの増大、計算能力の向上、こうした情報から恩恵を受けるユースケースなどにより、都市形態を定量的に研究する傾向が一般的である。 この手法は、密度、比率、混合物を数値で表した都市形態を計測するために開発されたが、人間の視覚的、直感的な視点から形態的特徴を直接表現するものではない。 道路網を視覚的に4クラスに自動分類する深層学習に基づく手法を提案することで,このギャップを埋める第一歩を踏み出した。 本稿では,本論文で紹介する道路網(カラー道路階層図)の画像を生成し,深層畳み込みニューラルネットワーク(resnet-34)を用いて分類する。 モデル全体の分類精度は0.875である。 世界中の9つの都市が研究エリアとして選ばれ、その道路網はopenstreetmapから取得される。 都市内の潜在サブグループは、各道路ネットワークカテゴリの比率のクラスタリングを通して発見される。 本稿の次節では,このような分類のユーザビリティに着目し,都市活力予測を事例として,人間の知覚増強の効果について検討する。 高度な木に基づく回帰モデルは、形態指標と活力指標の関係を確立するために初めて指定された。 ベースラインモデルと拡張モデルの比較実験において,人間の知覚増強の効果が検出された。 本研究は, 定量的都市形態研究のツールキットを新しい手法で拡張し, 今後の研究を支援する。

There is a prevailing trend to study urban morphology quantitatively thanks to the growing accessibility to various forms of spatial big data, increasing computing power, and use cases benefiting from such information. The methods developed up to now measure urban morphology with numerical indices describing density, proportion, and mixture, but they do not directly represent morphological features from human's visual and intuitive perspective. We take the first step to bridge the gap by proposing a deep learning-based technique to automatically classify road networks into four classes on a visual basis. The method is implemented by generating an image of the street network (Colored Road Hierarchy Diagram), which we introduce in this paper, and classifying it using a deep convolutional neural network (ResNet-34). The model achieves an overall classification accuracy of 0.875. Nine cities around the world are selected as the study areas and their road networks are acquired from OpenStreetMap. Latent subgroups among the cities are uncovered through a clustering on the percentage of each road network category. In the subsequent part of the paper, we focus on the usability of such classification: the effectiveness of our human perception augmentation is examined by a case study of urban vitality prediction. An advanced tree-based regression model is for the first time designated to establish the relationship between morphological indices and vitality indicators. A positive effect of human perception augmentation is detected in the comparative experiment of baseline model and augmented model. This work expands the toolkit of quantitative urban morphology study with new techniques, supporting further studies in the future.
翻訳日:2021-05-21 19:17:27 公開日:2021-05-07
# (参考訳) ランダムフォレストアルゴリズムを用いた人的資源の大規模分析手法 [全文訳有]

An Extensive Analytical Approach on Human Resources using Random Forest Algorithm ( http://arxiv.org/abs/2105.07855v1 )

ライセンス: CC BY 4.0
Swarajya lakshmi v papineni, A.Mallikarjuna Reddy, Sudeepti yarlagadda, Snigdha Yarlagadda, Haritha Akkinen(参考訳) 現在の求人調査によると、ほとんどのソフトウェア従業員は、データサイエンティスト、ビジネスアナリスト、人工知能分野などの最近の仕事に対する高い給与のために、仕事の仕方を変えようとしている。 また、ワークライフの不均衡、低賃金、不均一なシフト、その他多くの要因により、従業員はワークライフを変えることを考えさせます。 本稿では,人的資源の観点から企業の効率的な組織化を図るため,異なる従業員パラメータを考慮し,ランダムな森林アルゴリズムを用いてモデルを設計した。 これにより、人事部はギャップを特定し、優れた従業員の維持率で組織を円滑に運営することを支援する。 このHRとデータサイエンスの組み合わせは、組織の従業員の生産性、コラボレーション、幸福化に役立つ。 また、外部要因や社会的要因の観点から、従業員のパフォーマンスに影響を及ぼす戦略の開発にも役立ちます。

The current job survey shows that most software employees are planning to change their job role due to high pay for recent jobs such as data scientists, business analysts and artificial intelligence fields. The survey also indicated that work life imbalances, low pay, uneven shifts and many other factors also make employees think about changing their work life. In this paper, for an efficient organisation of the company in terms of human resources, the proposed system designed a model with the help of a random forest algorithm by considering different employee parameters. This helps the HR department retain the employee by identifying gaps and helping the organisation to run smoothly with a good employee retention ratio. This combination of HR and data science can help the productivity, collaboration and well-being of employees of the organisation. It also helps to develop strategies that have an impact on the performance of employees in terms of external and social factors.
翻訳日:2021-05-20 07:33:53 公開日:2021-05-07
# (参考訳) 情報ボトルネック理論の批判的考察とその深層学習への応用

A Critical Review of Information Bottleneck Theory and its Applications to Deep Learning ( http://arxiv.org/abs/2105.04405v1 )

ライセンス: CC BY 4.0
Mohammad Ali Alomrani(参考訳) 過去10年間で、ディープニューラルネットワークは、今日の社会のあらゆる側面に影響を与え続ける、例外なく改善されている。 高性能GPUの開発と大量のデータの提供により、MLシステムの学習能力は飛躍的に向上し、画像中の桁の分類から、超人的なパフォーマンスを持つゲームの世界チャンピオンを圧倒した。 しかし、MLモデルは新たなフロンティアを達成し続けているが、その実践的な成功は、内部の動作に関する深い理論的理解の欠如によって妨げられている。 幸いなことに、情報ボトルネック理論と呼ばれる既知の情報理論的手法が、ニューラルネットワークの学習ダイナミクスをよりよく理解するための有望なアプローチとして登場した。 原則として、IB理論はデータの圧縮と情報の保持の間のトレードオフとして学習をモデル化する。 本研究の目的は、情報理論のルーツと最近提案された深層学習モデル理解への応用をカバーするib理論の包括的レビューを提供することである。

In the past decade, deep neural networks have seen unparalleled improvements that continue to impact every aspect of today's society. With the development of high performance GPUs and the availability of vast amounts of data, learning capabilities of ML systems have skyrocketed, going from classifying digits in a picture to beating world-champions in games with super-human performance. However, even as ML models continue to achieve new frontiers, their practical success has been hindered by the lack of a deep theoretical understanding of their inner workings. Fortunately, a known information-theoreti c method called the information bottleneck theory has emerged as a promising approach to better understand the learning dynamics of neural networks. In principle, IB theory models learning as a trade-off between the compression of the data and the retainment of information. The goal of this survey is to provide a comprehensive review of IB theory covering it's information theoretic roots and the recently proposed applications to understand deep learning models.
翻訳日:2021-05-14 05:57:54 公開日:2021-05-07
# (参考訳) データ駆動構成則に対する局所近似ガウス過程回帰:ニューラルネットワークの開発と比較 [全文訳有]

Local approximate Gaussian process regression for data-driven constitutive laws: Development and comparison with neural networks ( http://arxiv.org/abs/2105.04554v1 )

ライセンス: CC BY-SA 4.0
Jan Niklas Fuhg, Michele Marino, Nikolaos Bouklas(参考訳) FE$^2$ や FE-FFT といったマルチスケール力学の階層計算手法は一般に高い計算コストを伴う。 データ駆動アプローチは、各ガウスポイントで明示的に追加計算を行う必要なしに、マクロシミュレーションに効果的なマイクロメカニカル応答を組み込むことにより、プロセスを大幅にスピードアップすることができる。 伝統的に、ニューラルネットワーク(anns)はソリッド・メカニクス・コミュニティにおいて選択されるサロゲート・モデリング技術である。 しかし,そのパラメトリックな性質と準最適トレーニングと3次元的なデータセットの推論特性により,深刻な欠点に悩まされている。 これらの問題は局所近似ガウス過程回帰(laGPR)を用いて回避できる。 この方法は、ガウス過程に基づく局所回帰モデルをトレーニングし、各局所モデルに対するデータのサブセットのみを使用することで、特定のひずみ空間におけるストレスアウトプットの予測を可能にし、annよりも優れた信頼性を提供する。 FE環境における大域構造問題の解法において,ラグPR近似の局所的性質に適合する修正ニュートン・ラフソン法を提案する。 そこで,本論文では,LaGPRを用いたデータ駆動構成予測と,有限ひずみ3次元超弾性問題に対して検証したFEスキームを用いたマクロ計算を組み合わせたマルチスケール計算を実現する。

Hierarchical computational methods for multiscale mechanics such as the FE$^2$ and FE-FFT methods are generally accompanied by high computational costs. Data-driven approaches are able to speed the process up significantly by enabling to incorporate the effective micromechanical response in macroscale simulations without the need of performing additional computations at each Gauss point explicitly. Traditionally artificial neural networks (ANNs) have been the surrogate modeling technique of choice in the solid mechanics community. However they suffer from severe drawbacks due to their parametric nature and suboptimal training and inference properties for the investigated datasets in a three dimensional setting. These problems can be avoided using local approximate Gaussian process regression (laGPR). This method can allow the prediction of stress outputs at particular strain space locations by training local regression models based on Gaussian processes, using only a subset of the data for each local model, offering better and more reliable accuracy than ANNs. A modified Newton-Raphson approach is proposed to accommodate for the local nature of the laGPR approximation when solving the global structural problem in a FE setting. Hence, the presented work offers a complete and general framework enabling multiscale calculations combining a data-driven constitutive prediction using laGPR, and macroscopic calculations using an FE scheme that we test for finite-strain three-dimensional hyperelastic problems.
翻訳日:2021-05-14 05:56:58 公開日:2021-05-07
# (参考訳) 可逆機械翻訳のための二重系列列列学習 [全文訳有]

Duplex Sequence-to-Sequence Learning for Reversible Machine Translation ( http://arxiv.org/abs/2105.03458v1 )

ライセンス: CC BY-SA 4.0
Zaixiang Zheng, Hao Zhou, Shujian Huang, Jiajun Chen, Jingjing Xu and Lei Li(参考訳) 機械翻訳などのシーケンシャル・ツー・シークエンス(seq2seq)問題は双方向であり、方向性のタスクと2つの方向の学習信号のペアを自然に導出する。 しかし、典型的なseq2seqニューラルネットワークは、1つの一方向タスクのみをモデル化し、並列データから双方向学習信号の可能性を十分に活用できない。 この問題に対処するために,本論文では,sep2seqニューラルネットワーク,rereder(reversible duplex transformer)を提案し,機械翻訳に適用する。 REDERのアーキテクチャには2つの端があり、それぞれがその言語のシーケンスを読み、取得するために言語を専門にしている。 その結果、rederは双方向信号から同時に学習することができ、入力と出力を単純に反転させることで「em reversible machine translation」を可能にする。

Sequence-to-sequence (seq2seq) problems such as machine translation are bidirectional, which naturally derive a pair of directional tasks and two directional learning signals. However, typical seq2seq neural networks are {\em simplex} that only model one unidirectional task, which cannot fully exploit the potential of bidirectional learning signals from parallel data. To address this issue, we propose a {\em duplex} seq2seq neural network, REDER (Reversible Duplex Transformer), and apply it to machine translation. The architecture of REDER has two ends, each of which specializes in a language so as to read and yield sequences in that language. As a result, REDER can simultaneously learn from the bidirectional signals, and enables {\em reversible machine translation} by simply flipping the input and output ends, Experiments on widely-used machine translation benchmarks verify that REDER achieves the first success of reversible machine translation, which helps obtain considerable gains over several strong baselines.
翻訳日:2021-05-14 05:34:03 公開日:2021-05-07
# (参考訳) 認知症高齢者の自然歩行ビデオにおけるパーキンソン病重症度の推定 [全文訳有]

Estimating Parkinsonism Severity in Natural Gait Videos of Older Adults with Dementia ( http://arxiv.org/abs/2105.03464v1 )

ライセンス: CC BY 4.0
Andrea Sabo, Sina Mehdizadeh, Andrea Iaboni, Babak Taati(参考訳) 薬物性パーキンソン症は認知症の高齢者の多くに影響を与え、歩行障害を引き起こす。 視覚に基づく人間のポーズ推定の新しい進歩は、住宅環境における歩行の頻繁で控えめな分析の可能性を開く。 本研究は認知症患者のビデオからパーキンソン病の臨床スコアを予測するための新しい空間-時間グラフ畳み込みネットワーク(st-gcn)アーキテクチャとトレーニング手順を提案する。 そこで本研究では,ST-GCNモデルによる歩行パターンの学習を促す,自己指導型事前訓練段階からなる2段階トレーニング手法を提案する。 提案したST-GCNモデルは,ビデオから抽出したジョイントトラジェクトリに基づいて評価し,従来の(通常,線形,ランダム)回帰モデルと時間畳み込みネットワークベースラインと比較した。 認知症53歳以上の高齢者の3つの2D人間のポーズ推定ライブラリ(OpenPose, Detectron, AlphaPose)とMicrosoft Kinect(2D, 3D)を用いて,4787個の自然歩行行動の関節軌跡を抽出する。 14人の参加者から得られた399人の歩行のサブセットは、統一パーキンソン病格付け尺度(updrs)とシンプソン・アンガス尺度(sas)の歩行基準でパーキンソン病重症度スコアで注釈付けされる。 Kinectから抽出した3次元ジョイントトラジェクトリで動作するST-GCNモデルは,他のモデルや機能セットよりも一貫して優れていた。 自然歩行におけるパーキンソニズムスコアの予測は、SPDRS-gait と SAS-gait のそれぞれ 0.53 +/- 0.03 と 0.40 +/- 0.02 のマクロ平均F1スコアを達成できる最良のモデルで、依然として難しい課題である。 この作業のための事前トレーニングされたモデルとデモコードは、https://github.com/t aatiteam/stgcn_parki nsonism_prediction.c omで入手できる。

Drug-induced parkinsonism affects many older adults with dementia, often causing gait disturbances. New advances in vision-based human pose-estimation have opened possibilities for frequent and unobtrusive analysis of gait in residential settings. This work proposes novel spatial-temporal graph convolutional network (ST-GCN) architectures and training procedures to predict clinical scores of parkinsonism in gait from video of individuals with dementia. We propose a two-stage training approach consisting of a self-supervised pretraining stage that encourages the ST-GCN model to learn about gait patterns before predicting clinical scores in the finetuning stage. The proposed ST-GCN models are evaluated on joint trajectories extracted from video and are compared against traditional (ordinal, linear, random forest) regression models and temporal convolutional network baselines. Three 2D human pose-estimation libraries (OpenPose, Detectron, AlphaPose) and the Microsoft Kinect (2D and 3D) are used to extract joint trajectories of 4787 natural walking bouts from 53 older adults with dementia. A subset of 399 walks from 14 participants is annotated with scores of parkinsonism severity on the gait criteria of the Unified Parkinson's Disease Rating Scale (UPDRS) and the Simpson-Angus Scale (SAS). Our results demonstrate that ST-GCN models operating on 3D joint trajectories extracted from the Kinect consistently outperform all other models and feature sets. Prediction of parkinsonism scores in natural walking bouts of unseen participants remains a challenging task, with the best models achieving macro-averaged F1-scores of 0.53 +/- 0.03 and 0.40 +/- 0.02 for UPDRS-gait and SAS-gait, respectively. Pre-trained model and demo code for this work is available: https://github.com/T aatiTeam/stgcn_parki nsonism_prediction.
翻訳日:2021-05-14 05:09:21 公開日:2021-05-07
# (参考訳) Incoherenceは驚きか? 言語モデルからのコヒーレンス予測の目標評価 [全文訳有]

Is Incoherence Surprising? Targeted Evaluation of Coherence Prediction from Language Models ( http://arxiv.org/abs/2105.03495v1 )

ライセンス: CC BY 4.0
Anne Beyer and Sharid Lo\'aiciga and David Schlangen(参考訳) コヒーレントな談話は、表現の選択、表現されたイベント間の論理的関係、世界知識との暗黙の互換性など、様々な制約のセットの満足度によって、単に発話の集まりと区別される。 ニューラルネットワークモデルはそのような制約をエンコードするのか? 談話と対話の一貫性の異なる側面に対処する拡張可能なテストスイートを設計する。 従来のコヒーレンス評価研究とは異なり、文順の摂動を超えた特定の言語デバイスに対処し、コヒーレンスを構成するものや、言語モデリングの目的に基づいて訓練されたニューラルモデルがエンコードするものをよりきめ細かな分析を可能にする。 ニューラルネットワークモデルに対する目標評価パラダイム(Marvin and Linzen, 2018)を構文以外の現象に拡張することにより、このパラダイムがコヒーレンスの概念に寄与する言語的品質の評価に等しく適していることを示す。

Coherent discourse is distinguished from a mere collection of utterances by the satisfaction of a diverse set of constraints, for example choice of expression, logical relation between denoted events, and implicit compatibility with world-knowledge. Do neural language models encode such constraints? We design an extendable set of test suites addressing different aspects of discourse and dialogue coherence. Unlike most previous coherence evaluation studies, we address specific linguistic devices beyond sentence order perturbations, allowing for a more fine-grained analysis of what constitutes coherence and what neural models trained on a language modelling objective do encode. Extending the targeted evaluation paradigm for neural language models (Marvin and Linzen, 2018) to phenomena beyond syntax, we show that this paradigm is equally suited to evaluate linguistic qualities that contribute to the notion of coherence.
翻訳日:2021-05-14 04:52:06 公開日:2021-05-07
# (参考訳) SimJEB: Simulated Jet Engine Bracket Dataset [全文訳有]

SimJEB: Simulated Jet Engine Bracket Dataset ( http://arxiv.org/abs/2105.03534v1 )

ライセンス: CC BY 4.0
Eamon Whalen, Azariah Beyene, Caitlin Mueller(参考訳) 近年の幾何学的ディープラーニングの進歩により、新しい種類のエンジニアリングサーロゲートモデルが可能になったが、既存の形状データセットは評価に適していない。 本稿では,クラウドソーシングされた新しい機械括弧の集合であるシミュレートジェットエンジンブラケットデータセット(simjeb)と,サロゲートモデリング用に設計された高忠実度構造シミュレーションについて紹介する。 SimJEBモデルは、パラメトリックサロゲートモデル評価で一般的に使用される合成データセットよりも複雑で多様でリアルである。 既存のエンジニアリング形状のコレクションとは対照的に、SimJEBのモデルはどれも同じエンジニアリング機能のために設計されており、一貫した構造的な負荷とサポート条件を持つ。 SimJEBのモデルは、GrabCAD Jet Engine Bracket Challenge: 56か国を代表する320人のデザイナーによる700以上の手作りCADエントリーとのオープンエンジニアリングデザインコンペティションから集められた。 各モデルはクリーニング、分類、メッシュ化され、元の競合仕様に従って有限要素分析によってシミュレートされている。 その結果は、幾何学的深層学習と工学的サロゲートモデルを進めるための多様で高品質でアプリケーション中心の設計のコレクションである。

Recent advancements in geometric deep learning have enabled a new class of engineering surrogate models; however, few existing shape datasets are well-suited to evaluate them. This paper introduces the Simulated Jet Engine Bracket Dataset (SimJEB): a new, public collection of crowdsourced mechanical brackets and high-fidelity structural simulations designed specifically for surrogate modeling. SimJEB models are more complex, diverse, and realistic than the synthetically generated datasets commonly used in parametric surrogate model evaluation. In contrast to existing engineering shape collections, SimJEB's models are all designed for the same engineering function and thus have consistent structural loads and support conditions. The models in SimJEB were collected from the original submissions to the GrabCAD Jet Engine Bracket Challenge: an open engineering design competition with over 700 hand-designed CAD entries from 320 designers representing 56 countries. Each model has been cleaned, categorized, meshed, and simulated with finite element analysis according to the original competition specifications. The result is a collection of diverse, high-quality and application-focused designs for advancing geometric deep learning and engineering surrogate models.
翻訳日:2021-05-14 04:39:10 公開日:2021-05-07
# (参考訳) マンパワースケジューリング問題の解法に関するインテリジェントモデル [全文訳有]

An Intelligent Model for Solving Manpower Scheduling Problems ( http://arxiv.org/abs/2105.03540v1 )

ライセンス: CC BY 4.0
Lingyu Zhang and Tianyu Liu and Yunhai Wang(参考訳) 人力スケジューリング問題は、資源管理分野における重要な研究分野である。 本稿では,スケジューリング問題に関する既存の研究に基づいて,マンパワースケジューリング問題を新しい視点から,複数制約条件下での組合せ最適化問題に変換する。 また、論理的パラダイムを用いて問題解の数学的モデルを構築し、モデルを解くための改良された多次元進化アルゴリズムも構築する。 さらに,本稿で論じる制約は,現代社会における人的資源調整の要件をすべて網羅するものであり,実験結果に支えられている。 議論部では,本モデルと他のヒューリスティックアルゴリズムや線形プログラミング手法を比較し,本論文で提案するモデルが25.7%の効率向上と17%の精度向上を実現していることを示す。 さらに,マンパワースケジューリング問題の数値解法として,タスクリスト生成のスケジューリングアルゴリズムとスケジューリング結果の表示法について検討する。 その結果, 基本アルゴリズムの様々な改良によって異なる条件問題が解決されるだけでなく, 異なるベースラインモデルとの比較により少なくとも28.91%の時間効率が向上する新しいアルゴリズムを提案する。

The manpower scheduling problem is a critical research field in the resource management area. Based on the existing studies on scheduling problem solutions, this paper transforms the manpower scheduling problem into a combinational optimization problem under multi-constraint conditions from a new perspective. It also uses logical paradigms to build a mathematical model for problem solution and an improved multi-dimensional evolution algorithm for solving the model. Moreover, the constraints discussed in this paper basically cover all the requirements of human resource coordination in modern society and are supported by our experiment results. In the discussion part, we compare our model with other heuristic algorithms or linear programming methods and prove that the model proposed in this paper makes a 25.7% increase in efficiency and a 17% increase in accuracy at most. In addition, to the numerical solution of the manpower scheduling problem, this paper also studies the algorithm for scheduling task list generation and the method of displaying scheduling results. As a result, we not only provide various modifications for the basic algorithm to solve different condition problems but also propose a new algorithm that increases at least 28.91% in time efficiency by comparing with different baseline models.
翻訳日:2021-05-14 04:25:58 公開日:2021-05-07
# (参考訳) 人工ニューラルネットワークによる人力スケジューリング問題の解法 [全文訳有]

Apply Artificial Neural Network to Solving Manpower Scheduling Problem ( http://arxiv.org/abs/2105.03541v1 )

ライセンス: CC BY 4.0
Tianyu Liu and Lingyu Zhang(参考訳) マンパワースケジューリング問題は、ある種の重要な組合せ最適化問題である。 スケジューリング問題に対するソリューションの研究は、企業、病院、その他の作業ユニットの効率を改善することができる。 本稿では,既存研究に基づくマルチシフトマンパワースケジューリング問題を解決するために,ディープラーニングと組み合わせた新しいモデルを提案する。 このモデルは、まず現在の制約に従って目的関数の最適化値を解決し、最初に従業員配置の計画を見つける。 その後、スケジューリングテーブル生成アルゴリズムを使用して、短時間でスケジューリング結果を取得する。 さらに,我々の提案する最も顕著な特徴は,時系列に基づくニューラルネットワークトレーニング手法を用いて,長期・長期のスケジューリングタスクを解決し,マンパワーアレンジメントを得ることである。 本稿では,ニューラルネットワークの選択基準とトレーニングプロセスについても述べる。 本モデルでは,ニューラルネットワークの改良により正確な予測を行うことができることを示す。 本稿では,ニューラルネットワークトレーニングプロセスの課題についても論じ,アレンジメント計画の達成後に啓蒙結果を得る。 我々の研究は、ニューラルネットワークとディープラーニング戦略が、同様の問題を効果的に解決する可能性を示唆している。

The manpower scheduling problem is a kind of critical combinational optimization problem. Researching solutions to scheduling problems can improve the efficiency of companies, hospitals, and other work units. This paper proposes a new model combined with deep learning to solve the multi-shift manpower scheduling problem based on the existing research. This model first solves the objective function's optimized value according to the current constraints to find the plan of employee arrangement initially. It will then use the scheduling table generation algorithm to obtain the scheduling result in a short time. Moreover, the most prominent feature we propose is that we will use the neural network training method based on the time series to solve long-term and long-period scheduling tasks and obtain manpower arrangement. The selection criteria of the neural network and the training process are also described in this paper. We demonstrate that our model can make a precise forecast based on the improvement of neural networks. This paper also discusses the challenges in the neural network training process and obtains enlightening results after getting the arrangement plan. Our research shows that neural networks and deep learning strategies have the potential to solve similar problems effectively.
翻訳日:2021-05-14 04:12:27 公開日:2021-05-07
# 一様収束, 対角球および簡単な治療

Uniform Convergence, Adversarial Spheres and a Simple Remedy ( http://arxiv.org/abs/2105.03491v1 )

ライセンス: Link先を確認
Gregor Bachmann, Seyed-Mohsen Moosavi-Dezfooli, Thomas Hofmann(参考訳) これまでの研究は、一様収束の一般的な枠組みと、ニューラルネットワークの一般化を説明する能力に疑問を投げかけてきた。 特定のデータセットを考慮することで、ニューラルネットワークはトレーニングデータの投影(逆数集合)を完全に誤って分類し、一様収束空白に基づいて既存の一般化を束縛する。 我々は、無限大モデルのレンズを通して、以前に研究されたデータセットの広範な理論的検討を行う。 我々は、ニューラル・タンジェント・カーネル(NTK)も同じ現象に悩まされており、その起源を明らかにする。 我々は,アウトプットバイアスの重要な役割を強調し,理論的に,賢明な選択が問題をいかに完全に緩和するかを実証的に示す。 敵セットにおける鋭い位相遷移の精度を同定し,その学習サンプルサイズ依存性について検討した。 結果として、我々は効果が消える向こうの臨界サンプルサイズを特徴づけることができる。 さらに, ニューラルネットワークの正準分解を異なる固有関数に考慮し, クリーンでノイズの多い部分への分解について検討し, バイアスが小すぎる場合でも相反する現象が持続することを示す。

Previous work has cast doubt on the general framework of uniform convergence and its ability to explain generalization in neural networks. By considering a specific dataset, it was observed that a neural network completely misclassifies a projection of the training data (adversarial set), rendering any existing generalization bound based on uniform convergence vacuous. We provide an extensive theoretical investigation of the previously studied data setting through the lens of infinitely-wide models. We prove that the Neural Tangent Kernel (NTK) also suffers from the same phenomenon and we uncover its origin. We highlight the important role of the output bias and show theoretically as well as empirically how a sensible choice completely mitigates the problem. We identify sharp phase transitions in the accuracy on the adversarial set and study its dependency on the training sample size. As a result, we are able to characterize critical sample sizes beyond which the effect disappears. Moreover, we study decompositions of a neural network into a clean and noisy part by considering its canonical decomposition into its different eigenfunctions and show empirically that for too small bias the adversarial phenomenon still persists.
翻訳日:2021-05-11 15:24:44 公開日:2021-05-07
# トポロジ的不確実性:アクティベーショングラフの永続化によるトレーニングニューラルネットワークの監視

Topological Uncertainty: Monitoring trained neural networks through persistence of activation graphs ( http://arxiv.org/abs/2105.04404v1 )

ライセンス: Link先を確認
Th\'eo Lacombe (DATASHAPE), Yuichi Ike, Mathieu Carriere, Fr\'ed\'eric Chazal, Marc Glisse, Yuhei Umeda(参考訳) ニューラルネットワークは様々な状況で驚くべきパフォーマンスを達成することができるが、複雑なタスクでネットワークを適切に訓練するには専門知識が必要であり、計算の観点からは高価である。 産業アプリケーションでは、オープンワールド設定から得られるデータは、ネットワークがトレーニングされたベンチマークデータセットと大きく異なる可能性がある。 ネットワークを再トレーニングすることなく、そのようなバリエーションの存在を監視できることは、非常に重要です。 本稿では,そのアクティベーショングラフの位相的性質に基づいて,訓練されたニューラルネットワークを監視する手法を提案する。 そこで,本研究では,最終層に限らずネットワーク全体を調査することで,予測の信頼性を評価するためのスコアであるトポロジカル不確実性(Topological Uncertainty)を,実践者が通常行うように割り当てる。 我々のアプローチは、トレーニング後のレベルで完全に機能し、ネットワークアーキテクチャ、最適化スキーム、データ拡張や補助データセットの使用など、いかなる仮定も必要とせず、広範囲のネットワークアーキテクチャやデータタイプに忠実に適用できます。 画像とグラフの合成データと実データの両方において,ネットワーク選択訓練,分散検出,シフト検出の文脈における位相的不確かさの可能性について実験的に示す。

Although neural networks are capable of reaching astonishing performances on a wide variety of contexts, properly training networks on complicated tasks requires expertise and can be expensive from a computational perspective. In industrial applications, data coming from an open-world setting might widely differ from the benchmark datasets on which a network was trained. Being able to monitor the presence of such variations without retraining the network is of crucial importance. In this article, we develop a method to monitor trained neural networks based on the topological properties of their activation graphs. To each new observation, we assign a Topological Uncertainty, a score that aims to assess the reliability of the predictions by investigating the whole network instead of its final layer only, as typically done by practitioners. Our approach entirely works at a post-training level and does not require any assumption on the network architecture, optimization scheme, nor the use of data augmentation or auxiliary datasets; and can be faithfully applied on a large range of network architectures and data types. We showcase experimentally the potential of Topological Uncertainty in the context of trained network selection, Out-Of-Distribution detection, and shift-detection, both on synthetic and real datasets of images and graphs.
翻訳日:2021-05-11 15:24:26 公開日:2021-05-07
# 言語非依存のdeexicalizationを用いた多言語概念テキストNLGの一般化

Generalising Multilingual Concept-to-Text NLG with Language Agnostic Delexicalisation ( http://arxiv.org/abs/2105.03432v1 )

ライセンス: Link先を確認
Giulio Zhou and Gerasimos Lampouras(参考訳) 概念からテキストへの自然言語生成は、自然言語で入力の意味を表現するタスクである。 このタスクの以前のアプローチでは、入力の語彙化に依存することで、希少なインスタンスや見当たらないインスタンスに一般化することができた。 しかし、これはしばしば、入力が出力テキストに冗長に現れることを要求する。 これは、タスクが同じ入力を受けた複数の言語で出力テキストを生成するように拡張される、多言語設定における課題を引き起こす。 本稿では,多言語モデルのコンセプト・ツー・テキストへの応用について検討し,多言語事前学習埋め込みを用いた新しい語彙化手法である言語非依存語彙化を提案し,文字レベルのポスト編集モデルを用いて語彙化時に単語を正しい形に反映する。 5つのデータセットと5つの言語で実験した結果、多言語モデルは概念からテキストへの一言語モデルよりも優れており、我々のフレームワークは以前のアプローチ、特に低リソース言語よりも優れています。

Concept-to-text Natural Language Generation is the task of expressing an input meaning representation in natural language. Previous approaches in this task have been able to generalise to rare or unseen instances by relying on a delexicalisation of the input. However, this often requires that the input appears verbatim in the output text. This poses challenges in multilingual settings, where the task expands to generate the output text in multiple languages given the same input. In this paper, we explore the application of multilingual models in concept-to-text and propose Language Agnostic Delexicalisation, a novel delexicalisation method that uses multilingual pretrained embeddings, and employs a character-level post-editing model to inflect words in their correct form during relexicalisation. Our experiments across five datasets and five languages show that multilingual models outperform monolingual models in concept-to-text and that our framework outperforms previous approaches, especially for low resource languages.
翻訳日:2021-05-11 15:20:00 公開日:2021-05-07
# Pareto-OptimalのResNetは、ほぼ4ビット

Pareto-Optimal Quantized ResNet Is Mostly 4-bit ( http://arxiv.org/abs/2105.03536v1 )

ライセンス: Link先を確認
AmirAli Abdolrashidi, Lisa Wang, Shivani Agrawal, Jonathan Malmaud, Oleg Rybakov, Chas Leichner, Lukasz Lew(参考訳) 量子化はニューラルネットワークを圧縮し計算コストを下げるための一般的な技術となっているが、以前の研究はネットワークサイズを変えることなく量子化を研究することに集中していた。 ニューラルネットワークの現実世界のアプリケーションの多くは、計算コストとメモリ予算を持ち、パラメータの数を変更することでモデル品質と引き換えることができる。 本研究ではResNetをケーススタディとして,計算コスト品質のトレードオフ曲線に対する量子化の効果を体系的に検討する。 すなわち、bfloat16計算コスト品質のトレードオフ曲線は4ビットと8ビットの曲線によってパレートされ、モデルは主に4ビットに量子化され、最も良いパレート曲線が得られる。 さらに,4ビットResNet-50のImageNet上で,量子化学習を行い,トップ1のeval精度77.09%を得る。 一般化ギャップの測定により量子化の正則化効果を示す。 私たちが使った量子化方法は実用性のために最適化されています。 我々の研究は、量子化のための最適な数値形式の研究と、これらのフォーマットをサポートする機械学習アクセラレータの開発を動機付けている。 そのライブラリはhttps://github.com/g oogle-research/googl e-research/tree/mast er/aqtでオープンソース化されています。

Quantization has become a popular technique to compress neural networks and reduce compute cost, but most prior work focuses on studying quantization without changing the network size. Many real-world applications of neural networks have compute cost and memory budgets, which can be traded off with model quality by changing the number of parameters. In this work, we use ResNet as a case study to systematically investigate the effects of quantization on inference compute cost-quality tradeoff curves. Our results suggest that for each bfloat16 ResNet model, there are quantized models with lower cost and higher accuracy; in other words, the bfloat16 compute cost-quality tradeoff curve is Pareto-dominated by the 4-bit and 8-bit curves, with models primarily quantized to 4-bit yielding the best Pareto curve. Furthermore, we achieve state-of-the-art results on ImageNet for 4-bit ResNet-50 with quantization-aware training, obtaining a top-1 eval accuracy of 77.09%. We demonstrate the regularizing effect of quantization by measuring the generalization gap. The quantization method we used is optimized for practicality: It requires little tuning and is designed with hardware capabilities in mind. Our work motivates further research into optimal numeric formats for quantization, as well as the development of machine learning accelerators supporting these formats. As part of this work, we contribute a quantization library written in JAX, which is open-sourced at https://github.com/g oogle-research/googl e-research/tree/mast er/aqt.
翻訳日:2021-05-11 15:14:09 公開日:2021-05-07
# 条件付きデフォルマブルテンプレートのための生成逆レジストレーション

Generative Adversarial Registration for Improved Conditional Deformable Templates ( http://arxiv.org/abs/2105.04349v1 )

ライセンス: Link先を確認
Neel Dey, Mengwei Ren, Adrian V. Dalca, Guido Gerig(参考訳) 変形可能なテンプレートは、大規模医療画像登録、セグメンテーション、人口分析に不可欠である。 現在の従来型および深層ネットワークベースのテンプレート構築手法では、正規化登録対象のみを使用し、しばしばぼやけた、または解剖学的に意味のない外観でテンプレートを生成し、下流の生物医学的解釈を基礎としている。 我々は,フレキシブル画像共変量に基づく生成的逆登録フレームワークを用いて,移動テンプレートのリアリズムを奨励する敵ゲームとして,変形可能な登録と条件付きテンプレート推定を再構成する。 得られたテンプレートは、年齢や病気などの属性に特異的に顕著な増加を示し、グループワイドの時空間傾向に適合し、シャープネスと集中性が向上した。 これらの改良により、様々な共変量を持つより正確な集団モデリングが可能となり、下流解析が標準化され、興味のある構造に対する解剖学的記述が容易になった。

Deformable templates are essential to large-scale medical image registration, segmentation, and population analysis. Current conventional and deep network-based methods for template construction use only regularized registration objectives and often yield templates with blurry and/or anatomically implausible appearance, confounding downstream biomedical interpretation. We reformulate deformable registration and conditional template estimation as an adversarial game wherein we encourage realism in the moved templates with a generative adversarial registration framework conditioned on flexible image covariates. The resulting templates exhibit significant gain in specificity to attributes such as age and disease, better fit underlying group-wise spatiotemporal trends, and achieve improved sharpness and centrality. These improvements enable more accurate population modeling with diverse covariates for standardized downstream analyses and easier anatomical delineation for structures of interest.
翻訳日:2021-05-11 15:06:24 公開日:2021-05-07
# 文脈認識機械翻訳における文脈使用量の測定と増加

Measuring and Increasing Context Usage in Context-Aware Machine Translation ( http://arxiv.org/abs/2105.03482v1 )

ライセンス: Link先を確認
Patrick Fernandes, Kayo Yin, Graham Neubig, Andr\'e F. T. Martins(参考訳) ニューラルマシン翻訳における最近の研究は、現在翻訳されているもの以外の文から、文間コンテキストを使うことの必要性と実現可能性の両方を示している。 しかし、理論的にはこの余分な文脈を利用できるモデルアーキテクチャを提示する現在の手法は多く存在するが、翻訳時に実際にどの程度利用するのかはよく分かっていない。 本稿では,これらのモデルによる文脈の利用を定量化する新しい指標である条件付きクロスミュータント情報を提案する。 このメトリクスを用いて、文書レベルの機械翻訳システムが特定の種類のコンテキストを使用するかを測定する。 我々は、ターゲットコンテキストはソースコンテキストよりも多く参照され、より長いコンテキストでの条件付けは結果に減少することを示した。 次に,コンテキスト認識モデルによってコンテキストの使用量を増やすために,コンテキスト認識ワードドロップアウトという,新しい簡易なトレーニング手法を導入する。 実験により,提案手法は文脈使用量を増やし,bleuやcometなどの指標による翻訳品質を反映し,照応代名詞分解能や語彙コヒーションコントラストデータセットの性能向上に寄与することが示された。

Recent work in neural machine translation has demonstrated both the necessity and feasibility of using inter-sentential context -- context from sentences other than those currently being translated. However, while many current methods present model architectures that theoretically can use this extra context, it is often not clear how much they do actually utilize it at translation time. In this paper, we introduce a new metric, conditional cross-mutual information, to quantify the usage of context by these models. Using this metric, we measure how much document-level machine translation systems use particular varieties of context. We find that target context is referenced more than source context, and that conditioning on a longer context has a diminishing effect on results. We then introduce a new, simple training method, context-aware word dropout, to increase the usage of context by context-aware models. Experiments show that our method increases context usage and that this reflects on the translation quality according to metrics such as BLEU and COMET, as well as performance on anaphoric pronoun resolution and lexical cohesion contrastive datasets.
翻訳日:2021-05-11 15:05:16 公開日:2021-05-07
# 人間レベルNLPのための事前学習型トランスフォーマーの実証評価:サンプルサイズと寸法の役割

Empirical Evaluation of Pre-trained Transformers for Human-Level NLP: The Role of Sample Size and Dimensionality ( http://arxiv.org/abs/2105.03484v1 )

ライセンス: Link先を確認
Adithya V Ganesan, Matthew Matero, Aravind Reddy Ravula, Huy Vu and H. Andrew Schwartz(参考訳) メンタルヘルス、パーソナリティ、人口統計などの人間レベルのNLPタスクでは、現代のトランスフォーマーベースの言語モデルにおいて、各レイヤの標準的な768以上の隠れ状態サイズよりも観測回数が小さくなり、トランスフォーマーを効果的に活用する能力が制限される。 本稿では,次元削減手法(主成分分析,分解技術,多層自動エンコーダ)の役割と,予測性能の関数としての埋め込みベクトルと標本サイズの次元性について,系統的研究を行った。 まず,データ量に制限のある微調整型大規模モデルでは,事前学習した次元削減体制で克服できるような大きな困難が生じる。 RoBERTaは、人間レベルのタスクにおいて一貫して最高のパフォーマンスを達成し、PCAは、長いテキストを書くユーザーの扱いを改善するために、他の削減方法よりも有利である。 最後に、ほとんどのタスクが、埋め込み次元の$\frac{1}{12}$で最高のパフォーマンスに匹敵する結果が得られることを観察する。

In human-level NLP tasks, such as predicting mental health, personality, or demographics, the number of observations is often smaller than the standard 768+ hidden state sizes of each layer within modern transformer-based language models, limiting the ability to effectively leverage transformers. Here, we provide a systematic study on the role of dimension reduction methods (principal components analysis, factorization techniques, or multi-layer auto-encoders) as well as the dimensionality of embedding vectors and sample sizes as a function of predictive performance. We first find that fine-tuning large models with a limited amount of data pose a significant difficulty which can be overcome with a pre-trained dimension reduction regime. RoBERTa consistently achieves top performance in human-level tasks, with PCA giving benefit over other reduction methods in better handling users that write longer texts. Finally, we observe that a majority of the tasks achieve results comparable to the best performance with just $\frac{1}{12}$ of the embedding dimensions.
翻訳日:2021-05-11 15:04:56 公開日:2021-05-07
# 変分グラフオートエンコーダを用いた教師なしクロスドメイン必須連鎖学習

Unsupervised Cross-Domain Prerequisite Chain Learning using Variational Graph Autoencoders ( http://arxiv.org/abs/2105.03505v1 )

ライセンス: Link先を確認
Irene Li, Vanessa Yan, Tianxiao Li, Rihao Qu and Dragomir Radev(参考訳) 前提条件チェーンの学習は、既知の領域と未知領域の両方で知識を効率的に獲得するための重要なタスクである。 例えば、自然言語処理(nlp)ドメインの専門家であるかもしれないが、未知のコンピュータビジョンドメイン(cv)で新しい概念を学ぶための最善の順序を判断したいと考えている。 どちらのドメインも、機械学習の基礎やディープラーニングモデルなど、一般的な概念を共有している。 本稿では,最適化された変分グラフオートエンコーダを用いた教師なしクロスドメイン概念の前提条件学習を提案する。 本モデルは,情報豊富なドメイン(ソースドメイン)から情報対象ドメイン(ターゲットドメイン)への概念的前提関係の伝達を学習し,他のベースラインモデルを大幅に上回る。 また、CVとバイオインフォマティクス(BIO)という2つの新しいドメインを導入することで、既存のデータセットを拡張する。 注釈付きデータとリソース、およびコードも公開される予定だ。

Learning prerequisite chains is an essential task for efficiently acquiring knowledge in both known and unknown domains. For example, one may be an expert in the natural language processing (NLP) domain but want to determine the best order to learn new concepts in an unfamiliar Computer Vision domain (CV). Both domains share some common concepts, such as machine learning basics and deep learning models. In this paper, we propose unsupervised cross-domain concept prerequisite chain learning using an optimized variational graph autoencoder. Our model learns to transfer concept prerequisite relations from an information-rich domain (source domain) to an information-poor domain (target domain), substantially surpassing other baseline models. Also, we expand an existing dataset by introducing two new domains: CV and Bioinformatics (BIO). The annotated data and resources, as well as the code, will be made publicly available.
翻訳日:2021-05-11 15:04:37 公開日:2021-05-07
# notの理解による理解:言語モデルにおける否定のモデリング

Understanding by Understanding Not: Modeling Negation in Language Models ( http://arxiv.org/abs/2105.03519v1 )

ライセンス: Link先を確認
Arian Hosseini, Siva Reddy, Dzmitry Bahdanau, R Devon Hjelm, Alessandro Sordoni and Aaron Courville(参考訳) 否定は自然言語の中核構造である。 多くのタスクで非常に成功したにもかかわらず、最先端の事前学習された言語モデルは、しばしば否定を正しく処理する。 この点において、言語モデルを改善するために、原文コーパスから否定的な汎用文をベースとした、異種目的の言語モデリングの目的を強化することを提案する。 BERTと組み合わせた目標をトレーニングすることにより、否定されたLAMAデータセット上で平均1エラー率を4%に削減する。 また、否定的なNLIベンチマークも改善されている。

Negation is a core construction in natural language. Despite being very successful on many tasks, state-of-the-art pre-trained language models often handle negation incorrectly. To improve language models in this regard, we propose to augment the language modeling objective with an unlikelihood objective that is based on negated generic sentences from a raw text corpus. By training BERT with the resulting combined objective we reduce the mean top~1 error rate to 4% on the negated LAMA dataset. We also see some improvements on the negated NLI benchmarks.
翻訳日:2021-05-11 15:04:19 公開日:2021-05-07
# 深層学習の一般化を向上する人間支援サリエンシマップ

Human-Aided Saliency Maps Improve Generalization of Deep Learning ( http://arxiv.org/abs/2105.03492v1 )

ライセンス: Link先を確認
Aidan Boyd, Kevin Bowyer, Adam Czajka(参考訳) ディープラーニングは多くのコンピュータビジョン問題において顕著な精度の向上をもたらした。 進行中の課題のひとつは、トレーニングデータが制限された場合の最大の精度を達成する方法だ。 第2の課題は、トレーニングセットと主観的に類似した新しいデータでさえも、達成された精度がうまく一般化しないという意味で、トレーニングされたモデルが脆弱な場合があることだ。 画像の正常な領域に関する人間の判断をトレーニングデータにエンコードする、初めての(私たちの知る限り)調査によって、これらの課題に新しい方法で対処する。 本稿では,(a)オリジナル画像に典型的データ拡張を加えた場合の生体情報提示アタック検出における難しい問題に対して,最先端のディープラーニングアルゴリズムの精度と一般化を比較し,(b)サルエント画像領域に関する人間の判断をエンコードするように変換した同じオリジナル画像と比較する。 後者のアプローチは、より高い精度とより良い一般化を実現し、LivDet-Iris 2020の勝者の誤差を29.78%から16.37%に減らし、離脱攻撃型評価シナリオにおいて印象的な一般化を実現した。 この研究は、人間の知性を深層学習の訓練戦略に組み込んで、限られた訓練データの場合の高精度化と一般化を実現するための新しい研究分野を開く。

Deep learning has driven remarkable accuracy increases in many computer vision problems. One ongoing challenge is how to achieve the greatest accuracy in cases where training data is limited. A second ongoing challenge is that trained models are sometimes fragile in the sense that the accuracy achieved does not generalize well, even to new data that is subjectively similar to the training set. We address these challenges in a novel way, with the first-ever (to our knowledge) exploration of encoding human judgement about salient regions of images into the training data. We compare the accuracy and generalization of a state-of-the-art deep learning algorithm for a difficult problem in biometric presentation attack detection when trained on (a) original images with typical data augmentations, and (b) the same original images transformed to encode human judgement about salient image regions. The latter approach results in models that achieve higher accuracy and better generalization, decreasing the error of the LivDet-Iris 2020 winner from 29.78% to 16.37%, and achieving impressive generalization in a leave-one-attack-typ e-out evaluation scenario. This work opens a new area of study for how to embed human intelligence into training strategies for deep learning to achieve high accuracy and generalization in cases of limited training data.
翻訳日:2021-05-11 14:59:30 公開日:2021-05-07
# iWildCam 2021コンペティションデータセット

The iWildCam 2021 Competition Dataset ( http://arxiv.org/abs/2105.03494v1 )

ライセンス: Link先を確認
Sara Beery, Arushi Agarwal, Elijah Cole, Vighnesh Birodkar(参考訳) カメラトラップは大量の画像データの自動収集を可能にする。 生態学者は、世界中の動物集団を監視するためにカメラトラップを使用します。 カメラトラップデータから種の存在を推定するためには、生態学者はどの種が見られたかだけでなく、各種の個体数も知る必要がある。 オブジェクト検出技術は、各画像内の個人数を見つけるのに使うことができる。 しかし、カメラトラップは、モーショントリガーバーストで画像を収集するので、単にフレーム全体の検出回数を増やせば、誤った推定につながる可能性が高い。 これらの障害を克服するには、伝統的な種の検出と分類に加えて、時空間的推論や個別の再同定を組み込む必要がある。 トレーニングデータとテストデータが、さまざまなカメラから世界中に分散している課題を準備しました。 各カメラで見られる種群は重複しているが、同一ではない。 課題は、種を分類し、個々の動物をテストカメラのシーケンスで数えることだ。

Camera traps enable the automatic collection of large quantities of image data. Ecologists use camera traps to monitor animal populations all over the world. In order to estimate the abundance of a species from camera trap data, ecologists need to know not just which species were seen, but also how many individuals of each species were seen. Object detection techniques can be used to find the number of individuals in each image. However, since camera traps collect images in motion-triggered bursts, simply adding up the number of detections over all frames is likely to lead to an incorrect estimate. Overcoming these obstacles may require incorporating spatio-temporal reasoning or individual re-identification in addition to traditional species detection and classification. We have prepared a challenge where the training data and test data are from different cameras spread across the globe. The set of species seen in each camera overlap, but are not identical. The challenge is to classify species and count individual animals across sequences in the test cameras.
翻訳日:2021-05-11 14:59:04 公開日:2021-05-07
# 自動運転のためのコントラスト学習によるビデオクラス非依存セグメンテーション

Video Class Agnostic Segmentation with Contrastive Learningfor Autonomous Driving ( http://arxiv.org/abs/2105.03533v1 )

ライセンス: Link先を確認
Mennatullah Siam, Alex Kendall, Martin Jagersand(参考訳) 自律運転におけるセマンティックセグメンテーションは主に、未知のオブジェクトを考慮せずに、既知のクラスを閉じた大規模データから学ぶことに焦点を当てている。 安全上の理由から、トレーニングデータ内の既知のクラスを閉じた集合の外で未知のオブジェクトを考察するビデオクラス非依存セグメンテーションタスクに対処する。 既知のクラスと未知のオブジェクトのセグメンテーションを学ぶために,新しい補助的なコントラスト損失を提案する。 画像レベルでアンカー,ポジティブ,負の例をサンプリングするコントラスト学習の以前の研究とは異なり,コントラスト学習法はピクセル単位の意味的および時間的指導を活用している。 本研究では,Cityscapes-VPS実験において,4つのクラスを訓練から引き離し,補助的なコントラスト損失を伴う未知のオブジェクトセグメンテーションの改善効果を示す。 私たちはさらに、異なる未知のオブジェクトを含む異なる自動運転シナリオのための大規模な合成データセットをリリースします。 完全合成データセットと縮小された小型バージョンで実験を行い、小規模データセットにおいてコントラスト学習がいかに効果的かを示した。 提案するモデル、データセット、コードはhttps://github.com/m siam/video_class_agn ostic_segmentationでリリースされる。

Semantic segmentation in autonomous driving predominantly focuses on learning from large-scale data with a closed set of known classes without considering unknown objects. Motivated by safety reasons, we address the video class agnostic segmentation task, which considers unknown objects outside the closed set of known classes in our training data. We propose a novel auxiliary contrastive loss to learn the segmentation of known classes and unknown objects. Unlike previous work in contrastive learning that samples the anchor, positive and negative examples on an image level, our contrastive learning method leverages pixel-wise semantic and temporal guidance. We conduct experiments on Cityscapes-VPS by withholding four classes from training and show an improvement gain for both known and unknown objects segmentation with the auxiliary contrastive loss. We further release a large-scale synthetic dataset for different autonomous driving scenarios that includes distinct and rare unknown objects. We conduct experiments on the full synthetic dataset and a reduced small-scale version, and show how contrastive learning is more effective in small scale datasets. Our proposed models, dataset, and code will be released at https://github.com/M Siam/video_class_agn ostic_segmentation.
翻訳日:2021-05-11 14:58:49 公開日:2021-05-07
# 信頼できるロボットと自律システムのための人間中心型aiの挑戦と機会

The Challenges and Opportunities of Human-Centered AI for Trustworthy Robots and Autonomous Systems ( http://arxiv.org/abs/2105.04408v1 )

ライセンス: Link先を確認
Hongmei He, John Gray, Angelo Cangelosi, Qinggang Meng, T.Martin McGinnity, J\"orn Mehnen(参考訳) ロボットと自律システム(ras)の信頼性は、完全な自律システムに対する多くの研究課題において顕著な位置を占めてきた。 この研究は、信頼できるRASのための人間中心AI(HAI)の重要な側面を、初めて体系的に探求する。 本稿では、信頼に値するRASの5つの重要な特性を最初に同定する。 i)RASは(i)安全で、(ii)安全で、(ii)サイバー脅威から身を守ること、(iii)フォールトトレランスで健康であること、(iv)効果的なヒューマン・マシン・インタラクション(HMI)を可能にするための信頼性と使いやすさ、(v)法と倫理的期待に準拠すること。 次に、信頼性の高い自律システムを実装する際の課題を、5つの重要な特性に関して分析的にレビューし、安全、セキュリティ、健康、HMIに関するRASの信頼性を確保するため、RASの設計における倫理の要件を反映しながらAI技術の役割を探求した。 RASの応用は主にパフォーマンスと生産性に重点を置いているが、RASにおける高度なAIによって引き起こされるリスクは十分な科学的関心を受けていない。 したがって、人間中心のAIに対する要求と、設計による信頼できるRASの実装のためのフレームワークとして、RASの新しい受け入れモデルが提供される。 このアプローチは人間の能力を高めるために人間レベルの知性を促進する。 人類への貢献に焦点を合わせました

The trustworthiness of Robots and Autonomous Systems (RAS) has gained a prominent position on many research agendas towards fully autonomous systems. This research systematically explores, for the first time, the key facets of human-centered AI (HAI) for trustworthy RAS. In this article, five key properties of a trustworthy RAS initially have been identified. RAS must be (i) safe in any uncertain and dynamic surrounding environments; (ii) secure, thus protecting itself from any cyber-threats; (iii) healthy with fault tolerance; (iv) trusted and easy to use to allow effective human-machine interaction (HMI), and (v) compliant with the law and ethical expectations. Then, the challenges in implementing trustworthy autonomous system are analytically reviewed, in respects of the five key properties, and the roles of AI technologies have been explored to ensure the trustiness of RAS with respects to safety, security, health and HMI, while reflecting the requirements of ethics in the design of RAS. While applications of RAS have mainly focused on performance and productivity, the risks posed by advanced AI in RAS have not received sufficient scientific attention. Hence, a new acceptance model of RAS is provided, as a framework for requirements to human-centered AI and for implementing trustworthy RAS by design. This approach promotes human-level intelligence to augment human's capacity. while focusing on contributions to humanity.
翻訳日:2021-05-11 14:41:20 公開日:2021-05-07
# スケーラブルプロジェクションフリー最適化

Scalable Projection-Free Optimization ( http://arxiv.org/abs/2105.03527v1 )

ライセンス: Link先を確認
Mingrui Zhang(参考訳) プロジェクションフリーなアルゴリズムとして、frank-wolfe(fw)法は条件勾配としても知られ、機械学習コミュニティで最近注目されている。 本稿では,スケーラブルなプロジェクションフリー最適化のためのfw変種について,いくつかのトピックについて検討する。 最初に提案する1-SFWは,1回に1回のサンプルしか必要とせず,コンベックス,非凸,モノトンDR-サブモジュラー設定において最もよく知られた複雑性境界を実現する。 次に、分散設定に向けて前進し、凸関数と非凸関数の両方を対象とした一般的な通信効率の分散FWフレームワークであるQuantized Frank-Wolfe (QFW) を開発した。 1)確率的最適化と2)有限サム最適化の2つの広く認識されている環境でのQFWの性能について検討する。 最後に, ユークリッド空間上の有界凸体上の単調連続DR-部分モジュラ関数を最大化する, 微分自由かつ投影自由なアルゴリズムであるBlack-Box Continuous Greedyを提案する。

As a projection-free algorithm, Frank-Wolfe (FW) method, also known as conditional gradient, has recently received considerable attention in the machine learning community. In this dissertation, we study several topics on the FW variants for scalable projection-free optimization. We first propose 1-SFW, the first projection-free method that requires only one sample per iteration to update the optimization variable and yet achieves the best known complexity bounds for convex, non-convex, and monotone DR-submodular settings. Then we move forward to the distributed setting, and develop Quantized Frank-Wolfe (QFW), a general communication-effici ent distributed FW framework for both convex and non-convex objective functions. We study the performance of QFW in two widely recognized settings: 1) stochastic optimization and 2) finite-sum optimization. Finally, we propose Black-Box Continuous Greedy, a derivative-free and projection-free algorithm, that maximizes a monotone continuous DR-submodular function over a bounded convex body in Euclidean space.
翻訳日:2021-05-11 14:40:07 公開日:2021-05-07
# 静的解析アラート分類器のトレーニングデータとしてのテストスイート

Test Suites as a Source of Training Data for Static Analysis Alert Classifiers ( http://arxiv.org/abs/2105.03523v1 )

ライセンス: Link先を確認
Lori Flynn and William Snavely and Zachary Kurtz(参考訳) 欠陥発見 静的解析ツールは通常、多くの偽陽性を含む大量のコード欠陥アラートを生成する。 これらのアラートをトリアージするための人間の努力を省くために、多くの作業が機械学習を使ってアラートの分類と優先順位付けを試みている。 しかし、有用なトレーニングデータのセットを特定することは、多くのコンテキストでそのような分類器を開発する上での基本的な課題である。 静的解析テストスイート(すなわち、テストカバレッジと静的解析ツールの精度をテストする目的で構築された"ベンチマーク"プログラムのリポジトリ)を、新しいトレーニングデータソースとして使用することを提案する。 ケーススタディでは、Juliet C/C++テストスイート上で様々な静的アナライザを実行することで、大量のアラートを生成し、Julietテストスイートメタデータを参照して、これらのアラートの基底真理ラベルを自動的に抽出した。 最後に、このデータを使って分類器を訓練し、警告が偽陽性かどうかを予測する。 我々の分類器はホールドアウトテストセットで多数のコード欠陥タイプに対して高精度 (90.2%) とリコール (88.2%) を得た。 この予備的な結果は、テストスイートデータに対する事前トレーニングの分類器が、データ制限コンテキストにおける静的解析アラートの分類を飛躍的に開始するのに役立つことを示唆している。

Flaw-finding static analysis tools typically generate large volumes of code flaw alerts including many false positives. To save on human effort to triage these alerts, a significant body of work attempts to use machine learning to classify and prioritize alerts. Identifying a useful set of training data, however, remains a fundamental challenge in developing such classifiers in many contexts. We propose using static analysis test suites (i.e., repositories of "benchmark" programs that are purpose-built to test coverage and precision of static analysis tools) as a novel source of training data. In a case study, we generated a large quantity of alerts by executing various static analyzers on the Juliet C/C++ test suite, and we automatically derived ground truth labels for these alerts by referencing the Juliet test suite metadata. Finally, we used this data to train classifiers to predict whether an alert is a false positive. Our classifiers obtained high precision (90.2%) and recall (88.2%) for a large number of code flaw types on a hold-out test set. This preliminary result suggests that pre-training classifiers on test suite data could help to jumpstart static analysis alert classification in data-limited contexts.
翻訳日:2021-05-11 14:35:06 公開日:2021-05-07
# ニューラルネットワークを用いた高次元楕円型pdesの半群法と固有値問題

A semigroup method for high dimensional elliptic PDEs and eigenvalue problems based on neural networks ( http://arxiv.org/abs/2105.03480v1 )

ライセンス: Link先を確認
Haoya Li, Lexing Ying(参考訳) 本稿では,ニューラルネットワークに基づく高次元楕円偏微分方程式(pdes)と関連する固有値問題を解くための半群法を提案する。 PDE問題に対しては、半群演算子の助けを借りて元の方程式を変分問題として再構成し、ニューラルネットワーク(NN)パラメータ化による変分問題を解く。 主な利点は、確率勾配降下訓練において混合二階微分計算は不要であり、境界条件は半群演算子によって自動的に考慮されることである。 固有値問題に対して、スカラー双対変数による制約を解消する原始双対法を提案する。 提案手法の性能を示す数値的な結果を得た。

In this paper, we propose a semigroup method for solving high-dimensional elliptic partial differential equations (PDEs) and the associated eigenvalue problems based on neural networks. For the PDE problems, we reformulate the original equations as variational problems with the help of semigroup operators and then solve the variational problems with neural network (NN) parameterization. The main advantages are that no mixed second-order derivative computation is needed during the stochastic gradient descent training and that the boundary conditions are taken into account automatically by the semigroup operator. For eigenvalue problems, a primal-dual method is proposed, resolving the constraint with a scalar dual variable. Numerical results are provided to demonstrate the performance of the proposed methods.
翻訳日:2021-05-11 14:28:16 公開日:2021-05-07
# (参考訳) テキスト分類のためのタスク固有情報を用いた注意に基づく説明の忠実度向上 [全文訳有]

Improving the Faithfulness of Attention-based Explanations with Task-specific Information for Text Classification ( http://arxiv.org/abs/2105.02657v2 )

ライセンス: CC BY 4.0
George Chrysostomou and Nikolaos Aletras(参考訳) 自然言語処理におけるニューラルネットワークアーキテクチャは、しばしば注意機構を用いて入力トークン表現上の確率分布を生成する。 様々なタスクのパフォーマンスを改善するために実験的に注意が払われているが、モデル予測の説明として重みが広く使われている。 最近の研究(Jain and Wallace, 2019; Serrano and Smith, 2019; Wiegreffe and Pinter, 2019)では、エンコーダとタスク間の忠実な説明(Jacovi and Goldberg, 2020)は一般的には考えられないことが示されている。 本稿では,テキスト分類における注意に基づく説明の忠実性の向上を目指す。 本研究では,タスク固有の非コンテクスト化情報を学習し,本来の注意重みを拡大するタスクスケーリング(TaSc)機構を提案する。 説明忠実度評価テストの結果,提案した3種類のTaScは,2つの注意機構,5つのエンコーダ,5つのテキスト分類データセット間で,予測性能を犠牲にすることなく,注意に基づく説明を改善することがわかった。 最後に,tascは,広く使われている3つの解釈手法と比較して,より忠実な注意に基づく説明を一貫して提供できることを実証する。

Neural network architectures in natural language processing often use attention mechanisms to produce probability distributions over input token representations. Attention has empirically been demonstrated to improve performance in various tasks, while its weights have been extensively used as explanations for model predictions. Recent studies (Jain and Wallace, 2019; Serrano and Smith, 2019; Wiegreffe and Pinter, 2019) have showed that it cannot generally be considered as a faithful explanation (Jacovi and Goldberg, 2020) across encoders and tasks. In this paper, we seek to improve the faithfulness of attention-based explanations for text classification. We achieve this by proposing a new family of Task-Scaling (TaSc) mechanisms that learn task-specific non-contextualised information to scale the original attention weights. Evaluation tests for explanation faithfulness, show that the three proposed variants of TaSc improve attention-based explanations across two attention mechanisms, five encoders and five text classification datasets without sacrificing predictive performance. Finally, we demonstrate that TaSc consistently provides more faithful attention-based explanations compared to three widely-used interpretability techniques.
翻訳日:2021-05-11 00:29:33 公開日:2021-05-07
# (参考訳) Digital Voodoo Dolls [全文訳有]

Digital Voodoo Dolls ( http://arxiv.org/abs/2105.02738v2 )

ライセンス: CC BY 4.0
Marija Slavkovik, Clemens Stachl, Caroline Pitman, Jonathan Askonas(参考訳) 政府、商業企業、サービスの組織である機関は、個人と直接やりとりすることができない。 代わりに、私たちを表現するモデルが作成されます。 我々は、デジタルブードゥー人形と呼ばれる新しい忠実度の高い人物モデルの存在を議論する。 我々はそれを概念化し、その特徴を既存の人のモデルと比較する。 デジタルブードゥー人形は、彼らが代表する人の影響力や支配をはるかに超える存在によって区別される。 このような説明責任の欠如による倫理的問題について議論し、これらの懸念を緩和する方法について論じる。

An institution, be it a body of government, commercial enterprise, or a service, cannot interact directly with a person. Instead, a model is created to represent us. We argue the existence of a new high-fidelity type of person model which we call a digital voodoo doll. We conceptualize it and compare its features with existing models of persons. Digital voodoo dolls are distinguished by existing completely beyond the influence and control of the person they represent. We discuss the ethical issues that such a lack of accountability creates and argue how these concerns can be mitigated.
翻訳日:2021-05-11 00:05:24 公開日:2021-05-07
# (参考訳) 多言語音声認識における重み分解 [全文訳有]

Efficient Weight factorization for Multilingual Speech Recognition ( http://arxiv.org/abs/2105.03010v1 )

ライセンス: CC BY 4.0
Ngoc-Quan Pham, Tuan-Nam Nguyen, Sebastian Stueker, Alexander Waibel(参考訳) エンドツーエンドの多言語音声認識は、多くの言語を含む合成音声コーパスで単一のモデルトレーニングを使用することで、結果として、異なる言語を翻訳する処理を単一のニューラルネットワークで行う。 トレーニングデータの各言語には異なる特徴があるため、共有ネットワークはすべての言語を同時に最適化するのに苦労する可能性がある。 本稿では,ニューラルネットワークのコア操作,線形変換関数を対象とする,新しい多言語アーキテクチャを提案する。 この手法の主な考え方は、各重み行列を共有コンポーネントと言語依存コンポーネントに分解することで、各言語に高速な重み行列を割り当てることである。 後者はランク1の仮定を用いてベクトルに分解され、言語ごとのパラメータの数を減らす。 この効率的な因数分解方式は、7ドルと27ドルの言語を持つ2つの多言語設定で有効であることが証明され、単語誤り率を26\%と27\%のrelに下げる。 LSTMとTransformerの2つの人気アーキテクチャについて。

End-to-end multilingual speech recognition involves using a single model training on a compositional speech corpus including many languages, resulting in a single neural network to handle transcribing different languages. Due to the fact that each language in the training data has different characteristics, the shared network may struggle to optimize for all various languages simultaneously. In this paper we propose a novel multilingual architecture that targets the core operation in neural networks: linear transformation functions. The key idea of the method is to assign fast weight matrices for each language by decomposing each weight matrix into a shared component and a language dependent component. The latter is then factorized into vectors using rank-1 assumptions to reduce the number of parameters per language. This efficient factorization scheme is proved to be effective in two multilingual settings with $7$ and $27$ languages, reducing the word error rates by $26\%$ and $27\%$ rel. for two popular architectures LSTM and Transformer, respectively.
翻訳日:2021-05-10 23:03:29 公開日:2021-05-07
# (参考訳) 研究論文における情報探索質問と回答のデータセット [全文訳有]

A Dataset of Information-Seeking Questions and Answers Anchored in Research Papers ( http://arxiv.org/abs/2105.03011v1 )

ライセンス: CC BY 4.0
Pradeep Dasigi, Kyle Lo, Iz Beltagy, Arman Cohan, Noah A. Smith, Matt Gardner(参考訳) 学術論文の読者はしばしば特定の質問に答えることを目的として読む。 これらの質問に答えることのできる質問回答システムは、コンテンツの消費をより効率的にする。 しかし、そのようなツールを構築するには、論文の複数の部分におけるクレームに関する複雑な推論から生じるタスクの難しさを反映したデータが必要である。 対照的に、既存の情報探索型質問応答データセットは通常、一般的なファクトイド型情報に関する質問を含む。 そこで我々は,1,585件の自然言語処理論文に対する5,049件の質問データセットであるQASPERを提示する。 各質問は、対応する論文のタイトルと要約のみを読み取るNLP実践者によって書かれ、質問は全文に存在する情報を求める。 質問は別個のNLP実践者によって回答され、回答を支持する証拠も提供される。 他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答するときに少なくとも27のF1ポイントを人間に過小評価し、私たちのデータセットが容易に行えるように設計されている文書ベース情報検索QAのさらなる研究を動機付けている。

Readers of academic research papers often read with the goal of answering specific questions. Question Answering systems that can answer those questions can make consumption of the content much more efficient. However, building such tools requires data that reflect the difficulty of the task arising from complex reasoning about claims made in multiple parts of a paper. In contrast, existing information-seeking question answering datasets usually contain questions about generic factoid-type information. We therefore present QASPER, a dataset of 5,049 questions over 1,585 Natural Language Processing papers. Each question is written by an NLP practitioner who read only the title and abstract of the corresponding paper, and the question seeks information present in the full text. The questions are then answered by a separate set of NLP practitioners who also provide supporting evidence to answers. We find that existing models that do well on other QA tasks do not perform well on answering these questions, underperforming humans by at least 27 F1 points when answering them from entire papers, motivating further research in document-grounded, information-seeking QA, which our dataset is designed to facilitate.
翻訳日:2021-05-10 22:50:26 公開日:2021-05-07
# (参考訳) エキスパートとアンチエキスパートによるオンザフライ制御テキスト生成 [全文訳有]

On-the-Fly Controlled Text Generation with Experts and Anti-Experts ( http://arxiv.org/abs/2105.03023v1 )

ライセンス: CC BY 4.0
Alisa Liu, Maarten Sap, Ximing Lu, Swabha Swayamdipta, Chandra Bhagavatula, Noah A. Smith, Yejin Choi(参考訳) 近年の自然言語生成の進歩にもかかわらず、生成したテキストの属性を制御することは依然として困難である。 本稿では,事前学習された言語モデルと専門家および/またはアンチ専門家を結合した,制御されたテキスト生成のための復号時間手法であるdexperts: decoding-time expertsを提案する。 直感的には、我々のアンサンブルの下では、出力トークンは専門家によってもたらされる可能性があり、反専門家によっても、高い確率しか得られない。 DExpertsを言語デトキシフィケーションと感情制御生成に適用し、自動評価と人的評価の両方において既存の制御可能な生成方法より優れています。 本研究は,テキスト上で訓練されたLMを(望ましくない属性で)効率的な復号時間制御言語生成に使用するという約束を強調した。

Despite recent advances in natural language generation, it remains challenging to control attributes of generated text. We propose DExperts: Decoding-time Experts, a decoding-time method for controlled text generation which combines a pretrained language model with experts and/or anti-experts in an ensemble of language models. Intuitively, under our ensemble, output tokens only get high probability if they are considered likely by the experts, and unlikely by the anti-experts. We apply DExperts to language detoxification and sentiment-controlled generation, where we outperform existing controllable generation methods on both automatic and human evaluations. Our work highlights the promise of using LMs trained on text with (un)desired attributes for efficient decoding-time controlled language generation.
翻訳日:2021-05-10 22:33:26 公開日:2021-05-07
# (参考訳) 新型コロナウイルスパンデミック時の効率的なマスク付き顔認識法 [全文訳有]

Efficient Masked Face Recognition Method during the COVID-19 Pandemic ( http://arxiv.org/abs/2105.03026v1 )

ライセンス: CC BY 4.0
Walid Hariri(参考訳) 新型コロナウイルス(COVID-19)は異例の危機であり、多くの死傷者やセキュリティ問題を引き起こしている。 新型コロナウイルスの感染拡大を減らすため、マスクを着用して身を守ることが多い。 これにより、顔の一部が隠れているため、顔認識は非常に難しい作業になる。 新型コロナウイルスの感染拡大が続く中、研究者の焦点は、迅速かつ効率的な解決策によってこの問題に対処することを提案することにある。 本稿では,マスク付き顔認識の課題を解決するために,咬合除去と深層学習に基づく特徴に基づく信頼性の高い手法を提案する。 最初のステップは、マスクされた顔領域を削除することです。 次に、vgg-16、alexnet、resnet-50の3つの事前学習された深層畳み込みニューラルネットワーク(cnn)を適用し、得られた領域(主に目と額の領域)から深い特徴を抽出する。 その後、Bag-of-Featuresパラダイムが最後の畳み込み層の特徴写像に適用され、それらを定量化し、古典的CNNの完全連結層と比較して少し表現される。 最後に、分類プロセスに多層パーセプトロン(MLP)を適用する。 実世界マッシュフェイスデータセットの実験結果は,他の最先端手法と比較して高い認識性能を示す。

The coronavirus disease (COVID-19) is an unparalleled crisis leading to a huge number of casualties and security problems. In order to reduce the spread of coronavirus, people often wear masks to protect themselves. This makes face recognition a very difficult task since certain parts of the face are hidden. A primary focus of researchers during the ongoing coronavirus pandemic is to come up with suggestions to handle this problem through rapid and efficient solutions. In this paper, we propose a reliable method based on occlusion removal and deep learning-based features in order to address the problem of the masked face recognition process. The first step is to remove the masked face region. Next, we apply three pre-trained deep Convolutional Neural Networks (CNN) namely, VGG-16, AlexNet, and ResNet-50, and use them to extract deep features from the obtained regions (mostly eyes and forehead regions). The Bag-of-features paradigm is then applied to the feature maps of the last convolutional layer in order to quantize them and to get a slight representation comparing to the fully connected layer of classical CNN. Finally, Multilayer Perceptron (MLP) is applied for the classification process. Experimental results on Real-World-Masked-Fa ce-Dataset show high recognition performance compared to other state-of-the-art methods.
翻訳日:2021-05-10 22:15:17 公開日:2021-05-07
# (参考訳) speechmoe: エキスパートのダイナミックルーティング混合による大規模音響モデルへのスケーリング [全文訳有]

SpeechMoE: Scaling to Large Acoustic Models with Dynamic Routing Mixture of Experts ( http://arxiv.org/abs/2105.03036v1 )

ライセンス: CC0 1.0
Zhao You, Shulin Feng, Dan Su and Dong Yu(参考訳) 最近、Mixture of Experts (MoE)ベースのTransformerは多くの領域で有望な結果を示している。 第一に、moeベースのトランスフォーマーは、トレーニングと推論の両方で計算コストを増加させることなく、モデルの容量を増加させることができる。 さらに、MoEベースのTransformerは、現実世界のアプリケーションにおける入力インスタンスの複雑さの変化に適応できる動的ネットワークである。 本研究では,音声認識のためのモデルであるSpeechMoEについて検討する。 ルータの活性化のスパース性をさらに制御し、ゲート値の多様性を向上させるため、スパース性l1損失と平均重要損失をそれぞれ提案する。 さらに、新たなルータアーキテクチャが speechmoe で使用されており、共有組み込みネットワークからの情報と異なるmoe層の階層表現を同時に利用できる。 実験の結果,従来の静的ネットワークに比べて低いキャラクタエラー率 (cer) を達成でき,4つの評価データセットにおいて7.0%-23.0%の相対的なcer改善が得られた。

Recently, Mixture of Experts (MoE) based Transformer has shown promising results in many domains. This is largely due to the following advantages of this architecture: firstly, MoE based Transformer can increase model capacity without computational cost increasing both at training and inference time. Besides, MoE based Transformer is a dynamic network which can adapt to the varying complexity of input instances in realworld applications. In this work, we explore the MoE based model for speech recognition, named SpeechMoE. To further control the sparsity of router activation and improve the diversity of gate values, we propose a sparsity L1 loss and a mean importance loss respectively. In addition, a new router architecture is used in SpeechMoE which can simultaneously utilize the information from a shared embedding network and the hierarchical representation of different MoE layers. Experimental results show that SpeechMoE can achieve lower character error rate (CER) with comparable computation cost than traditional static networks, providing 7.0%-23.0% relative CER improvements on four evaluation datasets.
翻訳日:2021-05-10 22:06:15 公開日:2021-05-07
# (参考訳) 単一物体追跡のための高速で簡易なシームズネットワーク [全文訳有]

Faster and Simpler Siamese Network for Single Object Tracking ( http://arxiv.org/abs/2105.03049v1 )

ライセンス: CC0 1.0
Shaokui Jiang, Baile Xu, Jian Zhao, Furao Shen(参考訳) シングルオブジェクトトラッキング(SOT)は現在、コンピュータビジョンにおいて最も重要なタスクの1つである。 ディープ・ネットワークの開発と単一オブジェクト追跡のための大規模データセットのリリースにより、サイムズ・ネットワークは従来のほとんどの手法よりも優れた性能を発揮することが提案されている。 しかし、近年のシアムネットワークはより深く遅くなり、性能が向上した。 これらの手法のほとんどは、理想的な環境下でのリアルタイムオブジェクト追跡の必要性にのみ対応できる。 効率と精度のバランスを良くするために,ハードウェア構成が貧弱な場合に高速に動作し,精度を保ちながら,単一物体追跡のための簡易なシムネットワークを提案する。 より効率的な回帰法を用いて、精度を損なうことなく、より短い時間で追跡対象の位置を計算する。 トレーニングの精度の向上と高速化を目的として,特徴抽出器にSqueeze-and-Excitati on(SE)ネットワークを導入する。 本稿では,提案手法を最先端トラッカーと比較し,その性能分析を行う。 提案手法を用いることで,シアムネットワークを短時間でより少ないデータで訓練することができる。 高速処理速度により、オブジェクトトラッキングとオブジェクト検出や他のタスクをリアルタイムで組み合わせることができる。

Single object tracking (SOT) is currently one of the most important tasks in computer vision. With the development of the deep network and the release for a series of large scale datasets for single object tracking, siamese networks have been proposed and perform better than most of the traditional methods. However, recent siamese networks get deeper and slower to obtain better performance. Most of these methods could only meet the needs of real-time object tracking in ideal environments. In order to achieve a better balance between efficiency and accuracy, we propose a simpler siamese network for single object tracking, which runs fast in poor hardware configurations while remaining an excellent accuracy. We use a more efficient regression method to compute the location of the tracked object in a shorter time without losing much precision. For improving the accuracy and speeding up the training progress, we introduce the Squeeze-and-excitati on (SE) network into the feature extractor. In this paper, we compare the proposed method with some state-of-the-art trackers and analysis their performances. Using our method, a siamese network could be trained with shorter time and less data. The fast processing speed enables combining object tracking with object detection or other tasks in real time.
翻訳日:2021-05-10 21:55:14 公開日:2021-05-07
# (参考訳) クラッタ内の健全なオブジェクト [全文訳有]

Salient Objects in Clutter ( http://arxiv.org/abs/2105.03053v1 )

ライセンス: CC BY 4.0
Deng-Ping Fan, Jing Zhang, Gang Xu, Ming-Ming Cheng, Ling Shao(参考訳) 本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処し,各画像が少なくとも1つの正当性オブジェクトを含むことを非現実的に仮定する。 この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。 しかし、これらのモデルは現実世界のシーンに適用しても満足できない。 分析結果に基づき,新しい高品質データセットを提案し,従来のsaliencyベンチマークを更新した。 特に、salient objects in clutter(soc)と呼ばれるデータセットには、いくつかの共通オブジェクトカテゴリからのsalient objectsとnon-salient objectsの両方のイメージが含まれています。 オブジェクトカテゴリアノテーションに加えて、それぞれの健全なイメージには、現実世界のシーンにおける共通の課題を反映した属性が伴い、SOD問題に関する深い洞察を提供するのに役立つ。 さらに、所定のサリエンシーエンコーダ、例えばバックボーンネットワークを用いて、トレーニング画像セットからトレーニンググランドルースセットへのマッピングを実現するために、既存のサリエンシーモデルが設計されている。 したがって、データセットの改善はデコーダ設計にのみフォーカスするよりも高いパフォーマンス向上をもたらすと我々は主張する。 このことを念頭に置いて,ラベルの平滑化と暗黙的な境界強調,さまざまなシナリオにサリエンシーモデルを適用するためのランダム画像拡張,小さなデータセットから学習するための正規化戦略としての自己教師あり学習など,いくつかのデータセット強化戦略を検討する。 我々はこれらのトリックの有効性を実証した。 また、当社のリポジトリにあるsodの包括的なベンチマークも提供しています。

This paper identifies and addresses a serious design bias of existing salient object detection (SOD) datasets, which unrealistically assume that each image should contain at least one clear and uncluttered salient object. This design bias has led to a saturation in performance for state-of-the-art SOD models when evaluated on existing datasets. However, these models are still far from satisfactory when applied to real-world scenes. Based on our analyses, we propose a new high-quality dataset and update the previous saliency benchmark. Specifically, our dataset, called Salient Objects in Clutter (SOC), includes images with both salient and non-salient objects from several common object categories. In addition to object category annotations, each salient image is accompanied by attributes that reflect common challenges in real-world scenes, which can help provide deeper insight into the SOD problem. Further, with a given saliency encoder, e.g., the backbone network, existing saliency models are designed to achieve mapping from the training image set to the training ground-truth set. We, therefore, argue that improving the dataset can yield higher performance gains than focusing only on the decoder design. With this in mind, we investigate several dataset-enhancement strategies, including label smoothing to implicitly emphasize salient boundaries, random image augmentation to adapt saliency models to various scenarios, and self-supervised learning as a regularization strategy to learn from small datasets. Our extensive results demonstrate the effectiveness of these tricks. We also provide a comprehensive benchmark for SOD, which can be found in our repository: http://dpfan.net/SOC Benchmark.
翻訳日:2021-05-10 21:45:44 公開日:2021-05-07
# (参考訳) コモンフローラ画像分類のためのFew-Shot Learning [全文訳有]

Few-Shot Learning for Image Classification of Common Flora ( http://arxiv.org/abs/2105.03056v1 )

ライセンス: CC BY 4.0
Joshua Ball(参考訳) 画像分類におけるメタラーニングとトランスファーラーニングの利用は、データが豊富で計算資源に大きな制限がない場合にメタラーニングよりもトランスファーラーニングの利点を示す論文が多数ある、よく研究されている分野である。 本稿では,モデル非依存型メタラーニング(MAML)を用いた画像分類のためのメタラーニング分野における,様々な最先端のトランスファー学習重みとアーキテクチャの試験結果を紹介する。 以上の結果から,データセットが十分に大きい場合には両プラクティスが十分なパフォーマンスを提供するが,十分なパフォーマンスを維持するためにデータの疎結合が導入された場合には両プラクティスとも苦労することがわかった。 この問題は、画像強化とハイパーパラメータの微調整により、適度に減少する。 本稿では,(1)少数の画像分類を行うための頑健なマルチクラス畳み込みニューラルネットワーク(CNN)を開発するプロセス,(2)データセットが大きい場合に画像分類モデルを作成する上で,転送学習が優れた方法であることを実証すること,(3)データに制限がある場合に転送学習より優れていること,などを述べる。 github.com/JBall1/Fe w-Shot-Limited-Data

The use of meta-learning and transfer learning in the task of few-shot image classification is a well researched area with many papers showcasing the advantages of transfer learning over meta-learning in cases where data is plentiful and there is no major limitations to computational resources. In this paper we will showcase our experimental results from testing various state-of-the-art transfer learning weights and architectures versus similar state-of-the-art works in the meta-learning field for image classification utilizing Model-Agnostic Meta Learning (MAML). Our results show that both practices provide adequate performance when the dataset is sufficiently large, but that they both also struggle when data sparsity is introduced to maintain sufficient performance. This problem is moderately reduced with the use of image augmentation and the fine-tuning of hyperparameters. In this paper we will discuss: (1) our process of developing a robust multi-class convolutional neural network (CNN) for the task of few-shot image classification, (2) demonstrate that transfer learning is the superior method of helping create an image classification model when the dataset is large and (3) that MAML outperforms transfer learning in the case where data is very limited. The code is available here: github.com/JBall1/Fe w-Shot-Limited-Data
翻訳日:2021-05-10 19:53:55 公開日:2021-05-07
# (参考訳) speechnet: 音声処理タスクのための普遍的モジュール化モデル [全文訳有]

SpeechNet: A Universal Modularized Model for Speech Processing Tasks ( http://arxiv.org/abs/2105.03070v1 )

ライセンス: CC BY 4.0
Yi-Chen Chen, Po-Han Chi, Shu-wen Yang, Kai-Wei Chang, Jheng-hao Lin, Sung-Feng Huang, Da-Rong Liu, Chi-Liang Liu, Cheng-Kuang Lee, Hung-yi Lee(参考訳) 音声処理のタスクは多種多様である。 異なるタスクに対して、モデルネットワークは通常、個別に設計、調整される。 本稿では,5つの基本モジュールを含む共通モジュール化モデルであるSpeechNetを提案する。 モジュールの連結は、様々な音声処理タスクを解決する。 これら5つのモジュールをすべて使用した実験では,5つの重要な共通タスクを選択します。 具体的には、各試行において、すべてのモジュールが共有されるマルチタスク設定の下で、全ての音声タスクのサブセットを共同で訓練する。 そして、トレーニング中にひとつのタスクが他のタスクに利益をもたらすかどうかを観察できます。 speechnetはモジュール化され、将来より多くのモジュール、タスク、トレーニングアプローチを組み込むために柔軟である。 モジュラー化された普遍モデルの研究や、音声処理タスクのマルチタスク学習を容易にするために、コードと実験的な設定をリリースする。

There is a wide variety of speech processing tasks. For different tasks, model networks are usually designed and tuned separately. This paper proposes a universal modularized model, SpeechNet, which contains the five basic modules for speech processing. The concatenation of modules solves a variety of speech processing tasks. We select five important and common tasks in the experiments that use all of these five modules altogether. Specifically, in each trial, we jointly train a subset of all speech tasks under multi-task setting, with all modules shared. Then we can observe whether one task can benefit another during training. SpeechNet is modularized and flexible for incorporating more modules, tasks, or training approaches in the future. We will release the code and experimental settings to facilitate the research of modularized universal models or multi-task learning of speech processing tasks.
翻訳日:2021-05-10 19:44:01 公開日:2021-05-07
# (参考訳) ntire 2021 画像の知覚的品質評価に関する挑戦 [全文訳有]

NTIRE 2021 Challenge on Perceptual Image Quality Assessment ( http://arxiv.org/abs/2105.03072v1 )

ライセンス: CC BY 4.0
Jinjin Gu and Haoming Cai and Chao Dong and Jimmy S. Ren and Yu Qiao and Shuhang Gu and Radu Timofte and Manri Cheon and Sungjun Yoon and Byungyeon Kangg Kang and Junwoo Lee and Qing Zhang and Haiyang Guo and Yi Bin and Yuqing Hou and Hengliang Luo and Jingyu Guo and Zirui Wang and Hai Wang and Wenming Yang and Qingyan Bai and Shuwei Shi and Weihao Xia and Mingdeng Cao and Jiahao Wang and Yifan Chen and Yujiu Yang and Yang Li and Tao Zhang and Longtao Feng and Yiting Liao and Junlin Li and William Thong and Jose Costa Pereira and Ales Leonardis and Steven McDonagh and Kele Xu and Lehan Yang and Hengxing Cai and Pengfei Sun and Seyed Mehdi Ayyoubzadeh and Ali Royat and Sid Ahmed Fezza and Dounia Hammou and Wassim Hamidouche and Sewoong Ahn and Gwangjin Yoon and Koki Tsubota and Hiroaki Akutsu and Kiyoharu Aizawa(参考訳) 本稿では, cvpr 2021における画像復元・強調ワークショップ(ntire)ワークショップにおいて, 画像の知覚的品質評価(iqa)に関するntire 2021チャレンジについて報告する。 新しいタイプの画像処理技術として、GAN(Generative Adversarial Networks)に基づく知覚画像処理アルゴリズムが、より現実的なテクスチャを持つ画像を生成する。 これらの出力画像は従来の歪みとは全く異なる特徴を持つため、その視覚的品質を評価するためにIQA法が新たな課題となる。 従来のIQA課題と比較して、この課題におけるトレーニングとテストデータセットには、知覚画像処理アルゴリズムと対応する主観的スコアの出力が含まれている。 したがって、GANに基づく歪みに対するIQA法の開発と評価に使用できる。 参加登録者は合計270名。 最終テスト段階では、13の参加チームがモデルとファクトシートを提出した。 ほぼ全員が既存のIQA法よりもはるかに優れた結果を得ており、勝敗法は最先端の性能を示すことができる。

This paper reports on the NTIRE 2021 challenge on perceptual image quality assessment (IQA), held in conjunction with the New Trends in Image Restoration and Enhancement workshop (NTIRE) workshop at CVPR 2021. As a new type of image processing technology, perceptual image processing algorithms based on Generative Adversarial Networks (GAN) have produced images with more realistic textures. These output images have completely different characteristics from traditional distortions, thus pose a new challenge for IQA methods to evaluate their visual quality. In comparison with previous IQA challenges, the training and testing datasets in this challenge include the outputs of perceptual image processing algorithms and the corresponding subjective scores. Thus they can be used to develop and evaluate IQA methods on GAN-based distortions. The challenge has 270 registered participants in total. In the final testing stage, 13 participating teams submitted their models and fact sheets. Almost all of them have achieved much better results than existing IQA methods, while the winning method can demonstrate state-of-the-art performance.
翻訳日:2021-05-10 19:24:44 公開日:2021-05-07
# (参考訳) フォトリアリスティック画像復元のためのインタラクティブ変調法 [全文訳有]

Toward Interactive Modulation for Photo-Realistic Image Restoration ( http://arxiv.org/abs/2105.03085v1 )

ライセンス: CC BY 4.0
Haoming Cai and Jingwen He and Qiao Yu and Chao Dong(参考訳) 変調画像復元レベルは、復元強度を表す因子を変化させて復元画像を生成することを目的としている。 従来は平均2乗復元誤差の最適化に主眼を置いていたが, 再現精度は高く, テクスチャの細部が細かでない。 本稿では,制御可能なUnet生成支援ネットワーク(CUGAN)を提案し,変調タスクにおいて高頻度なテクスチャを生成する。 CUGANはベースネットワークと条件ネットワークという2つのモジュールで構成されている。 ベースネットワークは、ジェネレータと判別器とからなる。 ジェネレータでは, unetアーキテクチャにおける異なるスケールの異なる特徴の重み付けをチューニングすることにより, 修復レベルのインタラクティブな制御を実現する。 さらに, 劣化の重大度に応じて, 判別器の中間特性を適応的に調整する。 条件ネットワークは、条件ベクトル(符号化劣化情報)を入力として受け入れ、生成器と判別器の両方の変調パラメータを生成する。 テスト中、ユーザは条件ベクトルを微調整することで出力効果を制御できる。 また, 簡単な遷移法により, GAN と MSE 効果のスムーズな遷移も提供する。 広汎な実験により,提案したCUGANは画像復元調整タスクにおいて優れた性能を発揮することが示された。

Modulating image restoration level aims to generate a restored image by altering a factor that represents the restoration strength. Previous works mainly focused on optimizing the mean squared reconstruction error, which brings high reconstruction accuracy but lacks finer texture details. This paper presents a Controllable Unet Generative Adversarial Network (CUGAN) to generate high-frequency textures in the modulation tasks. CUGAN consists of two modules -- base networks and condition networks. The base networks comprise a generator and a discriminator. In the generator, we realize the interactive control of restoration levels by tuning the weights of different features from different scales in the Unet architecture. Moreover, we adaptively modulate the intermediate features in the discriminator according to the severity of degradations. The condition networks accept the condition vector (encoded degradation information) as input, then generate modulation parameters for both the generator and the discriminator. During testing, users can control the output effects by tweaking the condition vector. We also provide a smooth transition between GAN and MSE effects by a simple transition method. Extensive experiments demonstrate that the proposed CUGAN achieves excellent performance on image restoration modulation tasks.
翻訳日:2021-05-10 19:06:48 公開日:2021-05-07
# (参考訳) 階層的局所化のための確率的視覚位置認識 [全文訳有]

Probabilistic Visual Place Recognition for Hierarchical Localization ( http://arxiv.org/abs/2105.03091v1 )

ライセンス: CC BY 4.0
Ming Xu, Niko S\"underhauf, Michael Milford(参考訳) 視覚的ローカライゼーション技術は、しばしば階層的なローカライゼーションパイプラインを構成し、粗いローカライザとして視覚的位置認識モジュールを使用してポーズリファインメントステージを初期化する。 ポーズ改善ステップの改善は、最近の研究の焦点となっているが、粗いローカライズ段階におけるほとんどの作業は、外観変化へのばらつきの増加など、ゆるいエラー許容性を改善することなく改善に焦点を当てている。 本稿では,視覚位置認識に使用する画像検索手法を,局所化のためのベイズ状態推定定式化に適用する2つの手法を提案する。 本手法は, 外観変化が激しい場合, 品質を保ちつつ, 粗定位ステージの定位精度が著しく向上することを示す。 また,oxford robotcarデータセットを用いた広範囲な実験により,画像シーケンスのローカライズにおける精度・リコール性能の点で,同等の最先端手法よりも優れることを示した。 さらに,提案手法は,これらの改善を実現するために,局所化遅延を文脈的に拡張する柔軟性を提供する。 初期位置推定の改善は、全体的な位置決め性能の向上と、この改良された空間的プリエントを利用した修正されたポーズ修正技術の両方の可能性を開く。

Visual localization techniques often comprise a hierarchical localization pipeline, with a visual place recognition module used as a coarse localizer to initialize a pose refinement stage. While improving the pose refinement step has been the focus of much recent research, most work on the coarse localization stage has focused on improvements like increased invariance to appearance change, without improving what can be loose error tolerances. In this letter, we propose two methods which adapt image retrieval techniques used for visual place recognition to the Bayesian state estimation formulation for localization. We demonstrate significant improvements to the localization accuracy of the coarse localization stage using our methods, whilst retaining state-of-the-art performance under severe appearance change. Using extensive experimentation on the Oxford RobotCar dataset, results show that our approach outperforms comparable state-of-the-art methods in terms of precision-recall performance for localizing image sequences. In addition, our proposed methods provides the flexibility to contextually scale localization latency in order to achieve these improvements. The improved initial localization estimate opens up the possibility of both improved overall localization performance and modified pose refinement techniques that leverage this improved spatial prior.
翻訳日:2021-05-10 18:49:59 公開日:2021-05-07
# (参考訳) 一般化線形モデルにおける高速近似推論のためのラプラスマッチング

Laplace Matching for fast Approximate Inference in Generalized Linear Models ( http://arxiv.org/abs/2105.03109v1 )

ライセンス: CC BY 4.0
Marius Hobbhahn, Philipp Hennig(参考訳) 一般化線形モデル(GLMs)におけるベイズ推論(英語版)、すなわち、非ガウス的確率を持つガウス回帰は一般に非解析的であり、サンプリングや変分推論のような計算コストのかかる近似を必要とする。 提案手法は,高い近似品質を保ちながら,計算量的に安価であるように設計された近似推論フレームワークを提案する。 この概念は \emph{laplace matching} と呼ばれ、指数関数族のパラメータ空間の間の閉形式、近似、双方向変換を含む。 これらはカスタム設計の基底変換の下でラプラス近似から構築される。 それらの写像は、可観測変数のリッチクラスの前に潜在ガウス分布を共役に効果的に変換するために利用できる。 これにより、GLMにおける推論は(近似誤差が小さい)共役推論へと効果的に変換される。 提案手法を2つの異なるGLMで実験的に評価し,計算コストの大幅な削減にあたり,最先端の近似推論手法に匹敵する近似品質を示す。 より具体的には、我々の手法は標準GLM推論で通常用いられる反復最適化のemph{very first}ステップに匹敵するコストを持つ。

Bayesian inference in generalized linear models (GLMs), i.e.~Gaussian regression with non-Gaussian likelihoods, is generally non-analytic and requires computationally expensive approximations, such as sampling or variational inference. We propose an approximate inference framework primarily designed to be computationally cheap while still achieving high approximation quality. The concept, which we call \emph{Laplace Matching}, involves closed-form, approximate, bi-directional transformations between the parameter spaces of exponential families. These are constructed from Laplace approximations under custom-designed basis transformations. The mappings can then be leveraged to effectively turn a latent Gaussian distribution into a conjugate prior for a rich class of observable variables. This effectively turns inference in GLMs into conjugate inference (with small approximation errors). We empirically evaluate the method in two different GLMs, showing approximation quality comparable to state-of-the-art approximate inference techniques at a drastic reduction in computational cost. More specifically, our method has a cost comparable to the \emph{very first} step of the iterative optimization usually employed in standard GLM inference.
翻訳日:2021-05-10 18:31:26 公開日:2021-05-07
# (参考訳) ゲームにおける(そして)AI [全文訳有]

AI in (and for) Games ( http://arxiv.org/abs/2105.03123v1 )

ライセンス: CC BY 4.0
Kostas Karpouzis and George Tsatiris(参考訳) この章では、人工知能(AI)/機械学習(ML)アルゴリズムとデジタルゲームとの関係について概説する。 この関係は2つある:一方、AI/ML研究者は、人間の感情活動、プレイヤーの行動(つまりプレイヤーの行動)の巨大な、その内部のデータセットを生成することができる。 ゲーム内のアクション)、商業的な振る舞い、グラフィカルなユーザーインターフェース要素とのインタラクション、または他のプレイヤーとのメッセージング、ゲームはインテリジェントなアルゴリズムを利用してゲームレベルのテスト、コンテンツの生成、インテリジェントでレスポンシブなノンプレイヤーキャラクタ(npcs)の開発、プレイヤーのさまざまな文化におけるプレイヤーの振る舞いの予測と対応を自動化できる。 本稿では、ゲームにおけるAI/MLの最も一般的で広く受け入れられている使用方法と、表現性とパフォーマンスに基づくプレイヤー体験の推定と、言語学習ゲームにおける適切な、興味深いコンテンツの生成について論じる。

This chapter outlines the relation between artificial intelligence (AI) / machine learning (ML) algorithms and digital games. This relation is two-fold: on one hand, AI/ML researchers can generate large, in-the-wild datasets of human affective activity, player behaviour (i.e. actions within the game world), commercial behaviour, interaction with graphical user interface elements or messaging with other players, while games can utilise intelligent algorithms to automate testing of game levels, generate content, develop intelligent and responsive non-player characters (NPCs) or predict and respond player behaviour across a wide variety of player cultures. In this work, we discuss some of the most common and widely accepted uses of AI/ML in games and how intelligent systems can benefit from those, elaborating on estimating player experience based on expressivity and performance, and on generating proper and interesting content for a language learning game.
翻訳日:2021-05-10 18:30:15 公開日:2021-05-07
# (参考訳) コード2画像:コンピュータビジョンによるインテリジェントコード解析と脆弱性予測への応用 [全文訳有]

Code2Image: Intelligent Code Analysis by Computer Vision Techniques and Application to Vulnerability Prediction ( http://arxiv.org/abs/2105.03131v1 )

ライセンス: CC BY-SA 4.0
Zeki Bilgin(参考訳) 近年の機械学習(ML)分野における顕著な進歩と並行して、インテリジェントコード解析が注目されている。 この目的のためにMLを活用する上での大きな課題は、MLアルゴリズムが入力として受け入れられる有用な形式でソースコードを表現することである。 本研究では,意味的および構文的特性を維持しつつ,ソースコードを画像として表現する新しい手法を提案する。 実際、この方法では、さらなるデータ前処理や特徴抽出ステップを必要とせず、ソースコードのイメージ表現を直接ディープラーニング(DL)アルゴリズムに入力することができる。 本手法の有効性と有効性は,多数の実世界のソースコードサンプルを含む公開データセット上での脆弱性予測ユースケースを実現し,現状のソリューションと比較して性能評価を行う。 私たちの実装は公開されています。

Intelligent code analysis has received increasing attention in parallel with the remarkable advances in the field of machine learning (ML) in recent years. A major challenge in leveraging ML for this purpose is to represent source code in a useful form that ML algorithms can accept as input. In this study, we present a novel method to represent source code as image while preserving semantic and syntactic properties, which paves the way for leveraging computer vision techniques to use for code analysis. Indeed the method makes it possible to directly enter the resulting image representation of source codes into deep learning (DL) algorithms as input without requiring any further data pre-processing or feature extraction step. We demonstrate feasibility and effectiveness of our method by realizing a vulnerability prediction use case over a public dataset containing a large number of real-world source code samples with performance evaluation in comparison to the state-of-art solutions. Our implementation is publicly available.
翻訳日:2021-05-10 18:16:14 公開日:2021-05-07
# (参考訳) 微生物画像解析における物体検出技術の現状:従来の画像処理と古典的機械学習から現在の深部畳み込みニューラルネットワークと潜在的な視覚変換器まで

A State-of-the-art Survey of Object Detection Techniques in Microorganism Image Analysis: from Traditional Image Processing and Classical Machine Learning to Current Deep Convolutional Neural Networks and Potential Visual Transformers ( http://arxiv.org/abs/2105.03148v1 )

ライセンス: CC BY 4.0
Chen Li, Pingli Ma, Md Mamunur Rahaman, Yudong Yao, Jiawei Zhang, Shuojia Zou, Xin Zhao, Marcin Grzegorzek(参考訳) 微生物は人間の生活において重要な役割を果たす。 そのため、微生物検出は人間にとって非常に重要である。 しかし, 従来の手作業による顕微鏡的検出法では, 長い検出サイクル, 低い検出精度, 稀な微生物の検出が困難である。 したがって、微生物検出の分野にコンピュータ画像解析技術を適用することは有意義である。 コンピュータ画像解析は微生物の高精度・高効率検出を実現することができる。 本稿では,まず,従来の画像処理や機械学習から深層学習まで,既存の微生物検出手法を時系列で分析する。 次に,これらの既存手法を解析・要約し,視覚トランスフォーマーを含む潜在的な手法を紹介する。 最後に,微生物検出の今後の発展方向と課題について論じる。 概して、1985年から現在までの137件の関連技術論文を要約している。 このレビューは、研究者が微生物検出の分野における開発プロセス、研究状況、今後のトレンドをより包括的に理解し、他の分野の研究者への参照を提供するのに役立つだろう。

Microorganisms play a vital role in human life. Therefore, microorganism detection is of great significance to human beings. However, the traditional manual microscopic detection methods have the disadvantages of long detection cycle, low detection accuracy in large orders, and great difficulty in detecting uncommon microorganisms. Therefore, it is meaningful to apply computer image analysis technology to the field of microorganism detection. Computer image analysis can realize high-precision and high-efficiency detection of microorganisms. In this review, first,we analyse the existing microorganism detection methods in chronological order, from traditional image processing and traditional machine learning to deep learning methods. Then, we analyze and summarize these existing methods and introduce some potential methods, including visual transformers. In the end, the future development direction and challenges of microorganism detection are discussed. In general, we have summarized 137 related technical papers from 1985 to the present. This review will help researchers have a more comprehensive understanding of the development process, research status, and future trends in the field of microorganism detection and provide a reference for researchers in other fields.
翻訳日:2021-05-10 18:02:56 公開日:2021-05-07
# (参考訳) Few-shot LearningのためのDiff-ResNets - ODEパースペクティブ [全文訳有]

Diff-ResNets for Few-shot Learning -- an ODE Perspective ( http://arxiv.org/abs/2105.03155v1 )

ライセンス: CC BY-SA 4.0
Tangjun Wang, Zehao Dou, Chenglong Bao, Zuoqiang Shi(参考訳) 通常の微分方程式(odes)の観点からのディープニューラルネットワークの解釈は多くの効率的でロバストなネットワークアーキテクチャに影響を与えている。 しかし、既存のODEベースのアプローチは、少数ショット学習や半教師付き学習を含む多くの問題において重要な要素であるデータポイント間の関係を無視している。 本稿では,データポイント間の相互作用を強化するための拡散残差ネットワーク(Diff-ResNet)を提案する。 構造的データ仮定により, 拡散機構は, クラス間点の分離性を高め, クラス間点間の距離を減少させる距離径比を低減できることが証明された。 この性質は、分離可能な超平面を構成するための残留ネットワークによって容易に適用できる。 合成二元分類実験は,提案する拡散機構の有効性を示す。 さらに、様々なデータセットにおける複数ショット画像分類と半教師付きグラフノード分類の広範な実験は、既存の複数ショット学習法よりも提案したDiff-ResNetの利点を検証する。

Interpreting deep neural networks from the ordinary differential equations (ODEs) perspective has inspired many efficient and robust network architectures. However, existing ODE based approaches ignore the relationship among data points, which is a critical component in many problems including few-shot learning and semi-supervised learning. In this paper, inspired by the diffusive ODEs, we propose a novel diffusion residual network (Diff-ResNet) to strengthen the interactions among data points. Under the structured data assumption, it is proved that the diffusion mechanism can decrease the distance-diameter ratio that improves the separability of inter-class points and reduces the distance among local intra-class points. This property can be easily adopted by the residual networks for constructing the separable hyperplanes. The synthetic binary classification experiments demonstrate the effectiveness of the proposed diffusion mechanism. Moreover, extensive experiments of few-shot image classification and semi-supervised graph node classification in various datasets validate the advantages of the proposed Diff-ResNet over existing few-shot learning methods.
翻訳日:2021-05-10 18:01:19 公開日:2021-05-07
# (参考訳) CO-NNECT:テキストにおける暗黙的知識の明示としての常識的知識パスを探求するためのフレームワーク [全文訳有]

CO-NNECT: A Framework for Revealing Commonsense Knowledge Paths as Explicitations of Implicit Knowledge in Texts ( http://arxiv.org/abs/2105.03157v1 )

ライセンス: CC BY 4.0
Maria Becker, Katharina Korfhage, Debjit Paul, Anette Frank(参考訳) 本研究では,暗黙的知識の明確化の形式として,文間の接続を確立するために,知識パスの形で常識知識を活用する。 このような接続は直接(シングルホップパス)あるいは中間概念(マルチホップパス)を必要とする。 このような経路を構築するために、私たちはCo-nnectと呼ばれる2つのモデルタイプを組み合わせて、概念間の直接接続を予測する関係分類器と、ソース概念とマルチホップパスを構築するために使用する関係を与えられたターゲットまたは中間概念を生成するターゲット予測モデルを構築します。 静的な知識ソースにのみ依存する以前の作業とは異なり、ConceptNetに格納された知識に基づいて微調整された言語モデルを利用して、テキスト中の文を接続する暗黙的な知識の説明として、知識パスを動的に生成する。 中心となる貢献として,生成経路の品質評価のためのマニュアルおよび自動評価設定をデザインする。 2つの議論的データセット上で評価を行い、2つのモデルタイプを組み合わせて、テキストで伝達される暗黙的な知識を明らかにする文間の有意義で高品質な知識パスを生成することを示す。

In this work we leverage commonsense knowledge in form of knowledge paths to establish connections between sentences, as a form of explicitation of implicit knowledge. Such connections can be direct (singlehop paths) or require intermediate concepts (multihop paths). To construct such paths we combine two model types in a joint framework we call Co-nnect: a relation classifier that predicts direct connections between concepts; and a target prediction model that generates target or intermediate concepts given a source concept and a relation, which we use to construct multihop paths. Unlike prior work that relies exclusively on static knowledge sources, we leverage language models finetuned on knowledge stored in ConceptNet, to dynamically generate knowledge paths, as explanations of implicit knowledge that connects sentences in texts. As a central contribution we design manual and automatic evaluation settings for assessing the quality of the generated paths. We conduct evaluations on two argumentative datasets and show that a combination of the two model types generates meaningful, high-quality knowledge paths between sentences that reveal implicit knowledge conveyed in text.
翻訳日:2021-05-10 17:32:02 公開日:2021-05-07
# (参考訳) 絵文字のアイデンティティ信号はTwitter上での事実認識に影響を与えない [全文訳有]

Identity Signals in Emoji Do not Influence Perception of Factual Truth on Twitter ( http://arxiv.org/abs/2105.03160v1 )

ライセンス: CC BY 4.0
Alexander Robertson, Walid Magdy, Sharon Goldwater(参考訳) 以前の研究によると、Twitterユーザーは人種や民族のアイデンティティを表現するために、自己表現の行為としてスキントーン絵文字を使っている。 この信号が、その信号を含む投稿の内容に対する読者の認識に影響を及ぼすかどうかを検証する。 大規模な(n=944)事前登録制御実験において、読者が不明瞭なトリヴィア事実(つぶやきとして表現される)を真偽と評価するタスクにおいて、スキントーン絵文字とプロフィール写真の存在を操作した。 ベイズ統計分析の結果、絵文字もプロフィール写真も、読者がこれらの事実を評価する方法に影響を与えていないことがわかった。 この結果は、偽のプロフィールを作成することで、オンラインユーザーの操作を心配する人なら誰でも安心できるだろう。

Prior work has shown that Twitter users use skin-toned emoji as an act of self-representation to express their racial/ethnic identity. We test whether this signal of identity can influence readers' perceptions about the content of a post containing that signal. In a large scale (n=944) pre-registered controlled experiment, we manipulate the presence of skin-toned emoji and profile photos in a task where readers rate obscure trivia facts (presented as tweets) as true or false. Using a Bayesian statistical analysis, we find that neither emoji nor profile photo has an effect on how readers rate these facts. This result will be of some comfort to anyone concerned about the manipulation of online users through the crafting of fake profiles.
翻訳日:2021-05-10 17:14:17 公開日:2021-05-07
# (参考訳) 絵文字の影の生き方:Hacktivist CollectiveによるTwitter上の絵文字利用の分析 [全文訳有]

The Shadowy Lives of Emojis: An Analysis of a Hacktivist Collective's Use of Emojis on Twitter ( http://arxiv.org/abs/2105.03168v1 )

ライセンス: CC BY 4.0
Keenan Jones, Jason R. C. Nurse, Shujun Li(参考訳) 絵文字は、オンラインメッセージングにおける一般的なコミュニケーション手段としての地位を確立した。 しかし、これらの画像ベースのトークンが広く使われているにもかかわらず、解釈とあいまいさは絵文字のユニークな使用を可能にする可能性がある。 本稿では,Hacktivistグループによる最初の絵文字使用状況について,Twitter上での匿名集団の研究を通して紹介する。 この研究は、匿名のアフィリエイトたちが絵文字を使う独自のアプローチを進化させたかどうかを特定することを目的としている。 これを実現するために、匿名ツイートの大規模なデータセットと、ランダムにサンプリングされたTwitterユーザーのベースラインツイートデータセットを比較し、その絵文字使用率を比較した。 我々は、word2vec言語モデルを用いて、絵文字間の意味的関係を調べ、匿名ユーザの絵文字-絵文字間関係を明確に区別する。 絵文字と絵文字のセマンティックな結びつきがほとんどないにもかかわらず、匿名絵文字の使い方は、ベースラインのTwitterユーザーの絵文字と同じような感情的目的のパターンを示す。 最後に、これらの絵文字が出現するテキストの文脈を調査し、AnonymousとベースラインのTwitterデータセットの絵文字使用に類似性はあるが、Anonymousユーザは特定の絵文字のより具体的な解釈を採用したようだ。 これには、著名なアノニマス・アフィリエートへの敬意を表す手段として絵文字の使用が含まれる。 これらの結果は、絵文字がAnonymousアカウント内で、一般的なTwitterユーザーと比べてかなり類似していることを示している。 しかし、アノニマスのアカウントにおける絵文字の使用が幾らか進化した兆候であり、この異常な集団の行動に対する新たな洞察を示すグループ固有の関連性を得る。

Emojis have established themselves as a popular means of communication in online messaging. Despite the apparent ubiquity in these image-based tokens, however, interpretation and ambiguity may allow for unique uses of emojis to appear. In this paper, we present the first examination of emoji usage by hacktivist groups via a study of the Anonymous collective on Twitter. This research aims to identify whether Anonymous affiliates have evolved their own approach to using emojis. To do this, we compare a large dataset of Anonymous tweets to a baseline tweet dataset from randomly sampled Twitter users using computational and qualitative analysis to compare their emoji usage. We utilise Word2Vec language models to examine the semantic relationships between emojis, identifying clear distinctions in the emoji-emoji relationships of Anonymous users. We then explore how emojis are used as a means of conveying emotions, finding that despite little commonality in emoji-emoji semantic ties, Anonymous emoji usage displays similar patterns of emotional purpose to the emojis of baseline Twitter users. Finally, we explore the textual context in which these emojis occur, finding that although similarities exist between the emoji usage of our Anonymous and baseline Twitter datasets, Anonymous users appear to have adopted more specific interpretations of certain emojis. This includes the use of emojis as a means of expressing adoration and infatuation towards notable Anonymous affiliates. These findings indicate that emojis appear to retain a considerable degree of similarity within Anonymous accounts as compared to more typical Twitter users. However, their are signs that emoji usage in Anonymous accounts has evolved somewhat, gaining additional group-specific associations that reveal new insights into the behaviours of this unusual collective.
翻訳日:2021-05-10 17:04:39 公開日:2021-05-07
# (参考訳) 表象学習と報酬形成のための報酬予測 [全文訳有]

Reward prediction for representation learning and reward shaping ( http://arxiv.org/abs/2105.03172v1 )

ライセンス: CC BY 4.0
Hlynur Dav\'i{\dh} Hlynsson, Laurenz Wiskott(参考訳) 強化学習(RL)の基本的な課題の1つは、データ効率の1つである: 現代のアルゴリズムは、高次元の観測を行う環境を解決するために、特に人間と比較して、非常に多くのトレーニングサンプルを必要とする。 報酬信号がスパースである場合には、この問題の重大度が増大する。 本研究では,報酬予測のための自己指導型状態表現学習を提案する。 報酬予測器は、単一の終了目標状態の環境において、真の報酬信号の生または滑らかなバージョンを推定する。 政策学習中に報酬予測器を用いて報酬を形作ることにより、アウトオブボックスのRLエージェントのトレーニングを強化する。 視覚的入力のある単一ゴール環境におけるKronecker-factored Trust Region と Proximal Policy Optimization を用いて,高次元観測の事前処理,および報酬形成の予測器を用いて,アクター批判を著しく向上させることを示す。

One of the fundamental challenges in reinforcement learning (RL) is the one of data efficiency: modern algorithms require a very large number of training samples, especially compared to humans, for solving environments with high-dimensional observations. The severity of this problem is increased when the reward signal is sparse. In this work, we propose learning a state representation in a self-supervised manner for reward prediction. The reward predictor learns to estimate either a raw or a smoothed version of the true reward signal in environment with a single, terminating, goal state. We augment the training of out-of-the-box RL agents by shaping the reward using our reward predictor during policy learning. Using our representation for preprocessing high-dimensional observations, as well as using the predictor for reward shaping, is shown to significantly enhance Actor Critic using Kronecker-factored Trust Region and Proximal Policy Optimization in single-goal environments with visual inputs.
翻訳日:2021-05-10 16:47:36 公開日:2021-05-07
# (参考訳) ジェネリック知識獲得のモデル化のための基礎的アプローチ [全文訳有]

A Grounded Approach to Modeling Generic Knowledge Acquisition ( http://arxiv.org/abs/2105.03207v1 )

ライセンス: CC BY 4.0
Deniz Beser, Joe Cecil, Marjorie Freedman, Jacob Lichtefeld, Mitch Marcus, Sarah Payne, and Charles Yang(参考訳) 汎用言語から学習するための認知的に妥当なモデル、あるカテゴリーのメンバーについての一般化を表現し、言語獲得における概念開発の重要な側面であるステートメントを紹介し、実装する(carlson & pelletier, 1995; gelman, 2009)。 概念ネットワークを導入することにより,基礎言語獲得をモデル化する計算フレームワークを拡張した。 この新しい抽象化レイヤにより、システムはジェネリックステートメントから学んだ知識をエンコードし、システムによって学習された概念間の関連を表現することができる。 概念ネットワークを利用する3つのタスクを通じて、ADAMへの拡張が汎用情報を取得することを実証し、ADAMが言語習得のモデル化にどのように使えるかを例示する。

We introduce and implement a cognitively plausible model for learning from generic language, statements that express generalizations about members of a category and are an important aspect of concept development in language acquisition (Carlson & Pelletier, 1995; Gelman, 2009). We extend a computational framework designed to model grounded language acquisition by introducing the concept network. This new layer of abstraction enables the system to encode knowledge learned from generic statements and represent the associations between concepts learned by the system. Through three tasks that utilize the concept network, we demonstrate that our extensions to ADAM can acquire generic information and provide an example of how ADAM can be used to model language acquisition.
翻訳日:2021-05-10 16:32:11 公開日:2021-05-07
# (参考訳) LatentSLAM:ローカライゼーションとマッピングのための教師なしマルチセンサ表現学習 [全文訳有]

LatentSLAM: unsupervised multi-sensor representation learning for localization and mapping ( http://arxiv.org/abs/2105.03265v1 )

ライセンス: CC BY 4.0
Ozan \c{C}atal, Wouter Jansen, Tim Verbelen, Bart Dhoedt and Jan Steckel(参考訳) RatSLAMのような生物学的にインスパイアされた、同時位置決めとマッピング(SLAM)のためのアルゴリズムは、屋内と屋外の両方で効果的で堅牢なロボットナビゲーションをもたらすことが示されている。 しかし1つの欠点は、低次元感覚テンプレートのテンプレートマッチングによる知覚エイリアスに対する感受性である。 本稿では,ラットラムに使用可能な低次元潜在状態記述子を生成する教師なし表現学習手法を提案する。 本手法はセンサ非依存であり,カメラ画像,レーダーレンジドップラーマップ,ライダースキャンなど,あらゆるセンサモダリティに適用可能である。 また,複数のセンサを組み合わせることで,一致回数を減らし,ロバスト性を高めることを示す。 倉庫のような環境で移動する移動ロボットで収集したデータセットを評価し,類似した外観の異なる通路を移動させることで,slamアルゴリズムでは位置の曖昧さを解消することが困難となる。

Biologically inspired algorithms for simultaneous localization and mapping (SLAM) such as RatSLAM have been shown to yield effective and robust robot navigation in both indoor and outdoor environments. One drawback however is the sensitivity to perceptual aliasing due to the template matching of low-dimensional sensory templates. In this paper, we propose an unsupervised representation learning method that yields low-dimensional latent state descriptors that can be used for RatSLAM. Our method is sensor agnostic and can be applied to any sensor modality, as we illustrate for camera images, radar range-doppler maps and lidar scans. We also show how combining multiple sensors can increase the robustness, by reducing the number of false matches. We evaluate on a dataset captured with a mobile robot navigating in a warehouse-like environment, moving through different aisles with similar appearance, making it hard for the SLAM algorithms to disambiguate locations.
翻訳日:2021-05-10 16:22:56 公開日:2021-05-07
# (参考訳) 光ofdmベースネットワークのための応用機械学習技術に関する調査 [全文訳有]

A Survey of Applied Machine Learning Techniques for Optical OFDM based Networks ( http://arxiv.org/abs/2105.03289v1 )

ライセンス: CC BY 4.0
Hichem Mrabet, Elias Giaccoumidis and Iyad Dayoub(参考訳) 本稿では,光学直交周波数分割多重化(O-OFDM)に基づく光通信における最新の機械学習技術について分析する。 MLはチャネルとトランシーバーの不完全性を緩和するために提案されている。 例えば、mlは低変調消滅率下で信号品質を向上させることができ、また長距離伝送におけるパラメトリックノイズ増幅のような決定論的および確率的非線形性にも対処できる。 O-OFDMのためのMLアルゴリズムは、特に4波混合や相間変調のようなサブキャリア間非線形効果に取り組むことができる。 本質的に、これらのML技術は、任意のマルチキャリアアプローチ(例)に有用である。 フィルタバンクの変調)。 O-OFDM伝送性能と潜在的リアルタイム実装における計算複雑性の両面から,教師なしML手法を解析した。 本稿では,MLアルゴリズムが分類,回帰,クラスタリングを行うための厳密な条件を示す。 また、オープンな研究課題とML実装に向けた今後の方向性についても論じている。

In this survey, we analyze the newest machine learning (ML) techniques for optical orthogonal frequency division multiplexing (O-OFDM)-based optical communications. ML has been proposed to mitigate channel and transceiver imperfections. For instance, ML can improve the signal quality under low modulation extinction ratio or can tackle both determinist and stochastic-induced nonlinearities such as parametric noise amplification in long-haul transmission. The proposed ML algorithms for O-OFDM can in particularly tackle inter-subcarrier nonlinear effects such as four-wave mixing and cross-phase modulation. In essence, these ML techniques could be beneficial for any multi-carrier approach (e.g. filter bank modulation). Supervised and unsupervised ML techniques are analyzed in terms of both O-OFDM transmission performance and computational complexity for potential real-time implementation. We indicate the strict conditions under which a ML algorithm should perform classification, regression or clustering. The survey also discusses open research issues and future directions towards the ML implementation.
翻訳日:2021-05-10 16:10:46 公開日:2021-05-07
# (参考訳) 非定常力学環境に対する文脈ベースソフトアクター批判 [全文訳有]

Context-Based Soft Actor Critic for Environments with Non-stationary Dynamics ( http://arxiv.org/abs/2105.03310v1 )

ライセンス: CC BY 4.0
Yuan Pu, Shaochen Wang, Xin Yao, Bin Li(参考訳) 非定常動的環境に適用すると,深層強化学習法の性能は低下する傾向にあった。 本稿では,近年のMeta-RL材料に動機づけられた潜在コンテキスト再帰エンコーダを用いて,上記の問題に対処するための潜在コンテキストベースのソフトアクター批判(LC-SAC)手法を提案する。 コントラスト予測損失関数を最小化することにより、学習されたコンテキスト変数は、環境ダイナミクスとエージェントの最近の振る舞いに関する情報をキャプチャする。 そして、ソフトポリシー反復パラダイムと組み合わさって、lc-sac法は、ソフトポリシー評価とソフトポリシー改善を、最適なポリシーに収束するまで交互に行う。 実験の結果, LC-SACは, 異なるエピソード間で動的に変化するメタワールドML1タスクにおいて, SACアルゴリズムよりも有意に優れており, 動的変化が遅い, 異なるエピソード間で変化しない, 連続制御ベンチマークタスクMuJoCo上でのSACと同等であることがわかった。 さらに,様々なハイパーパラメータ設定がlc-sacアルゴリズムの性能に与える影響を判定するための関連する実験を行い,ハイパーパラメータ設定の合理的な提案を行う。

The performance of deep reinforcement learning methods prone to degenerate when applied to environments with non-stationary dynamics. In this paper, we utilize the latent context recurrent encoders motivated by recent Meta-RL materials, and propose the Latent Context-based Soft Actor Critic (LC-SAC) method to address aforementioned issues. By minimizing the contrastive prediction loss function, the learned context variables capture the information of the environment dynamics and the recent behavior of the agent. Then combined with the soft policy iteration paradigm, the LC-SAC method alternates between soft policy evaluation and soft policy improvement until it converges to the optimal policy. Experimental results show that the performance of LC-SAC is significantly better than the SAC algorithm on the MetaWorld ML1 tasks whose dynamics changes drasticly among different episodes, and is comparable to SAC on the continuous control benchmark task MuJoCo whose dynamics changes slowly or doesn't change between different episodes. In addition, we also conduct relevant experiments to determine the impact of different hyperparameter settings on the performance of the Lc-SAC algorithm and give the reasonable suggestions of hyperparameter setting.
翻訳日:2021-05-10 15:45:47 公開日:2021-05-07
# (参考訳) 高次元最適制御問題とハミルトン・ヤコビPDEを解くためにminプラス代数を用いたニューラルネットワークアーキテクチャ

Neural network architectures using min plus algebra for solving certain high dimensional optimal control problems and Hamilton-Jacobi PDEs ( http://arxiv.org/abs/2105.03336v1 )

ライセンス: CC BY 4.0
J\'er\^ome Darbon and Peter M. Dower and Tingwei Meng(参考訳) 高次元最適制御問題と対応するハミルトン・ヤコビPDEを解くことは、制御工学において重要であるが難しい。 本稿では,高次元最適制御問題のクラスにおける最適制御の値関数と状態フィードバック特性をそれぞれ表現する2つの抽象ニューラルネットワークアーキテクチャを提案する。 2つの抽象アーキテクチャの数学的解析を提供する。 また、これらの抽象アーキテクチャのディープニューラルネットワーク実装を用いて計算した数値結果についても示す。 この研究は、ニューラルネットワーク用に設計された効率的な専用ハードウェアを活用して、高次元最適制御問題とハミルトン・ヤコビPDEを解く方法である。

Solving high dimensional optimal control problems and corresponding Hamilton-Jacobi PDEs are important but challenging problems in control engineering. In this paper, we propose two abstract neural network architectures which respectively represent the value function and the state feedback characterisation of the optimal control for certain class of high dimensional optimal control problems. We provide the mathematical analysis for the two abstract architectures. We also show several numerical results computed using the deep neural network implementations of these abstract architectures. This work paves the way to leverage efficient dedicated hardware designed for neural networks to solve high dimensional optimal control problems and Hamilton-Jacobi PDEs.
翻訳日:2021-05-10 15:28:24 公開日:2021-05-07
# (参考訳) プルーニングによる適応:BERTを事例として [全文訳有]

Adapting by Pruning: A Case Study on BERT ( http://arxiv.org/abs/2105.03343v1 )

ライセンス: CC BY 4.0
Yang Gao and Nicolo Colombo and Wei Wang(参考訳) 学習済みのニューラルモデルを下流タスクに適応させることが、高品質なモデルを得るための標準的なプラクティスとなっている。 そこで本研究では,プレトレーニングモデルにおけるニューラルコネクションを具現化して目標タスクの性能を最適化する,プルーニングによる新しいモデル適応パラダイムを提案する。 本稿では, 最適化問題として適応分割法を定式化し, モデル作成のための効率的なアルゴリズムを提案する。 提案アルゴリズムは,標準的な前提条件下でほぼ最適であることを証明し,BERTをいくつかのGLUEタスクに適用するアルゴリズムを適用した。 以上の結果から,提案手法は細調整フルモデルと同等の性能を示しながら,BERTの最大50%の重み付けが可能であることが示唆された。 また,本手法を他の最先端プルーニング法と比較し,得られたサブネットワークのトポロジ的差異について検討した。

Adapting pre-trained neural models to downstream tasks has become the standard practice for obtaining high-quality models. In this work, we propose a novel model adaptation paradigm, adapting by pruning, which prunes neural connections in the pre-trained model to optimise the performance on the target task; all remaining connections have their weights intact. We formulate adapting-by-pruning as an optimisation problem with a differentiable loss and propose an efficient algorithm to prune the model. We prove that the algorithm is near-optimal under standard assumptions and apply the algorithm to adapt BERT to some GLUE tasks. Results suggest that our method can prune up to 50% weights in BERT while yielding similar performance compared to the fine-tuned full model. We also compare our method with other state-of-the-art pruning methods and study the topological differences of their obtained sub-networks.
翻訳日:2021-05-10 15:27:30 公開日:2021-05-07
# (参考訳) 人間とAIのコラボレーションの未来--ハイブリッドインテリジェンスシステムの設計知識の分類学 [全文訳有]

The future of human-AI collaboration: a taxonomy of design knowledge for hybrid intelligence systems ( http://arxiv.org/abs/2105.03354v1 )

ライセンス: CC BY 4.0
Dominik Dellermann, Adrian Calma, Nikolaus Lipusch, Thorsten Weber, Sascha Weigel, and Philipp Ebel(参考訳) 最近の技術進歩、特に機械学習の分野は、人工知能への道のりにおいて驚くべき進歩をもたらしている。 しかし、現在の実世界のビジネスアプリケーションのタスクは、マシンだけでは解決できない。 そこで我々は,人間と機械の社会技術的アンサンブルを開発する必要性を認識した。 このようなシステムには、人間と人工知能を組み合わせることで複雑な目標を達成する能力があり、優れた結果を総合的に達成し、互いに学習することで継続的に改善する。 したがって、これらのシステムに対する構造化設計知識の必要性が生じる。 まず、機械学習パイプラインにおける人間の役割に関する学際的な研究の構造化の概要を述べる。 第2に、ハイブリッド・インテリジェンス・システムを想定し、システム設計の関連次元を初めて概念化する。 最後に,このようなアプリケーションの実装において,システム開発者に有用なガイダンスを提供する。

Recent technological advances, especially in the field of machine learning, provide astonishing progress on the road towards artificial general intelligence. However, tasks in current real-world business applications cannot yet be solved by machines alone. We, therefore, identify the need for developing socio-technological ensembles of humans and machines. Such systems possess the ability to accomplish complex goals by combining human and artificial intelligence to collectively achieve superior results and continuously improve by learning from each other. Thus, the need for structured design knowledge for those systems arises. Following a taxonomy development method, this article provides three main contributions: First, we present a structured overview of interdisciplinary research on the role of humans in the machine learning pipeline. Second, we envision hybrid intelligence systems and conceptualize the relevant dimensions for system design for the first time. Finally, we offer useful guidance for system developers during the implementation of such applications.
翻訳日:2021-05-10 15:14:12 公開日:2021-05-07
# (参考訳) ビジネスモデル検証のためのハイブリッドインテリジェンス意思決定支援システムの設計原理 [全文訳有]

Design principles for a hybrid intelligence decision support system for business model validation ( http://arxiv.org/abs/2105.03356v1 )

ライセンス: CC BY 4.0
Dominik Dellermann, Nikolaus Lipusch, Philipp Ebel, and Jan Marco Leimeister(参考訳) スタートアップにとって最も重要なタスクの1つは、ビジネスモデルを検証することだ。 そのため、起業家は他の俳優からのフィードバックなどの情報を収集し、仮定の妥当性を評価し、判断しようとする。 しかし、ビジネスモデル検証のための意思決定ガイダンスに関する以前の作業は、初期段階のスタートアップの高度に不確実で複雑なコンテキストに対する解決策を提供していない。 そこで本論文は,人間と機械の補完機能を組み合わせたハイブリッドインテリジェンス意思決定支援システム(HI-DSS)の設計原理を開発することを目的とする。 我々はプロトタイプのアーティファクトと一連の設計原則を設計するための設計科学研究アプローチに従う。 本研究は,hi-dssの規範的知識を提供し,ビジネスモデルに対する意思決定支援,意思決定のための人間と機械の補完的強みの応用,極めて不確定な意思決定問題に対する支援システムの先行研究に寄与する。

One of the most critical tasks for startups is to validate their business model. Therefore, entrepreneurs try to collect information such as feedback from other actors to assess the validity of their assumptions and make decisions. However, previous work on decisional guidance for business model validation provides no solution for the highly uncertain and complex context of earlystage startups. The purpose of this paper is, thus, to develop design principles for a Hybrid Intelligence decision support system (HI-DSS) that combines the complementary capabilities of human and machine intelligence. We follow a design science research approach to design a prototype artifact and a set of design principles. Our study provides prescriptive knowledge for HI-DSS and contributes to previous work on decision support for business models, the applications of complementary strengths of humans and machines for making decisions, and support systems for extremely uncertain decision-making problems.
翻訳日:2021-05-10 14:56:02 公開日:2021-05-07
# (参考訳) ユニコーンの発見:ハイブリッドインテリジェンス手法によるアーリーステージスタートアップの成功予測 [全文訳有]

Finding the unicorn: Predicting early stage startup success through a hybrid intelligence method ( http://arxiv.org/abs/2105.03360v1 )

ライセンス: CC BY 4.0
Dominik Dellermann, Nikolaus Lipusch, Philipp Ebel, Karl Michael Popp, and Jan Marco Leimeister(参考訳) 人工知能は新たな話題であり、すぐに人間よりも優れた意思決定ができるようになるだろう。 しかし、イノベーションのようなより複雑で創造的な文脈では、機械が人間より優れているかどうかが疑問である。 機械は、ソフト情報(定量化できない情報)の処理と解釈の2つの状況で失敗し、極端な不確実性の無知なリスク状況における予測を行う。 このような状況では、マシンは特定の結果を表す情報を持っていない。 そのため、人間は依然として柔らかい信号を評価し、直感を利用するための金の標準である。 スタートアップの成功を予測するために、私たちは人間と機械の補完的な能力をハイブリッドインテリジェンスの方法で組み合わせます。 目的を達成するために,機械と集団の知能の強さを組み合わせたハイブリッドインテリジェンス手法を開発し,極めて不確実な予測におけるその有用性を実証する設計科学研究手法に従う。

Artificial intelligence is an emerging topic and will soon be able to perform decisions better than humans. In more complex and creative contexts such as innovation, however, the question remains whether machines are superior to humans. Machines fail in two kinds of situations: processing and interpreting soft information (information that cannot be quantified) and making predictions in unknowable risk situations of extreme uncertainty. In such situations, the machine does not have representative information for a certain outcome. Thereby, humans are still the gold standard for assessing soft signals and make use of intuition. To predict the success of startups, we, thus, combine the complementary capabilities of humans and machines in a Hybrid Intelligence method. To reach our aim, we follow a design science research approach to develop a Hybrid Intelligence method that combines the strength of both machine and collective intelligence to demonstrate its utility for predictions under extreme uncertainty.
翻訳日:2021-05-10 14:30:59 公開日:2021-05-07
# (参考訳) 適応型対数ロールアウトを用いたモデルベースマルチエージェントポリシー最適化 [全文訳有]

Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise Rollouts ( http://arxiv.org/abs/2105.03363v1 )

ライセンス: CC BY 4.0
Weinan Zhang, Xihuai Wang, Jian Shen, Ming Zhou(参考訳) 本稿では,マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。 我々は, MARLにおける動的サンプル複雑性と反対サンプル複雑性を規定し, 回帰差分上限の理論的解析を行う。 そこで本研究では,学習過程全体におけるサンプル複雑性の低減を目的として,適応的対向的ロールアウト政策最適化(aorpo)と呼ばれる分散モデルに基づくmarl法を提案する。 AORPOでは、各エージェントは動的モデルと複数の対戦モデルからなるマルチエージェント環境モデルを構築し、適応的対向的ロールアウトでポリシーを訓練する。 さらに、AORPOの理論的収束を合理的な仮定で証明する。 競合的および協調的なタスクに関する実証実験により、AORPOは比較したMARL法よりも漸近的な性能でサンプル効率を向上できることを示した。

This paper investigates the model-based methods in multi-agent reinforcement learning (MARL). We specify the dynamics sample complexity and the opponent sample complexity in MARL, and conduct a theoretic analysis of return discrepancy upper bound. To reduce the upper bound with the intention of low sample complexity during the whole learning process, we propose a novel decentralized model-based MARL method, named Adaptive Opponent-wise Rollout Policy Optimization (AORPO). In AORPO, each agent builds its multi-agent environment model, consisting of a dynamics model and multiple opponent models, and trains its policy with the adaptive opponent-wise rollout. We further prove the theoretic convergence of AORPO under reasonable assumptions. Empirical experiments on competitive and cooperative tasks demonstrate that AORPO can achieve improved sample efficiency with comparable asymptotic performance over the compared MARL methods.
翻訳日:2021-05-10 14:16:23 公開日:2021-05-07
# (参考訳) ハイブリッドインテリジェンスによる脳内決定の高速化

Accelerating Entrepreneurial Decision-Making Through Hybrid Intelligence ( http://arxiv.org/abs/2105.03365v1 )

ライセンス: CC BY 4.0
Dominik Dellermann(参考訳) ハイブリッドインテリジェンスデザインパラダイムと原則による起業意思決定の促進

Accelerating Entrepreneurial Decision-Making Through Hybrid Intelligence DESIGN PARADIGMS AND PRINCIPLES FOR DECISIONAL GUIDANCE IN ENTREPRENEURSHIP
翻訳日:2021-05-10 13:13:35 公開日:2021-05-07
# (参考訳) 多視点データに対する二重整合行列分解

Double-matched matrix decomposition for multi-view data ( http://arxiv.org/abs/2105.03396v1 )

ライセンス: CC BY 4.0
Dongbang Yuan and Irina Gaynanova(参考訳) 一致したサンプルから異なるソースから収集されたデータである多視点データから,関節信号と個別信号の抽出の問題を考える。 既存のマルチビューデータ分解手法では,サンプルによるデータの単一マッチングを探索するが,サンプルとソースの特徴が一致した二重マッチング型マルチビューデータに注目する。 我々のモチベーションの例は、同じ被験者の原発性腫瘍と正常組織の両方から採取されたmiRNAデータであり、2つの組織からの測定は被検体とmiRNAの両方で一致している。 提案する二重整合行列分解により,被検者間のジョイント信号と個別信号と,mirna間のジョイント信号と個別信号を同時に抽出することができる。 提案手法は,明示的な行空間と列空間制約を持つ新しいタイプの最適化問題を定式化し,効率的な反復アルゴリズムを構築することにより,ダブルマッチングの利点を生かした。 数値解析により, 単一マッチングに基づく既存のマルチビューデータ分解よりも, 信号推定性能が優れていることが示された。 本手法は,イギリス・プレミアリーグのサッカーの試合データだけでなく,miRNAデータにも適用し,ドメイン固有の知識と一致した共同および個別のマルチビュー信号を求める。

We consider the problem of extracting joint and individual signals from multi-view data, that is data collected from different sources on matched samples. While existing methods for multi-view data decomposition explore single matching of data by samples, we focus on double-matched multi-view data (matched by both samples and source features). Our motivating example is the miRNA data collected from both primary tumor and normal tissues of the same subjects; the measurements from two tissues are thus matched both by subjects and by miRNAs. Our proposed double-matched matrix decomposition allows to simultaneously extract joint and individual signals across subjects, as well as joint and individual signals across miRNAs. Our estimation approach takes advantage of double-matching by formulating a new type of optimization problem with explicit row space and column space constraints, for which we develop an efficient iterative algorithm. Numerical studies indicate that taking advantage of double-matching leads to superior signal estimation performance compared to existing multi-view data decomposition based on single-matching. We apply our method to miRNA data as well as data from the English Premier League soccer matches, and find joint and individual multi-view signals that align with domain specific knowledge.
翻訳日:2021-05-10 13:12:34 公開日:2021-05-07
# (参考訳) フランス語音声のクラウドベース音声テキストサービスと背景雑音効果のベンチマーク [全文訳有]

A Benchmarking on Cloud based Speech-To-Text Services for French Speech and Background Noise Effect ( http://arxiv.org/abs/2105.03409v1 )

ライセンス: CC BY 4.0
Binbin Xu and Chongyang Tao and Zidu Feng and Youssef Raqui and Sylvie Ranwez(参考訳) 本研究では,クラウドベースの音声テキストシステム上で大規模なベンチマークを行う: {Google Cloud Speech-To-Text}, {Microsoft Azure Cognitive Services}, {Amazon Transcribe}, {IBM Watson Speech to Text}。 各システムでは、40158個のクリーンでノイズの多い音声ファイルが約101時間テストされている。 また,STT品質に対する背景雑音の影響を,40dBから0dBまでの5種類の信号対雑音比で評価した。 結果、Microsoft Azure} はクリーンスピーチにおいて最低転写エラー率 9.09 % を提供し、ノイズの多い環境に対して高い堅牢性を示した。 Google Cloud} と {Amazon Transcribe} も同様のパフォーマンスを示したが、後者は時間制約の使用に限られている。 IBM Watson} は静かな環境では正しく機能する可能性があるが、現実の状況においてその適用を強く制限するうるノイズの多いスピーチには極めて適している。

This study presents a large scale benchmarking on cloud based Speech-To-Text systems: {Google Cloud Speech-To-Text}, {Microsoft Azure Cognitive Services}, {Amazon Transcribe}, {IBM Watson Speech to Text}. For each systems, 40158 clean and noisy speech files about 101 hours are tested. Effect of background noise on STT quality is also evaluated with 5 different Signal-to-noise ratios from 40dB to 0dB. Results showed that {Microsoft Azure} provided lowest transcription error rate $9.09\%$ on clean speech, with high robustness to noisy environment. {Google Cloud} and {Amazon Transcribe} gave similar performance, but the latter is very limited for time-constraint usage. Though {IBM Watson} could work correctly in quiet conditions, it is highly sensible to noisy speech which could strongly limit its application in real life situations.
翻訳日:2021-05-10 13:10:59 公開日:2021-05-07
# (参考訳) 深層学習ハミルトニアンモンテカルロ [全文訳有]

Deep Learning Hamiltonian Monte Carlo ( http://arxiv.org/abs/2105.03418v1 )

ライセンス: CC BY 4.0
Sam Foreman, Xiao-Yong Jin, and James C. Osborn(参考訳) 本研究では,2次元格子ゲージ理論において,ハミルトニアンモンテカルロアルゴリズムをニューラルネットワーク層で一般化し,異なる位相からサンプリングする能力を評価する。 我々は,モデルが異なる位相モードの混合に成功し,独立ゲージ場構成の計算コストを大幅に削減できることを実証した。 実装はhttps://github.com/s aforem2/l2hmc-qcdで利用可能です。

We generalize the Hamiltonian Monte Carlo algorithm with a stack of neural network layers and evaluate its ability to sample from different topologies in a two dimensional lattice gauge theory. We demonstrate that our model is able to successfully mix between modes of different topologies, significantly reducing the computational cost required to generated independent gauge field configurations. Our implementation is available at https://github.com/s aforem2/l2hmc-qcd .
翻訳日:2021-05-10 13:00:34 公開日:2021-05-07
# Granger Causality: レビューと最近の進歩

Granger Causality: A Review and Recent Advances ( http://arxiv.org/abs/2105.02675v2 )

ライセンス: Link先を確認
Ali Shojaie and Emily B. Fox(参考訳) 半世紀以上前に導入されたGranger causalityは、経済学や金融学、ゲノム学、神経科学など、多くのアプリケーション領域で時系列データを分析するための一般的なツールとなっている。 この人気にもかかわらず、時系列間の因果関係を推測するこの概念の有効性は継続的な議論の対象となっている。 さらに、元の定義は一般的なものであったが、計算ツールの制限は主にグランガー因果関係の応用を単純二変量ベクトル自己回帰過程や変数の集合間の対関係に限定している。 本稿では,初期の発展と議論のレビューから,高次元時系列モデルから非線形・非ガウシアン観測を考慮し,サブサンプリング・混合周波数時系列を可能にする最近の発展まで,初期のアプローチの様々な欠点を扱った最近の進歩について述べる。

Introduced more than a half century ago, Granger causality has become a popular tool for analyzing time series data in many application domains, from economics and finance to genomics and neuroscience. Despite this popularity, the validity of this notion for inferring causal relationships among time series has remained the topic of continuous debate. Moreover, while the original definition was general, limitations in computational tools have primarily limited the applications of Granger causality to simple bivariate vector auto-regressive processes or pairwise relationships among a set of variables. Starting with a review of early developments and debates, this paper discusses recent advances that address various shortcomings of the earlier approaches, from models for high-dimensional time series to more recent developments that account for nonlinear and non-Gaussian observations and allow for sub-sampled and mixed frequency time series.
翻訳日:2021-05-10 12:31:53 公開日:2021-05-07
# mimii due: 運転状況および環境条件の変化による産業機械の故障調査およびドメインシフトによる検査のための音声データセット

MIMII DUE: Sound Dataset for Malfunctioning Industrial Machine Investigation and Inspection with Domain Shifts due to Changes in Operational and Environmental Conditions ( http://arxiv.org/abs/2105.02702v2 )

ライセンス: Link先を確認
Ryo Tanabe, Harsh Purohit, Kota Dohi, Takashi Endo, Yuki Nikaido, Toshiki Nakamura, and Yohei Kawaguchi(参考訳) 本稿では,産業機械の運転・環境条件の変化(mimii due)にともなう,業務機械の故障やドメインシフトによる検査のための新しいデータセットを提案する。 実世界の要因によって特徴の分布が訓練段階と運用段階(ドメインシフトと呼ばれる)に変化するため、従来の異常音検出手法では課題に直面している。 ドメインシフトに対する堅牢性をチェックするには、ドメインシフトを持つデータセットが必要ですが、そのようなデータセットは今のところ存在しません。 新しいデータセットは、通常/異常に依存しない2つの異なる運用/環境条件(ソースドメインとターゲットドメイン)下での5種類の産業機械の正常および異常な動作音と、2つのドメイン間でドメインシフトが発生する。 実験の結果、ソースドメインとターゲットドメインで有意な性能差があり、データセットにはドメインシフトが含まれている。 これらの結果は、データセットがドメインシフトに対する堅牢性をチェックするのに役立つことを示している。 このデータセットはDCASE 2021 Challenge Task 2のデータセットのサブセットであり、https://zenodo.org/r ecord/4740355で無料でダウンロードできる。

In this paper, we introduce a new dataset for malfunctioning industrial machine investigation and inspection with domain shifts due to changes in operational and environmental conditions (MIMII DUE). Conventional methods for anomalous sound detection face challenges in practice because the distribution of features changes between the training and operational phases (called domain shift) due to some real-world factors. To check the robustness against domain shifts, we need a dataset with domain shifts, but such a dataset does not exist so far. The new dataset consists of normal and abnormal operating sounds of industrial machines of five different types under two different operational/environm ental conditions (source domain and target domain) independent of normal/abnormal, with domain shifts occurring between the two domains. Experimental results show significant performance differences between the source and target domains, and the dataset contains the domain shifts. These results indicate that the dataset will be helpful to check the robustness against domain shifts. The dataset is a subset of the dataset for DCASE 2021 Challenge Task 2 and freely available for download at https://zenodo.org/r ecord/4740355
翻訳日:2021-05-10 12:31:39 公開日:2021-05-07
# 分布距離を用いた対話システムの評価

Assessing Dialogue Systems with Distribution Distances ( http://arxiv.org/abs/2105.02573v2 )

ライセンス: Link先を確認
Jiannan Xiang, Yahui Liu, Deng Cai, Huayang Li, Defu Lian and Lemao Liu(参考訳) 対話システムを開発する上で重要な側面は、異なるシステムの性能を評価し比較する方法である。 既存の自動評価指標はターンレベルの品質評価に基づいており、システムレベルの比較に平均スコアを使用する。 本稿では,対話システムの性能を,生成した会話と実世界の会話との距離を計算して測定することを提案する。 具体的には,FBD と PRD の2つの分布指標を開発し,評価した。 複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。

An important aspect of developing dialogue systems is how to evaluate and compare the performance of different systems. Existing automatic evaluation metrics are based on turn-level quality evaluation and use average scores for system-level comparison. In this paper, we propose to measure the performance of a dialogue system by computing the distribution-wise distance between its generated conversations and real-world conversations. Specifically, two distribution-wise metrics, FBD and PRD, are developed and evaluated. Experiments on several dialogue corpora show that our proposed metrics correlate better with human judgments than existing metrics.
翻訳日:2021-05-10 12:31:17 公開日:2021-05-07
# 箱に何が入ってるの? コモンクロールコーパスにおける望ましくない内容の分析

What's in the Box? An Analysis of Undesirable Content in the Common Crawl Corpus ( http://arxiv.org/abs/2105.02732v2 )

ライセンス: Link先を確認
Alexandra Sasha Luccioni, Joseph D. Viviano(参考訳) 現在のニューラル言語モデルの成功の多くは、ますます大規模なトレーニングコーパスによって推進されているが、これらの膨大なテキストデータを分析するための研究は、比較的少ない。 この探索的分析では、言語モデルのトレーニングに広く使われている巨大なWebコーパスであるCommon Crawlを深く掘り下げる。 ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。 最後に、このコンテンツが言語モデルに与える影響について議論し、コーパスの収集と分析に対してより念入りなアプローチを求める。

Whereas much of the success of the current generation of neural language models has been driven by increasingly large training corpora, relatively little research has been dedicated to analyzing these massive sources of textual data. In this exploratory analysis, we delve deeper into the Common Crawl, a colossal web corpus that is extensively used for training language models. We find that it contains a significant amount of undesirable content, including hate speech and sexually explicit content, even after filtering procedures. We conclude with a discussion of the potential impacts of this content on language models and call for more mindful approach to corpus collection and analysis.
翻訳日:2021-05-10 12:31:08 公開日:2021-05-07
# 非構造的再帰を伴う多項式グラフ解析

Polynomial Graph Parsing with Non-Structural Reentrancies ( http://arxiv.org/abs/2105.02033v3 )

ライセンス: Link先を確認
Johanna Bj\"orklund, Frank Drewes, and Anna Jonsson(参考訳) グラフに基づく意味表現は自然言語処理において有用であり、言語概念をノードとして表現することは単純で効果的であることが多い。 セマンティックグラフの言語を表現できるほど強力で効率的な解析が可能な生成デバイスを見つけるために、いくつかの試みがなされている。 グラフ拡張文法(graph extension grammar)は、グラフ上の代数と、その代数の演算上で式を生成する正規木文法からなる。 操作の設計により、これらの文法は非構造的な相互関係を持つグラフを生成することができ、抽象的意味表現のような形式的手法では過剰に一般的であるが、既存の装置がほとんどサポートしていないノード共有の一種である。 グラフ拡張文法の構文解析アルゴリズムを提案し、多項式時間で正しいことが証明された。

Graph-based semantic representations are valuable in natural language processing, where it is often simple and effective to represent linguistic concepts as nodes, and relations as edges between them. Several attempts has been made to find a generative device that is sufficiently powerful to represent languages of semantic graphs, while at the same allowing efficient parsing. We add to this line of work by introducing graph extension grammar, which consists of an algebra over graphs together with a regular tree grammar that generates expressions over the operations of the algebra. Due to the design of the operations, these grammars can generate graphs with non-structural reentrancies; a type of node-sharing that is excessively common in formalisms such as abstract meaning representation, but for which existing devices offer little support. We provide a parsing algorithm for graph extension grammars, which is proved to be correct and run in polynomial time.
翻訳日:2021-05-10 12:30:56 公開日:2021-05-07
# NLPにおけるデータ拡張手法の検討

A Survey of Data Augmentation Approaches for NLP ( http://arxiv.org/abs/2105.03075v1 )

ライセンス: Link先を確認
Steven Y. Feng, Varun Gangal, Jason Wei, Sarath Chandar, Soroush Vosoughi, Teruko Mitamura, Eduard Hovy(参考訳) データ拡張は最近、低リソースドメインでの作業の増加、新しいタスク、大量のトレーニングデータを必要とする大規模ニューラルネットワークの人気により、NLPへの関心が高まっている。 この最近の上昇にもかかわらず、この領域はまだ比較的過小評価されており、おそらく言語データの離散的な性質によって引き起こされる課題のためだろう。 本稿では,NLPの文献を構造化された方法で要約することにより,NLPのデータ拡張に関する包括的かつ統一的な調査を行う。 まず,nlpのためのデータ拡張の導入と動機付けを行い,次に主要な方法論的手法について論じる。 次に、一般的なNLPアプリケーションやタスクに使用されるテクニックを強調します。 今後の研究の課題と方向性を概説して締めくくる。 全体として,本論文は,nlpのデータ拡張における既存文献の展望を明らかにし,この分野における追加作業の動機づけを目的としている。

Data augmentation has recently seen increased interest in NLP due to more work in low-resource domains, new tasks, and the popularity of large-scale neural networks that require large amounts of training data. Despite this recent upsurge, this area is still relatively underexplored, perhaps due to the challenges posed by the discrete nature of language data. In this paper, we present a comprehensive and unifying survey of data augmentation for NLP by summarizing the literature in a structured manner. We first introduce and motivate data augmentation for NLP, and then discuss major methodologically representative approaches. Next, we highlight techniques that are used for popular NLP applications and tasks. We conclude by outlining current challenges and directions for future research. Overall, our paper aims to clarify the landscape of existing literature in data augmentation for NLP and motivate additional work in this area.
翻訳日:2021-05-10 12:30:40 公開日:2021-05-07
# AraCOVID19-MFH: アラビア語のマルチラベルフェイクニュースとヘイトスピーチ検出データセット

AraCOVID19-MFH: Arabic COVID-19 Multi-label Fake News and Hate Speech Detection Dataset ( http://arxiv.org/abs/2105.03143v1 )

ライセンス: Link先を確認
Mohamed Seghir Hadj Ameur, Hassina Aliane(参考訳) 新型コロナウイルス(COVID-19)のパンデミックに加え、偽情報や誤解を招く情報の「偽造」が出現し、対応の取り組みが複雑化している。 FacebookやTwitterのようなソーシャルネットワークサイトは、噂や陰謀説、憎悪、異端者、人種差別、偏見の拡散に大きく貢献している。 偽ニュースの拡散に対抗すべく、世界中の研究者は、新型コロナウイルス関連の研究論文、モデル、データセットの構築と共有にかなりの努力を続けている。 本稿は、手動で注釈付きマルチラベルのアラビアウイルス偽ニュースとヘイトスピーチ検出データセット「AraCOVID19-MFH」をリリースする。 当社のデータセットには10のラベルで注釈付けされた10,828のアラビア語ツイートが含まれています。 ラベルは、ツイートのチェック価値、肯定性と否定性、事実性など、ファクトチェックタスクに関連するいくつかの側面を考慮するように設計されている。 注釈付きデータセットの実用性を確認するために,いくつかの分類モデルの訓練と評価を行い,得られた結果を報告する。 データセットは主に偽ニュースの検出用に設計されているが、ヘイトスピーチの検出、意見/ニュース分類、方言識別、その他多くのタスクにも使用できる。

Along with the COVID-19 pandemic, an "infodemic" of false and misleading information has emerged and has complicated the COVID-19 response efforts. Social networking sites such as Facebook and Twitter have contributed largely to the spread of rumors, conspiracy theories, hate, xenophobia, racism, and prejudice. To combat the spread of fake news, researchers around the world have and are still making considerable efforts to build and share COVID-19 related research articles, models, and datasets. This paper releases "AraCOVID19-MFH" a manually annotated multi-label Arabic COVID-19 fake news and hate speech detection dataset. Our dataset contains 10,828 Arabic tweets annotated with 10 different labels. The labels have been designed to consider some aspects relevant to the fact-checking task, such as the tweet's check worthiness, positivity/negativit y, and factuality. To confirm our annotated dataset's practical utility, we used it to train and evaluate several classification models and reported the obtained results. Though the dataset is mainly designed for fake news detection, it can also be used for hate speech detection, opinion/news classification, dialect identification, and many other tasks.
翻訳日:2021-05-10 12:30:07 公開日:2021-05-07
# $\partial$-Explainer :微分凸最適化による帰納的自然言語推論

$\partial$-Explainer : Abductive Natural Language Inference via Differentiable Convex Optimization ( http://arxiv.org/abs/2105.03417v1 )

ライセンス: Link先を確認
Mokanarangan Thayaparan, Marco Valentino, Deborah Ferreira, Julia Rozanova, Andr\'e Freitas(参考訳) Integer Linear Programming (ILP)による制約付き最適化解法は、その開始時から説明可能な自然言語推論の基盤となっている。 ILPベースのアプローチは、自然言語推論を推論する明示的で制御可能な仮定を帰納的推論問題としてエンコードする方法を提供する。 制約ベースのソルバは説明を提供するが、しばしば明示的な制約の使用によって制限され、より広いディープニューラルネットワークアーキテクチャの一部として統合することはできない。 対照的に、最先端のトランスフォーマーベースのモデルはデータから学び、複雑な制約を暗黙的にエンコードすることができる。 しかし、これらのモデルは本質的にブラックボックスである。 本稿では,異なる凸最適化と,下流で説明可能なNLPタスクのための微調整済み変換器を通じて,深いニューラルネットワークの一部として制約付き最適化をキャストすることにより,両世界の長所を結合する,$\partial$-Explaine r(Diff-Explainer)という新しいフレームワークを提案する。 本フレームワークの有効性を示すために,TupleILPが提示する制約を変換し,説明可能な科学QAのための文埋め込み変換器と統合する。 我々の実験は、その推論をサポートするための説明を提供しながら、非微分型解法よりも約10対%改善しました。

Constrained optimization solvers with Integer Linear programming (ILP) have been the cornerstone for explainable natural language inference during its inception. ILP based approaches provide a way to encode explicit and controllable assumptions casting natural language inference as an abductive reasoning problem, where the solver constructs a plausible explanation for a given hypothesis. While constrained based solvers provide explanations, they are often limited by the use of explicit constraints and cannot be integrated as part of broader deep neural architectures. In contrast, state-of-the-art transformer-based models can learn from data and implicitly encode complex constraints. However, these models are intrinsically black boxes. This paper presents a novel framework named $\partial$-Explainer (Diff-Explainer) that combines the best of both worlds by casting the constrained optimization as part of a deep neural network via differentiable convex optimization and fine-tuning pre-trained transformers for downstream explainable NLP tasks. To demonstrate the efficacy of the framework, we transform the constraints presented by TupleILP and integrate them with sentence embedding transformers for the task of explainable science QA. Our experiments show up to $\approx 10\%$ improvement over non-differentiable solver while still providing explanations for supporting its inference.
翻訳日:2021-05-10 12:29:47 公開日:2021-05-07
# エゴセントリックカメラを用いた知的受動食品摂取評価システム

An Intelligent Passive Food Intake Assessment System with Egocentric Cameras ( http://arxiv.org/abs/2105.03142v1 )

ライセンス: Link先を確認
Frank Po Wen Lo, Modou L Jobarteh, Yingnan Sun, Jianing Qiu, Shuo Jiang, Gary Frost, Benny Lo(参考訳) 栄養失調は低所得国(LMIC)の主要な公衆衛生問題である。 地域・世帯・個人間の食物・栄養摂取の理解は、健康政策や介入の発展に不可欠である。 大規模食事アセスメントの手順を容易にするために,ガーナやウガンダの家庭に特有なエゴセントリックカメラを用いて,知的受動的摂食評価システムを実現することを提案する。 アルゴリズムは、ストレージメモリを最小化するために冗長なイメージを削除するように設計されている。 実行時に, 深層学習に基づくセマンティックセマンティックセグメンテーションを多種食品の認識に適用し, 新たに設計された手作り特徴を抽出して, さらに消費される食品量モニタリングを行う。 ガーナ料理とケニア料理を食するケニア料理の参加者と、独自のLMIC条件をシミュレートした設定下において、我々の方法を検証するための総合的な実験を行った。 本研究の有効性を示すために, 経験者栄養士による視覚的部分サイズ推定を行い, その予測を提案手法と比較した。 有望な結果から,本手法は食事摂取状況を確実に監視し,食事アセスメントにおける栄養士の指導を提供するユーザの食事行動に対するフィードバックを与えることができることが示された。

Malnutrition is a major public health concern in low-and-middle-incom e countries (LMICs). Understanding food and nutrient intake across communities, households and individuals is critical to the development of health policies and interventions. To ease the procedure in conducting large-scale dietary assessments, we propose to implement an intelligent passive food intake assessment system via egocentric cameras particular for households in Ghana and Uganda. Algorithms are first designed to remove redundant images for minimising the storage memory. At run time, deep learning-based semantic segmentation is applied to recognise multi-food types and newly-designed handcrafted features are extracted for further consumed food weight monitoring. Comprehensive experiments are conducted to validate our methods on an in-the-wild dataset captured under the settings which simulate the unique LMIC conditions with participants of Ghanaian and Kenyan origin eating common Ghanaian/Kenyan dishes. To demonstrate the efficacy, experienced dietitians are involved in this research to perform the visual portion size estimation, and their predictions are compared to our proposed method. The promising results have shown that our method is able to reliably monitor food intake and give feedback on users' eating behaviour which provides guidance for dietitians in regular dietary assessment.
翻訳日:2021-05-10 12:29:24 公開日:2021-05-07
# 裁判所命令:説明可能なAIメソッドは診断しにくい

Order in the Court: Explainable AI Methods Prone to Disagreement ( http://arxiv.org/abs/2105.03287v1 )

ライセンス: Link先を確認
Michael Neely, Stefan F. Schouten, Maurits J. R. Bleeker, and Ana Lucic(参考訳) 自然言語処理では、各入力トークンの独立的な寄与をモデルの決定に向けて定量化する。 これらの手法の少数のサンプルから得られたスコアと注意重みのランク相関を計算することにより、従来の分析は注意に基づく説明の役割を無効化または支持しようと試みてきた。 ランク相関の尺度を確実に結論付けるために,注意に基づく説明を含む特徴付加的手法を,複数のニューラルアーキテクチャやタスクで総合的に比較した。 ほとんどの場合、選択したメソッドが一致しないことに気付きます。 したがって,ランク相関は非形式的であり,特徴付加法の品質を測るものではない。 さらに、一つの説明可能性アルゴリズムから得られる結論の範囲は限られている。

In Natural Language Processing, feature-additive explanation methods quantify the independent contribution of each input token towards a model's decision. By computing the rank correlation between attention weights and the scores produced by a small sample of these methods, previous analyses have sought to either invalidate or support the role of attention-based explanations as a faithful and plausible measure of salience. To investigate what measures of rank correlation can reliably conclude, we comprehensively compare feature-additive methods, including attention-based explanations, across several neural architectures and tasks. In most cases, we find that none of our chosen methods agree. Therefore, we argue that rank correlation is largely uninformative and does not measure the quality of feature-additive methods. Additionally, the range of conclusions a practitioner may draw from a single explainability algorithm are limited.
翻訳日:2021-05-10 12:28:49 公開日:2021-05-07
# 事前学習型コンボリューションは事前学習型トランスより優れているか?

Are Pre-trained Convolutions Better than Pre-trained Transformers? ( http://arxiv.org/abs/2105.03322v1 )

ライセンス: Link先を確認
Yi Tay, Mostafa Dehghani, Jai Gupta, Dara Bahri, Vamsi Aribandi, Zhen Qin, Donald Metzler(参考訳) 事前訓練された言語モデルの時代において、トランスフォーマーはモデルアーキテクチャの事実上の選択である。 近年の研究では、完全に畳み込み型アーキテクチャ(cnn)が期待されているものの、事前トレイン・フィナンシャル・チューンパラダイムを使用しては検討されていない。 言語モデルの文脈では、畳み込みモデルは事前訓練されたときにトランスフォーマーと競合するのか? 本稿では,本研究を考察し,いくつかの興味深い知見を示す。 8つのデータセット/タスクに関する広範囲な実験を通じて、cnnベースの事前学習されたモデルは、特定のシナリオではトランスフォーマーのモデルよりも競争力があり、優れていることが分かりました。 総じて,本論文で概説された知見は,事前学習とアーキテクチャ上の進歩を混同し,両方の進歩を独立して考えるべきであることを示唆している。 私たちの研究は、代替アーキテクチャにおける健全な楽観主義への道を開くものだと考えています。

In the era of pre-trained language models, Transformers are the de facto choice of model architectures. While recent research has shown promise in entirely convolutional, or CNN, architectures, they have not been explored using the pre-train-fine-tune paradigm. In the context of language models, are convolutional models competitive to Transformers when pre-trained? This paper investigates this research question and presents several interesting findings. Across an extensive set of experiments on 8 datasets/tasks, we find that CNN-based pre-trained models are competitive and outperform their Transformer counterpart in certain scenarios, albeit with caveats. Overall, the findings outlined in this paper suggest that conflating pre-training and architectural advances is misguided and that both advances should be considered independently. We believe our research paves the way for a healthy amount of optimism in alternative architectures.
翻訳日:2021-05-10 12:28:36 公開日:2021-05-07
# 擬似動作によるアクション繰り返しにおけるスキップフレームの利用

Utilizing Skipped Frames in Action Repeats via Pseudo-Actions ( http://arxiv.org/abs/2105.03041v1 )

ライセンス: Link先を確認
Taisei Hashimoto and Yoshimasa Tsuruoka(参考訳) 多くの深層強化学習では、エージェントがアクションを取ると、次のアクション決定点まで状態を観察しずに、事前定義された回数で同じアクションを繰り返します。 このアクション反復のテクニックはエージェントのトレーニングにいくつかのメリットがあるが、アクション分解点(つまり中間フレーム)間のデータは事実上破棄される。 訓練データの量は、反復する行動の間隔に逆比例するので、トレーニングのサンプル効率に悪影響を及ぼす可能性がある。 本稿では,疑似行動の概念を導入してこの問題を緩和する,シンプルで効果的なアプローチを提案する。 本手法の主な考え方は,擬似行動を考慮したトレーニングデータとして,行動決定点間の遷移を可能にすることである。 連続制御タスクに対する擬似アクションは、アクション決定ポイントを成すアクションシーケンスの平均として得られる。 離散制御タスクでは、擬似アクションは学習されたアクション埋め込みから計算される。 この手法はQ関数の学習を含む任意のモデルなし強化学習アルゴリズムと組み合わせることができる。 我々は,OpenAI Gymにおける連続的および離散的な制御タスクに対するアプローチの有効性を示す。

In many deep reinforcement learning settings, when an agent takes an action, it repeats the same action a predefined number of times without observing the states until the next action-decision point. This technique of action repetition has several merits in training the agent, but the data between action-decision points (i.e., intermediate frames) are, in effect, discarded. Since the amount of training data is inversely proportional to the interval of action repeats, they can have a negative impact on the sample efficiency of training. In this paper, we propose a simple but effective approach to alleviate to this problem by introducing the concept of pseudo-actions. The key idea of our method is making the transition between action-decision points usable as training data by considering pseudo-actions. Pseudo-actions for continuous control tasks are obtained as the average of the action sequence straddling an action-decision point. For discrete control tasks, pseudo-actions are computed from learned action embeddings. This method can be combined with any model-free reinforcement learning algorithm that involves the learning of Q-functions. We demonstrate the effectiveness of our approach on both continuous and discrete control tasks in OpenAI Gym.
翻訳日:2021-05-10 12:28:03 公開日:2021-05-07
# GANTL: 条件付きGANによる実時間トポロジ最適化と伝達学習を目指して

GANTL: Towards Practical and Real-Time Topology Optimization with Conditional GANs and Transfer Learning ( http://arxiv.org/abs/2105.03045v1 )

ライセンス: Link先を確認
Mohammad Mahdi Behzadi, Horea T. Ilies(参考訳) 勾配に基づくトポロジ最適化の計算コストを回避すべく,近年,多くの機械学習手法が開発されている。 これらの方法は、通常、トレーニングのために広範囲で費用のかかるデータセットを必要とし、境界や積み込み条件や新しいドメインに一般化するのは難しい時間を持ち、矛盾したトポロジーを持つ予測を生成する予測のトポロジー的な制約を考慮しない。 生成的設計探索のための生成的敵ネットワークに基づく深層学習手法を提案する。 提案手法は,条件付きGANの生成能力と伝達学習手法の知識伝達能力を組み合わせて,未知境界条件に対する最適位相を推定する。 また,提案アルゴリズムの設計に組み込まれた知識伝達能力は,従来のディープラーニングニューラルネットワークや逆ネットワークと比較して,トレーニングデータセットのサイズを大幅に削減することを示した。 さらに, この構造図から得られたボトルネック距離に基づいてトポロジ的損失関数を定式化し, 予測された構造物のトポロジ的接続性を大幅に向上させることを示す。 提案手法の効率と精度を,2次元における境界条件と境界条件の両方について検討するために,多くの例を用いて検討した。

Many machine learning methods have been recently developed to circumvent the high computational cost of the gradient-based topology optimization. These methods typically require extensive and costly datasets for training, have a difficult time generalizing to unseen boundary and loading conditions and to new domains, and do not take into consideration topological constraints of the predictions, which produces predictions with inconsistent topologies. We present a deep learning method based on generative adversarial networks for generative design exploration. The proposed method combines the generative power of conditional GANs with the knowledge transfer capabilities of transfer learning methods to predict optimal topologies for unseen boundary conditions. We also show that the knowledge transfer capabilities embedded in the design of the proposed algorithm significantly reduces the size of the training dataset compared to the traditional deep learning neural or adversarial networks. Moreover, we formulate a topological loss function based on the bottleneck distance obtained from the persistent diagram of the structures and demonstrate a significant improvement in the topological connectivity of the predicted structures. We use numerous examples to explore the efficiency and accuracy of the proposed approach for both seen and unseen boundary conditions in 2D.
翻訳日:2021-05-10 12:27:49 公開日:2021-05-07
# FedGL: グローバルな自己スーパービジョンを備えたフェデレーショングラフ学習フレームワーク

FedGL: Federated Graph Learning Framework with Global Self-Supervision ( http://arxiv.org/abs/2105.03170v1 )

ライセンス: Link先を確認
Chuan Chen, Weibo Hu, Ziyue Xu, Zibin Zheng(参考訳) グラフデータは現実世界ではどこにでもある。 グラフ学習(gl)は、貴重な情報を発見できるようにグラフデータのマイニングと分析を試みます。 既存のGLメソッドは集中型シナリオ用に設計されている。 しかし、実際のシナリオでは、グラフデータは、通常、異なる組織、すなわち分離されたデータアイランドの呪いに分散される。 この問題を解決するために,glにフェデレート学習を取り入れ,フェデレーショントレーニング中にグローバル自己スーパービジョン情報を発見し,データプライバシを保護しつつ,高品質なグローバルグラフモデルを得ることができる汎用フェデレーショングラフ学習フレームワークfeedglを提案する。 具体的には,予測結果とノード埋め込み結果をサーバにアップロードして,各クライアントに分散してトレーニングラベルを充実させ,グラフ構造を補完するグローバル擬似ラベルとグローバル擬似グラフを発見し,各ローカルモデルの品質を向上させることを提案する。 さらに、グローバルなセルフスーパービジョンにより、各クライアントの情報がプライバシ保護方式で流れ共有され、不均一性を緩和し、異なるクライアント間のグラフデータの相補性を利用することができる。 最後に、実験結果から、FedGLは4つの広く使用されているグラフデータセットのベースラインを大幅に上回ることが示された。

Graph data are ubiquitous in the real world. Graph learning (GL) tries to mine and analyze graph data so that valuable information can be discovered. Existing GL methods are designed for centralized scenarios. However, in practical scenarios, graph data are usually distributed in different organizations, i.e., the curse of isolated data islands. To address this problem, we incorporate federated learning into GL and propose a general Federated Graph Learning framework FedGL, which is capable of obtaining a high-quality global graph model while protecting data privacy by discovering the global self-supervision information during the federated training. Concretely, we propose to upload the prediction results and node embeddings to the server for discovering the global pseudo label and global pseudo graph, which are distributed to each client to enrich the training labels and complement the graph structure respectively, thereby improving the quality of each local model. Moreover, the global self-supervision enables the information of each client to flow and share in a privacy-preserving manner, thus alleviating the heterogeneity and utilizing the complementarity of graph data among different clients. Finally, experimental results show that FedGL significantly outperforms baselines on four widely used graph datasets.
翻訳日:2021-05-10 12:27:30 公開日:2021-05-07
# グラフニューラルネットワークのためのグラフエントロピー誘導ノード埋め込み次元選択

Graph Entropy Guided Node Embedding Dimension Selection for Graph Neural Networks ( http://arxiv.org/abs/2105.03178v1 )

ライセンス: Link先を確認
Gongxu Luo, Jianxin Li, Hao Peng, Carl Yang, Lichao Sun, Philip S. Yu, Lifang He(参考訳) グラフ表現学習は、電子商取引、化学、生物学など、多くの分野で大きな成功を収めています。 しかし、与えられたグラフに対するノード埋め込みの適切な次元を選択するという根本的な問題は未解決のままである。 グリッド探索や経験的知識に基づくノード埋め込み次元選択(NEDS)の一般的な戦略は、重い計算と粗悪なモデル性能に悩まされている。 本稿では,最小エントロピー原理の観点からnedsを再検討する。 次に,グラフデータを用いたNEDSのための最小グラフエントロピー(MinGE)アルゴリズムを提案する。 具体的には、mingeはグラフ上の特徴エントロピーと構造エントロピーの両方を考えており、それらはそれらのリッチな情報の特徴に従って慎重に設計されている。 隣接するノードの埋め込みがより似ていると仮定した機能エントロピーは、ノードの特徴とグラフ上のリンクトポロジーを接続する。 構造エントロピーは正規化度を基本単位とし、グラフの高次構造をさらに測定する。 これらに基づいてMinGEを設計し,任意のグラフに対して理想的なノード埋め込み次元を直接計算する。 最後に、ベンチマークデータセット上で人気のあるグラフニューラルネットワーク(GNN)を用いた総合実験により、提案したMinGEの有効性と一般化性を示す。

Graph representation learning has achieved great success in many areas, including e-commerce, chemistry, biology, etc. However, the fundamental problem of choosing the appropriate dimension of node embedding for a given graph still remains unsolved. The commonly used strategies for Node Embedding Dimension Selection (NEDS) based on grid search or empirical knowledge suffer from heavy computation and poor model performance. In this paper, we revisit NEDS from the perspective of minimum entropy principle. Subsequently, we propose a novel Minimum Graph Entropy (MinGE) algorithm for NEDS with graph data. To be specific, MinGE considers both feature entropy and structure entropy on graphs, which are carefully designed according to the characteristics of the rich information in them. The feature entropy, which assumes the embeddings of adjacent nodes to be more similar, connects node features and link topology on graphs. The structure entropy takes the normalized degree as basic unit to further measure the higher-order structure of graphs. Based on them, we design MinGE to directly calculate the ideal node embedding dimension for any graph. Finally, comprehensive experiments with popular Graph Neural Networks (GNNs) on benchmark datasets demonstrate the effectiveness and generalizability of our proposed MinGE.
翻訳日:2021-05-10 12:27:07 公開日:2021-05-07
# ネットワーク・プルーニングの現状と課題 : リトレーニング・バリアントを事例として

Network Pruning That Matters: A Case Study on Retraining Variants ( http://arxiv.org/abs/2105.03193v1 )

ライセンス: Link先を確認
Duong H. Le, Binh-Son Hua(参考訳) ネットワークプルーニングは、低リソースシステムへのデプロイのための過パラメータニューラルネットワークの計算コストを削減する効果的な方法である。 近年では、重みの巻き戻しや学習率の巻き戻しといった最先端のネットワークを訓練する技術が、失われた精度を回復する従来の微調整技術よりも優れていることが示されている(renda et al., 2020)。 本研究では,学習率の巻き戻し効果を検証・分析するために,広範囲にわたる実験を行った。 学習率の巻き戻しの成功の背景にあるのは,大きな学習率の利用であることがわかった。 同様の現象は、例えば1サイクルの学習率スケジュール(Smith et al., 2019)のような大きな学習率を含む他の学習率スケジュールでも見られる。 再学習において適切な学習率スケジュールを活用することで、ランダムに切断されたネットワークは、(従来のアプローチで微調整された)体系的に切断されたネットワークよりも優れた性能を達成できるという反直感現象を実証する。 本研究は,ネットワーク再トレーニングにおける学習率スケジュールの重要さを強調するものである。 one-sentence summary: 刈り取りをしながら異なるリトレーニング機構の有効性について検討する。

Network pruning is an effective method to reduce the computational expense of over-parameterized neural networks for deployment on low-resource systems. Recent state-of-the-art techniques for retraining pruned networks such as weight rewinding and learning rate rewinding have been shown to outperform the traditional fine-tuning technique in recovering the lost accuracy (Renda et al., 2020), but so far it is unclear what accounts for such performance. In this work, we conduct extensive experiments to verify and analyze the uncanny effectiveness of learning rate rewinding. We find that the reason behind the success of learning rate rewinding is the usage of a large learning rate. Similar phenomenon can be observed in other learning rate schedules that involve large learning rates, e.g., the 1-cycle learning rate schedule (Smith et al., 2019). By leveraging the right learning rate schedule in retraining, we demonstrate a counter-intuitive phenomenon in that randomly pruned networks could even achieve better performance than methodically pruned networks (fine-tuned with the conventional approach). Our results emphasize the cruciality of the learning rate schedule in pruned network retraining - a detail often overlooked by practitioners during the implementation of network pruning. One-sentence Summary: We study the effective of different retraining mechanisms while doing pruning
翻訳日:2021-05-10 12:26:49 公開日:2021-05-07
# Error-Robust Multi-View Clustering: 進展、課題、機会

Error-Robust Multi-View Clustering: Progress, Challenges and Opportunities ( http://arxiv.org/abs/2105.03058v1 )

ライセンス: Link先を確認
Mehrnaz Najafi and Lifang He and Philip S. Yu(参考訳) 近年、複数のソースからのデータ収集が進歩し、マルチビューデータが注目されている。 マルチビューデータでは、各ビューはデータの異なる視点を表している。 ラベル情報を取得するのにはしばしばコストがかかるため、マルチビュークラスタリングは、個々のビューだけでなく、すべてのビューに相補的で一貫した情報を活用することにより、より優れたクラスタリングソリューションを得ることを目的としている。 センサーの故障が避けられないため、各ビューのデータはエラーを含む可能性がある。 エラーは、しばしばノイズ、特徴特異的な汚職または外れ値として現れる。 マルチビューデータはこれらのエラータイプのいずれかまたは組み合わせを含むことができる。 盲目的にクラスタリングするマルチビューデータ、すなわちビューのエラーを考慮せずに、パフォーマンスを著しく低下させることができる。 マルチビュークラスタリングの目標は、マルチビューデータが破損しても有用な結果を得ることである。 既存のエラーロストなマルチビュークラスタリング手法と明示的なエラー除去の定式化は,5つの広い研究カテゴリ – 空間ノルムベースのアプローチ,グラフベースの手法,サブスペースベースの学習アプローチ,ディープラーニングベースの手法,ハイブリッドアプローチ – に構成することができる。 最後に,課題を強調し,今後の研究機会を提供する。

With recent advances in data collection from multiple sources, multi-view data has received significant attention. In multi-view data, each view represents a different perspective of data. Since label information is often expensive to acquire, multi-view clustering has gained growing interest, which aims to obtain better clustering solution by exploiting complementary and consistent information across all views rather than only using an individual view. Due to inevitable sensor failures, data in each view may contain error. Error often exhibits as noise or feature-specific corruptions or outliers. Multi-view data may contain any or combination of these error types. Blindly clustering multi-view data i.e., without considering possible error in view(s) could significantly degrade the performance. The goal of error-robust multi-view clustering is to obtain useful outcome even if the multi-view data is corrupted. Existing error-robust multi-view clustering approaches with explicit error removal formulation can be structured into five broad research categories - sparsity norm based approaches, graph based methods, subspace based learning approaches, deep learning based methods and hybrid approaches, this survey summarizes and reviews recent advances in error-robust clustering for multi-view data. Finally, we highlight the challenges and provide future research opportunities.
翻訳日:2021-05-10 12:26:27 公開日:2021-05-07
# 順序回帰に対するペアワイズフェアネス

Pairwise Fairness for Ordinal Regression ( http://arxiv.org/abs/2105.03153v1 )

ライセンス: Link先を確認
Matth\"aus Kleindessner, Samira Samadi, Muhammad Bilal Zafar, Krishnaram Kenthapadi, Chris Russell(参考訳) 順序回帰、または順序分類の公正性の研究を開始する。 我々は,以前フェアランキングで考慮されていた2つのフェアネス概念を適応させ,どちらの概念にもとづいてほぼフェアな予測者を訓練するための戦略を提案する。 提案手法は,スコア関数としきい値の集合からなるしきい値モデルと,スコア関数を学習するための公平な二分分類と,しきい値を選択する局所探索とからなる。 パラメータによって、予測器の精度と公正性に気を配る程度を制御できる。 大規模な実験では、我々の戦略により精度-vs-fairnessトレードオフを効果的に探求することができ、また、わずかに精度が低いがより公平な予測器が得られるという、通常回帰の「不公平」な方法と好適に比較できることが示されている。

We initiate the study of fairness for ordinal regression, or ordinal classification. We adapt two fairness notions previously considered in fair ranking and propose a strategy for training a predictor that is approximately fair according to either notion. Our predictor consists of a threshold model, composed of a scoring function and a set of thresholds, and our strategy is based on a reduction to fair binary classification for learning the scoring function and local search for choosing the thresholds. We can control the extent to which we care about the accuracy vs the fairness of the predictor via a parameter. In extensive experiments we show that our strategy allows us to effectively explore the accuracy-vs-fairness trade-off and that it often compares favorably to "unfair" state-of-the-art methods for ordinal regression in that it yields predictors that are only slightly less accurate, but significantly more fair.
翻訳日:2021-05-10 12:26:06 公開日:2021-05-07
# 自動変数選択のための高次元モデリングの利用:最良の経路アルゴリズム

Use of High Dimensional Modeling for automatic variables selection: the best path algorithm ( http://arxiv.org/abs/2105.03173v1 )

ライセンス: Link先を確認
Luigi Riso(参考訳) 本稿では,自動変数選択のための新しいアルゴリズムを提案する。 特に、グラフィカルモデルプロパティを使用すると、大規模なデータセットのコンペで使用できるメソッドを開発することができる。 このアルゴリズムの利点は、異なる予測モデルと組み合わせることができることである。 本研究では, OLS法を用いて, LASSO法との比較を行った。

This paper presents a new algorithm for automatic variables selection. In particular, using the Graphical Models properties it is possible to develop a method that can be used in the contest of large dataset. The advantage of this algorithm is that can be combined with different forecasting models. In this research we have used the OLS method and we have compared the result with the LASSO method.
翻訳日:2021-05-10 12:25:48 公開日:2021-05-07
# ディープニューラルネットワークはどのような機能を学ぶのか? 変分スプライン理論からの洞察

What Kinds of Functions do Deep Neural Networks Learn? Insights from Variational Spline Theory ( http://arxiv.org/abs/2105.03361v1 )

ライセンス: Link先を確認
Rahul Parhi, Robert D. Nowak(参考訳) 本研究では,ReLUアクティベーション関数がデータに適合する深層ニューラルネットワークによって学習される関数の性質を理解するための変分フレームワークを開発する。 本稿では,ディープニューラルネットワークに関連する構成構造を捉えた,古典的有界変分空間を想起させる新しい関数空間を提案する。 我々は、深層 relu ネットワークが、この関数空間における正規化データ適合問題の解であることを示す表現子定理を導出する。 函数空間は、ラドン領域における二階有界変動の(非反射的)バナッハ空間からの函数の構成からなる。 これらは空間空間であり、深層ニューラルネットワークにおける空間性の役割についての洞察を与える。 ニューラルネットワークソリューションは、接続をスキップし、階数境界の重み行列を持ち、これらの共通のアーキテクチャ選択に対する新しい理論的サポートを提供する。 本研究の変分問題は、重み付けとパスノルム正規化の概念に関連する正規化スキームを用いて、有限次元ニューラルネットワークトレーニング問題として再キャストすることができる。 最後に,本解析は変動スプライン理論に基づく手法を基盤とし,ディープニューラルネットワークとスプラインとの新たな接続を提供する。

We develop a variational framework to understand the properties of functions learned by deep neural networks with ReLU activation functions fit to data. We propose a new function space, which is reminiscent of classical bounded variation spaces, that captures the compositional structure associated with deep neural networks. We derive a representer theorem showing that deep ReLU networks are solutions to regularized data fitting problems in this function space. The function space consists of compositions of functions from the (non-reflexive) Banach spaces of second-order bounded variation in the Radon domain. These are Banach spaces with sparsity-promoting norms, giving insight into the role of sparsity in deep neural networks. The neural network solutions have skip connections and rank bounded weight matrices, providing new theoretical support for these common architectural choices. The variational problem we study can be recast as a finite-dimensional neural network training problem with regularization schemes related to the notions of weight decay and path-norm regularization. Finally, our analysis builds on techniques from variational spline theory, providing new connections between deep neural networks and splines.
翻訳日:2021-05-10 12:25:43 公開日:2021-05-07
# モデル圧縮によるニューラル3次元シーン圧縮

Neural 3D Scene Compression via Model Compression ( http://arxiv.org/abs/2105.03120v1 )

ライセンス: Link先を確認
Berivan Isik(参考訳) 3Dシーンをレンダリングするには、シーンから任意の視点にアクセスする必要がある。 このような3Dシーンの保存は、(1)補間によりシーンを再構築可能な3Dシーンから撮影した2D画像の保存、(2)既に全方向からのビューを符号化した3Dシーン自体の表現の保存の2つの方法で行うことができる。 これまで、従来の3D圧縮手法は、最初のタイプのストレージに焦点を合わせ、元の2Dイメージを画像圧縮技術で圧縮してきた。 このアプローチでは、ユーザはまず格納された2D画像をデコードし、3Dシーンをレンダリングする。 しかし、大量の2d画像を保存する必要があるため、この分離処理は非効率である。 本研究では,異なるアプローチを採り,3dシーンの機能表現を圧縮する。 特に,シーンを神経放射場として表現するニューラルネットワークを圧縮することにより,3dシーンを圧縮する手法を提案する。 ニューラルファンクショナル表現からシーンを描画する場合、冗長な2dイメージを格納しないため、この手法は3dシーンのより効率的なストレージを提供する。

Rendering 3D scenes requires access to arbitrary viewpoints from the scene. Storage of such a 3D scene can be done in two ways; (1) storing 2D images taken from the 3D scene that can reconstruct the scene back through interpolations, or (2) storing a representation of the 3D scene itself that already encodes views from all directions. So far, traditional 3D compression methods have focused on the first type of storage and compressed the original 2D images with image compression techniques. With this approach, the user first decodes the stored 2D images and then renders the 3D scene. However, this separated procedure is inefficient since a large amount of 2D images have to be stored. In this work, we take a different approach and compress a functional representation of 3D scenes. In particular, we introduce a method to compress 3D scenes by compressing the neural networks that represent the scenes as neural radiance fields. Our method provides more efficient storage of 3D scenes since it does not store 2D images -- which are redundant when we render the scene from the neural functional representation.
翻訳日:2021-05-10 12:24:31 公開日:2021-05-07
# エネルギーに基づく異常検出と局在化

Energy-Based Anomaly Detection and Localization ( http://arxiv.org/abs/2105.03270v1 )

ライセンス: Link先を確認
Ergin Utku Genc, Nilesh Ahuja, Ibrahima J Ndiour, Omesh Tickoo(参考訳) 半教師付き視覚異常検出と局所化問題に対するエネルギーベース解への最初の進歩を概観する。 この設定では、異常のないトレーニングデータのみにアクセスでき、テストデータ上で任意の性質の異常を検出し、識別したいと考えています。 我々は、エネルギーベースモデル(ebm)からの密度推定を正規画像と異常画像の判別に使用できる正規性スコアとして採用する。 さらに,画像内の異常点の画素レベルの空間的局在を提供する勾配マップを生成するために,画像に対するエネルギースコアの勾配を逆伝搬する。 また, 空間的局所化に加えて, 勾配マップの簡易な処理により, エネルギー値で得られた検出性能に匹敵する, 代替正規性スコアが得られることを示した。 提案手法の性能を定量的に検証するため,MVTec産業データセットを用いて実験を行った。 画像中の予期せぬ異常を同時に検出し,局所化するebmの可能性を明らかにする。

This brief sketches initial progress towards a unified energy-based solution for the semi-supervised visual anomaly detection and localization problem. In this setup, we have access to only anomaly-free training data and want to detect and identify anomalies of an arbitrary nature on test data. We employ the density estimates from the energy-based model (EBM) as normalcy scores that can be used to discriminate normal images from anomalous ones. Further, we back-propagate the gradients of the energy score with respect to the image in order to generate a gradient map that provides pixel-level spatial localization of the anomalies in the image. In addition to the spatial localization, we show that simple processing of the gradient map can also provide alternative normalcy scores that either match or surpass the detection performance obtained with the energy value. To quantitatively validate the performance of the proposed method, we conduct experiments on the MVTec industrial dataset. Though still preliminary, our results are very promising and reveal the potential of EBMs for simultaneously detecting and localizing unforeseen anomalies in images.
翻訳日:2021-05-10 12:24:13 公開日:2021-05-07
# DeepRF:MRIで高周波波形を設計したディープ強化学習

DeepRF: Deep Reinforcement Learning Designed RadioFrequency Waveform in MRI ( http://arxiv.org/abs/2105.03061v1 )

ライセンス: Link先を確認
Dongmyung Shin, Younghoon Kim, Chungseok Oh, Hongjun An, Juhyung Park, Jiye Kim, and Jongho Lee(参考訳) 念入りに設計された高周波パルスは、携帯電話、レーダー、磁気共鳴イメージング(mri)など多くのシステムにおいて重要な役割を果たす。 しかし、rf波形の設計は、一般的な解を持たない逆問題と見なされることが多い。 その結果、人的専門家の直感に基づいて、特定の目的を持った様々な設計手法が開発されている。 本研究では,深部強化学習(DRL)の自己学習特性を利用して人間の直感を超えた新しいRFを生成する,人工知能を利用したRFパルス設計フレームワークであるDeepRFを提案する。 さらに、カスタマイズされた報酬関数を用いて様々な種類のRFパルスを設計できる。 DeepRFのアルゴリズムは、DRLを用いて新しいRFパルスを探索するRF生成モジュールと、勾配上昇により生成モジュールからシードRFパルスを最適化するRF精製モジュールの2つのモジュールで構成されている。 DeepRFの有効性は、MRIで一般的に用いられる4つの例のRFパルス、スライス選択励起パルス、スライス選択反転パルス、B1非感受性ボリューム反転パルス、B1非感受性選択反転パルスを用いて示される。 その結果, 従来のrfパルスと比較して, 特定の吸収率を改善しつつ, 設計基準を満足させることができた。 さらに、DeepRFが設計したパルスは、従来の理論では説明が難しい磁化操作の新たなメカニズムを利用しており、人間の直観を超えて見えない設計次元を発見する際のDeepRFの可能性が示唆されている。 この研究は、AI駆動のRF波形設計の新たな分野の基礎となるかもしれない。

A carefully engineered radiofrequency (RF) pulse plays a key role in a number of systems such as mobile phone, radar, and magnetic resonance imaging (MRI). The design of an RF waveform, however, is often posed as an inverse problem that has no general solution. As a result, various design methods each with a specific purpose have been developed based on the intuition of human experts. In this work, we propose an artificial intelligence-powered RF pulse design framework, DeepRF, which utilizes the self-learning characteristics of deep reinforcement learning (DRL) to generate a novel RF beyond human intuition. Additionally, the method can design various types of RF pulses via customized reward functions. The algorithm of DeepRF consists of two modules: the RF generation module, which utilizes DRL to explore new RF pulses, and the RF refinement module, which optimizes the seed RF pulses from the generation module via gradient ascent. The effectiveness of DeepRF is demonstrated using four exemplary RF pulses, slice-selective excitation pulse, slice-selective inversion pulse, B1-insensitive volume inversion pulse, and B1-insensitive selective inversion pulse, that are commonly used in MRI. The results show that the DeepRF-designed pulses successfully satisfy the design criteria while improving specific absorption rates when compared to those of the conventional RF pulses. Further analyses suggest that the DeepRF-designed pulses utilize new mechanisms of magnetization manipulation that are difficult to be explained by conventional theory, suggesting the potentials of DeepRF in discovering unseen design dimensions beyond human intuition. This work may lay the foundation for an emerging field of AI-driven RF waveform design.
翻訳日:2021-05-10 12:23:46 公開日:2021-05-07
# テレコムネットワークにおけるルート原因アラーム発見に対する影響に基づくアプローチ

An Influence-based Approach for Root Cause Alarm Discovery in Telecom Networks ( http://arxiv.org/abs/2105.03092v1 )

ライセンス: Link先を確認
Keli Zhang, Marcus Kalander, Min Zhou, Xi Zhang and Junjian Ye(参考訳) アラーム根本原因分析は, 日々の遠隔通信ネットワーク維持において重要な要素であり, 効率的かつ正確な故障局所化と故障復旧に重要である。 実際、正確で自己調整可能なアラーム根本原因分析は、ネットワークの複雑さと大量のアラームのために大きな課題である。 障害根本原因同定の一般的なアプローチは,イベント共起テストあるいは条件独立テストのいずれかに基づいて,近似エッジを持つグラフを構築することだ。 しかし、エッジの刈り取りには熟練した知識が必要となる。 本稿では,根本原因アラームの局所化に因果推論とネットワーク埋め込みを併用した新しいデータ駆動型フレームワークを提案する。 本研究では,Hawkesプロセスと条件付き独立性テストを組み合わせたハイブリッド因果グラフ学習法 (HPCI) を設計し,エッジ重みを推定するための新しい因果伝搬型埋め込みアルゴリズム (CPBE) を提案する。 次に,重み付きグラフに影響最大化アルゴリズムを適用し,リアルタイムデータストリーム内の根本原因アラームを検出する。 提案手法を人工データと実世界のテレコムデータで評価し,最高のベースラインよりも大幅に改善したことを示す。

Alarm root cause analysis is a significant component in the day-to-day telecommunication network maintenance, and it is critical for efficient and accurate fault localization and failure recovery. In practice, accurate and self-adjustable alarm root cause analysis is a great challenge due to network complexity and vast amounts of alarms. A popular approach for failure root cause identification is to construct a graph with approximate edges, commonly based on either event co-occurrences or conditional independence tests. However, considerable expert knowledge is typically required for edge pruning. We propose a novel data-driven framework for root cause alarm localization, combining both causal inference and network embedding techniques. In this framework, we design a hybrid causal graph learning method (HPCI), which combines Hawkes Process with Conditional Independence tests, as well as propose a novel Causal Propagation-Based Embedding algorithm (CPBE) to infer edge weights. We subsequently discover root cause alarms in a real-time data stream by applying an influence maximization algorithm on the weighted graph. We evaluate our method on artificial data and real-world telecom data, showing a significant improvement over the best baselines.
翻訳日:2021-05-10 12:23:21 公開日:2021-05-07
# 階層型グラフニューラルネットワーク

Hierarchical Graph Neural Networks ( http://arxiv.org/abs/2105.03388v1 )

ライセンス: Link先を確認
Stanislav Sobolevsky(参考訳) 近年、グラフニューラルネットワークは、ネットワーク分析や他の分野で人気が高まっている。 これにより、彼らのアーキテクチャは、従来のニューラルネットワークの古典的な多層階層構造から明らかに逸脱する。 同時に,ネットワーク科学における従来の手法の多くは階層的手法を効率的に活用し,ネットワークの階層的構造を考慮し,その重要性を強調している。 本稿では,従来のニューラルネットワークとグラフニューラルネットワークアーキテクチャのドットを,階層的ネットワーク組織の力を生かしてネットワーク科学的なアプローチと結びつけることを目的とする。 従来の入力ネットワーク層を補助ネットワーク層の階層構造で補完し、各レイヤ内の水平ネットワーク接続と層間の垂直接続の両方を通じてノード機能を更新する計算スキームを編成する階層型グラフニューラルネットワークアーキテクチャを提案する。 これにより、個々のノードの特徴と集約されたネットワークの特徴を可変解像度で同時学習し、個々のノードの特徴学習の収束と安定性を改善することができる。 提案した階層型グラフニューラルネットワークアーキテクチャは、ネットワークの分類、ノードラベル付け、コミュニティタスクと同様に、ネットワークの埋め込みとモデリングで評価され、それらの効率性の向上を示す。

Over the recent years, Graph Neural Networks have become increasingly popular in network analytic and beyond. With that, their architecture noticeable diverges from the classical multi-layered hierarchical organization of the traditional neural networks. At the same time, many conventional approaches in network science efficiently utilize the hierarchical approaches to account for the hierarchical organization of the networks, and recent works emphasize their critical importance. This paper aims to connect the dots between the traditional Neural Network and the Graph Neural Network architectures as well as the network science approaches, harnessing the power of the hierarchical network organization. A Hierarchical Graph Neural Network architecture is proposed, supplementing the original input network layer with the hierarchy of auxiliary network layers and organizing the computational scheme updating the node features through both - horizontal network connections within each layer as well as the vertical connection between the layers. It enables simultaneous learning of the individual node features along with the aggregated network features at variable resolution and uses them to improve the convergence and stability of the individual node feature learning. The proposed Hierarchical Graph Neural network architecture is successfully evaluated on the network embedding and modeling as well as network classification, node labeling, and community tasks and demonstrates increased efficiency in those.
翻訳日:2021-05-10 12:23:02 公開日:2021-05-07
# 楕円スライスサンプリングの幾何学的収束

Geometric convergence of elliptical slice sampling ( http://arxiv.org/abs/2105.03308v1 )

ライセンス: Link先を確認
Viacheslav Natarovskii, Daniel Rudolf, Bj\"orn Sprungk(参考訳) マレー、アダムズ、マッケイによって2010年に導入された楕円スライスサンプリングは、確率関数とガウス先行を与えられたベイズ学習に対して、基礎となる後方分布を近似的にサンプリングするマルコフ連鎖を構築するためのツールを提供する。 適用性とシンプルさに加えて、主な特徴はチューニングが不要であることだ。 後方密度の弱い正則性仮定の下では、対応するマルコフ連鎖は幾何学的にエルゴード的であり、従って定性収束保証を与える。 ガウス過程の回帰やマルチモーダル分布の設定に現れるガウス後部について,本研究の結果を説明する。 エルゴディディティ結果が適用されない状況においても,楕円スライスサンプリングの寸法に依存しない性能を示す数値実験を行った。

For Bayesian learning, given likelihood function and Gaussian prior, the elliptical slice sampler, introduced by Murray, Adams and MacKay 2010, provides a tool for the construction of a Markov chain for approximate sampling of the underlying posterior distribution. Besides of its wide applicability and simplicity its main feature is that no tuning is necessary. Under weak regularity assumptions on the posterior density we show that the corresponding Markov chain is geometrically ergodic and therefore yield qualitative convergence guarantees. We illustrate our result for Gaussian posteriors as they appear in Gaussian process regression, as well as in a setting of a multi-modal distribution. Remarkably, our numerical experiments indicate a dimension-independen t performance of elliptical slice sampling even in situations where our ergodicity result does not apply.
翻訳日:2021-05-10 12:22:42 公開日:2021-05-07
# 厳密な統計的および制御論的保証を用いた学習強化型ロバストコントローラ合成

Learning-enhanced robust controller synthesis with rigorous statistical and control-theoretic guarantees ( http://arxiv.org/abs/2105.03397v1 )

ライセンス: Link先を確認
Christian Fiedler, Carsten W. Scherer, Sebastian Trimpe(参考訳) 機械学習と制御の組み合わせは多くの機会、特に堅牢な制御を提供する。 しかし、多くの現実世界のアプリケーションにおいて、安全性と信頼性の要求が強く、厳密な統計的および制御理論的な保証を提供することが最重要であり、学習ベースの制御スキームでは達成が困難である。 本稿では,事前の工学知識を体系的に統合し,近代的ロバスト制御と完全互換性を持ち,かつ,厳密かつ実質上有意義な保証をも備えた学習型ロバスト制御の汎用フレームワークを提案する。 確立された線形分数表現と積分二次制約フレームワークに基づいて,ガウス過程回帰を学習成分として統合し,最先端のロバスト制御合成を行う。 具体的ロバスト制御の例では、我々の手法はさらなるデータによる性能向上を実証し、保証は全期間にわたって維持される。

The combination of machine learning with control offers many opportunities, in particular for robust control. However, due to strong safety and reliability requirements in many real-world applications, providing rigorous statistical and control-theoretic guarantees is of utmost importance, yet difficult to achieve for learning-based control schemes. We present a general framework for learning-enhanced robust control that allows for systematic integration of prior engineering knowledge, is fully compatible with modern robust control and still comes with rigorous and practically meaningful guarantees. Building on the established Linear Fractional Representation and Integral Quadratic Constraints framework, we integrate Gaussian Process Regression as a learning component and state-of-the-art robust controller synthesis. In a concrete robust control example, our approach is demonstrated to yield improved performance with more data, while guarantees are maintained throughout.
翻訳日:2021-05-10 12:22:28 公開日:2021-05-07
# 多様体データのカーネルmmd2サンプルテスト

Kernel MMD Two-Sample Tests for Manifold Data ( http://arxiv.org/abs/2105.03425v1 )

ライセンス: Link先を確認
Xiuyuan Cheng, Yao Xie(参考訳) 本稿では,高次元の観測値が低次元の多様体に近いことを前提として,カーネルMDDの2サンプル試験統計値について述べる。 テストの特性(レベルとパワー)は、カーネルの帯域幅、サンプルの数、および多様体の内在的な次元性に関連して特徴づける。 具体的には、$d$-dimensional sub-manifold $\mathcal{M}$ が $m$-dimensional 空間に埋め込まれたとき、カーネル MMD の2サンプルテストは、一対の分布からサンプリングされたデータに対して$(p, q)$ であり、その値が$\beta$ であるとき、$n$ が $\delta_2(p, q)^{-2-d/\beta}$ より大きい場合、$\delta_2$ は、多様体上の2つの分布の間の正方形 $\ell_2$-divergence である。 さらに、このスケールでテスト一貫性を達成するために、カーネル帯域幅$\gamma$ scales with $n^{-1/(d+2\beta)}$が提案される。 これらの結果から, カーネルMD2サンプル試験は, 低次元多様体上にデータを置くと, 擬似次元性を持たないことが示唆された。 本理論の妥当性と多様体データに対するmmdテストの特性をいくつかの数値実験を用いて実証する。

We present a study of kernel MMD two-sample test statistics in the manifold setting, assuming the high-dimensional observations are close to a low-dimensional manifold. We characterize the property of the test (level and power) in relation to the kernel bandwidth, the number of samples, and the intrinsic dimensionality of the manifold. Specifically, we show that when data densities are supported on a $d$-dimensional sub-manifold $\mathcal{M}$ embedded in an $m$-dimensional space, the kernel MMD two-sample test for data sampled from a pair of distributions $(p, q)$ that are H\"older with order $\beta$ is consistent and powerful when the number of samples $n$ is greater than $\delta_2(p,q)^{-2-d/\beta}$ up to certain constant, where $\delta_2$ is the squared $\ell_2$-divergence between two distributions on manifold. Moreover, to achieve testing consistency under this scaling of $n$, our theory suggests that the kernel bandwidth $\gamma$ scales with $n^{-1/(d+2\beta)}$. These results indicate that the kernel MMD two-sample test does not have a curse-of-dimensional ity when the data lie on the low-dimensional manifold. We demonstrate the validity of our theory and the property of the MMD test for manifold data using several numerical experiments.
翻訳日:2021-05-10 12:22:11 公開日:2021-05-07
# 構造化データセットドキュメント:CheXpert用のデータシート

Structured dataset documentation: a datasheet for CheXpert ( http://arxiv.org/abs/2105.03020v1 )

ライセンス: Link先を確認
Christian Garbin, Pranav Rajpurkar, Jeremy Irvin, Matthew P. Lungren, Oge Marques(参考訳) 毎年数十億枚のX線写真が世界中で撮影されている。 機械学習とディープラーニングは、放射線学者が画像のトリアージと診断を助ける可能性がある。 しかし、ディープラーニングは信頼できるラベルを持つ大規模なデータセットを必要とする。 CheXpertデータセットは、ボード認証された放射線学者の参加によって作成された。 本論文は,データセット用データシートの構造化形式に倣って,従来のCheXpert論文や他の資料を拡張し,信頼性ラベルの作成において放射線学者が果たす重要な役割を明らかにし,データセット構成の異なる側面を詳細に記述する。 このような構造化ドキュメンテーションは、CheXpertの強み、応用、進化に対する機械学習と医療コミュニティの認識を高め、医療画像分析の分野を前進させることを目的としている。 本論文のもう一つの目的は、データセットの詳細な構造記述を作成するためのコミュニティの例として、このデータセットデータシートを提出することである。 データセットの作成プロセス、内容、アプリケーションを明確に文書化することで、有用で信頼性の高いモデルの作成が促進されると考えている。

Billions of X-ray images are taken worldwide each year. Machine learning, and deep learning in particular, has shown potential to help radiologists triage and diagnose images. However, deep learning requires large datasets with reliable labels. The CheXpert dataset was created with the participation of board-certified radiologists, resulting in the strong ground truth needed to train deep learning networks. Following the structured format of Datasheets for Datasets, this paper expands on the original CheXpert paper and other sources to show the critical role played by radiologists in the creation of reliable labels and to describe the different aspects of the dataset composition in detail. Such structured documentation intends to increase the awareness in the machine learning and medical communities of the strengths, applications, and evolution of CheXpert, thereby advancing the field of medical image analysis. Another objective of this paper is to put forward this dataset datasheet as an example to the community of how to create detailed and structured descriptions of datasets. We believe that clearly documenting the creation process, the contents, and applications of datasets accelerates the creation of useful and reliable models.
翻訳日:2021-05-10 12:21:33 公開日:2021-05-07
# 効率的な映像認識のための適応焦点

Adaptive Focus for Efficient Video Recognition ( http://arxiv.org/abs/2105.03245v1 )

ライセンス: Link先を確認
Yulin Wang, Zhaoxi Chen, Haojun Jiang, Shiji Song, Yizeng Han, Gao Huang(参考訳) 本稿では,計算効率の向上を目的として,映像認識における空間冗長性について検討する。 ビデオの各フレームにおいて最も情報性の高い領域は、通常、小さな画像パッチであり、フレーム間でスムーズにシフトする。 そこで我々は,パッチローカライゼーション問題を逐次決定課題としてモデル化し,空間適応型画像認識(AdaFocus)のための強化学習に基づくアプローチを提案する。 具体的には、タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。 そして、選択したパッチを最終予測のために高容量ネットワークで推測する。 オフライン推論では、インフォメーションパッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスでは効率がよい。 また,提案手法は,時間的冗長性,例えば,より価値の低いフレームを動的にスキップすることで,容易に拡張できることを実証する。 5つのベンチマークデータセット、すなわちActivityNet, FCVID, Mini-Kinetics, Something-Something V1&V2の大規模な実験により、我々の手法は競合するベースラインよりもはるかに効率的であることが示された。 コードはhttps://github.com/b lackfeather-wang/ada focusで入手できる。

In this paper, we explore the spatial redundancy in video recognition with the aim to improve the computational efficiency. It is observed that the most informative region in each frame of a video is usually a small image patch, which shifts smoothly across frames. Therefore, we model the patch localization problem as a sequential decision task, and propose a reinforcement learning based approach for efficient spatially adaptive video recognition (AdaFocus). In specific, a light-weighted ConvNet is first adopted to quickly process the full video sequence, whose features are used by a recurrent policy network to localize the most task-relevant regions. Then the selected patches are inferred by a high-capacity network for the final prediction. During offline inference, once the informative patch sequence has been generated, the bulk of computation can be done in parallel, and is efficient on modern GPU devices. In addition, we demonstrate that the proposed method can be easily extended by further considering the temporal redundancy, e.g., dynamically skipping less valuable frames. Extensive experiments on five benchmark datasets, i.e., ActivityNet, FCVID, Mini-Kinetics, Something-Something V1&V2, demonstrate that our method is significantly more efficient than the competitive baselines. Code will be available at https://github.com/b lackfeather-wang/Ada Focus.
翻訳日:2021-05-10 12:21:14 公開日:2021-05-07
# 回帰バグはあなたのモデルです! NLPモデル更新における回帰の測定・削減・解析

Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing Regressions In NLP Model Updates ( http://arxiv.org/abs/2105.03048v1 )

ライセンス: Link先を確認
Yuqing Xie, Yi-an Lai, Yuanjun Xiong, Yi Zhang, Stefano Soatto(参考訳) ディープニューラルネットワークの挙動は、異なるバージョン間で矛盾することがある。 モデル更新中のレグレッションは、しばしば精度や効率の向上の利点を過大評価する懸念の一般的な原因である。 この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に焦点を当てている。 回帰指標として負のフリップ率を用いると、GLUEベンチマークにおいて、回帰がタスク全体に存在することが示される。 我々は,回帰自由モデル更新を制約付き最適化問題に定式化し,さらに,知識蒸留訓練法を用いて概ね最適化可能な緩和形式に還元する。 モデルアンサンブルの回帰効果を実証的に解析する。 最後に,言語現象にまたがる回帰分布と,アンサンブル法と蒸留法の有効性を理解するために,チェックリスト行動テストを実施した。

Behavior of deep neural networks can be inconsistent between different versions. Regressions during model update are a common cause of concern that often over-weigh the benefits in accuracy or efficiency gain. This work focuses on quantifying, reducing and analyzing regression errors in the NLP model updates. Using negative flip rate as regression measure, we show that regression has a prevalent presence across tasks in the GLUE benchmark. We formulate the regression-free model updates into a constrained optimization problem, and further reduce it into a relaxed form which can be approximately optimized through knowledge distillation training method. We empirically analyze how model ensemble reduces regression. Finally, we conduct CheckList behavioral testing to understand the distribution of regressions across linguistic phenomena, and the efficacy of ensemble and distillation methods.
翻訳日:2021-05-10 12:20:52 公開日:2021-05-07
# 音声-テキスト翻訳のための共有意味空間の学習

Learning Shared Semantic Space for Speech-to-Text Translation ( http://arxiv.org/abs/2105.03095v1 )

ライセンス: Link先を確認
Chi Han, Mingxuan Wang, Heng Ji, Lei Li(参考訳) 多くの潜在的な応用と大きな影響があり、エンドツーエンド音声翻訳(st)は長い間独立したタスクとして扱われてきたが、兄弟姉妹であるテキスト機械翻訳(mt)の急速な進歩から強みを引き出すことに失敗した。 テキストと音声の入力が異なる方法では、モダリティギャップはMTデータとそのエンドツーエンドモデルとSTモデルとの互換性を損なう。 この障害を観測するために,この表現ギャップをキメラに橋渡しすることを提案する。 音声とテキストの機能を共通の意味表現に投影することで、ChimeraはMTとSTタスクを統一し、STベンチマークの MuST-C のパフォーマンスを新たな最先端に向上させる。 具体的には、キメラは en-de に 26.3 bleu を取得し、sota を +2.7 bleu マージンで改善する。 さらに実験的に、共有意味空間は、これらの2つのタスク間の共通知識を実際に伝達し、モダリティを越えてトレーニングリソースを増強する新しい方法を示す。

Having numerous potential applications and great impact, end-to-end speech translation (ST) has long been treated as an independent task, failing to fully draw strength from the rapid advances of its sibling - text machine translation (MT). With text and audio inputs represented differently, the modality gap has rendered MT data and its end-to-end models incompatible with their ST counterparts. In observation of this obstacle, we propose to bridge this representation gap with Chimera. By projecting audio and text features to a common semantic representation, Chimera unifies MT and ST tasks and boosts the performance on ST benchmark, MuST-C, to a new state-of-the-art. Specifically, Chimera obtains 26.3 BLEU on EN-DE, improving the SOTA by a +2.7 BLEU margin. Further experimental analyses demonstrate that the shared semantic space indeed conveys common knowledge between these two tasks and thus paves a new way for augmenting training resources across modalities.
翻訳日:2021-05-10 12:20:38 公開日:2021-05-07
# VAULT: 機械読解のための可変統一長文表現

VAULT: VAriable Unified Long Text Representation for Machine Reading Comprehension ( http://arxiv.org/abs/2105.03229v1 )

ライセンス: Link先を確認
Haoyang Wen, Anthony Ferritto, Heng Ji, Radu Florian, Avirup Sil(参考訳) 既存のMRC(Machine Reading Comprehension)のモデルは、段落表現と分類を効果的にモデル化するために複雑なモデルアーキテクチャを必要とするため、推論を計算的に非効率にする。 本稿では,長い文書入力からの文脈化表現に基づくmrcの軽量かつ並列効率な段落表現であるvaultを提案する。 我々は、長いコンテキストモデリングを必要とする2つのベンチマークMCCデータセット、Wikipedia(Natural Questions (NQ))とTechNotes(TechQA)で実験結果を示すVAULTアーキテクチャを検証する。 VAULTは16倍の効率で、最先端(SOTA)複雑なドキュメントモデリングアプローチで、NQ上で同等のパフォーマンスを実現することができる。 また、我々のモデルは、以前に公開された大きなPLMで微調整されたモデルよりも大幅に改善され、完全に異なるドメイン(TechQA)に効果的に適用できることを示す。

Existing models on Machine Reading Comprehension (MRC) require complex model architecture for effectively modeling long texts with paragraph representation and classification thereby, making inference computationally inefficient for production use. In this work, we propose VAULT: a light-weight and parallel-efficient paragraph representation for MRC based on contextualized representation from long document input, trained using a new Gaussian distribution-based objective that pays close attention to the partially correct instances that are close to the ground-truth. We validate our VAULT architecture showing experimental results on two benchmark MRC datasets that require long context modeling; one Wikipedia-based (Natural Questions (NQ)) and the other on TechNotes (TechQA). VAULT can achieve comparable performance on NQ with a state-of-the-art (SOTA) complex document modeling approach while being 16 times more efficient. We also demonstrate that our model can also be effectively adapted to a completely different domain -- TechQA -- with large improvement over a model fine-tuned on a previously published large PLM.
翻訳日:2021-05-10 12:20:20 公開日:2021-05-07
# 利害リスク評価実践を支援するための人工知能(AI)の学際的概念研究--AIプログラムと機器の総合的資格行列を目指して(プレプリント2020)

An interdisciplinary conceptual study of Artificial Intelligence (AI) for helping benefit-risk assessment practices: Towards a comprehensive qualification matrix of AI programs and devices (pre-print 2020) ( http://arxiv.org/abs/2105.03192v1 )

ライセンス: Link先を確認
Gauthier Chassang (INSERM,PFGS), Mogens Thomsen (INSERM), Pierre Rumeau, Florence S\`edes (IRIT), Alejandra Delfin (INSERM)(参考訳) 本稿では,知性の概念を扱う異なる分野,すなわち心理学と工学,AIの倫理と法を規制する分野から,既存の概念を包括的に分析する。 目的は、AIシステムを評価するための共有概念や相違点を特定することである。 関連する概念は、AI開発における課題に関する特定の技術的、倫理的、法的評価を提供するための重要な特徴を強調しながら、コンピュータツール(プログラムやデバイス)がAIとして適格であるかを、より正確に定義するためのマトリックスに統合される。 既存のAI特性の概念への適応が提案されている。 matrixは、ai技術の経験的、柔軟、スケーラブルな資格を、利益リスク評価プラクティス、技術監視、規制コンプライアンスの観点から許容する、リスクベースの概念モデルである。ai開発におけるステークホルダーのための構造化リフレクションツールを提供し、責任ある研究とイノベーションに従事している。プレプリント版(2020年5月リリース)。

This paper proposes a comprehensive analysis of existing concepts coming from different disciplines tackling the notion of intelligence, namely psychology and engineering, and from disciplines aiming to regulate AI innovations, namely AI ethics and law. The aim is to identify shared notions or discrepancies to consider for qualifying AI systems. Relevant concepts are integrated into a matrix intended to help defining more precisely when and how computing tools (programs or devices) may be qualified as AI while highlighting critical features to serve a specific technical, ethical and legal assessment of challenges in AI development. Some adaptations of existing notions of AI characteristics are proposed. The matrix is a risk-based conceptual model designed to allow an empirical, flexible and scalable qualification of AI technologies in the perspective of benefit-risk assessment practices, technological monitoring and regulatory compliance: it offers a structured reflection tool for stakeholders in AI development that are engaged in responsible research and innovation.Pre-print version (achieved on May 2020)
翻訳日:2021-05-10 12:19:46 公開日:2021-05-07
# 強化学習を使ってAIアシスタントを設計し、満足なコオプ体験を実現する

Using reinforcement learning to design an AI assistantfor a satisfying co-op experience ( http://arxiv.org/abs/2105.03414v1 )

ライセンス: Link先を確認
Ajay Krishnan, Niranj Jyothish, Xun Jia(参考訳) 本プロジェクトでは,単一プレイヤーゲームであるSpace Invadersの知的アシスタントプレイヤーを設計し,良好なコオプ体験を実現することを目的とした。 エージェントの動作は強化学習技術を用いて設計され、いくつかの基準に基づいて評価された。 我々は、AI駆動のコンピュータプレイヤーが満足なコオプ体験を提供できるという仮説を検証する。

In this project, we designed an intelligent assistant player for the single-player game Space Invaders with the aim to provide a satisfying co-op experience. The agent behaviour was designed using reinforcement learning techniques and evaluated based on several criteria. We validate the hypothesis that an AI-driven computer player can provide a satisfying co-op experience.
翻訳日:2021-05-10 12:19:27 公開日:2021-05-07
# BasisNet:効率的な推論のための2段階モデル合成

BasisNet: Two-stage Model Synthesis for Efficient Inference ( http://arxiv.org/abs/2105.03014v1 )

ライセンス: Link先を確認
Mingda Zhang, Chun-Te Chu, Andrey Zhmoginov, Andrew Howard, Brendan Jou, Yukun Zhu, Li Zhang, Rebecca Hwa, Adriana Kovashka(参考訳) 本研究では,効率的なニューラルネットワークアーキテクチャ,条件計算,早期終了といった最近の進歩を,簡単な新しい形式で組み合わせたBasisNetを提案する。 提案手法では,入力に依存した組合せ係数のプレビューと生成を行う軽量モデルを導入し,その後,より正確なスペシャリストモデルの合成を制御し,最終的な予測を行う。 2段階のモデル合成戦略は任意のネットワークアーキテクチャに適用でき、どちらの段階も共同で訓練される。 また,このような高容量ニューラルネットワークの一般化性向上には,適切なトレーニングレシピが不可欠であることを示す。 imagenet分類ベンチマークでは、backboneとしてmobilenetsを使ったベースラインネットは、いくつかの強力なベースラインに対する精度と効率のトレードオフにおいて明確な優位性を示しました。 具体的には、BasisNet-MobileNetV3 は80.3%のTop-1精度を獲得し、290万のMultiply-Add演算しか行わなかった。 早期終了により、平均コストは、ImageNetで80.0%の精度を維持しながら、さらに198万のMaddに削減できる。

In this work, we present BasisNet which combines recent advancements in efficient neural network architectures, conditional computation, and early termination in a simple new form. Our approach incorporates a lightweight model to preview the input and generate input-dependent combination coefficients, which later controls the synthesis of a more accurate specialist model to make final prediction. The two-stage model synthesis strategy can be applied to any network architectures and both stages are jointly trained. We also show that proper training recipes are critical for increasing generalizability for such high capacity neural networks. On ImageNet classification benchmark, our BasisNet with MobileNets as backbone demonstrated clear advantage on accuracy-efficiency trade-off over several strong baselines. Specifically, BasisNet-MobileNetV3 obtained 80.3% top-1 accuracy with only 290M Multiply-Add operations, halving the computational cost of previous state-of-the-art without sacrificing accuracy. With early termination, the average cost can be further reduced to 198M MAdds while maintaining accuracy of 80.0% on ImageNet.
翻訳日:2021-05-10 12:19:11 公開日:2021-05-07
# 一般化可能な人物再同定のための適応的ドメイン特化正規化

Adaptive Domain-Specific Normalization for Generalizable Person Re-Identification ( http://arxiv.org/abs/2105.03042v1 )

ライセンス: Link先を確認
Jiawei Liu, Zhipeng Huang, Kecheng Zheng, Dong Liu, Xiaoyan Sun, Zheng-Jun Zha(参考訳) 既存の人物再同定法 (re-id) は印象的な精度を示したが, ほとんどは対象領域の認識が不十分な場合が多い。 このように、一般化可能なRe-IDは、最近注目を集めており、モデル更新なしで、見えないターゲットドメインによく一般化するソースドメインのモデルを訓練している。 本研究では,一般化可能なRe-IDのための適応型ドメイン固有正規化手法(AdsNorm)を提案する。 未知のターゲットドメインを既知のソースドメインの組み合わせとして記述し、メタ学習パイプラインによるモデルの一般化を改善するために、ターゲットディストリビューションとドメイン固有の表現を明示的に学習する。 具体的には、adsnormはバッチ正規化層を使用して個々のソースドメインの特性を収集し、これらの特徴を用いてソースドメインを共有潜在空間にマップする。 テスト段階では、adsnormは対象領域の未認識画像を同じ潜在空間に投影し、対象領域のより一般化された集約表現を学ぶために、ドメインの関連性によってソース分布を運ぶドメイン固有の機能を適応的に統合する。 学習中に対象ドメインが利用できないことを考慮し,効率的なアンサンブルモデルの最適化を目的としたメタ学習アルゴリズムを提案する。 大規模な実験により、AdsNormは最先端の手法よりも優れていることが示された。 コードは、https://github.com/h zphzp/AdsNorm.comで入手できる。

Although existing person re-identification (Re-ID) methods have shown impressive accuracy, most of them usually suffer from poor generalization on unseen target domain. Thus, generalizable person Re-ID has recently drawn increasing attention, which trains a model on source domains that generalizes well on unseen target domain without model updating. In this work, we propose a novel adaptive domain-specific normalization approach (AdsNorm) for generalizable person Re-ID. It describes unseen target domain as a combination of the known source ones, and explicitly learns domain-specific representation with target distribution to improve the model's generalization by a meta-learning pipeline. Specifically, AdsNorm utilizes batch normalization layers to collect individual source domains' characteristics, and maps source domains into a shared latent space by using these characteristics, where the domain relevance is measured by a distance function of different domain-specific normalization statistics and features. At the testing stage, AdsNorm projects images from unseen target domain into the same latent space, and adaptively integrates the domain-specific features carrying the source distributions by domain relevance for learning more generalizable aggregated representation on unseen target domain. Considering that target domain is unavailable during training, a meta-learning algorithm combined with a customized relation loss is proposed to optimize an effective and efficient ensemble model. Extensive experiments demonstrate that AdsNorm outperforms the state-of-the-art methods. The code is available at: https://github.com/h zphzp/AdsNorm.
翻訳日:2021-05-10 12:18:52 公開日:2021-05-07
# 雑音ラベルのオーバーフィッティングに対する自己ペースト抵抗学習

Self-paced Resistance Learning against Overfitting on Noisy Labels ( http://arxiv.org/abs/2105.03059v1 )

ライセンス: Link先を確認
Xiaoshuang Shi, Zhenhua Guo, Fuyong Xing, Yun Liang, Xiaofeng Zhu(参考訳) 正しくて破損したラベルからなるノイズラベルは、実際には広く普及している。 畳み込みニューラルネットワーク(CNN)の性能が著しく低下する可能性がある。 この問題に対処するために,深層ニューラルネットワークはまず,おそらく正しいラベルデータを記憶し,次に腐敗したラベルサンプルを記憶するかもしれないという観測結果に触発され,クリーンな検証データを用いずに,破損したラベルに抵抗する、新しくてシンプルな自己ペースト抵抗フレームワークを提案する。 提案フレームワークは、まずCNNの記憶効果を利用して、信頼性のあるサンプルを含むカリキュラムを学習し、他のトレーニングサンプルに対して有意義な監督を提供する。 抵抗損失はモデルパラメータの更新を円滑にしたり、各クラスに対して等価な予測を得られる傾向があり、結果として、破損したラベルに過剰に適合するモデルに抵抗する。 最後に,これら2つのモジュールを単一損失関数に統合し,代替学習で最適化する。 広汎な実験により,近年の雑音ラベルデータに対する最先端手法よりも,提案手法の優れた性能が示された。 提案手法のソースコードはhttps://github.com/x sshi2015/self-paced- resistance-learningで入手できる。

Noisy labels composed of correct and corrupted ones are pervasive in practice. They might significantly deteriorate the performance of convolutional neural networks (CNNs), because CNNs are easily overfitted on corrupted labels. To address this issue, inspired by an observation, deep neural networks might first memorize the probably correct-label data and then corrupt-label samples, we propose a novel yet simple self-paced resistance framework to resist corrupted labels, without using any clean validation data. The proposed framework first utilizes the memorization effect of CNNs to learn a curriculum, which contains confident samples and provides meaningful supervision for other training samples. Then it adopts selected confident samples and a proposed resistance loss to update model parameters; the resistance loss tends to smooth model parameters' update or attain equivalent prediction over each class, thereby resisting model overfitting on corrupted labels. Finally, we unify these two modules into a single loss function and optimize it in an alternative learning. Extensive experiments demonstrate the significantly superior performance of the proposed framework over recent state-of-the-art methods on noisy-label data. Source codes of the proposed method are available on https://github.com/x sshi2015/Self-paced- Resistance-Learning.
翻訳日:2021-05-10 12:18:29 公開日:2021-05-07
# 2方向空間強調と排他的対象事前を用いた人体インタラクション検出

Human Object Interaction Detection using Two-Direction Spatial Enhancement and Exclusive Object Prior ( http://arxiv.org/abs/2105.03089v1 )

ライセンス: Link先を確認
Lu Liu, Robby T. Tan(参考訳) human-object interaction(hoi)検出は、画像中の人間とオブジェクトの視覚関係を検出することを目的としている。 HOI検出の大きな問題の1つは、非対話的な人間と物体のペアは、アクションとして容易にグループ化され、分類されていないことである。 誤グループ化問題に対処するために,身体部位から物体中心,対象部位から人体中心までの2方向において空間的制約を微調整する空間拡張手法を提案する。 推論では、対象オブジェクトを複数の人間が共有すべきでないアクションのオブジェクト排他性を考慮して、ヒューマン・オブジェクトの再グループ化手法を提案する。 非相互作用対を抑えることで、我々のアプローチは偽陽性を減少させることができる。 V-COCOとHICO-DETデータセットの実験では、現場に複数の人間や物体が存在する既存の手法に比べて、我々のアプローチはより堅牢であることが示された。

Human-Object Interaction (HOI) detection aims to detect visual relations between human and objects in images. One significant problem of HOI detection is that non-interactive human-object pair can be easily mis-grouped and misclassified as an action, especially when humans are close and performing similar actions in the scene. To address the mis-grouping problem, we propose a spatial enhancement approach to enforce fine-level spatial constraints in two directions from human body parts to the object center, and from object parts to the human center. At inference, we propose a human-object regrouping approach by considering the object-exclusive property of an action, where the target object should not be shared by more than one human. By suppressing non-interactive pairs, our approach can decrease the false positives. Experiments on V-COCO and HICO-DET datasets demonstrate our approach is more robust compared to the existing methods under the presence of multiple humans and objects in the scene.
翻訳日:2021-05-10 12:18:09 公開日:2021-05-07
# 教師なし画像間翻訳におけるコントラスト学習

Contrastive Learning for Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2105.03117v1 )

ライセンス: Link先を確認
Hanbit Lee, Jinseok Seol, Sang-goo Lee(参考訳) 画像から画像への翻訳は、視覚的に識別可能な画像の異なるグループ間のマッピングを学ぶことを目的としている。 最近の手法では、画像の複雑な外観をさらに変えることができるが、異なる視覚特徴を区別するためにモデルを訓練する際にも、ドメインラベルに依存している。 このようなラベルへの依存は、一貫性と高品質のラベルが高価であるため、アプリケーションのスコープを大幅に制限することが多い。 代わりに、画像自体の視覚的特徴をキャプチャして、人間生成ラベルなしで現実的な翻訳を可能にしたいと考えています。 そこで本研究では,コントラスト学習に基づく教師なし画像から画像への翻訳手法を提案する。 キーとなるアイデアは、識別器を学習し、識別器がジェネレータを監督してそれらのスタイルを画像間で転送することだ。 トレーニング中、一対の画像をランダムにサンプリングし、ジェネレータに元の構造を維持しながら、その外観を別の方向に変更するように訓練する。 実験結果から,本手法は視覚的品質と翻訳精度において,教師なしベースラインよりも優れていた。

Image-to-image translation aims to learn a mapping between different groups of visually distinguishable images. While recent methods have shown impressive ability to change even intricate appearance of images, they still rely on domain labels in training a model to distinguish between distinct visual features. Such dependency on labels often significantly limits the scope of applications since consistent and high-quality labels are expensive. Instead, we wish to capture visual features from images themselves and apply them to enable realistic translation without human-generated labels. To this end, we propose an unsupervised image-to-image translation method based on contrastive learning. The key idea is to learn a discriminator that differentiates between distinctive styles and let the discriminator supervise a generator to transfer those styles across images. During training, we randomly sample a pair of images and train the generator to change the appearance of one towards another while keeping the original structure. Experimental results show that our method outperforms the leading unsupervised baselines in terms of visual quality and translation accuracy.
翻訳日:2021-05-10 12:17:52 公開日:2021-05-07
# 群衆の軌道予測のための解釈可能なソーシャルアンカー

Interpretable Social Anchors for Human Trajectory Forecasting in Crowds ( http://arxiv.org/abs/2105.03136v1 )

ライセンス: Link先を確認
Parth Kothari, Brian Sifringer and Alexandre Alahi(参考訳) 群集における人間の軌道予測は、その核心であるシーケンス予測問題であり、シーケンス間の依存性(社会的相互作用)を捉え、その結果、社会的に適合するマルチモーダル分布を予測する。 近年、ニューラルネットワークに基づく手法は、距離ベースのメトリクスで手作りの手法より優れていることが示されている。 しかし、これらのデータ駆動型メソッドは、解釈可能性の欠如という、依然として重要な制限に苦しめられている。 この制限を克服するために、我々は離散選択モデルの力を利用して解釈可能なルールベースの意図を学習し、その後、ニューラルネットワークの表現可能性を利用してシーン固有の残差をモデル化する。 インタラクション中心のベンチマークであるtrajnet++の広範な実験は、提案するアーキテクチャが精度を損なうことなく予測を説明するために有効であることを示している。

Human trajectory forecasting in crowds, at its core, is a sequence prediction problem with specific challenges of capturing inter-sequence dependencies (social interactions) and consequently predicting socially-compliant multimodal distributions. In recent years, neural network-based methods have been shown to outperform hand-crafted methods on distance-based metrics. However, these data-driven methods still suffer from one crucial limitation: lack of interpretability. To overcome this limitation, we leverage the power of discrete choice models to learn interpretable rule-based intents, and subsequently utilise the expressibility of neural networks to model scene-specific residual. Extensive experimentation on the interaction-centric benchmark TrajNet++ demonstrates the effectiveness of our proposed architecture to explain its predictions without compromising the accuracy.
翻訳日:2021-05-10 12:17:33 公開日:2021-05-07
# 拡張物体検出のための確率的ランキングアウェアアンサンブル

Probabilistic Ranking-Aware Ensembles for Enhanced Object Detections ( http://arxiv.org/abs/2105.03139v1 )

ライセンス: Link先を確認
Mingyuan Mao, Baochang Zhang, David Doermann, Jie Guo, Shumin Han, Yuan Feng, Xiaodi Wang, Errui Ding(参考訳) モデルアンサンブルは、既に1つの検出器に最適化されたオブジェクト検出性能を改善するための最も効果的なアプローチの1つになっている。 従来の方法では直接境界ボックスを融合するが、検出器を組み合わせる際に提案品質を考慮できないのが普通である。 これは検出器のアンサンブルに対する信頼の相違という新たな問題に繋がる。 信頼性は単一検出器にはほとんど影響しないが、検出器アンサンブルに大きな影響を及ぼす。 この問題に対処するため,我々は,検出器からのバウンディングボックスの信頼性を向上させる確率的ランキング認識アンサンブル(prae)と呼ばれる新しいアンサンブルを提案する。 同じ検証セット上のカテゴリと位置を同時に考慮し、統計的確率に基づいてより信頼性の高い信頼を得る。 次に検出された境界ボックスをアセンブリにランク付けする。 また,異なる信頼レベルで異なるボックス数を扱う必要があることに起因する信頼不均衡問題に対処するための包括的アプローチも導入する。 我々はPRAEに基づく非最大抑圧(P-NMS)を用いて、アンサンブル学習における従来のNMS法を置き換える。 PASCAL VOCとCOCO2017データセットの実験は、私たちのPRAEメソッドが、最先端の手法をかなりのマージンで一貫して上回っていることを示している。

Model ensembles are becoming one of the most effective approaches for improving object detection performance already optimized for a single detector. Conventional methods directly fuse bounding boxes but typically fail to consider proposal qualities when combining detectors. This leads to a new problem of confidence discrepancy for the detector ensembles. The confidence has little effect on single detectors but significantly affects detector ensembles. To address this issue, we propose a novel ensemble called the Probabilistic Ranking Aware Ensemble (PRAE) that refines the confidence of bounding boxes from detectors. By simultaneously considering the category and the location on the same validation set, we obtain a more reliable confidence based on statistical probability. We can then rank the detected bounding boxes for assembly. We also introduce a bandit approach to address the confidence imbalance problem caused by the need to deal with different numbers of boxes at different confidence levels. We use our PRAE-based non-maximum suppression (P-NMS) to replace the conventional NMS method in ensemble learning. Experiments on the PASCAL VOC and COCO2017 datasets demonstrate that our PRAE method consistently outperforms state-of-the-art methods by significant margins.
翻訳日:2021-05-10 12:17:19 公開日:2021-05-07
# より分離可能で、セグメンテーションが容易:クロスドメインセマンティクスセグメンテーションのためのクラスタアライメント法

More Separable and Easier to Segment: A Cluster Alignment Method for Cross-Domain Semantic Segmentation ( http://arxiv.org/abs/2105.03151v1 )

ライセンス: Link先を確認
Shuang Wang, Dong Zhao, Yi Li, Chi Zhang, Yuwei Guo, Qi Zang, Biao Hou, Licheng Jiao(参考訳) ドメイン間の機能アライメントは、Unsupervised Domain Adaptation (UDA) セマンティックセグメンテーションの主流メソッドの1つである。 既存のセグメンテーションのための特徴アライメント手法は,ドメインの差分を減らそうとする対角訓練によってドメイン不変の特徴を学習するが,それらには2つの限界がある: 1)ピクセル間の関連は維持されない; 2)ソースドメインで訓練された分類器はターゲットにうまく適応できない。 本稿では、上記の問題を緩和するために、ドメイン密接性仮定に基づく新しいudaセマンティクスセグメンテーション手法を提案する。 具体的には、同じ意味を持つクラスタピクセルに対して、プロトタイプのクラスタリング戦略を適用し、機能アライメント中にターゲットドメインピクセル間の関連性をよりよく維持する。 クラスタリング後、分類器をより適応させるため、対象領域の親和性グラフに基づく正規化カット損失を利用して、決定境界を目標固有にする。 GTA5$\rightarrow$Cit yscapesとSynTHIA$\rightarrow$ Cityscapesで実施した十分な実験により,本手法の有効性が証明された。

Feature alignment between domains is one of the mainstream methods for Unsupervised Domain Adaptation (UDA) semantic segmentation. Existing feature alignment methods for semantic segmentation learn domain-invariant features by adversarial training to reduce domain discrepancy, but they have two limits: 1) associations among pixels are not maintained, 2) the classifier trained on the source domain couldn't adapted well to the target. In this paper, we propose a new UDA semantic segmentation approach based on domain closeness assumption to alleviate the above problems. Specifically, a prototype clustering strategy is applied to cluster pixels with the same semantic, which will better maintain associations among target domain pixels during the feature alignment. After clustering, to make the classifier more adaptive, a normalized cut loss based on the affinity graph of the target domain is utilized, which will make the decision boundary target-specific. Sufficient experiments conducted on GTA5 $\rightarrow$ Cityscapes and SYNTHIA $\rightarrow$ Cityscapes proved the effectiveness of our method, which illustrated that our results achieved the new state-of-the-art.
翻訳日:2021-05-10 12:17:01 公開日:2021-05-07
# Adv-Makeup: 顔認識に対する新たな非知覚的かつ伝達可能な攻撃

Adv-Makeup: A New Imperceptible and Transferable Attack on Face Recognition ( http://arxiv.org/abs/2105.03162v1 )

ライセンス: Link先を確認
Bangjie Yin, Wenxuan Wang, Taiping Yao, Junfeng Guo, Zelun Kong, Shouhong Ding, Jilin Li and Cong Liu(参考訳) 深層ニューラルネットワーク、特に顔認識モデルは、デジタルと物理的な敵対的な例の両方に弱いことが示されている。 しかし、既存の顔認識システムに対する敵対的な例では、ブラックボックスモデルへの転送性を欠いたり、実際に実装しなかったりしている。 本稿では,ブラックボックス設定下での非知覚的かつ移動可能な攻撃を実現する,一元的対向顔生成手法Adv-Makeupを提案する。 adv-makeupは、顔の軌道領域上の不可避なアイシャドーを合成するブレンディングモジュールを備えたタスク駆動メイクアップ生成法を開発した。 また、転送性を達成するために、adv-makeupは、様々なモデルからより一般的な攻撃機能を学ぶために、きめ細かいメタラーニング攻撃戦略を実装している。 既存の技術と比較すると、十分な視覚化結果から、Adv-Makeupはデジタルシナリオと物理シナリオの両方で、はるかに非知覚的な攻撃を発生させることができる。 一方、大規模な定量的実験により、Adv-Makeupはブラックボックス設定下での攻撃成功率を大幅に改善し、商用システムへの攻撃も可能であることが示された。

Deep neural networks, particularly face recognition models, have been shown to be vulnerable to both digital and physical adversarial examples. However, existing adversarial examples against face recognition systems either lack transferability to black-box models, or fail to be implemented in practice. In this paper, we propose a unified adversarial face generation method - Adv-Makeup, which can realize imperceptible and transferable attack under black-box setting. Adv-Makeup develops a task-driven makeup generation method with the blending module to synthesize imperceptible eye shadow over the orbital region on faces. And to achieve transferability, Adv-Makeup implements a fine-grained meta-learning adversarial attack strategy to learn more general attack features from various models. Compared to existing techniques, sufficient visualization results demonstrate that Adv-Makeup is capable to generate much more imperceptible attacks under both digital and physical scenarios. Meanwhile, extensive quantitative experiments show that Adv-Makeup can significantly improve the attack success rate under black-box setting, even attacking commercial systems.
翻訳日:2021-05-10 12:16:36 公開日:2021-05-07
# オートエンコーダを用いた車内作業分類のための車間一般化

Autoencoder Based Inter-Vehicle Generalization for In-Cabin Occupant Classification ( http://arxiv.org/abs/2105.03164v1 )

ライセンス: Link先を確認
Steve Dias Da Cruz and Bertram Taetz and Oliver Wasenm\"uller and Thomas Stifter and Didier Stricker(参考訳) 一般的なドメインシフト問題定式化では、トレーニング中に複数のソースドメイン、あるいはターゲットドメインの統合を検討する。 異なる車室内間での機械学習モデルの一般化に関して、我々は、1台の車両におけるトレーニングの基準を定式化し、モデルが配置される車両の目標分布にアクセスせずに、訓練中に複数の車両にアクセスできないようにした。 後部ベンチにおける乗員分類のためのSVIROデータセットの調査を行い,転送性向上のためのオートエンコーダに基づくアプローチを提案する。 autoencoderは、スクラッチからトレーニングされた場合、一般的に使用される分類モデルと同等であり、大量のデータで事前トレーニングされたモデルを上回る場合もあります。 さらに、オートエンコーダは未知の車両から訓練した車両に画像を変換することができる。 これらの結果は、2つの車内からの実際の赤外線画像の評価によって裏付けられる。

Common domain shift problem formulations consider the integration of multiple source domains, or the target domain during training. Regarding the generalization of machine learning models between different car interiors, we formulate the criterion of training in a single vehicle: without access to the target distribution of the vehicle the model would be deployed to, neither with access to multiple vehicles during training. We performed an investigation on the SVIRO dataset for occupant classification on the rear bench and propose an autoencoder based approach to improve the transferability. The autoencoder is on par with commonly used classification models when trained from scratch and sometimes out-performs models pre-trained on a large amount of data. Moreover, the autoencoder can transform images from unknown vehicles into the vehicle it was trained on. These results are corroborated by an evaluation on real infrared images from two vehicle interiors.
翻訳日:2021-05-10 12:16:16 公開日:2021-05-07
# a^2-fpn:注意アグリゲーションに基づく特徴ピラミッドネットワーク

A^2-FPN: Attention Aggregation based Feature Pyramid Network for Instance Segmentation ( http://arxiv.org/abs/2105.03186v1 )

ライセンス: Link先を確認
Miao Hu and Yali Li and Lu Fang and Shengjin Wang(参考訳) ピラミッド型特徴表現の学習は、異なるスケールでオブジェクトインスタンスを認識するのに不可欠である。 Feature Pyramid Network (FPN)は、高レベルのセマンティクスを備えた機能ピラミッドを構築するための古典的なアーキテクチャである。 しかし、特徴抽出と融合における本質的な欠陥は、FPNがより差別的な特徴をさらに集積することを妨げる。 本研究では,注意誘導特徴集合によるマルチスケール特徴学習を改善するために,アテンションアグリゲーションに基づく特徴ピラミッドネットワーク(a^2-fpn)を提案する。 特徴抽出において,多レベルグローバルな文脈特徴の収集・分散により識別的特徴を抽出し,チャネルの大幅な減少による意味情報の損失を軽減する。 特徴融合では、隣接した特徴から補完的な情報を集約し、コンテンツ認識サンプリングのための位置対応の組換えカーネルを生成し、チャンネルワイドの重み付けを用いて、要素ワイド付加前のセマンティック一貫性を高める。 A^2-FPNは異なるインスタンスセグメンテーションフレームワークで一貫した利得を示す。 Mask R-CNNのFPNをA^2-FPNに置き換えることで、ResNet-50とResNet-101をバックボーンとして使用する場合、その性能を2.1%、マスクAPが1.6%向上する。 さらに、A^2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。

Learning pyramidal feature representations is crucial for recognizing object instances at different scales. Feature Pyramid Network (FPN) is the classic architecture to build a feature pyramid with high-level semantics throughout. However, intrinsic defects in feature extraction and fusion inhibit FPN from further aggregating more discriminative features. In this work, we propose Attention Aggregation based Feature Pyramid Network (A^2-FPN), to improve multi-scale feature learning through attention-guided feature aggregation. In feature extraction, it extracts discriminative features by collecting-distribut ing multi-level global context features, and mitigates the semantic information loss due to drastically reduced channels. In feature fusion, it aggregates complementary information from adjacent features to generate location-wise reassembly kernels for content-aware sampling, and employs channel-wise reweighting to enhance the semantic consistency before element-wise addition. A^2-FPN shows consistent gains on different instance segmentation frameworks. By replacing FPN with A^2-FPN in Mask R-CNN, our model boosts the performance by 2.1% and 1.6% mask AP when using ResNet-50 and ResNet-101 as backbone, respectively. Moreover, A^2-FPN achieves an improvement of 2.0% and 1.4% mask AP when integrated into the strong baselines such as Cascade Mask R-CNN and Hybrid Task Cascade.
翻訳日:2021-05-10 12:16:02 公開日:2021-05-07
# MOTR:TRansformerによるエンドツーエンド多目的追跡

MOTR: End-to-End Multiple-Object Tracking with TRansformer ( http://arxiv.org/abs/2105.03247v1 )

ライセンス: Link先を確認
Fangao Zeng, Bin Dong, Tiancai Wang, Cheng Chen, Xiangyu Zhang, Yichen Wei(参考訳) マルチオブジェクト追跡(MOT)タスクにおける重要な課題は、トラック中のオブジェクトの時間的モデリングである。 既存のトラッキングバイ検出法は、空間的または外観的類似性のような単純なヒューリスティックを採用する。 このような手法は、共通性にもかかわらず、過剰に単純であり、閉塞による追跡のような複雑なバリエーションをモデル化するには不十分である。 既存の手法ではデータから時間変動を学習する能力がない。 本稿では,最初の完全エンドツーエンドのマルチオブジェクトトラッキングフレームワークMOTRを提案する。 オブジェクトの長距離時間変動をモデル化することを学ぶ。 暗黙的に時間的関連付けを行い、以前の明示的なヒューリスティックを避ける。 Transformer と DETR 上に構築された MOTR は "トラッククエリ" という概念を導入している。 各トラッククエリは、オブジェクトのトラック全体をモデル化する。 オブジェクトの検出と追跡をシームレスに行うために、フレーム単位で転送および更新される。 時間的アグリゲーションネットワークと多フレームトレーニングを組み合わせることで、長距離時間的関係をモデル化する。 実験の結果,motrは最先端のパフォーマンスを達成できた。 コードはhttps://github.com/m egvii-model/MOTRで入手できる。

The key challenge in multiple-object tracking (MOT) task is temporal modeling of the object under track. Existing tracking-by-detectio n methods adopt simple heuristics, such as spatial or appearance similarity. Such methods, in spite of their commonality, are overly simple and insufficient to model complex variations, such as tracking through occlusion. Inherently, existing methods lack the ability to learn temporal variations from data. In this paper, we present MOTR, the first fully end-to-end multiple-object tracking framework. It learns to model the long-range temporal variation of the objects. It performs temporal association implicitly and avoids previous explicit heuristics. Built on Transformer and DETR, MOTR introduces the concept of "track query". Each track query models the entire track of an object. It is transferred and updated frame-by-frame to perform object detection and tracking, in a seamless manner. Temporal aggregation network combined with multi-frame training is proposed to model the long-range temporal relation. Experimental results show that MOTR achieves state-of-the-art performance. Code is available at https://github.com/m egvii-model/MOTR.
翻訳日:2021-05-10 12:15:34 公開日:2021-05-07
# 教師なし機能埋め込みのためのインスタンス関係の探索

Exploring Instance Relations for Unsupervised Feature Embedding ( http://arxiv.org/abs/2105.03341v1 )

ライセンス: Link先を確認
Yifei Zhang, Yu Zhou, Weiping Wang(参考訳) 教師なし特徴埋め込み(unsupervised feature embedded)で達成された大きな進歩にもかかわらず、既存のコントラスト学習法は通常、正のサンプルペアを引き寄せて負のサンプルペアを埋め込み空間に忌避しながら、系統的なインスタンス関係の探索を怠りながら、ビュー不変表現を追求する。 本稿では,教師なし特徴埋め込みのインスタンス間マルチビュー関係とインテント間補間関係を含むインスタンス間関係について検討する。 具体的には,インスタンスの異なる拡張サンプルと負のサンプル間の距離分布を整合させることで,インスタンス内マルチビュー関係を埋め込む。 画像サンプル補間のための情報の割合を画素空間から特徴埋め込み空間に移すことで、instance補間関係を考察する。 提案手法はEIRと呼ばれ、単純なyet効果があり、既存のビュー不変のコントラスト学習手法に簡単に挿入できる。 画像分類と検索に関する公開ベンチマークで実施した実験は、最先端または同等の性能である。

Despite the great progress achieved in unsupervised feature embedding, existing contrastive learning methods typically pursue view-invariant representations through attracting positive sample pairs and repelling negative sample pairs in the embedding space, while neglecting to systematically explore instance relations. In this paper, we explore instance relations including intra-instance multi-view relation and inter-instance interpolation relation for unsupervised feature embedding. Specifically, we embed intra-instance multi-view relation by aligning the distribution of the distance between an instance's different augmented samples and negative samples. We explore inter-instance interpolation relation by transferring the ratio of information for image sample interpolation from pixel space to feature embedding space. The proposed approach, referred to as EIR, is simple-yet-effective and can be easily inserted into existing view-invariant contrastive learning based methods. Experiments conducted on public benchmarks for image classification and retrieval report state-of-the-art or comparable performance.
翻訳日:2021-05-10 12:15:22 公開日:2021-05-07
# 忠実性保存をともなう前景誘導顔面インペインティング

Foreground-guided Facial Inpainting with Fidelity Preservation ( http://arxiv.org/abs/2105.03342v1 )

ライセンス: Link先を確認
Jireh Jam, Connah Kendrick, Vincent Drouard, Kevin Walker, Moi Hoon Yap(参考訳) 画像リアリズムのための高忠実性保存を備えた顔画像の塗装は非常に難しい作業である。 これは、簡単に転送できない重要な顔の特徴(成分)の微妙なテクスチャが原因である。 多くの画像塗装技術が、優れた能力と高い定量的性能で提案されている。 しかし, 顔の塗布では特徴が顕著になり, 混合塗布領域の視覚的品質は質的にも重要となる。 これらの事実に基づいて,畳み込みニューラルネットワーク層を用いて顔特徴を抽出・生成できるフォアグラウンド誘導型顔塗工フレームワークを設計した。 前景のセグメンテーションマスクを用いて忠実さを保っている。 具体的には,表情,自然特徴,不自然な特徴(メイクアップ)を意味論的に推論する新たな損失関数を提案する。 我々は,CelebA-HQデータセット,CelebAMask-HQのセグメンテーションマスク(前景誘導用)およびQuick Draw Mask(行方不明地域用)を用いて実験を行った。 提案手法は, 顔成分の高忠実度保存を, 質的に比較すると, 比較して定量的な結果を得た。

Facial image inpainting, with high-fidelity preservation for image realism, is a very challenging task. This is due to the subtle texture in key facial features (component) that are not easily transferable. Many image inpainting techniques have been proposed with outstanding capabilities and high quantitative performances recorded. However, with facial inpainting, the features are more conspicuous and the visual quality of the blended inpainted regions are more important qualitatively. Based on these facts, we design a foreground-guided facial inpainting framework that can extract and generate facial features using convolutional neural network layers. It introduces the use of foreground segmentation masks to preserve the fidelity. Specifically, we propose a new loss function with semantic capability reasoning of facial expressions, natural and unnatural features (make-up). We conduct our experiments using the CelebA-HQ dataset, segmentation masks from CelebAMask-HQ (for foreground guidance) and Quick Draw Mask (for missing regions). Our proposed method achieved comparable quantitative results when compare to the state of the art but qualitatively, it demonstrated high-fidelity preservation of facial components.
翻訳日:2021-05-10 12:15:05 公開日:2021-05-07
# ResMLP:データ効率訓練による画像分類のためのフィードフォワードネットワーク

ResMLP: Feedforward networks for image classification with data-efficient training ( http://arxiv.org/abs/2105.03404v1 )

ライセンス: Link先を確認
Hugo Touvron, Piotr Bojanowski, Mathilde Caron, Matthieu Cord, Alaaeldin El-Nouby, Edouard Grave, Armand Joulin, Gabriel Synnaeve, Jakob Verbeek, Herv\'e J\'egou(参考訳) 画像分類のための多層パーセプトロン上に構築されたアーキテクチャであるResMLPを提案する。 i) 画像パッチが独立に、かつ同一にチャネル間で相互作用する線形層と、(ii) チャネルがパッチ毎に独立に相互作用する2層フィードフォワードネットワークを交換する単純な残留ネットワークである。 大量のデータ提供と任意に蒸留を使って現代的なトレーニング戦略でトレーニングすると、imagenet上で驚くほど精度と複雑さのトレードオフが得られる。 我々はTimライブラリと事前トレーニングされたモデルに基づいてコードを共有します。

We present ResMLP, an architecture built entirely upon multi-layer perceptrons for image classification. It is a simple residual network that alternates (i) a linear layer in which image patches interact, independently and identically across channels, and (ii) a two-layer feed-forward network in which channels interact independently per patch. When trained with a modern training strategy using heavy data-augmentation and optionally distillation, it attains surprisingly good accuracy/complexity trade-offs on ImageNet. We will share our code based on the Timm library and pre-trained models.
翻訳日:2021-05-10 12:14:45 公開日:2021-05-07
# 実行可能区間時間論理仕様

Executable Interval Temporal Logic Specifications ( http://arxiv.org/abs/2105.03375v1 )

ライセンス: Link先を確認
Antonio Cau, Stefan Kuhn, James Hoey(参考訳) 本稿では,実行時時間論理(ITL)仕様の可逆性について検討する。 ITLは、状態の空でないシーケンスとして表される振る舞いの観点から、システムについての推論を可能にする。 異なる抽象化レベルにおけるシステムの仕様化を可能にします。 高いレベルでは、この仕様はプロパティ、例えば安全性と生存性の観点から定義されている。 具体的なレベルでは、プログラミング構成の観点からシステムを指定することができる。 これらの具体的な仕様、すなわちシステムの振る舞いをテストし、シミュレートすることができる。 本稿では,この ITL 仕様の実行可能性の概念を定式化する。 ITLはまた、逆動作の推論を可能にするリフレクション演算子も備えている。 我々は、実行可能なIPL仕様の可逆性、すなわち、このリフレクション演算子を用いて特定のシステムの具体的な振る舞いを反転させる方法について検討する。

In this paper the reversibility of executable Interval Temporal Logic (ITL) specifications is investigated. ITL allows for the reasoning about systems in terms of behaviours which are represented as non-empty sequences of states. It allows for the specification of systems at different levels of abstraction. At a high level this specification is in terms of properties, for instance safety and liveness properties. At concrete level one can specify a system in terms of programming constructs. One can execute these concrete specification, i.e., test and simulate the behaviour of the system. In this paper we will formalise this notion of executability of ITL specifications. ITL also has a reflection operator which allows for the reasoning about reversed behaviours. We will investigate the reversibility of executable ITL specifications, i.e., how one can use this reflection operator to reverse the concrete behaviour of a particular system.
翻訳日:2021-05-10 12:14:19 公開日:2021-05-07
# ペアワイズ学習におけるディファレンシャルプライバシ:非凸解析

Differential Privacy for Pairwise Learning: Non-convex Analysis ( http://arxiv.org/abs/2105.03033v1 )

ライセンス: Link先を確認
Yilin Kang, Yong Liu, Jian Li, Weiping Wang(参考訳) ペアワイズ学習は、ペアのトレーニングインスタンスに依存し、ペアのサンプル間の関係をモデル化するのに自然に適合するペアワイズ損失関数による学習タスクに焦点を当てる。 本稿では,ペアワイズ学習のプライバシに着目し,勾配摂動に基づくペアワイズ学習のための新たな差分プライバシーパラダイムを提案する。 我々は、$\ell_2$-sensitivity と moments accountant の2つの視点からプライバシー保証を分析する。 さらに,提案手法の一般化誤差,過剰な経験的リスク,過剰な集団リスクを解析し,対応する限界を与える。 ペアワイズ微分プライバシーにアルゴリズム的安定性理論を導入することで、この理論解析では凸対損失関数は不要となり、これは凸条件と非凸条件の両方に一般化することを意味する。 このような状況下では、ユーティリティ境界は凸性や強い凸性仮定の下での以前の境界よりも優れており、これは魅力的な結果である。

Pairwise learning focuses on learning tasks with pairwise loss functions, which depend on pairs of training instances, and naturally fits for modeling relationships between pairs of samples. In this paper, we focus on the privacy of pairwise learning and propose a new differential privacy paradigm for pairwise learning, based on gradient perturbation. We analyze the privacy guarantees from two points of view: the $\ell_2$-sensitivity and the moments accountant method. We further analyze the generalization error, the excess empirical risk, and the excess population risk of our proposed method and give corresponding bounds. By introducing algorithmic stability theory to pairwise differential privacy, our theoretical analysis does not require convex pairwise loss functions, which means that our method is general to both convex and non-convex conditions. Under these circumstances, the utility bounds are better than previous bounds under convexity or strongly convexity assumption, which is an attractive result.
翻訳日:2021-05-10 12:13:51 公開日:2021-05-07
# ConCAD:睡眠時無呼吸検出のためのコントラスト学習に基づくクロスアテンション

ConCAD: Contrastive Learning-based Cross Attention for Sleep Apnea Detection ( http://arxiv.org/abs/2105.03037v1 )

ライセンス: Link先を確認
Guanjie Huang and Fenglong Ma(参考訳) 近年のディープラーニング手法の進歩により、元のデータから深い特徴を自動的に学習する手法が、効果的かつ広く普及しつつある。 しかし、手作りの知識ベースの機能はまだ洞察に富んでいる。 これらの専門家による特徴は、モデルの一般化を増大させ、2つのパターン間の時間間隔など、いくつかのデータ特性のモデルを思い出させる。 これは、通常データが制限され複雑である、臨床的に関連のあるデータを扱うタスクにおいて特に有利である。 暗黙の深い機能と専門家による明確な機能の両方をまとめるには、効果的な融合戦略が不可欠である。 本研究では,特定の臨床応用,すなわち睡眠時無呼吸検出に焦点をあてる。 そこで本研究では睡眠時無呼吸検出のためのコントラスト学習に基づくクロスアテンションフレームワークを提案する。 クロスアテンション機構は、その重要性に基づいて自動的にアテンション重みを割り当てることで、深い機能と専門機能とを融合させることができる。 コントラスト学習は、各クラスのインスタンスを親密に保ち、埋め込み空間内の異なるクラスからインスタンスをプッシュすることで、より良い表現を学ぶことができる。 さらに,教師付きコントラスト損失とクロスエントロピー損失を融合することにより,コントラスト学習と分類を同時に行うように設計された。 提案フレームワークは,標準ディープラーニングモデルに容易に統合でき,専門家の知識とコントラスト学習を活用し,パフォーマンスを向上させる。 睡眠時無呼吸アノテーションを持つ2つのパブリックECGデータセットで示されているように、ConCADは検出性能を大幅に改善し、最先端のベンチマーク手法より優れている。

With recent advancements in deep learning methods, automatically learning deep features from the original data is becoming an effective and widespread approach. However, the hand-crafted expert knowledge-based features are still insightful. These expert-curated features can increase the model's generalization and remind the model of some data characteristics, such as the time interval between two patterns. It is particularly advantageous in tasks with the clinically-relevant data, where the data are usually limited and complex. To keep both implicit deep features and expert-curated explicit features together, an effective fusion strategy is becoming indispensable. In this work, we focus on a specific clinical application, i.e., sleep apnea detection. In this context, we propose a contrastive learning-based cross attention framework for sleep apnea detection (named ConCAD). The cross attention mechanism can fuse the deep and expert features by automatically assigning attention weights based on their importance. Contrastive learning can learn better representations by keeping the instances of each class closer and pushing away instances from different classes in the embedding space concurrently. Furthermore, a new hybrid loss is designed to simultaneously conduct contrastive learning and classification by integrating a supervised contrastive loss with a cross-entropy loss. Our proposed framework can be easily integrated into standard deep learning models to utilize expert knowledge and contrastive learning to boost performance. As demonstrated on two public ECG dataset with sleep apnea annotation, ConCAD significantly improves the detection performance and outperforms state-of-art benchmark methods.
翻訳日:2021-05-10 12:13:36 公開日:2021-05-07
# CFDシミュレーションの計算コスト削減のためのFVMネットワーク

FVM Network to Reduce Computational Cost of CFD Simulation ( http://arxiv.org/abs/2105.03332v1 )

ライセンス: Link先を確認
Joongoo Jeon, Sung Joong Kim(参考訳) CPU性能の急激な向上にもかかわらず、化学反応する流れをシミュレートする計算コストは、多くの場合まだ実現不可能である。 ニューラルネットワークモデルを用いてCFDシミュレーションを高速化する研究はほとんどない。 しかし,マルチステップCFD時系列データの予測は依然として困難である。 多くのCFD符号の基本原理である有限体積法(FVM)は、以前のネットワークモデルでは十分に考慮されていないようである。 本研究では,fvmの原理を階層入力およびデリバティブ出力システムでシミュレートするfvmネットワーク(fvmn)を提案する。 このベースラインモデルの性能を非定常反応フローデータセットを用いて評価した。 FVMNの最大相対誤差(0.04%)は、トレーニングデータセットの一般モデル(1.12%)よりもはるかに小さいことが確認された。 このエラーサイズの違いは、予測データセットでより顕著だった。 また,FVMNの計算速度は,同じCPU条件下でもCFDソルバよりも約10倍高速であった。 基底真理データとの相対誤差は, 提案モデルでは有意に減少したが, 線形に増加する勾配誤差は, 長い過渡計算では残る問題である。 そこで我々は,交流計算によりcfdシミュレーションを効果的に高速化できる機械学習支援cfdフレームワークを提案する。

Despite the rapid growth of CPU performance, the computational cost to simulate the chemically reacting flow is still infeasible in many cases. There are few studies to accelerate the CFD simulation by using neural network models. However, they noted that it is still difficult to predict multi-step CFD time series data. The finite volume method (FVM) which is the basic principle of most CFD codes seems not to be sufficiently considered in the previous network models. In this study, a FVM network (FVMN) which simulate the principles of FVM by the tier-input and derivative-output system was proposed. The performance of this baseline model was evaluated using unsteady reacting flow datasets. It was confirmed that the maximum relative error of the FVMN (0.04%) was much smaller than the general model (1.12%) in the training dataset. This difference in error size was more prominent in the prediction datasets. In addition, it was observed that the calculation speed was about 10 times faster in FVMN than CFD solver even under the same CPU condition. Although the relative error with the ground truth data was significantly reduced in the proposed model, the linearly increasing gradient error is a remaining issue in longer transient calculations. Therefore, we additionally suggested Machine learning aided CFD framework which can substantially accelerate the CFD simulation through alternating computations.
翻訳日:2021-05-10 12:13:12 公開日:2021-05-07
# fashion after fashion: a report of ai in fashion

fAshIon after fashion: A Report of AI in Fashion ( http://arxiv.org/abs/2105.03050v1 )

ライセンス: Link先を確認
Xingxing Zou, Waikeung Wong(参考訳) ファッション後の独立レポートfAshIonにおいて、ファッションにおけるfAshIon(AI)の発展について検討し、その可能性を探り、近い将来、ファッション産業の大きなディスラプターとなる。 そこで,ファッション業界で使用されているAI技術について,いくつかのレンズを用いて検討する。 我々は,過去10年間に行われたfAshIon研究を要約し,概観,評価,基本技術,販売,スタイリング,デザイン,購入の7つのグループに分類した。 fAshIonリサーチで言及されているデータセットは、使いやすくするために、GitHubページに統合されている。 本研究は,fAshIon研究の背景を明らかにするため,著者の背景と地理的地域を分析した。 本分析の結果は,fAshIonにおける研究の全体像を研究者に提供するためのものである。 我々の主要な研究の一環として、ファッション業界における応用ファッションの幅広い事例をレビューし、その産業、市場、個人への影響を分析した。 また,fAshIonの課題を特定し,今後の研究の基盤となる可能性も示唆した。 最終的に私たちは、ai技術が埋め込まれたファッション産業を変革し、利益を上げることができるファッションにおけるaiの利用に、多くの潜在的な機会が存在することを示しています。

In this independent report fAshIon after fashion, we examine the development of fAshIon (artificial intelligence (AI) in fashion) and explore its potentiality to become a major disruptor of the fashion industry in the near future. To do this, we investigate AI technologies used in the fashion industry through several lenses. We summarise fAshIon studies conducted over the past decade and categorise them into seven groups: Overview, Evaluation, Basic Tech, Selling, Styling, Design, and Buying. The datasets mentioned in fAshIon research have been consolidated on one GitHub page for ease of use. We analyse the authors' backgrounds and the geographic regions treated in these studies to determine the landscape of fAshIon research. The results of our analysis are presented with an aim to provide researchers with a holistic view of research in fAshIon. As part of our primary research, we also review a wide range of cases of applied fAshIon in the fashion industry and analyse their impact on the industry, markets and individuals. We also identify the challenges presented by fAshIon and suggest that these may form the basis for future research. We finally exhibit that many potential opportunities exist for the use of AI in fashion which can transform the fashion industry embedded with AI technologies and boost profits.
翻訳日:2021-05-10 12:12:51 公開日:2021-05-07
# 動的マルチエージェントシステムの情報設計

Informational Design of Dynamic Multi-Agent System ( http://arxiv.org/abs/2105.03052v1 )

ライセンス: Link先を確認
Tao Zhang and Quanyan Zhu(参考訳) 本研究は,新しい情報設計問題を検討し,知的エージェントの行動にのみ影響するペイオフ関連環境信号の手法について検討する。 エージェントの戦略的相互作用は、各エージェントが複数の信号源から1つの環境信号を追加のペイオフ関連情報として選択し、次にアクションを取る不完全情報マルコフゲームによってキャプチャされる。 1つの信号源を持ち、エージェントに送られたシグナルの情報構造を設計することによってエージェントの平衡挙動を制御することを目的とした合理的情報デザイナー(原則)が存在する。 設計プロセスがエージェントの戦略選択行動の予測を避けるように、情報設計がプリンシパルが送信する信号を選択するよう各エージェントにインセンティブを与えるとき、直接情報設計に焦点を合わせることは一般性を失うことなく行われるという従属原理が確立されている。 従順性原理に基づき、従順性実装性(OIL)と呼ばれるプリンシパルの目標を与えられた設計プロトコルを導入し、従順性マルコフ完全ベイズ平衡(O-SMPBE)のクラスでOILを特徴付けるマイアソン情報設計について検討する。 提案手法は, エージェントがプリンシパルから送られてくる信号を選択することを動機付ける固定点アライメント(固定点アライメント)として, エージェントの行動方針プロファイルがO-SMPBEの政策成分であることを確認し, プリンシパルの目標を達成するための枠組みを提案する。 提案手法は,競争におけるマルチエージェントシステムの望ましい行動や,協調的な設定,完全および不完全情報環境における異種確率ゲームへの拡張に応用できる。

This work considers a novel information design problem and studies how the craft of payoff-relevant environmental signals solely can influence the behaviors of intelligent agents. The agents' strategic interactions are captured by an incomplete-informati on Markov game, in which each agent first selects one environmental signal from multiple signal sources as additional payoff-relevant information and then takes an action. There is a rational information designer (principal) who possesses one signal source and aims to control the equilibrium behaviors of the agents by designing the information structure of her signals sent to the agents. An obedient principle is established which states that it is without loss of generality to focus on the direct information design when the information design incentivizes each agent to select the signal sent by the principal, such that the design process avoids the predictions of the agents' strategic selection behaviors. Based on the obedient principle, we introduce the design protocol given a goal of the principal referred to as obedient implementability (OIL) and study a Myersonian information design that characterizes the OIL in a class of obedient sequential Markov perfect Bayesian equilibria (O-SMPBE). A framework is proposed based on an approach which we refer to as the fixed-point alignment that incentivizes the agents to choose the signal sent by the principal, makes sure that the agents' policy profile of taking actions is the policy component of an O-SMPBE, and the principal's goal is achieved. The proposed approach can be applied to elicit desired behaviors of multi-agent systems in competing as well as cooperating settings and be extended to heterogeneous stochastic games in the complete- and the incomplete-informati on environments.
翻訳日:2021-05-10 12:12:30 公開日:2021-05-07
# ランダム化探索ヒューリスティック解析のための拡張ジャンプ関数ベンチマーク

An Extended Jump Function Benchmark for the Analysis of Randomized Search Heuristics ( http://arxiv.org/abs/2105.03090v1 )

ライセンス: Link先を確認
Henry Bambury, Antoine Bultel, Benjamin Doerr(参考訳) ジャンプ関数はランダム化探索ヒューリスティック、特に進化アルゴリズム(eas)の理論において最も研究されている非ユニモーダルベンチマークである。 彼らは、EAが地域最適化からどのように逃れるかについての理解を著しく改善しました。 しかし、その特定の構造 -- 局所的な最適性を残すことは、グローバルな最適性に直接ジャンプするしかなく -- は、そのような結果がどの程度代表的であるかという疑問を提起する。 そこで本稿では,全球最適値から距離$k$で出発する幅の低適合性谷を含むジャンプ関数の拡張クラス$\textsc{jump}_{k,\delta}$を提案する。 すべての$k = o(n^{1/3})$ と $\delta < k$ に対して、$(1+1)$~ea の最適な突然変異率は$\frac{\delta}{n}$ であり、速い $(1+1)$~ea は、従来の$(1+1)$~ea よりも、$\delta$ で超指数的に速い。 しかし、いくつかの既知の結果が一般化していないことも観察している: スタグネーション検出を伴うランダム化局所探索アルゴリズムは、いくつかの$\textsc{jump}_{k,\delta}$インスタンスで$k$ on $\textsc{jump}_k$の係数多項式による高速$(1+1)$~eaよりも高速である。 計算の面では、この新クラスはより広いフィットネス・バレーでの実験を可能にする。

Jump functions are the most studied non-unimodal benchmark in the theory of randomized search heuristics, in particular, evolutionary algorithms (EAs). They have significantly improved our understanding of how EAs escape from local optima. However, their particular structure -- to leave the local optimum one can only jump directly to the global optimum -- raises the question of how representative such results are. For this reason, we propose an extended class $\textsc{Jump}_{k,\delta}$ of jump functions that contain a valley of low fitness of width $\delta$ starting at distance $k$ from the global optimum. We prove that several previous results extend to this more general class: for all $k = o(n^{1/3})$ and $\delta < k$, the optimal mutation rate for the $(1+1)$~EA is $\frac{\delta}{n}$, and the fast $(1+1)$~EA runs faster than the classical $(1+1)$~EA by a factor super-exponential in $\delta$. However, we also observe that some known results do not generalize: the randomized local search algorithm with stagnation detection, which is faster than the fast $(1+1)$~EA by a factor polynomial in $k$ on $\textsc{Jump}_k$, is slower by a factor polynomial in $n$ on some $\textsc{Jump}_{k,\delta}$ instances. Computationally, the new class allows experiments with wider fitness valleys, especially when they lie further away from the global optimum.
翻訳日:2021-05-10 12:11:57 公開日:2021-05-07
# オンライン電力系統セキュリティ評価のための多変量密度予測手法

A Multivariate Density Forecast Approach for Online Power System Security Assessment ( http://arxiv.org/abs/2105.03047v1 )

ライセンス: Link先を確認
Zichao Meng, Ye Guo, Wenjun Tang, Hongbin Sun, Wenqi Huang(参考訳) 本稿では,電力系統における複数のセキュリティマージンの積算分布関数(JCDF)を予測するために,ディープラーニングに基づく多変量密度予測モデルを構築した。 既存の多変量密度予測モデルとは異なり,提案手法では予測対象の分布を事前仮定する必要がなくなる。 さらに、ニューラルネットワークの普遍近似能力に基づいて、提案手法の値領域が全ての連続JCDFを含むことが証明されている。 予測されたJCDFは、将来の電力系統のセキュリティレベルを評価する決定論的セキュリティ評価指標を計算するためにさらに使用される。 現在の多変量密度予測モデルよりも提案手法が優れていることを検証する。 決定論的セキュリティ評価指標は、セキュリティマージンよりもオペレーターにとって有益であることが示されている。

A multivariate density forecast model based on deep learning is designed in this paper to forecast the joint cumulative distribution functions (JCDFs) of multiple security margins in power systems. Differing from existing multivariate density forecast models, the proposed method requires no a priori hypotheses on the distribution of forecasting targets. In addition, based on the universal approximation capability of neural networks, the value domain of the proposed approach has been proven to include all continuous JCDFs. The forecasted JCDF is further employed to calculate the deterministic security assessment index evaluating the security level of future power system operations. Numerical tests verify the superiority of the proposed method over current multivariate density forecast models. The deterministic security assessment index is demonstrated to be more informative for operators than security margins as well.
翻訳日:2021-05-10 12:11:26 公開日:2021-05-07
# 汎用解を用いたワークフロー満足度問題の解法

Solving the Workflow Satisfiability Problem using General Purpose Solvers ( http://arxiv.org/abs/2105.03273v1 )

ライセンス: Link先を確認
Daniel Karapetyan and Gregory Gutin(参考訳) ワークフロー満足性問題(workflow satisfiability problem, wsp)は、ワークフロー仕様の制約に従うワークフローの各ステップに権限のあるユーザの割り当てを求めるアクセス制御において、よく研究されている問題である。 WSPの現実世界のインスタンスのユーザ数と比較すると、通常$k$のステップ数は小さいため、WSPパラメトリド複雑性研究のパラメータとして$k$が考慮されている。 WSPは一般にW[1]ハードであることが示されているが、ユーザ非依存(UI)の制約が固定パラメータ(FPT)であることに制限されている。 しかし、ui制約の制限は実用的でないかもしれない。 非ui制約を効率的に処理するために,制約の分岐係数の概念を導入する。 制約の分岐係数が比較的小さく、UI以外の制約の数が妥当である限り、WSPはFPT時間で解決できる。 Karapetyanらによる結果の拡張。 (2019) では, 適切な定式化を用いた場合, 任意の制約でWSP上でFPTライクな性能を達成できることが実証された。 これにより、実用的なWSPインスタンスのほとんどに取り組むことができます。 それ自体は重要であるが、この結果が、他のFPT問題のFPT対応式を探す動機になることを期待している。

The workflow satisfiability problem (WSP) is a well-studied problem in access control seeking allocation of authorised users to every step of the workflow, subject to workflow specification constraints. It was noticed that the number $k$ of steps is typically small compared to the number of users in the real-world instances of WSP; therefore $k$ is considered as the parameter in WSP parametrised complexity research. While WSP in general was shown to be W[1]-hard, WSP restricted to a special case of user-independent (UI) constraints is fixed-parameter tractable (FPT). However, restriction to the UI constraints might be impractical. To efficiently handle non-UI constraints, we introduce the notion of branching factor of a constraint. As long as the branching factors of the constraints are relatively small and the number of non-UI constraints is reasonable, WSP can be solved in FPT time. Extending the results from Karapetyan et al. (2019), we demonstrate that general-purpose solvers are capable of achieving FPT-like performance on WSP with arbitrary constraints when used with appropriate formulations. This enables one to tackle most of practical WSP instances. While important on its own, we hope that this result will also motivate researchers to look for FPT-aware formulations of other FPT problems.
翻訳日:2021-05-10 12:11:13 公開日:2021-05-07
# 眼底網膜画像における多中心緑内障分類のための自己適応移動学習

Self-Adaptive Transfer Learning for Multicenter Glaucoma Classification in Fundus Retina Images ( http://arxiv.org/abs/2105.03068v1 )

ライセンス: Link先を確認
Yiming Bao, Jun Wang, Tong Li, Linyan Wang, Jianwei Xu, Juan Ye and Dahong Qian(参考訳) 緑内障の早期診断とスクリーニングは、患者が治療を受け、視力を維持するために重要である。 近年,網膜眼底画像からの緑内障のコンピュータ診断(CAD)にディープラーニング(DL)を用いたモデルが成功している。 しかし、ある病院センターからのデータセットを用いて事前訓練されたDLモデルは、別の病院センターからのデータセットの性能が劣る可能性があるため、実際の現場での応用は限られている。 本稿では,マルチセンターデータセット間の領域ギャップを埋めるために,自己適応型転送学習(SATL)戦略を提案する。 具体的には、ソースドメイン上で事前訓練されたDLモデルのエンコーダを使用して、再構成モデルのエンコーダを初期化する。 そして、対象領域からのラベル付き画像データのみを用いて再構成モデルを訓練し、モデル内のエンコーダを適応させ、ターゲット領域の画像エンコーディングと緑内障分類の両方に有用な高次特徴を同時に抽出する。 実験の結果,SATL法はプライベートおよび2つの公共緑内障診断データセット間の領域適応に有効であることが示された。 pri-RFG, REFUGE, LAG。 さらに、提案した戦略は、実際のシーンアプリケーションとプライバシ保護ポリシーを満たすソースドメインデータから完全に独立している。

The early diagnosis and screening of glaucoma are important for patients to receive treatment in time and maintain eyesight. Nowadays, deep learning (DL) based models have been successfully used for computer-aided diagnosis (CAD) of glaucoma from retina fundus images. However, a DL model pre-trained using a dataset from one hospital center may have poor performance on a dataset from another new hospital center and therefore its applications in the real scene are limited. In this paper, we propose a self-adaptive transfer learning (SATL) strategy to fill the domain gap between multicenter datasets. Specifically, the encoder of a DL model that is pre-trained on the source domain is used to initialize the encoder of a reconstruction model. Then, the reconstruction model is trained using only unlabeled image data from the target domain, which makes the encoder in the model adapt itself to extract useful high-level features both for target domain images encoding and glaucoma classification, simultaneously. Experimental results demonstrate that the proposed SATL strategy is effective in the domain adaptation task between a private and two public glaucoma diagnosis datasets, i.e. pri-RFG, REFUGE, and LAG. Moreover, the proposed strategy is completely independent of the source domain data, which meets the real scene application and the privacy protection policy.
翻訳日:2021-05-10 12:10:53 公開日:2021-05-07
# 実世界のカテゴリーレベル調音ポーズ推定に向けて

Towards Real-World Category-level Articulation Pose Estimation ( http://arxiv.org/abs/2105.03260v1 )

ライセンス: Link先を確認
Liu Liu, Han Xue, Wenqiang Xu, Haoyuan Fu, Cewu Lu(参考訳) 人間の生活は明瞭な物体で占められている。 現在のカテゴリーレベルのArticulation Pose Estimation (CAPE) 法は, 各カテゴリに対して一定の運動構造を持つ単一インスタンス環境下で研究されている。 これらの制約を考慮して,この問題を実環境環境に適用し,cape-real(caper)タスク設定を提案する。 この設定により、意味圏内の様々なキネマティック構造が可能となり、実世界の観察において複数のインスタンスが共存する。 このタスクを支援するために,ReArt-48 を用いたモデルリポジトリを構築し,Fast Articulated Object Modeling (FAOM) と Semi-Authentic MixEd Reality Technique (SAMERT) を含む効率的なデータセット生成パイプラインを提案する。 パイプラインと合わせて、大規模な混合現実データセットReArtMixと現実世界データセットReArtValを構築します。 また,RGB-Dインプットを有効活用して,複数インスタンスの複数ポーズを1回のフォワードパスで推定するフレームワークReArtNOCSを提案する。 大規模な実験により、提案されたReArtNOCSは、CAPERとCAPEの両方で優れた性能を達成できることが示された。 CAPERタスクの今後の研究の強力なベースラインとして機能すると考えています。

Human life is populated with articulated objects. Current Category-level Articulation Pose Estimation (CAPE) methods are studied under the single-instance setting with a fixed kinematic structure for each category. Considering these limitations, we reform this problem setting for real-world environments and suggest a CAPE-Real (CAPER) task setting. This setting allows varied kinematic structures within a semantic category, and multiple instances to co-exist in an observation of real world. To support this task, we build an articulated model repository ReArt-48 and present an efficient dataset generation pipeline, which contains Fast Articulated Object Modeling (FAOM) and Semi-Authentic MixEd Reality Technique (SAMERT). Accompanying the pipeline, we build a large-scale mixed reality dataset ReArtMix and a real world dataset ReArtVal. We also propose an effective framework ReArtNOCS that exploits RGB-D input to estimate part-level pose for multiple instances in a single forward pass. Extensive experiments demonstrate that the proposed ReArtNOCS can achieve good performance on both CAPER and CAPE settings. We believe it could serve as a strong baseline for future research on the CAPER task.
翻訳日:2021-05-10 12:10:33 公開日:2021-05-07
# LINN:リフティングにインスパイアされた画像認識のための可逆ニューラルネットワーク

LINN: Lifting Inspired Invertible Neural Network for Image Denoising ( http://arxiv.org/abs/2105.03303v1 )

ライセンス: Link先を確認
Jun-Jie Huang, Pier Luigi Dragotti(参考訳) 本稿では,変換型デノナイジングフレームワークに着想を得た画像デノナイジング(DnINN)のための可逆ニューラルネットワークを提案する。 提案したDnINNは、ウェーブレット理論のリフトスキームにインスパイアされたLINNと呼ばれる可逆ニューラルネットワークと、変換係数からノイズを取り除くために使用される疎性駆動型デノナイジングネットワークから構成される。 消音動作は、単一のソフトスレッディング動作または学習された反復収縮しきい値ネットワークで行う。 LINNの前方通過は、デノナイズに適したオーバーコンプリート表現を生成する。 消音画像は、消音ネットワークの出力を用いてlinnの後方パスを用いて再構成される。 シミュレーションの結果,提案手法は学習可能なパラメータの1/4しか必要とせず,DnCNN法と同等の結果が得られることがわかった。

In this paper, we propose an invertible neural network for image denoising (DnINN) inspired by the transform-based denoising framework. The proposed DnINN consists of an invertible neural network called LINN whose architecture is inspired by the lifting scheme in wavelet theory and a sparsity-driven denoising network which is used to remove noise from the transform coefficients. The denoising operation is performed with a single soft-thresholding operation or with a learned iterative shrinkage thresholding network. The forward pass of LINN produces an over-complete representation which is more suitable for denoising. The denoised image is reconstructed using the backward pass of LINN using the output of the denoising network. The simulation results show that the proposed DnINN method achieves results comparable to the DnCNN method while only requiring 1/4 of learnable parameters.
翻訳日:2021-05-10 12:10:11 公開日:2021-05-07
# ランベック前群は序列のフロベニウスクモである

Lambek pregroups are Frobenius spiders in preorders ( http://arxiv.org/abs/2105.03038v1 )

ライセンス: Link先を確認
Dusko Pavlovic(参考訳) スパイダー(Spider)は、数学、物理学、計算機科学の基本構造である*特殊フロベニウス代数*のあだ名である。 ※前群*は言語学の基本構造である。 プリグループとスパイダーは自然言語処理で一緒に使われてきた:一つは構文、もう一つは意味論である。 先行群自体が、文法から自然に生じる事前順序付き関係の圏における尖ったクモとして特徴づけられることが判明した。 逆に、一般的なスパイダー代数は前群結合として特徴づけることができる。 これは集合上のスパイダー代数の特徴づけを拡張し、関係をアーベル群の非連結和として拡張する。 その結果から,機械学習とデータ解析の基盤構造を理解し,適用するための新たな手法が示唆された。

"Spider" is a nickname of *special Frobenius algebras*, a fundamental structure from mathematics, physics, and computer science. *Pregroups* are a fundamental structure from linguistics. Pregroups and spiders have been used together in natural language processing: one for syntax, the other for semantics. It turns out that pregroups themselves can be characterized as pointed spiders in the category of preordered relations, where they naturally arise from grammars. The other way around, general spider algebras can be characterized as pregroup unions. This extends the characterization of spider algebras over sets and relations as disjoint unions of abelian groups. The compositional framework that emerged with the results suggests new ways to understand and apply the basis structures in machine learning and data analysis.
翻訳日:2021-05-10 12:09:54 公開日:2021-05-07
# $r$-値:分布シフトに対する安定性の評価

The $r$-value: evaluating stability with respect to distributional shifts ( http://arxiv.org/abs/2105.03067v1 )

ライセンス: Link先を確認
Suyash Gupta and Dominik Rothenh\"ausler(参考訳) p$値や信頼区間のような不確実性の一般的な統計指標は、サンプリングによる不確実性、すなわち全人口を観測しない不確実性を定量化する。 実際には、人口は場所や時間によって変化する。 これにより、データセット間で伝達される知識の収集が困難になる。 そこで本稿では,Kulback-Liebler分散球における一般分布摂動下でのパラメータの感度について,統計的推定値の分布不確かさを定量化する不確実性尺度を提案する。 信号対雑音比が小さい場合、分布の不確かさは信号対雑音比の単調変換である。 しかし、一般的には別の概念であり、異なる研究問題に対応している。 さらに,指向性あるいは可変固有シフトに関して,パラメータの安定性を推定する手法を提案する。 また, 分散不確実性の測定値を用いてデータ収集を優先順位付けし, シフト分布下での統計的パラメータの精度向上を図る。 提案手法の有効性をシミュレーションや実データで評価し,特定のシフトに対する推定器の分布(in-)安定性を解明し,シフト分布からの限られた情報のみを収集するだけで,シフト分布下のパラメータをより正確に推定できることを示す。

Common statistical measures of uncertainty like $p$-values and confidence intervals quantify the uncertainty due to sampling, that is, the uncertainty due to not observing the full population. In practice, populations change between locations and across time. This makes it difficult to gather knowledge that transfers across data sets. We propose a measure of uncertainty that quantifies the distributional uncertainty of a statistical estimand with respect to Kullback-Liebler divergence, that is, the sensitivity of the parameter under general distributional perturbations within a Kullback-Liebler divergence ball. If the signal-to-noise ratio is small, distributional uncertainty is a monotonous transformation of the signal-to-noise ratio. In general, however, it is a different concept and corresponds to a different research question. Further, we propose measures to estimate the stability of parameters with respect to directional or variable-specific shifts. We also demonstrate how the measure of distributional uncertainty can be used to prioritize data collection for better estimation of statistical parameters under shifted distribution. We evaluate the performance of the proposed measure in simulations and real data and show that it can elucidate the distributional (in-)stability of an estimator with respect to certain shifts and give more accurate estimates of parameters under shifted distribution only requiring to collect limited information from the shifted distribution.
翻訳日:2021-05-10 12:09:42 公開日:2021-05-07
# CoDE: デモエンコーディングのためのコロケーション

CoDE: Collocation for Demonstration Encoding ( http://arxiv.org/abs/2105.03019v1 )

ライセンス: Link先を確認
Mandy Xie, Anqi Li, Karl Van Wyk, Frank Dellaert, Byron Boots, Nathan Ratliff(参考訳) ロボット工学者は、データ効率的なポリシー学習のために、しばしば模倣学習(il)に目を向ける。 データセットアグリゲーション(dagger)に関する独創的な研究によって正統化された多くのilメソッドは、oracleの専門家を紹介することで、古いビヘイビアクローン(bc)メソッドによる分散シフト問題と戦う。 残念ながら、oracleの専門家へのアクセスはしばしば非現実的であり、データはリードスルーや遠隔操作のような手動のオフラインメソッドから来ることが多い。 本稿では,実験的リスク最小化として学習をモデル化することにより,軌道デモの固定セットのみで動作するcolocation for demonstration encoding (code)と呼ばれるデータ効率の高い模倣学習手法を提案する。 最適制御におけるコロケーション技術から着想を得た補助軌道網を導入することにより,時間的問題による問題点を回避した。 我々の手法は、標準的なBC法よりもはるかにデータ効率が高い。 本研究では,効率的なテーブルトップ操作のための7自由度ロボットマニピュレータ学習法について実験を行った。

Roboticists frequently turn to Imitation learning (IL) for data efficient policy learning. Many IL methods, canonicalized by the seminal work on Dataset Aggregation (DAgger), combat distributional shift issues with older Behavior Cloning (BC) methods by introducing oracle experts. Unfortunately, access to oracle experts is often unrealistic in practice; data frequently comes from manual offline methods such as lead-through or teleoperation. We present a data-efficient imitation learning technique called Collocation for Demonstration Encoding (CoDE) that operates on only a fixed set of trajectory demonstrations by modeling learning as empirical risk minimization. We circumvent problematic back-propagation through time problems by introducing an auxiliary trajectory network taking inspiration from collocation techniques in optimal control. Our method generalizes well and is much more data efficient than standard BC methods. We present experiments on a 7-degree-of-freedom (DoF) robotic manipulator learning behavior shaping policies for efficient tabletop operation.
翻訳日:2021-05-10 12:09:19 公開日:2021-05-07
# サウジアラビアにおける日中新型コロナウイルスの気象影響 : 機械学習を用いた検討

Weather impact on daily cases of COVID-19 in Saudi Arabia using machine learning ( http://arxiv.org/abs/2105.03027v1 )

ライセンス: Link先を確認
Abdullah Alsuhaibani and Abdulrahman Alhaidari(参考訳) 新型コロナウイルスは世界保健機関(WHO)によって世界的なパンデミックとして発表された。 感染拡大の重大さは、各国の医療能力や強制ロックダウンといった様々な要因によって決定される。 しかし、国の気候が感染者数に寄与する要因であるかどうかは明らかではない。 本稿では,サウジアラビアの89都市における新型コロナウイルスと気象の関係について,機械学習技術を用いて検討する。 サウジアラビア厚生労働省の日報を用いて、新型コロナウイルスの感染者に関するデータを収集・前処理し、報告された日報と一致した過去の気象データを入手した。 モデルのトレーニングと評価に使用するデータの事前処理と準備を行った。 以上の結果から,気温と風速はパンデミックの広がりと最も強い相関関係にあることが示唆された。 私たちの主な貢献は、データ収集、前処理、日々のケースの予測です。 すべての試験モデルに対して,K=5のK折りのクロスバリデーションを用いた。 我々の最良のモデルは、平均平方誤差(MSE)、ルート平均誤差(RMSE)、平均絶対誤差(MAE)、R{2}(97.30, 9.86, 1.85, 82.3\%)を持つランダム森林である。

COVID-19 was announced by the World Health Organisation (WHO) as a global pandemic. The severity of the disease spread is determined by various factors such as the countries' health care capacity and the enforced lockdown. However, it is not clear if a country's climate acts as a contributing factor towards the number of infected cases. This paper aims to examine the relationship between COVID-19 and the weather of 89 cities in Saudi Arabia using machine learning techniques. We compiled and preprocessed data using the official daily report of the Ministry of Health of Saudi Arabia for COVID-19 cases and obtained historical weather data aligned with the reported case daily reports. We preprocessed and prepared the data to be used in models' training and evaluation. Our results show that temperature and wind have the strongest association with the spread of the pandemic. Our main contribution is data collection, preprocessing, and prediction of daily cases. For all tested models, we used cross-validation of K-fold of K=5. Our best model is the random forest that has a Mean Square Error(MSE), Root Mean Square (RMSE), Mean Absolute Error (MAE), and R{2} of 97.30, 9.86, 1.85, and 82.3\%, respectively.
翻訳日:2021-05-10 12:09:02 公開日:2021-05-07
# PEMNET: 転移学習に基づく高温高分子電解質膜電気化学系のモデリング手法

PEMNET: A Transfer Learning-based Modeling Approach of High-Temperature Polymer Electrolyte Membrane Electrochemical Systems ( http://arxiv.org/abs/2105.03057v1 )

ライセンス: Link先を確認
Luis A. Briceno-Mena and Christopher G. Arges and Jose A. Romagnoli(参考訳) 高温高分子電解質膜燃料電池(HT-PEMFC)とHT-PEM電気化学水素ポンプ(HT-PEM ECHP)の幅広い採用には、正確なスケールアップと最適化を提供するモデルと計算ツールが必要である。 知識に基づくモデリングには時間を要するため限界があり、常に利用できないシステムに関する情報(材料特性や異なる材料間の界面挙動など)を必要とする。 一方、データ駆動モデリングは実装が容易ですが、多くの場合、取得が難しい大きなデータセットを必要とします。 この貢献において、知識に基づくモデリングとデータ駆動モデリングは、Few-Shot Learning(FSL)アプローチを実装することで一意に結合される。 HT-PEMFC用に開発された知識ベースモデルを用いて、シミュレーションデータ(887,735点)を生成し、ニューラルネットワークのソースモデルを事前訓練した。 さらに,HT-PEMFCs向けに開発されたソースモデルは,燃料電池に類似した材料を利用する別の電気化学系であるHT-PEM ECHPsに適用された。 HT-PEMFCとHT-PEM ECHPの異なる材料と操作条件(それぞれ50ポイント)から得られた実験データセットを用いて、FSLを介して8つのターゲットモデルを訓練した。 RRMSEはHT-PEMCの1.04から3.73%、HT-PEM ECHPの6.38から8.46%)。

Widespread adoption of high-temperature polymer electrolyte membrane fuel cells (HT-PEMFCs) and HT-PEM electrochemical hydrogen pumps (HT-PEM ECHPs) requires models and computational tools that provide accurate scale-up and optimization. Knowledge-based modeling has limitations as it is time consuming and requires information about the system that is not always available (e.g., material properties and interfacial behavior between different materials). Data-driven modeling on the other hand, is easier to implement, but often necessitates large datasets that could be difficult to obtain. In this contribution, knowledge-based modeling and data-driven modeling are uniquely combined by implementing a Few-Shot Learning (FSL) approach. A knowledge-based model originally developed for a HT-PEMFC was used to generate simulated data (887,735 points) and used to pretrain a neural network source model. Furthermore, the source model developed for HT-PEMFCs was successfully applied to HT-PEM ECHPs - a different electrochemical system that utilizes similar materials to the fuel cell. Experimental datasets from both HT-PEMFCs and HT-PEM ECHPs with different materials and operating conditions (~50 points each) were used to train 8 target models via FSL. Models for the unseen data reached high accuracies in all cases (rRMSE between 1.04 and 3.73% for HT-PEMCs and between 6.38 and 8.46% for HT-PEM ECHPs).
翻訳日:2021-05-10 12:08:41 公開日:2021-05-07
# AnNETTE: 積み重ねモデルによる正確なニューラルネットワーク実行時間推定

ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked Models ( http://arxiv.org/abs/2105.03176v1 )

ライセンス: Link先を確認
Matthias Wess, Matvey Ivanov, Anvesh Nookala, Christoph Unger, Alexander Wendt, Axel Jantsch(参考訳) DNNの新しいアクセラレータハードウェアにより、AIアプリケーションの計算能力は急速に向上した。 しかし、DNNアルゴリズムがより複雑になり、特定のアプリケーションに最適化されるにつれて、レイテンシ要件は依然として困難であり、設計領域で最適な点を見つけることが重要である。 対象ハードウェアからアーキテクチャ検索を分離するために,ハードウェアアクセラレータ上でのdnnの推論遅延をマッピングと層別推定モデルに基づいてモデル化できる時間推定フレームワークを提案する。 提案手法は,マイクロカーネルおよび多層ベンチマークからモデル群を抽出し,マッピングおよびネットワーク実行時間推定のためのスタックモデルを生成する。 本研究では, 生成した混合モデルの推定精度と忠実度, 屋上モデルと統計モデル, 改良された屋根上モデルを比較して評価する。 我々は、DNNDKとIntel Neural Compute Stick 2でZCU102 SoCボード上で、12の最先端ニューラルネットワーク上で混合モデルを検証した。 平均推定誤差はDNNDKが3.47%、NCS2が7.44%であり、ほぼ全ての選択されたネットワークの統計層と分析層モデルを上回っている。 NASBenchデータセットの34ネットワークのランダムに選択されたサブセットに対して、混合モデルはスピアマンのランク相関係数の 0.988 の忠実度に達する。 ANNETTEのコードはhttps://github.com/e mbedded-machine-lear ning/annetteで公開されている。

With new accelerator hardware for DNN, the computing power for AI applications has increased rapidly. However, as DNN algorithms become more complex and optimized for specific applications, latency requirements remain challenging, and it is critical to find the optimal points in the design space. To decouple the architectural search from the target hardware, we propose a time estimation framework that allows for modeling the inference latency of DNNs on hardware accelerators based on mapping and layer-wise estimation models. The proposed methodology extracts a set of models from micro-kernel and multi-layer benchmarks and generates a stacked model for mapping and network execution time estimation. We compare estimation accuracy and fidelity of the generated mixed models, statistical models with the roofline model, and a refined roofline model for evaluation. We test the mixed models on the ZCU102 SoC board with DNNDK and Intel Neural Compute Stick 2 on a set of 12 state-of-the-art neural networks. It shows an average estimation error of 3.47% for the DNNDK and 7.44% for the NCS2, outperforming the statistical and analytical layer models for almost all selected networks. For a randomly selected subset of 34 networks of the NASBench dataset, the mixed model reaches fidelity of 0.988 in Spearman's rank correlation coefficient metric. The code of ANNETTE is publicly available at https://github.com/e mbedded-machine-lear ning/annette.
翻訳日:2021-05-10 12:08:14 公開日:2021-05-07
# 高齢者健康の高次元軌跡に対する解釈型機械学習

Interpretable machine learning for high-dimensional trajectories of aging health ( http://arxiv.org/abs/2105.03410v1 )

ライセンス: Link先を確認
Spencer Farrell, Arnold Mitnitski, Kenneth Rockwood, Andrew Rutenberg(参考訳) 我々は、身体的、機能的、生物学的な変数を含む、健康と生存の個人的高齢軌跡の計算モデルを構築し、人口統計学、生活習慣学、医学的背景情報に基づく。 健康変数を確率力学系内の明示的なペアワイズ相互作用によって結合する,現代的な機械学習技術と解釈可能なインタラクションネットワークを組み合わせる。 我々のモデルは, 大規模縦断データに対してスケーラブルであり, 個別の高次元健康軌道の予測, 基本健康状態からの生存, および健康変数間の相互関係の解釈可能なネットワークを推定する。 このネットワークは、健康変数と強く結びついたヒース変数のクラスターとの間の、もっともらしい生理的つながりを識別する。 老化データ(elsa)を英語の縦断研究によって学習し,健康状態や生存率について,専用線形モデルよりも優れた性能を示す。 我々のモデルは、現実的な年齢の合成個体を生成し、欠落したデータをインプットし、任意の初期健康状態が与えられた将来の老化結果をシミュレートするためにも利用できる。

We have built a computational model for individual aging trajectories of health and survival, which contains physical, functional, and biological variables, and is conditioned on demographic, lifestyle, and medical background information. We combine techniques of modern machine learning with an interpretable interaction network, where health variables are coupled by explicit pair-wise interactions within a stochastic dynamical system. Our model is scalable to large longitudinal data sets, is predictive of individual high-dimensional health trajectories and survival from baseline health states, and infers an interpretable network of directed interactions between the health variables. The network identifies plausible physiological connections between health variables and clusters of strongly connected heath variables. We use English Longitudinal Study of Aging (ELSA) data to train our model and show that it performs better than dedicated linear models for health outcomes and survival. Our model can also be used to generate synthetic individuals that age realistically, to impute missing data, and to simulate future aging outcomes given arbitrary initial health states.
翻訳日:2021-05-10 12:07:39 公開日:2021-05-07
# 機械学習におけるハイブリッド・フェデレーションと集中型学習アーキテクチャの一家族

A Family of Hybrid Federated and Centralized Learning Architectures in Machine Learning ( http://arxiv.org/abs/2105.03288v1 )

ライセンス: Link先を確認
Ahmet M. Elbir and Sinem Coleri(参考訳) 機械学習タスクの多くは、クライアントからパラメータサーバ(PS)へのローカルデータセットの送信を必要とする集中型学習(CL)に焦点を当てている。 これを解決するために、フェデレーション学習(fl)は有望なツールであり、クライアントはデータセット全体ではなく、モデル更新のみをpsに送信する。 しかし、FLはクライアントから強力な計算資源を要求する。 したがって、計算リソースが十分でなければ、すべてのクライアントがトレーニングに参加できるわけではない。 この問題に対処するために,より実用的なアプローチであるハイブリッドフェデレーション・集中型学習(hfcl)を導入し,十分なリソースを持つクライアントのみがflを採用し,残りのクライアントはpsにデータセットを送信し,モデルに代えて計算を行う。 そして、すべてのクライアントに対応するモデルパラメータをPSに集約する。 データセット伝送の効率を向上させるために,クライアント毎の計算量の増加とシーケンシャルなデータ伝送の2つの手法を提案する。 hfclフレームワークは、すべてのクライアントがデータセットと学習プロセスでコラボレーションするため、clよりも50〜%少ない通信オーバーヘッドを持ちながら、クライアントの半分がflを実行するだけで、学習精度が最大20〜%向上するflを上回っている。

Many of the machine learning tasks focus on centralized learning (CL), which requires the transmission of local datasets from the clients to a parameter server (PS) entailing huge communication overhead. To overcome this, federated learning (FL) has been a promising tool, wherein the clients send only the model updates to the PS instead of the whole dataset. However, FL demands powerful computational resources from the clients. Therefore, not all the clients can participate in training if they do not have enough computational resources. To address this issue, we introduce a more practical approach called hybrid federated and centralized learning (HFCL), wherein only the clients with sufficient resources employ FL, while the remaining ones send their datasets to the PS, which computes the model on behalf of them. Then, the model parameters corresponding to all clients are aggregated at the PS. To improve the efficiency of dataset transmission, we propose two different techniques: increased computation-per-clie nt and sequential data transmission. The HFCL frameworks outperform FL with up to $20\%$ improvement in the learning accuracy when only half of the clients perform FL while having $50\%$ less communication overhead than CL since all the clients collaborate on the learning process with their datasets.
翻訳日:2021-05-10 12:07:02 公開日:2021-05-07
# ソーシャルメディアに基づくファッショントレンド予測のための複数関係の活用

Leveraging Multiple Relations for Fashion TrendForecasting Based on Social Media ( http://arxiv.org/abs/2105.03299v1 )

ライセンス: Link先を確認
Yujuan Ding, Yunshan Ma, Lizi Liao, Wai Keung Wong, Tat-Seng Chua(参考訳) ファッショントレンド予測は、ファッション企業とファッション愛好者の両方に有用な提案を提供する上で、非常に重要な研究である。 この困難な課題に取り組むために様々な研究がなされてきたが、彼らは非常に季節的あるいは単純なパターンの限られたファッション要素しか研究しておらず、実際の複雑なファッショントレンドは明らかではない。 さらに、このタスクのメインストリームソリューションは依然として統計ベースであり、予測精度を制限する時系列データモデリングのみに焦点を当てている。 洞察に富んだファッショントレンド予測に向けて、以前の研究 [1] は、ファッショントレンドを情報的に示すことのできる、よりきめ細かいファッション要素を分析することを提案した。 具体的には、ソーシャルメディアデータに基づく特定のユーザーグループに対する、ファッション要素の詳細なトレンド予測に焦点を当てた。 さらに,ファッショントレンドモデリングと予測の問題に対処するために,ニューラルネットワークに基づく手法であるkernを提案した。 本研究では,先行研究を拡張すべく,Relation Enhanced Attention Recurrent(REAR)ネットワークという改良モデルを提案する。 KERNと比較して、REARモデルはファッション要素間の関係だけでなく、ユーザグループ間の関係も活用し、様々なファッショントレンド間の相関関係をより多く捉える。 長距離トレンド予測の性能をさらに向上するため,REAR法では,将来の地平線における時間的パターンをよりよく捉えることができるすべり時間的注意機構を考案した。 FITおよびGeoStyleデータセットを用いて、REARの性能を評価するための大規模な実験およびさらなる分析を行った。 KERNと比較してREARの改善を示すファッショントレンド予測におけるREARモデルの有効性を実験的および解析的に実証した。

Fashion trend forecasting is of great research significance in providing useful suggestions for both fashion companies and fashion lovers. Although various studies have been devoted to tackling this challenging task, they only studied limited fashion elements with highly seasonal or simple patterns, which could hardly reveal the real complex fashion trends. Moreover, the mainstream solutions for this task are still statistical-based and solely focus on time-series data modeling, which limit the forecast accuracy. Towards insightful fashion trend forecasting, previous work [1] proposed to analyze more fine-grained fashion elements which can informatively reveal fashion trends. Specifically, it focused on detailed fashion element trend forecasting for specific user groups based on social media data. In addition, it proposed a neural network-based method, namely KERN, to address the problem of fashion trend modeling and forecasting. In this work, to extend the previous work, we propose an improved model named Relation Enhanced Attention Recurrent (REAR) network. Compared to KERN, the REAR model leverages not only the relations among fashion elements but also those among user groups, thus capturing more types of correlations among various fashion trends. To further improve the performance of long-range trend forecasting, the REAR method devises a sliding temporal attention mechanism, which is able to capture temporal patterns on future horizons better. Extensive experiments and more analysis have been conducted on the FIT and GeoStyle datasets to evaluate the performance of REAR. Experimental and analytical results demonstrate the effectiveness of the proposed REAR model in fashion trend forecasting, which also show the improvement of REAR compared to the KERN.
翻訳日:2021-05-10 12:06:37 公開日:2021-05-07
# 静的コードアナライザを用いたオープンソースリポジトリのセキュリティ修正検出

Detecting Security Fixes in Open-Source Repositories using Static Code Analyzers ( http://arxiv.org/abs/2105.03346v1 )

ライセンス: Link先を確認
Therese Fehrer, Roc\'io Cabrera Lozoya, Antonino Sabetta, Dario Di Nucci, Damian A. Tamburri(参考訳) オープンソースソフトウェア(OSS)に影響を与える脆弱性に関する信頼性の高いコードレベルの情報のソースは乏しいため、コードレベルの検出と、脆弱なOSS依存関係の評価を提供する高度なツールの広範な採用を妨げる。 本稿では,機械学習(ML)アプリケーションにおけるコミットを表現する機能として,既製の静的コードアナライザの出力がどの程度使用されるかを検討する。 特に,埋め込みの構築やMLモデルをトレーニングして,脆弱性修正を含むソースコードコミットを自動的に識別する方法について検討する。 セキュリティ関連および非セキュリティ関連コミットに対するそのような埋め込みを分析し、統計的に重要な方法では違いはないが、芸術の状況に匹敵する結果を得られるMLパイプラインを構築するためにそれらを使用することは可能であることを示す。 私たちはまた、当社のメソッドとcommit2vecの組み合わせは、脆弱性を修正するコミットの自動識別における、技術の現状に対する明確な改善を意味していることを発見しました。

The sources of reliable, code-level information about vulnerabilities that affect open-source software (OSS) are scarce, which hinders a broad adoption of advanced tools that provide code-level detection and assessment of vulnerable OSS dependencies. In this paper, we study the extent to which the output of off-the-shelf static code analyzers can be used as a source of features to represent commits in Machine Learning (ML) applications. In particular, we investigate how such features can be used to construct embeddings and train ML models to automatically identify source code commits that contain vulnerability fixes. We analyze such embeddings for security-relevant and non-security-relevan t commits, and we show that, although in isolation they are not different in a statistically significant manner, it is possible to use them to construct a ML pipeline that achieves results comparable with the state of the art. We also found that the combination of our method with commit2vec represents a tangible improvement over the state of the art in the automatic identification of commits that fix vulnerabilities: the ML models we construct and commit2vec are complementary, the former being more generally applicable, albeit not as accurate.
翻訳日:2021-05-10 12:06:11 公開日:2021-05-07