このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210130となっている論文です。

PDF登録状況(公開日: 20210130)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 高エネルギー物理におけるスパースデータ生成のためのグラフ生成逆ネットワーク [全文訳有]

Graph Generative Adversarial Networks for Sparse Data Generation in High Energy Physics ( http://arxiv.org/abs/2012.00173v4 )

ライセンス: CC BY 4.0
Raghav Kansal and Javier Duarte and Breno Orzari and Thiago Tomei and Maurizio Pierini and Mary Touranakou and Jean-Roch Vlimant and Dimitrios Gunopulos(参考訳) CERN Large Hadron Collider (LHC) で生成されたようなスパースデータセットを生成するグラフ生成逆数ネットワークを開発した。 我々は、LHCのような陽子-陽子衝突におけるMNIST手書き桁画像と粒子ジェットのスパース表現を訓練し、生成することで、このアプローチを実証する。 本モデルでは, スパースMNIST桁と粒子ジェットデータの生成に成功した。 実データと生成されたデータの一致度をグラフベースfr\'echetインセプション距離と、mnistとjetデータセットの粒子とジェット特徴量1-wasserstein距離で定量する。

We develop a graph generative adversarial network to generate sparse data sets like those produced at the CERN Large Hadron Collider (LHC). We demonstrate this approach by training on and generating sparse representations of MNIST handwritten digit images and jets of particles in proton-proton collisions like those at the LHC. We find the model successfully generates sparse MNIST digits and particle jet data. We quantify agreement between real and generated data with a graph-based Fr\'echet Inception distance, and the particle and jet feature-level 1-Wasserstein distance for the MNIST and jet datasets respectively.
翻訳日:2021-06-06 15:44:47 公開日:2021-01-30
# レコメンダシステムのための因果関係を意識した近傍手法

Causality-Aware Neighborhood Methods for Recommender Systems ( http://arxiv.org/abs/2012.09442v2 )

ライセンス: Link先を確認
Masahiro Sato, Sho Takemori, Janmajay Singh, Qian Zhang(参考訳) 販売の増加などのレコメンダのビジネス目標は、レコメンデーションの因果効果と一致している。 因果効果を目標とする以前の推奨者は因果推論に逆傾向スコア(ips)を用いる。 しかし、IPSは高い分散に苦しむ傾向にある。 マッチング推定は因果推論分野における別の代表的な方法である。 固有性は使用せず、従って上記の分散問題から解放される。 本研究では,従来の近所推薦法とマッチング推定法を統合し,推薦の因果効果に対するロバストなランキング手法を開発した。 本実験では,提案手法が,因果効果の指標において,様々な基準値を上回ることを実証する。 その結果,提案手法は従来よりもセールスやユーザエンゲージメントを向上できる可能性が示唆された。

The business objectives of recommenders, such as increasing sales, are aligned with the causal effect of recommendations. Previous recommenders targeting for the causal effect employ the inverse propensity scoring (IPS) in causal inference. However, IPS is prone to suffer from high variance. The matching estimator is another representative method in causal inference field. It does not use propensity and hence free from the above variance problem. In this work, we unify traditional neighborhood recommendation methods with the matching estimator, and develop robust ranking methods for the causal effect of recommendations. Our experiments demonstrate that the proposed methods outperform various baselines in ranking metrics for the causal effect. The results suggest that the proposed methods can achieve more sales and user engagement than previous recommenders.
翻訳日:2021-05-02 07:14:20 公開日:2021-01-30
# (参考訳) ODENetとResNetのユニバーサル近似特性 [全文訳有]

Universal Approximation Properties for ODENet and ResNet ( http://arxiv.org/abs/2101.10229v2 )

ライセンス: CC BY 4.0
Yuto Aizawa and Masato Kimura(参考訳) 我々は,多くのディープラーニングアルゴリズムで使用されるODENetのクラスとResNetのクラスに対して,普遍近似特性(UAP)を証明する。 UAPは次のように述べている。 n$ と $m$ を入力および出力データの次元とし、$m\leq n$ と仮定する。 すると、ポリノミカルでない連続活性化関数を持つODENet の幅 $n+m$ は、$\mathbb{R}^n$ 上のコンパクト部分集合上の任意の連続函数を近似することができることを示す。 また,resnet は深さが無限になるのと同じ性質を持つことを示した。 さらに、ある種のチューニング変数に関して損失関数の勾配を明示的に導出する。 これを用いてODENetの学習アルゴリズムを構築する。 このアルゴリズムの有用性を実証するために、回帰問題、二項分類、MNISTにおける多項分類に適用する。

We prove a universal approximation property (UAP) for a class of ODENet and a class of ResNet, which are used in many deep learning algorithms. The UAP can be stated as follows. Let $n$ and $m$ be the dimension of input and output data, and assume $m\leq n$. Then we show that ODENet width $n+m$ with any non-polynomial continuous activation function can approximate any continuous function on a compact subset on $\mathbb{R}^n$. We also show that ResNet has the same property as the depth tends to infinity. Furthermore, we derive explicitly the gradient of a loss function with respect to a certain tuning variable. We use this to construct a learning algorithm for ODENet. To demonstrate the usefulness of this algorithm, we apply it to a regression problem, a binary classification, and a multinomial classification in MNIST.
翻訳日:2021-04-27 00:44:18 公開日:2021-01-30
# 視覚変換器に関する調査

A Survey on Visual Transformer ( http://arxiv.org/abs/2012.12556v3 )

ライセンス: Link先を確認
Kai Han, Yunhe Wang, Hanting Chen, Xinghao Chen, Jianyuan Guo, Zhenhua Liu, Yehui Tang, An Xiao, Chunjing Xu, Yixing Xu, Zhaohui Yang, Yiman Zhang, Dacheng Tao(参考訳) Transformerは、自然言語処理の分野に最初に適用され、主に自己認識機構に基づくディープニューラルネットワークの一種である。 強力な表現能力のおかげで、研究者はコンピュータビジョンタスクにトランスフォーマーを適用する方法を模索している。 様々な視覚的ベンチマークでは、トランスフォーマーベースのモデルは畳み込みネットワークやリカレントネットワークのような他のタイプのネットワークと同等かそれ以上の性能を発揮する。 高いパフォーマンスと人間定義の帰納的バイアスを必要としないことから、transformerはコンピュータビジョンコミュニティからますます注目を集めている。 本稿では,これら視覚トランスフォーマーモデルを異なるタスクに分類し,その利点と欠点を分析して検討する。 私たちが調査する主なカテゴリは、バックボーンネットワーク、高/中レベルのビジョン、低レベルのビジョン、ビデオ処理です。 また,トランスの基本要素であるコンピュータビジョンの自己注意機構についても,簡単な考察を行った。 さらに、トランスフォーマーを実際のデバイスベースアプリケーションへプッシュする効率的なトランスフォーマー手法も含む。 本稿では,この課題について論じ,視覚変換器のさらなる研究の方向性について述べる。

Transformer, first applied to the field of natural language processing, is a type of deep neural network mainly based on the self-attention mechanism. Thanks to its strong representation capabilities, researchers are looking at ways to apply transformer to computer vision tasks. In a variety of visual benchmarks, transformer-based models perform similar to or better than other types of networks such as convolutional and recurrent networks. Given its high performance and no need for human-defined inductive bias, transformer is receiving more and more attention from the computer vision community. In this paper, we review these visual transformer models by categorizing them in different tasks and analyzing their advantages and disadvantages. The main categories we explore include the backbone network, high/mid-level vision, low-level vision, and video processing. We also take a brief look at the self-attention mechanism in computer vision, as it is the base component in transformer. Furthermore, we include efficient transformer methods for pushing transformer into real device-based applications. Toward the end of this paper, we discuss the challenges and provide several further research directions for visual transformers.
翻訳日:2021-04-25 18:22:52 公開日:2021-01-30
# 新型コロナウイルスパンデミックにおける建設作業員の身体距離とマスク着用状況の自動監視システム

An Automatic System to Monitor the Physical Distance and Face Mask Wearing of Construction Workers in COVID-19 Pandemic ( http://arxiv.org/abs/2101.01373v2 )

ライセンス: Link先を確認
Moein Razavi, Hamed Alikhani, Vahid Janfaza, Benyamin Sadeghi, Ehsan Alikhani(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、世界中のさまざまな産業で多くのシャットダウンを引き起こしている。 インフラ建設や保守事業などの部門は、人々の日常生活に大きな影響を与えているため、中断していない。 このようなプロジェクトでは、感染リスクの高い労働者が密接な作業を行う。 世界保健機関(WHO)は、マスクを着用し、ウイルスの拡散を緩和するために身体距離を練習することを推奨している。 本研究では,建設現場におけるマスク着用や身体的距離の違反を自動的に検出するコンピュータビジョンシステムを開発し,パンデミック時のインフラストラクチャプロジェクトの安全性を確保する。 マスク検出のために、論文は、さまざまな種類のマスク着用を含む1,000枚の画像を収集、注釈付けし、既存のマスクデータセットに追加し、1,853枚の画像のデータセットを開発した。 その後、フェイスマスクデータセット上で複数のTensorflow状態検出モデルをトレーニングし、テストし、99.8%の精度でFaster R-CNN Inception ResNet V2ネットワークを選択した。 物理的距離検出には、Faster R-CNN Inception V2を使用して人を検出する。 画像上の物体距離に対するカメラアングルの影響をなくすために変換マトリクスが用いられた。 ユークリッド距離は、人物間の実際の距離を計算するために変換された画像のピクセルを使用した。 6フィートの閾値が物理的距離違反を捉えていると考えられた。 この論文は、モデルトレーニングに転送学習を用いた。 最終モデルはヒューストンの道路整備プロジェクトの4つのビデオに適用され、フェイスマスクと物理的距離を効果的に検出した。 建設業者は, パンデミック時の安全性を高めるために, 提案システムを利用することを推奨する。

The COVID-19 pandemic has caused many shutdowns in different industries around the world. Sectors such as infrastructure construction and maintenance projects have not been suspended due to their significant effect on people's routine life. In such projects, workers work close together that makes a high risk of infection. The World Health Organization recommends wearing a face mask and practicing physical distancing to mitigate the virus's spread. This paper developed a computer vision system to automatically detect the violation of face mask wearing and physical distancing among construction workers to assure their safety on infrastructure projects during the pandemic. For the face mask detection, the paper collected and annotated 1,000 images, including different types of face mask wearing, and added them to a pre-existing face mask dataset to develop a dataset of 1,853 images. Then trained and tested multiple Tensorflow state-of-the-art object detection models on the face mask dataset and chose the Faster R-CNN Inception ResNet V2 network that yielded the accuracy of 99.8%. For physical distance detection, the paper employed the Faster R-CNN Inception V2 to detect people. A transformation matrix was used to eliminate the camera angle's effect on the object distances on the image. The Euclidian distance used the pixels of the transformed image to compute the actual distance between people. A threshold of six feet was considered to capture physical distance violation. The paper also used transfer learning for training the model. The final model was applied on four videos of road maintenance projects in Houston, TX, that effectively detected the face mask and physical distance. We recommend that construction owners use the proposed system to enhance construction workers' safety in the pandemic situation.
翻訳日:2021-04-11 11:29:57 公開日:2021-01-30
# efficientqa : ロバータを基盤としたフレーズインデクシング質問応答システム

EfficientQA : a RoBERTa Based Phrase-Indexed Question-Answering System ( http://arxiv.org/abs/2101.02157v2 )

ライセンス: Link先を確認
Sofian Chaybouti, Achraf Saghe, Aymen Shabou(参考訳) 最先端の抽出質問応答モデルはSQuADベンチマーク上で超人的性能を達成する。 しかし、それらは不当に重く、妥当な時間内に質問に答えるために高価なgpuコンピューティングを必要とする。 したがって、オープンドメインの質問応答パラダイムでは、数十万のドキュメントに対する実世界のクエリには使用できない。 本稿では,言語モデルの自然言語理解を,質問や回答候補を表す密集したベクトルに伝達する可能性について検討する。 私たちがEfficientQAと呼ぶこの新しいモデルは、BERTベースのモデルの一連の入力を利用して、候補解の有意義な密度表現を構築する。 後者は、質問に依存しない方法で文脈から抽出される。 提案モデルでは,Phrase-Indexed Question Answering (PIQA) における最先端結果が,精度1.3ポイント,f1スコア1.4ポイントで達成されている。 これらの結果は、密度ベクトルがシーケンスの非常にリッチなセマンティック表現を埋め込むことができることを示しているが、これらはもともとユースケースのために訓練されていない言語モデルから構築されたものである。 したがって、将来、より資源効率の良いNLPシステムを構築するために、フレーズの密度の高い表現に適応した訓練言語モデルが可能性の1つである。

State-of-the-art extractive question answering models achieve superhuman performances on the SQuAD benchmark. Yet, they are unreasonably heavy and need expensive GPU computing to answer questions in a reasonable time. Thus, they cannot be used for real-world queries on hundreds of thousands of documents in the open-domain question answering paradigm. In this paper, we explore the possibility to transfer the natural language understanding of language models into dense vectors representing questions and answer candidates, in order to make the task of question-answering compatible with a simple nearest neighbor search task. This new model, that we call EfficientQA, takes advantage from the pair of sequences kind of input of BERT-based models to build meaningful dense representations of candidate answers. These latter are extracted from the context in a question-agnostic fashion. Our model achieves state-of-the-art results in Phrase-Indexed Question Answering (PIQA) beating the previous state-of-art by 1.3 points in exact-match and 1.4 points in f1-score. These results show that dense vectors are able to embed very rich semantic representations of sequences, although these ones were built from language models not originally trained for the use-case. Thus, in order to build more resource efficient NLP systems in the future, training language models that are better adapted to build dense representations of phrases is one of the possibilities.
翻訳日:2021-04-11 00:09:32 公開日:2021-01-30
# 分布自由リスク制御予測セット

Distribution-Free, Risk-Controlling Prediction Sets ( http://arxiv.org/abs/2101.02703v2 )

ライセンス: Link先を確認
Stephen Bates and Anastasios Angelopoulos and Lihua Lei and Jitendra Malik and Michael I. Jordan(参考訳) 近年,予測精度の向上が機械学習の焦点となっているが,信頼性の高い意思決定には十分ではない。 一連の設定で学習システムをデプロイするには、予測の不確実性を校正し、コミュニケーションする必要がある。 予測タスクのインスタンスワイズ不確実性を示すために,ユーザ指定レベルでの将来のテストポイントにおける期待損失を制御するブラックボックス予測器から設定値予測を生成する方法を示す。 提案手法は,予測セットのサイズをキャリブレーションするホールドアウトセットを用いて,任意のデータセットに対して明確な有限サンプル保証を提供する。 This framework enables simple, distribution-free, rigorous error control for many tasks, and we demonstrate it in five large-scale machine learning problems: (1) classification problems where some mistakes are more costly than others; (2) multi-label classification, where each observation has multiple associated labels; (3) classification problems where the labels have a hierarchical structure; (4) image segmentation, where we wish to predict a set of pixels containing an object of interest; and (5) protein structure prediction. 最後に,ランキング,メトリック学習,分散的ロバスト学習における不確実性定量化の拡張について論じる。

While improving prediction accuracy has been the focus of machine learning in recent years, this alone does not suffice for reliable decision-making. Deploying learning systems in consequential settings also requires calibrating and communicating the uncertainty of predictions. To convey instance-wise uncertainty for prediction tasks, we show how to generate set-valued predictions from a black-box predictor that control the expected loss on future test points at a user-specified level. Our approach provides explicit finite-sample guarantees for any dataset by using a holdout set to calibrate the size of the prediction sets. This framework enables simple, distribution-free, rigorous error control for many tasks, and we demonstrate it in five large-scale machine learning problems: (1) classification problems where some mistakes are more costly than others; (2) multi-label classification, where each observation has multiple associated labels; (3) classification problems where the labels have a hierarchical structure; (4) image segmentation, where we wish to predict a set of pixels containing an object of interest; and (5) protein structure prediction. Lastly, we discuss extensions to uncertainty quantification for ranking, metric learning and distributionally robust learning.
翻訳日:2021-04-10 13:51:54 公開日:2021-01-30
# (参考訳) Radar-to-Lidar: 共同学習による異種位置認識 [全文訳有]

Radar-to-Lidar: Heterogeneous Place Recognition via Joint Learning ( http://arxiv.org/abs/2102.04960v1 )

ライセンス: CC BY 4.0
Huan Yin, Xuecheng Xu, Yue Wang and Rong Xiong(参考訳) 位置認識はオフラインマッピングとオンラインローカライゼーションの両方において重要である。 しかし、現在の単一センサによる位置認識は、いまだに悪条件下では困難である。 本稿では,既存のlidarマップからクエリレーダスキャンを検索する,長期位置認識のための不均質な測定に基づくフレームワークを提案する。 これを実現するために、学習段階で共同トレーニングを施したディープニューラルネットワークを構築し、テスト段階では、異種位置認識のためにレーダーとライダーの共有埋め込みを抽出する。 提案手法の有効性を検証するため,他の競合手法と比較して,マルチセッション公開データセット上でテストと一般化を行う。 実験結果から,本モデルでは,lidar-to-lidar,rada r-to-radar,radar-to- lidarの複数の位置認識が可能であり,学習したモデルは1回のみ学習可能であることが示された。 ソースコードも公開しています。

Place recognition is critical for both offline mapping and online localization. However, current single-sensor based place recognition still remains challenging in adverse conditions. In this paper, a heterogeneous measurements based framework is proposed for long-term place recognition, which retrieves the query radar scans from the existing lidar maps. To achieve this, a deep neural network is built with joint training in the learning stage, and then in the testing stage, shared embeddings of radar and lidar are extracted for heterogeneous place recognition. To validate the effectiveness of the proposed method, we conduct tests and generalization on the multi-session public datasets compared to other competitive methods. The experimental results indicate that our model is able to perform multiple place recognitions: lidar-to-lidar, radar-to-radar and radar-to-lidar, while the learned model is trained only once. We also release the source code publicly.
翻訳日:2021-04-06 09:41:55 公開日:2021-01-30
# (参考訳) 計算可能性、複雑さ、一貫性、制御性:クロスディシプリナ倫理アルゴリズム研究のための4つのCフレームワーク [全文訳有]

Computability, Complexity, Consistency and Controllability: A Four C's Framework for cross-disciplinary Ethical Algorithm Research ( http://arxiv.org/abs/2102.04234v1 )

ライセンス: CC BY 4.0
Elija Perrier(参考訳) アルゴリズムの倫理的影響、制約、規制は、間違いなく私たちの時代の決定的な課題を表しており、社会や個人の秩序やアイデンティティを予期せぬ方法で根本的に変革する可能性を持つ計算技術の台頭を推測するように求めています。 しかし、このアルゴリズム的ターンの多分野的な影響にもかかわらず、アルゴリズム的、自動化されたシステムの倫理的設計、実装、規制のための実現可能な提案を進める上で不可欠な学際的コラボレーションの動機付けには、いくつかの方法がある。 本稿では, 様々な分野の研究者が, 計算可能性, (ii) 複雑性, (iii) 一貫性, (iv) 制御可能性について検討すべき4つのc'sフレームワークを提示することにより, 学際的コラボレーションを支援するフレームワークを提案する。 さらに,アルゴリズムの研究と設計に関わる科学において,倫理学,哲学学,集団倫理学の知見がいかに関連し,翻訳可能であるかを示す。 本研究の目的は,倫理的アルゴリズムガバナンスの実現可能性,特にアルゴリズムガバナンスに対する計算制約の影響を考慮し,倫理的アルゴリズム文学における関連する問題に対する学際的理解を促進するための枠組みを構築することである。

The ethical consequences of, constraints upon and regulation of algorithms arguably represent the defining challenges of our age, asking us to reckon with the rise of computational technologies whose potential to radically transforming social and individual orders and identity in unforeseen ways is already being realised. Yet despite the multidisciplinary impact of this algorithmic turn, there remains some way to go in motivating the crossdisciplinary collaboration that is crucial to advancing feasible proposals for the ethical design, implementation and regulation of algorithmic and automated systems. In this work, we provide a framework to assist cross-disciplinary collaboration by presenting a Four C's Framework covering key computational considerations researchers across such diverse fields should consider when approaching these questions: (i) computability, (ii) complexity, (iii) consistency and (iv) controllability. In addition, we provide examples of how insights from ethics, philosophy and population ethics are relevant to and translatable within sciences concerned with the study and design of algorithms. Our aim is to set out a framework which we believe is useful for fostering cross-disciplinary understanding of pertinent issues in ethical algorithmic literature which is relevant considering the feasibility of ethical algorithmic governance, especially the impact of computational constraints upon algorithmic governance.
翻訳日:2021-04-06 09:31:05 公開日:2021-01-30
# (参考訳) Amazon製品レコメンダシステム [全文訳有]

Amazon Product Recommender System ( http://arxiv.org/abs/2102.04238v1 )

ライセンス: CC BY 4.0
Mohammad R. Rezaei(参考訳) amazonのレビュー数はここ数年で大幅に増加している。 Amazonで購入した顧客は、商品を1つから5つ星と評価し、製品の体験と意見に関するテキスト概要を共有することでレビューを提供する。 製品の評価は製品全体の評価を提供するために平均される。 我々は、amazon上のデジタル音楽トラックのレコメンデーションモデルを構築するために、顧客が特定の製品(音楽トラック)にどんな評価スコアを与えるかを分析した。 提案したディープニューラルネットワーク(DNN)アーキテクチャとともに,従来型モデルをテストして,評価スコアを予測する。 Amazon Reviewデータセットには20万のデータサンプルが含まれており、データセットの70%でモデルをトレーニングし、残りの30%でモデルのパフォーマンスをテストする。

The number of reviews on Amazon has grown significantly over the years. Customers who made purchases on Amazon provide reviews by rating the product from 1 to 5 stars and sharing a text summary of their experience and opinion of the product. The ratings of a product are averaged to provide an overall product rating. We analyzed what ratings score customers give to a specific product (a music track) in order to build a recommender model for digital music tracks on Amazon. We test various traditional models along with our proposed deep neural network (DNN) architecture to predict the reviews rating score. The Amazon review dataset contains 200,000 data samples; we train the models on 70% of the dataset and test the performance of the models on the remaining 30% of the dataset.
翻訳日:2021-04-06 09:09:01 公開日:2021-01-30
# (参考訳) 意味的数値化システムの基礎。 文脈は計算できるのか? [全文訳有]

Fundamentals of Semantic Numeration Systems. Can the Context be Calculated? ( http://arxiv.org/abs/2102.09949v1 )

ライセンス: CC BY 4.0
Alexander Chunikhin(参考訳) 本研究は,意味的数量化システム(sns)の概念を,文脈に基づく数量化手法のクラスとして提案する最初の試みである。 SNSの概念の発展には、基本抽象実体、基数意味演算子、基数抽象対象、数値空間、多心数といった基本的な新しい概念の導入が必要であった。 主要な関心は、セマンティック数値システム(セマンティックセマンティック演算子)の鍵となる要素に向けられる。 意味的数体系の分類が与えられる。

This work is the first to propose the concept of a semantic numeration system (SNS) as a certain class of context-based numeration methods. The development of the SNS concept required the introduction of fundamentally new concepts such as a cardinal abstract entity, a cardinal semantic operator, a cardinal abstract object, a numeration space and a multicardinal number. The main attention is paid to the key elements of semantic numeration systems - cardinal semantic operators. A classification of semantic numeration systems is given.
翻訳日:2021-04-06 09:05:22 公開日:2021-01-30
# 汎用ゼロショット学習のための意味推論

Semantic Borrowing for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2102.04969v1 )

ライセンス: Link先を確認
Xiao-wei Chen (Sun Yat-sen University)(参考訳) 一般化ゼロショット学習(gzsl)は最も現実的な問題の1つであるが、教師付きクラスへの分類器の偏りによる最も難しい問題の1つである。 インスタンスボローイングメソッドと合成メソッドは、セマンティクスのテストの助けを借りて、この問題をある程度解決するが、テストデータが利用できないクラス誘導型インスタンス誘導型(CIII)トレーニング設定では、どちらも使用できない。 対照的に, セマンティックボローイング(Semantic Borrowing)と呼ばれる, CIII の下での整合性メトリック学習によるGZSL法の改良手法を提案する。 トレーニングセットに類似したセマンティクスを借用し、訓練中にゼロショットと教師付きクラスのセマンティクスの関係をより正確にモデル化できるようにする。 実際には、未知のクラスや未知のクラスのセマンティクスの情報はトレーニングには利用できないが、このアプローチでは未知のクラスや未知のクラスのセマンティクスの情報は必要ない。 代表的なGZSLベンチマークデータセットを用いた実験結果から,分類器の部分性を教師付きクラスに還元し,一般化されたゼロショット分類の性能を向上させることができることがわかった。

Generalized zero-shot learning (GZSL) is one of the most realistic problems, but also one of the most challenging problems due to the partiality of the classifier to supervised classes. Instance-borrowing methods and synthesizing methods solve this problem to some extent with the help of testing semantics, but therefore neither can be used under the class-inductive instance-inductive (CIII) training setting where testing data are not available, and the latter require the training process of a classifier after generating examples. In contrast, a novel method called Semantic Borrowing for improving GZSL methods with compatibility metric learning under CIII is proposed in this paper. It borrows similar semantics in the training set, so that the classifier can model the relationship between the semantics of zero-shot and supervised classes more accurately during training. In practice, the information of semantics of unseen or unknown classes would not be available for training while this approach does NOT need any information of semantics of unseen or unknown classes. The experimental results on representative GZSL benchmark datasets show that it can reduce the partiality of the classifier to supervised classes and improve the performance of generalized zero-shot classification.
翻訳日:2021-04-05 00:29:41 公開日:2021-01-30
# 低コストBLEデバイスによる屋内居住の推定

Estimating indoor occupancy through low-cost BLE devices ( http://arxiv.org/abs/2102.03351v1 )

ライセンス: Link先を確認
Florenc Demrozi, Fabio Chiarani, Cristian Turetta, Philipp H. Kindt, and Graziano Pravadelli(参考訳) 近年,室内環境における被写体数の検出と推定が重要になっている。 例えば、部屋が占有されていない場合の情報は、照明、空調、換気を自動的にオフにすることで、公共の建物においてかなりのエネルギーを節約することができる。 既存のソリューションのほとんどは、プレゼンスセンサー、ビデオカメラ、二酸化炭素センサーを含む専用のハードウェアインストールに依存している。 残念ながら、そのようなアプローチはコストがかかり、プライバシーの懸念を受け、高い計算要求を持ち、ユビキタス性に欠ける。 本稿では、これらの制約に対処するため、低コストで占有検知システムを提案する。 提案手法は,Bluetooth Low Energy(BLE)信号の変動を検知し,人体の存在を検知する。 このアプローチの有効性は、5つの異なるデータセットで包括的なテストを行うことで評価される。 異なるパターン認識モデルを適用し,IEEE 802.11(WiFi)上に構築されたシステムと比較する。 異なる環境では、平均して97.97\%の精度で居住地を正しく分類できる。 部屋の人数を平均して見積もると、実際の被験者の人数は0.32人である。 当社のシステムの性能は、既存のwi-fiシステムと同等であり、コストとインストールの労力を大幅に削減していると結論づけた。 したがって,本手法は実世界の展開において,占有率の検出を現実的に行う。

Detecting the presence and estimating the number of subjects in an indoor environment has grown in importance recently. For example, the information if a room is unoccupied can be used for automatically switching off the light, air conditioning, and ventilation, thereby saving significant amounts of energy in public buildings. Most existing solutions rely on dedicated hardware installations, which involve presence sensors, video cameras, and carbon dioxide sensors. Unfortunately, such approaches are costly, subject to privacy concerns, have high computational requirements, and lack ubiquitousness. The work presented in this article addresses these limitations by proposing a low-cost system for occupancy detection. Our approach builds upon detecting variations in Bluetooth Low Energy (BLE) signals related to the presence of humans. The effectiveness of this approach is evaluated by performing comprehensive tests on 5 different datasets. We apply different pattern recognition models and compare our methodology with systems building upon IEEE 802.11 (WiFi). On average, in different environments, we can correctly classify the occupancy with an accuracy of 97.97\%. When estimating the number of people in a room, on average, the estimated number of subjects differs from the actual one by 0.32 persons. We conclude that the performance of our system is comparable to existing ones based on WiFi, while leading to a significantly reduced cost and installation effort. Hence, our approach makes occupancy detection practical for real-world deployments.
翻訳日:2021-04-05 00:24:29 公開日:2021-01-30
# 代数幾何学から見た多層線形ニューラルネットワークの景観

The Landscape of Multi-Layer Linear Neural Network From the Perspective of Algebraic Geometry ( http://arxiv.org/abs/2102.04338v1 )

ライセンス: Link先を確認
Xiuyi Yang(参考訳) ニューラルネットワークの非凸景観の明確な理解は、複雑な不完全問題である。 本稿では,非線形ネットワークの簡易バージョンである線形(残留)ネットワークの景観について検討する。 勾配方程式を多項式方程式として扱うことにより、複素数体上の代数幾何学ツールを用いて、達成された解を異なる既約複素幾何学オブジェクトに分解することができる。 次に、3つの仮説が提案され、各既約幾何対象の損失を計算する方法、臨界点の損失が一定の範囲を持ち、各既約幾何学対象の次元と厳密な鞍条件との関係を含む。 最後に,これら3つの仮説の合理性を検証するために数値代数幾何学を適用し,線形ネットワークの景観と残留接続の役割をさらに明らかにした。

The clear understanding of the non-convex landscape of neural network is a complex incomplete problem. This paper studies the landscape of linear (residual) network, the simplified version of the nonlinear network. By treating the gradient equations as polynomial equations, we use algebraic geometry tools to solve it over the complex number field, the attained solution can be decomposed into different irreducible complex geometry objects. Then three hypotheses are proposed, involving how to calculate the loss on each irreducible geometry object, the losses of critical points have a certain range and the relationship between the dimension of each irreducible geometry object and strict saddle condition. Finally, numerical algebraic geometry is applied to verify the rationality of these three hypotheses which further clarify the landscape of linear network and the role of residual connection.
翻訳日:2021-04-05 00:24:09 公開日:2021-01-30
# 繰り返しニューラルネットワークに基づく時間スケール降雨流出モデルのためのマルチスケール入力手法

Multi-Time-Scale Input Approaches for Hourly-Scale Rainfall-Runoff Modeling based on Recurrent Neural Networks ( http://arxiv.org/abs/2103.10932v1 )

ライセンス: Link先を確認
Kei Ishida, Masato Kiyama, Ali Ercan, Motoki Amagasaki, Tongbi Tu, Makoto Ueda(参考訳) 本研究では,複数時間スケールの時系列データを入力として用いたリカレントニューラルネットワーク(RNN)による時系列モデリングのトレーニングプロセスに必要な時間を削減するための,単純かつ効果的な2つのアプローチを提案する。 1つのアプローチは、RNNに並列に入力時系列の粗い時間分解を提供する。 他方は、RNNへの入力として考える前に、入力時系列データの粗大かつ微細な時間分解を時間とともに結合する。 どちらのアプローチでも、まず、より細かい時間分解データを用いて、ターゲットデータの微妙な時間スケール挙動を学習する。 次に、粗い時間分解能データを用いて、入力変数と対象変数の間の長期依存性をキャプチャする。 提案手法は,新しいタイプのRNNであるLong and Short-term memory(LSTM)ネットワークを用いて,積雪流域における時限降雨流出モデリングのために実装された。 その後, 日時気象データを入力として利用し, 時間流排出を目標データとして検討した。 その結果,両手法ともに,rnnの学習に要する計算時間を大幅に削減できることが確認された(最大32.4倍)。 さらに,提案手法の1つにより推定精度が向上する。

This study proposes two straightforward yet effective approaches to reduce the required computational time of the training process for time-series modeling through a recurrent neural network (RNN) using multi-time-scale time-series data as input. One approach provides coarse and fine temporal resolutions of the input time-series to RNN in parallel. The other concatenates the coarse and fine temporal resolutions of the input time-series data over time before considering them as the input to RNN. In both approaches, first, finer temporal resolution data are utilized to learn the fine temporal scale behavior of the target data. Next, coarser temporal resolution data are expected to capture long-duration dependencies between the input and target variables. The proposed approaches were implemented for hourly rainfall-runoff modeling at a snow-dominated watershed by employing a long and short-term memory (LSTM) network, which is a newer type of RNN. Subsequently, the daily and hourly meteorological data were utilized as the input, and hourly flow discharge was considered as the target data. The results confirm that both of the proposed approaches can reduce the computational time for the training of RNN significantly (up to 32.4 times). Furthermore, one of the proposed approaches improves the estimation accuracy.
翻訳日:2021-04-05 00:23:12 公開日:2021-01-30
# 三重項損失を伴うキーワードスポッティングのための学習効率のよい表現

Learning Efficient Representations for Keyword Spotting with Triplet Loss ( http://arxiv.org/abs/2101.04792v2 )

ライセンス: Link先を確認
Roman Vygon, Nikolay Mikhaylovskiy(参考訳) 過去数年間、三重項損失に基づく計量埋め込みは、いくつかの重要なコンピュータビジョン問題、特に人物同一化のデファクトスタンダードとなっている。 一方,音声認識の分野では,三重項損失によるメートル法埋め込みは,分類問題においてもほとんど使われない。 このギャップを埋めると、三重項損失に基づく埋め込みと、クロスエントロピー損失ではなく分類のためのkNNの変種の組み合わせ(26%から38%)により、LibriSpeech由来のLibriWordsデータセット上の畳み込みネットワークの分類精度が大幅に向上する。 そこで我々は,新しい音声類似性に基づく三重項マイニング手法を提案する。 また,google speech commands データセット v2 10+2 クラス分類の現在の最良版 sota と,約 6 倍のコンパクトなアーキテクチャを一致させ,google speech commands データセット v2 の 35 クラス分類の現在の最良版 sota を 40% 以上向上させた。

In the past few years, triplet loss-based metric embeddings have become a de-facto standard for several important computer vision problems, most notably, person reidentification. On the other hand, in the area of speech recognition the metric embeddings generated by the triplet loss are rarely used even for classification problems. We fill this gap showing that a combination of two representation learning techniques: a triplet loss-based embedding and a variant of kNN for classification instead of cross-entropy loss significantly (by 26% to 38%) improves the classification accuracy for convolutional networks on a LibriSpeech-derived LibriWords datasets. To do so, we propose a novel phonetic similarity based triplet mining approach. We also match the current best published SOTA for Google Speech Commands dataset V2 10+2-class classification with an architecture that is about 6 times more compact and improve the current best published SOTA for 35-class classification on Google Speech Commands dataset V2 by over 40%.
翻訳日:2021-04-04 01:47:51 公開日:2021-01-30
# ヒッチハイクの構造的類似性に関するガイド

A Hitchhiker's Guide to Structural Similarity ( http://arxiv.org/abs/2101.06354v2 )

ライセンス: Link先を確認
Abhinau K. Venkataramanan and Chengyang Wu and Alan C. Bovik and Ioannis Katsavounidis and Zafar Shahid(参考訳) 構造類似性(ssim)インデックスは、圧縮アルゴリズムの知覚的評価、レシピの符号化、その他多数の画像/ビデオ処理アルゴリズムにおいて重要な役割を果たす、非常に広く使われている画像/ビデオ品質モデルである。 SSIMとMultiscale-SSIM(Mult iscale-SSIM)アルゴリズムのいくつかの公開実装が開発され、効率と性能が異なる。 は、符号化アルゴリズムの品質評価の過程を信頼できないものにしている。 このような状況に対処するため,我々はSSIMの一般的な実装の機能と性能について検討・比較し,また,様々な設計選択についても検討した。 私たちの研究と実験に基づいて、計算負荷を軽減する方法を含む、ssimを最も効果的に使用する方法についての推奨事項のコレクションに到達しました。

The Structural Similarity (SSIM) Index is a very widely used image/video quality model that continues to play an important role in the perceptual evaluation of compression algorithms, encoding recipes and numerous other image/video processing algorithms. Several public implementations of the SSIM and Multiscale-SSIM (MS-SSIM) algorithms have been developed, which differ in efficiency and performance. This "bendable ruler" makes the process of quality assessment of encoding algorithms unreliable. To address this situation, we studied and compared the functions and performances of popular and widely used implementations of SSIM, and we also considered a variety of design choices. Based on our studies and experiments, we have arrived at a collection of recommendations on how to use SSIM most effectively, including ways to reduce its computational burden.
翻訳日:2021-03-28 04:26:49 公開日:2021-01-30
# グラフ学習アルゴリズムのための統一生成モデル:ラベル伝搬、グラフ畳み込み、組合せ

A Unifying Generative Model for Graph Learning Algorithms: Label Propagation, Graph Convolutions, and Combinations ( http://arxiv.org/abs/2101.07730v2 )

ライセンス: Link先を確認
Junteng Jia and Austin R. Benson(参考訳) グラフに関する半教師付き学習は、ネットワーク科学と機械学習において広く適用可能な問題である。 ラベル伝搬とグラフニューラルネットワークという2つの標準的なアルゴリズムは、エッジに沿って繰り返し情報を渡すことで動作し、前者はラベルを渡し、後者はニューラルネットワークによって変調されるノードの特徴を渡す。 これら2つのタイプのアルゴリズムは、主に個別に開発されており、ネットワークデータの構造についてはほとんど理解されていない。 本稿では,頂点上の属性の相関に基づくノード属性データ生成プロセスのためのマルコフ確率場モデルを開発し,それらのアルゴリズム的アプローチを動機付け,統一する。 ラベル伝搬, 線形化グラフ畳み込みネットワーク, およびそれらの組み合わせが, 属性の異なる条件下での条件付き期待値として導出可能であることを示す。 さらに、このデータモデルは、既存のグラフニューラルネットワークの欠陥(新しいアルゴリズムソリューションの生成中)を強調し、オーバースムーシングのようなグラフ学習の問題を理解するための厳密な統計フレームワークとして機能し、帰納的学習性能を評価するためのテストベッドを作成し、経験的データに似たグラフ属性をサンプリングする方法を提供する。 また,我々が線形グラフ畳み込みと呼ぶデータ生成モデルから導出した新しいアルゴリズムは,経験的データに対して非常にうまく動作し,なぜこれが正しいのかを理論的に正当化できることがわかった。

Semi-supervised learning on graphs is a widely applicable problem in network science and machine learning. Two standard algorithms -- label propagation and graph neural networks -- both operate by repeatedly passing information along edges, the former by passing labels and the latter by passing node features, modulated by neural networks. These two types of algorithms have largely developed separately, and there is little understanding about the structure of network data that would make one of these approaches work particularly well compared to the other or when the approaches can be meaningfully combined. Here, we develop a Markov random field model for the data generation process of node attributes, based on correlations of attributes on and between vertices, that motivates and unifies these algorithmic approaches. We show that label propagation, a linearized graph convolutional network, and their combination can all be derived as conditional expectations under our model, when conditioning on different attributes. In addition, the data model highlights deficiencies in existing graph neural networks (while producing new algorithmic solutions), serves as a rigorous statistical framework for understanding graph learning issues such as over-smoothing, creates a testbed for evaluating inductive learning performance, and provides a way to sample graphs attributes that resemble empirical data. We also find that a new algorithm derived from our data generation model, which we call a Linear Graph Convolution, performs extremely well in practice on empirical data, and provide theoretical justification for why this is the case.
翻訳日:2021-03-22 11:11:14 公開日:2021-01-30
# B-DRRN:ビデオ圧縮アーチファクト削減のためのブロック情報制約付き深部再帰残差ネットワーク

B-DRRN: A Block Information Constrained Deep Recursive Residual Network for Video Compression Artifacts Reduction ( http://arxiv.org/abs/2101.09021v2 )

ライセンス: Link先を確認
Trinh Man Hoang, Jinjia Zhou(参考訳) H.264/AVC、H.265/HEVC、H.266/VVCなどのビデオコーダは常にビデオアーティファクトに悩まされている。 本稿では,B-DRRN(Deep Recursive Residual Network with Block Information)と呼ばれるブロック情報を活用することにより,圧縮フレームの品質を向上させるニューラルネットワークを設計する。 まず、符号化ユニット(CU)のブロック情報を活用するために、余分なネットワークブランチを設計する。 さらに,ネットワークサイズが大きく増加するのを避けるため,再帰的残差構造と共有重み法を適用した。 また、209,152のトレーニングサンプルを備えた新しい大規模データセットも実施しています。 実験の結果,提案したB-DRRNはHEVC標準に比べて6.16%のBDレートを低減できることがわかった。 追加のネットワークブランチを効率的に追加すると、メモリを増やさずにメインネットワークの性能を向上させることができる。

Although the video compression ratio nowadays becomes higher, the video coders such as H.264/AVC, H.265/HEVC, H.266/VVC always suffer from the video artifacts. In this paper, we design a neural network to enhance the quality of the compressed frame by leveraging the block information, called B-DRRN (Deep Recursive Residual Network with Block information). Firstly, an extra network branch is designed for leveraging the block information of the coding unit (CU). Moreover, to avoid a great increase in the network size, Recursive Residual structure and sharing weight techniques are applied. We also conduct a new large-scale dataset with 209,152 training samples. Experimental results show that the proposed B-DRRN can reduce 6.16% BD-rate compared to the HEVC standard. After efficiently adding an extra network branch, this work can improve the performance of the main network without increasing any memory for storing.
翻訳日:2021-03-20 17:14:06 公開日:2021-01-30
# Encoder-Decoder Matched Semantic Segmentation による画像圧縮

Image Compression with Encoder-Decoder Matched Semantic Segmentation ( http://arxiv.org/abs/2101.09642v2 )

ライセンス: Link先を確認
Trinh Man Hoang, Jinjia Zhou, Yibo Fan(参考訳) 近年,層状画像圧縮は,入力画像のコンパクトな表現を符号化し,アップサンプリングネットワークを用いて画像再構成を行う,有望な方向であることが実証されている。 再構成画像の品質をさらに向上するため、圧縮画像データとともに意味セグメントを送信する作業もある。 これにより、セマンティックセグメントの送信に余分なビットを必要とするため、圧縮比も低下する。 そこで本研究では,エンコーダ・デコーダマッチングセマンティックセグメンテーション(EDMS)を用いた新しい層画像圧縮フレームワークを提案する。 そして、セマンティックセグメンテーションに続いて、不正確なセマンティックセグメンテーションを強化するために特別な畳み込みニューラルネットワークが使用される。 これにより、余分なビットを必要とせずに、正確な意味セグメントをデコーダで得ることができる。 実験結果から,提案したEDMSフレームワークはHEVC(BPG)コーデックよりも最大35.31%のBDレートを削減でき,5%ビットレート,24%エンコーディング時間は最先端のセマンティックベース画像コーデックと比較できることがわかった。

In recent years, layered image compression is demonstrated to be a promising direction, which encodes a compact representation of the input image and apply an up-sampling network to reconstruct the image. To further improve the quality of the reconstructed image, some works transmit the semantic segment together with the compressed image data. Consequently, the compression ratio is also decreased because extra bits are required for transmitting the semantic segment. To solve this problem, we propose a new layered image compression framework with encoder-decoder matched semantic segmentation (EDMS). And then, followed by the semantic segmentation, a special convolution neural network is used to enhance the inaccurate semantic segment. As a result, the accurate semantic segment can be obtained in the decoder without requiring extra bits. The experimental results show that the proposed EDMS framework can get up to 35.31% BD-rate reduction over the HEVC-based (BPG) codec, 5% bitrate, and 24% encoding time saving compare to the state-of-the-art semantic-based image codec.
翻訳日:2021-03-16 09:08:56 公開日:2021-01-30
# 注意型ニューラルネットワークを用いたgigapixelの病理組織像解析

Gigapixel Histopathological Image Analysis using Attention-based Neural Networks ( http://arxiv.org/abs/2101.09992v2 )

ライセンス: Link先を確認
Nadia Brancati, Giuseppe De Pietro, Daniel Riccio, Maria Frucci(参考訳) CNNは画像解析の様々な応用における最先端モデルとして広く考えられているが、大きな課題の1つは高解像度画像に対するCNNの訓練である。 画像の再スケーリングまたは画像の個々の処理を含むさまざまな戦略が提案されています。 このような戦略をギガピクセルの病理画像などの画像に適用することはできず、解像度の低下が本質的に識別情報の喪失に影響を与え、画像の単一部分の分析がグローバル情報の欠如に悩まされる、あるいはトレーニング画像の注釈付けにおいて、重要な部分を選択できるような作業量が高いことを示唆する。 弱い画像レベルラベルのみを用いて,gigapixelの病理組織像の解析法を提案する。 特に,二分分類と腫瘍増殖率の予測という2つの解析課題について考察した。 提案手法は,圧縮経路と学習経路からなるCNN構造に基づく。 圧縮パスでは、画像が分割された各パッチの特徴抽出に専用された残存ネットワークを使用して、ギガピクセルイメージをグリッドベースの特徴マップにパックする。 学習パスでは、注意モジュールがグリッドベースの機能マップに適用され、隣接するパッチ機能の空間的相関を考慮して関心のある領域を見つけ、最終的なスライド分析に使用されます。 本手法は,グローバル情報とローカル情報の両方を統合し,入力画像のサイズに関して柔軟であり,弱い画像レベルラベルのみを必要とする。 2つのよく知られたデータセットであるCamelyon16とTUPAC16に対する最先端の異なる手法との比較を行い、提案モデルの有効性を確認した。

Although CNNs are widely considered as the state-of-the-art models in various applications of image analysis, one of the main challenges still open is the training of a CNN on high resolution images. Different strategies have been proposed involving either a rescaling of the image or an individual processing of parts of the image. Such strategies cannot be applied to images, such as gigapixel histopathological images, for which a high reduction in resolution inherently effects a loss of discriminative information, and in respect of which the analysis of single parts of the image suffers from a lack of global information or implies a high workload in terms of annotating the training images in such a way as to select significant parts. We propose a method for the analysis of gigapixel histopathological images solely by using weak image-level labels. In particular, two analysis tasks are taken into account: a binary classification and a prediction of the tumor proliferation score. Our method is based on a CNN structure consisting of a compressing path and a learning path. In the compressing path, the gigapixel image is packed into a grid-based feature map by using a residual network devoted to the feature extraction of each patch into which the image has been divided. In the learning path, attention modules are applied to the grid-based feature map, taking into account spatial correlations of neighboring patch features to find regions of interest, which are then used for the final whole slide analysis. Our method integrates both global and local information, is flexible with regard to the size of the input images and only requires weak image-level labels. Comparisons with different methods of the state-of-the-art on two well known datasets, Camelyon16 and TUPAC16, have been made to confirm the validity of the proposed model.
翻訳日:2021-03-14 19:06:13 公開日:2021-01-30
# (参考訳) 高能率ニュートラルネットワークトレーニングのための慣性近位深層学習代替最小化 [全文訳有]

Inertial Proximal Deep Learning Alternating Minimization for Efficient Neutral Network Training ( http://arxiv.org/abs/2102.00267v1 )

ライセンス: CC BY 4.0
Linbo Qiao, Tao Sun, Hengyue Pan, Dongsheng Li(参考訳) 近年、ディープニュートラルネットワークトレーニングのペナルティ形式に適用される交互最小化であるDeep Learning Alternating Minimization (DLAM)は、Stochastic Gradient Descent (SGD)アルゴリズムのいくつかの欠点を克服するための代替アルゴリズムとして開発されている。 この研究は、有名な慣性手法であるiPDLAMによって改良されたDLAMを開発し、電流と最後の繰り返しの線形化によって点を予測する。 さらなるトレーニング速度を得るために,ペナルティパラメータにウォームアップ手法を適用する。 実世界データセットの数値結果を報告し,提案アルゴリズムの効率性を示す。

In recent years, the Deep Learning Alternating Minimization (DLAM), which is actually the alternating minimization applied to the penalty form of the deep neutral networks training, has been developed as an alternative algorithm to overcome several drawbacks of Stochastic Gradient Descent (SGD) algorithms. This work develops an improved DLAM by the well-known inertial technique, namely iPDLAM, which predicts a point by linearization of current and last iterates. To obtain further training speed, we apply a warm-up technique to the penalty parameter, that is, starting with a small initial one and increasing it in the iterations. Numerical results on real-world datasets are reported to demonstrate the efficiency of our proposed algorithm.
翻訳日:2021-02-05 09:15:21 公開日:2021-01-30
# (参考訳) 暗号化データのための効率的なCNNビルディングブロック [全文訳有]

Efficient CNN Building Blocks for Encrypted Data ( http://arxiv.org/abs/2102.00319v1 )

ライセンス: CC BY 4.0
Nayna Jain, Karthik Nandakumar, Nalini Ratha, Sharath Pankanti, Uttam Kumar(参考訳) 暗号化されたデータの機械学習は、機密データを信頼できないサービスプロバイダと共有するプライバシーと合法性に関する懸念に対処することができる。 FHE(Fullly Homomorphic Encryption)は、情報漏洩に対する厳格な保証を提供しながら、機械学習と推論を可能にする有望な技術です。 ディープ畳み込みニューラルネットワーク(CNN)がいくつかのアプリケーションで選択可能な機械学習ツールになっているため、暗号化されたデータから洞察を抽出するためにCNNを活用する試みがいくつか行われている。 しかし、既存の作業はデータセキュリティの確保とモデルパラメータのセキュリティの無視にのみ焦点が当てられている。 彼らはまた、畳み込み、非線形アクティベーション、プーリングなどのCNNのジェネリックプリミティブ演算子のFHE実装に関わる正確性、セキュリティ、およびスピードトレードオフの厳密な分析を提供せずに、高レベルの実装を報告します。 本研究では、入力データとモデルパラメータの両方をFHEを用いて保護するMLaaS(Machine Learning as a Service)シナリオを検討する。 オープンソースのHElibライブラリで利用可能なCKKSスキームを使用して、シクロトミック多項式の度合い、基礎となるレベルのHEスキームの深さ制限、および計算精度パラメータなどの選択されたFHEスキームの運用パラメータが、機械学習モデルの設計(特に、アクティベーション関数とプーリング方法の選択)に大きな影響を与えていることを示します。 実験の結果, 設計パラメータの選択は, 精度, セキュリティレベル, 計算時間の間に大きなトレードオフをもたらすことがわかった。 MNISTデータセットの暗号化推論実験は、暗号文のパッキング戦略やマルチスレッドを用いた並列化といった他の設計選択も、推論プロセスのスループットとレイテンシを決定する上で重要であることを示している。

Machine learning on encrypted data can address the concerns related to privacy and legality of sharing sensitive data with untrustworthy service providers. Fully Homomorphic Encryption (FHE) is a promising technique to enable machine learning and inferencing while providing strict guarantees against information leakage. Since deep convolutional neural networks (CNNs) have become the machine learning tool of choice in several applications, several attempts have been made to harness CNNs to extract insights from encrypted data. However, existing works focus only on ensuring data security and ignore security of model parameters. They also report high level implementations without providing rigorous analysis of the accuracy, security, and speed trade-offs involved in the FHE implementation of generic primitive operators of a CNN such as convolution, non-linear activation, and pooling. In this work, we consider a Machine Learning as a Service (MLaaS) scenario where both input data and model parameters are secured using FHE. Using the CKKS scheme available in the open-source HElib library, we show that operational parameters of the chosen FHE scheme such as the degree of the cyclotomic polynomial, depth limitations of the underlying leveled HE scheme, and the computational precision parameters have a major impact on the design of the machine learning model (especially, the choice of the activation function and pooling method). Our empirical study shows that choice of aforementioned design parameters result in significant trade-offs between accuracy, security level, and computational time. Encrypted inference experiments on the MNIST dataset indicate that other design choices such as ciphertext packing strategy and parallelization using multithreading are also critical in determining the throughput and latency of the inference process.
翻訳日:2021-02-05 09:00:15 公開日:2021-01-30
# (参考訳) アンサンブル分類器を用いたIIoTのロバスト攻撃検出手法

Robust Attack Detection Approach for IIoT Using Ensemble Classifier ( http://arxiv.org/abs/2102.01515v1 )

ライセンス: CC BY 4.0
V. Priya, I. Sumaiya Thaseen, Thippa Reddy Gadekallu, Mohamed K. Aboudaif, Emad Abouel Nasr(参考訳) 一般的に、インターネットへの依存とIoTデバイスの最小限のリソース可用性のために、IIoTとその関連アプリケーションにとって悪意のある脅威に関連するリスクが増加しています。 したがって、IoTネットワークの異常ベースの侵入検出モデルが不可欠である。 脅威検出はステークホルダーにとって重要な期待事項であるため、IIoTネットワークのために個別検出手法を開発する必要がある。 機械学習アプローチは、経験から学ぶための進化した技術であると考えられており、パターン認識、外乱解析、音声認識など、様々な応用において優れたパフォーマンスをもたらしている。 従来の技術やツールは、産業用システムにおけるさまざまなプロトコルの使用とアップグレードの可能性の制限により、IIoTネットワークを保護するには不十分です。 本稿では,IIoTネットワークの信頼性を高めるために,二相異常検出モデルを開発することを目的とする。 第1フェーズでは、SVMとNaive Bayesはアンサンブルブレンディング技術を用いて統合される。 異なるトレーニングとテスト比率でデータをトレーニングしながら、k倍のクロスバリデーションを行い、最適化されたトレーニングとテストセットを得る。 アンサンブルブレンディングはランダムフォレスト手法を用いてクラスラベルを予測する。 アダムオプティマイザを使用してより良い精度を達成するために人工ニューラルネットワーク(ANN)分類器も予測に使用されます。 第2段階では、annとランダム林の双方の結果がモデルの分類単位に供給され、最高精度値が最終結果と見なされる。 提案されたモデルは、WUSTL_IIOT-2018、N_BaIoT、Bot_IoTなどの標準的なIoT攻撃データセット上でテストされる。 得られた最高精度は99%です。 また,提案モデルが従来の手法より優れており,IIoTネットワークの信頼性が向上していることを示す。

Generally, the risks associated with malicious threats are increasing for the IIoT and its related applications due to dependency on the Internet and the minimal resource availability of IoT devices. Thus, anomaly-based intrusion detection models for IoT networks are vital. Distinct detection methodologies need to be developed for the IIoT network as threat detection is a significant expectation of stakeholders. Machine learning approaches are considered to be evolving techniques that learn with experience, and such approaches have resulted in superior performance in various applications, such as pattern recognition, outlier analysis, and speech recognition. Traditional techniques and tools are not adequate to secure IIoT networks due to the use of various protocols in industrial systems and restricted possibilities of upgradation. In this paper, the objective is to develop a two-phase anomaly detection model to enhance the reliability of an IIoT network. In the first phase, SVM and Naive Bayes are integrated using an ensemble blending technique. K-fold cross-validation is performed while training the data with different training and testing ratios to obtain optimized training and test sets. Ensemble blending uses a random forest technique to predict class labels. An Artificial Neural Network (ANN) classifier that uses the Adam optimizer to achieve better accuracy is also used for prediction. In the second phase, both the ANN and random forest results are fed to the model's classification unit, and the highest accuracy value is considered the final result. The proposed model is tested on standard IoT attack datasets, such as WUSTL_IIOT-2018, N_BaIoT, and Bot_IoT. The highest accuracy obtained is 99%. The results also demonstrate that the proposed model outperforms traditional techniques and thus improves the reliability of an IIoT network.
翻訳日:2021-02-05 05:37:58 公開日:2021-01-30
# (参考訳) LSSED:音声認識のための大規模データセットとベンチマーク [全文訳有]

LSSED: a large-scale dataset and benchmark for speech emotion recognition ( http://arxiv.org/abs/2102.01754v1 )

ライセンス: CC BY 4.0
Weiquan Fan, Xiangmin Xu, Xiaofen Xing, Weidong Chen, Dongyan Huang(参考訳) 音声の感情認識は、次世代のヒューマン・コンピュータ・インタラクション(HCI)に重要な貢献をする。 しかし、現在の小規模データベースは、関連する研究の発展を制限している。 本稿では,820人の被験者から収集したデータを実世界の分布をシミュレートする大規模音声感情データセットであるLSSEDを提案する。 さらに,LSSEDに基づく事前学習モデルもいくつかリリースし,音声感情認識の発達を促進するだけでなく,データを収集することが極めて困難であるメンタルヘルス分析など,関連する下流タスクにも移行できることを示した。 最後に,本実験では大規模データセットの必要性と事前学習モデルの有効性を示す。 datesetはhttps://github.com/t obefans/lssedでリリースされる。

Speech emotion recognition is a vital contributor to the next generation of human-computer interaction (HCI). However, current existing small-scale databases have limited the development of related research. In this paper, we present LSSED, a challenging large-scale english speech emotion dataset, which has data collected from 820 subjects to simulate real-world distribution. In addition, we release some pre-trained models based on LSSED, which can not only promote the development of speech emotion recognition, but can also be transferred to related downstream tasks such as mental health analysis where data is extremely difficult to collect. Finally, our experiments show the necessity of large-scale datasets and the effectiveness of pre-trained models. The dateset will be released on https://github.com/t obefans/LSSED.
翻訳日:2021-02-05 04:05:10 公開日:2021-01-30
# 人工知能の出現に関する進化論的見解

An evolutionary view on the emergence of Artificial Intelligence ( http://arxiv.org/abs/2102.00233v1 )

ライセンス: Link先を確認
Matheus E. Leusin, Bjoern Jindra, Daniel S. Hain(参考訳) 本稿では,人工知能(AI)の長期的進化に対する理解を深めるため,技術的関連性と知識複雑性の進化的概念を考察する。 我々は、アメリカ、日本、韓国、中国の特定の地理の文脈において、AIの出現における対応するパターンを明らかにする。 aiの出現は、知識の共通性と複雑さの増加によって、関連する多様性の増大と関連していると論じている。 当社は、1974年から2018年までの間、特許に基づく指標を使用して、AIのグローバルな技術空間の進化を分析し、その技術コアと全体的な関連性と知識の複雑さの変化を特定します。 国家レベルでは、AI固有のものに対する国の全体的な専門性も測定します。 世界レベルでは、AIの全体的な関連性と複雑さが増加する。 しかし、時間とともに安定してきたaiの技術的コアでは、関連する多様性が減少し、複雑さが増す。 この証拠は、コア技術に関連するAIイノベーションが、ますます互いに異なっていることを指摘している。 国レベルでは、米国と日本がイノベーションの全体的な関連性を高めていることが分かります。 反対に、中国と韓国は、これらの国が米国と日本よりも技術的に発展していないという事実と関連付けています。 最後に、中国以外のすべての国の全体的な複雑さが安定的に増加していることを観察し、この国がAIと強く結びついていない技術に焦点を当てて説明します。

This paper draws upon the evolutionary concepts of technological relatedness and knowledge complexity to enhance our understanding of the long-term evolution of Artificial Intelligence (AI). We reveal corresponding patterns in the emergence of AI - globally and in the context of specific geographies of the US, Japan, South Korea, and China. We argue that AI emergence is associated with increasing related variety due to knowledge commonalities as well as increasing complexity. We use patent-based indicators for the period between 1974-2018 to analyse the evolution of AI's global technological space, to identify its technological core as well as changes to its overall relatedness and knowledge complexity. At the national level, we also measure countries' overall specialisations against AI-specific ones. At the global level, we find increasing overall relatedness and complexity of AI. However, for the technological core of AI, which has been stable over time, we find decreasing related variety and increasing complexity. This evidence points out that AI innovations related to core technologies are becoming increasingly distinct from each other. At the country level, we find that the US and Japan have been increasing the overall relatedness of their innovations. The opposite is the case for China and South Korea, which we associate with the fact that these countries are overall less technologically developed than the US and Japan. Finally, we observe a stable increasing overall complexity for all countries apart from China, which we explain by the focus of this country in technologies not strongly linked to AI.
翻訳日:2021-02-04 17:19:03 公開日:2021-01-30
# ニューラルネットワークにおけるオーバーフィッティングの欠如を理解する線形周波数原理モデル

Linear Frequency Principle Model to Understand the Absence of Overfitting in Neural Networks ( http://arxiv.org/abs/2102.00200v1 )

ライセンス: Link先を確認
Yaoyu Zhang, Tao Luo, Zheng Ma, and Zhi-Qin John Xu(参考訳) なぜ重度パラメータ化ニューラルネットワーク(NN)がデータを過度に満たさないのかは、長い間続いている重要な疑問である。 NNトレーニングの現象モデルを提案し、この不適切なパズルを説明します。 我々の線形周波数原理(英語版)(lfp)モデルはnnsの重要な力学特徴を成している: 微視的詳細に関係なく、まず低周波数を学習する。 我々のLFPモデルに基づく理論は、ターゲット関数の低周波支配がNNの非オーバーフィッティングの鍵条件であることを示し、実験により検証する。 さらに,理想の2層nnを用いて,微視的nnトレーニングダイナミクスが統計的にlfpモデルに定量的な予測能力をもたらすかを明らかにする。

Why heavily parameterized neural networks (NNs) do not overfit the data is an important long standing open question. We propose a phenomenological model of the NN training to explain this non-overfitting puzzle. Our linear frequency principle (LFP) model accounts for a key dynamical feature of NNs: they learn low frequencies first, irrespective of microscopic details. Theory based on our LFP model shows that low frequency dominance of target functions is the key condition for the non-overfitting of NNs and is verified by experiments. Furthermore, through an ideal two-layer NN, we unravel how detailed microscopic NN training dynamics statistically gives rise to a LFP model with quantitative prediction power.
翻訳日:2021-02-04 10:14:00 公開日:2021-01-30
# 再発するサブモジュラ福祉とマトロイド遮断帯

Recurrent Submodular Welfare and Matroid Blocking Bandits ( http://arxiv.org/abs/2102.00321v1 )

ライセンス: Link先を確認
Orestis Papadigenopoulos and Constantine Caramanis(参考訳) 最近の研究は、プレイヤーの行動と腕の報酬分布(Kleinberg and Immorlica (FOCS18), Basu et al)の間に特定の構造の時間的相関が課される場合において、確率的マルチアームバンディット問題(MAB)の研究に焦点が当てられている。 [NIPS19])。 後視における最適解を自明に特徴づけることができる標準MAB設定とは対照的に、これらの相関は、興味深い動的パターンを示す(サブ)最適解へとつながります。 本研究では、上述の方向をコンビナトリアルなバンディット設定に拡張し、腕がマトロイド制約の対象となり、各腕が各プレイ後に一定数のラウンドに対して利用不能(ブロック)になる確率的MABの変種を研究する。 包帯をブロックするための最新式の自然な一般的な一般化であり、マトロイド包帯に対しては$(1-\frac{1}{e})$-approximation for partition matroidsとなるが、一般には$\frac{1}{2}$-approximation for general matroidsのみを保証する。 本稿では,任意のマトロイドに対して多項式時間$(1-\frac{1}{e})$近似アルゴリズム(漸近的および期待的)を得ることを可能にする新しいアルゴリズムアイデアを開発し,$(1-\frac{1}{e})$-approximate regretの制御を可能にした。 重要な成分は、相関(インターリーブ)スケジューリングの技術です。 その過程で、我々は(非対称的に)上下の近似性境界に一致するサブモジュラ福祉最大化の変種への興味深い接続を発見します。

A recent line of research focuses on the study of the stochastic multi-armed bandits problem (MAB), in the case where temporal correlations of specific structure are imposed between the player's actions and the reward distributions of the arms (Kleinberg and Immorlica [FOCS18], Basu et al. [NIPS19]). As opposed to the standard MAB setting, where the optimal solution in hindsight can be trivially characterized, these correlations lead to (sub-)optimal solutions that exhibit interesting dynamical patterns -- a phenomenon that yields new challenges both from an algorithmic as well as a learning perspective. In this work, we extend the above direction to a combinatorial bandit setting and study a variant of stochastic MAB, where arms are subject to matroid constraints and each arm becomes unavailable (blocked) for a fixed number of rounds after each play. A natural common generalization of the state-of-the-art for blocking bandits, and that for matroid bandits, yields a $(1-\frac{1}{e})$-approximation for partition matroids, yet it only guarantees a $\frac{1}{2}$-approximation for general matroids. In this paper we develop new algorithmic ideas that allow us to obtain a polynomial-time $(1 - \frac{1}{e})$-approximation algorithm (asymptotically and in expectation) for any matroid, and thus allow us to control the $(1-\frac{1}{e})$-approximate regret. A key ingredient is the technique of correlated (interleaved) scheduling. Along the way, we discover an interesting connection to a variant of Submodular Welfare Maximization, for which we provide (asymptotically) matching upper and lower approximability bounds.
翻訳日:2021-02-04 10:13:26 公開日:2021-01-30
# 表現型ニューラルボイスクローニング

Expressive Neural Voice Cloning ( http://arxiv.org/abs/2102.00151v1 )

ライセンス: Link先を確認
Paarth Neekhara, Shehzeen Hussain, Shlomo Dubnov, Farinaz Koushanfar, Julian McAuley(参考訳) 音声クローニングは、いくつかのサンプルから見えないスピーカーの声を合成する学習のタスクです。 現在の音声クローニング法は、新しい音声のためのテキスト音声合成(TTS)の有望な結果を達成するが、これらのアプローチは合成音声の表現力を制御できない。 本研究では,未知話者に対する合成音声の様々なスタイルをきめ細かな制御が可能な制御可能な音声クローニング手法を提案する。 学習中に話者エンコーディング、ピッチ輪郭、潜在スタイルトークンに音声合成モデルを明示的に条件付けすることで、これを実現する。 定量的・定性的評価を通じ,新しい話者に対して数回の書き起こし・未書き起こし音声サンプルのみを用いて,様々な表現的音声クローニングタスクに使用できることを示す。 これらのクローニングタスクには、参照音声からのスタイル転送、テキストから直接音声を合成すること、推論中にスタイル条件変数を操作してきめ細かいスタイル制御が含まれる。

Voice cloning is the task of learning to synthesize the voice of an unseen speaker from a few samples. While current voice cloning methods achieve promising results in Text-to-Speech (TTS) synthesis for a new voice, these approaches lack the ability to control the expressiveness of synthesized audio. In this work, we propose a controllable voice cloning method that allows fine-grained control over various style aspects of the synthesized speech for an unseen speaker. We achieve this by explicitly conditioning the speech synthesis model on a speaker encoding, pitch contour and latent style tokens during training. Through both quantitative and qualitative evaluations, we show that our framework can be used for various expressive voice cloning tasks using only a few transcribed or untranscribed speech samples for a new speaker. These cloning tasks include style transfer from a reference speech, synthesizing speech directly from text, and fine-grained style control by manipulating the style conditioning variables during inference.
翻訳日:2021-02-04 10:02:38 公開日:2021-01-30
# MIMO検出のためのモンテカルロ木探索を支援する深部強化学習

Deep Reinforcement Learning Aided Monte Carlo Tree Search for MIMO Detection ( http://arxiv.org/abs/2102.00178v1 )

ライセンス: Link先を確認
Tz-Wei Mo, Ronald Y. Chang, Te-Yi Kan(参考訳) 本稿では,モンテカルロ木探索(MCTS)検出アルゴリズムに深層強化学習(DRL)エージェントを組み込んだ,新しいマルチインプット多重出力(MIMO)シンボル検出器を提案する。 まず,多くの意思決定問題で使用されるmctsアルゴリズムをmimo検出問題に適用する方法について述べる。 次に、政策価値ネットワークと状態価値ネットワークからなる自己設計の深層強化学習エージェントを導入し、MIMOシンボルを検出するように訓練します。 トレーニングされたネットワークの出力は改良されたMCTS検出アルゴリズムに採用され、有用なノード統計を提供し、拡張されたツリー探索プロセスを容易にする。 結果はDRL-MCTS検出器と呼ばれ、元のMCTS検出アルゴリズムよりも大幅に改善され、チャンネル条件の異なる既存の線形およびDNNベースの検出方法と比較して良好な性能を示した。

This paper proposes a novel multiple-input multiple-output (MIMO) symbol detector that incorporates a deep reinforcement learning (DRL) agent into the Monte Carlo tree search (MCTS) detection algorithm. We first describe how the MCTS algorithm, used in many decision-making problems, is applied to the MIMO detection problem. Then, we introduce a self-designed deep reinforcement learning agent, consisting of a policy value network and a state value network, which is trained to detect MIMO symbols. The outputs of the trained networks are adopted into a modified MCTS detection algorithm to provide useful node statistics and facilitate enhanced tree search process. The resulted scheme, termed the DRL-MCTS detector, demonstrates significant improvements over the original MCTS detection algorithm and exhibits favorable performance compared to other existing linear and DNN-based detection methods under varying channel conditions.
翻訳日:2021-02-04 10:02:01 公開日:2021-01-30
# 機械学習モデルにおける特徴工学とデータベース選択の重要性:炭素結晶構造を事例として

Importance of feature engineering and database selection in a machine learning model: A case study on carbon crystal structures ( http://arxiv.org/abs/2102.00191v1 )

ライセンス: Link先を確認
Franz M. Rohrhofer, Santanu Saha, Simone Di Cataldo, Bernhard C. Geiger, Wolfgang von der Linden and Lilia Boeri(参考訳) 機械学習モデルのパフォーマンス向上に向けた動きは、凝縮マターシステムのデータベースを表す複雑な機能の作成につながった。 しかし、複雑な機能では、どの物理的属性がパフォーマンスを改善するのかを直感的に説明できない。 データベースがトレーニングされたモデルのパフォーマンスに与える影響は、しばしば無視される。 この研究では、機能の選択とデータベースの特性が機械学習アプリケーションに与える影響を深く理解することを目指しています。 実験では, 炭素の複雑な相空間をテストケースとして検討し, 結晶構造の総エネルギーを予測するために, 単純, 人間の理解可能, 安価に計算可能な特徴のセットを用いる。 本研究では, (i) 機械学習モデルの性能が特徴集合やデータベースによって異なること, (ii) 位相空間内のすべての構造に移動できないこと, (iii) 構造がデータベースでどのように表現されるかに依存することを示した。

Drive towards improved performance of machine learning models has led to the creation of complex features representing a database of condensed matter systems. The complex features, however, do not offer an intuitive explanation on which physical attributes do improve the performance. The effect of the database on the performance of the trained model is often neglected. In this work we seek to understand in depth the effect that the choice of features and the properties of the database have on a machine learning application. In our experiments, we consider the complex phase space of carbon as a test case, for which we use a set of simple, human understandable and cheaply computable features for the aim of predicting the total energy of the crystal structure. Our study shows that (i) the performance of the machine learning model varies depending on the set of features and the database, (ii) is not transferable to every structure in the phase space and (iii) depends on how well structures are represented in the database.
翻訳日:2021-02-04 10:01:25 公開日:2021-01-30
# 対称性を考慮した貯留層計算

Symmetry-Aware Reservoir Computing ( http://arxiv.org/abs/2102.00310v1 )

ライセンス: Link先を確認
Wendson A. S. Barbosa, Aaron Griffith, Graham E. Rowlands, Luke C. G. Govia, Guilhem J. Ribeill, Minh-Hai Nguyen, Thomas A. Ohki, Daniel J. Gauthier(参考訳) 貯留層コンピュータ(RC)の対称性が処理されるデータと一致することで、処理能力が飛躍的に向上することを示した。 提案手法を,対称性マッチングの利点を浮き彫りにする,挑戦的なベンチマーク問題であるパリティタスクに適用する。 提案手法は,ANN(Artificial Neural Network)など,この課題に対する他のアプローチよりも優れています。 シンメトリー認識RCは、人工ニューロンの指数的に減少した数とトレーニングデータを使用してゼロエラーを得ることができます。 この手続きの一般化はANNによる情報処理に広く適用されることを期待しています。

We demonstrate that matching the symmetry properties of a reservoir computer (RC) to the data being processed can dramatically increase its processing power. We apply our method to the parity task, a challenging benchmark problem, which highlights the benefits of symmetry matching. Our method outperforms all other approaches on this task, even artificial neural networks (ANN) hand crafted for this problem. The symmetry-aware RC can obtain zero error using an exponentially reduced number of artificial neurons and training data, greatly speeding up the time-to-result. We anticipate that generalizations of our procedure will have widespread applicability in information processing with ANNs.
翻訳日:2021-02-04 10:00:19 公開日:2021-01-30
# 逆オーディオ攻撃に対する防御のための皮質的特徴

Cortical Features for Defense Against Adversarial Audio Attacks ( http://arxiv.org/abs/2102.00313v1 )

ライセンス: Link先を確認
Ilya Kavalerov, Frank Zheng, Wojciech Czaja, Rama Chellappa(参考訳) 本稿では,聴覚野の計算モデルを用いて,音声に対する逆攻撃に対する防御法を提案する。 我々は、Amazon AlexaのHWネットワークの実装にいくつかのホワイトボックス反復最適化ベースの敵攻撃を適用し、このネットワークの修正版に統合された皮質表現を適用し、この皮質機能は普遍的な敵の例を守るのに役立つことを示す。 同じレベルの歪みでは、皮質ネットワークで検出される敵のノイズは常に普遍的なオーディオ攻撃には効果がない。 コードはhttps://github.com/i lyakava/py3fst.comで公開しています。

We propose using a computational model of the auditory cortex as a defense against adversarial attacks on audio. We apply several white-box iterative optimization-based adversarial attacks to an implementation of Amazon Alexa's HW network, and a modified version of this network with an integrated cortical representation, and show that the cortical features help defend against universal adversarial examples. At the same level of distortion, the adversarial noises found for the cortical network are always less effective for universal audio attacks. We make our code publicly available at https://github.com/i lyakava/py3fst.
翻訳日:2021-02-04 09:59:49 公開日:2021-01-30
# リーマン多様体上のエージェントシステムの学習相互作用核

Learning Interaction Kernels for Agent Systems on Riemannian Manifolds ( http://arxiv.org/abs/2102.00327v1 )

ライセンス: Link先を確認
Mauro Maggioni, Jason Miller, Hongda Qui, Ming Zhong(参考訳) 相互作用するエージェントと粒子系は、科学と工学の複雑な現象をモデル化するために広く使われている。 これらの力学系における相互作用核の学習問題は、与えられた軌道データからリーマン多様体上での進化に制約される。 提案手法はユークリッド設定で導入された[1]における理論とアルゴリズムを一般化する。 私たちが考えるモデルは、エージェント間のペアワイズリーマン距離に依存する相互作用カーネルに基づいており、エージェントはそれらを接続する最短測地線の方向に沿って局所的に相互作用する。 我々の推定子は、多様体の次元に依存しない速度で収束し、観測された力学と推定された力学の間の多様体上の軌道推定誤差に境界を導出することを示す。 2次元球面と双曲空間のpoincar\'eディスクモデルという2つの原型多様体に拘束された3つの古典的一階相互作用系(オピニオンダイナミクス、レナード・ジョーンズダイナミクス、プレデター・スワームシステム)上での学習アルゴリズムの高精度な性能を示す。 [1] F. Lu, M. Zhong, S. Tang, M. Maggioni, Nonparametric Inference of Interaction Laws in Systems of Agents from Trajectory Data, PNAS, 116 (2019), pp。 14424 - 14433.

Interacting agent and particle systems are extensively used to model complex phenomena in science and engineering. We consider the problem of learning interaction kernels in these dynamical systems constrained to evolve on Riemannian manifolds from given trajectory data. Our approach generalizes the theory and algorithms in [1] introduced in the Euclidean setting. The models we consider are based on interaction kernels depending on pairwise Riemannian distances between agents, with agents interacting locally along the direction of the shortest geodesic connecting them. We show that our estimators converge at a rate that is independent of the dimension of the manifold, and derive bounds on the trajectory estimation error, on the manifold, between the observed and estimated dynamics. We demonstrate highly accurate performance of the learning algorithm on three classical first order interacting systems, Opinion Dynamics, Lennard-Jones Dynamics, and a Predator-Swarm system, with each system constrained on two prototypical manifolds, the $2$-dimensional sphere and the Poincar\'e disk model of hyperbolic space. [1] F. Lu, M. Zhong, S. Tang, M. Maggioni, Nonparametric Inference of Interaction Laws in Systems of Agents from Trajectory Data, PNAS, 116 (2019), pp. 14424 - 14433.
翻訳日:2021-02-04 09:59:19 公開日:2021-01-30
# Melon Playlist Dataset:オーディオベースのプレイリスト生成と音楽タグ付けのための公開データセット

Melon Playlist Dataset: a public dataset for audio-based playlist generation and music tagging ( http://arxiv.org/abs/2102.00201v1 )

ライセンス: Link先を確認
Andres Ferraro, Yuntae Kim, Soohyeon Lee, Biho Kim, Namjun Jo, Semi Lim, Suyon Lim, Jungtaek Jang, Sehwan Kim, Xavier Serra, Dmitry Bogdanov(参考訳) オーディオ信号処理の分野での主な制限の1つは、著作権のある商業音楽の制限のために、オーディオ表現と高品質のアノテーションを備えた大規模な公開データセットがないことです。 Melon Playlist Datasetは649,091tracksのmel-spectrogramsの公開データセットであり、30,652の異なるタグでアノテートされた148,826の関連プレイリストである。 データはすべて、人気の高い韓国のストリーミングサービスMelonから集められている。 このデータセットは、音楽情報検索タスク、特に自動タグ付けおよび自動プレイリスト継続に適している。 後者は協調的なフィルタリング手法によって対処できるが、音声はトラックの提案やコールドスタート問題に耐性のある構築システムについて研究する機会を与え、ベースラインを提供する。 さらに、Melon Playlist Datasetに含まれるプレイリストとアノテーションは、メトリック学習と表現学習に適しています。

One of the main limitations in the field of audio signal processing is the lack of large public datasets with audio representations and high-quality annotations due to restrictions of copyrighted commercial music. We present Melon Playlist Dataset, a public dataset of mel-spectrograms for 649,091tracks and 148,826 associated playlists annotated by 30,652 different tags. All the data is gathered from Melon, a popular Korean streaming service. The dataset is suitable for music information retrieval tasks, in particular, auto-tagging and automatic playlist continuation. Even though the latter can be addressed by collaborative filtering approaches, audio provides opportunities for research on track suggestions and building systems resistant to the cold-start problem, for which we provide a baseline. Moreover, the playlists and the annotations included in the Melon Playlist Dataset make it suitable for metric learning and representation learning.
翻訳日:2021-02-04 09:48:48 公開日:2021-01-30
# (参考訳) NL-CNN:非線形畳み込みに基づく資源制約深層学習モデル [全文訳有]

NL-CNN: A Resources-Constraine d Deep Learning Model based on Nonlinear Convolution ( http://arxiv.org/abs/2102.00227v1 )

ライセンス: CC BY 4.0
Radu Dogaru and Ioana Dogaru(参考訳) NL-CNNと略される新しい畳み込みニューラルネットワークモデルが提案され、非線型畳み込みは畳み込み+非線形性層のカスケードにエミュレートされる。 実装のコードといくつかのトレーニング済みモデルが公開されている。 Performance evaluation for several widely known datasets is provided, showing several relevant features: i) for small / medium input image sizes the proposed network gives very good testing accuracy, given a low implementation complexity and model size; ii) compares favorably with other widely known resources-constraine d models, for instance in comparison to MobileNetv2 provides better accuracy with several times less training times and up to ten times less parameters (memory occupied by the model); iii) has a relevant set of hyper-parameters which can be easily and rapidly tuned due to the fast training specific to it. これらの機能により、NL-CNNはIoT、スマートセンシング、バイオメディカルポータブル機器など、人工知能をエネルギー制約のある環境にデプロイしなければならないアプリケーションに適している。

A novel convolution neural network model, abbreviated NL-CNN is proposed, where nonlinear convolution is emulated in a cascade of convolution + nonlinearity layers. The code for its implementation and some trained models are made publicly available. Performance evaluation for several widely known datasets is provided, showing several relevant features: i) for small / medium input image sizes the proposed network gives very good testing accuracy, given a low implementation complexity and model size; ii) compares favorably with other widely known resources-constraine d models, for instance in comparison to MobileNetv2 provides better accuracy with several times less training times and up to ten times less parameters (memory occupied by the model); iii) has a relevant set of hyper-parameters which can be easily and rapidly tuned due to the fast training specific to it. All these features make NL-CNN suitable for IoT, smart sensing, bio-medical portable instrumentation and other applications where artificial intelligence must be deployed in energy-constrained environments.
翻訳日:2021-02-03 08:47:22 公開日:2021-01-30
# (参考訳) SA-Net: 深層畳み込みニューラルネットワークのシャッフル注意 [全文訳有]

SA-Net: Shuffle Attention for Deep Convolutional Neural Networks ( http://arxiv.org/abs/2102.00240v1 )

ライセンス: CC BY 4.0
Qing-Long Zhang Yu-Bin Yang(参考訳) ニューラルネットワークが入力のすべての関連要素に正確に焦点を合わせられるようにするための注意機構は、ディープニューラルネットワークの性能向上に欠かせない要素となっている。 コンピュータビジョン研究で広く使われている2つの注意機構は、それぞれピクセルレベルのペアワイズ関係とチャネル依存性を捉えることを目的とした \textit{spatial attention} と \textit{channel attention} である。 それらを組み合わせることで、個々の実装よりも優れたパフォーマンスが得られるかもしれないが、必然的に計算オーバーヘッドが増加する。 本稿では,2種類の注意機構を効果的に組み合わせるために,Shuffle Unitsを採用した効率的なShuffle Attention(SA)モジュールを提案する。 特に、saファーストグループでは、並列に処理する前に複数のサブフィーチャにチャネル次元を割り当てる。 次に、各サブ機能に対して、SAはShuffle Unitを使用して、空間次元とチャネル次元の両方の特徴依存性を記述する。 その後、全てのサブ機能を集約し、異なるサブ機能間の情報通信を可能にするために「チャンネルシャッフル」オペレータが採用される。 提案されたSAモジュールは効率的だが効果的であり、例えばバックボーンResNet50に対するSAのパラメータと計算はそれぞれ300対25.56Mと2.76e-3 GFLOP対4.12GFLOPであり、性能向上はTop-1の精度で1.34%以上である。 分類のためのImageNet-1k,オブジェクト検出のためのMS COCO,インスタンスセグメンテーションなど,一般的なベンチマークにおける大規模な実験結果から,モデル複雑性を抑えながら精度を向上し,現在のSOTA法を著しく上回る結果が得られた。 コードとモデルはhttps://github.com/w ofmanaf/sa-netで入手できる。

Attention mechanisms, which enable a neural network to accurately focus on all the relevant elements of the input, have become an essential component to improve the performance of deep neural networks. There are mainly two attention mechanisms widely used in computer vision studies, \textit{spatial attention} and \textit{channel attention}, which aim to capture the pixel-level pairwise relationship and channel dependency, respectively. Although fusing them together may achieve better performance than their individual implementations, it will inevitably increase the computational overhead. In this paper, we propose an efficient Shuffle Attention (SA) module to address this issue, which adopts Shuffle Units to combine two types of attention mechanisms effectively. Specifically, SA first groups channel dimensions into multiple sub-features before processing them in parallel. Then, for each sub-feature, SA utilizes a Shuffle Unit to depict feature dependencies in both spatial and channel dimensions. After that, all sub-features are aggregated and a "channel shuffle" operator is adopted to enable information communication between different sub-features. The proposed SA module is efficient yet effective, e.g., the parameters and computations of SA against the backbone ResNet50 are 300 vs. 25.56M and 2.76e-3 GFLOPs vs. 4.12 GFLOPs, respectively, and the performance boost is more than 1.34% in terms of Top-1 accuracy. Extensive experimental results on common-used benchmarks, including ImageNet-1k for classification, MS COCO for object detection, and instance segmentation, demonstrate that the proposed SA outperforms the current SOTA methods significantly by achieving higher accuracy while having lower model complexity. The code and models are available at https://github.com/w ofmanaf/SA-Net.
翻訳日:2021-02-03 08:39:35 公開日:2021-01-30
# (参考訳) 機械翻訳:アルゴリズムバイアスが機械翻訳の言語的複雑さに及ぼす影響 [全文訳有]

Machine Translationese: Effects of Algorithmic Bias on Linguistic Complexity in Machine Translation ( http://arxiv.org/abs/2102.00287v1 )

ライセンス: CC BY 4.0
Eva Vanmassenhove, Dimitar Shterionov, Matthew Gwilliam(参考訳) 機械翻訳(MT)と自然言語処理(NLP)の分野における最近の研究は、既存のモデルがトレーニングデータで観測されたバイアスを増幅していることを示している。 言語技術におけるバイアスの増幅は、主にジェンダーバイアスなどの特定の現象に関して検討されている。 本研究では,mtにおけるジェンダー研究を超越し,バイアス増幅が言語にどのような影響を及ぼすかを検討する。 アルゴリズムバイアス(algorithmic bias)を仮定する。 頻繁なパターンの悪化と頻繁でないパターンの喪失は、現在のデータセットに存在する社会バイアスを悪化させるだけでなく、人工的に貧弱な言語である'機械翻訳'につながる可能性がある。 我々は,異なるデータ駆動型MTパラダイム(PB-SMT)とニューラルMT(NMT)による翻訳の言語的富度(語彙的および形態学的レベル)を評価する。 本研究では,2つの言語ペア(EN<=>FRとEN<=>ES)のMTパラダイムが生成する翻訳に語彙的および形態学的豊かさが失われていることを示した。

Recent studies in the field of Machine Translation (MT) and Natural Language Processing (NLP) have shown that existing models amplify biases observed in the training data. The amplification of biases in language technology has mainly been examined with respect to specific phenomena, such as gender bias. In this work, we go beyond the study of gender in MT and investigate how bias amplification might affect language in a broader sense. We hypothesize that the 'algorithmic bias', i.e. an exacerbation of frequently observed patterns in combination with a loss of less frequent ones, not only exacerbates societal biases present in current datasets but could also lead to an artificially impoverished language: 'machine translationese'. We assess the linguistic richness (on a lexical and morphological level) of translations created by different data-driven MT paradigms - phrase-based statistical (PB-SMT) and neural MT (NMT). Our experiments show that there is a loss of lexical and morphological richness in the translations produced by all investigated MT paradigms for two language pairs (EN<=>FR and EN<=>ES).
翻訳日:2021-02-03 07:46:18 公開日:2021-01-30
# (参考訳) 科学的レビューを自動化できますか? [全文訳有]

Can We Automate Scientific Reviewing? ( http://arxiv.org/abs/2102.00176v1 )

ライセンス: CC0 1.0
Weizhe Yuan and Pengfei Liu and Graham Neubig(参考訳) 科学技術の急速な発展は、査読された科学出版物の指数関数的な成長を伴う。 同時に、各論文のレビューは、主題の専門家によって実行されなければならない面倒なプロセスです。 したがって、この増え続ける論文の質の高いレビューを提供することは、大きな課題である。 この研究では、「科学的レビューを自動化できますか? 「最先端自然言語処理(NLP)モデルを用いて,学術論文の初歩的ピアレビューを作成する可能性について論じる。 レビューの定義は間違いなく最も難しいので、まずこのようなレビューに対して可能な評価基準について論じます。 次に、機械学習領域の論文のデータセットを収集し、各レビューでカバーされるコンテンツのさまざまな側面を注釈付けし、レビューを生成するために論文に取るターゲットを絞った要約モデルを訓練します。 総合的な実験結果から, システム生成レビューは, 人間が書いたレビューよりも多くの面に接する傾向が見られたが, 生成したテキストは, 論文の核となる考えを説明することを除いて, あらゆる面において, 構成性の低下に苦しむことがある。 私たちは最終的に、良いレビュー生成システムを追求する8つの課題と潜在的なソリューションをまとめてまとめました。 すべてのコードを作成し、データセットを公開します。 https://github.com/n eulab/ReviewAdvisor そしてReviewAdvisorシステムです。

The rapid development of science and technology has been accompanied by an exponential growth in peer-reviewed scientific publications. At the same time, the review of each paper is a laborious process that must be carried out by subject matter experts. Thus, providing high-quality reviews of this growing number of papers is a significant challenge. In this work, we ask the question "can we automate scientific reviewing?", discussing the possibility of using state-of-the-art natural language processing (NLP) models to generate first-pass peer reviews for scientific papers. Arguably the most difficult part of this is defining what a "good" review is in the first place, so we first discuss possible evaluation measures for such reviews. We then collect a dataset of papers in the machine learning domain, annotate them with different aspects of content covered in each review, and train targeted summarization models that take in papers to generate reviews. Comprehensive experimental results show that system-generated reviews tend to touch upon more aspects of the paper than human-written reviews, but the generated text can suffer from lower constructiveness for all aspects except the explanation of the core ideas of the papers, which are largely factually correct. We finally summarize eight challenges in the pursuit of a good review generation system together with potential solutions, which, hopefully, will inspire more future research on this subject. We make all code, and the dataset publicly available: https://github.com/n eulab/ReviewAdvisor, as well as a ReviewAdvisor system: http://review.nlpedi a.ai/.
翻訳日:2021-02-03 06:42:00 公開日:2021-01-30
# (参考訳) 人間の正しさから学ぶ [全文訳有]

Learning From How Human Correct ( http://arxiv.org/abs/2102.00225v1 )

ライセンス: CC BY 4.0
Tong Guo(参考訳) 業界NLPアプリケーションでは、手作業によるラベル付きデータには、一定の数のノイズデータがあります。 ノイズのあるデータを見つけて手作業で再ラベルする簡単な方法を提示し、その間に補正情報を収集します。 そして,人間の補正情報を深層学習モデルに組み込む新しい手法を提案する。 人間は騒々しいデータを補正する方法を知っています。 そのため、深層学習モデルに補正情報を注入することができる。 業界アプリケーション用にデータセット内のノイズの多いデータをリラベルするため、手作業でラベル付けされた独自のテキスト分類データセットで実験を行います。 実験の結果, 分類精度は91.7%から92.5%に向上した。 91.7%のベースラインは、修正されたデータセットに関するBERTトレーニングに基づいている。

In industry NLP application, our manually labeled data has a certain number of noisy data. We present a simple method to find the noisy data and relabel them manually, meanwhile we collect the correction information. Then we present novel method to incorporate the human correction information into deep learning model. Human know how to correct noisy data. So the correction information can be inject into deep learning model. We do the experiment on our own text classification dataset, which is manually labeled, because we relabel the noisy data in our dataset for our industry application. The experiment result shows that our method improve the classification accuracy from 91.7% to 92.5%. The 91.7% baseline is based on BERT training on the corrected dataset, which is hard to surpass.
翻訳日:2021-02-03 06:07:42 公開日:2021-01-30
# (参考訳) 微妙な感情アノテーションを最大限に活用すること。 [全文訳有]

If you've got it, flaunt it: Making the most of fine-grained sentiment annotations ( http://arxiv.org/abs/2102.00299v1 )

ライセンス: CC BY 4.0
Jeremy Barnes, Lilja {\O}vrelid, Erik Velldal(参考訳) きめ細かい感情分析は感情保持者、目標、極性表現を抽出し、それらの関係を解決しようとするが、アノテーションの難しさによって進歩は妨げられている。 一方, 対象感情分析は, 対象感情の抽出と極性分類に焦点をあてたより狭い作業であり, 本論文では, ホルダーと表現情報を組み込むことで, 対象感情の抽出と分類を改善し, 8つの英語データセットの実験を行うかを検討する。 我々は,目標と極性ラベルの同時予測により対象抽出が向上し,入力テキストに金の表現を付加することで対象の極性分類が向上することが結論付けられた。 これは、きめ細かい感情データセットに式をアノテートすることの重要性を強調している。 同時に, 極性表現予測のための現在のモデルの性能は低く, 実際の情報化のメリットを損なうことを示した。

Fine-grained sentiment analysis attempts to extract sentiment holders, targets and polar expressions and resolve the relationship between them, but progress has been hampered by the difficulty of annotation. Targeted sentiment analysis, on the other hand, is a more narrow task, focusing on extracting sentiment targets and classifying their polarity.In this paper, we explore whether incorporating holder and expression information can improve target extraction and classification and perform experiments on eight English datasets. We conclude that jointly predicting target and polarity BIO labels improves target extraction, and that augmenting the input text with gold expressions generally improves targeted polarity classification. This highlights the potential importance of annotating expressions for fine-grained sentiment datasets. At the same time, our results show that performance of current models for predicting polar expressions is poor, hampering the benefit of this information in practice.
翻訳日:2021-02-03 06:05:03 公開日:2021-01-30
# (参考訳) バイオニックビジョンのための深層学習に基づくシーン簡易化 [全文訳有]

Deep Learning--Based Scene Simplification for Bionic Vision ( http://arxiv.org/abs/2102.00297v1 )

ライセンス: CC BY 4.0
Nicole Han (1), Sudhanshu Srivastava (1), Aiwen Xu (1), Devi Klein (1), Michael Beyeler (1) ((1) University of California, Santa Barbara)(参考訳) 網膜変性疾患は世界中で1000万人以上の視覚障害を引き起こし、網膜補綴物はこれらの個人への視力回復のために開発されている。 コクラーインプラントに類似したこれらのデバイスは、生き残った網膜細胞を電気刺激して視覚的知覚(ホスフェン)を誘発します。 しかし、現在の義肢の視力の質はまだ未熟である。 自然な」ビジョンを復活させるよりも、人工視覚の有用性を最大化する画像処理技術として最先端のコンピュータビジョンアルゴリズムを借用する潜在的メリットがある。 ここでは,深層学習に基づくシーン簡易化戦略と,網膜の心理物理学的に検証された計算モデルを組み合わせて,シミュレーションされた人工視覚の現実的な予測を行い,様々な屋外シナリオにおける視覚障害者(仮想患者)のシーン理解を支援する能力を測定する。 対象のセグメンテーションは,視覚的なサリエンシーと単眼深度推定に基づくモデルよりも,シーン理解をより良くサポートできることを示す。 さらに, 生物学的に現実的なホスフィン形状モデル上での理論的予測の重要性を強調する。 全体として、この研究は網膜変性疾患を患っている人に対する人工視覚の有用性を大幅に改善する可能性がある。

Retinal degenerative diseases cause profound visual impairment in more than 10 million people worldwide, and retinal prostheses are being developed to restore vision to these individuals. Analogous to cochlear implants, these devices electrically stimulate surviving retinal cells to evoke visual percepts (phosphenes). However, the quality of current prosthetic vision is still rudimentary. Rather than aiming to restore "natural" vision, there is potential merit in borrowing state-of-the-art computer vision algorithms as image processing techniques to maximize the usefulness of prosthetic vision. Here we combine deep learning--based scene simplification strategies with a psychophysically validated computational model of the retina to generate realistic predictions of simulated prosthetic vision, and measure their ability to support scene understanding of sighted subjects (virtual patients) in a variety of outdoor scenarios. We show that object segmentation may better support scene understanding than models based on visual saliency and monocular depth estimation. In addition, we highlight the importance of basing theoretical predictions on biologically realistic models of phosphene shape. Overall, this work has the potential to drastically improve the utility of prosthetic vision for people blinded from retinal degenerative diseases.
翻訳日:2021-02-03 03:01:48 公開日:2021-01-30
# (参考訳) エピストクラシーアルゴリズム:複素最適化問題の解法のための新しいハイパーヒューリスティック最適化戦略 [全文訳有]

Epistocracy Algorithm: A Novel Hyper-heuristic Optimization Strategy for Solving Complex Optimization Problems ( http://arxiv.org/abs/2102.00292v1 )

ライセンス: CC BY-SA 4.0
Seyed Ziae Mousavi Mojab, Seyedmohammad Shams, Hamid Soltanian-Zadeh, Farshad Fotouhi(参考訳) 本稿では,人間の社会・政治行動と知性を組み込んで複雑な最適化問題を解く,エピストクラシーという新しい進化的アルゴリズムを提案する。 エピストクラシーアルゴリズムのインスピレーションは、教育を受けた人々が未教育か教育されていないよりも投票権を持つ政治政権に由来します。 このアルゴリズムは自己適応型でマルチ人口最適化であり、進化過程はリーダー評議会が主導する多くの集団で並行して行われる。 局所視能の低下を回避し, 早期収束を防止すべく, 重力力に基づく動的および適応的リーダーシップ, 動的人口配分と多様化, 分散に基づくステップサイズ決定, 回帰に基づくリーダーシップ調整といった複数の機構を用いる。 このアルゴリズムは、ラテンハイパーキューブサンプリング(LHS)と呼ばれる階層化サンプリング手法を用いて、探索空間の探索と蓄積した知識の活用のために、初期人口をより均等に分配する。 アルゴリズムの性能を調査し,信頼性を評価するために,マルチモーダルベンチマーク関数のセットを用い,そのアルゴリズムをMNISTデータセットに適用し,アルゴリズムの精度,スケーラビリティ,堅牢性を検証した。 実証実験の結果, エピストクラシーアルゴリズムは, 性能, 正確性, 収束性の観点から, 最先端進化・群知能アルゴリズムよりも優れていることがわかった。

This paper proposes a novel evolutionary algorithm called Epistocracy which incorporates human socio-political behavior and intelligence to solve complex optimization problems. The inspiration of the Epistocracy algorithm originates from a political regime where educated people have more voting power than the uneducated or less educated. The algorithm is a self-adaptive, and multi-population optimizer in which the evolution process takes place in parallel for many populations led by a council of leaders. To avoid stagnation in poor local optima and to prevent a premature convergence, the algorithm employs multiple mechanisms such as dynamic and adaptive leadership based on gravitational force, dynamic population allocation and diversification, variance-based step-size determination, and regression-based leadership adjustment. The algorithm uses a stratified sampling method called Latin Hypercube Sampling (LHS) to distribute the initial population more evenly for exploration of the search space and exploitation of the accumulated knowledge. To investigate the performance and evaluate the reliability of the algorithm, we have used a set of multimodal benchmark functions, and then applied the algorithm to the MNIST dataset to further verify the accuracy, scalability, and robustness of the algorithm. Experimental results show that the Epistocracy algorithm outperforms the tested state-of-the-art evolutionary and swarm intelligence algorithms in terms of performance, precision, and convergence.
翻訳日:2021-02-03 00:41:36 公開日:2021-01-30
# (参考訳) 最適化による公正性 [全文訳有]

Fairness through Optimization ( http://arxiv.org/abs/2102.00311v1 )

ライセンス: CC BY 4.0
Violet (Xinying) Chen, J.N. Hooker(参考訳) AIに基づく意思決定モデルにおける公平性を形式化する一般的なパラダイムとして最適化を提案する。 最適化モデルは、高度に高度なソリューション技術を活用すると同時に、社会福祉機能として幅広い公正基準を定式化することができると論じる。 本稿では,ニューラルネットワーク,サポートベクターマシン,ルールベースシステムといった文脈において,適切な制約を受ける社会福祉関数を最大化することにより,公平性指向の意思決定を支援する最適化モデルを提案する。 特に、公平性や公平性と効率性の組み合わせを測定するさまざまな機能のためのトラクタブル最適化モデルについて述べる。 これには、いくつかの不等式メトリクス、rawlsian criteria、mclooneとhoover indices、alpha fairness、nashとkalai-smorodinskyの交渉ソリューション、rawlsianとutilitarian criteriaの組み合わせ、統計バイアス測度が含まれる。 これらのモデルはすべて、線形プログラミング、混合整数/線形プログラミング、または(2つのケースで)特殊な凸プログラミング方法によって効率的に解くことができる。

We propose optimization as a general paradigm for formalizing fairness in AI-based decision models. We argue that optimization models allow formulation of a wide range of fairness criteria as social welfare functions, while enabling AI to take advantage of highly advanced solution technology. We show how optimization models can assist fairness-oriented decision making in the context of neural networks, support vector machines, and rule-based systems by maximizing a social welfare function subject to appropriate constraints. In particular, we state tractable optimization models for a variety of functions that measure fairness or a combination of fairness and efficiency. These include several inequality metrics, Rawlsian criteria, the McLoone and Hoover indices, alpha fairness, the Nash and Kalai-Smorodinsky bargaining solutions, combinations of Rawlsian and utilitarian criteria, and statistical bias measures. All of these models can be efficiently solved by linear programming, mixed integer/linear programming, or (in two cases) specialized convex programming methods.
翻訳日:2021-02-03 00:27:14 公開日:2021-01-30
# (参考訳) 簡易微調整BERTによる音声認識 [全文訳有]

Speech Recognition by Simply Fine-tuning BERT ( http://arxiv.org/abs/2102.00291v1 )

ライセンス: CC BY 4.0
Wen-Chin Huang, Chia-Hua Wu, Shang-Bao Luo, Kuan-Yu Chen, Hsin-Min Wang, Tomoki Toda(参考訳) 大規模非ラベルテキストデータに訓練された言語モデル(LM)であるBERTを微調整し,リッチな文脈表現を生成する簡易な自動音声認識手法を提案する。 我々の仮定は、歴史文脈列が与えられた場合、強力なLMは選択肢の範囲を狭め、音声信号は単純な手がかりとして使用できるというものである。 したがって,従来の音響モデル(AM)をスクラッチから訓練するシステムと比較して,BERTモデルを微調整するだけで音声認識が可能であると信じている。 初期研究として,提案されたアイデアの有効性をAISHELLデータセット上で実証し,BERT上に非常に単純なAMを積み重ねることで,合理的なパフォーマンスが得られることを示す。

We propose a simple method for automatic speech recognition (ASR) by fine-tuning BERT, which is a language model (LM) trained on large-scale unlabeled text data and can generate rich contextual representations. Our assumption is that given a history context sequence, a powerful LM can narrow the range of possible choices and the speech signal can be used as a simple clue. Hence, comparing to conventional ASR systems that train a powerful acoustic model (AM) from scratch, we believe that speech recognition is possible by simply fine-tuning a BERT model. As an initial study, we demonstrate the effectiveness of the proposed idea on the AISHELL dataset and show that stacking a very simple AM on top of BERT can yield reasonable performance.
翻訳日:2021-02-02 23:18:25 公開日:2021-01-30
# (参考訳) 協調物体検出におけるパケット損失の遅延空間インペインティング [全文訳有]

Latent-Space Inpainting for Packet Loss Concealment in Collaborative Object Detection ( http://arxiv.org/abs/2102.00142v1 )

ライセンス: CC BY 4.0
Ivan V. Baji\'c(参考訳) カメラや移動機などのエッジデバイスは、従来の信号の感知と通信の任務に加えて、高度な計算を行う能力が増している。 本論文では,入力画像からエッジデバイス上で計算された深い特徴をクラウドに送信し,さらに処理を行う協調オブジェクト検出に焦点をあてる。 パケット損失が送信した特徴に与える影響を考察し、欠落したデータを回復する方法をいくつか検討する。 特に, 理論と実験により, 偏微分方程式に基づく画像インペインティング手法が潜在空間における欠落特徴の回復に有効であることを示す。 得られた結果は,協調物体検出におけるデータ回復の欠如に関する新たな技術である。

Edge devices, such as cameras and mobile units, are increasingly capable of performing sophisticated computation in addition to their traditional roles in sensing and communicating signals. The focus of this paper is on collaborative object detection, where deep features computed on the edge device from input images are transmitted to the cloud for further processing. We consider the impact of packet loss on the transmitted features and examine several ways for recovering the missing data. In particular, through theory and experiments, we show that methods for image inpainting based on partial differential equations work well for the recovery of missing features in the latent space. The obtained results represent the new state of the art for missing data recovery in collaborative object detection.
翻訳日:2021-02-02 21:36:34 公開日:2021-01-30
# (参考訳) 球状星団系の運動学から銀河質量を推定する:深層学習に基づく新しい方法 [全文訳有]

Estimating galaxy masses from kinematics of globular cluster systems: a new method based on deep learning ( http://arxiv.org/abs/2102.00277v1 )

ライセンス: CC0 1.0
Rajvir Kaur, Kenji Bekki, Ghulam Mubashar Hassan, Amitava Datta(参考訳) 本稿では,暗黒物質を含む銀河の総質量を球状星団系(gcss)の運動量から推定する新しい方法を提案する。 提案手法では,畳み込みニューラルネットワーク(cnns)を,円板銀河と楕円銀河の数値シミュレーションにより予測されたgcsの線速度(v$)と速度分散(\sigma$)の二次元(2d)マップに適用する。 この方法では、まず、合成された2Dマップの$\sigma$("1チャネル")、または$\sigma$("2チャネル")の$\sigma$と$V$("2チャネル")の2Dマップの大きい数("\sim 200,000$")でCNNを訓練する。 次に、CNNを使用して、CNNの訓練に使用されていない完全に未知のデータセットについて、銀河の総質量(CNNのテスト)を予測します。 その結果, 1チャネルデータと2チャネルデータの総合的精度は97.6\%, 97.8\%であり, 新手法が期待できることが示唆された。 1チャンネルデータの平均絶対誤差(MAEs)はそれぞれ0.288と0.275であり、根平均二乗誤差(RMSEs)の値は1チャンネルと2チャンネルそれぞれ0.539と0.51である。 これらの2チャネルデータに対するより小さなmaesとrmses(すなわち、より良い性能)は、新しい手法が質量推定におけるgcsのグローバル回転を適切に考慮できることを示唆している。 我々は,新しい質量推定法における予測精度がcnnのアーキテクチャに依存するだけでなく,合成画像にノイズを導入することによっても影響を受けることを強調する。

We present a new method by which the total masses of galaxies including dark matter can be estimated from the kinematics of their globular cluster systems (GCSs). In the proposed method, we apply the convolutional neural networks (CNNs) to the two-dimensional (2D) maps of line-of-sight-veloci ties ($V$) and velocity dispersions ($\sigma$) of GCSs predicted from numerical simulations of disk and elliptical galaxies. In this method, we first train the CNN using either only a larger number ($\sim 200,000$) of the synthesized 2D maps of $\sigma$ ("one-channel") or those of both $\sigma$ and $V$ ("two-channel"). Then we use the CNN to predict the total masses of galaxies (i.e., test the CNN) for the totally unknown dataset that is not used in training the CNN. The principal results show that overall accuracy for one-channel and two-channel data is 97.6\% and 97.8\% respectively, which suggests that the new method is promising. The mean absolute errors (MAEs) for one-channel and two-channel data are 0.288 and 0.275 respectively, and the value of root mean square errors (RMSEs) are 0.539 and 0.51 for one-channel and two-channel respectively. These smaller MAEs and RMSEs for two-channel data (i.e., better performance) suggest that the new method can properly consider the global rotation of GCSs in the mass estimation. We stress that the prediction accuracy in the new mass estimation method not only depends on the architectures of CNNs but also can be affected by the introduction of noise in the synthesized images.
翻訳日:2021-02-02 21:26:28 公開日:2021-01-30
# (参考訳) 映像再生によるコンテンツ・モーション・ディエンタングルメントのインダクティブバイアス [全文訳有]

Video Reenactment as Inductive Bias for Content-Motion Disentanglement ( http://arxiv.org/abs/2102.00324v1 )

ライセンス: CC BY 4.0
Juan F. Hern\'andez Albarrac\'in and Ad\'in Ram\'irez Rivera(参考訳) 動画から動きやコンテンツを切り離すための自己監視型モーショントランスファーVAEモデルを紹介します。 映像におけるコンテンツ・モーション・ディエングルメントに関するこれまでの研究とは異なり、私たちはチャンクワイズモデリングアプローチを採用し、時空間近傍に含まれるモーション情報を利用しています。 我々のモデルは、独立にモデル化され、時間的一貫性を保つことができるチャンク毎の表現を生成する。 したがって、ビデオ全体を単一のフォワードパスで再構築する。 ELBOのログの類似期間を延長し、モーション機能のスワップが2つのビデオ間の再現をもたらすと仮定して、インダクタティブバイアスとしてBlind Reenactment Lossを含む。 提案する不等角化指標を用いて実験を行い,ビデオモーションコンテンツの不等角化の方法が多種多様であることを示す。 映像再現実験では,モデルが復元品質と動作アライメントのベースラインを上回る入力空間における不連続の効果が示された。

We introduce a self-supervised motion-transfer VAE model to disentangle motion and content from video. Unlike previous work regarding content-motion disentanglement in videos, we adopt a chunk-wise modeling approach and take advantage of the motion information contained in spatiotemporal neighborhoods. Our model yields per-chunk representations that can be modeled independently and preserve temporal consistency. Hence, we reconstruct whole videos in a single forward-pass. We extend the ELBO's log-likelihood term and include a Blind Reenactment Loss as inductive bias to leverage motion disentanglement, under the assumption that swapping motion features yields reenactment between two videos. We test our model on recently-proposed disentanglement metrics, and show that it outperforms a variety of methods for video motion-content disentanglement. Experiments on video reenactment show the effectiveness of our disentanglement in the input space where our model outperforms the baselines in reconstruction quality and motion alignment.
翻訳日:2021-02-02 21:05:38 公開日:2021-01-30
# (参考訳) ごみ分類の結合イノベーション手法と実現可能性解析 [全文訳有]

Coupling innovation method and feasibility analysis of garbage classification ( http://arxiv.org/abs/2102.00193v1 )

ライセンス: CC BY 4.0
Zizhe Wang, Shaomeng Shen, Jiabei Mu(参考訳) In order to solve the recent defect in garbage classification - including low level of intelligence, low accuracy and high cost of equipment, this paper presents a series of methods in identification and judgment in intelligent garbage classification, including a material identification based on thermal principle and non-destructive laser irradiation, another material identification based on optical diffraction and phase analysis, a profile identification which utilizes a scenery thermal image after PCA and histogram correction, another profile identification which utilizes computer vision with innovated data sets and algorithms. AHPとベイズ式を組み合わせたこの論文は、材料とプロファイルの識別に基づいて、ゴミの選別を包括的に判断するのに役立つ結合アルゴリズムを革新する。 本論文では, 空気を流体として用いたガベージ缶のリアルタイム空間計測法を提案し, 空気清浄と粒子処分の機能を解析する。 本論文では, ゴミ画像認識を単独で使用するのではなく, 材料とプロファイルの識別によって, ゴミの分類の精度と知能を大幅に向上させる包括的な方法を提案する。

In order to solve the recent defect in garbage classification - including low level of intelligence, low accuracy and high cost of equipment, this paper presents a series of methods in identification and judgment in intelligent garbage classification, including a material identification based on thermal principle and non-destructive laser irradiation, another material identification based on optical diffraction and phase analysis, a profile identification which utilizes a scenery thermal image after PCA and histogram correction, another profile identification which utilizes computer vision with innovated data sets and algorithms. Combining AHP and Bayesian formula, the paper innovates a coupling algorithm which helps to make a comprehensive judgment of the garbage sort, based on the material and profile identification. This paper also proposes a method for real-time space measurement of garbage cans, which based on the characteristics of air as fluid, and analyses the functions of air cleaning and particle disposing. Instead of the single use of garbage image recognition, this paper provides a comprehensive method to judge the garbage sort by material and profile identifications, which greatly enhancing the accuracy and intelligence in garbage classification.
翻訳日:2021-02-02 18:56:43 公開日:2021-01-30
# (参考訳) 深層畳み込みニューラルネットワークを用いた肺コクシジオイドマイコシス(Valley fever)の検出 [全文訳有]

Detecting Pulmonary Coccidioidomycosis (Valley fever) with Deep Convolutional Neural Networks ( http://arxiv.org/abs/2102.00280v1 )

ライセンス: CC BY 4.0
Jordan Ott, David Bruyette, Cody Arbuckle, Dylan Balsz, Silke Hecht, Lisa Shubitz, Pierre Baldi(参考訳) コクシジオイドマイコシス(Coccidioidomycosis) は、アメリカ合衆国南西部の犬における最も一般的な全身性マイコシスである。 温暖化により、影響地域やケースの数は今後数年で増加し、人間への感染機会も増大すると予想されている。 その結果、病気の検出を自動化する方法の開発は、医師や獣医師がより簡単に陽性症例を識別し、診断するのに役立つため、重要です。 機械学習モデルを用いてコクシディオイドマイコシスの正確かつ解釈可能な予測を行う。 画像のセットを組み立てて,最先端の畳み込みニューラルネットワークの訓練とテストを行い,コクシディオイドマイコシスの検出を行う。 これらの方法は比較的安価で、推論時に非常に高速です。 10倍のクロスバリデーションを用いてAUC(Area Under the Curve)を0.99以上で検出し,本手法の有効性を実証した。 また, この分類モデルを用いて, 画像の関心領域を同定し, 画像中の疾患の局所化を行う。 この概念実証研究は、放射線画像におけるValley Feverの高精度かつ迅速な自動検出の可能性を確立している。

Coccidioidomycosis is the most common systemic mycosis in dogs in the southwestern United States. With warming climates, affected areas and number of cases are expected to increase in the coming years, escalating also the chances of transmission to humans. As a result, developing methods for automating the detection of the disease is important, as this will help doctors and veterinarians more easily identify and diagnose positive cases. We apply machine learning models to provide accurate and interpretable predictions of Coccidioidomycosis. We assemble a set of radiographic images and use it to train and test state-of-the-art convolutional neural networks to detect Coccidioidomycosis. These methods are relatively inexpensive to train and very fast at inference time. We demonstrate the successful application of this approach to detect the disease with an Area Under the Curve (AUC) above 0.99 using 10-fold cross validation. We also use the classification model to identify regions of interest and localize the disease in the radiographic images, as illustrated through visual heatmaps. This proof-of-concept study establishes the feasibility of very accurate and rapid automated detection of Valley Fever in radiographic images.
翻訳日:2021-02-02 18:43:17 公開日:2021-01-30
# ヒンディー語NLPシステムの分類学的研究

Taxonomic survey of Hindi Language NLP systems ( http://arxiv.org/abs/2102.00214v1 )

ライセンス: Link先を確認
Nikita P. Desai, Prof.(Dr.) Vipul K. Dabhi(参考訳) Natural Language processing (NLP) represents the task of automatic handling of natural human language by machines.There is large spectrum of possible applications of NLP which help in automating tasks like translating text from one language to other, retrieving and summarizing data from very huge repositories, spam email filtering, identifying fake news in digital media, find sentiment and feedback of people, find political opinions and views of people on various government policies, provide effective medical assistance based on past history records of patient etc. ヒンディー語はインドの公用語であり、インドでは6億1100万人、他国では3億6600万人近いユーザーがいる。 現在、インド国内外で多くの政府および民間部門プロジェクトと研究者が、インドの言語のためのNLPアプリケーションとリソースの開発に取り組んでいます。 この調査は、ヒンディー語NLPで利用可能なリソースとアプリケーションのレポートを提供します。

Natural Language processing (NLP) represents the task of automatic handling of natural human language by machines.There is large spectrum of possible applications of NLP which help in automating tasks like translating text from one language to other, retrieving and summarizing data from very huge repositories, spam email filtering, identifying fake news in digital media, find sentiment and feedback of people, find political opinions and views of people on various government policies, provide effective medical assistance based on past history records of patient etc. Hindi is the official language of India with nearly 691 million users in India and 366 million in rest of world. At present, a number of government and private sector projects and researchers in India and abroad, are working towards developing NLP applications and resources for Indian languages. This survey gives a report of the resources and applications available for Hindi language NLP.
翻訳日:2021-02-02 17:03:52 公開日:2021-01-30
# メタ学習のデータ効率について

On Data Efficiency of Meta-learning ( http://arxiv.org/abs/2102.00127v1 )

ライセンス: Link先を確認
Maruan Al-Shedivat, Liam Li, Eric Xing, Ameet Talwalkar(参考訳) メタラーニングにより、新しい予測タスクに素早く適応できる統計モデルを学習できるようになった。 パーソナライズされたフェデレーション学習のユースケースに動機づけられ、現代のメタ学習アルゴリズムのしばしば見過ごされがちな側面であるデータ効率の研究を行った。 どの手法がより効率的かを明らかにするため,我々はアルゴリズム安定性から重要な実践的意味を持つ伝達リスクの境界を導出する手法を用いて,各手法が求める一般化レベルを達成するためにどの程度の監督が必要か,どのように割り当てるべきかを示す。 さらに,メタラーニング手法を評価するための新しい簡易なフレームワークを提案するとともに,maml, reptile,protonetsの実証的な研究を行い,マイナショット学習ベンチマークおよびフェデレーション学習ベンチマークにおいて,これらの手法の挙動の違いを実証する。 最後に、アクティブデータ選択を学習から学習に組み込むアクティブメタラーニングを提案し、限られた監督体制ですべてのメソッドのパフォーマンスを向上させます。

Meta-learning has enabled learning statistical models that can be quickly adapted to new prediction tasks. Motivated by use-cases in personalized federated learning, we study the often overlooked aspect of the modern meta-learning algorithms -- their data efficiency. To shed more light on which methods are more efficient, we use techniques from algorithmic stability to derive bounds on the transfer risk that have important practical implications, indicating how much supervision is needed and how it must be allocated for each method to attain the desired level of generalization. Further, we introduce a new simple framework for evaluating meta-learning methods under a limit on the available supervision, conduct an empirical study of MAML, Reptile, and Protonets, and demonstrate the differences in the behavior of these methods on few-shot and federated learning benchmarks. Finally, we propose active meta-learning, which incorporates active data selection into learning-to-learn, leading to better performance of all methods in the limited supervision regime.
翻訳日:2021-02-02 16:56:23 公開日:2021-01-30
# 無線画像伝送のためのSNR適応深部接合源チャネル符号化

SNR-adaptive deep joint source-channel coding for wireless image transmission ( http://arxiv.org/abs/2102.00202v1 )

ライセンス: Link先を確認
Mingze Ding and Jiahui Li and Mengyao Ma and Xiaopeng Fan(参考訳) 本論文では,ノイズの多いチャネル上での画像のマルチユーザ伝送のためのジョイントソースチャネル符号化(JSCC)の問題を考えることにより,自動エンコーダを用いた深部ソースチャネル符号化方式を提案する。 提案したJSCC方式では,信号対雑音比(SNR)を推定し,それを用いて送信画像の適応復号を行う。 実験により,提案方式は異なるSNRの適応性に優れた結果が得られ,SNRのデコーダ推定誤差に頑健であることが示された。 我々の知る限りでは、これは、異なるSNRの適応性に焦点を当て、マルチユーザシナリオに適用できる最初のディープJSCCスキームである。

Considering the problem of joint source-channel coding (JSCC) for multi-user transmission of images over noisy channels, an autoencoder-based novel deep joint source-channel coding scheme is proposed in this paper. In the proposed JSCC scheme, the decoder can estimate the signal-to-noise ratio (SNR) and use it to adaptively decode the transmitted image. Experiments demonstrate that the proposed scheme achieves impressive results in adaptability for different SNRs and is robust to the decoder's estimation error of the SNR. To the best of our knowledge, this is the first deep JSCC scheme that focuses on the adaptability for different SNRs and can be applied to multi-user scenarios.
翻訳日:2021-02-02 16:44:45 公開日:2021-01-30
# オンライン広告のためのDeep Reinforcement Learning-based Product Recommender

Deep Reinforcement Learning-Based Product Recommender for Online Advertising ( http://arxiv.org/abs/2102.00333v1 )

ライセンス: Link先を確認
Milad Vaali Esfahaani, Yanbo Xue, and Peyman Setoodeh(参考訳) オンライン広告では、レコメンダーシステムは、関心に応じて潜在的な顧客に製品のリストからアイテムを提案しようとします。 このようなシステムは、情報技術の急速な成長と大規模データセットの可用性により、電子商取引にますます展開されている。 人工知能の分野における進歩は、このような現実の問題に対処するための強力なツールを提供してきた。 深層ニューラルネットワークを普遍関数近似器としてデプロイする深層強化学習(RL)は、推奨システムの設計と実装に有効なアプローチであると見なすことができる。 本稿では,オンライン広告のレコメンダシステムを設計するための,価値ベースとポリシーベースの深層rlアルゴリズムの比較研究を行う。 RecoGym環境は、これらのRLベースのレコメンデータシステムのトレーニングに採用され、長期記憶(LSTM)がこれら2つのアプローチでそれぞれ価値とポリシーネットワークを構築するためにデプロイされる。 LSTMは、注文がユーザによるアイテム観察のシーケンスで果たす重要な役割を考慮に入れるために使用される。 デザインされたレコメンダーシステムは、推奨アイテムのクリックスルー率(CTR)を最大化することを目指しています。 最後に、レコメンダーシステムが取り扱うと予想されるさまざまなシナリオに適したRLアルゴリズムを選択するためのガイドラインが提供される。

In online advertising, recommender systems try to propose items from a list of products to potential customers according to their interests. Such systems have been increasingly deployed in E-commerce due to the rapid growth of information technology and availability of large datasets. The ever-increasing progress in the field of artificial intelligence has provided powerful tools for dealing with such real-life problems. Deep reinforcement learning (RL) that deploys deep neural networks as universal function approximators can be viewed as a valid approach for design and implementation of recommender systems. This paper provides a comparative study between value-based and policy-based deep RL algorithms for designing recommender systems for online advertising. The RecoGym environment is adopted for training these RL-based recommender systems, where the long short term memory (LSTM) is deployed to build value and policy networks in these two approaches, respectively. LSTM is used to take account of the key role that order plays in the sequence of item observations by users. The designed recommender systems aim at maximising the click-through rate (CTR) for the recommended items. Finally, guidelines are provided for choosing proper RL algorithms for different scenarios that the recommender system is expected to handle.
翻訳日:2021-02-02 16:44:10 公開日:2021-01-30
# Enacted Visual Perception: Piaget Equilibriumに基づく計算モデル

Enacted Visual Perception: A Computational Model based on Piaget Equilibrium ( http://arxiv.org/abs/2102.00339v1 )

ライセンス: Link先を確認
Aref Hakimzadeh, Yanbo Xue, and Peyman Setoodeh(参考訳) モーリス・メルロー=ポンティの認識の現象学では、知覚の分析は意図の要素であり、それゆえに知覚と行動は別個の手続きとみなすことはできない。 同じ考え方では、Alva No\"{e} は、知覚は行動と思考の能力に依存する思考活動であると考えている。 本稿では、心理学をインスピレーションの源として捉えることにより、ジャン・ピゲが定義する平衡の概念に基づく視覚知覚に関わる行動の計算モデルを提案する。 このようなモデルでは、ピアジェの平衡は、観察過程を制御するために用いられる心の状態に反映する。 提案モデルは、フィルタ性能を向上した畳み込みニューラルネットワーク(CNN)の修正版に基づいて構築され、フィルタの特性は、知覚における思慮深い活動を説明する高レベル制御信号を介して適応的に調整される。 CNNが視覚システムの役割を担っている間、制御信号は心の産物であると仮定されます。

In Maurice Merleau-Ponty's phenomenology of perception, analysis of perception accounts for an element of intentionality, and in effect therefore, perception and action cannot be viewed as distinct procedures. In the same line of thinking, Alva No\"{e} considers perception as a thoughtful activity that relies on capacities for action and thought. Here, by looking into psychology as a source of inspiration, we propose a computational model for the action involved in visual perception based on the notion of equilibrium as defined by Jean Piaget. In such a model, Piaget's equilibrium reflects the mind's status, which is used to control the observation process. The proposed model is built around a modified version of convolutional neural networks (CNNs) with enhanced filter performance, where characteristics of filters are adaptively adjusted via a high-level control signal that accounts for the thoughtful activity in perception. While the CNN plays the role of the visual system, the control signal is assumed to be a product of mind.
翻訳日:2021-02-02 16:43:33 公開日:2021-01-30
# セマンティックセグメンテーションのためのクロスイメージピクセルコントラストの探索

Exploring Cross-Image Pixel Contrast for Semantic Segmentation ( http://arxiv.org/abs/2101.11939v2 )

ライセンス: Link先を確認
Wenguan Wang, Tianfei Zhou, Fisher Yu, Jifeng Dai, Ender Konukoglu, Luc Van Gool(参考訳) 現在のセマンティックセグメンテーション手法は、個々の画像内のピクセル間の依存関係(例えば、拡張畳み込み、ニューラルアテンションなど)や構造対応最適化基準(例えば、IoUのような損失)によってのみ「局所的」コンテキストをマイニングすることに焦点を当てている。 しかし、それらはトレーニングデータの「グローバル」コンテキスト、すなわち異なる画像のピクセル間の豊富な意味的関係を無視します。 教師なしコントラスト表現学習の最近の進歩に触発されて,完全教師付きセグメンテーションにおけるセグメンテーションのための画素単位のコントラスト表現フレームワークを提案する。 コアのアイデアは、同じセマンティッククラスに属するピクセル埋め込みを、異なるクラスからの埋め込みよりも類似するように強制することです。 セマンティックセグメンテーションのためのピクセル単位のメートル法学習パラダイムを提起し、フィールドで長い間無視されてきたラベル付きピクセルの構造を明示的に探求する。 テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。 有名なセグメンテーションモデル(DeepLabV3、HRNet、OCRなど)とバックボーン(ResNet、HR-Netなど)によって、当社の手法はさまざまなデータセット(Cityscapes、PASCAL-Context、COCO-Stuffなど)で一貫したパフォーマンス向上を実現します。 この作業は、コミュニティが完全に監視されたセマンティックセグメンテーションにおける現在のデファクトトレーニングパラダイムを再考するのを奨励することを期待しています。

Current semantic segmentation methods focus only on mining "local" context, i.e., dependencies between pixels within individual images, by context-aggregation modules (e.g., dilated convolution, neural attention) or structure-aware optimization criteria (e.g., IoU-like loss). However, they ignore "global" context of the training data, i.e., rich semantic relations between pixels across different images. Inspired by the recent advance in unsupervised contrastive representation learning, we propose a pixel-wise contrastive framework for semantic segmentation in the fully supervised setting. The core idea is to enforce pixel embeddings belonging to a same semantic class to be more similar than embeddings from different classes. It raises a pixel-wise metric learning paradigm for semantic segmentation, by explicitly exploring the structures of labeled pixels, which are long ignored in the field. Our method can be effortlessly incorporated into existing segmentation frameworks without extra overhead during testing. We experimentally show that, with famous segmentation models (i.e., DeepLabV3, HRNet, OCR) and backbones (i.e., ResNet, HR-Net), our method brings consistent performance improvements across diverse datasets (i.e., Cityscapes, PASCAL-Context, COCO-Stuff). We expect this work will encourage our community to rethink the current de facto training paradigm in fully supervised semantic segmentation.
翻訳日:2021-02-02 16:40:22 公開日:2021-01-30
# DRIV100: In-The-Wild Multi-Domain Dataset and Evaluation for Real-World Domain Adaptation of Semantic Segmentation

DRIV100: In-The-Wild Multi-Domain Dataset and Evaluation for Real-World Domain Adaptation of Semantic Segmentation ( http://arxiv.org/abs/2102.00150v1 )

ライセンス: Link先を確認
Haruya Sakashita, Christoph Flothow, Noriko Takemura, Yusuke Sugano(参考訳) セマンティックセグメンテーションの最近の進歩とともに、トレーニングとデプロイメント環境の間のドメインギャップを克服する多くのドメイン適応手法が提案されている。 しかし、これまでのほとんどの研究では、ソース/ターゲットデータセットの限られた組み合わせを使用しており、ドメイン適応技術は、より困難で多様なターゲットドメインで徹底的に評価されることはなかった。 本研究は,インターネットから収集した道路シーンビデオの領域適応手法をベンチマークするための,新しいマルチドメインデータセット \datasetname~を提示する。 データセットは、人間の主観的判断と既存の道順データセットを用いて判断される異常スコアという2つの基準に基づいて、多様なシーン/ドメインをカバーするために選択された100ビデオのピクセルレベルのアノテーションで構成されている。 各ビデオに対して複数の手動でラベル付けされた地上構造フレームを提供し、各ビデオが個別に対象領域として機能するビデオレベルドメイン適応の徹底的な評価を可能にする。 このデータセットを用いて、最先端手法のドメイン適応性能を定量化し、ドメイン適応技術の可能性と新しい課題を明らかにする。 データセットはhttps://doi.org/10.5 281/zenodo.4389243で入手できる。

Together with the recent advances in semantic segmentation, many domain adaptation methods have been proposed to overcome the domain gap between training and deployment environments. However, most previous studies use limited combinations of source/target datasets, and domain adaptation techniques have never been thoroughly evaluated in a more challenging and diverse set of target domains. This work presents a new multi-domain dataset \datasetname~for benchmarking domain adaptation techniques on in-the-wild road-scene videos collected from the Internet. The dataset consists of pixel-level annotations for 100 videos selected to cover diverse scenes/domains based on two criteria; human subjective judgment and an anomaly score judged using an existing road-scene dataset. We provide multiple manually labeled ground-truth frames for each video, enabling a thorough evaluation of video-level domain adaptation where each video independently serves as the target domain. Using the dataset, we quantify domain adaptation performances of state-of-the-art methods and clarify the potential and novel challenges of domain adaptation techniques. The dataset is available at https://doi.org/10.5 281/zenodo.4389243.
翻訳日:2021-02-02 16:38:25 公開日:2021-01-30
# トレーニング履歴に基づく深層モデル圧縮

Deep Model Compression based on the Training History ( http://arxiv.org/abs/2102.00160v1 )

ライセンス: Link先を確認
S.H.Shabbeer Basha, Mohammad Farazuddin, Viswanath Pulabaigari, Shiv Ram Dubey, Snehasis Mukherjee(参考訳) Deep Convolutional Neural Networks(DCNN)は、LeNet、AlexNet、VGGNet、ResNetなどの一般的なアーキテクチャを提案する研究者を刺激するいくつかの視覚認識問題で有望な結果を示しています。 これらのアーキテクチャは、高い計算複雑さとパラメータストレージのコストがかかる。 ストレージと計算の複雑さを取り除くために、ディープモデル圧縮メソッドが進化した。 本稿では,ネットワークトレーニング履歴をフィルタプルーニングに用いるヒストリベースフィルタプルーニング手法を提案する。 具体的には,訓練期間におけるフィルタのl1ノルム(重みの絶対和)の類似パターンを観測することにより冗長フィルタを推定する。 CNNの冗長フィルタを3つのステップで繰り返し消去します。 まず、モデルをトレーニングし、各ペアに冗長なフィルタを持つフィルタペアを選択する。 次に,2組のフィルタ間の類似性を高めるために,ネットワークを最適化する。 情報を失うことなく、その重要性に基づいて、各ペアから1つのフィルターをプルーンすることができます。 最後に、フィルタプルーニングにより低下する性能を取り戻すために、ネットワークを再訓練する。 我々は,MNISTデータセット上のLeNet-5,CIFAR-10データセット上のVGG-16,ResNet-56,Res Net-110などの一般的なアーキテクチャに対するアプローチを検証した。 提案手法は,LeNet-5,VGG-16,ResN et-56,ResNet-110の各モデルにおいて,FLOPの97.98%,83.42%,78.43% ,74.95%の低減(浮動小数点演算)をそれぞれ上回る。

Deep Convolutional Neural Networks (DCNNs) have shown promising results in several visual recognition problems which motivated the researchers to propose popular architectures such as LeNet, AlexNet, VGGNet, ResNet, and many more. These architectures come at a cost of high computational complexity and parameter storage. To get rid of storage and computational complexity, deep model compression methods have been evolved. We propose a novel History Based Filter Pruning (HBFP) method that utilizes network training history for filter pruning. Specifically, we prune the redundant filters by observing similar patterns in the L1-norms of filters (absolute sum of weights) over the training epochs. We iteratively prune the redundant filters of a CNN in three steps. First, we train the model and select the filter pairs with redundant filters in each pair. Next, we optimize the network to increase the similarity between the filters in a pair. It facilitates us to prune one filter from each pair based on its importance without much information loss. Finally, we retrain the network to regain the performance, which is dropped due to filter pruning. We test our approach on popular architectures such as LeNet-5 on MNIST dataset and VGG-16, ResNet-56, and ResNet-110 on CIFAR-10 dataset. The proposed pruning method outperforms the state-of-the-art in terms of FLOPs reduction (floating-point operations) by 97.98%, 83.42%, 78.43%, and 74.95% for LeNet-5, VGG-16, ResNet-56, and ResNet-110 models, respectively, while maintaining the less error rate.
翻訳日:2021-02-02 16:37:45 公開日:2021-01-30
# ObjectAug:セマンティックイメージセグメンテーションのためのオブジェクトレベルのデータ拡張

ObjectAug: Object-level Data Augmentation for Semantic Image Segmentation ( http://arxiv.org/abs/2102.00221v1 )

ライセンス: Link先を確認
Jiawei Zhang, Yanchun Zhang, Xiaowei Xu(参考訳) セマンティックイメージセグメンテーションは、通常オーバーフィットに苦しむ正確な境界を持つオブジェクトラベルを得ることを目指しています。 近年,地域的ドロップアウトやミックス戦略といった様々なデータ拡張戦略が提案されている。 これらの戦略は、モデルを差別的でない部分に参加するよう導くのに有効であることが証明されている。 しかし、現在の戦略は画像レベルで動作し、オブジェクトと背景が結合されている。 したがって、境界は固定されたセマンティックシナリオのために十分に拡張されない。 本稿では,セマンティック画像のセグメンテーションのためのオブジェクトレベルの拡張を行うobjectaugを提案する。 ObjectAugは、まずイメージを個々のオブジェクトと背景にセマンティックラベルを使って分離する。 次に、各オブジェクトは、一般的に使用される拡張メソッド(スケーリング、シフト、ローテーションなど)で個別に拡張される。 そして、物体増強によってもたらされる黒領域をさらに画像インペインティングを用いて復元する。 最後に、拡張オブジェクトと背景は、拡張イメージとして組み立てられる。 このようにして、境界は様々なセマンティックなシナリオで完全に探索できる。 さらに、objectaugは、各カテゴリのオブジェクトに様々な可能性を与えるカテゴリ認識拡張をサポートし、既存の画像レベルの拡張メソッドと簡単に組み合わせることで、パフォーマンスをさらに高めることができる。 自然画像と医用画像データセットの両方で包括的な実験を行う。 実験の結果,objectaugはセグメント化性能を明らかに向上できることがわかった。

Semantic image segmentation aims to obtain object labels with precise boundaries, which usually suffers from overfitting. Recently, various data augmentation strategies like regional dropout and mix strategies have been proposed to address the problem. These strategies have proved to be effective for guiding the model to attend on less discriminative parts. However, current strategies operate at the image level, and objects and the background are coupled. Thus, the boundaries are not well augmented due to the fixed semantic scenario. In this paper, we propose ObjectAug to perform object-level augmentation for semantic image segmentation. ObjectAug first decouples the image into individual objects and the background using the semantic labels. Next, each object is augmented individually with commonly used augmentation methods (e.g., scaling, shifting, and rotation). Then, the black area brought by object augmentation is further restored using image inpainting. Finally, the augmented objects and background are assembled as an augmented image. In this way, the boundaries can be fully explored in the various semantic scenarios. In addition, ObjectAug can support category-aware augmentation that gives various possibilities to objects in each category, and can be easily combined with existing image-level augmentation methods to further boost performance. Comprehensive experiments are conducted on both natural image and medical image datasets. Experiment results demonstrate that our ObjectAug can evidently improve segmentation performance.
翻訳日:2021-02-02 16:36:51 公開日:2021-01-30
# X線CT応用における同時再構成と分割の迅速化

A fast method for simultaneous reconstruction and segmentation in X-ray CT application ( http://arxiv.org/abs/2102.00250v1 )

ライセンス: Link先を確認
Yiqiu Dong and Chunlin Wu and Shi Yan(参考訳) 本稿では,X線CT(Computerd tomography)における同時再構成と分割を高速に行う手法を提案する。 私たちの作品は、隠れマルコフ測量場モデル(HMMFM)でベイズの規則と最大後処理量(MAP)が使用されるSRSモデルに基づいています。 元の手法は、分類指標とは非分離な対数和(log-sum)項に導かれる。 このモデルにおける最小化問題は、特に大規模なCT問題を扱う場合に非常に時間がかかる制約勾配下降法であるFrank-Wolfeアルゴリズムを用いて解決した。 本論文の出発点は対数サム演算の可換性であり、補助変数を導入することにより対数サム問題を総和ログ問題に変換することができる。 SRSモデルの対応する和ログ問題は分離可能である。 交代最小化法を適用した後、この問題はいくつかの容易に解ける凸サブプロブレムへと変化する。 本稿では,Tikhonov正則化を加えた改良モデルについても検討し,いくつかの収束結果を与える。 実験により、提案アルゴリズムは、CPU時間を大幅に短縮した元のSRS法と同等な結果が得られることを示した。

In this paper, we propose a fast method for simultaneous reconstruction and segmentation (SRS) in X-ray computed tomography (CT). Our work is based on the SRS model where Bayes' rule and the maximum a posteriori (MAP) are used on hidden Markov measure field model (HMMFM). The original method leads to a logarithmic-summatio n (log-sum) term, which is non-separable to the classification index. The minimization problem in the model was solved by using constrained gradient descend method, Frank-Wolfe algorithm, which is very time-consuming especially when dealing with large-scale CT problems. The starting point of this paper is the commutativity of log-sum operations, where the log-sum problem could be transformed into a sum-log problem by introducing an auxiliary variable. The corresponding sum-log problem for the SRS model is separable. After applying alternating minimization method, this problem turns into several easy-to-solve convex sub-problems. In the paper, we also study an improved model by adding Tikhonov regularization, and give some convergence results. Experimental results demonstrate that the proposed algorithms could produce comparable results with the original SRS method with much less CPU time.
翻訳日:2021-02-02 16:36:13 公開日:2021-01-30
# 不均衡データストリーム分類のためのヘリンガー距離重み付けアンサンブル

Hellinger Distance Weighted Ensemble for Imbalanced Data Stream Classification ( http://arxiv.org/abs/2102.00266v1 )

ライセンス: Link先を確認
Joanna Grzyb, Jakub Klikowski, Micha{\l} Wo\'zniak(参考訳) 不均衡なデータ分類は依然として重要な問題です。 鍵となるのは、少数派と多数派の両方を正しく分類するメソッドを見つけることです。 本稿では,Helinger Distanceを用いてアンサンブルを練習する,バイナリ,非定常,不均衡なデータストリームを分類するための分類器アンサンブルを提案する。 本論文では, 実験結果に基づく手法の実験的評価について述べる。 最初のものは、基本分類器タイプが分類の質に及ぼす影響をチェックします。 第2の実験では,Helinger Distance Weighted Ensemble (HDWE) 法を,2つの基本分類器を用いた統計的試験を用いて選択した最先端手法と比較した。 多くの不均衡なデータストリームに基づいて本手法を深く検証し,HDWE法の有用性を実証した。

The imbalanced data classification remains a vital problem. The key is to find such methods that classify both the minority and majority class correctly. The paper presents the classifier ensemble for classifying binary, non-stationary and imbalanced data streams where the Hellinger Distance is used to prune the ensemble. The paper includes an experimental evaluation of the method based on the conducted experiments. The first one checks the impact of the base classifier type on the quality of the classification. In the second experiment, the Hellinger Distance Weighted Ensemble (HDWE) method is compared to selected state-of-the-art methods using a statistical test with two base classifiers. The method was profoundly tested based on many imbalanced data streams and obtained results proved the HDWE method's usefulness.
翻訳日:2021-02-02 16:35:34 公開日:2021-01-30
# ShufText: テキスト分類モデルの脆弱性を評価するためのシンプルなブラックボックスアプローチ

ShufText: A Simple Black Box Approach to Evaluate the Fragility of Text Classification Models ( http://arxiv.org/abs/2102.00238v1 )

ライセンス: Link先を確認
Rutuja Taware, Shraddha Varat, Gaurav Salunke, Chaitanya Gawande, Geetanjali Kale, Rahul Khengare, Raviraj Joshi(参考訳) テキスト分類は最も基本的な自然言語処理タスクです。 感情分析からトピック分類まで幅広い用途があります。 近年,CNN,LSTM,Transforme rsに基づくディープラーニングアプローチが,テキスト分類のデファクトアプローチとなっている。 本研究では,これらのアプローチにまつわる共通問題を取り上げる。 これらのシステムは、分類に有用なテキストに現れる重要な単語に過度に依存していることを示す。 限られたトレーニングデータと識別訓練戦略によって、これらのアプローチは文の意味的意味を無視し、キーワードや重要なn-gramにフォーカスする傾向がある。 モデルの欠点を提示し、キーワード上のモデルの過信頼性を特定するためのシンプルなブラックボックス技術ShutTextを提案します。 これは、文章中の単語をランダムにシャッフルし、分類精度を評価することである。 一般的なテキスト分類データセットでは、シャフリングの影響はほとんどなく、高い確率でこれらのモデルは元のクラスを予測します。 また,これらのモデルに対する言語モデルの事前学習の効果を評価し,モデルのロバスト性に関する質問に答える。 CNNやLSTMに基づく単純なモデルやBERTのような複雑なモデルは、それらの構文的および意味論的理解の観点から疑問を呈する。

Text classification is the most basic natural language processing task. It has a wide range of applications ranging from sentiment analysis to topic classification. Recently, deep learning approaches based on CNN, LSTM, and Transformers have been the de facto approach for text classification. In this work, we highlight a common issue associated with these approaches. We show that these systems are over-reliant on the important words present in the text that are useful for classification. With limited training data and discriminative training strategy, these approaches tend to ignore the semantic meaning of the sentence and rather just focus on keywords or important n-grams. We propose a simple black box technique ShutText to present the shortcomings of the model and identify the over-reliance of the model on keywords. This involves randomly shuffling the words in a sentence and evaluating the classification accuracy. We see that on common text classification datasets there is very little effect of shuffling and with high probability these models predict the original class. We also evaluate the effect of language model pretraining on these models and try to answer questions around model robustness to out of domain sentences. We show that simple models based on CNN or LSTM as well as complex models like BERT are questionable in terms of their syntactic and semantic understanding.
翻訳日:2021-02-02 16:25:29 公開日:2021-01-30
# Triple M:マルチガイダンス注意とマルチバンドマルチタイムLpcnetを備えた実用的なニューラルテキスト・トゥ・スピーカシステム

Triple M: A Practical Neural Text-to-speech System With Multi-guidance Attention And Multi-band Multi-time Lpcnet ( http://arxiv.org/abs/2102.00247v1 )

ライセンス: Link先を確認
Shilun Lin, Xinhui Li, Li Lu(参考訳) 注意メカニズムとニューラルボコーダを備えたシーケンシャル・トゥ・シークエンスネットワークは、音声合成の品質に大きな進歩を遂げていますが、大規模なリアルタイムアプリケーションでは解決すべき問題がまだいくつかあります。 例えば、リッチな韻律を維持しながら長文アライメントの失敗を回避し、知覚品質を確保しつつ計算オーバーヘッドを低減する。 そこで本研究では,マルチガイダンスに注目した seq2seq モデルとマルチバンドマルチタイム LPCNet からなる,実用的ニューラルテキスト・トゥ・スピーカシステム Triple M を提案する。 前者は、異なる注意機構のアライメント結果を用いて、基本的な注意機構の学習を誘導し、推論中の基本的な注意機構のみを保持する。 このアプローチは、基本的な推論アーキテクチャを変更することなく、すべてのガイダンスアテンションメソッドの利点を吸収することにより、text-to-featureモジュールのパフォーマンスを向上させることができる。 後者はマルチバンド戦略とマルチタイム戦略を組み合わせることで、LPCNetの計算複雑性を低減する。 マルチバンド戦略により、LPCNetは各推論でサブバンド信号を生成することができる。 1回のフォワード動作で隣接時間のサブバンド信号を予測することにより、マルチタイム戦略はさらに必要な推論回数を減少させる。 マルチバンドおよびマルチタイム戦略により、ボコーダの速度は単一のCPUで2.75倍に向上し、MOS(平均オピニオンスコア)の劣化はわずかである。

Although the sequence-to-sequence network with attention mechanism and neural vocoder has made great progress in the quality of speech synthesis, there are still some problems to be solved in large-scale real-time applications. For example, to avoid long sentence alignment failure while maintaining rich prosody, and to reduce the computational overhead while ensuring perceptual quality. In order to address these issues, we propose a practical neural text-to-speech system, named Triple M, consisting of a seq2seq model with multi-guidance attention and a multi-band multi-time LPCNet. The former uses alignment results of different attention mechanisms to guide the learning of the basic attention mechanism, and only retains the basic attention mechanism during inference. This approach can improve the performance of the text-to-feature module by absorbing the advantages of all guidance attention methods without modifying the basic inference architecture. The latter reduces the computational complexity of LPCNet through combining multi-band and multi-time strategies. The multi-band strategy enables the LPCNet to generate sub-band signals in each inference. By predicting the sub-band signals of adjacent time in one forward operation, the multi-time strategy further decreases the number of inferences required. Due to the multi-band and multi-time strategy, the vocoder speed is increased by 2.75x on a single CPU and the MOS (mean opinion score) degradation is slight.
翻訳日:2021-02-02 16:24:51 公開日:2021-01-30
# EmpathBERT: 画像認識型共感予測のためのBERTベースのフレームワーク

EmpathBERT: A BERT-based Framework for Demographic-aware Empathy Prediction ( http://arxiv.org/abs/2102.00272v1 )

ライセンス: Link先を確認
Bhanu Prakash Reddy Guda, Aparna Garimella and Niyati Chhaya(参考訳) 影響の好みは、ユーザの人口統計によって異なり、人口統計情報を入力することで、ユーザの言語嗜好に関する重要な手がかりを提供する。 本稿では,ユーザの人口動態を利用して,BERTに基づく共感予測のための人口動態認識フレームワークであるEmpathBERTを提案する。 いくつかの比較実験を通じて、EmpathBERTは従来の機械学習とディープラーニングモデルを超え、刺激的なニュース記事に対するユーザーの反応の共感と苦痛を予測するためのユーザー人口統計の重要性を示しています。 また、ユーザー人口属性を予測するための影響認識モデルの開発により、応答における影響情報の重要性を強調します。

Affect preferences vary with user demographics, and tapping into demographic information provides important cues about the users' language preferences. In this paper, we utilize the user demographics, and propose EmpathBERT, a demographic-aware framework for empathy prediction based on BERT. Through several comparative experiments, we show that EmpathBERT surpasses traditional machine learning and deep learning models, and illustrate the importance of user demographics to predict empathy and distress in user responses to stimulative news articles. We also highlight the importance of affect information in the responses by developing affect-aware models to predict user demographic attributes.
翻訳日:2021-02-02 16:24:05 公開日:2021-01-30
# Fake it Till you Make it: Self-Supervised Semantic Shifts for Monolingual Word Embedding Tasks

Fake it Till You Make it: Self-Supervised Semantic Shifts for Monolingual Word Embedding Tasks ( http://arxiv.org/abs/2102.00290v1 )

ライセンス: Link先を確認
Maur\'icio Gruppi, Sibel Adal{\i}, Pin-Yu Chen(参考訳) 言語の使用は、時間とともに社会グループや知識ドメインにまたがる変化の対象となるため、単言語シナリオにおいても違いが生じる。 このような単語の使用の変化は、しばしば lexical semantic change (lsc) と呼ばれる。 LSCの目標は、単語の意味に関する言語のバリエーションを特徴づけ、定量化し、2つの言語ソース(すなわち、人または言語モデル)がどのように異なるかを測定することです。 このようなタスクに利用可能なデータはほとんどないため、ほとんどのソリューションは、2つの埋め込みを調整し、距離測度に関して意味変化を予測する教師なしの手法を含む。 そこで本研究では,単語ベクトルの摂動を入力コーパスに導入することにより,学習サンプルを生成することで語彙意味変化をモデル化する自己教師型アプローチを提案する。 本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。 さらに、アライメントで使用するランドマークの単語を選択するために使用することができ、アライメントのための既存の技術よりも大幅に改善することができます。 3つの異なるデータセットで実験結果を用いて,同じ意味や異なる意味を持つ単語を含む手法の有用性を示す。 提案手法は大きな改善をもたらすだけでなく,LSC問題に対する新たな発見につながる可能性がある。

The use of language is subject to variation over time as well as across social groups and knowledge domains, leading to differences even in the monolingual scenario. Such variation in word usage is often called lexical semantic change (LSC). The goal of LSC is to characterize and quantify language variations with respect to word meaning, to measure how distinct two language sources are (that is, people or language models). Because there is hardly any data available for such a task, most solutions involve unsupervised methods to align two embeddings and predict semantic change with respect to a distance measure. To that end, we propose a self-supervised approach to model lexical semantic change by generating training samples by introducing perturbations of word vectors in the input corpora. We show that our method can be used for the detection of semantic change with any alignment method. Furthermore, it can be used to choose the landmark words to use in alignment and can lead to substantial improvements over the existing techniques for alignment. We illustrate the utility of our techniques using experimental results on three different datasets, involving words with the same or different meanings. Our methods not only provide significant improvements but also can lead to novel findings for the LSC problem.
翻訳日:2021-02-02 16:23:34 公開日:2021-01-30
# 多くのオプションで待機する: 自律的なナビゲーションのための強化学習アプローチ

Stay Alive with Many Options: A Reinforcement Learning Approach for Autonomous Navigation ( http://arxiv.org/abs/2102.00168v1 )

ライセンス: Link先を確認
Ambedkar Dukkipati, Rajarshi Banerjee, Ranga Shaarad Ayyagari, Dhaval Parmar Udaybhai(参考訳) 階層的強化学習アプローチは階層的決定構造に基づいてポリシーを学ぶ。 しかし、実際にはそのような方法の訓練は、あまりに少数の時間ステップでアクションを実行するサブポリシーまたは単一のポリシーに完全に移行して、悪い一般化につながる可能性があります。 本研究では,エージェントの目的が可能な限り長期化する環境や,あるいは言い換えれば「生き続ける」環境において,階層的な政策を使わずに,このようなスキルを逐次学習するための代替手法を導入する。 構築したシミュレーション3次元ナビゲーション環境において,本手法の有効性を実証する。 本手法は,我々の環境やatari river raid環境において,ソフトアクタ批判やソフトオプション批判といった従来の手法よりも優れていることを示す。

Hierarchical reinforcement learning approaches learn policies based on hierarchical decision structures. However, training such methods in practice may lead to poor generalization, with either sub-policies executing actions for too few time steps or devolving into a single policy altogether. In our work, we introduce an alternative approach to sequentially learn such skills without using an overarching hierarchical policy, in the context of environments in which an objective of the agent is to prolong the episode for as long as possible, or in other words `stay alive'. We demonstrate the utility of our approach in a simulated 3D navigation environment which we have built. We show that our method outperforms prior methods such as Soft Actor Critic and Soft Option Critic on our environment, as well as the Atari River Raid environment.
翻訳日:2021-02-02 16:21:00 公開日:2021-01-30
# ヒューマン・マシンインタラクションのための説明可能な人工知能と視線とのマッチング表現

Matching Representations of Explainable Artificial Intelligence and Eye Gaze for Human-Machine Interaction ( http://arxiv.org/abs/2102.00179v1 )

ライセンス: Link先を確認
Tiffany Hwu, Mia Levy, Steven Skorheim, David Huber(参考訳) タスクベース刺激の迅速な非言語コミュニケーションは、人間と機械のチーム、特に運転のようなクローズドループ相互作用における課題である。 これを達成するためには、人間と機械の両方の情報表現を理解し、これらの表現を橋渡しする基礎を定める必要がある。 階層的関連性伝播(LRP)のような説明可能な人工知能(XAI)の技術は、ディープニューラルネットワークなどの高次元機械学習技術の視覚的ヒートマップ説明を提供します。 人間の認知の側では、視覚注意は、現在のタスクに関連する感覚入力のボトムアップおよびトップダウン処理によって駆動される。 XAIと人間の認知は共にタスク関連の刺激に焦点を合わせなければならないため、視覚的注意の表現には重複があり、人間と機械の間の非言語コミュニケーションの手段を提供する可能性がある。 本研究では、運転行動予測のためのニューラルネットワークのLRPヒートマップ説明と、運転者の視線熱マップとの相関について検討する。 この分析により、運転性能向上のための手法が実現可能かどうかを判定する。 LRPのヒートマップは、ニューラルネットワークのタスク特異性に応じて目視との類似度が高まることを示している。 そこで我々は、これらの発見が、視覚的に関連する領域に注意を向けることで人間を助ける方法について提案する。 我々の知る限り、我々の研究は、LRPの既知の分析と、運転タスクの視線を初めて提供する。

Rapid non-verbal communication of task-based stimuli is a challenge in human-machine teaming, particularly in closed-loop interactions such as driving. To achieve this, we must understand the representations of information for both the human and machine, and determine a basis for bridging these representations. Techniques of explainable artificial intelligence (XAI) such as layer-wise relevance propagation (LRP) provide visual heatmap explanations for high-dimensional machine learning techniques such as deep neural networks. On the side of human cognition, visual attention is driven by the bottom-up and top-down processing of sensory input related to the current task. Since both XAI and human cognition should focus on task-related stimuli, there may be overlaps between their representations of visual attention, potentially providing a means of nonverbal communication between the human and machine. In this work, we examine the correlations between LRP heatmap explanations of a neural network trained to predict driving behavior and eye gaze heatmaps of human drivers. The analysis is used to determine the feasibility of using such a technique for enhancing driving performance. We find that LRP heatmaps show increasing levels of similarity with eye gaze according to the task specificity of the neural network. We then propose how these findings may assist humans by visually directing attention towards relevant areas. To our knowledge, our work provides the first known analysis of LRP and eye gaze for driving tasks.
翻訳日:2021-02-02 16:20:25 公開日:2021-01-30
# MUSE: 知識追跡のためのマルチスケール時間的特徴進化

MUSE: Multi-Scale Temporal Features Evolution for Knowledge Tracing ( http://arxiv.org/abs/2102.00228v1 )

ライセンス: Link先を確認
Chengwei Zhang, Yangzhou Jiang, Wei Zhang, Chengyu Gu(参考訳) トランスフォーマーに基づく知識追跡モデルは、コンピュータ支援教育の分野で広く研究されている問題です。 エンコーダ・デコーダ構造に時間的特徴を統合することで、トランスフォーマーは運動情報と学生応答情報を自然な方法で処理することができる。 しかし、現在の変圧器ベースの変種には2つの制限がある。 第一に、非常に長い時間的特徴は自己注意機構の複雑さが O(n2) であるためうまく扱えない。 第2に、既存のアプローチでは、時間範囲の違いを考慮せずに、ウィンドウサイズの固定された知識ドリフトを追跡する。 これらの問題を解決するために,局所的・グローバルな時間的特徴を考慮したマルチスケールの時間的センサユニットを備えたMUSEを提案する。 提案されたモデルは、異なる時間範囲におけるユーザ知識状態の動的変化をキャプチャし、ローカル機能とグローバル機能を組み合わせて予測を行う効率的かつ強力な方法を提供する。 本手法はriiid aied challenge 2020で3,395チームで5位となった。

Transformer based knowledge tracing model is an extensively studied problem in the field of computer-aided education. By integrating temporal features into the encoder-decoder structure, transformers can processes the exercise information and student response information in a natural way. However, current state-of-the-art transformer-based variants still share two limitations. First, extremely long temporal features cannot well handled as the complexity of self-attention mechanism is O(n2). Second, existing approaches track the knowledge drifts under fixed a window size, without considering different temporal-ranges. To conquer these problems, we propose MUSE, which is equipped with multi-scale temporal sensor unit, that takes either local or global temporal features into consideration. The proposed model is capable to capture the dynamic changes in users knowledge states at different temporal-ranges, and provides an efficient and powerful way to combine local and global features to make predictions. Our method won the 5-th place over 3,395 teams in the Riiid AIEd Challenge 2020.
翻訳日:2021-02-02 16:19:43 公開日:2021-01-30
# メガマンのためのより良い接続レベル構築のための複数生成逆ネットワークの利用

Using Multiple Generative Adversarial Networks to Build Better-Connected Levels for Mega Man ( http://arxiv.org/abs/2102.00337v1 )

ライセンス: Link先を確認
Benjamin Capps and Jacob Schrum(参考訳) Generative Adversarial Networks (GAN) は様々なゲームのレベルを生成することができる。 本稿では,GAN生成セグメントをスネーキングパターンで組み合わせ,メガマンのレベルを作成することに焦点を当てる。 そのようなレベルの隣接セグメントは直交的に任意の方向に近接できるので、訓練セットのどのセグメントが最も密にエミュレートされているか、垂直またはコーナーのセグメントかによって、その他の細かいセグメントは隣同士の障壁を課す可能性がある。 適切なセグメントを選択するために、複数のGANを異なるタイプのセグメントでトレーニングし、セグメント間のフローを改善する。 フローは、レベルに結合されるセグメントの潜伏ベクトルを進化させ、レベル解路の長さを最大化することでさらに改善された。 複数のGANを使用して異なる種類のセグメントを表すと、すべてのセグメントタイプに1つのGANを使用するよりもかなり長いソリューションパスになり、人間の被験者の研究は、これらのレベルがより楽しく、1つのGANによって生成されるレベルよりも人間的なデザインを持っていることを証明します。

Generative Adversarial Networks (GANs) can generate levels for a variety of games. This paper focuses on combining GAN-generated segments in a snaking pattern to create levels for Mega Man. Adjacent segments in such levels can be orthogonally adjacent in any direction, meaning that an otherwise fine segment might impose a barrier between its neighbor depending on what sorts of segments in the training set are being most closely emulated: horizontal, vertical, or corner segments. To pick appropriate segments, multiple GANs were trained on different types of segments to ensure better flow between segments. Flow was further improved by evolving the latent vectors for the segments being joined in the level to maximize the length of the level's solution path. Using multiple GANs to represent different types of segments results in significantly longer solution paths than using one GAN for all segment types, and a human subject study verifies that these levels are more fun and have more human-like design than levels produced by one GAN.
翻訳日:2021-02-02 16:19:07 公開日:2021-01-30
# 被害者の異なる犯罪報告が警察の予測システムに及ぼす影響

The effect of differential victim crime reporting on predictive policing systems ( http://arxiv.org/abs/2102.00128v1 )

ライセンス: Link先を確認
Nil-Jana Akpinar and Alexandra Chouldechova(参考訳) 世界中の警察は、20年以上にわたり、場所に基づくデータ駆動の積極的警察を実験してきた。 このようなシステムの現代の化身は一般にホットスポット予測ポリシング(Hot spot predictivepolicing)として知られている。 これらのシステムは、警察がこれらの地域にパトロールを割り当て、犯罪の発生を阻止できるように、将来の犯罪がどこに集中するかを予測する。 予測警察における公平性に関するこれまでの研究は、モデルが発見された犯罪データで訓練されたときに発生するフィードバックループに集中しているが、被害者犯罪報告データで訓練されたモデルには影響が限定されている。 地理的に異なる被害者犯罪報告率が,一般的な犯罪ホットスポット予測モデルにおける結果格差にどのようにつながるかを実証する。 本分析は,コロンビア・ボゴトワにおける地区レベルの被害者化と犯罪報告調査データに基づくシミュレーションである。 本研究では, 鑑別犯罪報告率が, 高犯罪から低報告領域から高・中犯罪, 高報告領域への予測ホットスポットの変位につながる可能性が示唆された。 これは、過度な政治と過度な政治の両方の形で誤配置を引き起こす可能性がある。

Police departments around the world have been experimenting with forms of place-based data-driven proactive policing for over two decades. Modern incarnations of such systems are commonly known as hot spot predictive policing. These systems predict where future crime is likely to concentrate such that police can allocate patrols to these areas and deter crime before it occurs. Previous research on fairness in predictive policing has concentrated on the feedback loops which occur when models are trained on discovered crime data, but has limited implications for models trained on victim crime reporting data. We demonstrate how differential victim crime reporting rates across geographical areas can lead to outcome disparities in common crime hot spot prediction models. Our analysis is based on a simulation patterned after district-level victimization and crime reporting survey data for Bogot\'a, Colombia. Our results suggest that differential crime reporting rates can lead to a displacement of predicted hotspots from high crime but low reporting areas to high or medium crime and high reporting areas. This may lead to misallocations both in the form of over-policing and under-policing.
翻訳日:2021-02-02 16:11:39 公開日:2021-01-30
# ドライバテレマティクスの合成データセット生成

Synthetic Dataset Generation of Driver Telematics ( http://arxiv.org/abs/2102.00252v1 )

ライセンス: Link先を確認
Banghee So, Jean-Philippe Boucher, Emiliano A. Valdez(参考訳) 本稿では、類似の現実保険データセットからエミュレートされたドライバーテレマティクスの合成データセットの作成に使用されるテクニックについて述べる。 生成された合成データセットは、10万のポリシーを持ち、ドライバーのクレームに関する観察と関連する古典的リスク変数とテレマティクス関連の変数を含んでいる。 この研究は、使用ベースの保険のリスクを評価するためのモデルの開発に使用できるリソースの創出を目的としている。 機械学習アルゴリズムを使った3段階のプロセスに従う。 第1段階では、フィードフォワードニューラルネットワークを適用した複数のバイナリ分類としてクレーム数の値をシミュレートする。 第2段階は、フィードフォワードニューラルネットワークによる回帰として集約されたクレームの値のシミュレーションであり、特徴変数のセットに含まれるクレームの数である。 最終段階では、拡張された$\texttt{SMOTE}$アルゴリズムを用いて、特徴変数の空間の合成ポートフォリオを生成する。 得られたデータセットは、poissonおよびgamma回帰モデルが各データに適合する場合、合成データセットと実データセットを比較して評価される。 その他の視覚化とデータの要約は、2つのデータセット間で顕著な類似の統計を生成する。 モデルや学習アルゴリズムをキャリブレーションするためのテレマティクスデータセットの取得に関心のある研究者が、私たちの仕事に価値があると期待しています。

This article describes techniques employed in the production of a synthetic dataset of driver telematics emulated from a similar real insurance dataset. The synthetic dataset generated has 100,000 policies that included observations about driver's claims experience together with associated classical risk variables and telematics-related variables. This work is aimed to produce a resource that can be used to advance models to assess risks for usage-based insurance. It follows a three-stage process using machine learning algorithms. The first stage is simulating values for the number of claims as multiple binary classifications applying feedforward neural networks. The second stage is simulating values for aggregated amount of claims as regression using feedforward neural networks, with number of claims included in the set of feature variables. In the final stage, a synthetic portfolio of the space of feature variables is generated applying an extended $\texttt{SMOTE}$ algorithm. The resulting dataset is evaluated by comparing the synthetic and real datasets when Poisson and gamma regression models are fitted to the respective data. Other visualization and data summarization produce remarkable similar statistics between the two datasets. We hope that researchers interested in obtaining telematics datasets to calibrate models or learning algorithms will find our work valuable.
翻訳日:2021-02-02 16:11:02 公開日:2021-01-30
# spike と slab bayesian sparse 主成分分析

Spike and slab Bayesian sparse principal component analysis ( http://arxiv.org/abs/2102.00305v1 )

ライセンス: Link先を確認
Bo Ning(参考訳) スパース主成分分析(PCA)は、高次元データの寸法縮小のための一般的なツールです。 非常に人気があるにもかかわらず、理論的に正当化できるベイジアンスパースPCAはいまだに乏しい。 主な課題は、主成分が互いに直交するので、ローディング行列の適切な事前を選択することである。 本稿では,この直交性制約を満たすスパイクとスラブを事前に提案し,後方が理論上,計算上両方の利点を享受していることを示す。 PX-CAVIとPX-EMアルゴリズムの2つの計算アルゴリズムが開発された。 どちらのアルゴリズムもパラメータ展開を用いて直交制約に対処し、収束速度を加速する。 PX-CAVIアルゴリズムはPX-EMアルゴリズムやスパースPCAの2つのペナルティ手法よりも優れた経験的性能を有することがわかった。 PX-CAVIアルゴリズムは肺がん遺伝子発現データセットの研究に応用される。 アルゴリズムの実装による$\mathsf{R}$ package $\mathsf{VBsparsePCA}$は、The Comprehensive R Archive Networkで利用可能である。

Sparse principal component analysis (PCA) is a popular tool for dimensional reduction of high-dimensional data. Despite its massive popularity, there is still a lack of theoretically justifiable Bayesian sparse PCA that is computationally scalable. A major challenge is choosing a suitable prior for the loadings matrix, as principal components are mutually orthogonal. We propose a spike and slab prior that meets this orthogonality constraint and show that the posterior enjoys both theoretical and computational advantages. Two computational algorithms, the PX-CAVI and the PX-EM algorithms, are developed. Both algorithms use parameter expansion to deal with the orthogonality constraint and to accelerate their convergence speeds. We found that the PX-CAVI algorithm has superior empirical performance than the PX-EM algorithm and two other penalty methods for sparse PCA. The PX-CAVI algorithm is then applied to study a lung cancer gene expression dataset. $\mathsf{R}$ package $\mathsf{VBsparsePCA}$ with an implementation of the algorithm is available on The Comprehensive R Archive Network.
翻訳日:2021-02-02 16:10:22 公開日:2021-01-30
# 強化学習のためのポリシーミラー降下:線形収束、新しいサンプリング複雑性、一般化問題クラス

Policy Mirror Descent for Reinforcement Learning: Linear Convergence, New Sampling Complexity, and Generalized Problem Classes ( http://arxiv.org/abs/2102.00135v1 )

ライセンス: Link先を確認
Guanghui Lan(参考訳) 本稿では,強化学習(RL)問題を,強い凸あるいは一般凸正規化器を用いて解くための新しいポリシーミラー降下法を提案する。 これらの全体的非凸問題の構造的性質を調べることにより、pmd法は、大域的最適性への収束速度が速いことを示した。 これらの方法の確率的対応法を開発し、 ${\cal O}(1/\epsilon)$ (resp., ${\cal O}(1/\epsilon^2)$) のサンプリング複雑性を確立し、これらのRL問題を異なるサンプリングスキームを用いて強く(resp., general)凸正規化することで解決する。 さらに,これらの正規化子の勾配を計算するための複雑性は,必要であれば,強い(一般)凸正規化子を持つ問題に対して,${\cal o}\{(\log_\gamma \epsilon) [(1-\gamma)l/\mu]^{1/2}\log (1/\epsilon)\}$ (resp., ${\cal o} \{(\log_\gamma \epsilon ) [(1-\gamma)l/\epsilon ]^{1/2}\}$) で限定できることを示した。 ここで$\gamma$は割引要因を表します。 我々の知る限り、これらの複雑さはアルゴリズムの発達とともに、最適化とRLの文献の両方において新しく見える。 これらの凸正規化器の導入は、rlモデルの柔軟性と適用性を大きく広げる。

We present new policy mirror descent (PMD) methods for solving reinforcement learning (RL) problems with either strongly convex or general convex regularizers. By exploring the structural properties of these overall highly nonconvex problems we show that the PMD methods exhibit fast linear rate of convergence to the global optimality. We develop stochastic counterparts of these methods, and establish an ${\cal O}(1/\epsilon)$ (resp., ${\cal O}(1/\epsilon^2)$) sampling complexity for solving these RL problems with strongly (resp., general) convex regularizers using different sampling schemes, where $\epsilon$ denote the target accuracy. We further show that the complexity for computing the gradients of these regularizers, if necessary, can be bounded by ${\cal O}\{(\log_\gamma \epsilon) [(1-\gamma)L/\mu]^{1/2}\log (1/\epsilon)\}$ (resp., ${\cal O} \{(\log_\gamma \epsilon ) [(1-\gamma)L/\epsilon ]^{1/2}\}$) for problems with strongly (resp., general) convex regularizers. Here $\gamma$ denotes the discounting factor. To the best of our knowledge, these complexity bounds, along with our algorithmic developments, appear to be new in both optimization and RL literature. The introduction of these convex regularizers also greatly expands the flexibility and applicability of RL models.
翻訳日:2021-02-02 16:03:57 公開日:2021-01-30
# 画像品質の定量化:ベイズ的視点

Quantifying Visual Image Quality: A Bayesian View ( http://arxiv.org/abs/2102.00195v1 )

ライセンス: Link先を確認
Zhengfang Duanmu, Wentao Liu, Zhongling Wang, Zhou Wang(参考訳) 画像品質評価(IQA)モデルは、人間の観察者による視覚画像と知覚品質の定量的な関係を確立することを目的としている。 IQAモデリングは、ビジョン理論と計算バイオビジョンモデルのためのテストベッドとして、そして設計、最適化、評価のために幅広い画像処理、コンピュータビジョン、コンピュータグラフィックスアプリケーションに大きな影響を与える可能性のある強力なツールとして、ビジョンサイエンスとエンジニアリングの実践の間で特別な橋渡しの役割を担っている。 IQAの研究は過去20年で急速に成長している。 ここでは,共通の枠組みの下で幅広い iqa アプローチを統一し,視覚科学者や画像処理実践者がアクセス可能な基本的な概念への有用な参照を提供することを目的として,ベイズの視点から iqa 手法の概要を示す。 本稿では,生物視覚における現代IQA法の成功と限界と,将来的な人工視覚システムの設計を視覚科学に伝える可能性について論じる。

Image quality assessment (IQA) models aim to establish a quantitative relationship between visual images and their perceptual quality by human observers. IQA modeling plays a special bridging role between vision science and engineering practice, both as a test-bed for vision theories and computational biovision models, and as a powerful tool that could potentially make profound impact on a broad range of image processing, computer vision, and computer graphics applications, for design, optimization, and evaluation purposes. IQA research has enjoyed an accelerated growth in the past two decades. Here we present an overview of IQA methods from a Bayesian perspective, with the goals of unifying a wide spectrum of IQA approaches under a common framework and providing useful references to fundamental concepts accessible to vision scientists and image processing practitioners. We discuss the implications of the successes and limitations of modern IQA methods for biological vision and the prospect for vision science to inform the design of future artificial vision systems.
翻訳日:2021-02-02 15:57:19 公開日:2021-01-30
# 生成型adversarial deep neural networkによるスタイル転送による下絵復元の分解能向上

Resolution enhancement in the recovery of underdrawings via style transfer by generative adversarial deep neural networks ( http://arxiv.org/abs/2102.00209v1 )

ライセンス: Link先を確認
George Cann, Anthony Bourached, Ryan-Rhys Griffiths, and David Stork(参考訳) 本研究では, 生成的逆畳み込みニューラルネットワークを, 空間分解能の向上に特化しつつ, 美術絵画のx線下絵やゴースト画像へのスタイル転送問題に適用する。 意味ラベルマップから高分解能フォトリアリスティック画像を合成する関連問題のために開発されたニューラルアーキテクチャを構築した。 我々のニューラルアーキテクチャは、ジェネレータと差別化サブネットワークの階層によって高解像度を実現し、空間分解能の範囲で機能する。 この粗細な生成器アーキテクチャは、各空間方向の有効解像度を8倍にしたり、64倍のピクセル数を全体として増やすことができる。 また,人間の生成した画像分割の例をほんの数例でも,生成された画像の質的,定量的に改善できることを示した。 レオナルドのカーネーションのマドンナ(Madonna of the Carnation)や、彼の岩の女神(Virgin of the Rock)のアンダードローイング(underdrawing)など、スタイル情報の学習と転送を行う代表的な作品のパウシティなど、スタイル転送にいくつかの特別な問題を引き起こしている。

We apply generative adversarial convolutional neural networks to the problem of style transfer to underdrawings and ghost-images in x-rays of fine art paintings with a special focus on enhancing their spatial resolution. We build upon a neural architecture developed for the related problem of synthesizing high-resolution photo-realistic image from semantic label maps. Our neural architecture achieves high resolution through a hierarchy of generators and discriminator sub-networks, working throughout a range of spatial resolutions. This coarse-to-fine generator architecture can increase the effective resolution by a factor of eight in each spatial direction, or an overall increase in number of pixels by a factor of 64. We also show that even just a few examples of human-generated image segmentations can greatly improve -- qualitatively and quantitatively -- the generated images. We demonstrate our method on works such as Leonardo's Madonna of the carnation and the underdrawing in his Virgin of the rocks, which pose several special problems in style transfer, including the paucity of representative works from which to learn and transfer style information.
翻訳日:2021-02-02 15:56:41 公開日:2021-01-30
# 顔ビデオを用いたロバストな健康モニタリングのための教師あり学習手法

A Supervised Learning Approach for Robust Health Monitoring using Face Videos ( http://arxiv.org/abs/2102.00322v1 )

ライセンス: Link先を確認
Mayank Gupta and Lingjun Chen and Denny Yu and Vaneet Aggarwal(参考訳) 心血管活動のモニタリングは非常に望まれており、潜在的な心血管疾患の診断や個人の健康維持に新しい応用が期待できる。 現在、このようなバイタルサインは、心電図(ECG)、胸部ストラップ、患者または医療機関が手動で実施する必要があるパルスオキシメータなどの侵入接触装置を用いて測定されている。 非接触型非接触型人体検知法は、特殊な心臓および血圧モニタリング装置の必要性をなくすことができる。 非接触の方法は、ビデオがキャプチャできるあらゆる環境でスケーラブルであり、継続的な測定に使用できるため、身体障害のある人から幼児(例えばベビーカメラ)まで、さまざまなレベルの器用性と独立性を持つ患者に使用できるため、追加の利点があります。 本稿では,市販のウェブカメラを用いて顔映像のみを録画する非接触方式を用いた。 これらのビデオは、パルスレートやパルスレートのばらつきといった健康特性を予測するために利用された。 提案手法では、顔認識を用いて顔のランドマークを用いてビデオの各フレームの顔を検出し、さらに深層ニューラルネットワークを用いて教師付き学習を行い、機械学習モデルをトレーニングする。 ビデオは、心血管反応が変化する様々な身体活動を行う被験者を捉えた。 提案手法は各個人からのトレーニングデータを必要としないため、事前データがない新規個人に対して予測が得られ、アプローチ一般化において極めて重要である。 このアプローチは、異なる民族の人々のデータセットでも評価された。 提案手法はパルス速度の予測において4.6\%の誤差しかなかった。

Monitoring of cardiovascular activity is highly desired and can enable novel applications in diagnosing potential cardiovascular diseases and maintaining an individual's well-being. Currently, such vital signs are measured using intrusive contact devices such as an electrocardiogram (ECG), chest straps, and pulse oximeters that require the patient or the health provider to manually implement. Non-contact, device-free human sensing methods can eliminate the need for specialized heart and blood pressure monitoring equipment. Non-contact methods can have additional advantages since they are scalable with any environment where video can be captured, can be used for continuous measurements, and can be used on patients with varying levels of dexterity and independence, from people with physical impairments to infants (e.g., baby camera). In this paper, we used a non-contact method that only requires face videos recorded using commercially-availab le webcams. These videos were exploited to predict the health attributes like pulse rate and variance in pulse rate. The proposed approach used facial recognition to detect the face in each frame of the video using facial landmarks, followed by supervised learning using deep neural networks to train the machine learning model. The videos captured subjects performing different physical activities that result in varying cardiovascular responses. The proposed method did not require training data from every individual and thus the prediction can be obtained for the new individuals for which there is no prior data; critical in approach generalization. The approach was also evaluated on a dataset of people with different ethnicity. The proposed approach had less than a 4.6\% error in predicting the pulse rate.
翻訳日:2021-02-02 15:55:58 公開日:2021-01-30
# GANを用いた密度推定における収束率

Rates of convergence for density estimation with GANs ( http://arxiv.org/abs/2102.00199v1 )

ライセンス: Link先を確認
Denis Belomestny, Eric Moulines, Alexey Naumov, Nikita Puchkin, and Sergey Samsonov(参考訳) 我々は,gans (vanilla generative adversarial networks) の非漸近的性質の精密な研究を行い, 生成器と判別器のクラスを適切に選択して, 未知のd$次元密度 $p^*$ を推定する問題において, 理論的保証を導出する。 結果の密度推定は、$(\log n/n)^{2\beta/(2\beta+d)}$の速度で、$(\log n/n)^{2\beta/(2\beta+d)}$の点で$p^*$に収束することを証明する。$\beta$は$p^*の滑らかさを決定する。

We undertake a precise study of the non-asymptotic properties of vanilla generative adversarial networks (GANs) and derive theoretical guarantees in the problem of estimating an unknown $d$-dimensional density $p^*$ under a proper choice of the class of generators and discriminators. We prove that the resulting density estimate converges to $p^*$ in terms of Jensen-Shannon (JS) divergence at the rate $(\log n/n)^{2\beta/(2\beta+d)}$ where $n$ is the sample size and $\beta$ determines the smoothness of $p^*.$ This is the first result in the literature on density estimation using vanilla GANs with JS rates faster than $n^{-1/2}$ in the regime $\beta>d/2.$
翻訳日:2021-02-02 15:44:15 公開日:2021-01-30
# 生成逆ネットワークを用いた時系列(再)サンプリング

Time Series (re)sampling using Generative Adversarial Networks ( http://arxiv.org/abs/2102.00208v1 )

ライセンス: Link先を確認
Christian M. Dahl, Emil N. S{\o}rensen(参考訳) 本論文では,GAN(Generative Adversarial Network)に基づく依存データに対するブートストラップ方式を提案する。 共通定常時系列プロセスのダイナミクスがGANによって学習できることを示し、単一のサンプルパスで訓練されたGANがプロセスから追加のサンプルを生成するために使用できることを実証する。 時間的畳み込みニューラルネットワークは,生成器や判別器に適した設計を提供し,iid正規ノイズのベクトルに基づいて説得力のあるサンプルを生成することができる。 GANサンプリングの有限サンプル特性と、AR(1)時系列プロセスを再サンプリングする場合のパフォーマンスを円形ブロックブートストラップと比較するシミュレーションを使用して提案されたブートストラップを実証する。 GANを用いた再サンプリングは、経験的なカバレッジの観点から、円形ブロックのブートストラップを上回る可能性がある。

We propose a novel bootstrap procedure for dependent data based on Generative Adversarial networks (GANs). We show that the dynamics of common stationary time series processes can be learned by GANs and demonstrate that GANs trained on a single sample path can be used to generate additional samples from the process. We find that temporal convolutional neural networks provide a suitable design for the generator and discriminator, and that convincing samples can be generated on the basis of a vector of iid normal noise. We demonstrate the finite sample properties of GAN sampling and the suggested bootstrap using simulations where we compare the performance to circular block bootstrapping in the case of resampling an AR(1) time series processes. We find that resampling using the GAN can outperform circular block bootstrapping in terms of empirical coverage.
翻訳日:2021-02-02 15:43:33 公開日:2021-01-30
# 変分コヒーレント関数のパラメータフリー確率最適化

Parameter-free Stochastic Optimization of Variationally Coherent Functions ( http://arxiv.org/abs/2102.00236v1 )

ライセンス: Link先を確認
Francesco Orabona and D\'avid P\'al(参考訳) 我々は $\mathbb{R}^d$ 上の関数の大規模クラスの一階確率最適化のためのアルゴリズムを設計・解析する。 特に、凸あるいは非凸となることができる \emph{variationally coherent} 関数を考える。 変分コヒーレント関数に対するアルゴリズムの反復は、大域的最小値 $\boldsymbol{x}^*$ にほぼ確実に収束する。 さらに、同じハイパーパラメータを持つ全く同じアルゴリズムは、t$の反復の後、期待される準最適ギャップが任意の$\epsilon>0$に対して$\widetilde{o}(\|\boldsymbol{x}^* - \boldsymbol{x}_0\| t^{-1/2+\epsilon})$であるような凸関数に対して保証する。 この2つの性質を同時に達成した最初のアルゴリズムである。 また、凸関数の速度はパラメータフリーなアルゴリズムの性能と本質的に一致する。 我々のアルゴリズムは、'emph{rescaled gradients} と時間変化線形正則化器を併用したFollow The Regularized Leaderアルゴリズムの例である。

We design and analyze an algorithm for first-order stochastic optimization of a large class of functions on $\mathbb{R}^d$. In particular, we consider the \emph{variationally coherent} functions which can be convex or non-convex. The iterates of our algorithm on variationally coherent functions converge almost surely to the global minimizer $\boldsymbol{x}^*$. Additionally, the very same algorithm with the same hyperparameters, after $T$ iterations guarantees on convex functions that the expected suboptimality gap is bounded by $\widetilde{O}(\|\boldsymbol{x}^* - \boldsymbol{x}_0\| T^{-1/2+\epsilon})$ for any $\epsilon>0$. It is the first algorithm to achieve both these properties at the same time. Also, the rate for convex functions essentially matches the performance of parameter-free algorithms. Our algorithm is an instance of the Follow The Regularized Leader algorithm with the added twist of using \emph{rescaled gradients} and time-varying linearithmic regularizers.
翻訳日:2021-02-02 15:43:00 公開日:2021-01-30
# ニューラルネットワークによる自然関数の近似におけるサイズと深さの分離

Size and Depth Separation in Approximating Natural Functions with Neural Networks ( http://arxiv.org/abs/2102.00314v1 )

ライセンス: Link先を確認
Gal Vardi, Daniel Reichman, Toniann Pitassi, Ohad Shamir(参考訳) ニューラルネットワークの表現力を調べるとき、ネットワークのサイズと深さが実際の関数を近似する能力にどのように影響するかを理解することが主な課題です。 しかし、すべての函数は実際的な観点から興味深いわけではない: 興味のある函数は通常多項式有界リプシッツ定数を持ち、効率的に計算できる。 これらの条件を満たす関数を「自然」と呼び、ReLUネットワークによる自然関数の近似のためのサイズと深さの利点を探ります。 私たちが示すように、この問題は非自然関数の対応する問題よりも困難です。 深さ4$の多項式サイズのネットワークでは近似できない自然関数の存在を証明すれば、計算の複雑さにおける長年のオープンな問題を解決できる。 深さ4ドルを超えると、一定の深さのネットワークと非定数深さのネットワークの間でも、自然関数の深さ分離を示すための障壁がある。 また、サイズ分離、すなわち、サイズ $o(s(d))$ のネットワークで近似できるが、サイズ $o(s'(d))$ のネットワークで近似できる自然関数が存在するかどうかについても研究した。 このような結果がサイズ $o(d\log^2(d))$ を超えることを証明するための複雑性理論上の障壁を示すとともに、サイズ $o(d)$ で近似でき、サイズ $o(d/\log d)$ のネットワークで近似できる明示的な自然関数も示す。 L_\infty$ の近似に対して、既に$O(d)$ と $o(d)$ の分離が達成されている。 さらに、関数の仮定に応じて、超多項式サイズの下限とそのような下限への障壁を示す。 サイズ分離の結果は,boolean関数のサイズ下限の解析に依存するが,それとは独立に,ニューラルネットワークとしきい値回路を用いた明示的なboolean関数の線形サイズ下限を示す。

When studying the expressive power of neural networks, a main challenge is to understand how the size and depth of the network affect its ability to approximate real functions. However, not all functions are interesting from a practical viewpoint: functions of interest usually have a polynomially-bounded Lipschitz constant, and can be computed efficiently. We call functions that satisfy these conditions "natural", and explore the benefits of size and depth for approximation of natural functions with ReLU networks. As we show, this problem is more challenging than the corresponding problem for non-natural functions. We give barriers to showing depth-lower-bounds: Proving existence of a natural function that cannot be approximated by polynomial-size networks of depth $4$ would settle longstanding open problems in computational complexity. It implies that beyond depth $4$ there is a barrier to showing depth-separation for natural functions, even between networks of constant depth and networks of nonconstant depth. We also study size-separation, namely, whether there are natural functions that can be approximated with networks of size $O(s(d))$, but not with networks of size $O(s'(d))$. We show a complexity-theoretic barrier to proving such results beyond size $O(d\log^2(d))$, but also show an explicit natural function, that can be approximated with networks of size $O(d)$ and not with networks of size $o(d/\log d)$. For approximation in $L_\infty$ we achieve such separation already between size $O(d)$ and size $o(d)$. Moreover, we show superpolynomial size lower bounds and barriers to such lower bounds, depending on the assumptions on the function. Our size-separation results rely on an analysis of size lower bounds for Boolean functions, which is of independent interest: We show linear size lower bounds for computing explicit Boolean functions with neural networks and threshold circuits.
翻訳日:2021-02-02 15:42:15 公開日:2021-01-30
# メタラーニング: Sparse Variable-Structure Automata

Metalearning: Sparse Variable-Structure Automata ( http://arxiv.org/abs/2102.00315v1 )

ライセンス: Link先を確認
Pedram Fekri, Ali Akbar Safavi, Mehrdad Hosseini Zadeh, and Peyman Setoodeh(参考訳) オートエンコーダにおけるエンコーダ出力(すなわちコード層)の次元は、入力データを適切な空間で表現するための鍵ハイパーパラメータである。 この次元は、所望の再構成精度を保証するために慎重に選択されなければならない。 オーバーコンプリート表現はこの次元問題に対処できるが、計算複雑性は次元によって増加する。 ここでは,非パラメトリック法に触発され,動的スパース符号化における基礎ベクトル数を増やすためのメタラーニング手法を提案する。 アクタークリティカルアルゴリズムが展開され、必要な精度レベルに関する特徴ベクトルの適切な寸法を自動的に選択します。 提案手法は,オンライン辞書学習と高速反復縮小抑制アルゴリズム(FISTA)を推論段階の最適化として有効に活用する。 リコンストラクションエラーしきい値に関する過剰な表現のベース数を最小にすることを目的としている。 この方法は動的フレームワークにおける表現次元と再構成誤差の両方をオンライン制御できる。

Dimension of the encoder output (i.e., the code layer) in an autoencoder is a key hyper-parameter for representing the input data in a proper space. This dimension must be carefully selected in order to guarantee the desired reconstruction accuracy. Although overcomplete representation can address this dimension issue, the computational complexity will increase with dimension. Inspired by non-parametric methods, here, we propose a metalearning approach to increase the number of basis vectors used in dynamic sparse coding on the fly. An actor-critic algorithm is deployed to automatically choose an appropriate dimension for feature vectors regarding the required level of accuracy. The proposed method benefits from online dictionary learning and fast iterative shrinkage-thresholdi ng algorithm (FISTA) as the optimizer in the inference phase. It aims at choosing the minimum number of bases for the overcomplete representation regarding the reconstruction error threshold. This method allows for online controlling of both the representation dimension and the reconstruction error in a dynamic framework.
翻訳日:2021-02-02 15:41:21 公開日:2021-01-30
# 回帰か分類か? No-Reference Picture と Video Quality Model の新しい評価法

Regression or Classification? New Methods to Evaluate No-Reference Picture and Video Quality Models ( http://arxiv.org/abs/2102.00155v1 )

ライセンス: Link先を確認
Zhengzhong Tu, Chia-Ju Chen, Li-Heng Chen, Yilin Wang, Neil Birkbeck, Balu Adsumilli, and Alan C. Bovik(参考訳) 映像と画質評価は、入力刺激による連続的な品質スコアの予測を必要とする回帰問題として、長い間予測されてきた。 しかし、最近の取り組みでは、現実世界のユーザー生成コンテンツ(UGC)の正確な品質スコア回帰は非常に難しい課題であることを示しています。 この問題をより扱いやすくするため,二項分類法と順序分類法という2つの新しい手法を提案し,非参照品質モデルをより粗いレベルで評価・比較する。 さらに,提案するタスクは,知覚的に最適化されたuccトランスコーディングやメディア処理プラットフォームでのプリプロセッシングにおいて,より実用的な意味を持つ。 本研究では,最近の画像および映像品質データセット上で,人気のある非参照品質モデルの包括的なベンチマーク実験を行い,さらなる研究を支援するために,両評価手法の信頼性の高いベースラインを提供する。 この研究は、粗粒度パーセプティカルモデリングとその効率的なUGC処理への応用を促進することを願っている。

Video and image quality assessment has long been projected as a regression problem, which requires predicting a continuous quality score given an input stimulus. However, recent efforts have shown that accurate quality score regression on real-world user-generated content (UGC) is a very challenging task. To make the problem more tractable, we propose two new methods - binary, and ordinal classification - as alternatives to evaluate and compare no-reference quality models at coarser levels. Moreover, the proposed new tasks convey more practical meaning on perceptually optimized UGC transcoding, or for preprocessing on media processing platforms. We conduct a comprehensive benchmark experiment of popular no-reference quality models on recent in-the-wild picture and video quality datasets, providing reliable baselines for both evaluation methods to support further studies. We hope this work promotes coarse-grained perceptual modeling and its applications to efficient UGC processing.
翻訳日:2021-02-02 15:39:28 公開日:2021-01-30
# Generative Adversarial Networks を用いた皮膚病変の分離とその特性

Segmentation of skin lesions and their attributes using Generative Adversarial Networks ( http://arxiv.org/abs/2102.00169v1 )

ライセンス: Link先を確認
Cristian Lazo(参考訳) 本研究は,条件適応ネットを用いた画像から画像への変換による皮膚病変境界とその属性のセマンティックセグメンテーションに関するものである。 メラノーマ(Melanoma)は、時間内に検出された皮膚がんの一種である。 皮膚画像に典型的な既存のアーティファクトのため,皮膚画像への分割はコンピュータによる診断に必須の手順である。 画像アノテーション処理を緩和するために, Pix2Pixネットワークの修正を提案する。 判別器ネットワークは、入力として真皮画像からマッピングを、出力として6チャンネルのマスク画像から学習する。 同様に、PatchGANと呼ばれる識別ネットワーク出力は、1つのチャネルと6つの出力チャネルで異なる。 使用された写真は2018年のisicチャレンジで、500枚の写真をそれぞれのセマンティックマップで使用し、トレーニングで75%、テストで35%に分割した。 セグメンテーションマップのすべての属性の100トレーニングエポックの高いJaccardインデックスを取得する。

This work is about the semantic segmentation of skin lesion boundary and their attributes using Image-to-Image Translation with Conditional Adversarial Nets. Melanoma is a type of skin cancer that can be cured if detected in time. Segmentation into dermoscopic images is an essential procedure for computer-assisted diagnosis due to its existing artifacts typical of skin images. To alleviate the image annotation process, we propose to use a modified Pix2Pix network. The discriminator network learns the mapping from a dermal image as an input and a mask image of six channels as an output. Likewise, the discriminative network output called PatchGAN is varied for one channel and six output channels. The photos used come from the 2018 ISIC Challenge, where 500 photographs are used with their respective semantic map, divided into 75% for training and 35% for testing. Obtaining for 100 training epochs high Jaccard indices for all attributes of the segmentation map.
翻訳日:2021-02-02 15:38:53 公開日:2021-01-30
# 衛星画像によるタイリングスダム崩壊の影響のモニタリング

Monitoring the Impacts of a Tailings Dam Failure Using Satellite Images ( http://arxiv.org/abs/2102.00212v1 )

ライセンス: Link先を確認
Jaime Moraga (1), Gurbet Gurkan (1), Sebnem Duzgun (1) ((1) Colorado School of Mines, Golden, Colorado)(参考訳) 衛星画像を用いたダム障害の監視は、早期介入の効率的な管理を第一応答者に提供する。 また, 浸水域の空間的・時間的変化を計測し, 災害後の回復を追跡することも重要である。 2019年1月25日、ブラジルのブルマディンホにあるC'orrego do Feij\~ao鉄鉱石鉱山の尾化ダムが崩壊した。 この災害は230人以上の死者と30人の行方不明者を引き起こし、数十億ドルの注文で損傷を引き起こしました。 本研究は,sentinel-2衛星画像を用いて浸水地域をマッピングし,ダム崩壊に伴う土地利用と土地被覆を評価する。 画像は1月22日(3日前)と2月02日(崩壊から7日後)のデータキャプチャに対応する。 この地域の衛星画像は、機械学習アルゴリズムを実装した災害の前後に分類された。 アルゴリズムの品質と精度を評価するのに十分な土地被覆タイプを確保するため,鉱山,森林,造成,河川,農業,清水,草原の7つのクラスが定義された。 開発した分類アルゴリズムは、崩壊前の画像に対して高い精度(99%)を得た。 本論文は,2つの異なるモデルを用いて土地被覆の影響を判定する。1)「アフター」画像における訓練されたネットワークを用いて,2)「アフター」画像の点のサブセットで訓練された第2のネットワークを作成し,次に2つの訓練されたネットワークの土地被覆結果を比較する。 第1のモデルでは、トレーニングされたネットワークを"after"イメージに適用した場合、精度は依然として高く(86%)、第2のモデル(98%)より低い。 この戦略は、オープンに利用可能な衛星情報を用いて、低コストで監視および評価に応用でき、ダム崩壊時や予算の大きい場合には、懸念領域でのフライオーバーによって、より高い解像度とより高速なデータを得ることができる。

Monitoring dam failures using satellite images provides first responders with efficient management of early interventions. It is also equally important to monitor spatial and temporal changes in the inundation area to track the post-disaster recovery. On January 25th, 2019, the tailings dam of the C\'orrego do Feij\~ao iron ore mine, located in Brumadinho, Brazil, collapsed. This disaster caused more than 230 fatalities and 30 missing people leading to damage on the order of multiple billions of dollars. This study uses Sentinel-2 satellite images to map the inundation area and assess and delineate the land use and land cover impacted by the dam failure. The images correspond to data captures from January 22nd (3 days before), and February 02 (7 days after the collapse). Satellite images of the region were classified for before and aftermath of the disaster implementing a machine learning algorithm. In order to have sufficient land cover types to validate the quality and accuracy of the algorithm, 7 classes were defined: mine, forest, build-up, river, agricultural, clear water, and grassland. The developed classification algorithm yielded a high accuracy (99%) for the image before the collapse. This paper determines land cover impact using two different models, 1) by using the trained network in the "after" image, and 2) by creating a second network, trained in a subset of points of the "after" image, and then comparing the land cover results of the two trained networks. In the first model, applying the trained network to the "after" image, the accuracy is still high (86%), but lower than using the second model (98%). This strategy can be applied at a low cost for monitoring and assessment by using openly available satellite information and, in case of dam collapse or with a larger budget, higher resolution and faster data can be obtained by fly-overs on the area of concern.
翻訳日:2021-02-02 15:38:19 公開日:2021-01-30
# ICodeNet - ソースコード作者識別のための階層型ニューラルネットワークアプローチ

ICodeNet -- A Hierarchical Neural Network Approach for Source Code Author Identification ( http://arxiv.org/abs/2102.00230v1 )

ライセンス: Link先を確認
Pranali Bora, Tulika Awalgaonkar, Himanshu Palve, Raviraj Joshi, Purvi Goel(参考訳) オープンソース革命により、ソースコードはかつてないほど容易にアクセスできるようになった。 しかし、これは悪意のあるユーザーや機関がライセンスに言及したり、元の著者にクレジットしたりすることなくコードをコピーすることを容易にしました。 したがって、ソースコード作者の識別は、最も重要な重要なタスクです。 本稿では、ソースコードファイルレベルのタスクに使用できる階層型ニューラルネットワークであるICodeNetを提案する。 ICodeNetはソースコードを画像形式で処理し、ファイル作者の識別ごとにタスクに使用されます。 ICodeNetはImageNetの訓練を受けたVGGエンコーダと浅いニューラルネットワークで構成されている。 浅いネットワークはCNNまたはLSTMに基づいています。 異なるモデルのバリエーションは、ソースコードの著者分類データセットで評価される。 また、画像ベースの階層型ニューラルネットワークモデルと単純な画像ベースのcnnアーキテクチャ、テキストベースのcnnおよびlstmモデルを比較し、その新しさと効率性を強調した。

With the open-source revolution, source codes are now more easily accessible than ever. This has, however, made it easier for malicious users and institutions to copy the code without giving regards to the license, or credit to the original author. Therefore, source code author identification is a critical task with paramount importance. In this paper, we propose ICodeNet - a hierarchical neural network that can be used for source code file-level tasks. The ICodeNet processes source code in image format and is employed for the task of per file author identification. The ICodeNet consists of an ImageNet trained VGG encoder followed by a shallow neural network. The shallow network is based either on CNN or LSTM. Different variations of models are evaluated on a source code author classification dataset. We have also compared our image-based hierarchical neural network model with simple image-based CNN architecture and text-based CNN and LSTM models to highlight its novelty and efficiency.
翻訳日:2021-02-02 15:37:23 公開日:2021-01-30
# アトラス生成モデルと測地線補間

Atlas Generative Models and Geodesic Interpolation ( http://arxiv.org/abs/2102.00264v1 )

ライセンス: Link先を確認
Jakob Stolberg-Larsen, Stefan Sommer(参考訳) ジェネレーティブニューラルネットワークは、高次元データの基礎となる多様体構造を推定する能力を持っている。 しかし、単連結な潜在空間が使われる場合、非自明なホモトピー型を持つ多様体を忠実に表現することは不可能である。 本研究では,AGM(Atlas Generative Models)の一般クラスを定義し,基本となるデータマニホールド上のアトラスとデータ空間上の統一性の分割を推定するハイブリッド離散連続潜空間を持つモデルを定義する。 このクラスに収まる様々なポピュラーなジェネレーションパラダイムからモデルの既存の例を特定します。 アトラスの解釈により、非線形潜時空間解析と統計学からのアイデア、例えば。 単に連結された潜在空間を持つモデルでしか研究されていない測地補間は、自然にAGMのクラス全体に拡張することができる。 グラフに基づく測地線補間アルゴリズムをAGMの設定に一般化し、その性能を実験的に検証した例を例示する。

Generative neural networks have a well recognized ability to estimate underlying manifold structure of high dimensional data. However, if a simply connected latent space is used, it is not possible to faithfully represent a manifold with non-trivial homotopy type. In this work we define the general class of Atlas Generative Models (AGMs), models with hybrid discrete-continuous latent space that estimate an atlas on the underlying data manifold together with a partition of unity on the data space. We identify existing examples of models from various popular generative paradigms that fit into this class. Due to the atlas interpretation, ideas from non-linear latent space analysis and statistics, e.g. geodesic interpolation, which has previously only been investigated for models with simply connected latent spaces, may be extended to the entire class of AGMs in a natural way. We exemplify this by generalizing an algorithm for graph based geodesic interpolation to the setting of AGMs, and verify its performance experimentally.
翻訳日:2021-02-02 15:36:50 公開日:2021-01-30
# 確率的オブジェクトモデル学習のためのAmbientGANの進歩

Advancing the AmbientGAN for learning stochastic object models ( http://arxiv.org/abs/2102.00281v1 )

ライセンス: Link先を確認
Weimin Zhou, Sayantan Bhadra, Frank J. Brooks, Jason L. Granstedt, Hua Li, Mark A. Anastasio(参考訳) 医療画像システムは、特定のタスクにおけるオブザーバのパフォーマンスを定量化する画像品質の客観的測定(iq)を用いて、一般的に評価および最適化される。 対象物の変化は、観測者のパフォーマンスを著しく制限できる変数の重要な源である。 このオブジェクトの変数は確率的オブジェクトモデル(SOM)によって記述できる。 リアルな物体変動を正確にモデル化できるsomを確立するためには,実験データを用いることが望ましい。 これを実現するために、AmbientGANと呼ばれる拡張生成逆ネットワーク(GAN)アーキテクチャを開発し、検討した。 しかし、AmbientGANは、GAN(ProGAN)の進行的成長のような先進的なGANトレーニング手法を用いることで、すぐには訓練できない。 したがって、AmbientGANが現実的なオブジェクトモデルを確立する能力は限られている。 これを回避するために、徐々に成長するAmbientGAN(ProAmGAN) が提案されている。 しかし、proamganは2次元(2次元)画像を生成するために設計され、医用イメージングモードは3次元オブジェクトのイメージングに一般的に用いられる。 さらに、従来のジェネレータアーキテクチャを用いたプロアンガンは、撮像システムの最適化時にしばしば考慮される微細なテクスチャなどの特定の画像特徴を制御する能力が欠けている。 本研究では,3D ProAmGANとStyle-AmbientGAN(Sty AmGAN)という2つの高度なAmbientGANアーキテクチャを提案する。 磁気共鳴(MR)イメージングシステムに関するスティル化数値解析を行った。 画像計測から3D SOMを学習する3D ProAmGANの能力と合成物の微細スケールテクスチャを制御するStyAmGANの能力が実証されている。

Medical imaging systems are commonly assessed and optimized by use of objective-measures of image quality (IQ) that quantify the performance of an observer at specific tasks. Variation in the objects to-be-imaged is an important source of variability that can significantly limit observer performance. This object variability can be described by stochastic object models (SOMs). In order to establish SOMs that can accurately model realistic object variability, it is desirable to use experimental data. To achieve this, an augmented generative adversarial network (GAN) architecture called AmbientGAN has been developed and investigated. However, AmbientGANs cannot be immediately trained by use of advanced GAN training methods such as the progressive growing of GANs (ProGANs). Therefore, the ability of AmbientGANs to establish realistic object models is limited. To circumvent this, a progressively-growin g AmbientGAN (ProAmGAN) has been proposed. However, ProAmGANs are designed for generating two-dimensional (2D) images while medical imaging modalities are commonly employed for imaging three-dimensional (3D) objects. Moreover, ProAmGANs that employ traditional generator architectures lack the ability to control specific image features such as fine-scale textures that are frequently considered when optimizing imaging systems. In this study, we address these limitations by proposing two advanced AmbientGAN architectures: 3D ProAmGANs and Style-AmbientGANs (StyAmGANs). Stylized numerical studies involving magnetic resonance (MR) imaging systems are conducted. The ability of 3D ProAmGANs to learn 3D SOMs from imaging measurements and the ability of StyAmGANs to control fine-scale textures of synthesized objects are demonstrated.
翻訳日:2021-02-02 15:36:09 公開日:2021-01-30
# マルコフ雑音を伴うランダム行列積の安定性について:線形確率近似とtd学習への応用

On the Stability of Random Matrix Product with Markovian Noise: Application to Linear Stochastic Approximation and TD Learning ( http://arxiv.org/abs/2102.00185v1 )

ライセンス: Link先を確認
Alain Durmus, Eric Moulines, Alexey Naumov, Sergey Samsonov, Hoi-To Wai(参考訳) 本稿では,一般の状態空間マルコフ連鎖によって駆動されるランダム行列積の指数安定性について検討する。 機械学習における確率的アルゴリズムの分析の要点である(例)。 オンライン学習や強化学習におけるパラメータトラッキング)。 既存の結果は、行列値関数の均一有界性やマルコフ鎖の均一エルゴード性のような強い条件を課している。 本研究の主な貢献は, (i) 基礎となるマルコフ鎖が超リャプノフドリフト条件を満たす場合, (ii) 行列値関数の成長が適切に定義された関数(ドリフト条件に関連する)によって制御される場合, ランダム行列積のp$-番目のモーメントに対する指数的安定性結果である。 この結果を用いて,一般状態空間におけるマルコフ雑音を伴う有限時間$p$-th モーメント境界と減少ステップの線形確率近似スキームを与える。 本稿では,強化学習における線形値関数推定について述べる。 我々は時間差(td)アルゴリズムの様々なメンバーに対して、有限時間$p$-th モーメントバインドを提供する。

This paper studies the exponential stability of random matrix products driven by a general (possibly unbounded) state space Markov chain. It is a cornerstone in the analysis of stochastic algorithms in machine learning (e.g. for parameter tracking in online learning or reinforcement learning). The existing results impose strong conditions such as uniform boundedness of the matrix-valued functions and uniform ergodicity of the Markov chains. Our main contribution is an exponential stability result for the $p$-th moment of random matrix product, provided that (i) the underlying Markov chain satisfies a super-Lyapunov drift condition, (ii) the growth of the matrix-valued functions is controlled by an appropriately defined function (related to the drift condition). Using this result, we give finite-time $p$-th moment bounds for constant and decreasing stepsize linear stochastic approximation schemes with Markovian noise on general state space. We illustrate these findings for linear value-function estimation in reinforcement learning. We provide finite-time $p$-th moment bound for various members of temporal difference (TD) family of algorithms.
翻訳日:2021-02-02 15:33:18 公開日:2021-01-30