このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200712となっている論文です。

PDF登録状況(公開日: 20200712)

TitleAuthorsAbstract論文公表日・翻訳日
# onegan:条件付き画像生成,前景セグメンテーション,きめ細かいクラスタリングの教師なし学習

OneGAN: Simultaneous Unsupervised Learning of Conditional Image Generation, Foreground Segmentation, and Fine-Grained Clustering ( http://arxiv.org/abs/1912.13471v2 )

ライセンス: Link先を確認
Yaniv Benny and Lior Wolf(参考訳) 本稿では,教師なしの方法で同時に学習する方法を提案する。 (i)条件付き画像生成装置 (二 前景の抽出及び分断 (iii)二段階階層へのクラスタリング、及び (iv)オブジェクトの削除とバックグラウンドの補完は、すべてアノテーションを使わずに行われます。 この方法は、生成型逆ネットワークと変分オートエンコーダと、複数のエンコーダ、ジェネレータ、判別器を組み合わせることで、全てのタスクを一度に解くことができる。 トレーニングスキームへの入力は、同じドメインからのラベルなし画像のさまざまなコレクションであり、フォアグラウンドオブジェクトのない背景画像のセットである。 さらに、画像生成装置は、1つの画像からの背景と、第2の画像または所望のクラスタのインデックスに条件付された前景とを混合することができる。 この方法は、各タスクにおけるアートの現在の状態と比較して、文学的手法と比較して、アート結果の状態を求める。

We present a method for simultaneously learning, in an unsupervised manner, (i) a conditional image generator, (ii) foreground extraction and segmentation, (iii) clustering into a two-level class hierarchy, and (iv) object removal and background completion, all done without any use of annotation. The method combines a Generative Adversarial Network and a Variational Auto-Encoder, with multiple encoders, generators and discriminators, and benefits from solving all tasks at once. The input to the training scheme is a varied collection of unlabeled images from the same domain, as well as a set of background images without a foreground object. In addition, the image generator can mix the background from one image, with a foreground that is conditioned either on that of a second image or on the index of a desired cluster. The method obtains state of the art results in comparison to the literature methods, when compared to the current state of the art in each of the tasks.
翻訳日:2023-01-16 21:01:34 公開日:2020-07-12
# ギャンブラーの問題とそれ以上

The Gambler's Problem and Beyond ( http://arxiv.org/abs/2001.00102v3 )

ライセンス: Link先を確認
Baoxiang Wang, Shuai Li, Jiajin Li, Siu On Chan(参考訳) 我々は,ギャンブラーが目標に達するまで賭けを2倍にしたり負けたりする,単純な強化学習問題であるギャンブラーの問題を解析する。 これは、sutton and barto (2018) による強化学習教科書で紹介された初期の例であり、高周波成分と非スムース点を繰り返した最適値関数の興味深いパターンについて言及している。 しかし、それ以上の調査は行われていない。 離散ケースと連続ケースの両方に対して最適値関数の正確な式を提供する。 単純に見えるが、値関数は病的であり、フラクタル、自己相似、微分はゼロか無限かのいずれかを取るが、初等関数として書かれない。 実際、これは一般化されたカントール函数の1つであり、これまでチャージされていない複雑性を持っている。 我々の分析は、実アプリケーションや実装における価値関数近似、勾配に基づくアルゴリズム、Qラーニングの改善に関する洞察を提供することができる。

We analyze the Gambler's problem, a simple reinforcement learning problem where the gambler has the chance to double or lose the bets until the target is reached. This is an early example introduced in the reinforcement learning textbook by Sutton and Barto (2018), where they mention an interesting pattern of the optimal value function with high-frequency components and repeating non-smooth points. It is however without further investigation. We provide the exact formula for the optimal value function for both the discrete and the continuous cases. Though simple as it might seem, the value function is pathological: fractal, self-similar, derivative taking either zero or infinity, and not written as elementary functions. It is in fact one of the generalized Cantor functions, where it holds a complexity that has been uncharted thus far. Our analyses could provide insights into improving value function approximation, gradient-based algorithms, and Q-learning, in real applications and implementations.
翻訳日:2023-01-16 20:05:49 公開日:2020-07-12
# 局所滑らか性仮定に基づくK-NN能動学習

K-NN active learning under local smoothness assumption ( http://arxiv.org/abs/2001.06485v2 )

ライセンス: Link先を確認
Boris Ndjia Njike, Xavier Siebert(参考訳) 受動的あるいはアクティブな学習において、収束率に関する多くの研究がある。 ここでは、まず得られた主な結果のいくつかを概説し、より具体的には回帰関数の滑らかさ(あるいはクラス間の境界)とマージンノイズの仮定の下で非パラメトリックな設定で概説する。 本稿では,近年の受動的学習研究を視点として,これらの仮定の相対的なメリットを考察する。 我々は,k-nearest近傍にカスタマイズされた特定の平滑性仮定を用いて,受動的学習よりも収束率の高いアクティブ学習アルゴリズムを設計する。 従来のアクティブラーニングアルゴリズムとは異なり、インスタンス空間の限界分布に依存する滑らかさの仮定を用いる。 さらに,本アルゴリズムは,インスタンス空間の周縁分布の密度関数の存在を仮定した強密度仮定を回避し,より一般に適用可能である。

There is a large body of work on convergence rates either in passive or active learning. Here we first outline some of the main results that have been obtained, more specifically in a nonparametric setting under assumptions about the smoothness of the regression function (or the boundary between classes) and the margin noise. We discuss the relative merits of these underlying assumptions by putting active learning in perspective with recent work on passive learning. We design an active learning algorithm with a rate of convergence better than in passive learning, using a particular smoothness assumption customized for k-nearest neighbors. Unlike previous active learning algorithms, we use a smoothness assumption that provides a dependence on the marginal distribution of the instance space. Additionally, our algorithm avoids the strong density assumption that supposes the existence of the density function of the marginal distribution of the instance space and is therefore more generally applicable.
翻訳日:2023-01-10 10:07:21 公開日:2020-07-12
# ソーシャルメディアからの名前付きエンティティ認識のためのマルチモーダル深層学習手法

A multimodal deep learning approach for named entity recognition from social media ( http://arxiv.org/abs/2001.06888v3 )

ライセンス: Link先を確認
Meysam Asgari-Chenaghlu, M.Reza Feizi-Derakhshi, Leili Farzinvash, M. A. Balafar, Cina Motamed(参考訳) ソーシャルメディア投稿から名付けられたエンティティ認識(NER)は難しい課題である。 ソーシャルメディアの性質を形成するユーザ生成コンテンツは騒がしく、文法的および言語的エラーを含んでいる。 このノイズの多いコンテンツは、名前付きエンティティ認識のようなタスクを難しくします。 マルチモーダルディープラーニングとトランスフォーマーを用いた2つの新しいディープラーニング手法を提案する。 どちらのアプローチも、短いソーシャルメディア投稿のイメージ機能を使って、NERタスクのより良い結果を提供する。 最初のアプローチでは、InceptionV3を用いて画像の特徴を抽出し、融合を用いてテキストと画像の特徴を組み合わせる。 これは、そのエンティティに関連する画像がユーザによって提供されたときに、より信頼性の高い名前エンティティ認識を示す。 第2のアプローチでは、画像機能とテキストを組み合わせて、bertのようなトランスフォーマーに入力します。 実験結果、すなわち、精度、リコール、F1スコアは、他の最先端のNERソリューションと比較して、我々の作業の優位性を示している。

Named Entity Recognition (NER) from social media posts is a challenging task. User generated content that forms the nature of social media, is noisy and contains grammatical and linguistic errors. This noisy content makes it much harder for tasks such as named entity recognition. We propose two novel deep learning approaches utilizing multimodal deep learning and Transformers. Both of our approaches use image features from short social media posts to provide better results on the NER task. On the first approach, we extract image features using InceptionV3 and use fusion to combine textual and image features. This presents more reliable name entity recognition when the images related to the entities are provided by the user. On the second approach, we use image features combined with text and feed it into a BERT like Transformer. The experimental results, namely, the precision, recall and F1 score metrics show the superiority of our work compared to other state-of-the-art NER solutions.
翻訳日:2023-01-08 10:14:07 公開日:2020-07-12
# バッチ強化学習における動作パーシステンスによる制御周波数適応

Control Frequency Adaptation via Action Persistence in Batch Reinforcement Learning ( http://arxiv.org/abs/2002.06836v2 )

ライセンス: Link先を確認
Alberto Maria Metelli, Flavio Mazzolini, Lorenzo Bisi, Luca Sabbioni, Marcello Restelli(参考訳) システムの制御周波数の選択は、強化学習アルゴリズムが高度に機能するポリシーを学習する能力に関連性がある。 本稿では,一定数の決定ステップに対してアクションを繰り返し繰り返すことで,制御周波数を変化させる効果を有するアクション持続性の概念を提案する。 我々は、アクション持続性が最適なポリシーのパフォーマンスにどのように影響するかを分析し、fqiを拡張した新しいアルゴリズムであるpersistence fitted q-iteration(pfqi)を提案し、与えられた永続性で最適な値関数を学習することを目的としている。 PFQIの理論的研究と、最適永続性を特定するためのヒューリスティックなアプローチを提供した後、我々は、動作持続性の利点を示し、持続性選択法の有効性を証明するためのベンチマークドメインの実験的なキャンペーンを示す。

The choice of the control frequency of a system has a relevant impact on the ability of reinforcement learning algorithms to learn a highly performing policy. In this paper, we introduce the notion of action persistence that consists in the repetition of an action for a fixed number of decision steps, having the effect of modifying the control frequency. We start analyzing how action persistence affects the performance of the optimal policy, and then we present a novel algorithm, Persistent Fitted Q-Iteration (PFQI), that extends FQI, with the goal of learning the optimal value function at a given persistence. After having provided a theoretical study of PFQI and a heuristic approach to identify the optimal persistence, we present an experimental campaign on benchmark domains to show the advantages of action persistence and proving the effectiveness of our persistence selection method.
翻訳日:2022-12-31 11:58:46 公開日:2020-07-12
# スパース深層学習における不確かさの定量化

Uncertainty Quantification for Sparse Deep Learning ( http://arxiv.org/abs/2002.11815v2 )

ライセンス: Link先を確認
Yuexi Wang, Veronika Ro\v{c}kov\'a(参考訳) ディープラーニングの手法は、理論的にも実際にも、機械学習に決定的な影響を与え続けている。 統計理論の発展は、無限次元の物体(曲線や密度)を復元する際の近似可能性や推定率に大きく関係している。 利用可能な理論結果の素晴らしい配列にもかかわらず、この文献は深層学習のための不確実な定量化についてほとんど沈黙している。 本稿では,ベイズ的視点から,この重要な方向への一歩を踏み出す。 非パラメトリック回帰におけるスパース深部ReLUアーキテクチャの後方分布の特定の側面のガウス近似性について検討した。 ベイズ非パラメトリックなツールを基に、半パラメトリックなベルンシュタイン・ヴォン・ミセスの定理を線型および二次汎函数に対して提供し、ベイズ信頼領域が有効に頻繁な被覆を持つことを保証する。 本研究では,ReLUアクティベーション関数を用いた(ベイジアン)深層学習に対する新しい理論的正当性を提供し,その推論可能性を強調した。

Deep learning methods continue to have a decided impact on machine learning, both in theory and in practice. Statistical theoretical developments have been mostly concerned with approximability or rates of estimation when recovering infinite dimensional objects (curves or densities). Despite the impressive array of available theoretical results, the literature has been largely silent about uncertainty quantification for deep learning. This paper takes a step forward in this important direction by taking a Bayesian point of view. We study Gaussian approximability of certain aspects of posterior distributions of sparse deep ReLU architectures in non-parametric regression. Building on tools from Bayesian non-parametrics, we provide semi-parametric Bernstein-von Mises theorems for linear and quadratic functionals, which guarantee that implied Bayesian credible regions have valid frequentist coverage. Our results provide new theoretical justifications for (Bayesian) deep learning with ReLU activation functions, highlighting their inferential potential.
翻訳日:2022-12-28 15:46:30 公開日:2020-07-12
# 正確さとロバストさの近さ

A Closer Look at Accuracy vs. Robustness ( http://arxiv.org/abs/2003.02460v3 )

ライセンス: Link先を確認
Yao-Yuan Yang, Cyrus Rashtchian, Hongyang Zhang, Ruslan Salakhutdinov, Kamalika Chaudhuri(参考訳) 現在の堅牢なネットワークをトレーニングする方法は、テスト精度の低下につながる。 この現象を詳しく見て、まず実際の画像データセットが実際に分離されていることを示す。 この性質を念頭に置いて、局所リプシッツ関数によるベンチマークデータセットでは、堅牢性と正確性の両方が実現可能であることを証明し、従って、堅牢性と正確性の間に固有のトレードオフは存在してはならない。 ロバストネス法による広範な実験を通じて、理論と実践のギャップは、局所的なリプシッツネスを課すのに失敗するか、あるいは不十分に一般化されるかの2つの方法の制限から生じると論じる。 我々は、ドロップアウトと堅牢なトレーニング手法の組み合わせを検討し、より良い一般化を得る。 我々は,局所的なリプシッツ性を課し,それを深層学習一般化技術で強化する手法を用いる必要があると結論付けた。 コードはhttps://github.com/yangarbiter/robust-local-lipschitzで利用可能

Current methods for training robust networks lead to a drop in test accuracy, which has led prior works to posit that a robustness-accuracy tradeoff may be inevitable in deep learning. We take a closer look at this phenomenon and first show that real image datasets are actually separated. With this property in mind, we then prove that robustness and accuracy should both be achievable for benchmark datasets through locally Lipschitz functions, and hence, there should be no inherent tradeoff between robustness and accuracy. Through extensive experiments with robustness methods, we argue that the gap between theory and practice arises from two limitations of current methods: either they fail to impose local Lipschitzness or they are insufficiently generalized. We explore combining dropout with robust training methods and obtain better generalization. We conclude that achieving robustness and accuracy in practice may require using methods that impose local Lipschitzness and augmenting them with deep learning generalization techniques. Code available at https://github.com/yangarbiter/robust-local-lipschitz
翻訳日:2022-12-26 06:52:35 公開日:2020-07-12
# 自動運転車の形式的シナリオベーステスト:シミュレーションから実世界へ

Formal Scenario-Based Testing of Autonomous Vehicles: From Simulation to the Real World ( http://arxiv.org/abs/2003.07739v2 )

ライセンス: Link先を確認
Daniel J. Fremont, Edward Kim, Yash Vardhan Pant, Sanjit A. Seshia, Atul Acharya, Xantha Bruso, Paul Wells, Steve Lemke, Qiang Lu, Shalin Mehta(参考訳) シミュレーションに基づく評価と実世界のテストの両方にまたがって、自動運転車の安全性、特に高度な人工知能ベースのコンポーネントを用いた自動シナリオベーステストに対する新しいアプローチを提案する。 提案手法は,シナリオと安全性特性の形式的仕様,フォーマルなシミュレーションを用いたアルゴリズムによるテストケース生成,トラックテストのためのテストケース選択,トラック上でのテストケースの実行,結果データの解析といった形式的手法に基づく。 産業試験施設における実車実験は、私たちの仮説を裏付ける (i) 正式なシミュレーションは、軌道上で実行するテストケースを識別するのに有効である。 (ii)シミュレーションと実世界のギャップを体系的に評価・橋渡しすることができる。

We present a new approach to automated scenario-based testing of the safety of autonomous vehicles, especially those using advanced artificial intelligence-based components, spanning both simulation-based evaluation as well as testing in the real world. Our approach is based on formal methods, combining formal specification of scenarios and safety properties, algorithmic test case generation using formal simulation, test case selection for track testing, executing test cases on the track, and analyzing the resulting data. Experiments with a real autonomous vehicle at an industrial testing facility support our hypotheses that (i) formal simulation can be effective at identifying test cases to run on the track, and (ii) the gap between simulated and real worlds can be systematically evaluated and bridged.
翻訳日:2022-12-22 22:10:09 公開日:2020-07-12
# 忘れましたか。 機械学習モデルがデータを忘れたかどうかを評価する方法

Have you forgotten? A method to assess if machine learning models have forgotten data ( http://arxiv.org/abs/2004.10129v2 )

ライセンス: Link先を確認
Xiao Liu, Sotirios A Tsaftaris(参考訳) ディープラーニングの時代において、複数のソースからのデータ集約は、データの多様性を確保するための一般的なアプローチである。 いくつかのプロバイダが分類モデルの共同開発のためのコンソーシアム(以下、対象モデルの後)にデータをコンソーシアムにコンソーシアムで貢献するシナリオを考えてみましょう。 このプロバイダは、データベースからデータ(以下、クエリデータセットの後)を取り除くように要求すると同時に、モデルがデータを“忘れる”ように要求する。 本稿では,モデルによってデータが忘れられたかどうかという問題に,初めて対処したい。 クエリデータセットの知識とモデルの出力の分布を仮定する。 ターゲットの出力と異なるデータセットでトレーニングされたモデルの出力を比較する統計的手法を確立する。 我々は,いくつかのベンチマークデータセット(MNIST, CIFAR-10, SVHN)と心臓病理診断タスクについて,ACDC(Automated Cardiac Diagnosis Challenge)のデータを用いて検討した。 私たちは、モデルが保持する情報の研究を奨励し、より複雑な設定で拡張を刺激したいと考えています。

In the era of deep learning, aggregation of data from several sources is a common approach to ensuring data diversity. Let us consider a scenario where several providers contribute data to a consortium for the joint development of a classification model (hereafter the target model), but, now one of the providers decides to leave. This provider requests that their data (hereafter the query dataset) be removed from the databases but also that the model `forgets' their data. In this paper, for the first time, we want to address the challenging question of whether data have been forgotten by a model. We assume knowledge of the query dataset and the distribution of a model's output. We establish statistical methods that compare the target's outputs with outputs of models trained with different datasets. We evaluate our approach on several benchmark datasets (MNIST, CIFAR-10 and SVHN) and on a cardiac pathology diagnosis task using data from the Automated Cardiac Diagnosis Challenge (ACDC). We hope to encourage studies on what information a model retains and inspire extensions in more complex settings.
翻訳日:2022-12-11 07:15:52 公開日:2020-07-12
# 潜伏者による因果発見のための効率的な介入設計

Efficient Intervention Design for Causal Discovery with Latents ( http://arxiv.org/abs/2005.11736v2 )

ライセンス: Link先を確認
Raghavendra Addanki, Shiva Prasad Kasiviswanathan, Andrew McGregor, Cameron Musco(参考訳) 我々は,潜在変数の存在下で因果グラフの回復を検討する。そこでは,回復プロセスで使用される介入のコストを最小限に抑えることを目指す。 本研究では,(1) 変数のサブセットに対する介入のコストが線形形式である線形コストモデル,(2) 介入のコストが同じであるアイデンティティコストモデル,すなわち,介入の回数を最小化することが目的である,という2つの介入コストモデルを考える。 線形コストモデルの下では、基礎となる因果グラフの祖先関係を同定するアルゴリズムを与え、最適な介入コストの2ドル以内に達成する。 この近似係数は、穏やかな制限の下で、任意の$\epsilon > 0$に対して1+\epsilon$に改善することができる。 同一性コストモデルの下では、特別なタイプの衝突型衝突型による因果グラフのパラメータ化を用いて、潜在変数を含む因果グラフ全体の回復に必要な介入の数を制限した。 特に、因果グラフ内の特定の種類の条件付けから生じる一対のノード間の衝突である$p$-collidersの概念を導入し、因果グラフ内の任意の2つのノード間で最大$p$-collidersの関数として介入の数の上界を提供する。

We consider recovering a causal graph in presence of latent variables, where we seek to minimize the cost of interventions used in the recovery process. We consider two intervention cost models: (1) a linear cost model where the cost of an intervention on a subset of variables has a linear form, and (2) an identity cost model where the cost of an intervention is the same, regardless of what variables it is on, i.e., the goal is just to minimize the number of interventions. Under the linear cost model, we give an algorithm to identify the ancestral relations of the underlying causal graph, achieving within a $2$-factor of the optimal intervention cost. This approximation factor can be improved to $1+\epsilon$ for any $\epsilon > 0$ under some mild restrictions. Under the identity cost model, we bound the number of interventions needed to recover the entire causal graph, including the latent variables, using a parameterization of the causal graph through a special type of colliders. In particular, we introduce the notion of $p$-colliders, that are colliders between pair of nodes arising from a specific type of conditioning in the causal graph, and provide an upper bound on the number of interventions as a function of the maximum number of $p$-colliders between any two nodes in the causal graph.
翻訳日:2022-11-29 13:33:43 公開日:2020-07-12
# 6Gコミュニケーションのためのフェデレートラーニング:課題,方法,今後の方向性

Federated Learning for 6G Communications: Challenges, Methods, and Future Directions ( http://arxiv.org/abs/2006.02931v2 )

ライセンス: Link先を確認
Yi Liu, Xingliang Yuan, Zehui Xiong, Jiawen Kang, Xiaofei Wang, Dusit Niyato(参考訳) 5G通信ネットワークは世界中で広く展開されているため、業界も学界も5Gを超えて6G通信を探求し始めている。 6Gはユビキタス人工知能(AI)上に構築され、異種および大規模ネットワークでデータ駆動機械学習(ML)ソリューションを実現することが一般的である。 しかし、従来のML技術では、プライバシの懸念が大幅に高まっているため、日々の大規模な実装のボトルネックになっている中央サーバによる集中的なデータ収集と処理が必要である。 フェデレーション学習(Federated Learning)は、プライバシ保護という性質を持つ分散AIアプローチとして、特にさまざまなワイヤレスアプリケーションにとって魅力的なもので、特に6GでユビキタスAIを実現する上で重要なソリューションのひとつとして扱われる。 本稿では,まず,6Gとフェデレーション学習の統合について紹介する。 次に,6g通信の文脈における統合学習に関する今後の研究において,鍵となる技術的課題,対応するフェデレーション学習方法,オープン問題について述べる。

As the 5G communication networks are being widely deployed worldwide, both industry and academia have started to move beyond 5G and explore 6G communications. It is generally believed that 6G will be established on ubiquitous Artificial Intelligence (AI) to achieve data-driven Machine Learning (ML) solutions in heterogeneous and massive-scale networks. However, traditional ML techniques require centralized data collection and processing by a central server, which is becoming a bottleneck of large-scale implementation in daily life due to significantly increasing privacy concerns. Federated learning, as an emerging distributed AI approach with privacy preservation nature, is particularly attractive for various wireless applications, especially being treated as one of the vital solutions to achieve ubiquitous AI in 6G. In this article, we first introduce the integration of 6G and federated learning and provide potential federated learning applications for 6G. We then describe key technical challenges, the corresponding federated learning methods, and open problems for future research on federated learning in the context of 6G communications.
翻訳日:2022-11-25 12:46:57 公開日:2020-07-12
# ハードウェア対応DNNの生成設計

Generative Design of Hardware-aware DNNs ( http://arxiv.org/abs/2006.03968v2 )

ライセンス: Link先を確認
Sheng-Chun Kao, Arun Ramamurthy, Tushar Krishna(参考訳) エッジ/クラウド上でDNNを効率的に実行するために、多くの新しいDNN推論アクセラレータが設計され、頻繁にデプロイされている。 DNNの資源効率を高めるために、モデル量子化は広く使われているアプローチである。 しかし、異なる加速器/HWは異なるリソースを持ち、それぞれのHWの特殊量子化戦略を必要とする。 さらに、全ての層で同じ量子化を使用することは準最適であり、可能な量子化選択の設計空間を増大させる。 これにより手動チューニングが不可能になる。 強化学習などの最適化手法により,各レイヤの量子化を自動的に決定する最近の研究が進められている。 しかし、これらのアプローチはすべての新しいHWプラットフォームのためにRLを再訓練する必要がある。 自律量子化とhwアウェアチューニングのための新しい手法を提案する。 本稿では,目標精度を条件とし,量子化構成の一組を生成する生成モデル aqgan を提案する。 条件付き生成モデルにより、ユーザは推論時間において異なるターゲットを持つ異なる構成を自律的に生成できる。 さらに,提案手法を用いて提案モデルを作成し,プロセスが高速かつインタラクティブなHWリソース予算に基づいて簡単な選択を行う,簡易なHW調整フローを提案する。 imagenetデータセット上で広く使われている5つの効率的なモデルについて評価した。 既存の均一量子化法と最先端自律量子化法との比較を行った。 しかし,本生成モデルでは,各設計点の探索コストが約2 度削減されている。 生成した量子化構成はすべての実験で3.5%以下の誤差を生じさせる可能性がある。

To efficiently run DNNs on the edge/cloud, many new DNN inference accelerators are being designed and deployed frequently. To enhance the resource efficiency of DNNs, model quantization is a widely-used approach. However, different accelerator/HW has different resources leading to the need for specialized quantization strategy of each HW. Moreover, using the same quantization for every layer may be sub-optimal, increasing the designspace of possible quantization choices. This makes manual-tuning infeasible. Recent work in automatically determining quantization for each layer is driven by optimization methods such as reinforcement learning. However, these approaches need re-training the RL for every new HW platform. We propose a new way for autonomous quantization and HW-aware tuning. We propose a generative model, AQGAN, which takes a target accuracy as the condition and generates a suite of quantization configurations. With the conditional generative model, the user can autonomously generate different configurations with different targets in inference time. Moreover, we propose a simplified HW-tuning flow, which uses the generative model to generate proposals and execute simple selection based on the HW resource budget, whose process is fast and interactive. We evaluate our model on five of the widely-used efficient models on the ImageNet dataset. We compare with existing uniform quantization and state-of-the-art autonomous quantization methods. Our generative model shows competitive achieved accuracy, however, with around two degrees less search cost for each design point. Our generative model shows the generated quantization configuration can lead to less than 3.5% error across all experiments.
翻訳日:2022-11-24 21:15:31 公開日:2020-07-12
# 感覚運動プリミティブを表現する自己組織型プレシンボルニューラルモデルに向けて

Towards a self-organizing pre-symbolic neural model representing sensorimotor primitives ( http://arxiv.org/abs/2006.11465v2 )

ライセンス: Link先を確認
Junpei Zhong and Angelo Cangelosi and Stefan Wermter(参考訳) 感覚運動行動の象徴的および言語的表現の獲得は、エージェントが自分自身や他の行動を実行/または観察する際に行う認知過程である。 ピアジェの認知発達理論によれば、これらの表現は感覚運動と前操作段階の間に発達する。 本稿では,視覚刺激から腹側/背側視覚ストリームの発達までの高次情報の概念化に関するモデルを提案する。 このモデルは、RNNPB(Recurrent Neural Network with Parametric Biases)と水平積モデルに基づく予測知覚モジュールを組み込んだニューラルネットワークアーキテクチャを採用する。 我々は,物体を受動的に観察して特徴や動きを学習するロボットを用いて,このモデルを実証する。 感覚運動プリミティブを観察する学習過程、すなわち腕の動きとその向き付けられた対象の特徴の一連の軌跡を観察する学習過程において、前シンボリック表現はパラメトリック単位で自己組織化される。 これらの表現単位は分岐パラメータとして作用し、ロボットが様々な学習された感覚運動プリミティブを認識し予測するように誘導する。 プレシンボリック表現は、潜在学習文脈における感覚運動プリミティブの学習にも寄与する。

The acquisition of symbolic and linguistic representations of sensorimotor behavior is a cognitive process performed by an agent when it is executing and/or observing own and others' actions. According to Piaget's theory of cognitive development, these representations develop during the sensorimotor stage and the pre-operational stage. We propose a model that relates the conceptualization of the higher-level information from visual stimuli to the development of ventral/dorsal visual streams. This model employs neural network architecture incorporating a predictive sensory module based on an RNNPB (Recurrent Neural Network with Parametric Biases) and a horizontal product model. We exemplify this model through a robot passively observing an object to learn its features and movements. During the learning process of observing sensorimotor primitives, i.e. observing a set of trajectories of arm movements and its oriented object features, the pre-symbolic representation is self-organized in the parametric units. These representational units act as bifurcation parameters, guiding the robot to recognize and predict various learned sensorimotor primitives. The pre-symbolic representation also accounts for the learning of sensorimotor primitives in a latent learning context.
翻訳日:2022-11-18 21:54:15 公開日:2020-07-12
# 確率的群集GAN:グラフ車両歩行者注意ネットワークを用いた多モーダル歩行者軌道予測

Probabilistic Crowd GAN: Multimodal Pedestrian Trajectory Prediction using a Graph Vehicle-Pedestrian Attention Network ( http://arxiv.org/abs/2006.12906v2 )

ライセンス: Link先を確認
Stuart Eiffert, Kunming Li, Mao Shan, Stewart Worrall, Salah Sukkarieh and Eduardo Nebot(参考訳) 歩行者の意図を理解し予測することは、自動運転車や移動ロボットが群衆をナビゲートするために不可欠である。 この問題は、歩行者の動きの不確実性や多様性、そして車両に対する反応を含む群衆同士の暗黙の相互作用を考慮すると、ますます複雑になる。 我々のアプローチであるprobabilistic crowd ganは、軌道予測の最近の研究を拡張し、recurrent neural networks(rnns)とmixed density networks(mdns)を組み合わせることで、確率的マルチモーダル予測を出力します。 また,gvat(graph vehicle-pedestrian attention network)の利用を提案する。これは社会的相互作用をモデル化し,共有車両特徴の入力を可能にする。 様々なデータセットの評価を通じて、軌道予測のための既存の技術手法の改善と、クラウドインタラクションの真のマルチモーダルで不確定な性質を直接モデル化できることを実証する。

Understanding and predicting the intention of pedestrians is essential to enable autonomous vehicles and mobile robots to navigate crowds. This problem becomes increasingly complex when we consider the uncertainty and multimodality of pedestrian motion, as well as the implicit interactions between members of a crowd, including any response to a vehicle. Our approach, Probabilistic Crowd GAN, extends recent work in trajectory prediction, combining Recurrent Neural Networks (RNNs) with Mixture Density Networks (MDNs) to output probabilistic multimodal predictions, from which likely modal paths are found and used for adversarial training. We also propose the use of Graph Vehicle-Pedestrian Attention Network (GVAT), which models social interactions and allows input of a shared vehicle feature, showing that inclusion of this module leads to improved trajectory prediction both with and without the presence of a vehicle. Through evaluation on various datasets, we demonstrate improvements on the existing state of the art methods for trajectory prediction and illustrate how the true multimodal and uncertain nature of crowd interactions can be directly modelled.
翻訳日:2022-11-17 23:35:38 公開日:2020-07-12
# 自己監督型GAN圧縮

Self-Supervised GAN Compression ( http://arxiv.org/abs/2007.01491v2 )

ライセンス: Link先を確認
Chong Yu, Jeff Pool(参考訳) ディープラーニングの成功により、より複雑なタスクを処理するための大規模で大規模なモデルが生まれ、訓練されたモデルは数百万のパラメータを含むことができる。 これらの大きなモデルは計算とメモリ集約的であるため、レイテンシ、スループット、ストレージ要件を最小限に抑えてデプロイすることが難しい。 いくつかのモデル圧縮法は、画像分類や検出、言語モデルにうまく適用されているが、複雑なタスクを行うGANを圧縮する作業はほとんど行われていない。 本稿では,標準モデル圧縮手法であるウェイトプルーニングが,既存の手法を用いてGANに適用できないことを示す。 次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。 我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。

Deep learning's success has led to larger and larger models to handle more and more complex tasks; trained models can contain millions of parameters. These large models are compute- and memory-intensive, which makes it a challenge to deploy them with minimized latency, throughput, and storage requirements. Some model compression methods have been successfully applied to image classification and detection or language models, but there has been very little work compressing generative adversarial networks (GANs) performing complex tasks. In this paper, we show that a standard model compression technique, weight pruning, cannot be applied to GANs using existing methods. We then develop a self-supervised compression technique which uses the trained discriminator to supervise the training of a compressed generator. We show that this framework has a compelling performance to high degrees of sparsity, can be easily applied to new tasks and models, and enables meaningful comparisons between different pruning granularities.
翻訳日:2022-11-14 05:10:35 公開日:2020-07-12
# 無人地上車両のセンサ技術に関する調査研究

A Survey on Sensor Technologies for Unmanned Ground Vehicles ( http://arxiv.org/abs/2007.01992v2 )

ライセンス: Link先を確認
Qi Liu, Shihua Yuan, Zirui Li(参考訳) 無人地上車両は、民間と軍事の両方で大きな発展可能性を持ち、様々な国で研究の焦点となっている。 加えて、UGVの効率的な運転には高精度で信頼性の高いセンサーが重要である。 本稿では,UGVセンサ技術について概説する。 まず,様々なセンサの特性を紹介する。 次に、異なるセンサーの強度と弱点と応用シナリオを比較します。 さらに,既存のUGVのセンサ応用について概説した。 最後に、センサ技術のホットスポットが開発方向を示すように予測される。

Unmanned ground vehicles have a huge development potential in both civilian and military fields, and have become the focus of research in various countries. In addition, high-precision, high-reliability sensors are significant for UGVs' efficient operation. This paper proposes a brief review on sensor technologies for UGVs. Firstly, characteristics of various sensors are introduced. Then the strengths and weaknesses of different sensors as well as their application scenarios are compared. Furthermore, sensor applications in some existing UGVs are summarized. Finally, the hotspots of sensor technologies are forecasted to point the development direction.
翻訳日:2022-11-13 13:47:09 公開日:2020-07-12
# ハイブリッド学習によるマルチスケール露光融合による単一画像の鮮明化

Single Image Brightening via Multi-Scale Exposure Fusion with Hybrid Learning ( http://arxiv.org/abs/2007.02042v2 )

ライセンス: Link先を確認
Chaobing Zheng, Zhengguo Li, Yi Yang and Shiqian Wu(参考訳) 小さいisoと小さな露光時間は通常、背面または低い光条件で画像をキャプチャするために使用され、不明瞭な動きのぼやけと小さなノイズを持つ画像になるが、暗く見える。 本稿では、このような画像を明るくするために、単一の画像輝度化アルゴリズムを導入する。 提案アルゴリズムは、露光時間が大きい2つの仮想画像を生成する独自のハイブリッド学習フレームワークを含む。 仮想画像はまず、カメラ応答関数(CRF)を用いて計算される強度マッピング関数(IMF)によって生成され、これはモデル駆動のアプローチである。 両方の仮想画像は、データ駆動アプローチ、すなわち、残差畳み込みニューラルネットワークを用いて、基底真理画像にアプローチすることによって強化される。 モデル駆動アプローチとデータ駆動アプローチは、提案されたハイブリッド学習フレームワークで互いに補償する。 初期画像と2つの仮想画像とを、適切に定義された重みを持つマルチスケール露光融合アルゴリズムにより融合することにより、最終的な鮮明化画像を得る。 実験結果から,提案アルゴリズムはMEF-SSIMメートル法において既存のアルゴリズムよりも優れていた。

A small ISO and a small exposure time are usually used to capture an image in the back or low light conditions which results in an image with negligible motion blur and small noise but look dark. In this paper, a single image brightening algorithm is introduced to brighten such an image. The proposed algorithm includes a unique hybrid learning framework to generate two virtual images with large exposure times. The virtual images are first generated via intensity mapping functions (IMFs) which are computed using camera response functions (CRFs) and this is a model-driven approach. Both the virtual images are then enhanced by using a data-driven approach, i.e. a residual convolutional neural network to approach the ground truth images. The model-driven approach and the data-driven one compensate each other in the proposed hybrid learning framework. The final brightened image is obtained by fusing the original image and two virtual images via a multi-scale exposure fusion algorithm with properly defined weights. Experimental results show that the proposed brightening algorithm outperforms existing algorithms in terms of the MEF-SSIM metric.
翻訳日:2022-11-13 13:46:32 公開日:2020-07-12
# 注意か記憶か? 空間および時間における神経解釈剤

Attention or memory? Neurointerpretable agents in space and time ( http://arxiv.org/abs/2007.04862v2 )

ライセンス: Link先を確認
Lennart Bramlage and Aurelio Cortese(参考訳) 神経科学では、強化学習(RL)プロセスと双方向に相互作用することが注目されている。 この相互作用はタスク表現の次元的縮小をサポートし、計算を関連する特徴に制限すると考えられている。 しかし、これらの特性が、特に動的環境において、人工エージェントの真のアルゴリズム上の利点に変換できるかどうかは不明である。 我々は,タスク状態表現を意味的特徴空間に実装するセルフアテンション機構を組み込んだモデルを設計し,atariゲーム群でテストする。 エージェントの選択的特性を評価するために,多数のタスク非関連特徴を観察に付加する。 神経科学の予測に従って、自己注意は、ベンチマークモデルと比較してノイズに対する堅牢性を高める。 厳密には、この自己注意機構は、過渡的な作業メモリを実装するために自然に拡張できるので、部分的に観察可能な迷路タスクを解くことができる。 最後に、参加者の刺激の予測的品質を強調する。 セマンティックな観察を行うため、エージェントが選択した機能をベースとするだけでなく、より単純なものからより複雑なリレーショナルな機能をコンパイルする方法も解明できます。 これらの結果は、深いRLにおける注意の利点を正式に説明し、自己認識機構の解釈可能性を示す。

In neuroscience, attention has been shown to bidirectionally interact with reinforcement learning (RL) processes. This interaction is thought to support dimensionality reduction of task representations, restricting computations to relevant features. However, it remains unclear whether these properties can translate into real algorithmic advantages for artificial agents, especially in dynamic environments. We design a model incorporating a self-attention mechanism that implements task-state representations in semantic feature-space, and test it on a battery of Atari games. To evaluate the agent's selective properties, we add a large volume of task-irrelevant features to observations. In line with neuroscience predictions, self-attention leads to increased robustness to noise compared to benchmark models. Strikingly, this self-attention mechanism is general enough, such that it can be naturally extended to implement a transient working-memory, able to solve a partially observable maze task. Lastly, we highlight the predictive quality of attended stimuli. Because we use semantic observations, we can uncover not only which features the agent elects to base decisions on, but also how it chooses to compile more complex, relational features from simpler ones. These results formally illustrate the benefits of attention in deep RL and provide evidence for the interpretability of self-attention mechanisms.
翻訳日:2022-11-12 04:25:43 公開日:2020-07-12
# sim2real gapをクローズするニューラルネットワークによる微分可能シミュレータの拡張

Augmenting Differentiable Simulators with Neural Networks to Close the Sim2Real Gap ( http://arxiv.org/abs/2007.06045v1 )

ライセンス: Link先を確認
Eric Heiden, David Millard, Erwin Coumans, Gaurav S. Sukhatme(参考訳) 本稿では,ニューラルネットワークを用いた解析モデルの任意の点における拡張を可能にする,剛体力学の微分可能なシミュレーションアーキテクチャを提案する。 勾配に基づく最適化により、実世界のデータセットおよびsim2sim転送アプリケーションにおける予備実験において、シミュレーションパラメータとネットワーク重みの同定を効率的に行い、ランダム探索アプローチにより局所的オプティマを克服する。

We present a differentiable simulation architecture for articulated rigid-body dynamics that enables the augmentation of analytical models with neural networks at any point of the computation. Through gradient-based optimization, identification of the simulation parameters and network weights is performed efficiently in preliminary experiments on a real-world dataset and in sim2sim transfer applications, while poor local optima are overcome through a random search approach.
翻訳日:2022-11-11 06:17:00 公開日:2020-07-12
# インフラストラクチャレジリエンスのためのディープラーニングに基づくリソース割り当て

Deep Learning-based Resource Allocation for Infrastructure Resilience ( http://arxiv.org/abs/2007.05880v1 )

ライセンス: Link先を確認
Siavash Alemzadeh, Hesam Talebiyan, Shahriar Talebi, Leonardo Duenas-Osorio, Mehran Mesbahi(参考訳) 最適化の観点からは、リソース割り当ては停電や交通渋滞といったアプリケーションで一般的に発生する制限要因に対処するための研究の基盤の1つである。 本稿では, 地震等の自然災害後のインフラストラクチャネットワークの即時復旧のために, データ駆動型手法を用いて最適な結節復元シーケンスを推定する。 我々は,相互依存型ネットワークにおける最適修復戦略の高信頼シミュレータであるtd-indpからデータを生成し,それらの戦略を近似するためにディープニューラルネットワークを用いた。 基礎的な問題はnp完全であるにもかかわらず,本手法で得られた修復配列はほぼ最適であることがわかった。 さらに, 資源利用量と復旧時間とのトレードオフを考慮し, 資源利用量と復旧時間とのトレードオフを考慮し, 各種資源利用量の予測を行う。 意思決定者は、トレーニングされたモデルを使用して、緊急時にリソースをより効率的に割り当て、コミュニティのレジリエンスを向上させることができます。 予測力の他に、これらの訓練された推定器は、修復戦略における様々な能動機能間の相互依存の影響を解き明かす。 本稿では,TNのシェルビー郡における実世界の相互依存インフラによる方法論について紹介する。

From an optimization point of view, resource allocation is one of the cornerstones of research for addressing limiting factors commonly arising in applications such as power outages and traffic jams. In this paper, we take a data-driven approach to estimate an optimal nodal restoration sequence for immediate recovery of the infrastructure networks after natural disasters such as earthquakes. We generate data from td-INDP, a high-fidelity simulator of optimal restoration strategies for interdependent networks, and employ deep neural networks to approximate those strategies. Despite the fact that the underlying problem is NP-complete, the restoration sequences obtained by our method are observed to be nearly optimal. In addition, by training multiple models---the so-called estimators---for a variety of resource availability levels, our proposed method balances a trade-off between resource utilization and restoration time. Decision-makers can use our trained models to allocate resources more efficiently after contingencies, and in turn, improve the community resilience. Besides their predictive power, such trained estimators unravel the effect of interdependencies among different nodal functionalities in the restoration strategies. We showcase our methodology by the real-world interdependent infrastructure of Shelby County, TN.
翻訳日:2022-11-11 06:15:31 公開日:2020-07-12
# インクリメンタルkmn法によるcovid-19感染者数からみたインド諸国のクラスター変化

Changing Clusters of Indian States with respect to number of Cases of COVID-19 using incrementalKMN Method ( http://arxiv.org/abs/2007.05954v1 )

ライセンス: Link先を確認
Rabinder Kumar Prasad, Rosy Sarmah, Subrata Chakraborty(参考訳) インドで新たに発生したコロナウイルス(COVID-19)は、現在指数関数的に上昇しているが、成長速度と倍率の空間的変化は明らかである。 私たちは、ハイリスクカテゴリに低い5つのクラスタに分類し、2020年1月の30ドルから2020年6月の30ドルまで、それぞれの状態が1つのクラスタからもう1つのクラスタに移行したかを調べます。 我々は、インクリメンタルKMN(Prasad, R. K., Sarmah, R., Chakraborty, S)と呼ばれる新しいクラスタリング手法を実装した。 (2019))

The novel Coronavirus (COVID-19) incidence in India is currently experiencing exponential rise but with apparent spatial variation in growth rate and doubling time rate. We classify the states into five clusters with low to the high-risk category and study how the different states moved from one cluster to the other since the onset of the first case on $30^{th}$ January 2020 till the end of unlock 1 that is $30^{th}$ June 2020. We have implemented a new clustering technique called the incrementalKMN (Prasad, R. K., Sarmah, R., Chakraborty, S.(2019))
翻訳日:2022-11-11 06:15:12 公開日:2020-07-12
# NISP:話者プロファイリングのための多言語マルチアクセントデータセット

NISP: A Multi-lingual Multi-accent Dataset for Speaker Profiling ( http://arxiv.org/abs/2007.06021v1 )

ライセンス: Link先を確認
Shareef Babu Kalluri, Deepu Vijayasenan, Sriram Ganapathy, Ragesh Rajan M, Prashant Krishnan(参考訳) 音声の商業的および法医学的応用の多くは、話者特性に関する情報の抽出を要求しており、これは話者プロファイリングの幅広いカテゴリに該当する。 プロファイリングに必要な話者特性は、話者の高さ、年齢、性別のような話者の物理的特徴と、話者の母語である。 利用可能なデータセットの多くは、話者プロファイリングのための部分的な情報しか持っていない。 本稿では,5つの異なるインドの言語と英語の音声データを持つ新しいデータセットを開発することにより,この制限を克服しようとする。 また、言語情報、地域情報、話者の物理的特徴などの話者プロファイルアプリケーションのためのメタデータ情報も収集する。 我々はこのデータセットをNITK-IISc Multilingual Multi-accent Speaker Profiling (NISP) と呼ぶ。 本論文では,本データセットを用いた話者プロファイリングのためのデータセット,潜在的な応用,ベースライン結果について述べる。

Many commercial and forensic applications of speech demand the extraction of information about the speaker characteristics, which falls into the broad category of speaker profiling. The speaker characteristics needed for profiling include physical traits of the speaker like height, age, and gender of the speaker along with the native language of the speaker. Many of the datasets available have only partial information for speaker profiling. In this paper, we attempt to overcome this limitation by developing a new dataset which has speech data from five different Indian languages along with English. The metadata information for speaker profiling applications like linguistic information, regional information, and physical characteristics of a speaker are also collected. We call this dataset as NITK-IISc Multilingual Multi-accent Speaker Profiling (NISP) dataset. The description of the dataset, potential applications, and baseline results for speaker profiling on this dataset are provided in this paper.
翻訳日:2022-11-11 06:14:56 公開日:2020-07-12
# 適応型深層学習による敵ジャミング攻撃と防御戦略

Adversarial jamming attacks and defense strategies via adaptive deep reinforcement learning ( http://arxiv.org/abs/2007.06055v1 )

ライセンス: Link先を確認
Feng Wang, Chen Zhong, M. Cenk Gursoy and Senem Velipasalar(参考訳) 無線通信における深層強化学習(DRL)の適用が拡大するにつれ,DRLをベースとした無線通信戦略の敵攻撃に対する感度向上が注目されている。 本稿では,DRLをベースとした動的チャネルアクセスを行う被害者ユーザと,DRLをベースとした妨害攻撃を実行して被害者を妨害する攻撃者について検討する。 したがって、被害者と攻撃者はDRLエージェントであり、互いに相互作用し、モデルを再訓練し、相手のポリシーに適応することができる。 そこで我々はまず,動的チャネルアクセスにおける被害者の判断の精度を最小化することを目的とした,対向的妨害攻撃ポリシーを開発する。 その後,攻撃者に対する防衛戦略を考案し,比例積分微分(PID)制御による多角化防衛,模倣攻撃による多角化防衛,直交方針による防衛という3つの防衛戦略を提案する。 攻撃された被害者の精度を最大化し、その性能を評価するため、これらの戦略を設計する。

As the applications of deep reinforcement learning (DRL) in wireless communications grow, sensitivity of DRL based wireless communication strategies against adversarial attacks has started to draw increasing attention. In order to address such sensitivity and alleviate the resulting security concerns, we in this paper consider a victim user that performs DRL-based dynamic channel access, and an attacker that executes DRLbased jamming attacks to disrupt the victim. Hence, both the victim and attacker are DRL agents and can interact with each other, retrain their models, and adapt to opponents' policies. In this setting, we initially develop an adversarial jamming attack policy that aims at minimizing the accuracy of victim's decision making on dynamic channel access. Subsequently, we devise defense strategies against such an attacker, and propose three defense strategies, namely diversified defense with proportional-integral-derivative (PID) control, diversified defense with an imitation attacker, and defense via orthogonal policies. We design these strategies to maximize the attacked victim's accuracy and evaluate their performances.
翻訳日:2022-11-11 06:14:44 公開日:2020-07-12
# スパースシステムモデリングのための低複素集合体正規化LMSアルゴリズム

Low-Complexity Set-Membership Normalized LMS Algorithm for Sparse System Modeling ( http://arxiv.org/abs/2007.06097v1 )

ライセンス: Link先を確認
Javad Sharafi and Mohsen Mehrali-Varjani(参考訳) 本研究では, 未知系の疎結合性を利用するために, 2つの低複雑さな集合列正規化最小二乗法 (LCSM-NLMS1 と LCSM-NLMS2) アルゴリズムを提案する。 この目的のために、LCSM-NLMS1アルゴリズムでは、更新プロセスにおいてゼロに近い係数を無視するために、適応係数にディスカード関数と呼ばれる関数を用いる。 さらに,LCSM-NLMS2アルゴリズムでは,計算量を大幅に削減するため,小係数を0で置き換える。 提案アルゴリズムは計算コストの低減を要求されるのに対し,数値計算の結果はこれらのアルゴリズムを最先端の空間認識アルゴリズムと比較した場合に類似した性能を示す。

In this work, we propose two low-complexity set-membership normalized least-mean-square (LCSM-NLMS1 and LCSM-NLMS2) algorithms to exploit the sparsity of an unknown system. For this purpose, in the LCSM-NLMS1 algorithm, we employ a function called the discard function to the adaptive coefficients in order to neglect the coefficients close to zero in the update process. Moreover, in the LCSM-NLMS2 algorithm, to decrease the overall number of computations needed even further, we substitute small coefficients with zero. Numerical results present similar performance of these algorithms when comparing them with some state-of-the-art sparsity-aware algorithms, whereas the proposed algorithms need lower computational cost.
翻訳日:2022-11-11 06:14:26 公開日:2020-07-12
# デバイス故障検出のための負サンプリングによる解釈可能多次元マルチモーダル異常検出

Interpretable, Multidimensional, Multimodal Anomaly Detection with Negative Sampling for Detection of Device Failure ( http://arxiv.org/abs/2007.10088v1 )

ライセンス: Link先を確認
John Sipple(参考訳) 複雑なデバイスは毎日接続され、多次元状態測定の膨大なストリームを熱心に生成する。 これらのデバイスは、しばしば外部の状態(昼/夜、占有/空室など)に基づいて異なるモードで動作し、完全または部分的なシステム停止を防止するため、これらのデバイスが通常のモードの外で動作し始めると、できるだけ早く認識したい。 残念ながら、障害モードは複雑すぎるため、デバイスが特定の環境で適切に特徴付けるには新すぎるため、あるいは環境変化によってデバイスを予測不可能な状態にするため、ルールや教師付き機械学習を使用して障害を予測することは現実的あるいは不可能であることが多い。 本研究では,正のサンプルから負のサンプルを生成し,正のサンプルと負のサンプルを区別する分類器を訓練する教師なし異常検出法を提案する。 契約原理を用いて、そのような分類器が正規領域と異常領域の間の適切な決定境界を確立する必要がある理由を説明し、統合勾配が異常状態ベクトル内の特定の変数に異常をどう属性するかを示す。 我々は無作為な森林やニューラルネットワーク分類器による負のサンプリングが分離林、一級SVM、ディープSVDDよりもAUCスコアが有意に高いことを示した。 (a)2〜128の寸法で、1,2,3のモードを有し、かつ、ノイズ寸法がない合成データセット b) 4つの標準ベンチマークデータセット (c)実気候制御装置からの多次元多モードデータセット。 最後に,145のgoogle officeビルの15,000以上の気候制御および電力メータデバイスにおいて,ニューラルネットワーク分類器による負のサンプリングが大規模に展開され,リアルタイムに障害を予測することに成功した方法について述べる。

Complex devices are connected daily and eagerly generate vast streams of multidimensional state measurements. These devices often operate in distinct modes based on external conditions (day/night, occupied/vacant, etc.), and to prevent complete or partial system outage, we would like to recognize as early as possible when these devices begin to operate outside the normal modes. Unfortunately, it is often impractical or impossible to predict failures using rules or supervised machine learning, because failure modes are too complex, devices are too new to adequately characterize in a specific environment, or environmental change puts the device into an unpredictable condition. We propose an unsupervised anomaly detection method that creates a negative sample from the positive, observed sample, and trains a classifier to distinguish between positive and negative samples. Using the Contraction Principle, we explain why such a classifier ought to establish suitable decision boundaries between normal and anomalous regions, and show how Integrated Gradients can attribute the anomaly to specific variables within the anomalous state vector. We have demonstrated that negative sampling with random forest or neural network classifiers yield significantly higher AUC scores than Isolation Forest, One Class SVM, and Deep SVDD, against (a) a synthetic dataset with dimensionality ranging between 2 and 128, with 1, 2, and 3 modes, and with and without noise dimensions; (b) four standard benchmark datasets; and (c) a multidimensional, multimodal dataset from real climate control devices. Finally, we describe how negative sampling with neural network classifiers have been successfully deployed at large scale to predict failures in real time in over 15,000 climate-control and power meter devices in 145 Google office buildings.
翻訳日:2022-11-11 06:14:02 公開日:2020-07-12
# 物理に基づく分散モデルを用いたハイパースペクトルアンミックスの微分可能計画法

Differentiable Programming for Hyperspectral Unmixing using a Physics-based Dispersion Model ( http://arxiv.org/abs/2007.05996v1 )

ライセンス: Link先を確認
John Janiczek, Parth Thaker, Gautam Dasarathy, Christopher S. Edwards, Philip Christensen, Suren Jayasuriya(参考訳) ハイパースペクトルアンミキシングは、材料同定や分析を含むアプリケーションで重要なリモートセンシングタスクである。 スペクトルの特徴は、可視-赤外スペクトルから多くの純粋な物質を識別できるが、混合物中に存在する物質の存在を定量化することは、非線形性や変動の要因によって難しい課題である。 本稿では、スペクトル変動を物理に基づくアプローチから考慮し、微分可能プログラミングによるエンドツーエンドのスペクトルアンミックスアルゴリズムに組み込む。 現実的なスペクトル変動をシミュレートするために分散モデルを導入し、パラメータに適合する効率的な方法を示す。 そして, この分散モデルを, 分析・合成スペクトルアンミックスアルゴリズムにおける生成モデルとして利用する。 さらに、生成モデルのパラメータを予測する畳み込みニューラルネットワークを用いた逆レンダリング技術を導入し、トレーニングデータが利用可能な場合のパフォーマンスと速度を向上させる。 結果は、赤外線と近赤外(VNIR)データセットの両方で最先端を達成し、将来は物理モデルとハイパースペクトルアンミックスにおけるディープラーニングの相乗効果を示す。

Hyperspectral unmixing is an important remote sensing task with applications including material identification and analysis. Characteristic spectral features make many pure materials identifiable from their visible-to-infrared spectra, but quantifying their presence within a mixture is a challenging task due to nonlinearities and factors of variation. In this paper, spectral variation is considered from a physics-based approach and incorporated into an end-to-end spectral unmixing algorithm via differentiable programming. The dispersion model is introduced to simulate realistic spectral variation, and an efficient method to fit the parameters is presented. Then, this dispersion model is utilized as a generative model within an analysis-by-synthesis spectral unmixing algorithm. Further, a technique for inverse rendering using a convolutional neural network to predict parameters of the generative model is introduced to enhance performance and speed when training data is available. Results achieve state-of-the-art on both infrared and visible-to-near-infrared (VNIR) datasets, and show promise for the synergy between physics-based models and deep learning in hyperspectral unmixing in the future.
翻訳日:2022-11-11 06:13:34 公開日:2020-07-12
# 深層学習型可搬型イメージングサイトメーターを用いたGirardia lamblia cystsのラベルフリー検出

Label-free detection of Giardia lamblia cysts using a deep learning-enabled portable imaging flow cytometer ( http://arxiv.org/abs/2007.10795v1 )

ライセンス: Link先を確認
Zoltan Gorocs, David Baum, Fang Song, Kevin DeHaan, Hatice Ceylan Koydemir, Yunzhe Qiu, Zilin Cai, Thamira Skandakumar, Spencer Peterman, Miu Tamamitsu, and Aydogan Ozcan(参考訳) 深層学習を用いて水試料中のジアルジアランベリア嚢胞を容積スループット100ml/hで正確に検出する,フィールドポータブルで費用効果の高いイメージングフローサイトメーターについて報告する。 このフローサイトメーターは、レンズレスカラーホログラフィを用いて、連続的に流れる試料中の微小な物体の位相および強度画像を捉え、再構成し、ラベルやフルオロフォを使わずに、ジアルジアランベリア嚢胞をリアルタイムで自動的に識別する。 撮像フローサイトメーターは、寸法19cm×19cm×16cm、重量1.6kgの環境遮蔽容器に収容される。 このポータブルな撮像フローサイトメーターをラップトップコンピュータに結合することで,海水および海水の試料中のジアルジア汚染(例えば,50mlあたり10シスト)をリアルタイムに検出・定量できることを実証した。 本手法のフィールドポータブルでラベルフリーな性質は、水性寄生虫を検知し、水処理に用いるフィルターの整合性を監視するため、資源制限された環境で飲料水供給の迅速かつ自動スクリーニングを可能にする可能性を秘めている。

We report a field-portable and cost-effective imaging flow cytometer that uses deep learning to accurately detect Giardia lamblia cysts in water samples at a volumetric throughput of 100 mL/h. This flow cytometer uses lensfree color holographic imaging to capture and reconstruct phase and intensity images of microscopic objects in a continuously flowing sample, and automatically identifies Giardia Lamblia cysts in real-time without the use of any labels or fluorophores. The imaging flow cytometer is housed in an environmentally-sealed enclosure with dimensions of 19 cm x 19 cm x 16 cm and weighs 1.6 kg. We demonstrate that this portable imaging flow cytometer coupled to a laptop computer can detect and quantify, in real-time, low levels of Giardia contamination (e.g., <10 cysts per 50 mL) in both freshwater and seawater samples. The field-portable and label-free nature of this method has the potential to allow rapid and automated screening of drinking water supplies in resource limited settings in order to detect waterborne parasites and monitor the integrity of the filters used for water treatment.
翻訳日:2022-11-11 06:13:14 公開日:2020-07-12
# ガウス系混合物のロバスト学習

Robust Learning of Mixtures of Gaussians ( http://arxiv.org/abs/2007.05912v1 )

ライセンス: Link先を確認
Daniel M. Kane(参考訳) 我々はロバスト統計学における主要な課題の1つを解決する。 特に、$X$ が 2 つの任意の$d$-次元ガウス多様体の均等な重み付き混合であれば、逆向きに破損した$X$ a $\eps$-fraction からサンプルにアクセスする多項式時間アルゴリズムを考案し、誤差 $\poly(\eps)$ を全変動距離で学習する。

We resolve one of the major outstanding problems in robust statistics. In particular, if $X$ is an evenly weighted mixture of two arbitrary $d$-dimensional Gaussians, we devise a polynomial time algorithm that given access to samples from $X$ an $\eps$-fraction of which have been adversarially corrupted, learns $X$ to error $\poly(\eps)$ in total variation distance.
翻訳日:2022-11-11 06:12:36 公開日:2020-07-12
# DRWR:シルエット画像からの教師なし3次元構造学習のためのレンダリングなし微分レンダリング

DRWR: A Differentiable Renderer without Rendering for Unsupervised 3D Structure Learning from Silhouette Images ( http://arxiv.org/abs/2007.06127v1 )

ライセンス: Link先を確認
Zhizhong Han and Chao Chen and Yu-Shen Liu and Matthias Zwicker(参考訳) 異なるレンダラーは、3Dと2Dのギャップを埋めるため、2D画像から教師なしの3D構造学習に成功している。 3次元形状パラメータを最適化するために、電流レンダラーは3次元再構成のレンダリング画像と対応する視点からの地上の真理画像の間のピクセルワイズロスに依存する。 したがって、各ピクセルで回収された3D構造の補間、可視性ハンドリング、シェーディングモデルの評価が必要となる。 対照的に、これらのステップを省略するDRWR(Dariable Renderer Without Rendering)を提案する。 DRWRは、再構成された3D点雲の投影が基底の真理天体シルエットをどれだけよく覆っているかを評価する、単純だが効果的な損失にのみ依存する。 具体的には、DRWRは、物体のシルエット内にある個々の3Dポイントのプロジェクションを引くためにスムーズなシルエットの損失と、シルエット内にある各2つのプロジェクションを互いに遠くに押す構造を意識した反発損失を用いる。 表面補間,視認性ハンドリング,シェーディングは省略したが,dwrは広く使用されているベンチマークで最先端の精度を達成し,質的および定量的に従来の手法を上回った。 さらに,DRWRの簡易化により,トレーニング時間が大幅に短縮された。

Differentiable renderers have been used successfully for unsupervised 3D structure learning from 2D images because they can bridge the gap between 3D and 2D. To optimize 3D shape parameters, current renderers rely on pixel-wise losses between rendered images of 3D reconstructions and ground truth images from corresponding viewpoints. Hence they require interpolation of the recovered 3D structure at each pixel, visibility handling, and optionally evaluating a shading model. In contrast, here we propose a Differentiable Renderer Without Rendering (DRWR) that omits these steps. DRWR only relies on a simple but effective loss that evaluates how well the projections of reconstructed 3D point clouds cover the ground truth object silhouette. Specifically, DRWR employs a smooth silhouette loss to pull the projection of each individual 3D point inside the object silhouette, and a structure-aware repulsion loss to push each pair of projections that fall inside the silhouette far away from each other. Although we omit surface interpolation, visibility handling, and shading, our results demonstrate that DRWR achieves state-of-the-art accuracies under widely used benchmarks, outperforming previous methods both qualitatively and quantitatively. In addition, our training times are significantly lower due to the simplicity of DRWR.
翻訳日:2022-11-11 06:07:08 公開日:2020-07-12
# 畳み込みニューラルネットワークのための構造的重み付け

Structured Weight Priors for Convolutional Neural Networks ( http://arxiv.org/abs/2007.14235v1 )

ライセンス: Link先を確認
Tim Pearce, Andrew Y.K. Foong, Alexandra Brintrup(参考訳) タスク(例えば画像データの畳み込み)に適したアーキテクチャの事前選択は、ディープニューラルネットワーク(NN)の成功に不可欠である。 逆に、これらのアーキテクチャ内の重み付けの優先順位は、例えば--独立ガウス分布のように、一般に曖昧に残され、ベイズ深層学習の有用性に関する議論に繋がる。 本稿では,重み前への構造付加の利点について考察する。 当初は畳み込みnnの第一層フィルタを考慮し、ランダムガバーフィルタに基づく事前設計を行った。 第2に,各隠れた特徴が各クラスにどのように関連しているかを推定することで,最終層重みの前の構造を追加することを検討する。 実験の結果、これらの構造的重み優先は画像データのより有意義な機能的優先につながることが示唆された。 これは、重み付け事前の重要性に関する議論に寄与する。

Selection of an architectural prior well suited to a task (e.g. convolutions for image data) is crucial to the success of deep neural networks (NNs). Conversely, the weight priors within these architectures are typically left vague, e.g.~independent Gaussian distributions, which has led to debate over the utility of Bayesian deep learning. This paper explores the benefits of adding structure to weight priors. It initially considers first-layer filters of a convolutional NN, designing a prior based on random Gabor filters. Second, it considers adding structure to the prior of final-layer weights by estimating how each hidden feature relates to each class. Empirical results suggest that these structured weight priors lead to more meaningful functional priors for image data. This contributes to the ongoing discussion on the importance of weight priors.
翻訳日:2022-11-11 06:06:13 公開日:2020-07-12
# ASRU 2019 Mandarin- English Code-Switching Speech Recognition Challenge: Open Datasets, Tracks, Methods and Results

The ASRU 2019 Mandarin-English Code-Switching Speech Recognition Challenge: Open Datasets, Tracks, Methods and Results ( http://arxiv.org/abs/2007.05916v1 )

ライセンス: Link先を確認
Xian Shi, Qiangze Feng, Lei Xie(参考訳) コードスイッチング(CS)は一般的な現象であり、CS音声を認識することは困難である。 しかし、CS音声データは乏しく、関連する研究に共通するテストベッドはない。 本稿では,ASRU 2019 Mandarin- English code-switching speech Recognition Challengeの設計と主な成果について述べる。 参加者には、500時間マンダリン音声データと240時間マンダリン英語内csデータを公開する。 AMとLMを従来のDNN-HMM ASRシステムで前進させる3つのトラックが設定され、E2Eモデルの性能を探求した。 そこで本論文では,3トラックの結果とシステム性能について概説する。 従来のasrシステムは発音レキシコン、csテキスト生成、データ拡張の恩恵を受けている。 しかし、E2Eトラックでは、言語識別、合理的なモデリングユニットの構築、および仕様拡張の重要性が強調されている。 モデルトレーニングとメソッド比較の他の詳細について述べる。

Code-switching (CS) is a common phenomenon and recognizing CS speech is challenging. But CS speech data is scarce and there' s no common testbed in relevant research. This paper describes the design and main outcomes of the ASRU 2019 Mandarin-English code-switching speech recognition challenge, which aims to improve the ASR performance in Mandarin-English code-switching situation. 500 hours Mandarin speech data and 240 hours Mandarin-English intra-sentencial CS data are released to the participants. Three tracks were set for advancing the AM and LM part in traditional DNN-HMM ASR system, as well as exploring the E2E models' performance. The paper then presents an overview of the results and system performance in the three tracks. It turns out that traditional ASR system benefits from pronunciation lexicon, CS text generating and data augmentation. In E2E track, however, the results highlight the importance of using language identification, building-up a rational set of modeling units and spec-augment. The other details in model training and method comparsion are discussed.
翻訳日:2022-11-11 06:05:59 公開日:2020-07-12
# 多言語capsnetモデルによるきめ細かい言語識別

Fine-grained Language Identification with Multilingual CapsNet Model ( http://arxiv.org/abs/2007.06078v1 )

ライセンス: Link先を確認
Mudit Verma, Arun Balaji Buduru(参考訳) 世界中のインターネットサービスの質が劇的に向上しているため、多言語コンテンツの生成と消費が急増している。 これは多言語オーディエンスを持つ国では特に一般的であり、言語的親しみ/嗜好の外でメディアを消費する傾向にある。 したがって、言語識別、コンテンツの書き起こし、分析など、リアルタイムおよびきめ細かいコンテンツ分析サービスの必要性が高まっている。 精密かつきめ細かな音声言語検出は、その後のすべてのコンテンツ分析アルゴリズムにとって重要な第一歩である。 音声言語検出の現在の技術は、正確さ、きめ細かい検出、データ要求、データ収集および前処理における手作業など、これらの面で欠落している可能性がある。 そこで本研究では、5秒の音声クリップから91.8\%の精度で音声言語を検出するためのリアルタイム言語検出手法として,膨大なデータ要求と最小限の事前処理を提示する。 提供される音声スニペットのスペクトログラム画像を利用する新しいCapsule Networksアーキテクチャを提案する。 従来のアプローチでは,反復ニューラルネットワークとイベクタを用いて結果を提示する。 最後に、CapsNetアーキテクチャがなぜ LID タスクで機能するのかをさらに強調するために ``Non-Class'' 分析を示す。

Due to a drastic improvement in the quality of internet services worldwide, there is an explosion of multilingual content generation and consumption. This is especially prevalent in countries with large multilingual audience, who are increasingly consuming media outside their linguistic familiarity/preference. Hence, there is an increasing need for real-time and fine-grained content analysis services, including language identification, content transcription, and analysis. Accurate and fine-grained spoken language detection is an essential first step for all the subsequent content analysis algorithms. Current techniques in spoken language detection may lack on one of these fronts: accuracy, fine-grained detection, data requirements, manual effort in data collection \& pre-processing. Hence in this work, a real-time language detection approach to detect spoken language from 5 seconds' audio clips with an accuracy of 91.8\% is presented with exiguous data requirements and minimal pre-processing. Novel architectures for Capsule Networks is proposed which operates on spectrogram images of the provided audio snippets. We use previous approaches based on Recurrent Neural Networks and iVectors to present the results. Finally we show a ``Non-Class'' analysis to further stress on why CapsNet architecture works for LID task.
翻訳日:2022-11-11 06:05:40 公開日:2020-07-12
# デュアル・ディバイザ・ネットワーク:実環境騒音除去と騒音発生に向けて

Dual Adversarial Network: Toward Real-world Noise Removal and Noise Generation ( http://arxiv.org/abs/2007.05946v1 )

ライセンス: Link先を確認
Zongsheng Yue, Qian Zhao, Lei Zhang, Deyu Meng(参考訳) 実世界の画像ノイズ除去は、コンピュータビジョンにおける長年の課題である。 ディープニューラルネットワークの成功はノイズ発生の研究を刺激し、よりクリーンなノイズの多いイメージペアを合成してディープデノイザのトレーニングを促進することを目的としている。 本研究では,ノイズ除去タスクとノイズ発生タスクを同時に扱うための統合フレームワークを提案する。 従来のマップフレームワークで観測された雑音画像に条件づけられた潜在クリーン画像の後方分布を推定する代わりに,提案手法により,クリーンノイズ画像ペアの結合分布を学習する。 具体的には、ノイズ画像をクリーンにマッピングするデノイザーと、クリーン画像をノイズにマッピングするジェネレータとして定式化できる2つの異なる因子化形式によるジョイント分布を近似する。 学習された共同分布は、ノイズとクリーンな画像の間のすべての情報を暗黙的に含み、手動で画像の事前設計やノイズの仮定を従来のように避ける。 さらに、学習したジェネレータで元のトレーニングデータセットを拡張することで、denoiserの性能をさらに改善できます。 さらに,生成した雑音画像の品質を評価するための2つの指標を提案する。 実騒音除去タスクと生成タスクの両方において,本手法が最先端技術よりも優れていることを示すために,大規模な実験を行った。 トレーニングとテストのコードはhttps://github.com/zsyoaoa/danetで入手できる。

Real-world image noise removal is a long-standing yet very challenging task in computer vision. The success of deep neural network in denoising stimulates the research of noise generation, aiming at synthesizing more clean-noisy image pairs to facilitate the training of deep denoisers. In this work, we propose a novel unified framework to simultaneously deal with the noise removal and noise generation tasks. Instead of only inferring the posteriori distribution of the latent clean image conditioned on the observed noisy image in traditional MAP framework, our proposed method learns the joint distribution of the clean-noisy image pairs. Specifically, we approximate the joint distribution with two different factorized forms, which can be formulated as a denoiser mapping the noisy image to the clean one and a generator mapping the clean image to the noisy one. The learned joint distribution implicitly contains all the information between the noisy and clean images, avoiding the necessity of manually designing the image priors and noise assumptions as traditional. Besides, the performance of our denoiser can be further improved by augmenting the original training dataset with the learned generator. Moreover, we propose two metrics to assess the quality of the generated noisy image, for which, to the best of our knowledge, such metrics are firstly proposed along this research line. Extensive experiments have been conducted to demonstrate the superiority of our method over the state-of-the-arts both in the real noise removal and generation tasks. The training and testing code is available at https://github.com/zsyOAOA/DANet.
翻訳日:2022-11-11 06:05:19 公開日:2020-07-12
# rgb-dデータを用いたロボット車椅子の自己教師ありドレイバーエリアと道路異常セグメンテーション

Self-Supervised Drivable Area and Road Anomaly Segmentation using RGB-D Data for Robotic Wheelchairs ( http://arxiv.org/abs/2007.05950v1 )

ライセンス: Link先を確認
Hengli Wang, Yuxiang Sun, Ming Liu(参考訳) ドライビング可能なエリアと道路異常のセグメンテーションは、ロボット車椅子の自律ナビゲーションを実現する上で重要な機能である。 近年の深層学習技術によるセマンティックセグメンテーションの進歩は,効果的な結果を示している。 しかし、手書きの真理を持つ大規模データセットの取得には時間と労力がかかるため、ディープラーニングベースの手法を実践することがしばしば困難になる。 自己教師付き学習手法を提案することにより,乾燥可能なエリアと道路異常セグメンテーションの課題に対するこの問題の解決に寄与する。 我々は,乾燥地や道路異常のセグメンテーションラベルを自動生成するパイプラインを開発した。 そして、RGB-Dデータに基づくセマンティックセグメンテーションニューラルネットワークをトレーニングし、予測ラベルを取得する。 実験結果から,提案する自動ラベリングパイプラインは手動ラベリングに比べて高速であることがわかった。 さらに,提案手法は,最先端の従来のアルゴリズムや最先端の自己教師アルゴリズムよりも,より堅牢で正確な結果を示す。

The segmentation of drivable areas and road anomalies are critical capabilities to achieve autonomous navigation for robotic wheelchairs. The recent progress of semantic segmentation using deep learning techniques has presented effective results. However, the acquisition of large-scale datasets with hand-labeled ground truth is time-consuming and labor-intensive, making the deep learning-based methods often hard to implement in practice. We contribute to the solution of this problem for the task of drivable area and road anomaly segmentation by proposing a self-supervised learning approach. We develop a pipeline that can automatically generate segmentation labels for drivable areas and road anomalies. Then, we train RGB-D data-based semantic segmentation neural networks and get predicted labels. Experimental results show that our proposed automatic labeling pipeline achieves an impressive speed-up compared to manual labeling. In addition, our proposed self-supervised approach exhibits more robust and accurate results than the state-of-the-art traditional algorithms as well as the state-of-the-art self-supervised algorithms.
翻訳日:2022-11-11 06:04:53 公開日:2020-07-12
# 並列MR画像再構成のためのディープネットワーク補間

Deep Network Interpolation for Accelerated Parallel MR Image Reconstruction ( http://arxiv.org/abs/2007.05993v1 )

ライセンス: Link先を確認
Chen Qin, Jo Schlemper, Kerstin Hammernik, Jinming Duan, Ronald M Summers, and Daniel Rueckert(参考訳) 高速並列MR画像再構成のためのディープネットワーク補間戦略を提案する。 特に,L1 と SSIM の損失を持つ非ロール型スキームで定式化されたソースモデルと,逆損失で訓練されたソースモデルとのパラメータ空間におけるネットワーク補間について検討する。 同一ネットワーク構造の2つの異なるモデル間を補間することにより、新しい補間ネットワークは知覚品質と忠実性のトレードオフをモデル化できることを示す。

We present a deep network interpolation strategy for accelerated parallel MR image reconstruction. In particular, we examine the network interpolation in parameter space between a source model that is formulated in an unrolled scheme with L1 and SSIM losses and its counterpart that is trained with an adversarial loss. We show that by interpolating between the two different models of the same network structure, the new interpolated network can model a trade-off between perceptual quality and fidelity.
翻訳日:2022-11-11 06:04:38 公開日:2020-07-12
# PA-GAN: 顔属性編集のためのプログレッシブアテンション生成支援ネットワーク

PA-GAN: Progressive Attention Generative Adversarial Network for Facial Attribute Editing ( http://arxiv.org/abs/2007.05892v1 )

ライセンス: Link先を確認
Zhenliang He, Meina Kan, Jichao Zhang, Shiguang Shan(参考訳) 顔属性の編集は、例えば口ひげの追加や髪の色の変化など、人間の顔の属性を操作することを目的としている。 既存のアプローチは、不正確な領域の属性を編集するため、正しい属性生成とアイデンティティや背景などの他の情報の保存の間に深刻な妥協を被る。 このジレンマを解決するために,顔属性編集のためのプログレッシブアテンションGAN(PA-GAN)を提案する。 本手法では,各レベルの注意マスクにより適切な属性領域内を制約しながら,高機能レベルから低機能レベルへと編集を段階的に行う。 この方法では、望ましくない領域の変更を最初から防ぎ、ネットワークは各レベルの適切な境界内で属性を正しく生成することに集中することができる。 その結果,最新技術と比較して,無関係な詳細情報による属性編集の精度が向上した。 コードはhttps://github.com/LynnHo/PA-GAN-Tensorflowで公開されている。

Facial attribute editing aims to manipulate attributes on the human face, e.g., adding a mustache or changing the hair color. Existing approaches suffer from a serious compromise between correct attribute generation and preservation of the other information such as identity and background, because they edit the attributes in the imprecise area. To resolve this dilemma, we propose a progressive attention GAN (PA-GAN) for facial attribute editing. In our approach, the editing is progressively conducted from high to low feature level while being constrained inside a proper attribute area by an attention mask at each level. This manner prevents undesired modifications to the irrelevant regions from the beginning, and then the network can focus more on correctly generating the attributes within a proper boundary at each level. As a result, our approach achieves correct attribute editing with irrelevant details much better preserved compared with the state-of-the-arts. Codes are released at https://github.com/LynnHo/PA-GAN-Tensorflow.
翻訳日:2022-11-11 05:57:37 公開日:2020-07-12
# パーソナライズされた表情認識のためのポーズ認識逆ドメイン適応

Pose-aware Adversarial Domain Adaptation for Personalized Facial Expression Recognition ( http://arxiv.org/abs/2007.05932v1 )

ライセンス: Link先を確認
Guang Liang, Shangfei Wang, Can Wang(参考訳) 現在の表情認識法はポーズと被写体の変化を同時に扱うことができない。 本稿では,両変分を同時に緩和できる非教師付き対向領域適応法を提案する。 特に,本手法は,敵領域適応学習,敵横断型特徴学習,再構築学習の3つの学習戦略からなる。 1つ目は、ソース領域におけるポーズと表現に関連する特徴表現を学習し、両特徴分布を相手領域に適応させることである。 パーソナライズされた敵ドメイン適応を用いることで、この学習戦略は対象のバリエーションを緩和し、ソースドメインからの情報を活用して、対象ドメインでの学習を支援する。 第2は、ポーズ関連特徴表現と表現関連特徴表現とを強制して、ポーズ関連特徴表現と表現関連特徴表現とを両立させる。 最後に、顔画像再構成を適用して、学習した表現に関連した特徴表現がよりポーズとアイデンティティを損なうように特徴学習をさらに強化することができる。 4つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。

Current facial expression recognition methods fail to simultaneously cope with pose and subject variations. In this paper, we propose a novel unsupervised adversarial domain adaptation method which can alleviate both variations at the same time. Specially, our method consists of three learning strategies: adversarial domain adaptation learning, cross adversarial feature learning, and reconstruction learning. The first aims to learn pose- and expression-related feature representations in the source domain and adapt both feature distributions to that of the target domain by imposing adversarial learning. By using personalized adversarial domain adaptation, this learning strategy can alleviate subject variations and exploit information from the source domain to help learning in the target domain. The second serves to perform feature disentanglement between pose- and expression-related feature representations by impulsing pose-related feature representations expression-undistinguished and the expression-related feature representations pose-undistinguished. The last can further boost feature learning by applying face image reconstructions so that the learned expression-related feature representations are more pose- and identity-robust. Experimental results on four benchmark datasets demonstrate the effectiveness of the proposed method.
翻訳日:2022-11-11 05:57:19 公開日:2020-07-12
# 半教師付き3次元行動認識のための対向的自己監督学習

Adversarial Self-Supervised Learning for Semi-Supervised 3D Action Recognition ( http://arxiv.org/abs/2007.05934v1 )

ライセンス: Link先を確認
Chenyang Si, Xuecheng Nie, Wei Wang, Liang Wang, Tieniu Tan, Jiashi Feng(参考訳) これまでほとんど研究されていない半教師付き3次元行動認識の問題を考える。 その大きな課題は、ラベルのないデータから効果的に動きの表現を学ぶ方法にある。 自己教師付き学習(ssl)は、画像領域のラベルなしデータから表現を学ぶのに非常に効果的であることが証明されている。 しかし、3D行動認識には効果的な自己教師付きアプローチがほとんどなく、半教師付き学習にSSLを直接適用することは、SSLと教師付き学習タスクから学んだ表現の誤調整に悩まされる。 これらの課題に対処するために, SSL と半教師付きスキームを隣接する関係探索と対人学習により緊密に結合する新しいフレームワークである Adversarial Self-Supervised Learning (ASSL) を提案する。 具体的には、3次元行動認識のための学習表現の識別能力を向上させるための効果的なSSL方式を近所のデータ関係を探索することによって設計する。 さらに,ラベル付きサンプルとラベルなしサンプルの特徴分布を整列する逆正則化を提案する。 半教師付き3次元動作認識におけるASSLの有効性を示すため,NTUおよびN-UCLAデータセットについて広範な実験を行った。 その結果, 3次元動作認識において, 最先端の半教師付き手法よりも有利な性能が得られた。

We consider the problem of semi-supervised 3D action recognition which has been rarely explored before. Its major challenge lies in how to effectively learn motion representations from unlabeled data. Self-supervised learning (SSL) has been proved very effective at learning representations from unlabeled data in the image domain. However, few effective self-supervised approaches exist for 3D action recognition, and directly applying SSL for semi-supervised learning suffers from misalignment of representations learned from SSL and supervised learning tasks. To address these issues, we present Adversarial Self-Supervised Learning (ASSL), a novel framework that tightly couples SSL and the semi-supervised scheme via neighbor relation exploration and adversarial learning. Specifically, we design an effective SSL scheme to improve the discrimination capability of learned representations for 3D action recognition, through exploring the data relations within a neighborhood. We further propose an adversarial regularization to align the feature distributions of labeled and unlabeled samples. To demonstrate effectiveness of the proposed ASSL in semi-supervised 3D action recognition, we conduct extensive experiments on NTU and N-UCLA datasets. The results confirm its advantageous performance over state-of-the-art semi-supervised methods in the few label regime for 3D action recognition.
翻訳日:2022-11-11 05:56:59 公開日:2020-07-12
# 知覚類似クラスの存在下での深部特徴写像を用いた果実分類

Fruit classification using deep feature maps in the presence of deceptive similar classes ( http://arxiv.org/abs/2007.05942v1 )

ライセンス: Link先を確認
Mohit Dandekar, Narinder Singh Punn, Sanjay Kumar Sonbhadra, Sonali Agarwal(参考訳) オブジェクトの自動検出と分類は多くの産業分野で研究の領域として賞賛されている。 しかし、人間は高い多粒性の類似点を持つ物体を非常に容易に区別できるが、機械にとっては非常に難しい作業である。 畳み込みニューラルネットワーク(CNN)は、分類対象の多レベル表現において効率的な性能を示す。 従来、既存のディープラーニングモデルは、トレーニングとテストのために最後部層が生成する変換機能を利用する。 しかし、これは多粒体データではうまく機能しないことは明らかであり、特に擬似的類似クラス(ほぼ類似しているが異なるクラス)の存在下では顕著である。 本研究の目的は,複数のCNN層からの活性化を利用したアンサンブルアプローチによる,知覚的に類似した多粒状物体の分類の課題に対処することである。 これらの多層活性化は、類似した外観を持つ物体の分類のために複数の深い決定木(ランダムフォレストとして知られる)を構築するためにさらに利用される。 提案手法の評価にはFruits-360データセットを用いる。 広範な試行により,提案手法は従来のディープラーニング手法よりも優れていた。

Autonomous detection and classification of objects are admired area of research in many industrial applications. Though, humans can distinguish objects with high multi-granular similarities very easily; but for the machines, it is a very challenging task. The convolution neural networks (CNN) have illustrated efficient performance in multi-level representations of objects for classification. Conventionally, the existing deep learning models utilize the transformed features generated by the rearmost layer for training and testing. However, it is evident that this does not work well with multi-granular data, especially, in presence of deceptive similar classes (almost similar but different classes). The objective of the present research is to address the challenge of classification of deceptively similar multi-granular objects with an ensemble approach thfat utilizes activations from multiple layers of CNN (deep features). These multi-layer activations are further utilized to build multiple deep decision trees (known as Random forest) for classification of objects with similar appearance. The Fruits-360 dataset is utilized for evaluation of the proposed approach. With extensive trials it was observed that the proposed model outperformed over the conventional deep learning approaches.
翻訳日:2022-11-11 05:56:37 公開日:2020-07-12
# IllumiNet:拡張現実における平面面から仮想物体へのイルミネーション

IllumiNet: Transferring Illumination from Planar Surfaces to Virtual Objects in Augmented Reality ( http://arxiv.org/abs/2007.05981v1 )

ライセンス: Link先を確認
Di Xu, Zhen Li, Yanning Zhang, Qi Cao(参考訳) 本稿では,学習による実環境における仮想物体の照明推定手法を提案する。 従来の作業では,高ダイナミックレンジ(HDR)環境マップやそれに対応する球面高調波を再構成することでこの問題に対処していたが,シーン全体の照明環境の回復は試みていない。 一つのRGB画像が与えられた場合、シーンの平面面から抽出した照明特徴を所望のジオメトリに転送することで、信頼度の高い仮想オブジェクトを直接推測する。 従来の作品と比較して,室内環境と屋外環境の両方で,空間的な照度を持つため,このアプローチはより堅牢である。 実験および評価結果から,本手法は,現実的な拡張現実体験を達成し,定量的かつ質的にその性能を向上することが示された。

This paper presents an illumination estimation method for virtual objects in real environment by learning. While previous works tackled this problem by reconstructing high dynamic range (HDR) environment maps or the corresponding spherical harmonics, we do not seek to recover the lighting environment of the entire scene. Given a single RGB image, our method directly infers the relit virtual object by transferring the illumination features extracted from planar surfaces in the scene to the desired geometries. Compared to previous works, our approach is more robust as it works in both indoor and outdoor environments with spatially-varying illumination. Experiments and evaluation results show that our approach outperforms the state-of-the-art quantitatively and qualitatively, achieving realistic augmented experience.
翻訳日:2022-11-11 05:56:22 公開日:2020-07-12
# リアルタイム複数物体追跡のための相関検出学習

Learning to associate detections for real-time multiple object tracking ( http://arxiv.org/abs/2007.06041v1 )

ライセンス: Link先を確認
Michel Meneses, Leonardo Matos, Bruno Prado, Andr\'e de Carvalho and Hendrik Macedo(参考訳) 近年のオブジェクト検出研究の進歩により、多目的追跡アルゴリズムが採用する主要なパラダイムとなっている。 検出されたオブジェクトから異なる特徴を抽出することにより、それらのアルゴリズムは連続したフレームに沿ってオブジェクトの類似性と関連パターンを推定することができる。 しかし,追跡アルゴリズムが適用した類似性関数は手作りであるため,新しい文脈での活用は困難である。 本研究では,ニューラルネットワークを用いた類似度関数の学習について検討した。 トレーニング中のネットワークは、歩行者追跡データセットからサンプリングされた、正確で不正な関連パターンに対して導入された。 そのため、異なる動きと外観の組み合わせが検討されている。 最後に、トレーニングされたネットワークを複数オブジェクト追跡フレームワークに挿入し、MOT Challengeベンチマークで評価した。 実験を通して,提案手法は最先端の手法で得られた結果と一致し,ベースラインとして使用される最近および類似の手法よりも58\%高速に動作した。

With the recent advances in the object detection research field, tracking-by-detection has become the leading paradigm adopted by multi-object tracking algorithms. By extracting different features from detected objects, those algorithms can estimate the objects' similarities and association patterns along successive frames. However, since similarity functions applied by tracking algorithms are handcrafted, it is difficult to employ them in new contexts. In this study, it is investigated the use of artificial neural networks to learning a similarity function that can be used among detections. During training, the networks were introduced to correct and incorrect association patterns, sampled from a pedestrian tracking data set. For such, different motion and appearance features combinations have been explored. Finally, a trained network has been inserted into a multiple-object tracking framework, which has been assessed on the MOT Challenge benchmark. Throughout the experiments, the proposed tracker matched the results obtained by state-of-the-art methods, it has run 58\% faster than a recent and similar method, used as baseline.
翻訳日:2022-11-11 05:56:07 公開日:2020-07-12
# 畳み込みニューラルネットワークを用いたポリプ分類の比較研究

A Comparative Study on Polyp Classification using Convolutional Neural Networks ( http://arxiv.org/abs/2007.06071v1 )

ライセンス: Link先を確認
Krushi Patel, Kaidong Li, Ke Tao, Quan Wang, Ajay Bansal, Amit Rastogi, Guanghui Wang(参考訳) 大腸癌は、米国で男性と女性の両方で診断される3番目に多いがんである。 ほとんどの大腸癌は「ポリープ」と呼ばれる結腸または直腸の内側に成長して発生する。 すべてのポリープが癌であるわけではないが、がんに進展するものもある。 ポリープの早期検出と認識は、がんの予防と予後の変化に不可欠である。 しかし,ポリープの視覚的分類は,内視鏡の照明条件,テクスチャの多様性,外観,ポリプ間の重なり合いなどにより困難である。 さらに,胃腸科医によるポリープパターンの評価が主観的であり,観察者の間では不一致となっている。 深層畳み込みニューラルネットワークは、様々な対象カテゴリのオブジェクト分類において非常に成功した。 本研究では,ポリプ分類における最先端汎用オブジェクト分類モデルの性能を比較する。 我々は,超塑性とアデノマトースという2種類のポリープからなる157の動画シーケンスのデータセットを用いて,合計6つのCNNモデルをエンドツーエンドにトレーニングした。 その結果,最先端のcnnモデルは胃腸科医の報告と同等かそれ以上の精度でポリプの分類に成功した。 本研究の結果はポリープ分類の今後の研究を導くことができる。

Colorectal cancer is the third most common cancer diagnosed in both men and women in the United States. Most colorectal cancers start as a growth on the inner lining of the colon or rectum, called 'polyp'. Not all polyps are cancerous, but some can develop into cancer. Early detection and recognition of the type of polyps is critical to prevent cancer and change outcomes. However, visual classification of polyps is challenging due to varying illumination conditions of endoscopy, variant texture, appearance, and overlapping morphology between polyps. More importantly, evaluation of polyp patterns by gastroenterologists is subjective leading to a poor agreement among observers. Deep convolutional neural networks have proven very successful in object classification across various object categories. In this work, we compare the performance of the state-of-the-art general object classification models for polyp classification. We trained a total of six CNN models end-to-end using a dataset of 157 video sequences composed of two types of polyps: hyperplastic and adenomatous. Our results demonstrate that the state-of-the-art CNN models can successfully classify polyps with an accuracy comparable or better than reported among gastroenterologists. The results of this study can guide future research in polyp classification.
翻訳日:2022-11-11 05:55:52 公開日:2020-07-12
# SkyScapes - 航空シーンの微粒化セマンティック理解

SkyScapes -- Fine-Grained Semantic Understanding of Aerial Scenes ( http://arxiv.org/abs/2007.06102v1 )

ライセンス: Link先を確認
Seyed Majid Azimi, Corentin Henry, Lars Sommer, Arne Schumann and Eleonora Vig(参考訳) 複雑な都市インフラをセンチメートルレベルの精度で理解することは、自動運転からマッピング、インフラモニタリング、都市管理に至るまで、多くのアプリケーションにとって不可欠である。 航空画像は瞬時に広い範囲にわたって貴重な情報を提供するが、現在のデータセットでは実世界のアプリケーションに必要な粒度レベルでの航空シーンの複雑さを捉えていない。 これを解決するために,高精度で微細なアノテーションを画素レベルのセマンティックラベルに付加した航空画像データセットSkyScapesを導入する。 skyscapesは、建物、道路、植生などの大きな構造から、レーンマークの12の(サブ)カテゴリといった詳細まで、31のセマンティックカテゴリにアノテーションを提供している。 このデータセットでは, セマンティックセマンティックセグメンテーションとマルチクラスレーンマーキング予測という2つの主要なタスクを定義した。 本研究では,SkyScapesにおける最先端セグメンテーション手法の評価を行う。 既存のメソッドは、幅広いクラス、オブジェクトサイズ、スケール、詳細な詳細を扱うのに苦労しています。 そこで本研究では,セマンティックエッジ検出を取り入れたマルチタスクモデルを提案する。 このモデルは、領域の概要と両方のタスクの詳細レベルにおけるベースラインよりも顕著に改善されている。

Understanding the complex urban infrastructure with centimeter-level accuracy is essential for many applications from autonomous driving to mapping, infrastructure monitoring, and urban management. Aerial images provide valuable information over a large area instantaneously; nevertheless, no current dataset captures the complexity of aerial scenes at the level of granularity required by real-world applications. To address this, we introduce SkyScapes, an aerial image dataset with highly-accurate, fine-grained annotations for pixel-level semantic labeling. SkyScapes provides annotations for 31 semantic categories ranging from large structures, such as buildings, roads and vegetation, to fine details, such as 12 (sub-)categories of lane markings. We have defined two main tasks on this dataset: dense semantic segmentation and multi-class lane-marking prediction. We carry out extensive experiments to evaluate state-of-the-art segmentation methods on SkyScapes. Existing methods struggle to deal with the wide range of classes, object sizes, scales, and fine details present. We therefore propose a novel multi-task model, which incorporates semantic edge detection and is better tuned for feature extraction from a wide range of scales. This model achieves notable improvements over the baselines in region outlines and level of detail on both tasks.
翻訳日:2022-11-11 05:55:34 公開日:2020-07-12
# 放射能に基づくニューラルアーキテクチャ探索のためのマルチモダリティ情報融合

Multi-Modality Information Fusion for Radiomics-based Neural Architecture Search ( http://arxiv.org/abs/2007.06002v1 )

ライセンス: Link先を確認
Yige Peng, Lei Bi, Michael Fulham, Dagan Feng, and Jinman Kim(参考訳) 放射能」とは、放射線画像から採掘可能な量的特徴を抽出する手法である。 これらの特徴は、例えば、遠隔転移(DM)の発生を予測するために、予後を決定するために使われる。 しかし、既存の放射能法は、手作りの放射能の特徴の設計と抽出と選択を含む複雑な手作業を必要とする。 畳み込みニューラルネットワーク(cnns)に基づく最近の放射能法は、ネットワークアーキテクチャ設計とハイパーパラメータチューニングの手動入力も必要である。 例えば、PET-CT(Computed Tomography)はPETからの機能情報とCT(Computed Tomography)からの補完的な解剖学的局在情報である。 既存のマルチモダリティラジオミクス手法は、別々に抽出されたデータを手動で融合する。 手動核融合の信頼性は、医療画像の「専門家」理解に依存するため、しばしば準最適核融合をもたらす。 本研究では,放射能に最適なマルチモーダル画像特徴を自動的に導出し,手動による処理に依存しないマルチモーダルニューラルアーキテクチャ探索法を提案する。 軟部肉腫 (STSs) 患者の公共PET-CTデータセットを用いて, DMの予測能力についてMM-NASの評価を行った。 以上の結果から,mm-nasは最先端のラジオマティックス法と比較して高い予測精度を示した。

'Radiomics' is a method that extracts mineable quantitative features from radiographic images. These features can then be used to determine prognosis, for example, predicting the development of distant metastases (DM). Existing radiomics methods, however, require complex manual effort including the design of hand-crafted radiomic features and their extraction and selection. Recent radiomics methods, based on convolutional neural networks (CNNs), also require manual input in network architecture design and hyper-parameter tuning. Radiomic complexity is further compounded when there are multiple imaging modalities, for example, combined positron emission tomography - computed tomography (PET-CT) where there is functional information from PET and complementary anatomical localization information from computed tomography (CT). Existing multi-modality radiomics methods manually fuse the data that are extracted separately. Reliance on manual fusion often results in sub-optimal fusion because they are dependent on an 'expert's' understanding of medical images. In this study, we propose a multi-modality neural architecture search method (MM-NAS) to automatically derive optimal multi-modality image features for radiomics and thus negate the dependence on a manual process. We evaluated our MM-NAS on the ability to predict DM using a public PET-CT dataset of patients with soft-tissue sarcomas (STSs). Our results show that our MM-NAS had a higher prediction accuracy when compared to state-of-the-art radiomics methods.
翻訳日:2022-11-11 05:49:12 公開日:2020-07-12
# 形態学的に豊かな言語における補題と発話の一部の神経的曖昧さ

Neural disambiguation of lemma and part of speech in morphologically rich languages ( http://arxiv.org/abs/2007.06104v1 )

ライセンス: Link先を確認
Jos\'e Mar\'ia Hoya Quecedo, Maximilian W. Koppatz, Giacomo Furlan, Roman Yangarber(参考訳) 形態的に豊かな言語における不明瞭な単語の補題と発話の一部を曖昧にする問題を考える。 We propose a method for disambiguating ambiguous words in context, using a large un-annotated corpus of text, and a morphological analyser -- with no manual disambiguation or data annotation. We assume that the morphological analyser produces multiple analyses for ambiguous words. The idea is to train recurrent neural networks on the output that the morphological analyser produces for unambiguous words. We present performance on POS and lemma disambiguation that reaches or surpasses the state of the art -- including supervised models -- using no manually annotated data. いくつかの形態学的に豊かな言語でその手法を評価する。

We consider the problem of disambiguating the lemma and part of speech of ambiguous words in morphologically rich languages. We propose a method for disambiguating ambiguous words in context, using a large un-annotated corpus of text, and a morphological analyser -- with no manual disambiguation or data annotation. We assume that the morphological analyser produces multiple analyses for ambiguous words. The idea is to train recurrent neural networks on the output that the morphological analyser produces for unambiguous words. We present performance on POS and lemma disambiguation that reaches or surpasses the state of the art -- including supervised models -- using no manually annotated data. We evaluate the method on several morphologically rich languages.
翻訳日:2022-11-11 05:47:13 公開日:2020-07-12
# relational-grid-world:新しい関係推論環境と関係情報抽出エージェントモデル

Relational-Grid-World: A Novel Relational Reasoning Environment and An Agent Model for Relational Information Extraction ( http://arxiv.org/abs/2007.05961v1 )

ライセンス: Link先を確認
Faruk Kucuksubasi and Elif Surer(参考訳) 強化学習(RL)エージェントは特定の問題のために特別に設計され、一般的には解釈不能な作業プロセスを持つ。 統計的手法に基づくエージェントアルゴリズムは、論理プログラミングのようなシンボリック人工知能(AI)ツールを用いて、一般化可能性と解釈可能性の観点から改善することができる。 本研究では,環境オブジェクトの明示的な関係表現をサポートするモデルフリーなrlアーキテクチャを提案する。 画像ベースのタスクではなく,動的意思決定問題において,PrediNetネットワークアーキテクチャを初めて使用し,MHDPA(Multi-Head Dot-Product Attention Network)を性能比較のベースラインとした。 基本となるBox-World環境と新しいRelational-Grid-World(RGW)環境の2つの環境で2つのネットワークをテストした。 視覚知覚や組合せ選択の点で複雑である手続き的に生成されたRGW環境により、RLエージェントの相関表現性能を測定することは容易である。 実験は,提案するモジュールと環境をベースラインと比較するように,環境の異なる構成を用いて実施した。 我々は、PrediNetアーキテクチャとMHDPAで同様のポリシー最適化性能を達成し、提案表現を明示的に抽出することで、エージェントの統計的ポリシーロジックをより解釈可能でトラクタブルなものにしました。 このエージェントポリシーの柔軟性は、タスク固有のエージェントアーキテクチャを設計するための利便性を提供する。 この研究の主な貢献は、リレーショナル推論を明示的に実行できる2つの----rlエージェントと、rlエージェントのリレーショナル推論能力を測定する新しい環境である。

Reinforcement learning (RL) agents are often designed specifically for a particular problem and they generally have uninterpretable working processes. Statistical methods-based agent algorithms can be improved in terms of generalizability and interpretability using symbolic Artificial Intelligence (AI) tools such as logic programming. In this study, we present a model-free RL architecture that is supported with explicit relational representations of the environmental objects. For the first time, we use the PrediNet network architecture in a dynamic decision-making problem rather than image-based tasks, and Multi-Head Dot-Product Attention Network (MHDPA) as a baseline for performance comparisons. We tested two networks in two environments ---i.e., the baseline Box-World environment and our novel environment, Relational-Grid-World (RGW). With the procedurally generated RGW environment, which is complex in terms of visual perceptions and combinatorial selections, it is easy to measure the relational representation performance of the RL agents. The experiments were carried out using different configurations of the environment so that the presented module and the environment were compared with the baselines. We reached similar policy optimization performance results with the PrediNet architecture and MHDPA; additionally, we achieved to extract the propositional representation explicitly ---which makes the agent's statistical policy logic more interpretable and tractable. This flexibility in the agent's policy provides convenience for designing non-task-specific agent architectures. The main contributions of this study are two-fold ---an RL agent that can explicitly perform relational reasoning, and a new environment that measures the relational reasoning capabilities of RL agents.
翻訳日:2022-11-11 05:47:03 公開日:2020-07-12
# 予算最大カバレッジ問題に対するtabu探索に基づく確率学習

Probability Learning based Tabu Search for the Budgeted Maximum Coverage Problem ( http://arxiv.org/abs/2007.05971v1 )

ライセンス: Link先を確認
Liwen Li, Zequn Wei, Jin-Kao Hao and Kun He(参考訳) クナプサック問題は、幅広い応用を定式化できる古典的なモデルである。 本研究では, 一般化した0-1knapsack問題であるBudgeted Maximum Coverage Problem (BMCP) を扱う。 BMCPは、非負の重量を持つ項目と、各項目が要素のサブセットから構成される非負の利益を持つ要素のセットが与えられたとき、選択された項目の総重量がクナップサック容量を超えず、関連する要素の総利益が最大となるように、容量制限されたクナップサックに項目のサブセットを詰めることを目的とする。 要素が複数回カバーされている場合でも、各要素は1回カウントされる。 BMCPは、近年よく研究されているSet-Union Knapsack Problem (SUKP)と密接に関連している。 しかし、SUKPの相反する問題として、BMCPは1999年初頭に導入されたが、その後はほとんど研究されていない。 強化学習法と局所探索法を組み合わせることで,このnp-hard問題に対処するための確率学習ベースのタブサーチ(plts)アルゴリズムを提案する。 提案アルゴリズムは,タブ探索フェーズと確率学習に基づく摂動フェーズという,2つの異なるフェーズを繰り返す。 文献にはベンチマークインスタンスが提案されていないため、さまざまな特性を持つベンチマークインスタンスを30個生成する。 実験結果から,PLTSアルゴリズムは解法品質の観点からBMCPを解く上で,一般的なCPLEX解法よりも優れていた。

Knapsack problems are classic models that can formulate a wide range of applications. In this work, we deal with the Budgeted Maximum Coverage Problem (BMCP), which is a generalized 0-1 knapsack problem. Given a set of items with nonnegative weights and a set of elements with nonnegative profits, where each item is composed of a subset of elements, BMCP aims to pack a subset of items in a capacity-constrained knapsack such that the total weight of the selected items does not exceed the knapsack capacity, and the total profit of the associated elements is maximized. Note that each element is counted once even if it is covered multiple times. BMCP is closely related to the Set-Union Knapsack Problem (SUKP) that is well studied in recent years. As the counterpart problem of SUKP, however, BMCP was introduced early in 1999 but since then it has been rarely studied, especially there is no practical algorithm proposed. By combining the reinforcement learning technique to the local search procedure, we propose a probability learning based tabu search (PLTS) algorithm for addressing this NP-hard problem. The proposed algorithm iterates through two distinct phases, namely a tabu search phase and a probability learning based perturbation phase. As there is no benchmark instances proposed in the literature, we generate 30 benchmark instances with varied properties. Experimental results demonstrate that our PLTS algorithm significantly outperforms the general CPLEX solver for solving the challenging BMCP in terms of the solution quality.
翻訳日:2022-11-11 05:46:34 公開日:2020-07-12
# Xiaomingbot:多言語ロボットニュースレポーター

Xiaomingbot: A Multilingual Robot News Reporter ( http://arxiv.org/abs/2007.08005v1 )

ライセンス: Link先を確認
Runxin Xu, Jun Cao, Mingxuan Wang, Jiaze Chen, Hao Zhou, Ying Zeng, Yuping Wang, Li Chen, Xiang Yin, Xijin Zhang, Songcheng Jiang, Yuxuan Wang, Lei Li(参考訳) 本稿では,ニュース生成,ニュース翻訳,ニュース読取,アバターアニメーションという4つの機能を備えた,知的・多言語・マルチモーダルなソフトウェアロボットXiaomingbotの構築を提案する。 そのシステムは、データテーブルから自動的に生成される中国のニュースを要約する。 次に、要約や全記事を複数の言語に翻訳し、合成された音声を通して多言語交替を読み取る。 特にXiaomingbotは音声クローニング技術を利用して、実際の人の音声データから訓練された音声を1つの入力言語で合成する。 提案システムにはアニメーションアバターが備わっており,多言語ニュースを生成,読み取ることができる。 施行以来、xiaomingbotは60万以上の記事を書き、ソーシャルメディアプラットフォーム上で15万以上のフォロワーを獲得した。

This paper proposes the building of Xiaomingbot, an intelligent, multilingual and multimodal software robot equipped with four integral capabilities: news generation, news translation, news reading and avatar animation. Its system summarizes Chinese news that it automatically generates from data tables. Next, it translates the summary or the full article into multiple languages, and reads the multilingual rendition through synthesized speech. Notably, Xiaomingbot utilizes a voice cloning technology to synthesize the speech trained from a real person's voice data in one input language. The proposed system enjoys several merits: it has an animated avatar, and is able to generate and read multilingual news. Since it was put into practice, Xiaomingbot has written over 600,000 articles, and gained over 150,000 followers on social media platforms.
翻訳日:2022-11-11 05:40:05 公開日:2020-07-12
# 編集可能なAI: コードパターンの混合AIオーサリング

Editable AI: Mixed Human-AI Authoring of Code Patterns ( http://arxiv.org/abs/2007.05902v1 )

ライセンス: Link先を確認
Kartik Chugh, Andrea Y. Solis, Thomas D. LaToza(参考訳) htmlドキュメントを作成する開発者は、各クラスを適用してフッタ内のすべてのイメージを同じ高さにするなど、ドキュメントの視覚的構造を確立し、反映するパターンに従う要素を定義する。 これらのパターンを開発者に提示し、これらのパターンに整合したオーサリングを支援するために、コードパターンを作成するための混合AI技術を提案する。 パターンはまず、決定木を通して個々のhtmlドキュメントから学び、開発者が閲覧して編集できる表現を生成する。 コードパターンは、開発者が自動補完提案、サンプルのリスト、フラグ違反を提供するために使用される。 本手法を評価するために,24人の参加者がHTML文書を作成,編集,修正したユーザスタディを行った。 私たちの技術は、開発者がドキュメントをより早く編集し、修正し、よりうまく作成し、編集し、修正できるようにしました。

Developers authoring HTML documents define elements following patterns which establish and reflect the visual structure of a document, such as making all images in a footer the same height by applying a class to each. To surface these patterns to developers and support developers in authoring consistent with these patterns, we propose a mixed human-AI technique for creating code patterns. Patterns are first learned from individual HTML documents through a decision tree, generating a representation which developers may view and edit. Code patterns are used to offer developers autocomplete suggestions, list examples, and flag violations. To evaluate our technique, we conducted a user study in which 24 participants wrote, edited, and corrected HTML documents. We found that our technique enabled developers to edit and correct documents more quickly and create, edit, and correct documents more successfully.
翻訳日:2022-11-11 05:39:52 公開日:2020-07-12
# 移動体保健における行動認識のための伝達学習

Transfer Learning for Activity Recognition in Mobile Health ( http://arxiv.org/abs/2007.06062v1 )

ライセンス: Link先を確認
Yuchao Ma, Andrew T. Campbell, Diane J. Cook, John Lach, Shwetak N. Patel, Thomas Ploetz, Majid Sarrafzadeh, Donna Spruijt-Metz, Hassan Ghasemzadeh(参考訳) 慣性センサからのアクティビティ認識はモバイルの健康に有益であるが、センシングプラットフォームとユーザの動きパターンの違いはパフォーマンスの劣化を引き起こす。 これらの課題に対処すべく,センサに基づくアクティビティ認識のためのトランスファー学習フレームワークtransfallを提案する。 transfallの設計には、2層データ変換、ラベル推定層、新しいシナリオのアクティビティを認識するモデル生成層が含まれている。 TransFallを解析的かつ実証的に検証する。

While activity recognition from inertial sensors holds potential for mobile health, differences in sensing platforms and user movement patterns cause performance degradation. Aiming to address these challenges, we propose a transfer learning framework, TransFall, for sensor-based activity recognition. TransFall's design contains a two-tier data transformation, a label estimation layer, and a model generation layer to recognize activities for the new scenario. We validate TransFall analytically and empirically.
翻訳日:2022-11-11 05:39:38 公開日:2020-07-12
# サブガウスレートを用いたロバスト回帰のためのスペクトルアルゴリズム

A spectral algorithm for robust regression with subgaussian rates ( http://arxiv.org/abs/2007.06072v1 )

ライセンス: Link先を確認
Jules Depersin(参考訳) 本研究では,試料の底面分布と異常値の存在に対する強い仮定を欠いた線形回帰のための新しい線形up to quadratic timeアルゴリズムについて検討した。 目標は、データに有限モーメント(最大$l_4$)と、潜在的に逆の外れ値が存在するにもかかわらず、最適なサブガウジアンエラーバウンドを達成する実際の動作コードを持つ手順を設計することである。 この問題に対する多項式時間解が最近発見されているが、Squareの階層プログラミングにSum-of-Squareを使っているためランタイムが高い。 本アルゴリズムの核となるのは,平均推定問題に導入したスペクトル法を線形回帰問題に適用する手法である。 副産物として,線形回帰問題と最短超平面問題との関係を確立した。 確率的観点から見ると、古典的二次過程と乗算過程の研究に加えて、アルゴリズムの統計的性質の研究において自然に現れる3つ目の経験的過程を導入する。

We study a new linear up to quadratic time algorithm for linear regression in the absence of strong assumptions on the underlying distributions of samples, and in the presence of outliers. The goal is to design a procedure which comes with actual working code that attains the optimal sub-gaussian error bound even though the data have only finite moments (up to $L_4$) and in the presence of possibly adversarial outliers. A polynomial-time solution to this problem has been recently discovered but has high runtime due to its use of Sum-of-Square hierarchy programming. At the core of our algorithm is an adaptation of the spectral method introduced for the mean estimation problem to the linear regression problem. As a by-product we established a connection between the linear regression problem and the furthest hyperplane problem. From a stochastic point of view, in addition to the study of the classical quadratic and multiplier processes we introduce a third empirical process that comes naturally in the study of the statistical properties of the algorithm.
翻訳日:2022-11-11 05:39:30 公開日:2020-07-12
# vafl:垂直型非同期フェデレーション学習の一手法

VAFL: a Method of Vertical Asynchronous Federated Learning ( http://arxiv.org/abs/2007.06081v1 )

ライセンス: Link先を確認
Tianyi Chen, Xiao Jin, Yuejiao Sun, and Wotao Yin(参考訳) horizontal federated learning(fl)は、同じ機能セットを共有するマルチクライアントデータを処理し、垂直flは、異なるクライアントのすべての機能を組み合わせるより良い予測器をトレーニングする。 本稿では,垂直FLを非同期に解くことを目標とし,単純なFL法を開発した。 新しい手法では,各クライアントが他のクライアントと協調することなく確率勾配アルゴリズムを実行できるので,クライアントの断続接続に適している。 この手法はさらに、データプライバシの確保と通信効率の向上のために、摂動型局所埋め込みの新しい手法を使用する。 理論的には,本手法の収束率とプライバシレベルについて,強凸,非凸,さらには非滑らかな目的を別々に示す。 経験的に、この手法を様々な画像と医療データセットのflに適用する。 その結果,集中型および同期型FL法と比較した。

Horizontal Federated learning (FL) handles multi-client data that share the same set of features, and vertical FL trains a better predictor that combine all the features from different clients. This paper targets solving vertical FL in an asynchronous fashion, and develops a simple FL method. The new method allows each client to run stochastic gradient algorithms without coordination with other clients, so it is suitable for intermittent connectivity of clients. This method further uses a new technique of perturbed local embedding to ensure data privacy and improve communication efficiency. Theoretically, we present the convergence rate and privacy level of our method for strongly convex, nonconvex and even nonsmooth objectives separately. Empirically, we apply our method to FL on various image and healthcare datasets. The results compare favorably to centralized and synchronous FL methods.
翻訳日:2022-11-11 05:39:12 公開日:2020-07-12
# 教師付き画像分類のための絡み合いとテンソルネットワーク

Entanglement and Tensor Networks for Supervised Image Classification ( http://arxiv.org/abs/2007.06082v1 )

ライセンス: Link先を確認
John Martyn, Guifre Vidal, Chase Roberts, Stefan Leichenauer(参考訳) 量子多体物理学における計算問題に対処するために設計されたテンソルネットワークは、最近機械学習タスクに応用されている。 しかし、過去30年間のテンソルネットワークの成功の理由がよく理解されている量子物理学と比較して、これらの技術が機械学習に有効である理由についてはほとんど分かっていない。 本研究の目的は,現在の機械学習アプリケーションにおけるテンソルネットワークモデルの絡み合い特性を調べ,今後の発展を導く一般的な原理を明らかにすることである。 stoudenmire と schwab [adv. in neur. inform. proc. sys. 29, 4799 (2016)] によって考案された,手書き桁のmnistデータセットを用いた教師付き画像分類のためのテンソルネットワークの利用について再検討した。 まず、トレーニング中にテンソルネットワークが学習している状態について仮定する。 その目的のために, 候補状態である ||\sigma_{\ell}\rangle$ (トレーニングセット内の画像に対応する積状態の重ね合わせとして構築) を提案し, その絡み合い特性について検討する。 結論として、$|\sigma_{\ell}\rangle$ は強固に絡み合っており、その仕事で使われるテンソルネットワークでは近似できないため、全く異なる状態を表す必要がある。 第二に、ブロック積構造を持つテンソルネットワークを用い、エンタングルメントは$n \times n$ pixels/qubitsの小さなブロック内で制限される。 これらの状態は非常に表現力が高い(例えば、訓練精度99.97 \%$ for $n=2$)ことは、長距離の絡み合いが画像分類に必須でないことを示唆している。 しかし、現在の実装では、最適化は過度に適合し、その結果、他の現在のアプローチと競合しないテストの精度をもたらす。

Tensor networks, originally designed to address computational problems in quantum many-body physics, have recently been applied to machine learning tasks. However, compared to quantum physics, where the reasons for the success of tensor network approaches over the last 30 years is well understood, very little is yet known about why these techniques work for machine learning. The goal of this paper is to investigate entanglement properties of tensor network models in a current machine learning application, in order to uncover general principles that may guide future developments. We revisit the use of tensor networks for supervised image classification using the MNIST data set of handwritten digits, as pioneered by Stoudenmire and Schwab [Adv. in Neur. Inform. Proc. Sys. 29, 4799 (2016)]. Firstly we hypothesize about which state the tensor network might be learning during training. For that purpose, we propose a plausible candidate state $|\Sigma_{\ell}\rangle$ (built as a superposition of product states corresponding to images in the training set) and investigate its entanglement properties. We conclude that $|\Sigma_{\ell}\rangle$ is so robustly entangled that it cannot be approximated by the tensor network used in that work, which must therefore be representing a very different state. Secondly, we use tensor networks with a block product structure, in which entanglement is restricted within small blocks of $n \times n$ pixels/qubits. We find that these states are extremely expressive (e.g. training accuracy of $99.97 \%$ already for $n=2$), suggesting that long-range entanglement may not be essential for image classification. However, in our current implementation, optimization leads to over-fitting, resulting in test accuracies that are not competitive with other current approaches.
翻訳日:2022-11-11 05:38:59 公開日:2020-07-12
# オートエンコーダとカーネル法による腫瘍プロファイルの教師なし特徴選択

Unsupervised Feature Selection for Tumor Profiles using Autoencoders and Kernel Methods ( http://arxiv.org/abs/2007.06106v1 )

ライセンス: Link先を確認
Martin Palazzo, Pierre Beauseroy, Patricio Yankilevich(参考訳) 腫瘍プロファイルからの分子データは高次元である。 腫瘍のプロファイルは数万の遺伝子発現の特徴によって特徴づけられる。 遺伝子発現機能セットのサイズのため、機械学習手法はノイズの多い変数や複雑さにさらされる。 腫瘍タイプは異種であり、腫瘍サブタイプに分類できる。 多くの場合、腫瘍データは腫瘍サブタイプラベリングを含まないため、腫瘍サブタイプ発見には教師なし学習法が必要である。 本研究の目的は,腫瘍サンプルの有意義かつ低次元表現を学習し,腫瘍ラベルを用いずに,生体信号を維持しながら腫瘍サブタイプのクラスターを探索することである。 提案手法であるlatent kernel feature selection(lkfs)は、腫瘍遺伝子発現プロファイルにおける遺伝子選択の教師なしアプローチである。 オートエンコーダを用いることで、低次元かつ離散化された潜在空間を目標表現として学習し、遺伝子のサブセットを選択する多重カーネル学習モデルを導出する。 選択された遺伝子を用いてサンプルをグループ化する。 提案手法の有効性を評価するために, 得られた特徴量とクラスタを臨床的意義から分析した。 提案手法は脳,腎,肺の3つの腫瘍データセットに適用され,それぞれ2つの腫瘍サブタイプからなる。 教師なし特徴選択法と比較すると,提案手法により得られた結果から,選択した特徴の冗長性が低下し,クラスタリング性能が向上することがわかった。

Molecular data from tumor profiles is high dimensional. Tumor profiles can be characterized by tens of thousands of gene expression features. Due to the size of the gene expression feature set machine learning methods are exposed to noisy variables and complexity. Tumor types present heterogeneity and can be subdivided in tumor subtypes. In many cases tumor data does not include tumor subtype labeling thus unsupervised learning methods are necessary for tumor subtype discovery. This work aims to learn meaningful and low dimensional representations of tumor samples and find tumor subtype clusters while keeping biological signatures without using tumor labels. The proposed method named Latent Kernel Feature Selection (LKFS) is an unsupervised approach for gene selection in tumor gene expression profiles. By using Autoencoders a low dimensional and denoised latent space is learned as a target representation to guide a Multiple Kernel Learning model that selects a subset of genes. By using the selected genes a clustering method is used to group samples. In order to evaluate the performance of the proposed unsupervised feature selection method the obtained features and clusters are analyzed by clinical significance. The proposed method has been applied on three tumor datasets which are Brain, Renal and Lung, each one composed by two tumor subtypes. When compared with benchmark unsupervised feature selection methods the results obtained by the proposed method reveal lower redundancy in the selected features and a better clustering performance.
翻訳日:2022-11-11 05:37:47 公開日:2020-07-12
# OtoWorld: 学習と移動の分離を目指す

OtoWorld: Towards Learning to Separate by Learning to Move ( http://arxiv.org/abs/2007.06123v1 )

ライセンス: Link先を確認
Omkar Ranadive, Grant Gasser, David Terpay, Prem Seetharaman(参考訳) 我々は,ナビゲーションタスクを解決するためにエージェントが聞き取りを学ばなければならない対話型環境であるotoworldを提案する。 OtoWorldの目的は、コンピュータオーディションにおける強化学習の研究を促進することである。 OtoWorldは環境とエージェントインタラクションのためのOpenAI Gym、レイトレーシングと音響シミュレーションのためのPyRoomAcoustics、深層コンピュータオーディションモデルのトレーニングのためのnusslという3つのオープンソースライブラリ上に構築されている。 OtoWorldは単純なナビゲーションゲームであるGridWorldのオーディオアナログだ。 OtoWorldは、より複雑な環境やゲームに容易に拡張できる。 OtoWorldの1つのエピソードを解決するために、エージェントは聴覚シーンの各音源に向かって移動し、「オフにする」必要がある。 エージェントは、部屋の現在の音以外の入力を受け取らない。 ソースは室内にランダムに配置され、数によって異なる。 エージェントは、ソースをオフにした報酬を受け取る。 我々はOtoWorldでエージェントが勝つ能力について予備的な結果を示す。 OtoWorldはオープンソースで公開されている。

We present OtoWorld, an interactive environment in which agents must learn to listen in order to solve navigational tasks. The purpose of OtoWorld is to facilitate reinforcement learning research in computer audition, where agents must learn to listen to the world around them to navigate. OtoWorld is built on three open source libraries: OpenAI Gym for environment and agent interaction, PyRoomAcoustics for ray-tracing and acoustics simulation, and nussl for training deep computer audition models. OtoWorld is the audio analogue of GridWorld, a simple navigation game. OtoWorld can be easily extended to more complex environments and games. To solve one episode of OtoWorld, an agent must move towards each sounding source in the auditory scene and "turn it off". The agent receives no other input than the current sound of the room. The sources are placed randomly within the room and can vary in number. The agent receives a reward for turning off a source. We present preliminary results on the ability of agents to win at OtoWorld. OtoWorld is open-source and available.
翻訳日:2022-11-11 05:37:26 公開日:2020-07-12
# BaCOUn:非流通不確実性のあるベイズ学級

BaCOUn: Bayesian Classifers with Out-of-Distribution Uncertainty ( http://arxiv.org/abs/2007.06096v1 )

ライセンス: Link先を確認
Th\'eo Gu\'enais, Dimitris Vamvourellis, Yaniv Yacoby, Finale Doshi-Velez, Weiwei Pan(参考訳) ディープ分類器の伝統的なトレーニングは、データセットシフト時に信頼できない過信モデルをもたらす。 深層分類器に対する確実な不確実性推定を実現するためのベイズフレームワークを提案する。 当社のアプローチは,トレーニングデータの境界上にある追加の点群でデータを拡張するために使用されるプラグイン"ジェネレータ"と,これらの"配布外"点を区別するように訓練された特徴の上のベイズ推論で構成される。

Traditional training of deep classifiers yields overconfident models that are not reliable under dataset shift. We propose a Bayesian framework to obtain reliable uncertainty estimates for deep classifiers. Our approach consists of a plug-in "generator" used to augment the data with an additional class of points that lie on the boundary of the training data, followed by Bayesian inference on top of features that are trained to distinguish these "out-of-distribution" points.
翻訳日:2022-11-11 05:30:54 公開日:2020-07-12
# Covariance-Aware Multivariate Probit Model を用いた分散変分オートエンコーダによるマルチラベル分類

Disentangled Variational Autoencoder based Multi-Label Classification with Covariance-Aware Multivariate Probit Model ( http://arxiv.org/abs/2007.06126v1 )

ライセンス: Link先を確認
Junwen Bai, Shufeng Kong, Carla Gomes(参考訳) マルチラベル分類は、表現学習とラベル相関モデリングを含む、複数のターゲットの存在と不在を予測する難しいタスクである。 本稿では,ラベル相関だけでなく潜在埋め込み空間を効果的に学習するマルチラベル分類のための新しいフレームワークである多変量probit variational autoencoder (mpvae)を提案する。 MPVAEはラベルと特徴のための2つの確率的埋め込み空間を学習し整列する。 mpvaeのデコーダは埋め込み空間からサンプルを取り込み、共有共分散行列を学習することにより多変量プロビットモデルの下で出力ターゲットのジョイント分布をモデル化する。 我々はMPVAEが、パブリックな実世界のデータセットを使用して、様々なアプリケーションドメインにおける既存の最先端の手法よりも優れていることを示す。 MPVAEはさらに、ノイズの多い設定で堅牢であることが示されている。 最後に,鳥観察データセットのケーススタディにより,学習した共分散の解釈可能性を示す。

Multi-label classification is the challenging task of predicting the presence and absence of multiple targets, involving representation learning and label correlation modeling. We propose a novel framework for multi-label classification, Multivariate Probit Variational AutoEncoder (MPVAE), that effectively learns latent embedding spaces as well as label correlations. MPVAE learns and aligns two probabilistic embedding spaces for labels and features respectively. The decoder of MPVAE takes in the samples from the embedding spaces and models the joint distribution of output targets under a Multivariate Probit model by learning a shared covariance matrix. We show that MPVAE outperforms the existing state-of-the-art methods on a variety of application domains, using public real-world datasets. MPVAE is further shown to remain robust under noisy settings. Lastly, we demonstrate the interpretability of the learned covariance by a case study on a bird observation dataset.
翻訳日:2022-11-11 05:30:30 公開日:2020-07-12
# 解釈可能な特徴マッピングによる説明可能な勧告と説明可能性の評価

Explainable Recommendation via Interpretable Feature Mapping and Evaluation of Explainability ( http://arxiv.org/abs/2007.06133v1 )

ライセンス: Link先を確認
Deng Pan, Xiangrui Li, Xin Li and Dongxiao Zhu(参考訳) 潜在因子協調フィルタリング (CF) は, ユーザや項目の意味表現を学習し, 推薦システムに広く用いられている手法である。 近年,研究コミュニティから説明可能なレコメンデーションが注目されている。 しかし、説明可能性とレコメンデーションのパフォーマンスの間にはトレードオフが存在し、ジレンマを緩和するためにメタデータがしばしば必要となる。 本稿では,解釈不能な一般特徴を解釈可能なアスペクト特徴にマッピングし,評価予測損失と解釈損失の同時最小化による推薦の精度と説明可能性の両立を図る,新しい特徴マッピング手法を提案する。 説明可能性を評価するために,提案する2つの新しい評価指標について提案する。 実験の結果, 提案と説明の両方において, メタデータの必要性をなくし, 強い性能を示した。 コードはhttps://github.com/pd90506/AMCFから入手できる。

Latent factor collaborative filtering (CF) has been a widely used technique for recommender system by learning the semantic representations of users and items. Recently, explainable recommendation has attracted much attention from research community. However, trade-off exists between explainability and performance of the recommendation where metadata is often needed to alleviate the dilemma. We present a novel feature mapping approach that maps the uninterpretable general features onto the interpretable aspect features, achieving both satisfactory accuracy and explainability in the recommendations by simultaneous minimization of rating prediction loss and interpretation loss. To evaluate the explainability, we propose two new evaluation metrics specifically designed for aspect-level explanation using surrogate ground truth. Experimental results demonstrate a strong performance in both recommendation and explaining explanation, eliminating the need for metadata. Code is available from https://github.com/pd90506/AMCF.
翻訳日:2022-11-11 05:30:15 公開日:2020-07-12
# イラン北部における機械学習アルゴリズムによる土壌有機炭素の予測とマッピング

Predicting and Mapping of Soil Organic Carbon Using Machine Learning Algorithms in Northern Iran ( http://arxiv.org/abs/2007.12475v1 )

ライセンス: Link先を確認
Mostafa Emadi, Ruhollah Taghizadeh-Mehrjardi, Ali Cherati, Majid Danesh, Amir Mosavi, Thomas Scholten(参考訳) 土壌有機炭素量の推定は、土壌の化学的、物理的、生物学的機能を理解する上で最も重要である。 本研究では,支援ベクトルマシン,人工ニューラルネットワーク,回帰木,ランダムフォレスト,極勾配向上,および従来の深部ニューラルネットワークを用いて,SOCの予測モデルを前進させる機械学習アルゴリズムを提案する。 モデルは1879年の複合土壌サンプルと105の補助データで訓練されている。 遺伝的アルゴリズムは、有効な変数を識別するための特徴選択手法として用いられる。 その結果,降水はsoc空間変動率の15%を駆動する最も重要な予測因子であり,次いで正規化差植生指数,中分解能イメージング分光放射計の日温指数,マルチレゾリューション谷底面平坦度,土地利用率の順であった。 10倍のクロスバリデーションに基づいて、DNNモデルは、予測誤差と不確実性が最も低いアルゴリズムとして報告された。 精度の面では、DNNの平均絶対誤差は59パーセント、根平均2乗誤差は75パーセント、判定係数は0.65、リンス一致相関係数は0.83であった。 soc含量は,平均4%,aquicクラス,xericクラスが最も高かった。 密度の深い森林地帯の土壌はSOC含量が最も高かったが,若い地質時代の土壌と沖積扇状地はSOC含量が低かった。 提案したDNNは,地域規模で大量の補助データを処理するための有望なアルゴリズムであり,その柔軟な構造とサンプル観測を囲む補助データからより多くの情報を抽出する能力により,SOC基準線図の予測精度と不確実性を最小限に抑えることができた。

Estimation of the soil organic carbon content is of utmost importance in understanding the chemical, physical, and biological functions of the soil. This study proposes machine learning algorithms of support vector machines, artificial neural networks, regression tree, random forest, extreme gradient boosting, and conventional deep neural network for advancing prediction models of SOC. Models are trained with 1879 composite surface soil samples, and 105 auxiliary data as predictors. The genetic algorithm is used as a feature selection approach to identify effective variables. The results indicate that precipitation is the most important predictor driving 15 percent of SOC spatial variability followed by the normalized difference vegetation index, day temperature index of moderate resolution imaging spectroradiometer, multiresolution valley bottom flatness and land use, respectively. Based on 10 fold cross validation, the DNN model reported as a superior algorithm with the lowest prediction error and uncertainty. In terms of accuracy, DNN yielded a mean absolute error of 59 percent, a root mean squared error of 75 percent, a coefficient of determination of 0.65, and Lins concordance correlation coefficient of 0.83. The SOC content was the highest in udic soil moisture regime class with mean values of 4 percent, followed by the aquic and xeric classes, respectively. Soils in dense forestlands had the highest SOC contents, whereas soils of younger geological age and alluvial fans had lower SOC. The proposed DNN is a promising algorithm for handling large numbers of auxiliary data at a province scale, and due to its flexible structure and the ability to extract more information from the auxiliary data surrounding the sampled observations, it had high accuracy for the prediction of the SOC baseline map and minimal uncertainty.
翻訳日:2022-11-11 05:30:02 公開日:2020-07-12
# バスの顔検出による乗車席利用の枠組み

Framework for Passenger Seat Availability Using Face Detection in Passenger Bus ( http://arxiv.org/abs/2007.05906v1 )

ライセンス: Link先を確認
Khawar Islam, Uzma Afzal(参考訳) インテリジェントトランスポーテーションシステム(IES)の進歩は、バス到着時刻の情報システムを提供し、市内の乗客やバスの数を数えることで、乗客の移動を改善する。 乗客は依然としてバス待ちと座席不利用の問題に直面しており、交通管理や規制当局に悪影響を及ぼしている。 本研究では,カメラ付きバスにおいて,空席,満席,総座席数を数えるための背景減算に基づく顔検出により乗客席の可否を判定するための顔検出フレームワーク(fdf)を提案する。 FDFは、最も近いバス停を特定するために、統合されたスマートフォン利用者アプリケーション(PA)を備えている。 実地試験環境においてFDFを評価した結果,90%の精度が得られた。 私たちの結果は、交通管理の懸念に対処し、乗客の貴重な時間を節約する可能性を秘めています。

Advancements in Intelligent Transportation System (IES) improve passenger traveling by providing information systems for bus arrival time and counting the number of passengers and buses in cities. Passengers still face bus waiting and seat unavailability issues which have adverse effects on traffic management and controlling authority. We propose a Face Detection based Framework (FDF) to determine passenger seat availability in a camera-equipped bus through face detection which is based on background subtraction to count empty, filled, and total seats. FDF has an integrated smartphone Passenger Application (PA) to identify the nearest bus stop. We evaluate FDF in a live test environment and results show that it gives 90% accuracy. We believe our results have the potential to address traffic management concerns and assist passengers to save their valuable time
翻訳日:2022-11-11 05:29:29 公開日:2020-07-12
# 自動ビデオ内視鏡データ解析のための2ストリームDeep Feature Modeling

Two-Stream Deep Feature Modelling for Automated Video Endoscopy Data Analysis ( http://arxiv.org/abs/2007.05914v1 )

ライセンス: Link先を確認
Harshala Gammulle, Simon Denman, Sridha Sridharan, Clinton Fookes(参考訳) 内視鏡検査中に撮影された消化管画像の分析を自動化することは、医療従事者に診断支援を提供し、ヒューマンエラーによるミスを減らすことができるため、患者にとって有益である。 そこで本研究では,内視鏡画像解析のための2ストリームモデルを提案する。 本モデルでは,新たなリレーショナル・ネットワーク・モデルを用いて,特徴の深い入力を2つのストリームに融合させ,症状のモデル化と画像の分類を行う。 手作りの機能ベースモデルとは対照的に、提案するネットワークは、KVASIRとNerthusという2つの公開データセット上で、既存の最先端メソッドを自動で学習し、パフォーマンスを向上させることができる。 当社の広範な評価は,単一のストリームではなく2つの入力ストリームを持つことの重要性を示し,これらストリームを組み合わせるために提案するリレーショナルネットワークアーキテクチャのメリットも示しています。

Automating the analysis of imagery of the Gastrointestinal (GI) tract captured during endoscopy procedures has substantial potential benefits for patients, as it can provide diagnostic support to medical practitioners and reduce mistakes via human error. To further the development of such methods, we propose a two-stream model for endoscopic image analysis. Our model fuses two streams of deep feature inputs by mapping their inherent relations through a novel relational network model, to better model symptoms and classify the image. In contrast to handcrafted feature-based models, our proposed network is able to learn features automatically and outperforms existing state-of-the-art methods on two public datasets: KVASIR and Nerthus. Our extensive evaluations illustrate the importance of having two streams of inputs instead of a single stream and also demonstrates the merits of the proposed relational network architecture to combine those streams.
翻訳日:2022-11-11 05:29:16 公開日:2020-07-12
# ディープラーニングに基づく複合イベント処理とオープントラフィックカメラを用いたOpenStreetMapのトラフィック予測フレームワーク

Traffic Prediction Framework for OpenStreetMap using Deep Learning based Complex Event Processing and Open Traffic Cameras ( http://arxiv.org/abs/2008.00928v1 )

ライセンス: Link先を確認
Piyush Yadav, Dipto Sarkar, Dhaval Salwala, Edward Curry(参考訳) リアルタイムな交通情報を表示することは、デジタルナビゲーションマップの有用な機能である。 しかし、ほとんどの商用プロバイダは、携帯電話から位置情報を取得してトラフィックを見積もるといったプライバシー侵害対策に頼っている。 OpenStreetMap (OSM)上に高度なナビゲーションサービスを構築する上では,オープンデータプラットフォームを使用したオープンソースのトラフィック推定手法が欠如している。 本稿では,トラフィック推定のためのビデオカメラストリームに依存した深層学習に基づく複合イベント処理(CEP)手法を提案する。 提案フレームワークは,OpenStreetMapで可視化された結果とともに,トラフィックに関連する複数の指標を導出するため,カメラクラスタ間でほぼリアルタイムなオブジェクト検出とオブジェクトプロパティ抽出を行う。 物体特性(例えば、車両の速度、カウント、方向)の推定は、一般的な密度に基づく測度を超える混雑のメトリクスと可視化を作成するために活用できる多次元データを提供する。 提案手法は,各車両をサンプルポイントとして,その速度を重量として考慮し,補間中の流量と計数量を組み合わせる。 ロンドン・ストリートから22台の交通カメラを処理し,osm上の多次元交通指標(流量,渋滞推定など)を実演する。 このシステムは、ほぼリアルタイムのパフォーマンスが1.42秒、平均Fスコアが0.80である。

Displaying near-real-time traffic information is a useful feature of digital navigation maps. However, most commercial providers rely on privacy-compromising measures such as deriving location information from cellphones to estimate traffic. The lack of an open-source traffic estimation method using open data platforms is a bottleneck for building sophisticated navigation services on top of OpenStreetMap (OSM). We propose a deep learning-based Complex Event Processing (CEP) method that relies on publicly available video camera streams for traffic estimation. The proposed framework performs near-real-time object detection and objects property extraction across camera clusters in parallel to derive multiple measures related to traffic with the results visualized on OpenStreetMap. The estimation of object properties (e.g. vehicle speed, count, direction) provides multidimensional data that can be leveraged to create metrics and visualization for congestion beyond commonly used density-based measures. Our approach couples both flow and count measures during interpolation by considering each vehicle as a sample point and their speed as weight. We demonstrate multidimensional traffic metrics (e.g. flow rate, congestion estimation) over OSM by processing 22 traffic cameras from London streets. The system achieves a near-real-time performance of 1.42 seconds median latency and an average F-score of 0.80.
翻訳日:2022-11-11 05:28:59 公開日:2020-07-12
# HyperGrid: グリッドワイズで分解可能なハイパープロジェクションを備えた効率的なマルチタスクトランス

HyperGrid: Efficient Multi-Task Transformers with Grid-wise Decomposable Hyper Projections ( http://arxiv.org/abs/2007.05891v1 )

ライセンス: Link先を確認
Yi Tay, Zhe Zhao, Dara Bahri, Donald Metzler, Da-Cheng Juan(参考訳) 自然言語理解タスクで最先端のパフォーマンスを達成するには、通常、すべてのタスクで新鮮なモデルを微調整することに依存する。 このアプローチは、複数のモデルを提供するための高い技術的メンテナンスとともに、全体的なパラメータコストを高くする。 すべてのタスクでうまく機能する単一のマルチタスクモデルを学ぶことは、挑戦的で魅力的な提案でした。 本稿では,高効率マルチタスク学習のための新しいアプローチである \textsc{hypergrid} を提案する。 提案されたアプローチは、異なるタスクのために重み行列の領域を専門化するのに役立つグリッドワイズプロジェクションを学習する非コンポーザブルなハイパーネットワークに基づいている。 提案手法は,グローバルな(タスクに依存しない)状態とローカルなタスク固有状態との間の相互作用と構成を学習する。 提案した \textsc{HyperGrid} を現在の最先端 T5 モデルに適用し,単一マルチタスクモデルのみを使用する場合,GLUE と SuperGLUE ベンチマーク間で強い性能を示す。 本手法は,微調整とマルチタスク学習のギャップを埋めるのに役立つ。

Achieving state-of-the-art performance on natural language understanding tasks typically relies on fine-tuning a fresh model for every task. Consequently, this approach leads to a higher overall parameter cost, along with higher technical maintenance for serving multiple models. Learning a single multi-task model that is able to do well for all the tasks has been a challenging and yet attractive proposition. In this paper, we propose \textsc{HyperGrid}, a new approach for highly effective multi-task learning. The proposed approach is based on a decomposable hypernetwork that learns grid-wise projections that help to specialize regions in weight matrices for different tasks. In order to construct the proposed hypernetwork, our method learns the interactions and composition between a global (task-agnostic) state and a local task-specific state. We apply our proposed \textsc{HyperGrid} on the current state-of-the-art T5 model, demonstrating strong performance across the GLUE and SuperGLUE benchmarks when using only a single multi-task model. Our method helps bridge the gap between fine-tuning and multi-task learning approaches.
翻訳日:2022-11-11 05:28:38 公開日:2020-07-12
# ウェブとソーシャルメディアにおけるスタンス検出 : 比較研究

Stance Detection in Web and Social Media: A Comparative Study ( http://arxiv.org/abs/2007.05976v1 )

ライセンス: Link先を確認
Shalmoli Ghosh, Prajwal Singhania, Siddharth Singh, Koustav Rudra, Saptarshi Ghosh(参考訳) オンラインフォーラムやソーシャルメディアプラットフォームは、異なる人々が異なる姿勢をとるさまざまな極性に関するトピックを議論するために、ますます利用されている。 テキストからの姿勢自動検出手法が文献にいくつか提案されている。 我々の知る限り、再現性とその比較性能に関する体系的な調査は行われていない。 本研究では,神経モデルと古典的分類器モデルの両方を含む既存の姿勢検出モデルの再現性について検討する。 2つのデータセットの実験を通じて -- (i)~人気のSemEvalマイクロブログデータセット、 (ii)→健康関連のオンラインニュース記事のセット -- 様々な方法の詳細な比較分析を行い、その欠点について検討する。 本論文で論じているすべてのアルゴリズムの実装はhttps://github.com/prajwal1210/Stance-Detection-in-Web-and-Social-Mediaで見ることができる。

Online forums and social media platforms are increasingly being used to discuss topics of varying polarities where different people take different stances. Several methodologies for automatic stance detection from text have been proposed in literature. To our knowledge, there has not been any systematic investigation towards their reproducibility, and their comparative performances. In this work, we explore the reproducibility of several existing stance detection models, including both neural models and classical classifier-based models. Through experiments on two datasets -- (i)~the popular SemEval microblog dataset, and (ii)~a set of health-related online news articles -- we also perform a detailed comparative analysis of various methods and explore their shortcomings. Implementations of all algorithms discussed in this paper are available at https://github.com/prajwal1210/Stance-Detection-in-Web-and-Social-Media.
翻訳日:2022-11-11 05:22:18 公開日:2020-07-12
# 合成パターンに基づくデータベース拡張によるホットスポット検出の改善について

On Improving Hotspot Detection Through Synthetic Pattern-Based Database Enhancement ( http://arxiv.org/abs/2007.05879v1 )

ライセンス: Link先を確認
Gaurav Rajavendra Reddy, Constantinos Xanthopoulos and Yiorgos Makris(参考訳) 集積回路(IC)製造における連続技術スケーリングと高度な技術ノードの導入は、常に新しい製造可能性の問題を露呈している。 そのような問題の1つは、設計とプロセスの間の複雑な相互作用から生まれ、デザインホットスポットの問題である。 このようなホットスポットは設計から設計まで様々に知られており、理想的には、ファウンダリーに頼ってすべてのホットスポットのプロセス修正を開発するのではなく、設計段階で早期に予測され、修正されるべきである。 過去には、ホットスポットのデータベースを情報ソースとして利用することで、この問題に対処するための様々な取り組みがなされてきた。 これらの取り組みの大部分は、新しい入ってくるデザインのホットスポットを特定し予測するために、機械学習(ML)またはパターンマッチング(PM)技術を使用する。 しかし、それらのほとんどは、主にホットスポットの根本原因に偏っているため、高い誤警報率に悩まされている。 本研究では,実験(does)を念入りに設計した合成パターン生成による新しいデータベース拡張手法を用いて,この制約に対処する。 産業標準ツールと設計を用いた45nmプロセスにおいて,提案手法の有効性を評価した。

Continuous technology scaling and the introduction of advanced technology nodes in Integrated Circuit (IC) fabrication is constantly exposing new manufacturability issues. One such issue, stemming from complex interaction between design and process, is the problem of design hotspots. Such hotspots are known to vary from design to design and, ideally, should be predicted early and corrected in the design stage itself, as opposed to relying on the foundry to develop process fixes for every hotspot, which would be intractable. In the past, various efforts have been made to address this issue by using a known database of hotspots as the source of information. The majority of these efforts use either Machine Learning (ML) or Pattern Matching (PM) techniques to identify and predict hotspots in new incoming designs. However, almost all of them suffer from high false-alarm rates, mainly because they are oblivious to the root causes of hotspots. In this work, we seek to address this limitation by using a novel database enhancement approach through synthetic pattern generation based on carefully crafted Design of Experiments (DOEs). Effectiveness of the proposed method against the state-of-the-art is evaluated on a 45nm process using industry-standard tools and designs.
翻訳日:2022-11-11 05:22:05 公開日:2020-07-12
# 実値関数に対する谷本型核の一般化について

On the generalization of Tanimoto-type kernels to real valued functions ( http://arxiv.org/abs/2007.05943v1 )

ライセンス: Link先を確認
Sandor Szedmak (1) Eric Bach (1) ((1) Department of Computer Science, Aalto University)(参考訳) 谷本カーネル(Jaccard index)は、バイナリ属性の集合間の類似性を記述するためのよく知られたツールである。 属性が非負の実値である場合に拡張されている。 本稿では,任意の実数値関数の類似性を測る,より一般的な谷本カーネルの定式化を提案する。 この拡張は、適切に選択された集合を通して属性の表現を統一することで構成される。 カーネルの一般形式を導出した後、カーネル関数から明示的な特徴表現を抽出し、一般カーネルを谷本カーネルに単純に組み込む方法を示す。 最後に、カーネルを分割線形関数の商として表現し、滑らかな近似を提供する。

The Tanimoto kernel (Jaccard index) is a well known tool to describe the similarity between sets of binary attributes. It has been extended to the case when the attributes are nonnegative real values. This paper introduces a more general Tanimoto kernel formulation which allows to measure the similarity of arbitrary real-valued functions. This extension is constructed by unifying the representation of the attributes via properly chosen sets. After deriving the general form of the kernel, explicit feature representation is extracted from the kernel function, and a simply way of including general kernels into the Tanimoto kernel is shown. Finally, the kernel is also expressed as a quotient of piecewise linear functions, and a smooth approximation is provided.
翻訳日:2022-11-11 05:21:24 公開日:2020-07-12
# 逆グラフ識別:グラフラベルを持つノードラベルを特定できるか?

Inverse Graph Identification: Can We Identify Node Labels Given Graph Labels? ( http://arxiv.org/abs/2007.05970v1 )

ライセンス: Link先を確認
Tian Bian, Xi Xiao, Tingyang Xu, Yu Rong, Wenbing Huang, Peilin Zhao, Junzhou Huang(参考訳) グラフ識別(gi)は、グラフ学習において長い間研究されており、特定の応用(例えば社会コミュニティ検出)において必須である。 具体的には、ノードの特徴とエッジ接続のコレクションから、ターゲットグラフのラベル/スコアを予測する必要がある。 このタスクは一般的なものだが、より複雑なケースが実際に発生する。例えば、異なるコミュニティのラベルが与えられたら、同様のユーザをソーシャルネットワークにグループ化するなど、逆の処理を行う必要がある。 それらが属するグラフのラベルを与えられたノードを識別できるか? そこで本稿では,giとは対照的に逆グラフ同定(igi)と呼ばれる新しい問題を定義する。 igiの変種についての公式な議論を行い、異なるグラフ間の接続をさらに特徴付ける階層グラフを用いて、グラフラベルとノードの特徴を利用して、ノードクラスタリングの特定のケーススタディを選択した。 そこで本研究では,giのプロトコルに基づくグラフアテンションネットワーク(gat)を用いたノードレベルのメッセージパッシング処理を行い,ガウス混合層(gml)を介して各ノードのカテゴリを推定する,単純かつ効果的な手法であるガウス混合グラフ畳み込みネットワーク(gmgcn)を提案する。 GMGCNのトレーニングは階層グラフの構造を活用するために提案されたコンセンサス損失によってさらに促進される。 igiの定式化の合理性をテストするために広範な実験を行った。 提案手法は,これまでに構築したベンチマークのベースラインと比較し,精度を検証した。 IGI問題に対する研究的な関心を高めるため、私たちはベンチマークデータとともにコードをリリースします。

Graph Identification (GI) has long been researched in graph learning and is essential in certain applications (e.g. social community detection). Specifically, GI requires to predict the label/score of a target graph given its collection of node features and edge connections. While this task is common, more complex cases arise in practice---we are supposed to do the inverse thing by, for example, grouping similar users in a social network given the labels of different communities. This triggers an interesting thought: can we identify nodes given the labels of the graphs they belong to? Therefore, this paper defines a novel problem dubbed Inverse Graph Identification (IGI), as opposed to GI. Upon a formal discussion of the variants of IGI, we choose a particular case study of node clustering by making use of the graph labels and node features, with an assistance of a hierarchical graph that further characterizes the connections between different graphs. To address this task, we propose Gaussian Mixture Graph Convolutional Network (GMGCN), a simple yet effective method that makes the node-level message passing process using Graph Attention Network (GAT) under the protocol of GI and then infers the category of each node via a Gaussian Mixture Layer (GML). The training of GMGCN is further boosted by a proposed consensus loss to take advantage of the structure of the hierarchical graph. Extensive experiments are conducted to test the rationality of the formulation of IGI. We verify the superiority of the proposed method compared to other baselines on several benchmarks we have built up. We will release our codes along with the benchmark data to facilitate more research attention to the IGI problem.
翻訳日:2022-11-11 05:21:14 公開日:2020-07-12
# 状態空間期待伝播:時間的ガウス過程の効率的な推論スキーム

State Space Expectation Propagation: Efficient Inference Schemes for Temporal Gaussian Processes ( http://arxiv.org/abs/2007.05994v1 )

ライセンス: Link先を確認
William J. Wilkinson, Paul E. Chang, Michael Riis Andersen, Arno Solin(参考訳) 非共役時空間および時空間ガウス過程モデルにおけるベイズ近似をカルマン平滑化時に適用される単純なパラメータ更新規則として定式化する。 この観点は、予測伝播(EP)、古典的(拡張、非強調など)カルマンスムーダー、変分推論など、ほとんどの推論スキームを含んでいる。 これらのアルゴリズムの統一的な視点を提供し、パワーepモーメントマッチングステップを線形化に置き換えることで、古典的なスムーザをいかに回復するかを示す。 EPは、いわゆる空洞分布を導入することによって従来の手法よりもいくつかの利点を提供し、これらの利点を線形化の計算効率と組み合わせ、この統一フレームワークの下で様々なアルゴリズムの有効性を示す広範な実証分析を提供する。 JAXですべてのメソッドを高速に実装します。

We formulate approximate Bayesian inference in non-conjugate temporal and spatio-temporal Gaussian process models as a simple parameter update rule applied during Kalman smoothing. This viewpoint encompasses most inference schemes, including expectation propagation (EP), the classical (Extended, Unscented, etc.) Kalman smoothers, and variational inference. We provide a unifying perspective on these algorithms, showing how replacing the power EP moment matching step with linearisation recovers the classical smoothers. EP provides some benefits over the traditional methods via introduction of the so-called cavity distribution, and we combine these benefits with the computational efficiency of linearisation, providing extensive empirical analysis demonstrating the efficacy of various algorithms under this unifying framework. We provide a fast implementation of all methods in JAX.
翻訳日:2022-11-11 05:20:38 公開日:2020-07-12
# 密度比推定によるテキスト生成における最大習熟の改善

Improving Maximum Likelihood Training for Text Generation with Density Ratio Estimation ( http://arxiv.org/abs/2007.06018v1 )

ライセンス: Link先を確認
Yuxuan Song, Ning Miao, Hao Zhou, Lantao Yu, Mingxuan Wang, Lei Li(参考訳) 最大確率推定で学習した自己回帰シーケンス生成モデルでは, 実例としての露出バイアス問題が発生する。 cruxは、最大確率推定のためのトレーニングサンプルの数は、通常制限され、入力データ分布は、トレーニングと推論の段階で異なる。 上記の問題を解くために多くの方法が提案され(Yu et al., 2017; Lu et al., 2018)、これは非定常モデル分布からのサンプリングに依存し、高い分散や偏りの推定に悩まされている。 本稿では,テキスト生成時に発生する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニングスキームである{\psi}-MLEを提案する。 我々は自己拡張の新しい視点からアルゴリズムを導出し、密度比推定によるバイアス補正を導入する。 合成データおよび実世界のテキスト生成タスクに関する広範な実験結果から,本手法は品質と多様性の両面において,最大確率推定や他の最先端シーケンス生成モデルよりも安定的に優れることが示された。

Auto-regressive sequence generative models trained by Maximum Likelihood Estimation suffer the exposure bias problem in practical finite sample scenarios. The crux is that the number of training samples for Maximum Likelihood Estimation is usually limited and the input data distributions are different at training and inference stages. Many method shave been proposed to solve the above problem (Yu et al., 2017; Lu et al., 2018), which relies on sampling from the non-stationary model distribution and suffers from high variance or biased estimations. In this paper, we propose{\psi}-MLE, a new training scheme for auto-regressive sequence generative models, which is effective and stable when operating at large sample space encountered in text generation. We derive our algorithm from a new perspective of self-augmentation and introduce bias correction with density ratio estimation. Extensive experimental results on synthetic data and real-world text generation tasks demonstrate that our method stably outperforms Maximum Likelihood Estimation and other state-of-the-art sequence generative models in terms of both quality and diversity.
翻訳日:2022-11-11 05:13:27 公開日:2020-07-12
# 記録リンクに対する視覚質問応答の最近の進歩

Applying recent advances in Visual Question Answering to Record Linkage ( http://arxiv.org/abs/2007.05881v1 )

ライセンス: Link先を確認
Marko Smilevski(参考訳) マルチモーダルレコードリンク(Multi-modal Record Linkage)は、同じエンティティを表す複数のソースからのマルチモーダルレコードをマッチングするプロセスである。 この分野での研究は行われておらず、近年のVisual Question Answeringに触発されたディープラーニングアーキテクチャに基づく2つのソリューションを提案する。 提案するニューラルネットワークは,2つの異なる融合モジュール,Recurrent Neural Network + Convolutional Neural Network fusionモジュールとStacked Attention Network fusionモジュールを使用する。 これらの融合モデルの出力は、レコードの類似性を計算するシャムニューラルネットワークの入力である。 Avito Duplicate @s Detectionデータセットからのデータを用いて、これらのソリューションをトレーニングし、実験から、リカレントニューラルネットワーク+畳み込みニューラルネットワーク融合モジュールは手作りの機能を使った単純なモデルよりも優れていると結論付けた。 また、recurrent neural network + convolutional neural network fusion moduleは、平均的な記述が40語以上であれば、類似した広告をより頻繁に類似させる。 この理由は、長い広告が異なる分布を持つほど、データセットでより普及する広告が短くなるからだと結論付けている。 最後に,融合モジュールの性能に対する視覚データの影響をさらに探究するために,スタック型アテンションネットワークでさらなる研究を行う必要があると結論づけた。

Multi-modal Record Linkage is the process of matching multi-modal records from multiple sources that represent the same entity. This field has not been explored in research and we propose two solutions based on Deep Learning architectures that are inspired by recent work in Visual Question Answering. The neural networks we propose use two different fusion modules, the Recurrent Neural Network + Convolutional Neural Network fusion module and the Stacked Attention Network fusion module, that jointly combine the visual and the textual data of the records. The output of these fusion models is the input of a Siamese Neural Network that computes the similarity of the records. Using data from the Avito Duplicate Advertisements Detection dataset, we train these solutions and from the experiments, we concluded that the Recurrent Neural Network + Convolutional Neural Network fusion module outperforms a simple model that uses hand-crafted features. We also find that the Recurrent Neural Network + Convolutional Neural Network fusion module classifies dissimilar advertisements as similar more frequently if their average description is bigger than 40 words. We conclude that the reason for this is that the longer advertisements have a different distribution then the shorter advertisements who are more prevalent in the dataset. In the end, we also conclude that further research needs to be done with the Stacked Attention Network, to further explore the effects of the visual data on the performance of the fusion modules.
翻訳日:2022-11-11 05:13:08 公開日:2020-07-12
# 戦略的探索と高速逆移動のための抽象モデル学習

Learning Abstract Models for Strategic Exploration and Fast Reward Transfer ( http://arxiv.org/abs/2007.05896v1 )

ライセンス: Link先を確認
Evan Zheran Liu, Ramtin Keramati, Sudarshan Seshadri, Kelvin Guu, Panupong Pasupat, Emma Brunskill, Percy Liang(参考訳) モデルベース強化学習(rl)が魅力的な理由 (i)計画とより戦略的な探査を可能にし、 (ii) 報酬からダイナミクスを分離することで、新たな報酬機能への迅速な転送を可能にする。 しかし、高次元状態(例えば原画素)上で正確なマルコフ決定過程(MDP)を学ぶことは、関数近似を必要とするため非常に難しい。 代わりに、エラーの複合を避けるために、抽象的なmdpを学習することを提案する: 状態の低次元粗い表現(例えば、エージェントの位置を捉えたり、他のオブジェクトを無視したり)。 具体的な状態を抽象状態にマッピングする抽象関数へのアクセスを想定する。 提案手法では,計画による戦略的探索を通じて成長する抽象的MDPを構築する。 階層的RLアプローチと同様に、抽象MDPの抽象的な動作は、抽象状態の間を移動する学習サブポリケーションによって支えられている。 本手法は,モンテズマのRevenge,Pitfall!,Private Eyeの3つの最も難しいアーケード学習環境ゲーム(Montezuma's Revenge,Pitfall!,Private Eye! 1つのタスクでトレーニングした後、学習した抽象的MDPを新しい報酬関数に再利用することができ、スクラッチからトレーニングしたモデルフリーメソッドよりも1000倍少ないサンプルで報酬を得ることができる。

Model-based reinforcement learning (RL) is appealing because (i) it enables planning and thus more strategic exploration, and (ii) by decoupling dynamics from rewards, it enables fast transfer to new reward functions. However, learning an accurate Markov Decision Process (MDP) over high-dimensional states (e.g., raw pixels) is extremely challenging because it requires function approximation, which leads to compounding errors. Instead, to avoid compounding errors, we propose learning an abstract MDP over abstract states: low-dimensional coarse representations of the state (e.g., capturing agent position, ignoring other objects). We assume access to an abstraction function that maps the concrete states to abstract states. In our approach, we construct an abstract MDP, which grows through strategic exploration via planning. Similar to hierarchical RL approaches, the abstract actions of the abstract MDP are backed by learned subpolicies that navigate between abstract states. Our approach achieves strong results on three of the hardest Arcade Learning Environment games (Montezuma's Revenge, Pitfall!, and Private Eye), including superhuman performance on Pitfall! without demonstrations. After training on one task, we can reuse the learned abstract MDP for new reward functions, achieving higher reward in 1000x fewer samples than model-free methods trained from scratch.
翻訳日:2022-11-11 05:12:43 公開日:2020-07-12
# 視覚条件付き長文列生成のためのスパースグラフとシーケンス学習

Sparse Graph to Sequence Learning for Vision Conditioned Long Textual Sequence Generation ( http://arxiv.org/abs/2007.06077v1 )

ライセンス: Link先を確認
Aditya Mogadala and Marius Mosbach and Dietrich Klakow(参考訳) 視覚情報に基づいて長いテキストシーケンスを生成することは興味深い問題である。 ここでの課題は、視覚内容を記述する簡潔で一貫性のあるストーリーを作成するのに必要な、標準的な視覚条件付き文レベルの生成(例えば、画像やビデオキャプション)にまたがる。 本稿では,このビジョン・トゥ・シーケンスをグラフ・トゥ・シーケンス学習問題としてカバーし,トランスフォーマティブ・アーキテクチャを用いてアプローチする。 具体的には、SGST(Sparse Graph-to-Sequence Transformer)を導入し、グラフの符号化とシーケンスの復号を行う。 エンコーダはグラフレベルのセマンティクスを直接エンコードすることを目的としており、デコーダは長いシーケンスを生成するために使用される。 ベンチマーク画像パラグラフデータセットを用いて行った実験により,提案手法が従来の最先端手法と比較した場合,cider評価尺度を13.3%改善できることが確認された。

Generating longer textual sequences when conditioned on the visual information is an interesting problem to explore. The challenge here proliferate over the standard vision conditioned sentence-level generation (e.g., image or video captioning) as it requires to produce a brief and coherent story describing the visual content. In this paper, we mask this Vision-to-Sequence as Graph-to-Sequence learning problem and approach it with the Transformer architecture. To be specific, we introduce Sparse Graph-to-Sequence Transformer (SGST) for encoding the graph and decoding a sequence. The encoder aims to directly encode graph-level semantics, while the decoder is used to generate longer sequences. Experiments conducted with the benchmark image paragraph dataset show that our proposed achieve 13.3% improvement on the CIDEr evaluation measure when comparing to the previous state-of-the-art approach.
翻訳日:2022-11-11 05:12:09 公開日:2020-07-12
# 説明可能な人工知能のための局所性誘導ニューラルネットワーク

Locality Guided Neural Networks for Explainable Artificial Intelligence ( http://arxiv.org/abs/2007.06131v1 )

ライセンス: Link先を確認
Randy Tan, Naimul Khan, and Ling Guan(参考訳) 現在のディープネットワークアーキテクチャでは、ネットワークの深い層は数百の独立したニューロンを含む傾向があるため、人間が互いにどう相互作用するかを理解するのが難しくなっている。 ニューロンを相互に関連づけることで、近隣のニューロンのクラスターがどのように相互作用するかを観察することができる。 本稿では,ディープネットワークの各層における隣接ニューロン間の局所性を保持する学習ネットワークのための,局所性誘導ニューラルネットワーク(lgnn)と呼ばれる新しいバック伝播アルゴリズムを提案する。 自己組織化マップ (SOM) に強く動機づけられた目標は、深層ネットワークの各層に局所的なトポロジーを強制することであり、近隣のニューロンは互いに高い相関関係にある。 この方法は、現在のAIメソッドのブラックボックスの性質を緩和し、人間によって理解できるようにすることを目的としている、説明可能な人工知能(XAI)の領域に寄与する。 提案手法は,現行モデルの構造を変更したり,ポスト処理を必要とせずに,深層学習におけるXAIの実現を目的としている。 本稿では、畳み込みニューラルネットワーク(CNN)に焦点を当てるが、理論的にはあらゆる種類のディープラーニングアーキテクチャに適用できる。 実験では,CIFAR100 上の画像分類のための様々な VGG と Wide ResNet (WRN) ネットワークを訓練した。 定性的および定量的な結果を示す奥行き解析において,本手法は分類精度を小さく向上しつつ,各層にトポロジーを適用できることを実証する。

In current deep network architectures, deeper layers in networks tend to contain hundreds of independent neurons which makes it hard for humans to understand how they interact with each other. By organizing the neurons by correlation, humans can observe how clusters of neighbouring neurons interact with each other. In this paper, we propose a novel algorithm for back propagation, called Locality Guided Neural Network(LGNN) for training networks that preserves locality between neighbouring neurons within each layer of a deep network. Heavily motivated by Self-Organizing Map (SOM), the goal is to enforce a local topology on each layer of a deep network such that neighbouring neurons are highly correlated with each other. This method contributes to the domain of Explainable Artificial Intelligence (XAI), which aims to alleviate the black-box nature of current AI methods and make them understandable by humans. Our method aims to achieve XAI in deep learning without changing the structure of current models nor requiring any post processing. This paper focuses on Convolutional Neural Networks (CNNs), but can theoretically be applied to any type of deep learning architecture. In our experiments, we train various VGG and Wide ResNet (WRN) networks for image classification on CIFAR100. In depth analyses presenting both qualitative and quantitative results demonstrate that our method is capable of enforcing a topology on each layer while achieving a small increase in classification accuracy
翻訳日:2022-11-11 05:11:51 公開日:2020-07-12
# 医療AIの意思決定を改善するためのアンサンブル学習者の不確かさの爆発

Exploiting Uncertainties from Ensemble Learners to Improve Decision-Making in Healthcare AI ( http://arxiv.org/abs/2007.06063v1 )

ライセンス: Link先を確認
Yingshui Tan, Baihong Jin, Xiangyu Yue, Yuxin Chen, Alberto Sangiovanni Vincentelli(参考訳) アンサンブル学習は機械学習(ml)に広く適用され、モデルのパフォーマンスを改善し、意思決定のリスクを軽減している。 このアプローチでは,多様な学習者の集合からの予測を組み合わせて共同決定を行う。 近年,アンサンブル学習を用いた意思決定の不確実性推定のための様々な手法が研究されているが,特定の意思決定アプリケーションに適合する指標を決定することは課題である。 本稿では,不確実性メトリクスの選択において,次のような重要な研究課題について検討する。 我々は,アンサンブル学習における2つの一般的な不確実性指標,すなわちアンサンブル平均とアンサンブル分散の厳密な分析を通じて,この問題に答える。 その結果,アンサンブル学習者の軽度仮定の下では,アンサンブル平均は意思決定の不確実性指標として,アンサンブル分散が望ましいことがわかった。 糖尿病性網膜症と診断する症例を広範囲に検討し,その仮説と理論的結果を実証的に検証した。

Ensemble learning is widely applied in Machine Learning (ML) to improve model performance and to mitigate decision risks. In this approach, predictions from a diverse set of learners are combined to obtain a joint decision. Recently, various methods have been explored in literature for estimating decision uncertainties using ensemble learning; however, determining which metrics are a better fit for certain decision-making applications remains a challenging task. In this paper, we study the following key research question in the selection of uncertainty metrics: when does an uncertainty metric outperforms another? We answer this question via a rigorous analysis of two commonly used uncertainty metrics in ensemble learning, namely ensemble mean and ensemble variance. We show that, under mild assumptions on the ensemble learners, ensemble mean is preferable with respect to ensemble variance as an uncertainty metric for decision making. We empirically validate our assumptions and theoretical results via an extensive case study: the diagnosis of referable diabetic retinopathy.
翻訳日:2022-11-11 05:11:15 公開日:2020-07-12